VIsualisasi Dengan Matplotlib
VIsualisasi Dengan Matplotlib
Visualisasi Data adalah adalah tampilan berupa grafis atau visual dari informasi dan data. Dengan
kata lain, data visualization mengubah kumpulan data menjadi hal lebih sederhana untuk
ditampilkan. Dengan menggunakan elemen visual tersebut, pembaca akan lebih mudah memahami
tren, outliers, dan pola dalam suatu data. Dalam bisnis, data visualization memungkinkan para
pembuat keputusan untuk melihat analitik yang disajikan secara visual.
Dalam python sebenarnya banyak sekali library untuk melakukan analisis dengan metode visualisasi
data. Beberapa librarynya adalah matplotlib dan seaborn. Pada pertemuan kali ini, kita akan
membahas visualisasi data menggunakan matplotlib. Untuk menggunakan library tersebut
sebelumnya perlu mengetik pip install matplotlib==3.4.0 serta pip install numpy pada cmd untuk
menginstall library matplotlib dan numpy.
Setelah selesai dalam melakukan proses instalasi, langkah pertama adalah mengimport library yang
akan digunakan yaitu
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
selanjutnya, kita mengenal terlebih dahulu pembuatan grafik dasar menggunakan matplotlib
dengan perintah sebagai berikut
barh=plt.bar(["a","b","c"], [1,2,3])
disini terlihat bahwa penggunakan sumbu x dan sumbu y dengan tipe data list. setelah kita paham
tipe data yang diinginkan oleh matplotlib selanjutnya kita dapat mengimport file csv untuk
dilakukan analisis. kita dapat menggunakan file cereal.csv seperti analisis pada pandas minggu
kemarin.
df=pd.read_csv("cereal.csv")
sebelum kita lebih jauh melangkah ada baiknya kita tahu perbedaan data kategoris dan data
numerik untuk membedakan analisis data berdasarkan jenis data tersebut. berikut penjelasannya,
Data kategoris adalah nilai untuk variabel kualitatif, seringkali berupa angka, kata, atau simbol.
Mereka menunjukkan fakta bahwa variabel dalam kasus yang dipertimbangkan termasuk dalam
salah satu dari beberapa pilihan yang tersedia
Data numerik adalah nilai-nilai yang diperoleh untuk variabel kuantitatif, dan mengandung arti
besarnya yang terkait dengan konteks variabel (oleh karena itu, selalu berupa angka atau simbol
yang membawa nilai numerik)
selanjutnya, mari kita mulai kebeberapa grafik pada analisis visualisasi data.
1. Barplot
Pembuatan analisis visualisasi data dengan menggunakan barplot biasanya digunakan untuk
menganalisa 1 variable categorical contohnya sebagai berikut.
plt.rcParams.update({'font.size': 30})
plt.figure(figsize=(20,20))
bar=plt.bar(df_histogram['mfr'], df_histogram['name'], color='#444444')
Gambar 1 Barplot
x_high=[]
x_small=[]
y_high=[]
y_small=[]
plt.figure(figsize=(15,15))
plt.xlabel('pabrik')
plt.ylabel('jumlah barang')
plt.title('Produksi Cereal')
bar1=plt.barh(x_small, y_small, color='#a9a9a9')
bar2=plt.barh(x_high,y_high, color='#444444')
plt.bar_label(bar1, padding=3)
plt.bar_label(bar2, padding=3)
3. Histogram
Pembuatan analisis visualisasi data dengan menggunakan Horizontal barplot biasanya digunakan
untuk menganalisa 1 variable numerik. Biasanya, histogram digunakan untuk menghitung jumlah
frekuensi pada sebuah data atau rentang tertentu.
plt.figure(figsize=(20,20))
plt.hist(df['calories'])
plt.xlabel('calories')
plt.ylabel('Frequency')
plt.title('Histogram of Calories')
plt.show()
Gambar 3 Histogram
df_stacked=df.groupby('mfr').mean().reset_index()
df_stacked
plt.figure(figsize=(20,20))
width = 0.35
bar3=plt.bar(df_stacked['mfr'], df_stacked['protein'], width, label='protein')
bar4=plt.bar(df_stacked['mfr'], df_stacked['fat'],width,label='fat')
plt.legend()
plt.bar_label(bar3)
plt.bar_label(bar4)
plt.title('Grafik Perbandingan Rata-Rata Protein dan fat pada Data Pabrik Cereal')
Gambar 4 Stacked Bar Chart
import numpy as np
plt.figure(figsize=(20,20))
Selain data Kategorik dan Numerik kita juga dapat melakukan visualisasi data pada data time series.
analisis time series adalah cara khusus untuk menganalisis urutan titik data yang dikumpulkan
selama interval waktu tertentu. berikut penggunaan grafiknya seperti pada grafik dibawah ini,
6. Line Plot
line plot digunakan untuk melakukan plotting pada data time series, biasanya kita kenal sebagai
grafik garis.
minutes = [1, 2, 3, 4, 5, 6, 7, 8, 9]
player1 = [1, 2, 3, 3, 4, 4, 4, 4, 5]
player2 = [1, 1, 1, 1, 2, 2, 2, 3, 4]
player3 = [1, 1, 1, 2, 2, 2, 3, 3, 3]
plt.figure(figsize=(10,10))
plt.plot(minutes,player1, color = 'r')
Gambar 6 Line Plot
plt.figure(figsize=(10,10))
plt.scatter(minutes,player1, color = 'r')
8. Area Plot
Pada dasarnya mirip seperti line plot, namun Area plot adalah kumpulan line plot dan membentuk
arsiran pada grafiknya.
plt.figure(figsize=(10,10))
plt.fill_between(minutes,player1, color = 'r')
plt.figure(figsize=(10,10))
plt.plot(minutes,player1, color = 'r')
plt.plot(minutes,player2, color = 'b')
sumber:
- https://matplotlib.org/
- https://matplotlib.org/stable/gallery/lines_bars_and_markers/categorical_variables.html
- https://medium.com/@ranggaantok/intro-to-descriptive-statistic-memahami-tipe-data-
d3555757f9eb
- https://www.dqlab.id/kenali-jenis-data-statistik-yang-sering-digunakan-beserta-
contohnya#:~:text=Data%20kuantitatif%20dibagi%20dua%20jenis,manik%20dalam%20kantong%2
C%20dan%20lain