100% menganggap dokumen ini bermanfaat (1 suara)
335 tayangan47 halaman

Menelaah Data (Data Understanding 2)

Modul ini membahas visualisasi data untuk memahami dataset lebih dalam. Berbagai jenis visualisasi dijelaskan seperti pie chart, bar chart, line graph, scatter plot dan heatmap untuk melihat variabel dan statistik dalam data. Mahasiswa diajak membuat visualisasi secara langsung untuk mempelajari tekniknya.

Diunggah oleh

Teguh
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
100% menganggap dokumen ini bermanfaat (1 suara)
335 tayangan47 halaman

Menelaah Data (Data Understanding 2)

Modul ini membahas visualisasi data untuk memahami dataset lebih dalam. Berbagai jenis visualisasi dijelaskan seperti pie chart, bar chart, line graph, scatter plot dan heatmap untuk melihat variabel dan statistik dalam data. Mahasiswa diajak membuat visualisasi secara langsung untuk mempelajari tekniknya.

Diunggah oleh

Teguh
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 47

Data Understanding 2:

Menelaah Data dengan


Visualisasi
Tujuan Pembelajaran
● Modul ini berisi penjelasan mengenai modul
visualisasi.
● Visualisasi akan dijelaskan dalam bentuk visualisasi
variable dan visualisasi untuk menjelaskan statistic
dalam suatu dataset.
● Mahasiswa diharapkan mendapat insight,
pengalaman, dan memiliki kemampuan untuk
melakukan visualisasi data sesuai dengan kebutuhan.

2
Outline
Visualisasi variabel Visualisasi Statistik
○ Pie Chart ○ Histogram
○ Bar Chart ○ Correlation
○ Line Graphs ○ Descriptive Statistik
○ Scatter Plot ○ Grouping (Pivot)
○ Heatmap ○ ANOVA

3
Visualisasi
● Visualisasi berperan peran penting dalam bidang
machine learning dan data science. Seringkali kita
perlu menyaring informasi kunci yang ditemukan
dalam sejumlah data data menjadi bentuk yang
bermakna dan mudah dicerna.
● Visualisasi yang baik dapat menceritakan sebuah
cerita tentang data Anda dengan cara yang tidak
dapat dilakukan oleh sebuah kalimat.

4
Pie Chart
● Pie chart digunakan untuk
menunjukkan seberapa banyak dari
setiap jenis kategori dalam dataset
berbanding dengan keseluruhan.
○ Variabel label berisi tupel rasa
es krim
○ Variabel voting berisi tupel
voting
○ Data tersebut mewakili jumlah
voting rase es krim favorit

5
Pie Chart (Hands-on)
Import library

Data

Warna chart

Highlight data “mango”


Judul pie chart

Visualisasi pie
chart

6
Bar Chart
● Bar Chart merupakan tools
visualisasi yang dapat digunakan
untuk membandingkan data
kategorikal.
● Mirip dengan diagram lingkaran,
diagram ini dapat digunakan untuk
membandingkan kategori data satu
sama lain.
● Diagram batang dapat menampilkan
lebih banyak kategori data daripada
diagram lingkaran.

7
Bar Chart
● Mari kita mulai dengan melihat
diagram batang yang menunjukkan
populasi setiap negara di Amerika
Selatan.
● Visualisasi ditunjukkan dengan cara
mengurutkan dari negara yang
memiliki populasi terbesar ke
populasi terendah.
● Highlight ditunjukkan untuk negara
Colombia

8
Bar Chart (Hands-on)
Import library

Data

Convert menjadi dataframe

Urut berdasarkan “Population”

Atur warna chart

Visualisasi Bar Chart

9
Line Graph
● Line Graph adalah bentuk visualisasi
lainya selain diagram lingkaran dan
diagram batang.
● Diagram garis lebih berguna untuk
menunjukkan bagaimana kemajuan
data selama beberapa periode.
● Misalnya, grafik garis dapat berguna
dalam membuat grafik temperatur dari
waktu ke waktu, harga saham dari
waktu ke waktu, berat menurut hari,
atau metrik berkelanjutan lainnya.

10
Line Graph
● Kita akan membuat grafik garis
yang sangat sederhana di
bawah ini. Data yang kita miliki
adalah suhu dalam celcius dan
jam dalam sehari untuk satu
hari dan lokasi.
● Anda dapat melihat bahwa
untuk membuat grafik garis kita
menggunakan metode plt.plot
().

11
Line Graph
● Kita bahkan dapat memiliki
beberapa garis pada grafik
yang sama didalam satu
gambar
● Biasanya kita
mengilustrasikan dua line
graph untuk menggambarkan
dua data yaitu data aktual
dan data prediksi.

12
Line Graph (Hands-On)
Import library

Data

Menambah tanda “x”

Visualisasi linegraph

13
Line Graph (Hands-On)
Import library

Data

Memberi garis putus-putus

Judul
Nama label “Y”
Nama label “X”

14
Scatter Plot
● Scatter plot berfungsi baik untuk
data dengan dua komponen
numerik.
● Scatter plot dapat memberikan
informasi yang berguna terutama
mengenai pola atau pencilan.
● Pada contoh di bawah ini, kita
memiliki data yang terkait dengan
perbedaan lemon dan lime
berdasarkan karakteristik fisiologis.
○ Berat (g)
○ Diameter (cm)

15
Scatter Plot (Hands-On)
Import library

Data

Judul
Nama label

Visualisasi Scatter Plot

16
Heatmap
● Heatmap adalah jenis
visualisasi yang menggunakan
kode warna untuk mewakili
nilai / kepadatan relatif data di
seluruh permukaan.
● Warna-warna ini kemudian
dapat digunakan untuk
memeriksa data secara visual
guna menemukan kelompok
dengan nilai serupa dan
mendeteksi trend dalam data.

17
Heatmap
● Kita akan bekerja dengan data
tentang temperatur rata-rata
setiap bulan untuk 12 kota
terbesar di dunia. Untuk membuat
heatmap ini, kita akan
menggunakan library Seaborn.
● Seaborn adalah library
visualisasi yang dibangun di atas
Matplotlib.
● Library ini menyediakan
antarmuka tingkat yang lebih
tinggi dan dapat membuat grafik
yang lebih menarik
18
Heatmap (Hands-On)
Import library

Data

Visualisasi heatmap dengan colormap “coolwarm”

19
Histogram
● Histogram adalah salah satu
visualisasi yang cukup penting dalam
memahami distribusi pada data kita.
Pandas Histogram menyediakan
method yang memudahkan kita
untuk membuat histogram.
● Plot histogram secara tradisional
hanya membutuhkan satu dimensi
data.
● Ini dimaksudkan untuk menunjukkan
jumlah nilai atau kumpulan nilai
secara serial.

20
Histogram
● Data yang digunakan adalah data spesifikasi mobil
dari berbagai merk

21
Histogram
● Pandas DataFrame.hist() akan
mengambil DataFrame kita dan
menampilkan plot histogram yang
menunjukkan distribusi nilai dalam
satu seri.
● Untuk membuat histogram di
pandas, yang perlu kita lakukan
adalah memberi tahu panda kolom
mana yang ingin kita berikan
datanya. Dalam hal ini, melihat
distribusi harga (histogram).

22
Histogram
● Kita juga dapat memplot
beberapa grup secara
berdampingan. Di sini ingin
melihat dua histogram, histogram
price akan dikelompokkan
berdasarkan roda penggerak dari
kendaraan (fwd – berpenggerak
roda depan, 4wd – berpenggerak
4 roda, atau rwd – pengerak
belakang.

23
Histogram (Hands-On)
Import library

Visualisasi histogram
dari kolom “Price”

24
Histogram (Hands-On)
Import library

Visualisasi
histogram data
“bore” dan “stroke”

Nama label

25
Correlation & Causation
● Korelasi merupakan suatu pengukuran
sejauh mana nilai saling ketergantungan
antar variabel.
● Causation merupakan hubungan antara
sebab dan akibat antara dua variable
● Penting untuk mengetahui perbedaan
antara keduanya dan bahwa korelasi
tidak mendeskripsikan sebab-akibat.
● Menentukan korelasi jauh lebih
sederhana menentukan sebab
memerlukan analisis lebih lanjut

26
Correlation & Causation
● Pearson Correlation adalah
metode default dari fungsi "corr".
Kita dapat menghitung Korelasi
Pearson dari variabel 'int64' atau
'float64'. Terkadang kita ingin
mengetahui signifikansi dari
estimasi korelasi, kita dapat
menggunakan p-value.
● Korelasi Pearson mengukur
ketergantungan linier antara dua
variabel X dan Y.

27
Correlation & Causation
● P-Value: ● Dengan konvensi, ketika
○ Berapa nilai P ini? Nilai P adalah ○ nilai p adalah $<$ 0,001: kita
nilai probabilitas bahwa korelasi katakan ada bukti kuat bahwa
korelasinya signifikan.
antara kedua variabel ini signifikan
○ nilai p adalah $<$ 0,05: terdapat
secara statistik. Biasanya, kita
bukti moderat bahwa korelasi
memilih tingkat signifikansi 0,05,
tersebut signifikan.
yang berarti bahwa, kita yakin ○ nilai p adalah $<$ 0,1: ada bukti
bahwa 95% korelasi antar variabel lemah bahwa korelasinya
signifikan. signifikan.
○ nilai p adalah $>$ 0,1: tidak ada
bukti bahwa korelasi tersebut
signifikan.

28
Correlation & Causation
● Mari kita hitung Koefisien Korelasi Pearson dan nilai-P dari 'wheel-base' dan 'price'.

pearson_coef, p_value = stats.pearsonr(df['horsepower'], df['price'])


print("The Pearson Correlation Coefficient is", pearson_coef, " with a P-value of P = ", p_value)

● Karena nilai p adalah $<$ 0,001, korelasi antara horsepower dan harga
signifikan secara statistik, dengan korelasi linear positif yang cukup
kuat(~0,805)
● Saat memvisualisasikan variabel individual, penting untuk terlebih dahulu
memahami jenis variabel apa yang Anda hadapi. Ini akan membantu kita
menemukan metode visualisasi yang tepat untuk variabel tersebut.
29
Correlation & Causation
● Untuk mulai memahami keterhubungan (linier)
antara variabel individu dan harga. Kita dapat
melakukan ini dengan menggunakan "regplot".
● Fungsi ini yang memplot scatterplot ditambah
garis regresi yang sesuai untuk data.
● Gambar di samping ini memperlihatkan
hubungan korelasi positif kuat antara variable.
● Kita dapat memeriksa korelasi antara engine-
size dan harga sekitar 0,87
● Saat kapasitas mesin naik, harga mobil
tersebut juga tinggi: ini menunjukkan hubungan
linier antara kedua variabel ini. Ukuran mesin
berpotensi menjadi prediktor harga.

30
Correlation & Causation
● Peak rpm sepertinya bukan merupakan
prediktor harga yang baik karena garis
regresinya mendekati horizontal.
● Juga, titik-titik data sangat tersebar dan jauh
dari garis pas, menunjukkan banyak
variabilitas.
● Oleh karena itu itu bukan variabel yang dapat
diandalkan untuk memprediksi harga.
● Kita dapat memeriksa korelasi antara 'puncak-
rpm' dan 'harga' dan melihatnya kira-kira -
0,101616

31
Correlation & Causation (Hands-On)

Korelasi “engine-
size” dan “price”

Visualisasi regplot
“engine-size” dan “price”

32
Correlation & Causation (Hands-On)
Korelasi “highway-mpg”
dan “price”

Visualisasi regplot
“highway-mpg” dan “price”

33
Correlation & Causation (Hands-On)
Korelasi “peak-rpm” dan
“price”

Visualisasi regplot “peak-


rpm” dan “price”

34
Variabel Kategori Statistik
● Ini adalah variabel yang menggambarkan
'karakteristik' dari unit data, dan dipilih
dari sekelompok kategori. Variabel
kategori dapat memiliki tipe "objek" atau
"int64". Cara yang baik untuk
memvisualisasikan variabel kategori
adalah dengan menggunakan boxplot.
● Boxplot menggambarkan variable
variable statistic seperti quartil 1, median
/ quartil 2, quartil 3, nilai maksimum, nilai
minimum, dan outlier.

35
Descriptive Statistic
● Fungsi deskripsi secara otomatis menghitung
statistik dasar untuk semua variabel kontinu.
● Analisis yang bisa kita dapatkan dari deskriptif
statistik adalah
○ Jumlah variabel
○ Rata-rata
○ Standard deviasi
○ Nilai minimal
○ IQR (Interquartile Range: 25%, 50% and
75%)
○ Nilai Maximal

36
Descriptive Statistic (Hands-On)

Menghitung statistik dasar

Visualisasi boxplot “body-


style” dan “price”

37
Grouping
● Method "groupby" digunakan untuk
mengelompokkan data menurut kategori
yang berbeda. Data dikelompokkan
berdasarkan satu atau beberapa variabel
df['drive-wheels'].unique()
dan analisis dilakukan pada kelompok
individu.
● Sebagai contoh, mari kita kelompokkan
berdasarkan variabel "drive-wheels". Kita
melihat bahwa ada 3 kategori roda
penggerak yang berbeda.

38
Grouping
● Anda juga dapat mengelompokkan
dengan beberapa variabel. Misalnya,
mari kita kelompokkan berdasarkan
'drive-wheels' dan body-style’.
● Grouping mengelompokkan dataframe
dengan kombinasi unik 'drive-wheels' dan
'body-style'. Kita dapat menyimpan
hasilnya dalam variabel 'grouped_test1'.

39
Grouping

● Data yang dikelompokkan ini jauh lebih mudah untuk


divisualisasikan ketika dibuat menjadi tabel pivot.
● Tabel pivot yang mirip seperti pada spreadsheet Excel, dengan
satu variabel di sepanjang kolom dan variabel lainnya di
sepanjang baris.
● Kita dapat mengonversi kerangka data menjadi tabel pivot
menggunakan metode "pivot" untuk membuat tabel pivot dari grup.

40
Grouping
● Dari table pivot kita dapat mengilustrasikan table
pivot dalam bentuk heatmap.

41
Grouping (Hands-On)
Menampilkan nilai unik data series

Membuat dataframe baru dengan kolom


'drive-wheels','body-style', dan 'price'unik
data series

Melakukan grouping dari “drives-


wheels” dan “body-style”
berdasarkan rata-rata “harga”

42
Grouping (Hands-On)

Melakukan pivot
data

melakukan pivot data


dengan handle missing
value nilai 0

43
Grouping (Hands-On)
Melakukan grouping dari
"body-style" berdasarkan
rata-rata "harga"

Visualisasi heatmap

44
ANOVA
● Analysis of Varians (ANOVA) adalah metode ● F-Score: ANOVA mengasumsikan rata-rata
statistik yang digunakan untuk menguji apakah semua kelompok adalah sama, anova akan
ada perbedaan yang signifikan antara rata-rata menghitung seberapa jauh rata-rata yang
dua kelompok atau lebih. sebenarnya menyimpang dari asumsi, dan
● ANOVA mengembalikan dua parameter melaporkannya sebagai F-Score.
○ F-Score: ● Skor yang lebih besar berarti ada perbedaan
○ P-Value yang lebih besar antara rata-rata.
● P-Value: Nilai-P menunjukkan seberapa
signifikan secara statistik nilai skor yang
dihitung.

45
ANOVA
● Jika variabel harga pada dataset mobil
sangat berkorelasi dengan variabel lainya,
ANOVA akan mengembalikan skor F-Score
yang cukup besar dan nilai-p yang kecil.
● ANOVA menganalisis perbedaan antara
kelompok yang berbeda dari variabel yang
sama, fungsi groupby akan berguna dalam
kasus ANOVA.
● Mari kita lihat apakah jenis 'roda penggerak'
mempengaruhi 'harga'

# grouping results
df_gptest = df[['drive-wheels','body-style','price']]
grouped_test1 = df_gptest.groupby(['drive-
wheels','body-style'],as_index=False).mean()
grouped_test1
46
ANOVA

# ANOVA
f_val, p_val = stats.f_oneway(grouped_test2.get_group('fwd')['price'], grouped_test2.
get_group('rwd')['price'], grouped_test2.get_group('4wd')['price'])
print( "ANOVA results: F=", f_val, ", P =", p_val)

● Hasil ANOVA ini termasuk hasil yang bagus, dengan F-Score yang besar menunjukkan korelasi
yang kuat dan nilai P hampir 0 menyiratkan signifikansi statistik yang hampir pasti.
● Tetapi apakah ini berarti ketiga kelompok yang diuji semuanya berkorelasi tinggi?
47

Anda mungkin juga menyukai