Datvis 3
Datvis 3
iii
Tampilan yang nyaman pada keseluruhan struktur kumpulan data yang
kompleks
Abstraksi tingkat tinggi untuk menyusun kisi multi-plot yang
memungkinkan Anda membuat - visualisasi kompleks dengan mudah
Kontrol yang simple untuk styling gambar matplotlib dengan beberapa tema
bawaan
Tool untuk memilih palet warna untuk menampilkan pola sesuai denga
aslinya dalam data Anda
Seaborn bertujuan agar visualisasi menjadi bagian penting dari proses
eksplorasi dan pemahaman data. Seaborn berorientasi pada fungsi plotting
berdasarkan dataset yang beroperasi pada dataframe dan array yang berisi seluruh
dataset yang secara internal melakukan pemetaan semanrik dan agregasi statistik
yang diperlukan untuk menghasilkan grafik informatif. (Asy'ari, 2020)
Dalam kasus ini, kita harus menganalisis hubungna antar peubah secara
keseluruhan. Namun, tentu kita berpikir akan sangat sulit dan memakan banyak
waktu untuk memvisualisasikan distribusi bivariat untuk setiap kombinasi pada
masing-masing peubah. Untungnya dalam Pustaka seaborn, kita dimudahkan
dengan terdapatnya fungsi pairplot(). Fungsi ini dapat menggambarkan grfik
kombinasi dari setiap peubah data dalam bentuk matriks, denagn diagonal utamanya
merupakan representasi grafik dari data univariat.
4
1. Kategorical Scatter Plots
Terdapat dua jenis scatter plot yang dapat dimanfaatkan untuk
memvisualisasikan data kategorik, yakni stripplot() dan swarmplot().
Grafik stripplot() digunakan untuk menjelaskan distribusi suatu data,
jika salah satu dari peubahnya bersifat kategorik.
2. Comparison Categorical Data
Pada bagian ini kita akan mencoba menggambarkan distribusi data
secara jelas dengan menggunakan box plot dan violin plot.
1) Box Plot
2) Voilin Plot
3) Bar Chart
4) Diagram Titik
3. Multi-Panel Visualization
Salah satu pendekatan yang berguna untuk mendapatkan intisari dari suatu
data berdimensi sedang adalah dengan cara memvisualisasikan masing-
masing peubah pada kanvas yang sama. Bagian ini akan menampilkan dua
bentuk visualisasi multi panel, yakni Facet Grid dan Piar Grid.
- Facet Grid
- Pair Grid
4. Visualisasi Regresi Linier
Dengan menerapkan model regresi ini, kita dapat memeriksa
multikolinearitas antar peubah yang hendak kita cari hubungannya.
1) Regplot()
2 Deskripsi Kerja
2.1 Studi Kasus
Gunakanlah dataset bawaan yang terdapat dalam seaborn kecuali tips, iris,
dan titanic.
1. Buatlah visualisasi yang terdiri dari Bivariat Distribution
2. Buatlah visualisasi yang terdiri dari Multivariate Distribution
3. Buatlah visualisasi Multi-Panel
4. Buatlah visualisasi matriks yaitu Heatmap
6
2. Setelah itu, akan muncul tampilan Add data to report yang artinya praktikan
dapat memasukkan data yang akan digunakan baik itu dari file yang telah
ada atau ambil dataset bawaan dari looker data studio tersebut. Disini
praktikan akan menggunakan dataset bawaan dari looker tersebut dengan
meng – klik “My data sources” maka praktikan dapat memilih data yang
akan digunakan.
7
4. Kemudian, praktikan membuat visualisasi pie chart dengan menggunakan
dimension “Ad Type”, dengan metric “%intent” dan dengan sort
“%intent”.
8
Gambar 2.6 Tampilan membuat visualisasi barchart
7. Dan selanjutnya praktikan akan membuat teks untuk judul dari dashboard
dari ketiga visualisasi dengan nama judulnya “ Rio Olympics By Exposed
And Intent. Dengan ukuran teks sebesar 30px.
10. Praktikan akan menggunakan dataset enrollments yang ada pada file
downloads.
10
Gambar 2.11 Tampilan data yang telah ter – connect dengan powerb BI
12. Lalu praktikan membuat visualisasi barchart dengan Y-axis adalah country, dan
X-axis adalah Sum of unique_fields.
11
Gambar 2.13 Tampilan visualisasi card power BI
14. Lalu, praktikan membuat visualisasi juga dengan build visual yaitu map
dengan location “countrycode”.
12
3 Pembahasan
Praktikan akan melakukan visualisasi dengan Data Studio dan Power BI yang
dimana dataset untuk visualisasi dengan data studio menggunakan dataset bawaan
seperti dataset Rio Olympics. Dan dataset untuk visualisasi power BI
menggunakan dataset dari web Kaggle yaitu University Enrollment Dataset.
14
Gambar 3.3 Ouput grafik hexbin
Berdasarkan output diatas, praktikan mendapatkan infornasi bahwa latihan
yang dilakukan seseorang yang memiliki detak jantung paling tinggi yaitu berada
pada detak atau pulse ke 100 dan berada di id 19. Yang menandakan warna hitam.
Selanjutnya, praktikan membuat dan menampilkan grafik KDE bivariat yang
merupakan salah satu bentuk dari visualisasi bivariate distribution setelah
visualisasi grafik hexbin. KDE merupakan salah satu cara nonparametrik untuk
mengestimasikan distribusi suatu peubah. Untuk distribusi bivariat, praktikan dapat
memvisualisasikan grafik KDE dengan memasukkan parameter kind = ‘kde’.
15
Berdasarkan output diatas, bentuk gambar tersebut adalah bahwa data yang
dihasilkan dalam visualisasi scatterplot dan grafik hexbin, banyak plot -plot nya
menunjukkan hasil daripada bentuk yang ada pada output diatas.
16
kategoris sesuai dengan jangkauan kuartilnya. Box plot mempunyai garis vertical
yang memanjang keluar dari kotak yang dikenal dengan istilah whisker. Whisker
inilah yang menggambarkan variabilitas data di luar batas kuartil atas dan kuartil
bawah. Maka dari itu, terkadang box plot juga dikela sebagai diagram box-whisker.
17
Berdasarkan output diatas, terdapat dua jenis diet yaitu low fat dan no fat yang
masing-masing memiliki kind atau jenis olahraga seperti running, walking, dan rest.
Dari dua jenis diet tersebut, diet yang menghasilkan banyak pulse dari olahraga yang
dilakukan yaitu jenis diet no fat.
Pada studi kasus ini, praktikan akan menampilkan visualisasi yang terdiri dari
multipanel yang dimana multipanel visualization merupakan salah satu pendekatan
yang berguna untuk mendapatkan intisari dari suatu data berdimensi sedang adalah
dengan cara memvisualisasikan masing-masing peubah pada kanvas yang sama,
sehingga memingkinkan analis untuk menarik kesimpulan lebih mendalam. Pada
bagian ini akan menampilkan dua bentuk visualisasi multi panel yakni Facet Grid
dan Pair Grid.
Facet Grid digunakan untuk memvisualisasikan panel grafik berbentuk matriks,
dimana setiap kolom dan baris merepresentasikan perubah data, grafik ini sangat
membantu dalam menganalisis dua peubah diskrit. Facet grid hanya menerima data
bertipe dataframe sebagai masukan, dan menjadikan nama dari peubah terpilih
sebagai judul baris, kolom, dan hue. Berikut adalah output dari visualisasi facet grid.
Dataset kali ini yang digunakan adalah dataset bawaan dari seaborn yaitu mpg.
18
menggunakan peubah yang berbeda untuk setiap peubah yang digunakan dalam
subplotnya. Pair grid secara visual akan membentuk apa yang dinamakan sebagai matriks
scatterplot. Berikut ini output dari visualisasi pair grid.
20
2 Penutup
2.1 Kesimpulan
Dari berbagai langkah kerja dan pembahasan yang telah praktikan jabarkan,
maka dari hal tersebut harus disimpulkan sebagai berikut.
1. Praktikan menggunakan dua data pada dataset bawaan dari seaborn yaitu data
pada dataset exercise dan mpg.
2. Data pada dataset exercise digunakan saat menampilkan visualisasi yang
terdiri dari bivariat dan multivariat. Dan data pada dataset mpg digunakan saat
menampilkan visualisasi multi-panel dan visualisasi matriks yaitu heatmap.
3. Visualisasi yang terdiri dari bivariate distribution yaitu visualisasi scatterplot,
grafik hexbin, dan grafik KDE bivariat. Yang dimana tampilan visualisasi
tersebut terdapat pada Gambar 3.2, Gambar 3.3 dan Gambar 3.4.
4. Visualisasi yang terdiri dari multivariate distribution yaitu visualisasi
stripplot, box plot, dan violin plot. Dimana tampilan visualisasi tersebut
terdapat pada Gambar 3.5, Gambar 3.6 dan Gambar 3.7.
5. Visualisasi multi-panel terdapat dua jenis yaitu facet grid dan pair grid.
Tampilan visualisasi tersebut dapat dilihat pada Gambar 3.8 dan Gambar
3.9.
6. Visualisasi matriks yaitu heatmap, merupakan salah satu visualisasi matriks
yang terbaik untuk digunakan untuk menampilkan visualisasi. Tampilan
visualisasi tersebut, dapat dilihat pada Gambar 3.10.
21
Daftar Pustaka
22