0% menganggap dokumen ini bermanfaat (0 suara)
24 tayangan21 halaman

Datvis 3

Dokumen tersebut membahas tentang pengertian Python dan Seaborn, serta distribusi bivariat dan multivariat menggunakan library Seaborn di Python. Secara ringkas, dokumen tersebut menjelaskan bahwa Python adalah bahasa pemrograman populer yang fleksibel untuk berbagai bidang, sedangkan Seaborn adalah library untuk membuat grafik dan statistik di Python dengan mudah. Dokumen tersebut juga mendemonstrasikan visualisasi distribusi dua dan beberapa variabel

Diunggah oleh

Qurata R. Ayuni
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
24 tayangan21 halaman

Datvis 3

Dokumen tersebut membahas tentang pengertian Python dan Seaborn, serta distribusi bivariat dan multivariat menggunakan library Seaborn di Python. Secara ringkas, dokumen tersebut menjelaskan bahwa Python adalah bahasa pemrograman populer yang fleksibel untuk berbagai bidang, sedangkan Seaborn adalah library untuk membuat grafik dan statistik di Python dengan mudah. Dokumen tersebut juga mendemonstrasikan visualisasi distribusi dua dan beberapa variabel

Diunggah oleh

Qurata R. Ayuni
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 21

1 Pendahuluan

1.1 Pengertian Python

Python adalah Bahasa pemrograman yang penerapannya tidak hanya pada


dunia website saja, akan tetapi pada bidang-bidang lainnya, seperti proses system
scripting hingga pembuatan game. Python menjadi Bahasa pemrograman yang
sangat popular di kalangan para programmer, python pertama kali dikenalkan
kepada publik pada tahun 1991 oleh programmer komputer berkebangsaan belanda,
yakni Guido va Rossum. Kegunaan dari python yaitu: pengembangan dan
peningkatan IoT, Mendukung pembuatan software WorkFlow, Mengoptimalkan
fungsi website.
Kelebihan python ialah fleksibilitas dari python memang sudah tidak perlu
diragukan lagi, Penerapan sintaks yang sederhana menjadikan python mudah untuk
dipahami dan dipelajari, Bahasa pemrograman python adalah bersifat open source.
Selain itu juga terdapat kekurangan dari python yaitu, meskipun fleksibel python
membutuhkan banyak memori, kecepatan proses yang dimiliki dianggap lambat dan
tidak efisien dari segi waktu, penggunaan sintaks yang sederhana diakibatkan oleh
keterbatasan python. (Hosting, 2021)

1.2 Introduction To Seaborn

Seaborn adalah library untuk membuat grafik dan statistic dengan


menggunakan python. Library ini di bangun berdasarkan library matplotlib serta
terintegrasi dengan struktur data pada panda.
Berikut adalah beberapa fungsi yang dapat di lakukan oleh seaborn:
 API berorientasi set data untuk memeriksa hubungan antara beberapa
variabel
 Dukungan khusus untuk menggunakan variabel kategori untuk
menunjukkan observasi atau statistik agregat
 Pilihan untuk memvisualisasikan distribusi univarian atau bivarian dan
untuk membandingkannya di antara subkumpulan data
 Estimasi otomatis dan plot model regresi linier untuk berbagai jenis variabel
ii
dependen

iii
 Tampilan yang nyaman pada keseluruhan struktur kumpulan data yang
kompleks
 Abstraksi tingkat tinggi untuk menyusun kisi multi-plot yang
memungkinkan Anda membuat - visualisasi kompleks dengan mudah
 Kontrol yang simple untuk styling gambar matplotlib dengan beberapa tema
bawaan
 Tool untuk memilih palet warna untuk menampilkan pola sesuai denga
aslinya dalam data Anda
Seaborn bertujuan agar visualisasi menjadi bagian penting dari proses
eksplorasi dan pemahaman data. Seaborn berorientasi pada fungsi plotting
berdasarkan dataset yang beroperasi pada dataframe dan array yang berisi seluruh
dataset yang secara internal melakukan pemetaan semanrik dan agregasi statistik
yang diperlukan untuk menghasilkan grafik informatif. (Asy'ari, 2020)

1.3 Bivariate Distribution

Distribusi bivariat digunakan untuk menentukan hubungan antar dua peubah.


Cara terbaik untuk mengetahui hubungan antar dua peubah ini adalah dengan
membvisualisasikan distribusinya dengan menggunakan fungsi joinplot. Fungsi
ini dapat menggambarkan hubungan antar kedua peubah, sekaligus juga mengetahui
distribusi univariat masing-masing peubah pada sumbu.
1. Scatter Plot
2. Grafik Hexbin
3. Grafik KDE Bivariat

1.4 Multivariate Distribution

Dalam kasus ini, kita harus menganalisis hubungna antar peubah secara
keseluruhan. Namun, tentu kita berpikir akan sangat sulit dan memakan banyak
waktu untuk memvisualisasikan distribusi bivariat untuk setiap kombinasi pada
masing-masing peubah. Untungnya dalam Pustaka seaborn, kita dimudahkan
dengan terdapatnya fungsi pairplot(). Fungsi ini dapat menggambarkan grfik
kombinasi dari setiap peubah data dalam bentuk matriks, denagn diagonal utamanya
merupakan representasi grafik dari data univariat.
4
1. Kategorical Scatter Plots
Terdapat dua jenis scatter plot yang dapat dimanfaatkan untuk
memvisualisasikan data kategorik, yakni stripplot() dan swarmplot().
Grafik stripplot() digunakan untuk menjelaskan distribusi suatu data,
jika salah satu dari peubahnya bersifat kategorik.
2. Comparison Categorical Data
Pada bagian ini kita akan mencoba menggambarkan distribusi data
secara jelas dengan menggunakan box plot dan violin plot.
1) Box Plot
2) Voilin Plot
3) Bar Chart
4) Diagram Titik
3. Multi-Panel Visualization
Salah satu pendekatan yang berguna untuk mendapatkan intisari dari suatu
data berdimensi sedang adalah dengan cara memvisualisasikan masing-
masing peubah pada kanvas yang sama. Bagian ini akan menampilkan dua
bentuk visualisasi multi panel, yakni Facet Grid dan Piar Grid.
- Facet Grid
- Pair Grid
4. Visualisasi Regresi Linier
Dengan menerapkan model regresi ini, kita dapat memeriksa
multikolinearitas antar peubah yang hendak kita cari hubungannya.
1) Regplot()

Umumnya berbagai jenis data masukkan, seprti arry numpy


sederhana, series, hingga dataframe.
1) Implot()
Umumnya berbagai jenis data masukkan, seprti arry numpy
sederhana, series, hingga dataframe.
5. Fitting Model Non-linear
Model regresi linier tidak selalu cocok untuk diterapkan pada semua
kasus.
6. Visualisasi Matriks
5
Heatmap dan Cluster Map

2 Deskripsi Kerja
2.1 Studi Kasus

Gunakanlah dataset bawaan yang terdapat dalam seaborn kecuali tips, iris,
dan titanic.
1. Buatlah visualisasi yang terdiri dari Bivariat Distribution
2. Buatlah visualisasi yang terdiri dari Multivariate Distribution
3. Buatlah visualisasi Multi-Panel
4. Buatlah visualisasi matriks yaitu Heatmap

2.2 Langkah Kerja

1. Praktikan membuka browser kemudian ketikkan Looker Studio Overview


pada web melalui link https://datastudio.google.com/ seperti gambar berikut,
Maka akan muncul tampilan saat telah masuk ke looker studio. Dan
praktikan dapat meng – klik template “Black Report”

Gambar 2.1 Tampilan telah masuk ke looker studio

6
2. Setelah itu, akan muncul tampilan Add data to report yang artinya praktikan
dapat memasukkan data yang akan digunakan baik itu dari file yang telah
ada atau ambil dataset bawaan dari looker data studio tersebut. Disini
praktikan akan menggunakan dataset bawaan dari looker tersebut dengan
meng – klik “My data sources” maka praktikan dapat memilih data yang
akan digunakan.

Gambar 2.2 Tampilan untuk memilih data yang akan digunakan


3. Praktikan memilih menggunakan dataset “Rio Olimpics”, setelah meng –
klik dataset tersebut, kemudian praktikan menunggu beberapa menit agar
dataset yang digunakan terbaca dalam web ini. Setelah data terbaca, maka
akan muncul tampilan “Untitled Report” seperti berikut.

Gambar 2.3 Tampilan data telah terbaca

7
4. Kemudian, praktikan membuat visualisasi pie chart dengan menggunakan
dimension “Ad Type”, dengan metric “%intent” dan dengan sort
“%intent”.

Gambar 2.4 Tampilan membuat visualisasi pie chart


5. Lalu, praktikan membuat juga visualisasi tabel dengan menggunakan
dimension “Adverstiser Type”, dengan metric dan sort “%Exposed (Feel)”.

Gambar 2.5 Tampilan membuat visualisasi tabel


6. Selanjutnya, praktikan membuat juga visualisasi barchart dengan
menggunakan dimension “Company”, dengan metric dan sort “%intent”.

8
Gambar 2.6 Tampilan membuat visualisasi barchart
7. Dan selanjutnya praktikan akan membuat teks untuk judul dari dashboard
dari ketiga visualisasi dengan nama judulnya “ Rio Olympics By Exposed
And Intent. Dengan ukuran teks sebesar 30px.

Gambar 2.7 Tampilan membuat judul dashboard visualisasi


8. Praktikan akan menampilkan visualisasi dengan power BI dengan
membukanya melalui Microsoft Store kemudian cari di pencarian.
Kemudian pilih “Power BI Desktop”. Dan klik “Open”

Gambar 2.8 Tampilan power BI Desktop


9. Selanjutnya tampilan power BI akan berubah seperti gambar di bawah ini,
maka akan muncul tampilan berikut.
9
Gambar 2.9 Tampilan awal power BI

10. Praktikan akan menggunakan dataset enrollments yang ada pada file
downloads.

Gambar 2.10 Tampilan memasukan data yang akan digunakan


11. Selanjutnya akan muncul tampilan data yang telah di ter-input

10
Gambar 2.11 Tampilan data yang telah ter – connect dengan powerb BI
12. Lalu praktikan membuat visualisasi barchart dengan Y-axis adalah country, dan
X-axis adalah Sum of unique_fields.

Gambar 2.12 Tampilan visualisasi barchart power BI


13. Lalu, praktikan akan membuat visualisasi berikut yaitu visualisasi card
dengan field “Sum of divisions”.

11
Gambar 2.13 Tampilan visualisasi card power BI
14. Lalu, praktikan membuat visualisasi juga dengan build visual yaitu map
dengan location “countrycode”.

Gambar 2.14 Tampilan visualisasi map power BI

12
3 Pembahasan

Praktikan akan melakukan visualisasi dengan Data Studio dan Power BI yang
dimana dataset untuk visualisasi dengan data studio menggunakan dataset bawaan
seperti dataset Rio Olympics. Dan dataset untuk visualisasi power BI
menggunakan dataset dari web Kaggle yaitu University Enrollment Dataset.

3.1 Visualisasi dengan Data Studio

Sebelum menyelesaikan studi kasus 1, praktikan dapat menampilkan terlebih


dahulu data pada dataset yang digunakan. Disini praktikan memilih menggunakan
dataset exercise. Dengan menggunakan perintah pada Gambar 2.2 maka output
yang diperoleh sebagai berikut.

Gambar 3.1 Output tampilan ketiga visualisasi pada data studio


Dari output yang diperoleh, terlihat bahwa pada dataset yang digunakan
menampilkan 90 data dengan 6 variabel yang dimana 6 variabel tersebut terdiri dari
unnamed, 0, id, diet, pulse, time, dan kind. Dataset exercise merupakan suatu data
tentang latihan olahraga baik untuk penderita rendah lemak maupun tidak berlemak.
Praktikan akan menampilkan visualisasi yang terdiri dari bivariate distribution.
13
Distribusi bivariat digunakan untuk menentukan hubungan dua perubah. Car terbaik
untuk mengetahui hubungan antara dua peubah ini adalah dengan memvisualisasikan
distribusinya dengan menggunakan fungsi jointplot. Fungsi ini dapat
menggambarkan hubungan kedua peubah, sekaligus juga mengetahui distibusi
univariat masing-masing peubah pada sumbuh terpisah. Praktikan menggunakan
scatterplot yang sebagai bentuk dari distribusi bivariat. Scatterplot merupakan cara
paliing sederhana untuk memvisualisasikan distribusi data dua peubah yang masing-
masing diwakili oleh sumbu-x dan sumbu-y. Berdasarkan Gambar 2.3 pada sumbu x
digunakan variabel id dan pada sumbu y digunakan variabel pulse.

Gambar 3.2 Output scatterplot


Berdasarkan output diatas, jika scatterplot membentuk pola yang menyerupai
garis lurus seperti pada gambar diatas, mengindikasikan bahwa ada hubungan
yang era antara variabel id dan variabel pulse. Hubungan yang membentuk garis
lurus biasa disebut dengan hubungan linier. Hubungan linier bisa membentuk
hubungan positif dan negative.
Selanjutnya praktikan akan membuat sebuah grafik hexbin yang merupakan
juga visualisasi dari bivariate distribution. Grafik heksagonal umumnya
digunakan untuk menganalisis data bivariat yang sangat tersebar dan sukar
dianalisis ketika divisualisasikan dengan scatterplot. Untuk memvisualisasikan
grafik tersebut, praktikan mengganti parameter kind = “hex” pada fungsi
jointplot().

14
Gambar 3.3 Ouput grafik hexbin
Berdasarkan output diatas, praktikan mendapatkan infornasi bahwa latihan
yang dilakukan seseorang yang memiliki detak jantung paling tinggi yaitu berada
pada detak atau pulse ke 100 dan berada di id 19. Yang menandakan warna hitam.
Selanjutnya, praktikan membuat dan menampilkan grafik KDE bivariat yang
merupakan salah satu bentuk dari visualisasi bivariate distribution setelah
visualisasi grafik hexbin. KDE merupakan salah satu cara nonparametrik untuk
mengestimasikan distribusi suatu peubah. Untuk distribusi bivariat, praktikan dapat
memvisualisasikan grafik KDE dengan memasukkan parameter kind = ‘kde’.

Gambar 3.4 Output grafik KDE bivariat

15
Berdasarkan output diatas, bentuk gambar tersebut adalah bahwa data yang
dihasilkan dalam visualisasi scatterplot dan grafik hexbin, banyak plot -plot nya
menunjukkan hasil daripada bentuk yang ada pada output diatas.

3.2 Visualisasi dari Multivariate Distribution


Pada studi kasus ini, praktikan menampilkan visualisasi dari multivariate
distribution yang dimana visualisasi tersebut terdiri jenis visualisasi seperti
categorical data visualization dan comparison categorical data. Pada bagian
categorical data visualization akan membahas fitur-fitur visualisasi data kategoris
dengan menggunakan seaborn. Grafik stripplot digunakan untuk menjelaskan
distribusi suatu data, jika salah satu peubahnya bersifat kategoris. Grafik ini
mempresentasikan data yang diurutkan pada salah satu sumbu.

Gambar 3.5 Output stripplot


Berdasarkan output diatas, terlihat bahwa dengan fungsi jitter adalah False
berarti dua variabel dimana ketepatan pengaruh interaksi antar faktor lebih
diutamakan dibandingkan dengan pengaruh lainnya, pengaruh mandiri variabel id
dan variabel pulse. Dengan itu, setiap titik-titik data tidak saling bertumpang tindih.
Praktikan akan menampilkan visualisasi dari multivariate distribution yang
terdapat pada bagian comparison categorical data. Pada studi kasus sebelumnya,
praktikan telah melihat bagaimana perbandingan distribusional antar kategori –
kategori data. Namun hal tersebut masih tampak kabur karena yang terlihat hanya
persebaran data secara kualitatif. Pada bagian ini, praktikan akan menampilkan data
secara lebih jelas dengan menggunakan box plot dan violin plot.
Box plot merupakan cara paling mudah untuk menggambarkan distribusi data

16
kategoris sesuai dengan jangkauan kuartilnya. Box plot mempunyai garis vertical
yang memanjang keluar dari kotak yang dikenal dengan istilah whisker. Whisker
inilah yang menggambarkan variabilitas data di luar batas kuartil atas dan kuartil
bawah. Maka dari itu, terkadang box plot juga dikela sebagai diagram box-whisker.

Gambar 3.6 Output box plot


Berdasarkan output diatas, terlihat bahwa data tidak simetris atau tidak
berdistribusi normal ditunjukkan oleh boxplot dengan garis median tidak berada di
tengah kotak. Selain itu, data tidak simetris juga ditunjukkan oleh panjang whisker
atas tidak sama dengan panjang whisker bawah.
Selain box plot, praktikan akan menampilkan violin plot. Violin plot merupakan
kombinasi dari box plot dan KDE, sehingga memudahkan para analis data untuk
memahami distribusi kontinyu pada masing-masing kategori. Untuk lebih memahami
violin plot , praktikan akan menggunakan data bawaan exercise pada seaborn.

Gambar 3.7 Output violin plot

17
Berdasarkan output diatas, terdapat dua jenis diet yaitu low fat dan no fat yang
masing-masing memiliki kind atau jenis olahraga seperti running, walking, dan rest.
Dari dua jenis diet tersebut, diet yang menghasilkan banyak pulse dari olahraga yang
dilakukan yaitu jenis diet no fat.

1.1 Visualisasi dari Multipanel

Pada studi kasus ini, praktikan akan menampilkan visualisasi yang terdiri dari
multipanel yang dimana multipanel visualization merupakan salah satu pendekatan
yang berguna untuk mendapatkan intisari dari suatu data berdimensi sedang adalah
dengan cara memvisualisasikan masing-masing peubah pada kanvas yang sama,
sehingga memingkinkan analis untuk menarik kesimpulan lebih mendalam. Pada
bagian ini akan menampilkan dua bentuk visualisasi multi panel yakni Facet Grid
dan Pair Grid.
Facet Grid digunakan untuk memvisualisasikan panel grafik berbentuk matriks,
dimana setiap kolom dan baris merepresentasikan perubah data, grafik ini sangat
membantu dalam menganalisis dua peubah diskrit. Facet grid hanya menerima data
bertipe dataframe sebagai masukan, dan menjadikan nama dari peubah terpilih
sebagai judul baris, kolom, dan hue. Berikut adalah output dari visualisasi facet grid.
Dataset kali ini yang digunakan adalah dataset bawaan dari seaborn yaitu mpg.

Gambar 3.8 Output facet grid


Dari output diatas, didapatkan bahwa terdapat tiga grafik yang dimana masing-
masing grafik terdapat dua variabel yaitu variabel model_year dan origin. Dari tiga data
grafik tersebut berasal dari negara USA, Japan, dan Europe. Ketiga negara tersebut
memiliki pengaruh yang besar pada dunia.
Setelah membahas visualisasi facet grid, selanjutnya visualisasi pair grid. Pair grid

18
menggunakan peubah yang berbeda untuk setiap peubah yang digunakan dalam
subplotnya. Pair grid secara visual akan membentuk apa yang dinamakan sebagai matriks
scatterplot. Berikut ini output dari visualisasi pair grid.

Gambar 3.9 Output pair grid


Dari output diatas, visualisasi pair grid tersebut memliki tipe visualisasi pada diagonal
matriksnya. Pada visualisasi tersebut terdapat tujuh visualisasi berdasarkan dataset yang
digunakan yaitu dataset mpg. Tujuh vaisualisasi tersebut berdasarkan banyaknya variabel
yang terdiri dari mpg, cylinders, displacement, horsepower, weight, acceleration, dan
model_year. Dari masing-masing variabel menampilkan bentuk visualisasi yang berbeda-
beda.

3.4 Visualisasi Matriks Yaitu Heatmap


Pada studi kasus ini, praktikan akan menampilkan visualisasi matriks yaitu
heatmap. Guna memvisualisasikan data dengan menggunakan heatmap , praktikan
memerlukan data yang berformat matriks. Artinya adalah jumlah peubah pada indeks
sesuai dengan jumlah peubah pada kolom data. Untuk membentuk bentuk data yang
sesuai, umumnya menggunakan metode korelasi data atau table pivot. Dengan
menggunakan metode korelasi data pada dataset mpg, praktikan juga dapat
menampilkan nilai setiap elemen dalam matriks dengan menambahkan argument
annot = True, serta mengganti warna pada plot sehingga menghasilkan output sebagai
berikut.
19
Gambar 3.10 Output visualisasi matriks heatmap
Dari output yang dihasilkan, terdapat 8 nilai pada masing-masing variabel pada data
tersebut, dari nilai terendah sampai nilai tertinggi yaitu -0.75, -0.50, -0.25, 0, 0.25, 0.50, 0.75,
dan 1. Dari nilai tersebut, nilai paling tertinggi ditujukan pada nilai 1 yang ditandai dengan
warna merah atau warna yang paling mencolok. Dan terdapat tujuh variabel yang terdiri dari
variabel mpg, cylinders, displacement, horsepower, weight, acceleration, dan model_year.
Nilai tertinggi pada visualisasi tersebut, terdapat pada setiap garis lurus ke atas kiri.

20
2 Penutup

2.1 Kesimpulan

Dari berbagai langkah kerja dan pembahasan yang telah praktikan jabarkan,
maka dari hal tersebut harus disimpulkan sebagai berikut.
1. Praktikan menggunakan dua data pada dataset bawaan dari seaborn yaitu data
pada dataset exercise dan mpg.
2. Data pada dataset exercise digunakan saat menampilkan visualisasi yang
terdiri dari bivariat dan multivariat. Dan data pada dataset mpg digunakan saat
menampilkan visualisasi multi-panel dan visualisasi matriks yaitu heatmap.
3. Visualisasi yang terdiri dari bivariate distribution yaitu visualisasi scatterplot,
grafik hexbin, dan grafik KDE bivariat. Yang dimana tampilan visualisasi
tersebut terdapat pada Gambar 3.2, Gambar 3.3 dan Gambar 3.4.
4. Visualisasi yang terdiri dari multivariate distribution yaitu visualisasi
stripplot, box plot, dan violin plot. Dimana tampilan visualisasi tersebut
terdapat pada Gambar 3.5, Gambar 3.6 dan Gambar 3.7.
5. Visualisasi multi-panel terdapat dua jenis yaitu facet grid dan pair grid.
Tampilan visualisasi tersebut dapat dilihat pada Gambar 3.8 dan Gambar
3.9.
6. Visualisasi matriks yaitu heatmap, merupakan salah satu visualisasi matriks
yang terbaik untuk digunakan untuk menampilkan visualisasi. Tampilan
visualisasi tersebut, dapat dilihat pada Gambar 3.10.

21
Daftar Pustaka

Ayundyah Kesumawati, M. D. (2020). Modul Data Visualization Untuk Data Science.


Asy'ari, M. Z. (2020). Berkenalan Dengan Seaborn Python. AUFTECHNIQUE
Hosting, J. (2021). Bahasa Pemrograman Python : Pengertian, Contoh, dan
Kegunaan.

22

Anda mungkin juga menyukai