Preview
Preview
2
Data Analisis
Pengenalan Data Analisis Menggunakan Python
Versi ke : 1.0
Tanggal Diterbitkan: 15 April 2023
© 2023 Sanbercode
Hak cipta dilindungi Undang-undang. Tidak ada bagian dari manuskrip buku yang boleh
direproduksi, disimpan dalam sistem pengambilan, atau ditransmisikan dalam bentuk apa
pun atau dengan cara apa pun di luar jumlah salinan yang dibeli, kecuali untuk cadangan
tunggal atau salinan arsip.
Penulis dan penerbit telah berhati-hati dalam mempersiapkan buku ini, tetapi tidak
memberikan jaminan tersurat maupun tersirat dalam bentuk apa pun dan tidak bertanggung
jawab atas kesalahan atau kelalaian. Tidak ada tanggung jawab yang diasumsikan untuk
kerusakan insidental atau konsekuensial sehubungan dengan atau yang timbul dari
penggunaan wadah informasi atau program di sini.
i
DAFTAR ISI
DAFTAR ISI............................................................................................................................. 1
Pendahuluan...........................................................................................................................7
Apa itu Data Science?........................................................................................................7
Meninjau Skill Utama Seorang Data Scientist....................................................................7
Bagaimana Alur kerja Data Science...................................................................................8
Untuk Siapa Buku Ini?........................................................................................................9
BAB 1 - Statistika Dasar...................................................................................................... 10
Statistika Deskriptif...........................................................................................................10
Central Tendency....................................................................................................... 10
Measurement of Spread............................................................................................. 11
Statistika Inferential.......................................................................................................... 14
Probability...................................................................................................................14
Correlation.................................................................................................................. 15
Hypothesis Testing..................................................................................................... 16
BAB 2 - Python Dasar.......................................................................................................... 19
Variabel............................................................................................................................ 19
Tipe Data.......................................................................................................................... 21
Integer........................................................................................................................ 21
Float........................................................................................................................... 22
String.......................................................................................................................... 22
Boolean Statement.....................................................................................................23
Struktur Data.................................................................................................................... 24
List.............................................................................................................................. 24
Tuple...........................................................................................................................29
Set.............................................................................................................................. 31
● Union................................................................................................................. 34
● Intersection........................................................................................................35
● Difference.......................................................................................................... 36
● Symmetric Difference........................................................................................ 37
Dictionary................................................................................................................... 37
Control Flow..................................................................................................................... 41
Iterasi..........................................................................................................................41
Kondisional................................................................................................................. 45
Fungsi...............................................................................................................................49
Mendefinisikan fungsi................................................................................................. 49
Parameter or Arguments............................................................................................ 49
Fungsi Lambda...........................................................................................................51
Method....................................................................................................................... 53
1
BAB 3 - Manipulasi Data dengan Pandas.......................................................................... 54
Pengenalan Objek Pandas...............................................................................................54
Pandas Series Object.................................................................................................54
Pandas DataFrame Object......................................................................................... 55
Data Indexing dan Filtering.............................................................................................. 56
Indexing DataFrame................................................................................................... 56
Filtering Data.............................................................................................................. 58
1. Data orang-orang yang selamat....................................................................... 59
2. Data laki-laki yang selamat...............................................................................59
3. Data Perempuan yang tidak selamat dengan umur lebih dari 40 tahun atau
kurang dari 20 tahun.............................................................................................61
Mengatasi Missing Data................................................................................................... 61
Menggabungkan Dataset: Concat....................................................................................62
Menggabungkan Dataset: Merge..................................................................................... 64
Full Outer Join............................................................................................................ 65
Inner Join....................................................................................................................66
Left Join...................................................................................................................... 66
Right Join................................................................................................................... 67
Aggregation dan Grouping............................................................................................... 67
Bekerja dengan Time Series............................................................................................ 69
Selection and Filtering................................................................................................ 73
Time Grouping............................................................................................................75
Shifting for Lagged Data.............................................................................................75
Differenced Data.........................................................................................................76
Resampling................................................................................................................ 76
Time Merging..............................................................................................................77
BAB 4 - Visualisasi dengan Matplotlib............................................................................... 80
Line Plots Sederhana....................................................................................................... 81
Scatter Plots Sederhana.................................................................................................. 82
Visualisasi Errors..............................................................................................................82
Error Bar Sederhana.................................................................................................. 83
Histogram, dan Binning.................................................................................................... 83
Kustom Plotmu................................................................................................................. 85
Custom LineStyle....................................................................................................... 86
Memilih Warna............................................................................................................87
Custom Axis Label and Title.......................................................................................88
Axis Limit.................................................................................................................... 89
Legend....................................................................................................................... 91
Marker Data Point...................................................................................................... 92
Text and Annotation....................................................................................................93
Multiple Subplots.............................................................................................................. 95
with plt.axes()............................................................................................................. 95
with fig.add_axes........................................................................................................96
with plt.subplot............................................................................................................97
2
with plt.subplots.......................................................................................................... 98
with inset_axes......................................................................................................... 102
GridSpec.................................................................................................................. 103
Visualisasi dengan Seaborn...........................................................................................104
Seaborn vs. Matplotlib.............................................................................................. 104
Exploring Seaborn Plots...........................................................................................106
Histogram, KDE, dan density............................................................................. 106
Pair plots.............................................................................................................109
Faceted histograms............................................................................................ 110
Categorical plots................................................................................................. 112
Joint distributions................................................................................................ 112
Bar plots..............................................................................................................113
Tool Visualisasi Lainnya................................................................................................. 114
BAB 5 - Contoh Proyek Sederhana
3
Pendahuluan
Apa itu Data Science?
Data adalah sekumpulan informasi yang berupa fakta atau angka yang pada
umumnya digunakan untuk membantu dalam pengambilan keputusan, data juga dapat
diartikan sebagai suatu bentuk informasi elektronik yang digunakan oleh komputer. Di era
dimana teknologi berkembang sangat pesat data menjadi sebuah komoditas penting untuk
dipelajari seperti yang kita tahu banyak perusahaan mulai berkembang dengan
memanfaatkan data yang mereka miliki contoh saja beberapa perusahaan teknologi di
bidang transportasi dapat memanfaatkan data yang mereka miliki untuk Dapat memberikan
pengalaman yang lebih pribadi kepada pelanggannya mereka dapat menawarkan makanan
Yang memiliki kemungkinan untuk dibeli lebih tinggi mereka dapat menawarkan iklan
dengan lebih efektif dan juga mereka dapat memberikan penawaran-penawaran yang terasa
lebih spesial bagi para pesertanya.
Data science merupakan multidisiplin ilmu yang memanfaatkan metode ilmiah untuk
dapat melakukan analisa dan pengolahan terhadap data. Metode ilmiah ini penting agar
hasil yang didapatkan dari analisa dan pengolahan memiliki kredibilitas yang tinggi dan hasil
yang sama saat dilakukan reka ulang. Data Science sendiri merupakan irisan dari tiga
konsep utama yang digambarkan dengan diagram Venn di bawah. 3 konsep tersebut
adalah pemrograman, statistika, dan keahlian.
● Master of data: Kemampuan pertama yang harus dimiliki adalah kemampuan untuk
dapat mengumpulkan, menyimpan, dan memanipulasi data yang dimiliki. Tidak
efektif kemampuan statistika atau matematika yang dimiliki jika kita tidak bisa
mengumpulkan data yang tepat untuk menjawab pertanyaan kita. Setelah itu kita
harus dapat menyimpan data kita sesuai dengan struktur yang kita inginkan.
Tambahannya kita harus tahu kalau data mentah bukanlah data yang baik untuk
disimpan maupun dianalisis, maka dari itu dibutuhkan juga kemampuan untuk
membersihkan data tersebut.
● Analisis: Setelah bermain dengan data kita harus dapat melakukan analisis
terhadap data tersebut. Kita dapat melakukan analisis menggunakan ilmu statistika
sederhana yang biasanya kita pelajari mulai di bangku sekolah menengah.
Kemampuan analisis di sini adalah kita dapat menarik kesimpulan yang tepat dari
4
analisis dan tidak hanya mendapatkan angka-angka dengan menggunakan
persamaan-persamaan matematika yang kita ketahui.
● Presentasi: Skill terakhir yang harus kita miliki sebagai seorang data scientist adalah
presentasi. Tidak semua orang dapat mengerti angka dengan baik, tidak semua
orang dapat melihat pola dalam data yang diberikan, maka dari itu sangat penting
untuk dapat merepresentasikan data tersebut dalam bentuk grafik atau gambar agar
dapat membantu orang lain untuk dapat mengerti arti dari angka tersebut. Presentasi
juga dapat menjadi cara kita untuk menjawab pertanyaan yang muncul yang
berusaha kita coba jawab dengan menggunakan data tersebut.
Data yang kamu dapatkan dari berbagai sumber tidak serta merta siap untuk
dilakukan analisis, pada kenyataannya data tersebut akan datang dengan berbagai
bentuk dan struktur. Kita harus bisa melakukan transformasi terhadap data mentah
tersebut baik dalam bentuk perubahan tipe data perubahan struktur data maupun
pembersihan data.
Pada langkah ini kita dapat memanfaatkan berbagai macam teori atau persamaan
matematika dan statistika yang kita ketahui untuk dapat melihat data kita tidak hanya
dari satu sudut pandang. Tujuannya adalah agar kita dapat melihat pola yang dimiliki
oleh data kita.
4. Visualisasi
Visualisasi di sini artinya melihat pola dari data dan dapat bereaksi terhadap pola
tersebut atau saat data kita bukan merupakan suatu bagian dari pola tertentu.
5
Mengubah data mentah menjadi sebuah informasi dan menyampaikannya sehingga
informasi tersebut tidak hanya tersimpan di pikiran kita tapi dapat tersampaikan
keluar.