0% menganggap dokumen ini bermanfaat (0 suara)
37 tayangan9 halaman

Preview

Dokumen ini membahas pengenalan data analysis menggunakan bahasa pemrograman Python. Dokumen ini terdiri dari 4 bab yang membahas statistika dasar, Python dasar, manipulasi data dengan Pandas, dan visualisasi data dengan Matplotlib. Dokumen ini bertujuan untuk memberikan panduan pengenalan dasar bagi pembaca untuk dapat melakukan analisis data menggunakan Python.

Diunggah oleh

Andi Seppewali
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
37 tayangan9 halaman

Preview

Dokumen ini membahas pengenalan data analysis menggunakan bahasa pemrograman Python. Dokumen ini terdiri dari 4 bab yang membahas statistika dasar, Python dasar, manipulasi data dengan Pandas, dan visualisasi data dengan Matplotlib. Dokumen ini bertujuan untuk memberikan panduan pengenalan dasar bagi pembaca untuk dapat melakukan analisis data menggunakan Python.

Diunggah oleh

Andi Seppewali
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 9

2

2
Data Analisis
Pengenalan Data Analisis Menggunakan Python

Versi ke : 1.0
Tanggal Diterbitkan: 15 April 2023

Ditulis oleh Thio Perdana

© 2023 Sanbercode

Hak cipta dilindungi Undang-undang. Tidak ada bagian dari manuskrip buku yang boleh
direproduksi, disimpan dalam sistem pengambilan, atau ditransmisikan dalam bentuk apa
pun atau dengan cara apa pun di luar jumlah salinan yang dibeli, kecuali untuk cadangan
tunggal atau salinan arsip.

Penulis dan penerbit telah berhati-hati dalam mempersiapkan buku ini, tetapi tidak
memberikan jaminan tersurat maupun tersirat dalam bentuk apa pun dan tidak bertanggung
jawab atas kesalahan atau kelalaian. Tidak ada tanggung jawab yang diasumsikan untuk
kerusakan insidental atau konsekuensial sehubungan dengan atau yang timbul dari
penggunaan wadah informasi atau program di sini.

Diterbitkan di Bandung, Jawa Barat oleh Sanbercode.

Tanggal Diterbitkan: 1 April 2023

i
DAFTAR ISI

DAFTAR ISI............................................................................................................................. 1
Pendahuluan...........................................................................................................................7
Apa itu Data Science?........................................................................................................7
Meninjau Skill Utama Seorang Data Scientist....................................................................7
Bagaimana Alur kerja Data Science...................................................................................8
Untuk Siapa Buku Ini?........................................................................................................9
BAB 1 - Statistika Dasar...................................................................................................... 10
Statistika Deskriptif...........................................................................................................10
Central Tendency....................................................................................................... 10
Measurement of Spread............................................................................................. 11
Statistika Inferential.......................................................................................................... 14
Probability...................................................................................................................14
Correlation.................................................................................................................. 15
Hypothesis Testing..................................................................................................... 16
BAB 2 - Python Dasar.......................................................................................................... 19
Variabel............................................................................................................................ 19
Tipe Data.......................................................................................................................... 21
Integer........................................................................................................................ 21
Float........................................................................................................................... 22
String.......................................................................................................................... 22
Boolean Statement.....................................................................................................23
Struktur Data.................................................................................................................... 24
List.............................................................................................................................. 24
Tuple...........................................................................................................................29
Set.............................................................................................................................. 31
● Union................................................................................................................. 34
● Intersection........................................................................................................35
● Difference.......................................................................................................... 36
● Symmetric Difference........................................................................................ 37
Dictionary................................................................................................................... 37
Control Flow..................................................................................................................... 41
Iterasi..........................................................................................................................41
Kondisional................................................................................................................. 45
Fungsi...............................................................................................................................49
Mendefinisikan fungsi................................................................................................. 49
Parameter or Arguments............................................................................................ 49
Fungsi Lambda...........................................................................................................51
Method....................................................................................................................... 53

1
BAB 3 - Manipulasi Data dengan Pandas.......................................................................... 54
Pengenalan Objek Pandas...............................................................................................54
Pandas Series Object.................................................................................................54
Pandas DataFrame Object......................................................................................... 55
Data Indexing dan Filtering.............................................................................................. 56
Indexing DataFrame................................................................................................... 56
Filtering Data.............................................................................................................. 58
1. Data orang-orang yang selamat....................................................................... 59
2. Data laki-laki yang selamat...............................................................................59
3. Data Perempuan yang tidak selamat dengan umur lebih dari 40 tahun atau
kurang dari 20 tahun.............................................................................................61
Mengatasi Missing Data................................................................................................... 61
Menggabungkan Dataset: Concat....................................................................................62
Menggabungkan Dataset: Merge..................................................................................... 64
Full Outer Join............................................................................................................ 65
Inner Join....................................................................................................................66
Left Join...................................................................................................................... 66
Right Join................................................................................................................... 67
Aggregation dan Grouping............................................................................................... 67
Bekerja dengan Time Series............................................................................................ 69
Selection and Filtering................................................................................................ 73
Time Grouping............................................................................................................75
Shifting for Lagged Data.............................................................................................75
Differenced Data.........................................................................................................76
Resampling................................................................................................................ 76
Time Merging..............................................................................................................77
BAB 4 - Visualisasi dengan Matplotlib............................................................................... 80
Line Plots Sederhana....................................................................................................... 81
Scatter Plots Sederhana.................................................................................................. 82
Visualisasi Errors..............................................................................................................82
Error Bar Sederhana.................................................................................................. 83
Histogram, dan Binning.................................................................................................... 83
Kustom Plotmu................................................................................................................. 85
Custom LineStyle....................................................................................................... 86
Memilih Warna............................................................................................................87
Custom Axis Label and Title.......................................................................................88
Axis Limit.................................................................................................................... 89
Legend....................................................................................................................... 91
Marker Data Point...................................................................................................... 92
Text and Annotation....................................................................................................93
Multiple Subplots.............................................................................................................. 95
with plt.axes()............................................................................................................. 95
with fig.add_axes........................................................................................................96
with plt.subplot............................................................................................................97

2
with plt.subplots.......................................................................................................... 98
with inset_axes......................................................................................................... 102
GridSpec.................................................................................................................. 103
Visualisasi dengan Seaborn...........................................................................................104
Seaborn vs. Matplotlib.............................................................................................. 104
Exploring Seaborn Plots...........................................................................................106
Histogram, KDE, dan density............................................................................. 106
Pair plots.............................................................................................................109
Faceted histograms............................................................................................ 110
Categorical plots................................................................................................. 112
Joint distributions................................................................................................ 112
Bar plots..............................................................................................................113
Tool Visualisasi Lainnya................................................................................................. 114
BAB 5 - Contoh Proyek Sederhana

Bagian ini akan segera di update..................................................................................... 116

3
Pendahuluan
Apa itu Data Science?
Data adalah sekumpulan informasi yang berupa fakta atau angka yang pada
umumnya digunakan untuk membantu dalam pengambilan keputusan, data juga dapat
diartikan sebagai suatu bentuk informasi elektronik yang digunakan oleh komputer. Di era
dimana teknologi berkembang sangat pesat data menjadi sebuah komoditas penting untuk
dipelajari seperti yang kita tahu banyak perusahaan mulai berkembang dengan
memanfaatkan data yang mereka miliki contoh saja beberapa perusahaan teknologi di
bidang transportasi dapat memanfaatkan data yang mereka miliki untuk Dapat memberikan
pengalaman yang lebih pribadi kepada pelanggannya mereka dapat menawarkan makanan
Yang memiliki kemungkinan untuk dibeli lebih tinggi mereka dapat menawarkan iklan
dengan lebih efektif dan juga mereka dapat memberikan penawaran-penawaran yang terasa
lebih spesial bagi para pesertanya.

Data science merupakan multidisiplin ilmu yang memanfaatkan metode ilmiah untuk
dapat melakukan analisa dan pengolahan terhadap data. Metode ilmiah ini penting agar
hasil yang didapatkan dari analisa dan pengolahan memiliki kredibilitas yang tinggi dan hasil
yang sama saat dilakukan reka ulang. Data Science sendiri merupakan irisan dari tiga
konsep utama yang digambarkan dengan diagram Venn di bawah. 3 konsep tersebut
adalah pemrograman, statistika, dan keahlian.

Meninjau Skill Utama Seorang Data Scientist


Seorang data scientist harus dapat memanipulasi data, akan tetapi pada masa ini
data yang harus dapat diolah menjadi semakin kompleks. Hal ini menyebabkan seorang
data scientist biasanya harus memiliki banyak skill. karena itulah di masa sekarang data
scientist pada umumnya dikerjakan dalam sebuah tim di mana setiap anggota tim memiliki
tugasnya masing-masing. Skill-skill tersebut dapat kita rangkum menjadi tiga bagian utama.

● Master of data: Kemampuan pertama yang harus dimiliki adalah kemampuan untuk
dapat mengumpulkan, menyimpan, dan memanipulasi data yang dimiliki. Tidak
efektif kemampuan statistika atau matematika yang dimiliki jika kita tidak bisa
mengumpulkan data yang tepat untuk menjawab pertanyaan kita. Setelah itu kita
harus dapat menyimpan data kita sesuai dengan struktur yang kita inginkan.
Tambahannya kita harus tahu kalau data mentah bukanlah data yang baik untuk
disimpan maupun dianalisis, maka dari itu dibutuhkan juga kemampuan untuk
membersihkan data tersebut.

● Analisis: Setelah bermain dengan data kita harus dapat melakukan analisis
terhadap data tersebut. Kita dapat melakukan analisis menggunakan ilmu statistika
sederhana yang biasanya kita pelajari mulai di bangku sekolah menengah.
Kemampuan analisis di sini adalah kita dapat menarik kesimpulan yang tepat dari

4
analisis dan tidak hanya mendapatkan angka-angka dengan menggunakan
persamaan-persamaan matematika yang kita ketahui.

● Presentasi: Skill terakhir yang harus kita miliki sebagai seorang data scientist adalah
presentasi. Tidak semua orang dapat mengerti angka dengan baik, tidak semua
orang dapat melihat pola dalam data yang diberikan, maka dari itu sangat penting
untuk dapat merepresentasikan data tersebut dalam bentuk grafik atau gambar agar
dapat membantu orang lain untuk dapat mengerti arti dari angka tersebut. Presentasi
juga dapat menjadi cara kita untuk menjawab pertanyaan yang muncul yang
berusaha kita coba jawab dengan menggunakan data tersebut.

Bagaimana Alur kerja Data Science


Seperti yang disebutkan di awal bab ini jika data science adalah ilmu yang
memanfaatkan science, dalam hal ini metode ilmiah, agar teknik yang digunakan menjadi
lebih kredibel dan mendapatkan hasil yang sama saat direka ulang dengan kondisi yang
sama. Metode ilmiah inilah yang akan kita sebut sebagai pipeline atau alur kerja, yang
mana seorang data scientist akan mengikuti alur ini dalam persiapan, analisis, dan
presentasi data yang dimiliki. Pada bagian ini diharapkan pembaca dapat menjadikan alur
kerja ini sebagai dasar dari apa yang akan kita kerjakan di buku ini.

1. Mempersiapkan data awal

Data yang kamu dapatkan dari berbagai sumber tidak serta merta siap untuk
dilakukan analisis, pada kenyataannya data tersebut akan datang dengan berbagai
bentuk dan struktur. Kita harus bisa melakukan transformasi terhadap data mentah
tersebut baik dalam bentuk perubahan tipe data perubahan struktur data maupun
pembersihan data.

2. Melakukan exploratory data analysis

Pada langkah ini kita dapat memanfaatkan berbagai macam teori atau persamaan
matematika dan statistika yang kita ketahui untuk dapat melihat data kita tidak hanya
dari satu sudut pandang. Tujuannya adalah agar kita dapat melihat pola yang dimiliki
oleh data kita.

3. Belajar dari data

Setelah melakukan trial dan error, melakukan pengulangan dalam pengaplikasian


analisis statistik untuk mendeteksi pola kita menjadi belajar bagaimana data kita.
Bisa jadi data kita menjawab pertanyaan awal yang memang seharusnya dijawab
ataupun memunculkan sebuah insight baru yang sebelumnya tidak pernah
terbayangkan muncul dari data kita. Faktanya itulah bagian menyenangkan dari data
science karena kita tidak selalu tahu bagaimana hasil akhir dari data kita

4. Visualisasi

Visualisasi di sini artinya melihat pola dari data dan dapat bereaksi terhadap pola
tersebut atau saat data kita bukan merupakan suatu bagian dari pola tertentu.

5
Mengubah data mentah menjadi sebuah informasi dan menyampaikannya sehingga
informasi tersebut tidak hanya tersimpan di pikiran kita tapi dapat tersampaikan
keluar.

Untuk Siapa Buku Ini?


Jadi untuk siapa buku ini dibuat? Buku ini dibuat untuk orang-orang yang senang bermain
sebagai detektif, mengupas misteri yang dimiliki oleh data, menguak informasi yang orang
lain tidak dapat lihat dari data yang disediakan, dan menyampaikan jawaban misteri
tersebut agar semua orang menjadi mengerti. Buku ini juga cocok untuk mereka yang ingin
belum pernah bermain dengan bahasa pemrograman dan ingin belajar bahasa
pemrograman yang human friendly yaitu python. Buku ini juga cocok untuk setiap orang
yang ingin mempelajari ilmu yang akan pesat berkembang beberapa tahun ke depan, yaitu
data science

Anda mungkin juga menyukai