Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Let’s Get to Know Each Other
Senior Developer Web & Mobile Application at ONE GML Digital Learning
Solutions. Create plugins for E-Learning, handling prototype software
design, create system for people development and develop system for
Data Science.
Experienced in more than 5 years in programming languages. The most
programming languages i’ve used is Python for Data Science, PHP for
Backend Systems, Angular JS & Typescript for Frontend, and Java for Back
Felix Aristo
end Systems (Desktop Applications).
Senior Developer
Web & Mobile
Application at ONE
GML Digital
Learning Solutions Contact:
WA: 0896 0867 0056
@: [email protected]
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data
Part 2 Part 4
Part 1 Part 3 Part 5
Preprocessing Visualisasi
Data Data Spasial
Part 1:
Pengenalan
Beragam Macam Data
Image Data
B (Blue)
0 0 255
0 0 128
255 255 255
G (Green)
0 255 0
0 128 0
128 128 128
R (Red)
255 0 0
128 0 0
0 0 0
6
Spatial Data
Data Spasial yaitu sebuah data yang
berorientasi geografis dan merupakan
lokasi yang memiliki sistem koordinat
tertentu.
7
Spatial Data
Vector Raster
8
Spatial Data
9
Spatial Data
10
Stream Data
Data yang bersifat continue, terurut, selalu berubah,
cepat, dan banyak.
Contoh penerapan data stream: Video
Streaming, Network Traffic,
Telecommunication, Stock Exchange,
etc.
11
Time-Series Data
Data yang bersifat terurut, dengan
memperhatikan aspek waktu.
(hourly, daily, weekly, etc)
Contoh penerapan data stream:
Inventory Control, Weather Data.
12
Sequential Data
Data yang bersifat terurut, tanpa
melihat aspek waktu masuknya data.
Contoh sequential data: Urutan
datangnya konsumen, urutan
DNA/Protein (Bidang Biologi).
Gene Expression Data
13
POINTS OF REFLECTIONS
Image Data
1 Time-Series Data
4
5
Sequential
2 Data
Spatial Data 3
Stream Data
14
Daftar Pustaka
• Jiawei Han and Micheline Kamber, Data Mining:
Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Teknik Data Mining 1, Kalbis Institute
15
16
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data
Part 2 Part 4
Part 1 Part 3 Part 5
Preprocessing Visualisasi
Data Data Spasial
Part 2:
Preprocessing Data
Preprocessing ?
➢ Adanya data yang Incomplete (Kurangnya atribut nilai pada
suatu fitur tertentu atau atribut lainnya).
➢ Memiliki Noisy (Mengandung kesalahan, nilai outlier yang
menyimpang dari yang diharapkan).
➢ Incosistent Data (Ketidak konsistenan pada data, seperti
perbedaan kode yang digunakan dalam pengkategorian item).
➢ Adanya data yang Incomplete
X Y Z
• Incomplete Data, bisa terjadi karena
banyak hal, seperti tidak semua informasi
yang ingin diketahui dapat kita peroleh.
Misalnya informasi customer untuk data
transaksi penjualan.
• Penyebab Incomplete Data, biasanya
disebabkan oleh kesalahpahaman atau
terjadinya kerusakan pada alat / sistem
yang digunakan
Missing Values
➢ Memiliki Noisy (Outlier)
• Noisy Data, merupakan kesalahan pada
suatu variabel data yang memiliki nilai
jauh berbeda dibandingkan dengan X Y Z
angka di sekitarnya (menyimpang dari
angka yang diharapkan). 50 2 122
• Penyebab Noisy Data: 1302 4 150
• Sistem untuk pengumpulan data
terjadi kerusakan. 57 2 131
• Terjadinya Human Error pada saat
penginputan data. 49 500 1
• Kesalahan pada transmisi data, atau
keterbatasan teknologi yang 20 3 150
digunakan.
Outliers
➢ Incosistent Data
• Incosistent Data, merupakan ketidak konsistenan pada data,
seperti perbedaan kode yang digunakan dalam pengkategorian
item.
• Penyebab Incosistent Data:
• Proses historis pencatatan data atau modifikasi pada data yang
terabaikan.
• Terjadinya perbedaan dengan data yang dicatat mungkin telah
terhapus.
Preprocessing Goals
Tujuan utama dari Pre processing adalah untuk
mengatasi Incomplete Data, Noisy Data, dan
Incosistent Data.
Preprocessing Step
Data Cleaning Data Integration Data Selection Data Transformation
Data Cleaning
Tugas utama pada Data Cleaning:
• Menangani nilai Missing Values.
• Mengidentifikasi atau menghapus nilai Outliers.
• Menangani kasus Incosistency Data.
11
Data Cleaning
➢ Menangani nilai Missing Values.
Terdapat beberapa cara untuk menangani nilai Missing Values:
• Mean
• Median
• Most Frequent (Modus)
Mengisi dengan nilai frekuensi terbanyak.
• Delete / Drop Row
Menghapus langsung row yang kosong.
• Abaikan nilai kosong atau isi dengan inisial dan angka tertentu. 12
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Mean.
Setelah perhitungan didapatkan =
Mean X: 163
X Y Z Mean Y: 52
Mean Z: 304
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 52 202
Null 59 312
200 70 304
Null 32 500
163 59 312
163 32 500 13
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Median.
Setelah perhitungan didapatkan =
Median X: 170
X Y Z Median Y: 54,5
Median Z: 258,5
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 54,5 202
Null 59 312
200 70 258,5
Null 32 500
170 59 312
170 32 500 14
Data Cleaning
➢ Menangani nilai Missing Values dengan Most Frequent (Modus).
Setelah perhitungan didapatkan =
Most Frequent X: 200
X Y Z Most Frequent Y: 59
Most Frequent Z: 205
200 59 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 59 202
Null 59 205
200 70 205
Null 59 300
200 59 312
200 32 500 15
Data Cleaning
➢ Menangani nilai Missing Values dengan Delete / Drop Row.
X Y Z
200 59 205
170 Null 202 X Y Z
200 70 Null 120 50 205
Null 59 205
Null 59 300
16
Data Cleaning
Pemilihan cara penanganan Missing Values
diambil berdasarkan kebijakan penelitinya
dan tergantung kasus yang sedang dihadapi.
17
Data Cleaning
➢ Handling Outliers.
18
Data Cleaning
Five Number Summary
➢ Handling Outliers.
• The Minimum
• Q1 (Kuartil pertama atau 25%)
• The Median (50%)
• Q3 (Kuartil ketiga atau 75%)
• The Maximum
19
Data Cleaning
➢ Handling Outliers.
20
Data Cleaning
➢ Handling Outliers.
Penanganan Outliers biasanya nilai outliers / pencilan
akan dihapus karena akan mengganggu model yang akan
dibangun atau diabaikan jika menurut peneliti tidak terlalu
signifikan.
Akan tetapi terdapat pengecualian dalam data medis,
biasanya nilai outliers akan dipelajari lebih lanjut oleh tim
kesehatan, yang ditakutkan nilai itu mengandung informasi
kelainan genetik atau hal lainnya dari pasien yang diteliti.
21
Data Integration
• Menggabungkan dari berbagai macam sumber data. Terdapat
pengubahan data ke dalam bentuk yang sesuai.
• Bertujuan agar data mudah dipahami dan menggali data menjadi lebih
mudah.
22
Data Selection
Proses untuk mengurangi data yang kompleks / besar ke dalam
bentuk yang lebih kecil.
Metode:
• PCA (Principle Component Analysis)
• Variance Threshold
• Etc..
23
Data Transformation
• Proses untuk mengubah struktur atau informasi dalam data.
• Seperti contoh berikut ini, suatu variabel nama_jalan dapat dipecah
atau diubah ke struktur yang lebih tinggi, menjadi variabel kota atau
negara.
24
POINTS OF REFLECTIONS PREPROCESSING
DATA
Data
Cleaning
1
Data
Transformation
4
2
Data 3
Integration Data
Selection
25
Daftar Pustaka
• Jiawei Han and Micheline Kamber, Data Mining:
Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Data Descriptive, Kalbis Institute
26
Coding Time !
27
Asset File
https://drive.google.com/file/d/1LZYpvTB7fijLFcHBmjCYDmv
WRBDzcZoX/view?usp=sharing
28
29
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data
Part 2 Part 4
Part 1 Part 3 Part 5
Preprocessing Visualisasi
Data Data Spasial
Part 3:
Analisis Data Deskriptif
dan Visualisasi Data
Visualisasi Data
Sebagai Tools
Tujuan Visualisasi Data
1. Monitoring
Tujuan Visualisasi Data
2. Analisis
Tujuan Visualisasi Data
3. Komunikasi
Bagaimana Memilih
Tampilan Visual yang Layak?
Discrete
Data yang diperoleh dari hasil
menghitung dan terbatas. Contoh:
jumlah barang yang terjual, jumlah
karyawan pada suatu perusahaan.
Continuous
Data yang diperoleh dari hasil Kenali dulu
mengukur dan memiliki nilai data yang dimiliki
rentang. Contoh: umur, berat
badan.
Categorical
Data yang dapat diurutkan
berdasarkan grup atau kategori.
Contoh: Tipe produk yang terjual.
Mengenali Atribut Pra Atensi
1234632819681624863428
7634782678324673281372
48921234782199712472
Menghitung angka 3
Mengenali Atribut Pra Atensi
1234632819681624863428
7634782678324673281372
48921234782199712472
Menghitung angka 3
Mengenali Atribut Pra Atensi
Sinyal Fokus Area
Bar Chart
Line Chart
Petunjuk Penggunaan Pie Chart
Chart
Scatter Plot
Heat Map
Bar Chart
Bar Chart sangat mudah dibaca dan paling sering digunakan. Visualisasi ini
paling cocok digunakan untuk membandingkan perbedaan kategori atau
membandingkan tiap bagian dari keseluruhan data.
Vertical Bar Chart Horizontal Bar Chart
Bar Chart
Penggunaan yang tepat.
Gunakan horizontal label. Jarak antar bar lebih baik
½ dari lebar bar.
Sumbu Y harus dimulai dari Urutkan berdasarkan
angka 0. alfabet atau nilainya.
Line Chart
Line Chart digunakan untuk menunjukkan data time-series. Line Chart dapat
membantu untuk melihat trend dari suatu data.
Line Chart
Penggunaan yang tepat.
Multi serial data jangan Gunakan garis yang jelas, garis
lebih dari 4 garis. putus-putus akan membuat distraksi.
Sumbu Y harus dimulai dari Pelabelan langsung
angka 0. pada garisnya.
Pie Chart
Pie Chart digunakan untuk
membuat bagian ke keseluruhan perbandingan data.
Pie Chart
Penggunaan yang tepat.
Jangan gunakan Multiple Pie Chart
Visualisasi jangan lebih sebagai perbandingan. Gunakan
dari 5 kategori per chart. Stacked Bar Chart sebagai gantinya,
Pastikan semuanya 100%. Gunakan tanda angka sebagai
urutannya dan urutan bisa berdasarkan
arah jarum jam atau sebaliknya.
Scatter Plot
Scatter Plot menunjukkan relasi atau hubungan antara dua variabel.
Scatter Plot
Penggunaan yang tepat.
Sumbu Y harus dimulai dari Jangan bandingkan
angka 0. lebih dari 2 garis trend.
Heat Map
Heat Map menggambarkan dari categorical data menggunakan intensitas warna
untuk merepresentasikan nilai dari unsur geografis atau data tabel.
Heat Map
Penggunaan yang tepat.
Hindari outline yang terlalu Pilih warna yang kira-kira
tebal. sama.
Gunakan range yang
tepat.
Daftar Pustaka
• bercerita dengan data, Cole Nussbaumer Knaflic, (PT Elex Media Komputindo 2019)
• Data Visualization 101: How To Design Charts And Graphs, (Hubspot, Visage)
• Data Visualization Basics, Michael Grossberg
25
Coding Time !
26
Asset File
https://drive.google.com/file/d/1_lecklc8jfSvrhY-
lKf5BMz6xbSYk8ro/view?usp=sharing
27
28
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data
Part 2 Part 4
Part 1 Part 3 Part 5
Preprocessing Visualisasi
Data Data Spasial
Part 4:
Visualisasi Data Spasial
Spatial Data
Data Spasial yaitu sebuah data yang
berorientasi geografis dan merupakan
lokasi yang memiliki sistem koordinat
tertentu.
5
Spatial Data
Vector Raster
6
Spatial Data
7
Spatial Data
8
Representasi Data
GEOJSON
GEOJSON
Geometry Primitives
Multipart Geometries
Gambar di samping
Termasuk jenis
geometris apa?
Gambar di samping
Termasuk jenis
geometris apa?
MULTIPOLYGON
Contour
Manfaat melakukan analisis data spasial
• Mengetahui lokasi yang strategis
untuk kawasan industri.
• Memberikan gambaran
pendukung untuk lokasi
pembangunan kawasan industri.
Daftar Pustaka
• Michael Kennedy (2013). Introducing Geographic Information Systems With ArcGIS,
3rd Edition, John Wiley & Sons
• Data Visualization 101: How To Design Charts And Graphs, (Hubspot, Visage)
• Data Visualization Basics, Michael Grossberg
17
Coding Time !
18
Asset File
https://drive.google.com/file/d/1S8D3rni7AK2v4RjA_I
Ef17270orgGeID/view?usp=sharing
19
20
Exploratory Data Analysis
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data
Part 2 Part 4
Part 1 Part 3 Part 5
Preprocessing Visualisasi
Data Data Spasial
Part 5:
Pemodelan Analisis Prediktif
Algoritma
Data Mining
Supervised Unsupervised
Learning Learning
5
Supervised Learning vs Unsupervised Learning
6
Supervised Learning in Golf Recommendation Dataset
Attribute / Variable / Feature
Label / Class / Target
7
Supervised Learning Implementation
New Data
How to know the result?
Sunny Hot Normal False ?
8
Data Mining Technique for Supervised Learning
Decision Tree
Logistic Regression
For K-Nearest Neighbor
Categorical Data
SVM
Etc..
Classification
Linear Regression
For Decision Tree
Continuous Data /
Descrete Random Forests
Etc..
9
Unsupervised Learning in Golf Recommendation Dataset
Attribute / Variable / Feature
Unknown
Label / Class / Target
10
Unsupervised Learning Implementation
How to know the label?
?
New Data
Sunny Hot Normal False
11
Data Mining Technique for Unsupervised Learning
Apriori
For
Assosiation
Categorical Data Etc..
Regression Linear Regression
For
Continuous Data / K-Means
Clustering
Descrete
Fuzzy C-Means
Etc.. 12
Splitting Datasets
Training Datasets
Build the Model
(70%)
Dataset
(100%)
Test Datasets
(30%)
Apply Model
13
Predicting with
Linear Regression
14
Predicting with
Decision Tree of
Golf Recommendation
(Supervised Learning)
15
K-Means Clustering
16
Daftar Pustaka
• Jiawei Han and Micheline Kamber, Data Mining:
Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Fundamental Machine Learning, Kalbis
Institute
17
Coding Time !
18
Asset File
https://drive.google.com/file/d/1KjoIpavUyLdxfkEg17sE
ZoYd0VAXpRxO/view?usp=sharing
19
20