Preprocessing Data
Preprocessing Data
with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data
Part 2 Part 4
Preprocessing Visualisasi
Data Data Spasial
Part 2:
Preprocessing Data
Preprocessing ?
Missing Values
➢ Memiliki Noisy (Outlier)
Outliers
➢ Incosistent Data
11
Data Cleaning
➢ Menangani nilai Missing Values.
Terdapat beberapa cara untuk menangani nilai Missing Values:
• Mean
• Median
• Abaikan nilai kosong atau isi dengan inisial dan angka tertentu. 12
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Mean.
Setelah perhitungan didapatkan =
Mean X: 163
X Y Z Mean Y: 52
Mean Z: 304
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 52 202
Null 59 312
200 70 304
Null 32 500
163 59 312
163 32 500 13
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Median.
Setelah perhitungan didapatkan =
Median X: 170
X Y Z Median Y: 54,5
Median Z: 258,5
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 54,5 202
Null 59 312
200 70 258,5
Null 32 500
170 59 312
170 32 500 14
Data Cleaning
➢ Menangani nilai Missing Values dengan Most Frequent (Modus).
Setelah perhitungan didapatkan =
Most Frequent X: 200
X Y Z Most Frequent Y: 59
Most Frequent Z: 205
200 59 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 59 202
Null 59 205
200 70 205
Null 59 300
200 59 312
200 32 500 15
Data Cleaning
➢ Menangani nilai Missing Values dengan Delete / Drop Row.
X Y Z
200 59 205
170 Null 202 X Y Z
200 70 Null 120 50 205
Null 59 205
Null 59 300
16
Data Cleaning
17
Data Cleaning
➢ Handling Outliers.
18
Data Cleaning
Five Number Summary
➢ Handling Outliers.
• The Minimum
• Q1 (Kuartil pertama atau 25%)
• The Median (50%)
• Q3 (Kuartil ketiga atau 75%)
• The Maximum
19
Data Cleaning
➢ Handling Outliers.
20
Data Cleaning
➢ Handling Outliers.
21
Data Integration
22
Data Selection
Metode:
• PCA (Principle Component Analysis)
• Variance Threshold
• Etc..
23
Data Transformation
24
POINTS OF REFLECTIONS PREPROCESSING
DATA
Data
Cleaning
1
Data
Transformation
4
2
Data 3
Integration Data
Selection
25
Daftar Pustaka
26
Coding Time !
27
Asset File
https://drive.google.com/file/d/1LZYpvTB7fijLFcHBmjCYDmv
WRBDzcZoX/view?usp=sharing
28
29