0% menganggap dokumen ini bermanfaat (0 suara)
148 tayangan29 halaman

Preprocessing Data

Preprocessing data meliputi tahapan data cleaning untuk menangani nilai missing, outliers, dan inkonsistensi; data integration untuk menggabungkan data dari sumber berbeda; serta data selection dan transformation untuk mengurangi kompleksitas data dan mengubah struktur datanya."

Diunggah oleh

Ricco Putra Perdana
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
148 tayangan29 halaman

Preprocessing Data

Preprocessing data meliputi tahapan data cleaning untuk menangani nilai missing, outliers, dan inkonsistensi; data integration untuk menggabungkan data dari sumber berbeda; serta data selection dan transformation untuk mengurangi kompleksitas data dan mengubah struktur datanya."

Diunggah oleh

Ricco Putra Perdana
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 29

Exploratory Data Analysis

with Python
Use Case COVID-19 in Indonesia
by Felix Aristo, Senior Developer Web & Mobile Application at ONE GML Digital Learning Solutions
Learning Journey
Pengenalan Analisis Data
Pemodelan Analisis
Beragam Macam Deskriptif dan
Prediktif
Data Visualisasi Data

Part 2 Part 4

Part 1 Part 3 Part 5

Preprocessing Visualisasi
Data Data Spasial
Part 2:
Preprocessing Data
Preprocessing ?

➢ Adanya data yang Incomplete (Kurangnya atribut nilai pada


suatu fitur tertentu atau atribut lainnya).

➢ Memiliki Noisy (Mengandung kesalahan, nilai outlier yang


menyimpang dari yang diharapkan).

➢ Incosistent Data (Ketidak konsistenan pada data, seperti


perbedaan kode yang digunakan dalam pengkategorian item).
➢ Adanya data yang Incomplete
X Y Z

• Incomplete Data, bisa terjadi karena


banyak hal, seperti tidak semua informasi
yang ingin diketahui dapat kita peroleh.
Misalnya informasi customer untuk data
transaksi penjualan.

• Penyebab Incomplete Data, biasanya


disebabkan oleh kesalahpahaman atau
terjadinya kerusakan pada alat / sistem
yang digunakan

Missing Values
➢ Memiliki Noisy (Outlier)

• Noisy Data, merupakan kesalahan pada


suatu variabel data yang memiliki nilai
jauh berbeda dibandingkan dengan X Y Z
angka di sekitarnya (menyimpang dari
angka yang diharapkan). 50 2 122
• Penyebab Noisy Data: 1302 4 150
• Sistem untuk pengumpulan data
terjadi kerusakan. 57 2 131
• Terjadinya Human Error pada saat
penginputan data. 49 500 1
• Kesalahan pada transmisi data, atau
keterbatasan teknologi yang 20 3 150
digunakan.

Outliers
➢ Incosistent Data

• Incosistent Data, merupakan ketidak konsistenan pada data,


seperti perbedaan kode yang digunakan dalam pengkategorian
item.

• Penyebab Incosistent Data:


• Proses historis pencatatan data atau modifikasi pada data yang
terabaikan.
• Terjadinya perbedaan dengan data yang dicatat mungkin telah
terhapus.
Preprocessing Goals

Tujuan utama dari Pre processing adalah untuk


mengatasi Incomplete Data, Noisy Data, dan
Incosistent Data.
Preprocessing Step

Data Cleaning Data Integration Data Selection Data Transformation


Data Cleaning

Tugas utama pada Data Cleaning:

• Menangani nilai Missing Values.


• Mengidentifikasi atau menghapus nilai Outliers.
• Menangani kasus Incosistency Data.

11
Data Cleaning
➢ Menangani nilai Missing Values.
Terdapat beberapa cara untuk menangani nilai Missing Values:

• Mean

• Median

• Most Frequent (Modus)


Mengisi dengan nilai frekuensi terbanyak.

• Delete / Drop Row


Menghapus langsung row yang kosong.

• Abaikan nilai kosong atau isi dengan inisial dan angka tertentu. 12
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Mean.
Setelah perhitungan didapatkan =
Mean X: 163
X Y Z Mean Y: 52
Mean Z: 304
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 52 202
Null 59 312
200 70 304
Null 32 500
163 59 312
163 32 500 13
Data Cleaning
➢ Menangani nilai Missing Values dengan nilai Median.
Setelah perhitungan didapatkan =
Median X: 170
X Y Z Median Y: 54,5
Median Z: 258,5
120 50 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 54,5 202
Null 59 312
200 70 258,5
Null 32 500
170 59 312
170 32 500 14
Data Cleaning
➢ Menangani nilai Missing Values dengan Most Frequent (Modus).
Setelah perhitungan didapatkan =
Most Frequent X: 200
X Y Z Most Frequent Y: 59
Most Frequent Z: 205
200 59 205
X Y Z
170 Null 202
120 50 205
200 70 Null
170 59 202
Null 59 205
200 70 205
Null 59 300
200 59 312
200 32 500 15
Data Cleaning
➢ Menangani nilai Missing Values dengan Delete / Drop Row.

X Y Z
200 59 205
170 Null 202 X Y Z
200 70 Null 120 50 205
Null 59 205
Null 59 300

16
Data Cleaning

Pemilihan cara penanganan Missing Values


diambil berdasarkan kebijakan penelitinya
dan tergantung kasus yang sedang dihadapi.

17
Data Cleaning
➢ Handling Outliers.

18
Data Cleaning
Five Number Summary
➢ Handling Outliers.
• The Minimum
• Q1 (Kuartil pertama atau 25%)
• The Median (50%)
• Q3 (Kuartil ketiga atau 75%)
• The Maximum

19
Data Cleaning
➢ Handling Outliers.

20
Data Cleaning
➢ Handling Outliers.

Penanganan Outliers biasanya nilai outliers / pencilan


akan dihapus karena akan mengganggu model yang akan
dibangun atau diabaikan jika menurut peneliti tidak terlalu
signifikan.

Akan tetapi terdapat pengecualian dalam data medis,


biasanya nilai outliers akan dipelajari lebih lanjut oleh tim
kesehatan, yang ditakutkan nilai itu mengandung informasi
kelainan genetik atau hal lainnya dari pasien yang diteliti.

21
Data Integration

• Menggabungkan dari berbagai macam sumber data. Terdapat


pengubahan data ke dalam bentuk yang sesuai.
• Bertujuan agar data mudah dipahami dan menggali data menjadi lebih
mudah.

22
Data Selection

Proses untuk mengurangi data yang kompleks / besar ke dalam


bentuk yang lebih kecil.

Metode:
• PCA (Principle Component Analysis)
• Variance Threshold
• Etc..

23
Data Transformation

• Proses untuk mengubah struktur atau informasi dalam data.

• Seperti contoh berikut ini, suatu variabel nama_jalan dapat dipecah


atau diubah ke struktur yang lebih tinggi, menjadi variabel kota atau
negara.

24
POINTS OF REFLECTIONS PREPROCESSING
DATA
Data
Cleaning
1
Data
Transformation
4
2
Data 3
Integration Data
Selection
25
Daftar Pustaka

• Jiawei Han and Micheline Kamber, Data Mining:


Concepts and Techniques Third Edition, Elsevier, 2012
• Jullend Gatc, Data Descriptive, Kalbis Institute

26
Coding Time !

27
Asset File

https://drive.google.com/file/d/1LZYpvTB7fijLFcHBmjCYDmv
WRBDzcZoX/view?usp=sharing

28
29

Anda mungkin juga menyukai