Preprocessing Data
Preprocessing Data
Discovery)
PREPROCESSING DATA
Tidak komplit
• Terdapat artribut yang kosong dikarenakan atribut tersebut tidak dapat
diaplikasikan untuk semua kasus
• Human/Hardware/Software problems
Noisy
• Data mengandung error atau outlier karena terdapat kesalahan dalam
penggunaan alat, kesalahan manusia atau komputer pada saat
memasukkan data, eror dalam transmisi data
Tidak konsisten
• Format data berubah-ubah dikarenakan berasal dari sumber data yang
berbeda. Contoh: Format tanggal
TUJUAN PRAPROSES
Sumber:
www.syncsort.com/Syncsort/m
edia/images/data-quality-hero-
mobile.png
TAHAPAN PRAPROSES DATA
Pembersihan
Data
Integrasi Diskritisasi
Data Data
Transformasi Reduksi
Data Data
ILUSTRASI PRAPROSES DATA
PEMBERSIHAN DATA
Membetulkan Mengindentifikasi
data yang tidak /membuang https://developer.salesforce.com/
resource/images/trailhead/badges/
konsisten outlier modules/
trailhead_module_data_quality.png
MENGISI MISSING VALUE
• Mengabaikan record
• Menggunakan mean/median/modus dari
atribut yang mengandung missing value
• Menggunakan nilai termungkin (Menerapkan
regresi)
NOISY DATA
Binning
Urutan proses:
1. Urutkan data dari kecil ke besar
(ascending)
2. Melakukan partisi data dalam bins
menggunakan equal-width atau equal-
depth (frekuensi)
3. Dapat di-smoothing menggunakan rata-
rata, median, batasan, dsb.
METODE BINING
Partisi Equal-Width
Langkah-langkah membagi data ke dalam k
interval ukuran yang sama. Lebar interval adalah
w= (max-min)/k
Partisi Equal- depth
Membagi data ke dalam k kelompok dimana
tiap k kelompok berisi jumlah yang sama
CONTOH PARTISI BINNING
ANALISIS
KORELASI
ATRIBUT
REDUDAN
DUPLIKASI
MENGATASI REDUNDASI PADA
INTEGRASI DATA
Dapat dideteksi
PENYEBAB REDUNDANSI menggunakan
• Atribut yang sama mempunyai nama analisis korelasi
yang berbeda pada database yang
berbeda Berhati-hati dalam
• Satu atribut merupakan turunan dari menggabungkan data
atribut lainnya dari berbagai sumber
untuk mengurangi
redundasi
MENGATASI REDUNDASI PADA
INTEGRASI DATA
Redudancy/ Duplicate :
Hubungan korelasi antar variabel dapat dilihat
menggunakan rumus korelasi. Jika data numerik, hubungan
korelasinya seperti dibawah ini:
Normalization
Contoh soal:
Penghasilan berkisar dari $10,000 sampai $98,000
dinormalisasikan dari [0,1]. Sehingga untuk penghasilan sebesar
$73,000 dipetakan ke (1-0)+0=0.716
TRANSFORMASI DATA
Normalization
Contoh soal:
Misal μ = 55,000, σ = 20,000. Maka, = 0.9
TRANSFORMASI DATA
Normalization
c. Normalisasi pada skala desimal
Menggunakan
DATA CUBE Mengurangi
AGGREGATION
representasi
ukuran data
yang singkat
REDUKSI DATA
DATA CUBE
AGGREGATION
DISKRITISASI DATA
• Nominal = Nilai dari sekumpulan data yang tidak beraturan. Contoh: Warna, Profesi
• Ordinal = Nilai dari sekumpulan data yang terurut..
Contoh: Ip, nomor antrian
• Kontinu = Nilai real seperti integer atau real number
Diskritisasi
Metode disktritisasi bisa dilakukan pada data kontinu.Tahap pertama, kita mengelompokkan
nilai ke dalam interval. Setelah itu kita menggantikan nilai atribut dengan label atau interval.
Contoh:
Dataset (age, salary): (26;56,000),(28;70,000),(89;99,000)
c
Latihan (lakukan Konfigurasi Berikut)
https://drive.google.com/file/d/1RIxYnH5RkphTZymdrpwpF
eDZpRgl6MdT/view?usp=sharing
Menggunakan :
1. Python
2. Rapid Minner