Pertemuan 8 Data Preprocessing
Pertemuan 8 Data Preprocessing
[email protected]
BAHAN KAJIAN
TAHAP PREPROCESSING
TEKNIK PREPROCESSING
APA ITU PEPROCESSING
DALAM DATA MINING?
Tidak komplit
• Berisi data yang hilang/kosong
• Kekurangan atribut yang sesuai Data mentah yang ada sebagian besar kotor
• Hanya berisi data aggregate
Comprehensiveness
Mengabaikan record
Binning
• Smoothing by bin means
• Smoothing by bin medians
• Smoothing by bin boundaries
Regression
Outlier Analysis
METODE BINNING
Urutan proses:
• Urutkan data secara ascending
• Lakukan partisi ke dalam bins
• Kemudian dapat di-smoothing: smooth by means, smooth by
median, smooth by boundaries, dsb.
PARTISI DALAM METODE
BINNING
Integrasi skema
• Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari sumber-
sumber berbeda adalah berbeda
• Alasan yang mungkin: representasi berbeda, skala berbeda, misal berat
bisa dalam pound atau kilogram
Integrasi Data
• Atribut yang sama bisa memiliki nama berbeda dalam database berbeda
• Atribut yang satu bisa merupakan suatu atribut “turunan” dalam tabel lainnya,
misal, annual revenue
Normalisasi:
Penghalusan:
Agregasi: ringkasan, Generalisasi: konsep diskalakan agar jatuh Konstruksi
menghilangkan noise
konstruksi kubus data hierarchy climbing didalam suatu range atribut/fitur
dari data
kecil yang tertentu
Atribut-atribut baru
Normalisasi dengan
Normalisasi min-max Normalisasi z-score dibangun dari atribut-
penskalaan desimal
atribut yang ada
STRATEGI REDUKSI DATA
Reduksi data
• Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir
sama)