Bab 2 Pre Processing
Bab 2 Pre Processing
Agenda
Mengapa mem-praproses data? Rangkuman data Pembersihan data
Data salah:
Kesalahan alat pengumpul data Kesalahan manusia/computer saat entri data Kesalahan saat pengiriman data
Ekstraksi data, pembersihan dan transformasi merupakan bagian terbesar pembentukan data warehouse.
Integrasi data
Integrasi dari multi database
Transformasi data
Normalisasi dan agregasi
Pengurangan data
Data lebih sedikit tapi hasil statistik sama
Diskretisasi
Untuk data numerik
Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)
Karakteristik ketersebaran:
Central Tendency
Rata-rata (mean) Median
1,5,6,7,7,8,10,12,15,18,20
Ketersebaran
Analisis Boxplot
Max Q3
Median
Q1
Min
Contoh Boxplot
Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)
Data Cleaning
Mengapa?
Data cleaning is one of the three biggest problems in data warehousingRalph Kimball Data cleaning is the number one problem in data warehousingDCI survey
Noisy Data
Noise: kesalahan pengisian data (random). Contoh: umur 120 tahun. Penyebab:
Kesalahan Instrumen pengumpul data Masalah data entry Masalah transmisi data Keterbatasan teknologi Tidak konsisten dalam penamaan (contoh: Jogja vs Yogya)
Regresi Clustering
Deteksi dan buang outlier
Kombinasi komputer+manusia
Deteksi data mencurigakan tangani oleh manusia
Regresi
y
Y1
Y1
y=x+1
X1
Analisis Cluster
Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)
Integrasi Data
Integrasi Data:
Menggabungkan data dari sumber yang beragam
Penanganan Redundancy
Data redundan (duplikasi yang tidak perlu) dapat muncul saat integrasi:
Atribut yang sama dapat memiliki nama yang berbeda Derivable data: Data berasal dari atribut lain. Contoh: Data Jumlah
Jika rA,B > 0, A and B are berkorelasi positif (A naik, B naik). Makin tinggi makin kuat korelasi
Contoh:
(http://www.mnstate.edu/wasson/ed602pearsoncorr.htm)
Semakin besar 2 value semakin besar kemungkinan keduanya terkait Korelasi belum tentu berarti sebab-akibat
Jumlah rumah sakit dan jumlah pencuri mobil bekorelasi positif Dua-duanya berhubungan dengan variabel ketiga: populasi
Contoh
Contoh soal: http://www.mste.uiuc.edu/patel/chisquare/ keyprob.html
Transformasi Data
Smoothing: membuang noise dari data
Agregasi
Generalisasi (jalan kota) Normalisasi: transformasi nilai menjadi skala yang lebih kecil
min-max z-score decimal scaling
Normalisasi
Min-max normalization: ke [new_minA, new_maxA]
v'
Contoh, gaji $12,000 sd $98,000 di normaliasi [0.0, 1.0]. Maka 73,600 12 ,000 (1.0 0) 0 0.716 $73,000 dipetakan ke
v'
v A
Normalisai dengan decimal scaling (dibagi 10j) sehingga nilai maksimum <1
Data Preprocessing
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)
Reduksi data:
Mendapatkan versi data yang volumenya jauh lebih kecil tetapi menghasilkan hasil analisis yang sama (atau hampir sama)
Reduksi dimensi pembuangan atribut Kompresi data Numerosity reduction Diskretisasi dan pembangkitan konsep hirarki.
Subset Atribut
Pemilihan atribut
Pilih himpunan minimal dari atribut yang tetap representatif.
Kompresi Data
Original Data
lossless
Data Terkompresi
Kompresi Data
Kompresi String
Ada beberapa algoritma
Kompresi Audio/video
Biasanya lossy compression Sometimes small fragments of signal can be reconstructed without reconstructing the whole
Time sequence
Pendek-pendek, dan bervariasi dalam jangka waktu lama
Numerosity Reduction
Kurangi data dengan memilih bentuk alternatif yang lebih kecil. Parametric
Asumsikan data cocok dengan model, perkiarakan parameter model, lalu buang datanya.
Non-parametric methods
Tidak ada asumsi model histograms, clustering, sampling
Diskretisasi
Tiga jenis atribu7t:
Nominal (tidak terurut) Contoh ., warna, pekerjaan Ordinal (terurut) Contoh: pangkat
Discretization:
Bagi range pada data continuous dalam interval Masukan data ke dalam interval
Konsep Hirarki
Secara rekursif mengurangi data dengan cara mengganti konsep rendah (low level) dengan yang lebih tinggi.
Contoh, Umur:
Dalam tahun 30,21,33,17,2 Menjadi kategori: bayi, balita, remaja, dewasa, tua