Pre-Processing Data Part 1
Pre-Processing Data Part 1
8
Data Cleaning
Data in the Real World Is Dirty: Banyak potensi munculnya data yang
salah, kesalahan instrumen, kesalahan manusia atau computer, dan
kesalahan pada saat transmisi data.
• Incomplete: data atribut kurang, hilangnya data yang penting
• e.g., Occupation=“ ” (missing data)
• Noisy: mengandung noise, error, atau outlier
• e.g., Salary=“−10” (an error)
• Inconsistent: mengandung perbedaan dalam kode atau nama
• e.g., Age=“42”, Birthday=“03/07/2010”
• Was rating “1, 2, 3”, now rating “A, B, C”
• Perbedaan antara duplicate records
• Intentional (e.g., disguised missing data)
• Jan. 1 as everyone’s birthday?
9
Incomplete (Missing) Data
• Data is tidak selamanya tersedia
• E.g., banyak tupel tidak memiliki nilai tercatat untuk beberapa
atribut, seperti pendapatan pelanggan dalam data penjualan
• Missing data mungkin terjadi oleh karena:
• kerusakan peralatan
• tidak konsisten dengan data lainnya yang direkam, oleh karenanya
dihapus
• data tidak dimasukkan karena kesalahpahaman
• data tertentu mungkin tidak dianggap penting pada saat masuk
• tidak mendaftarkan riwayat atau perubahan data
10
Contoh Missing Data
11
How to Handle Missing Data?
• Ignore the tuple:
• Usually done when class label is missing (when doing
classification)—not effective when the % of missing values
per attribute varies considerably
• Fill in the missing value manually:
• Tedious + infeasible?
• Fill in it automatically with
• A global constant: e.g., “unknown”, a new class?!
• The attribute mean
• The attribute mean for all samples belonging to the same
class: smarter
• The most probable value: inference-based such as
Bayesian formula or decision tree
12
Coba lakukan pada Rapid Miner….
Data Normalizing
• Normalisasi disini bukan normalisasi yang dilakukan pada
database. Normalisasi disini merupakan normalisasi pada
Data Mining yaitu proses penskalaan nilai atribut dari data
sehingga bisa jatuh pada range tertentu.
• Contoh Metode Normalisasi:
• min-max normalization
• z-score normalization
• normalization by decimal scaling
Rumus Normalisasi
• Min-max normalization: to [new_minA, new_maxA]
v minA
v' (new _ maxA new _ minA) new _ minA
maxA minA
• Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0]. Then $73,000 is
mapped to 73,600 12,000 (1.0 0) 0 0.716
98,000 12,000
• Z-score normalization (μ: mean, σ: standard deviation):
v A
v'
A
∑ − ′
=
−1
Contoh kasus
• Dalam suatu kelas, tinggi badan
beberapa orang siswa yang dijadikan
sampel adalah sebagai berikut.
• 172, 167, 180, 170, 169, 160, 175,
165, 173, 170.
• Dari data tersebut diketahui bahwa
jumlah data (n) = 10, dan (n – 1) = 9.
Selanjutnya dapat dihitung
komponen untuk rumus varian.
• Kemudian masukkan nilai pada lingkaran merah kedalam persamaan
varian dibawah ini:
∑ − ′ 272,9
= = = 30,32
−1 10 − 1
3
2 − 45 167 − 170 −3
2 = = = = −0,544
5,51 5,51
• Maka nilai Z-Score dari data tinggi siswa = 167 adalah – 0,544
Data Outlier
• Data Outlier disebut juga dengan data pencilan.
• Pengertian dari Outlier adalah data observasi yang muncul
dengan nilai-nilai ekstrim, baik secara univariat ataupun
multivariat.
• Yang dimaksud dengan nilai-nilai ekstrim dalam observasi
adalah nilai yang jauh atau beda sama sekali dengan
sebagian besar nilai lain dalam kelompoknya.
Contoh Data Outlier
• Misalkan nilai ujian siswa dalam satu kelas yang berjumlah
40 siswa, sebanyak 39 siswa mendapatkan nilai ujian dalam
kisaran 70 sampai 80. Kemudian ada 1 siswa yang nilainya
sangat melenceng dari lainnya, yaitu mendapatkan nilai 30.
Nah, tentunya 1 siswa tersebut memiliki nilai ekstrem
sehingga disebut sebagai pencilan.
Coba lakukan pada Rapid Miner….