0% menganggap dokumen ini bermanfaat (0 suara)
19 tayangan

Pre-Processing Data Part 1

Diunggah oleh

Zha Fif
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
19 tayangan

Pre-Processing Data Part 1

Diunggah oleh

Zha Fif
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 22

Remainder :

Proses Data Mining

1. Himpunan 2. Metode Data 3. Pengetahuan 4. Evaluation


Data Mining

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC, RMSE,


Pengolahan Data) Sesuai Karakter Data) Tree/Rule/Cluster) Lift Ratio,…)

DATA PRE-PROCESSING Estimation


Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Association
Data Transformation
2
3
4
5
6
7
Persiapan Data
3.1 Data Cleaning (Pembersihan Data)
3.2 Data Normalizing (Normalisasi Data)

8
Data Cleaning
Data in the Real World Is Dirty: Banyak potensi munculnya data yang
salah, kesalahan instrumen, kesalahan manusia atau computer, dan
kesalahan pada saat transmisi data.
• Incomplete: data atribut kurang, hilangnya data yang penting
• e.g., Occupation=“ ” (missing data)
• Noisy: mengandung noise, error, atau outlier
• e.g., Salary=“−10” (an error)
• Inconsistent: mengandung perbedaan dalam kode atau nama
• e.g., Age=“42”, Birthday=“03/07/2010”
• Was rating “1, 2, 3”, now rating “A, B, C”
• Perbedaan antara duplicate records
• Intentional (e.g., disguised missing data)
• Jan. 1 as everyone’s birthday?
9
Incomplete (Missing) Data
• Data is tidak selamanya tersedia
• E.g., banyak tupel tidak memiliki nilai tercatat untuk beberapa
atribut, seperti pendapatan pelanggan dalam data penjualan
• Missing data mungkin terjadi oleh karena:
• kerusakan peralatan
• tidak konsisten dengan data lainnya yang direkam, oleh karenanya
dihapus
• data tidak dimasukkan karena kesalahpahaman
• data tertentu mungkin tidak dianggap penting pada saat masuk
• tidak mendaftarkan riwayat atau perubahan data

10
Contoh Missing Data

11
How to Handle Missing Data?
• Ignore the tuple:
• Usually done when class label is missing (when doing
classification)—not effective when the % of missing values
per attribute varies considerably
• Fill in the missing value manually:
• Tedious + infeasible?
• Fill in it automatically with
• A global constant: e.g., “unknown”, a new class?!
• The attribute mean
• The attribute mean for all samples belonging to the same
class: smarter
• The most probable value: inference-based such as
Bayesian formula or decision tree

12
Coba lakukan pada Rapid Miner….
Data Normalizing
• Normalisasi disini bukan normalisasi yang dilakukan pada
database. Normalisasi disini merupakan normalisasi pada
Data Mining yaitu proses penskalaan nilai atribut dari data
sehingga bisa jatuh pada range tertentu.
• Contoh Metode Normalisasi:
• min-max normalization
• z-score normalization
• normalization by decimal scaling
Rumus Normalisasi
• Min-max normalization: to [new_minA, new_maxA]
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA

• Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0]. Then $73,000 is
mapped to 73,600 12,000 (1.0  0)  0  0.716
98,000  12,000
• Z-score normalization (μ: mean, σ: standard deviation):
v  A
v'
 A

• Ex. Let μ = 54,000, σ = 16,000. Then 73,600  54,000  1.225


16,000
• Normalization by decimal scaling
v
v'  Where j is the smallest integer such that Max(|ν’|) < 1
10 j
15
Contoh Perhitungan Z-Score (Z-Transformation)
• Varian dan Standar Deviasi (Simpangan Baku) adalah ukuran-ukuran
keragaman (variasi) data statistik yang paling sering digunakan.
Standar deviasi (simpangan baku) merupakan akar kuadrat dari
varian.
=
• Untuk menghitung Varian gunakan rumus:

∑ − ′
=
−1
Contoh kasus
• Dalam suatu kelas, tinggi badan
beberapa orang siswa yang dijadikan
sampel adalah sebagai berikut.
• 172, 167, 180, 170, 169, 160, 175,
165, 173, 170.
• Dari data tersebut diketahui bahwa
jumlah data (n) = 10, dan (n – 1) = 9.
Selanjutnya dapat dihitung
komponen untuk rumus varian.
• Kemudian masukkan nilai pada lingkaran merah kedalam persamaan
varian dibawah ini:
∑ − ′ 272,9
= = = 30,32
−1 10 − 1

• Lalu akarkan nilai varian tersebut, sehingga akan menghasilkan nilai


standar deviasi:
= = 30,32 = 5,51
Z-Score (Z-Transformation)
• Misalkan, kita ingin mencari nilai Z-Score dari data siswa yang
memiliki tinggi = 167 dimana diketahui bahwa nilai rata-rata pada
tabel tersebut sebesar 170, dan standar deviasinya 5,51. Maka:

3
2 − 45 167 − 170 −3
2 = = = = −0,544
5,51 5,51
• Maka nilai Z-Score dari data tinggi siswa = 167 adalah – 0,544
Data Outlier
• Data Outlier disebut juga dengan data pencilan.
• Pengertian dari Outlier adalah data observasi yang muncul
dengan nilai-nilai ekstrim, baik secara univariat ataupun
multivariat.
• Yang dimaksud dengan nilai-nilai ekstrim dalam observasi
adalah nilai yang jauh atau beda sama sekali dengan
sebagian besar nilai lain dalam kelompoknya.
Contoh Data Outlier
• Misalkan nilai ujian siswa dalam satu kelas yang berjumlah
40 siswa, sebanyak 39 siswa mendapatkan nilai ujian dalam
kisaran 70 sampai 80. Kemudian ada 1 siswa yang nilainya
sangat melenceng dari lainnya, yaitu mendapatkan nilai 30.
Nah, tentunya 1 siswa tersebut memiliki nilai ekstrem
sehingga disebut sebagai pencilan.
Coba lakukan pada Rapid Miner….

Anda mungkin juga menyukai