0% menganggap dokumen ini bermanfaat (0 suara)
19 tayangan22 halaman

Pre-Processing Data Part 1

Diunggah oleh

Zha Fif
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
19 tayangan22 halaman

Pre-Processing Data Part 1

Diunggah oleh

Zha Fif
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 22

Remainder :

Proses Data Mining

1. Himpunan 2. Metode Data 3. Pengetahuan 4. Evaluation


Data Mining

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC, RMSE,


Pengolahan Data) Sesuai Karakter Data) Tree/Rule/Cluster) Lift Ratio,…)

DATA PRE-PROCESSING Estimation


Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Association
Data Transformation
2
3
4
5
6
7
Persiapan Data
3.1 Data Cleaning (Pembersihan Data)
3.2 Data Normalizing (Normalisasi Data)

8
Data Cleaning
Data in the Real World Is Dirty: Banyak potensi munculnya data yang
salah, kesalahan instrumen, kesalahan manusia atau computer, dan
kesalahan pada saat transmisi data.
• Incomplete: data atribut kurang, hilangnya data yang penting
• e.g., Occupation=“ ” (missing data)
• Noisy: mengandung noise, error, atau outlier
• e.g., Salary=“−10” (an error)
• Inconsistent: mengandung perbedaan dalam kode atau nama
• e.g., Age=“42”, Birthday=“03/07/2010”
• Was rating “1, 2, 3”, now rating “A, B, C”
• Perbedaan antara duplicate records
• Intentional (e.g., disguised missing data)
• Jan. 1 as everyone’s birthday?
9
Incomplete (Missing) Data
• Data is tidak selamanya tersedia
• E.g., banyak tupel tidak memiliki nilai tercatat untuk beberapa
atribut, seperti pendapatan pelanggan dalam data penjualan
• Missing data mungkin terjadi oleh karena:
• kerusakan peralatan
• tidak konsisten dengan data lainnya yang direkam, oleh karenanya
dihapus
• data tidak dimasukkan karena kesalahpahaman
• data tertentu mungkin tidak dianggap penting pada saat masuk
• tidak mendaftarkan riwayat atau perubahan data

10
Contoh Missing Data

11
How to Handle Missing Data?
• Ignore the tuple:
• Usually done when class label is missing (when doing
classification)—not effective when the % of missing values
per attribute varies considerably
• Fill in the missing value manually:
• Tedious + infeasible?
• Fill in it automatically with
• A global constant: e.g., “unknown”, a new class?!
• The attribute mean
• The attribute mean for all samples belonging to the same
class: smarter
• The most probable value: inference-based such as
Bayesian formula or decision tree

12
Coba lakukan pada Rapid Miner….
Data Normalizing
• Normalisasi disini bukan normalisasi yang dilakukan pada
database. Normalisasi disini merupakan normalisasi pada
Data Mining yaitu proses penskalaan nilai atribut dari data
sehingga bisa jatuh pada range tertentu.
• Contoh Metode Normalisasi:
• min-max normalization
• z-score normalization
• normalization by decimal scaling
Rumus Normalisasi
• Min-max normalization: to [new_minA, new_maxA]
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA

• Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0]. Then $73,000 is
mapped to 73,600 12,000 (1.0  0)  0  0.716
98,000  12,000
• Z-score normalization (μ: mean, σ: standard deviation):
v  A
v'
 A

• Ex. Let μ = 54,000, σ = 16,000. Then 73,600  54,000  1.225


16,000
• Normalization by decimal scaling
v
v'  Where j is the smallest integer such that Max(|ν’|) < 1
10 j
15
Contoh Perhitungan Z-Score (Z-Transformation)
• Varian dan Standar Deviasi (Simpangan Baku) adalah ukuran-ukuran
keragaman (variasi) data statistik yang paling sering digunakan.
Standar deviasi (simpangan baku) merupakan akar kuadrat dari
varian.
=
• Untuk menghitung Varian gunakan rumus:

∑ − ′
=
−1
Contoh kasus
• Dalam suatu kelas, tinggi badan
beberapa orang siswa yang dijadikan
sampel adalah sebagai berikut.
• 172, 167, 180, 170, 169, 160, 175,
165, 173, 170.
• Dari data tersebut diketahui bahwa
jumlah data (n) = 10, dan (n – 1) = 9.
Selanjutnya dapat dihitung
komponen untuk rumus varian.
• Kemudian masukkan nilai pada lingkaran merah kedalam persamaan
varian dibawah ini:
∑ − ′ 272,9
= = = 30,32
−1 10 − 1

• Lalu akarkan nilai varian tersebut, sehingga akan menghasilkan nilai


standar deviasi:
= = 30,32 = 5,51
Z-Score (Z-Transformation)
• Misalkan, kita ingin mencari nilai Z-Score dari data siswa yang
memiliki tinggi = 167 dimana diketahui bahwa nilai rata-rata pada
tabel tersebut sebesar 170, dan standar deviasinya 5,51. Maka:

3
2 − 45 167 − 170 −3
2 = = = = −0,544
5,51 5,51
• Maka nilai Z-Score dari data tinggi siswa = 167 adalah – 0,544
Data Outlier
• Data Outlier disebut juga dengan data pencilan.
• Pengertian dari Outlier adalah data observasi yang muncul
dengan nilai-nilai ekstrim, baik secara univariat ataupun
multivariat.
• Yang dimaksud dengan nilai-nilai ekstrim dalam observasi
adalah nilai yang jauh atau beda sama sekali dengan
sebagian besar nilai lain dalam kelompoknya.
Contoh Data Outlier
• Misalkan nilai ujian siswa dalam satu kelas yang berjumlah
40 siswa, sebanyak 39 siswa mendapatkan nilai ujian dalam
kisaran 70 sampai 80. Kemudian ada 1 siswa yang nilainya
sangat melenceng dari lainnya, yaitu mendapatkan nilai 30.
Nah, tentunya 1 siswa tersebut memiliki nilai ekstrem
sehingga disebut sebagai pencilan.
Coba lakukan pada Rapid Miner….

Anda mungkin juga menyukai