Pre-Processing Data Part 1

Diunggah oleh

Zha Fif

Hak Cipta

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

19 tayangan

Pre-Processing Data Part 1

Diunggah oleh

Zha Fif

Hak Cipta

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 22

Remainder :

Proses Data Mining

1. Himpunan 2. Metode Data 3. Pengetahuan 4. Evaluation

Data Mining

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC, RMSE,

Pengolahan Data) Sesuai Karakter Data) Tree/Rule/Cluster) Lift Ratio,…)

DATA PRE-PROCESSING Estimation

Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Association
Data Transformation
2
3
4
5
6
7
Persiapan Data
3.1 Data Cleaning (Pembersihan Data)
3.2 Data Normalizing (Normalisasi Data)

8
Data Cleaning
Data in the Real World Is Dirty: Banyak potensi munculnya data yang
salah, kesalahan instrumen, kesalahan manusia atau computer, dan
kesalahan pada saat transmisi data.
• Incomplete: data atribut kurang, hilangnya data yang penting
• e.g., Occupation=“ ” (missing data)
• Noisy: mengandung noise, error, atau outlier
• e.g., Salary=“−10” (an error)
• Inconsistent: mengandung perbedaan dalam kode atau nama
• e.g., Age=“42”, Birthday=“03/07/2010”
• Was rating “1, 2, 3”, now rating “A, B, C”
• Perbedaan antara duplicate records
• Intentional (e.g., disguised missing data)
• Jan. 1 as everyone’s birthday?
9
Incomplete (Missing) Data
• Data is tidak selamanya tersedia
• E.g., banyak tupel tidak memiliki nilai tercatat untuk beberapa
atribut, seperti pendapatan pelanggan dalam data penjualan
• Missing data mungkin terjadi oleh karena:
• kerusakan peralatan
• tidak konsisten dengan data lainnya yang direkam, oleh karenanya
dihapus
• data tidak dimasukkan karena kesalahpahaman
• data tertentu mungkin tidak dianggap penting pada saat masuk
• tidak mendaftarkan riwayat atau perubahan data

10
Contoh Missing Data

11
How to Handle Missing Data?
• Ignore the tuple:
• Usually done when class label is missing (when doing
classification)—not effective when the % of missing values
per attribute varies considerably
• Fill in the missing value manually:
• Tedious + infeasible?
• Fill in it automatically with
• A global constant: e.g., “unknown”, a new class?!
• The attribute mean
• The attribute mean for all samples belonging to the same
class: smarter
• The most probable value: inference-based such as
Bayesian formula or decision tree

12
Coba lakukan pada Rapid Miner….
Data Normalizing
• Normalisasi disini bukan normalisasi yang dilakukan pada
database. Normalisasi disini merupakan normalisasi pada
Data Mining yaitu proses penskalaan nilai atribut dari data
sehingga bisa jatuh pada range tertentu.
• Contoh Metode Normalisasi:
• min-max normalization
• z-score normalization
• normalization by decimal scaling
Rumus Normalisasi
• Min-max normalization: to [new_minA, new_maxA]
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA

• Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0]. Then $73,000 is
mapped to 73,600 12,000 (1.0  0)  0  0.716
98,000  12,000
• Z-score normalization (μ: mean, σ: standard deviation):
v  A
v'
 A

• Ex. Let μ = 54,000, σ = 16,000. Then 73,600  54,000  1.225

16,000
• Normalization by decimal scaling
v
v'  Where j is the smallest integer such that Max(|ν’|) < 1
10 j
15
Contoh Perhitungan Z-Score (Z-Transformation)
• Varian dan Standar Deviasi (Simpangan Baku) adalah ukuran-ukuran
keragaman (variasi) data statistik yang paling sering digunakan.
Standar deviasi (simpangan baku) merupakan akar kuadrat dari
varian.
=
• Untuk menghitung Varian gunakan rumus:

∑ − ′
=
−1
Contoh kasus
• Dalam suatu kelas, tinggi badan
beberapa orang siswa yang dijadikan
sampel adalah sebagai berikut.
• 172, 167, 180, 170, 169, 160, 175,
165, 173, 170.
• Dari data tersebut diketahui bahwa
jumlah data (n) = 10, dan (n – 1) = 9.
Selanjutnya dapat dihitung
komponen untuk rumus varian.
• Kemudian masukkan nilai pada lingkaran merah kedalam persamaan
varian dibawah ini:
∑ − ′ 272,9
= = = 30,32
−1 10 − 1

• Lalu akarkan nilai varian tersebut, sehingga akan menghasilkan nilai

standar deviasi:
= = 30,32 = 5,51
Z-Score (Z-Transformation)
• Misalkan, kita ingin mencari nilai Z-Score dari data siswa yang
memiliki tinggi = 167 dimana diketahui bahwa nilai rata-rata pada
tabel tersebut sebesar 170, dan standar deviasinya 5,51. Maka:

3
2 − 45 167 − 170 −3
2 = = = = −0,544
5,51 5,51
• Maka nilai Z-Score dari data tinggi siswa = 167 adalah – 0,544
Data Outlier
• Data Outlier disebut juga dengan data pencilan.
• Pengertian dari Outlier adalah data observasi yang muncul
dengan nilai-nilai ekstrim, baik secara univariat ataupun
multivariat.
• Yang dimaksud dengan nilai-nilai ekstrim dalam observasi
adalah nilai yang jauh atau beda sama sekali dengan
sebagian besar nilai lain dalam kelompoknya.
Contoh Data Outlier
• Misalkan nilai ujian siswa dalam satu kelas yang berjumlah
40 siswa, sebanyak 39 siswa mendapatkan nilai ujian dalam
kisaran 70 sampai 80. Kemudian ada 1 siswa yang nilainya
sangat melenceng dari lainnya, yaitu mendapatkan nilai 30.
Nah, tentunya 1 siswa tersebut memiliki nilai ekstrem
sehingga disebut sebagai pencilan.
Coba lakukan pada Rapid Miner….

Anda mungkin juga menyukai

Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
3.5/5 (6)
4_Introduction to predictive modeling
Belum ada peringkat
4_Introduction to predictive modeling
18 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Decision thropy
Belum ada peringkat
Decision thropy
30 halaman
P-4 Data Mining
Belum ada peringkat
P-4 Data Mining
57 halaman
Ukuran Pemusatan Data
Belum ada peringkat
Ukuran Pemusatan Data
24 halaman
Pertemuan 02 Representasi Data
Belum ada peringkat
Pertemuan 02 Representasi Data
17 halaman
TM 11 12
Belum ada peringkat
TM 11 12
42 halaman
BAB 1 - 2 - Ukuran Statistik Bagi Data
Belum ada peringkat
BAB 1 - 2 - Ukuran Statistik Bagi Data
67 halaman
Ukuran Penyebaran Data-1
Belum ada peringkat
Ukuran Penyebaran Data-1
33 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
39 halaman
Jawaban Uas Data Warehouse Reldwick 111180034
Belum ada peringkat
Jawaban Uas Data Warehouse Reldwick 111180034
2 halaman
Mean, Median, Modus Fix
Belum ada peringkat
Mean, Median, Modus Fix
28 halaman
Analisis Pengelompokan
Belum ada peringkat
Analisis Pengelompokan
48 halaman
Materi 2 - Teknik Regresi Pada Machine Learning - 7
Belum ada peringkat
Materi 2 - Teknik Regresi Pada Machine Learning - 7
48 halaman
Slide Data Preprocessing
Belum ada peringkat
Slide Data Preprocessing
27 halaman
Pertemuan 5 (ST Deviasi & Varian, Angka Baku, Koefisien Variasi, Variabel Numerik)
Belum ada peringkat
Pertemuan 5 (ST Deviasi & Varian, Angka Baku, Koefisien Variasi, Variabel Numerik)
20 halaman
Stastika
Belum ada peringkat
Stastika
14 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Ukuran Nilai Sentral
Belum ada peringkat
Ukuran Nilai Sentral
33 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
STATISTIKA
Belum ada peringkat
STATISTIKA
35 halaman
Statistik
Belum ada peringkat
Statistik
60 halaman
Statistika Pendidikan, T2
Belum ada peringkat
Statistika Pendidikan, T2
7 halaman
(4) PERTE KE-4 KOEFISIEN VARIANCI (2)
Belum ada peringkat
(4) PERTE KE-4 KOEFISIEN VARIANCI (2)
24 halaman
6 - Ukuran Variasi Atau Dispersi
Belum ada peringkat
6 - Ukuran Variasi Atau Dispersi
17 halaman
Modul Ukuran Penyimpangan PDF
Belum ada peringkat
Modul Ukuran Penyimpangan PDF
9 halaman
Kel 8 - PPT Pebgolahan Data Tunggal
Belum ada peringkat
Kel 8 - PPT Pebgolahan Data Tunggal
20 halaman
Bab 1 Array 1 Dimensi
Belum ada peringkat
Bab 1 Array 1 Dimensi
27 halaman
Pengertian Standar Deviasi
100% (1)
Pengertian Standar Deviasi
10 halaman
W10 - Algoritma Clustering-OnP
Belum ada peringkat
W10 - Algoritma Clustering-OnP
32 halaman
Analsis Data Dengan Spss
Belum ada peringkat
Analsis Data Dengan Spss
49 halaman
Pertemuan 6 (Perbandingan Variabel Berbeda Terhadap Objek Yang Sama, Statistik Deskriptif, Membandingkan Kelompok Data Kualitatif)
Belum ada peringkat
Pertemuan 6 (Perbandingan Variabel Berbeda Terhadap Objek Yang Sama, Statistik Deskriptif, Membandingkan Kelompok Data Kualitatif)
20 halaman
dio prasetyo data mining
Belum ada peringkat
dio prasetyo data mining
3 halaman
Statistik Tugas 4 Else
0% (3)
Statistik Tugas 4 Else
13 halaman
Uji Asumsi Dasar Uji Normalitas Data: Mangnguntungi
Belum ada peringkat
Uji Asumsi Dasar Uji Normalitas Data: Mangnguntungi
21 halaman
Ukuran Penyebaran Data
Belum ada peringkat
Ukuran Penyebaran Data
19 halaman
Kelompok 4 Ukuran Penyimpangan
Belum ada peringkat
Kelompok 4 Ukuran Penyimpangan
21 halaman
Part 2. Ukuran Penyebaran Data
Belum ada peringkat
Part 2. Ukuran Penyebaran Data
16 halaman
4. PENGUKURAN DISPERSI
Belum ada peringkat
4. PENGUKURAN DISPERSI
34 halaman
2b UKURAN STATISTIK
Belum ada peringkat
2b UKURAN STATISTIK
38 halaman
Statistika Kelompok 5
Belum ada peringkat
Statistika Kelompok 5
16 halaman
4 Data Preparation V2
Belum ada peringkat
4 Data Preparation V2
28 halaman
Handout TIF311 DM 3
Belum ada peringkat
Handout TIF311 DM 3
36 halaman
Kuliah Ke 6 - 16102020 - Ragam, Simpangan Baku, Koefisien Variasi, Z Score
Belum ada peringkat
Kuliah Ke 6 - 16102020 - Ragam, Simpangan Baku, Koefisien Variasi, Z Score
9 halaman
001 Statistika dan Data
Belum ada peringkat
001 Statistika dan Data
61 halaman
materi OSN SD
Belum ada peringkat
materi OSN SD
5 halaman
BIOSTATISTIKA
Belum ada peringkat
BIOSTATISTIKA
14 halaman
Metodologi Sains Data
Belum ada peringkat
Metodologi Sains Data
11 halaman
TDM-3
Belum ada peringkat
TDM-3
24 halaman
Statistik Deskriptif
Belum ada peringkat
Statistik Deskriptif
55 halaman
Statistik KLMPK 4
Belum ada peringkat
Statistik KLMPK 4
16 halaman
Kelompok 5
Belum ada peringkat
Kelompok 5
34 halaman
Materi 3
Belum ada peringkat
Materi 3
39 halaman
Mean, Median, Modus
Belum ada peringkat
Mean, Median, Modus
40 halaman
Uji Hipotesis
Belum ada peringkat
Uji Hipotesis
22 halaman
Bab 4 Pengukuran Nilai Sentral
Belum ada peringkat
Bab 4 Pengukuran Nilai Sentral
23 halaman
Pertemuan 2 - Ukuran Pemusatan Data Tunggal
Belum ada peringkat
Pertemuan 2 - Ukuran Pemusatan Data Tunggal
29 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
31 halaman
Rataan Dan Varian
Belum ada peringkat
Rataan Dan Varian
12 halaman
Scalling Normalisasi Min Max
Belum ada peringkat
Scalling Normalisasi Min Max
12 halaman
LKS SMK Tingkat Provinsi Jawa Tengah
Belum ada peringkat
LKS SMK Tingkat Provinsi Jawa Tengah
24 halaman
Sejarah Dan Perkembangan Motor Bensin Pada Kendaraan Bermotor
100% (1)
Sejarah Dan Perkembangan Motor Bensin Pada Kendaraan Bermotor
16 halaman
Mesin 4 Tak Dan 2 Tak
Belum ada peringkat
Mesin 4 Tak Dan 2 Tak
14 halaman
Perbandingan Kompresi Dan Volume Silinder
Belum ada peringkat
Perbandingan Kompresi Dan Volume Silinder
12 halaman
Identifikasi Komponen Dan Menentukan Kondisi Komponen
Belum ada peringkat
Identifikasi Komponen Dan Menentukan Kondisi Komponen
15 halaman
Klasifikasi Motor Bakar Pada Kendaraan Bermotor
Belum ada peringkat
Klasifikasi Motor Bakar Pada Kendaraan Bermotor
11 halaman