0% menganggap dokumen ini bermanfaat (0 suara)
258 tayangan44 halaman

Bab 2 Pre Processing

Dokumen tersebut membahas mengenai praproses data (data preprocessing) yang meliputi pembersihan data, integrasi data, transformasi data, pengurangan data, dan diskretisasi data untuk memperoleh data yang berkualitas sebelum dilakukan analisis lebih lanjut."

Diunggah oleh

ainihanifa
Hak Cipta
© Attribution Non-Commercial (BY-NC)
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPT, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
258 tayangan44 halaman

Bab 2 Pre Processing

Dokumen tersebut membahas mengenai praproses data (data preprocessing) yang meliputi pembersihan data, integrasi data, transformasi data, pengurangan data, dan diskretisasi data untuk memperoleh data yang berkualitas sebelum dilakukan analisis lebih lanjut."

Diunggah oleh

ainihanifa
Hak Cipta
© Attribution Non-Commercial (BY-NC)
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPT, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 44

Data PreProcessing (PraProses Data)

[email protected] Diambil dari slide Jiawei Han

Agenda
Mengapa mem-praproses data? Rangkuman data Pembersihan data

Integrasi dan transformasi data


Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Mengapa Praproses Data?


Data di dunia nyata kotor
Tidak lengkap: atribut hilang, atau hanya berisi agregat data. Contoh: pekerjaan_ortu = Noisy (error): Mengandung kesalahan. Contoh: gaji_ortu = 1000 Tidak konsisten: Ketidak cocokan dalam kode dan nama. Contoh:
Umur 33, lahir tahun 92 Ketidakcocokan antara duplikat record.

Mengapa data Kotor?


Data yang tidak lengkap dapat disebabkan oleh:
Tidak tersedia saat pengumpulan Tadinya dianggap tidak penting Masalah: Manusia/Soft/Hardware

Data salah:
Kesalahan alat pengumpul data Kesalahan manusia/computer saat entri data Kesalahan saat pengiriman data

Data yang tidak konsisten:


Sumber data yang berbeda Ref integrity yang dilanggar

Duplikasi data juga perlu dibersihkan

Mengapa Praproses Data diperlukan?


Garbage in garbage out data jelek, hasil mining jelek
Quality decision berdarkan quality data Data warehouse membutuhkan integrasi data yang berkualitas

Ekstraksi data, pembersihan dan transformasi merupakan bagian terbesar pembentukan data warehouse.

Ukuran Data yang Berkualitas


Akurasi Lengkap Konsisten Timeliness Masuk akal Memberi nilai tambah Dapat diterjemahkan Dapat diakses

Kegiatan dalam Praproses Data


Pembersihan data
Isi data yang hilang, haluskan noisy data, identifikasi dan buang outliers dan selesaikan ketidakkonsistenan

Integrasi data
Integrasi dari multi database

Transformasi data
Normalisasi dan agregasi

Pengurangan data
Data lebih sedikit tapi hasil statistik sama

Diskretisasi
Untuk data numerik

Bentuk Praproses Data

Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)

Integrasi dan transformasi data


Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Karakteristik Data Deskriptif


Central tendecy
Rata-rata, median, modus

Karakteristik ketersebaran:

Quartiles, outliers dan boxplots

Central Tendency
Rata-rata (mean) Median
1,5,6,7,7,8,10,12,15,18,20

Modus: paling sering muncul


Ada orang dewasa tenggelam di kolam yang kedalaman rata-ratanya 50 cm

Modus, Rata-Rata, Median

Ketersebaran

Quartil: Q1 (25%), Q3 (75%)

Inter-quartile range: IQR = Q3 Q1


Lima angka penting: min, Q1, Median, Q3, Max Outlier: biasanya lebih kecil atau besar dari 1.5 x IQR Boxplot: dibatasi oleh quartil, median ditandai Varian

Standard deviasi (kuadrat varian)

Analisis Boxplot
Max Q3

Median

Q1

Min

Contoh Boxplot

Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)

Integrasi dan transformasi data


Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Data Cleaning
Mengapa?
Data cleaning is one of the three biggest problems in data warehousingRalph Kimball Data cleaning is the number one problem in data warehousingDCI survey

Task Pada Data Cleaning


Isi data yang hilang Identifikasi outlier dan perhalus noisy data Koreksi data yang tidak konsisten Selesaikan duplikasi akibat integrasi data

Data yang hilang


Data tidak selalu ada
Contoh penghasilan ortu (segan, tidak bersedia)

Sebab data hilang


Kerusakan mesin Tidak konsisten dan dihapus Tidak dimasukan karena salah paham Tidak dianggap penting Perubahan data tidak dicatat

Data yang hilang mungkin harus diinferensi (dikira-kira)

Bagaimana cara menangani data yang hilang??


Abaikan record Isi secara manual. (feasible?) Isi secara otomatis:
Isi dengan Tidak-Diketahui Rata-rata dari isi field itu Rata-rata dengan field yang sekelas (di klasifikasi dulu) Nilai yang paling mungkin (bayesian, decision tree)

Noisy Data
Noise: kesalahan pengisian data (random). Contoh: umur 120 tahun. Penyebab:
Kesalahan Instrumen pengumpul data Masalah data entry Masalah transmisi data Keterbatasan teknologi Tidak konsisten dalam penamaan (contoh: Jogja vs Yogya)

Bagaimana Cara Menangani Noisy Data?


Binning Method: Urutkan dan bagi data dalam ember dalam frekuensi yang sama (bin)
Haluskan: smooth by bin means, smooth by bin median dst.

Regresi Clustering
Deteksi dan buang outlier

Kombinasi komputer+manusia
Deteksi data mencurigakan tangani oleh manusia

Contoh Binning Methods


Urutkan data harga (dalam dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Bagi dengan frekuensi yang sama: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Regresi
y
Y1

Y1

y=x+1

X1

Analisis Cluster

Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)

Integrasi dan transformasi data


Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Integrasi Data
Integrasi Data:
Menggabungkan data dari sumber yang beragam

Integrasi Schema : contoh: A.nama B.nama_depan+ B.nama_belakang Identifikasi entitas:


Identifikasi entitas dari source yang beragam. Con: Bill Clinton = William Clinton

Deteksi dan memperbaiki nilai yang konflik


Contoh: cm vs feet, kg vs pound

Penanganan Redundancy
Data redundan (duplikasi yang tidak perlu) dapat muncul saat integrasi:
Atribut yang sama dapat memiliki nama yang berbeda Derivable data: Data berasal dari atribut lain. Contoh: Data Jumlah

Atribut redundan dapat dideteksi dengan analisis korelasi

Analisis Korelasi (data numerik)


Correlation coefficient (Pearsons product moment coefficient)
rA, B ( A A)(B B) ( AB) n AB (n 1)AB (n 1)AB

Jika rA,B > 0, A and B are berkorelasi positif (A naik, B naik). Makin tinggi makin kuat korelasi

rA,B = 0: independent; rA,B < 0: berkorelasi negatif

Contoh:
(http://www.mnstate.edu/wasson/ed602pearsoncorr.htm)

Analisis Korelasi (Categorical Data)


2 (chi-square) test

(Observed Expected ) 2 Expected


2

Semakin besar 2 value semakin besar kemungkinan keduanya terkait Korelasi belum tentu berarti sebab-akibat
Jumlah rumah sakit dan jumlah pencuri mobil bekorelasi positif Dua-duanya berhubungan dengan variabel ketiga: populasi

Contoh
Contoh soal: http://www.mste.uiuc.edu/patel/chisquare/ keyprob.html

Transformasi Data
Smoothing: membuang noise dari data

Agregasi
Generalisasi (jalan kota) Normalisasi: transformasi nilai menjadi skala yang lebih kecil
min-max z-score decimal scaling

Pembentukan atribut baru

Normalisasi
Min-max normalization: ke [new_minA, new_maxA]

v'

v minA (new _ maxA new _ minA) new _ minA maxA minA


98,000 12 ,000

Contoh, gaji $12,000 sd $98,000 di normaliasi [0.0, 1.0]. Maka 73,600 12 ,000 (1.0 0) 0 0.716 $73,000 dipetakan ke

Z-score normalization (: mean, : standard deviation):

v'

v A

Contoh = 54,000, = 16,000. maka

73,600 54 ,000 1.225 16 ,000

Normalisai dengan decimal scaling (dibagi 10j) sehingga nilai maksimum <1

Data Preprocessing
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)

Integrasi dan transformasi data


Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Strategi Reduksi Data


Mengapa reduksi data?
Database/datawarehouse dapat menyimpan Tera/Peta Data. Analisis/mining kompleks dapat membutuhkan waktu yang sangat lama jika menggunakan seluruh data.

Reduksi data:
Mendapatkan versi data yang volumenya jauh lebih kecil tetapi menghasilkan hasil analisis yang sama (atau hampir sama)

Strategi Reduksi Data


Agregasi Data
Contoh: pendapatan harian jadi pendapatan bulanan

Reduksi dimensi pembuangan atribut Kompresi data Numerosity reduction Diskretisasi dan pembangkitan konsep hirarki.

Subset Atribut
Pemilihan atribut
Pilih himpunan minimal dari atribut yang tetap representatif.

Metode heuristik (karena terlalu banyak)


Step-wise forward selection Step-wise backward elimination Kombinasi forward selection dan backward elimination Decision-tree induction

Pemilihan atribut secara heuristik


Ada 2d kemungkinan untuk d atribut Beberapa cara:
Atribut terbaik (berdasarkan tes signifikanikansi) Step wise: Pilih atribut terbaik Dari sisa langkah pertama, ambil atribut terbaik berikutnya Step-wise feature elimination: Secara berurutan hilangkan atribut yang terburuk. Kombinasi pemilihan dan penghilangan atribut Optimal branch and bound: Eliminasi dan backtracking

Kompresi Data

Original Data
lossless

Data Terkompresi

Original Data (Diperkirakan)

Kompresi Data
Kompresi String
Ada beberapa algoritma

Kompresi Audio/video
Biasanya lossy compression Sometimes small fragments of signal can be reconstructed without reconstructing the whole

Time sequence
Pendek-pendek, dan bervariasi dalam jangka waktu lama

Dimensionality Reduction: Wavelet Transformation


Discrete wavelet transform (DWT): proses sinyal Compressed approximation: simpan bagian terkuat dari wavelet coefficient. Mirip dengan discrete Fourier transform (DFT), tapi lebih baik

Numerosity Reduction
Kurangi data dengan memilih bentuk alternatif yang lebih kecil. Parametric
Asumsikan data cocok dengan model, perkiarakan parameter model, lalu buang datanya.

Non-parametric methods
Tidak ada asumsi model histograms, clustering, sampling

Diskretisasi
Tiga jenis atribu7t:
Nominal (tidak terurut) Contoh ., warna, pekerjaan Ordinal (terurut) Contoh: pangkat

Continuous real atau angka integer

Discretization:
Bagi range pada data continuous dalam interval Masukan data ke dalam interval

Konsep Hirarki
Secara rekursif mengurangi data dengan cara mengganti konsep rendah (low level) dengan yang lebih tinggi.
Contoh, Umur:
Dalam tahun 30,21,33,17,2 Menjadi kategori: bayi, balita, remaja, dewasa, tua

Anda mungkin juga menyukai