0% menganggap dokumen ini bermanfaat (0 suara)

258 tayangan44 halaman

Bab 2 Pre Processing

Dokumen tersebut membahas mengenai praproses data (data preprocessing) yang meliputi pembersihan data, integrasi data, transformasi data, pengurangan data, dan diskretisasi data untuk memperoleh data yang berkualitas sebelum dilakukan analisis lebih lanjut."

Diunggah oleh

ainihanifa

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPT, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

258 tayangan44 halaman

Bab 2 Pre Processing

Diunggah oleh

ainihanifa

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPT, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 44

Data PreProcessing (PraProses Data)

[email protected] Diambil dari slide Jiawei Han

Agenda
Mengapa mem-praproses data? Rangkuman data Pembersihan data

Integrasi dan transformasi data

Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Mengapa Praproses Data?

Data di dunia nyata kotor
Tidak lengkap: atribut hilang, atau hanya berisi agregat data. Contoh: pekerjaan_ortu = Noisy (error): Mengandung kesalahan. Contoh: gaji_ortu = 1000 Tidak konsisten: Ketidak cocokan dalam kode dan nama. Contoh:
Umur 33, lahir tahun 92 Ketidakcocokan antara duplikat record.

Mengapa data Kotor?

Data yang tidak lengkap dapat disebabkan oleh:
Tidak tersedia saat pengumpulan Tadinya dianggap tidak penting Masalah: Manusia/Soft/Hardware

Data salah:
Kesalahan alat pengumpul data Kesalahan manusia/computer saat entri data Kesalahan saat pengiriman data

Data yang tidak konsisten:

Sumber data yang berbeda Ref integrity yang dilanggar

Duplikasi data juga perlu dibersihkan

Mengapa Praproses Data diperlukan?

Garbage in garbage out data jelek, hasil mining jelek
Quality decision berdarkan quality data Data warehouse membutuhkan integrasi data yang berkualitas

Ekstraksi data, pembersihan dan transformasi merupakan bagian terbesar pembentukan data warehouse.

Ukuran Data yang Berkualitas

Akurasi Lengkap Konsisten Timeliness Masuk akal Memberi nilai tambah Dapat diterjemahkan Dapat diakses

Kegiatan dalam Praproses Data

Pembersihan data
Isi data yang hilang, haluskan noisy data, identifikasi dan buang outliers dan selesaikan ketidakkonsistenan

Integrasi data
Integrasi dari multi database

Transformasi data
Normalisasi dan agregasi

Pengurangan data
Data lebih sedikit tapi hasil statistik sama

Diskretisasi
Untuk data numerik

Bentuk Praproses Data

Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)

Integrasi dan transformasi data

Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Karakteristik Data Deskriptif

Central tendecy
Rata-rata, median, modus

Karakteristik ketersebaran:

Quartiles, outliers dan boxplots

Central Tendency
Rata-rata (mean) Median
1,5,6,7,7,8,10,12,15,18,20

Modus: paling sering muncul

Ada orang dewasa tenggelam di kolam yang kedalaman rata-ratanya 50 cm

Modus, Rata-Rata, Median

Ketersebaran

Quartil: Q1 (25%), Q3 (75%)

Inter-quartile range: IQR = Q3 Q1

Lima angka penting: min, Q1, Median, Q3, Max Outlier: biasanya lebih kecil atau besar dari 1.5 x IQR Boxplot: dibatasi oleh quartil, median ditandai Varian

Standard deviasi (kuadrat varian)

Analisis Boxplot
Max Q3

Median

Min

Contoh Boxplot

Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)

Integrasi dan transformasi data

Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Data Cleaning
Mengapa?
Data cleaning is one of the three biggest problems in data warehousingRalph Kimball Data cleaning is the number one problem in data warehousingDCI survey

Task Pada Data Cleaning

Isi data yang hilang Identifikasi outlier dan perhalus noisy data Koreksi data yang tidak konsisten Selesaikan duplikasi akibat integrasi data

Data yang hilang

Data tidak selalu ada
Contoh penghasilan ortu (segan, tidak bersedia)

Sebab data hilang

Kerusakan mesin Tidak konsisten dan dihapus Tidak dimasukan karena salah paham Tidak dianggap penting Perubahan data tidak dicatat

Data yang hilang mungkin harus diinferensi (dikira-kira)

Bagaimana cara menangani data yang hilang??

Abaikan record Isi secara manual. (feasible?) Isi secara otomatis:
Isi dengan Tidak-Diketahui Rata-rata dari isi field itu Rata-rata dengan field yang sekelas (di klasifikasi dulu) Nilai yang paling mungkin (bayesian, decision tree)

Noisy Data
Noise: kesalahan pengisian data (random). Contoh: umur 120 tahun. Penyebab:
Kesalahan Instrumen pengumpul data Masalah data entry Masalah transmisi data Keterbatasan teknologi Tidak konsisten dalam penamaan (contoh: Jogja vs Yogya)

Bagaimana Cara Menangani Noisy Data?

Binning Method: Urutkan dan bagi data dalam ember dalam frekuensi yang sama (bin)
Haluskan: smooth by bin means, smooth by bin median dst.

Regresi Clustering
Deteksi dan buang outlier

Kombinasi komputer+manusia
Deteksi data mencurigakan tangani oleh manusia

Contoh Binning Methods

Urutkan data harga (dalam dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Bagi dengan frekuensi yang sama: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Regresi
y
Y1

y=x+1

Analisis Cluster

Agenda
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)

Integrasi dan transformasi data

Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Integrasi Data
Integrasi Data:
Menggabungkan data dari sumber yang beragam

Integrasi Schema : contoh: A.nama B.nama_depan+ B.nama_belakang Identifikasi entitas:

Identifikasi entitas dari source yang beragam. Con: Bill Clinton = William Clinton

Deteksi dan memperbaiki nilai yang konflik

Contoh: cm vs feet, kg vs pound

Penanganan Redundancy
Data redundan (duplikasi yang tidak perlu) dapat muncul saat integrasi:
Atribut yang sama dapat memiliki nama yang berbeda Derivable data: Data berasal dari atribut lain. Contoh: Data Jumlah

Atribut redundan dapat dideteksi dengan analisis korelasi

Analisis Korelasi (data numerik)

Correlation coefficient (Pearsons product moment coefficient)
rA, B ( A A)(B B) ( AB) n AB (n 1)AB (n 1)AB

Jika rA,B > 0, A and B are berkorelasi positif (A naik, B naik). Makin tinggi makin kuat korelasi

rA,B = 0: independent; rA,B < 0: berkorelasi negatif

Contoh:
(http://www.mnstate.edu/wasson/ed602pearsoncorr.htm)

Analisis Korelasi (Categorical Data)

2 (chi-square) test

(Observed Expected ) 2 Expected

Semakin besar 2 value semakin besar kemungkinan keduanya terkait Korelasi belum tentu berarti sebab-akibat
Jumlah rumah sakit dan jumlah pencuri mobil bekorelasi positif Dua-duanya berhubungan dengan variabel ketiga: populasi

Contoh
Contoh soal: http://www.mste.uiuc.edu/patel/chisquare/ keyprob.html

Transformasi Data
Smoothing: membuang noise dari data

Agregasi
Generalisasi (jalan kota) Normalisasi: transformasi nilai menjadi skala yang lebih kecil
min-max z-score decimal scaling

Pembentukan atribut baru

Normalisasi
Min-max normalization: ke [new_minA, new_maxA]

v minA (new _ maxA new _ minA) new _ minA maxA minA

98,000 12 ,000

Contoh, gaji $12,000 sd $98,000 di normaliasi [0.0, 1.0]. Maka 73,600 12 ,000 (1.0 0) 0 0.716 $73,000 dipetakan ke

Z-score normalization (: mean, : standard deviation):

v A

Contoh = 54,000, = 16,000. maka

73,600 54 ,000 1.225 16 ,000

Normalisai dengan decimal scaling (dibagi 10j) sehingga nilai maksimum <1

Data Preprocessing
Mengapa mem-praproses data? Rangkuman deskripsi data Pembersihan data (data cleaning)

Integrasi dan transformasi data

Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Strategi Reduksi Data

Mengapa reduksi data?
Database/datawarehouse dapat menyimpan Tera/Peta Data. Analisis/mining kompleks dapat membutuhkan waktu yang sangat lama jika menggunakan seluruh data.

Reduksi data:
Mendapatkan versi data yang volumenya jauh lebih kecil tetapi menghasilkan hasil analisis yang sama (atau hampir sama)

Strategi Reduksi Data

Agregasi Data
Contoh: pendapatan harian jadi pendapatan bulanan

Reduksi dimensi pembuangan atribut Kompresi data Numerosity reduction Diskretisasi dan pembangkitan konsep hirarki.

Subset Atribut
Pemilihan atribut
Pilih himpunan minimal dari atribut yang tetap representatif.

Metode heuristik (karena terlalu banyak)

Step-wise forward selection Step-wise backward elimination Kombinasi forward selection dan backward elimination Decision-tree induction

Pemilihan atribut secara heuristik

Ada 2d kemungkinan untuk d atribut Beberapa cara:
Atribut terbaik (berdasarkan tes signifikanikansi) Step wise: Pilih atribut terbaik Dari sisa langkah pertama, ambil atribut terbaik berikutnya Step-wise feature elimination: Secara berurutan hilangkan atribut yang terburuk. Kombinasi pemilihan dan penghilangan atribut Optimal branch and bound: Eliminasi dan backtracking

Kompresi Data

Original Data
lossless

Data Terkompresi

Original Data (Diperkirakan)

Kompresi Data
Kompresi String
Ada beberapa algoritma

Kompresi Audio/video
Biasanya lossy compression Sometimes small fragments of signal can be reconstructed without reconstructing the whole

Time sequence
Pendek-pendek, dan bervariasi dalam jangka waktu lama

Dimensionality Reduction: Wavelet Transformation

Discrete wavelet transform (DWT): proses sinyal Compressed approximation: simpan bagian terkuat dari wavelet coefficient. Mirip dengan discrete Fourier transform (DFT), tapi lebih baik

Numerosity Reduction
Kurangi data dengan memilih bentuk alternatif yang lebih kecil. Parametric
Asumsikan data cocok dengan model, perkiarakan parameter model, lalu buang datanya.

Non-parametric methods
Tidak ada asumsi model histograms, clustering, sampling

Diskretisasi
Tiga jenis atribu7t:
Nominal (tidak terurut) Contoh ., warna, pekerjaan Ordinal (terurut) Contoh: pangkat

Continuous real atau angka integer

Discretization:
Bagi range pada data continuous dalam interval Masukan data ke dalam interval

Konsep Hirarki
Secara rekursif mengurangi data dengan cara mengganti konsep rendah (low level) dengan yang lebih tinggi.
Contoh, Umur:
Dalam tahun 30,21,33,17,2 Menjadi kategori: bayi, balita, remaja, dewasa, tua

Anda mungkin juga menyukai

Teknik Data Mining Dasar Menggunakan Weka
Belum ada peringkat
Teknik Data Mining Dasar Menggunakan Weka
55 halaman
Rule Base (Decision Tree) (PPTX)
Belum ada peringkat
Rule Base (Decision Tree) (PPTX)
25 halaman
SURAT PERNYATAAN Dokter Pengganti
100% (1)
SURAT PERNYATAAN Dokter Pengganti
4 halaman
Pengertian Data, Jenis Dan Tipe Data
100% (1)
Pengertian Data, Jenis Dan Tipe Data
20 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
Regresi Linier Pada Python: Praktikum Pengenalan Pola - C Kelompok 3
Belum ada peringkat
Regresi Linier Pada Python: Praktikum Pengenalan Pola - C Kelompok 3
11 halaman
Iqbal Fathur Rahman
Belum ada peringkat
Iqbal Fathur Rahman
98 halaman
Data Mining - 5 - Teknik Data Mining
Belum ada peringkat
Data Mining - 5 - Teknik Data Mining
47 halaman
PPT-ELECTRE Method-Statistikmanajerial
Belum ada peringkat
PPT-ELECTRE Method-Statistikmanajerial
7 halaman
Modul Praktikum Pengenalan Pola - Pertemuan 1
Belum ada peringkat
Modul Praktikum Pengenalan Pola - Pertemuan 1
10 halaman
RPS Silabus Basis Data 2
Belum ada peringkat
RPS Silabus Basis Data 2
4 halaman
Tugas Data Minning
Belum ada peringkat
Tugas Data Minning
16 halaman
Weka Pemula
Belum ada peringkat
Weka Pemula
5 halaman
UEU Data Mining Pertemuan 1
Belum ada peringkat
UEU Data Mining Pertemuan 1
37 halaman
Pengantar Analitika Data
Belum ada peringkat
Pengantar Analitika Data
34 halaman
Praktikum Datmin 3
Belum ada peringkat
Praktikum Datmin 3
13 halaman
Data Mining
Belum ada peringkat
Data Mining
29 halaman
Eksplorasi Data (EDA)
Belum ada peringkat
Eksplorasi Data (EDA)
45 halaman
Statistika Inferensia 1
Belum ada peringkat
Statistika Inferensia 1
35 halaman
CIG4E3 Pengolahan Citra Digital
Belum ada peringkat
CIG4E3 Pengolahan Citra Digital
37 halaman
Modul Praktikum "Struktur Data"
Belum ada peringkat
Modul Praktikum "Struktur Data"
62 halaman
DM - P5 - Preprocessing Data (Lanjutan)
Belum ada peringkat
DM - P5 - Preprocessing Data (Lanjutan)
41 halaman
Silabus RPL Basis Data
Belum ada peringkat
Silabus RPL Basis Data
15 halaman
Modul 5 - Agregasi Dan Grouping
Belum ada peringkat
Modul 5 - Agregasi Dan Grouping
14 halaman
Deteksi-Tepi-Edge-Detection
100% (1)
Deteksi-Tepi-Edge-Detection
4 halaman
Modul Praktikum Analisa Desain Sistem Lengkap
100% (1)
Modul Praktikum Analisa Desain Sistem Lengkap
69 halaman
RPS Basis Data Obe
Belum ada peringkat
RPS Basis Data Obe
9 halaman
Slide Materi Data Preprocessing
Belum ada peringkat
Slide Materi Data Preprocessing
29 halaman
Pertemuan 6 Rough Set
Belum ada peringkat
Pertemuan 6 Rough Set
13 halaman
Modul 4 Android-Mysql Dan Json
Belum ada peringkat
Modul 4 Android-Mysql Dan Json
25 halaman
Cara Membuat Database Dengan Excel
Belum ada peringkat
Cara Membuat Database Dengan Excel
3 halaman
Pengantar Data Mining FIX
Belum ada peringkat
Pengantar Data Mining FIX
60 halaman
Membuat Tabel Mahasiswa
Belum ada peringkat
Membuat Tabel Mahasiswa
7 halaman
RTM-Tugas II - 2020
Belum ada peringkat
RTM-Tugas II - 2020
3 halaman
Package
Belum ada peringkat
Package
4 halaman
Tugas Analisis Machine Learning
Belum ada peringkat
Tugas Analisis Machine Learning
4 halaman
Materi DBSCAN
Belum ada peringkat
Materi DBSCAN
36 halaman
Metodologi Penelitian
Belum ada peringkat
Metodologi Penelitian
8 halaman
Contoh Skripsi Pengembangan Sistem Keamanan Pada Dial UP Networking Melalui Jalur Telepon Menggunakan Smart Card
Belum ada peringkat
Contoh Skripsi Pengembangan Sistem Keamanan Pada Dial UP Networking Melalui Jalur Telepon Menggunakan Smart Card
9 halaman
(08.A) Modul Clasification
Belum ada peringkat
(08.A) Modul Clasification
23 halaman
Data Science
Belum ada peringkat
Data Science
79 halaman
Representasi Pengetahuan - Frame Dan Script
Belum ada peringkat
Representasi Pengetahuan - Frame Dan Script
12 halaman
Jurnal ...
Belum ada peringkat
Jurnal ...
12 halaman
TIK - Data Scientist 150 JP - 2021
Belum ada peringkat
TIK - Data Scientist 150 JP - 2021
19 halaman
Python Introduction
Belum ada peringkat
Python Introduction
18 halaman
Modul Praktikum1 2 3 4
Belum ada peringkat
Modul Praktikum1 2 3 4
19 halaman
DATA DEFINITION LANGUAGE (Bagian-1)
Belum ada peringkat
DATA DEFINITION LANGUAGE (Bagian-1)
10 halaman
RPL Pertemuan 2
Belum ada peringkat
RPL Pertemuan 2
16 halaman
Materi Simbad
Belum ada peringkat
Materi Simbad
103 halaman
Data Manipultion Pandas 1
Belum ada peringkat
Data Manipultion Pandas 1
82 halaman
Tugas 1
Belum ada peringkat
Tugas 1
15 halaman
Area Filling
Belum ada peringkat
Area Filling
6 halaman
Transformasi Data
Belum ada peringkat
Transformasi Data
50 halaman
Modul 1 Kapsel-Datawarehouse
Belum ada peringkat
Modul 1 Kapsel-Datawarehouse
9 halaman
materiVBNet
Belum ada peringkat
materiVBNet
174 halaman
Pertemuan 1 - Pengantar Data Mining
Belum ada peringkat
Pertemuan 1 - Pengantar Data Mining
56 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
73 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Teks MC Workshop Rekayasa Data
Belum ada peringkat
Teks MC Workshop Rekayasa Data
2 halaman
Susunan Acara Peletakan Batu Pertama
Belum ada peringkat
Susunan Acara Peletakan Batu Pertama
1 halaman
Acara Pelantikan Dan Serah Terima Jabatan Pembantu Dekan
100% (2)
Acara Pelantikan Dan Serah Terima Jabatan Pembantu Dekan
3 halaman
S2 If Kurikulum Induk V 5 Sept 2013
Belum ada peringkat
S2 If Kurikulum Induk V 5 Sept 2013
8 halaman
Latihan UTS Sisarkom
Belum ada peringkat
Latihan UTS Sisarkom
4 halaman
LMS CMS LCMS Elearning
Belum ada peringkat
LMS CMS LCMS Elearning
3 halaman
IF5011!02!2013-Representasi Informasi - Integer Dan String
Belum ada peringkat
IF5011!02!2013-Representasi Informasi - Integer Dan String
61 halaman