485 - Data Mining-P03
485 - Data Mining-P03
DATA PREPROCESSING
3.1 Data Cleaning
3.2 Data Reduction
3.3 Data Transformation dan Data Integration
Tujuan
1. Motivasi: Mengapa preproses data?
2. Teknik Preprocessing Data
3. Pembersihan Data
4. Integrasi dan Transformasi Data
5. Pengurangan Data
Tahap preprocessing data mungkin yang paling penting dalam proses
penambangan data. Namun, jarang dieksplorasi sejauh yang layak karena
sebagian besar fokusnya adalah pada aspek analitis penambangan data.
Fase ini dimulai setelah pengumpulan data, dan itu terdiri dari langkah-
langkah berikut:
Sumber: v7labs.com
Tahap preprocessing data
1. Pembersihan data:
Data yang diekstraksi mungkin memiliki entri yang salah atau hilang. Karena itu,
beberapa catatan mungkin perlu dihapus, atau entri yang hilang mungkin perlu
diperkirakan. Inkonsistensi mungkin perlu dihilangkan.
Data cleaning atau pembersihan data terutama dilakukan sebagai bagian dari data
preprocessing untuk membersihkan data dengan mengisi nilai yang hilang,
menghaluskan data yang noise, menyelesaikan data yang tidak konsisten, dan
menghapus outlier atau tidak konsisten.
2. Integrasi Data
Integrasi data adalah salah satu langkah data preprocessing yang digunakan untuk
menggabungkan data yang ada di berbagai sumber menjadi satu penyimpanan
data yang lebih besar seperti gudang data atau data warehouse.
Integrasi data dibutuhkan terutama ketika kita bertujuan unt uk
memecahkan skenario seperti mendeteksi keberadaan modul dari gambar
CT scan. Satu-satunya pilihan adalah mengintegrasi gambar dari beberapa
node medis untuk membentuk database yang lebih besar.
3. Transformasi Data
Data tingkat rendah atau granular yang telah dikonversi menjadi informasi tingkat
tinggi dengan menggunakan konsep hirarki. Kita dapat mengubah data primitif di
alamat seperti kota menjadi informasi tingkat tinggi seperti negara.
B. Normalisasi
Teknik ini adalah teknik transformasi data yang paling penting yang banyak
digunakan. Atribut numerik ditingkatkan atau diturunkan agar sesuai dengan rentang
yang ditentukan. contoh: Normalisasi Min-max
4. Data Reduction
Ukuran dataset di data warehouse bisa terlalu besar untuk ditangani oleh analisis
data dan algoritma data mining. Salah satu solusi yang bisa diambil adalah
mendapatkan representasi tereduksi dari dataset yang volumenya jauh lebih kecil
tetapi menghasilkan kualitas hasil analitik yang sama.
Mengapa Memproses Ulang Data?
Keputusan kualitas harus didasarkan pada data yang berkualitas
1. Data bisa tidak lengkap, noisy, dan tidak konsisten
2. Data warehouse memerlukan integrasi data kualitas yang konsisten
3. Tidak Lengkap
v Kurangnya nilai atribut atau atribut minat tertentu
v Hanya berisi data agregat yang dapat memberikan gambaran
karakteristik dari variable yang diukur
Penyebab:
a. Tidak dianggap penting pada saat masuk
b. Kerusakan peralatan
c. Data tidak dimasukkan karena kesalahpahaman
d. Tidak konsisten dengan data rekaman lainnya dan karenanya dihapus
A. Noisy (memiliki nilai atribut yang salah)
Mengandung kesalahan, atau nilai outlier yang menyimpang dari yang
diharapkan
Penyebab:
Instrumen pengumpulan data yang digunakan mungkin salah
1. Kesalahan manusia atau komputer terjadi pada entri data
2. Kesalahan dalam transmisi data
B. Tidak konsisten
Mengandung perbedaan dalam kode departemen yang digunakan untuk
mengkategorikan item
– Tak-konsisten: memuat perbedaan dalam kode atau
nama
• Misal, Age=“42” Birthday=“03/07/1997”
• Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
1. “Bersihkan” data dengan mengisi nilai yang hilang, menghaluskan data
yang Noisy, mengidentifikasi atau menghapus pencilan, dan
menyelesaikan ketidakkonsistenan.
2. Beberapa contoh ketidak konsistenan:
customer_id vs cust_id
Bill vs William vs B
3. Beberapa atribut dapat disimpulkan dari yang lain. Pembersihan data
termasuk deteksi dan penghapusan redudansi yang mungkin terjadi.
Teknik Pengolah Data (2)
1. Pengurangan Data
a. Warehouse dapat menyimpan terabyte data
b. A n a l i s i s / p e n a m b a n g a n d a t a y a n g k o m p l e k s m u n g k i n
membutuhkan waktu yang sangat lama untuk dijalankan pada set
data yang lengkap
c. Memperoleh representasi tereduksi dari kumpulan data yang
volumenya jauh lebih kecil, namun menghasilkan hasil analitik
yang sama (atau hampir sama).
2 Strategi untuk Pengurangan Data
a. Agregasi data (mis., Membangun kubus data)
b. Pengurangan dimensi (mis. Menghilangkan atribut yang tidak
relevan melalui analisis korelasi)
c. Kompresi data (mis. Menggunakan skema penyandian seperti
penyandian panjang minimum)
d. Pengurangan numerik
e. Generalisasi
Teknik Pengolah Data (3)
Bentuk Bentuk-bentuk Dari Pemrosesan Awal Data
Pembersihan Data - Nilai yang Hilang
Pembersihan data
– Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali
atau menghilangkan outlier, dan memecahkan ketidak-konsistenan
• Tugas pembersihan data
– Mengisi nilai-nilai yang hilang
– Mengenali outliers dan menghaluskan noisy data
– Memecahkan redundansi yang disebabkan oleh integrasi data
– Memperbaiki ketak-konsitenan data, US=USA?
• Suatu data warehouse bisa menyimpan terabytes data
– Analisis/menambang data kompleks bisa membutuhkan waktu sangat
lama untuk dijalankan pada data set komplit (tak efisien)
• Reduksi data
– Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang
sama (hampir sama)
Pemulusan Data vs Pengurangan Data