0% menganggap dokumen ini bermanfaat (0 suara)
24 tayangan25 halaman

485 - Data Mining-P03

Dokumen tersebut membahas tentang preprocessing data yang meliputi pembersihan data, integrasi data, transformasi data, dan pengurangan data untuk mempersiapkan data sebelum proses penambangan data."
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
24 tayangan25 halaman

485 - Data Mining-P03

Dokumen tersebut membahas tentang preprocessing data yang meliputi pembersihan data, integrasi data, transformasi data, dan pengurangan data untuk mempersiapkan data sebelum proses penambangan data."
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 25

PERTEMUAN 3

DATA PREPROCESSING
3.1 Data Cleaning
3.2 Data Reduction
3.3 Data Transformation dan Data Integration
Tujuan
1. Motivasi: Mengapa preproses data?
2. Teknik Preprocessing Data
3. Pembersihan Data
4. Integrasi dan Transformasi Data
5. Pengurangan Data
Tahap preprocessing data mungkin yang paling penting dalam proses
penambangan data. Namun, jarang dieksplorasi sejauh yang layak karena
sebagian besar fokusnya adalah pada aspek analitis penambangan data.
Fase ini dimulai setelah pengumpulan data, dan itu terdiri dari langkah-
langkah berikut:

Tahap preprocessing data

Sumber: v7labs.com
Tahap preprocessing data

1. Pembersihan data:

Data yang diekstraksi mungkin memiliki entri yang salah atau hilang. Karena itu,
beberapa catatan mungkin perlu dihapus, atau entri yang hilang mungkin perlu
diperkirakan. Inkonsistensi mungkin perlu dihilangkan.

Data cleaning atau pembersihan data terutama dilakukan sebagai bagian dari data
preprocessing untuk membersihkan data dengan mengisi nilai yang hilang,
menghaluskan data yang noise, menyelesaikan data yang tidak konsisten, dan
menghapus outlier atau tidak konsisten.

2. Integrasi Data

Integrasi data adalah salah satu langkah data preprocessing yang digunakan untuk
menggabungkan data yang ada di berbagai sumber menjadi satu penyimpanan
data yang lebih besar seperti gudang data atau data warehouse.
Integrasi data dibutuhkan terutama ketika kita bertujuan unt uk
memecahkan skenario seperti mendeteksi keberadaan modul dari gambar
CT scan. Satu-satunya pilihan adalah mengintegrasi gambar dari beberapa
node medis untuk membentuk database yang lebih besar.

3. Transformasi Data

Setelah pembersihan data dilakukan, kita perlu mengkonsolidasikan data


berkualitas ke dalam bentuk alternatif dengan mengubah nilai, struktur,
atau format data meggunakan strategi transformasi data berikut ini.
A. Generalisasi

Data tingkat rendah atau granular yang telah dikonversi menjadi informasi tingkat
tinggi dengan menggunakan konsep hirarki. Kita dapat mengubah data primitif di
alamat seperti kota menjadi informasi tingkat tinggi seperti negara.

B. Normalisasi
Teknik ini adalah teknik transformasi data yang paling penting yang banyak
digunakan. Atribut numerik ditingkatkan atau diturunkan agar sesuai dengan rentang
yang ditentukan. contoh: Normalisasi Min-max
4. Data Reduction
Ukuran dataset di data warehouse bisa terlalu besar untuk ditangani oleh analisis
data dan algoritma data mining. Salah satu solusi yang bisa diambil adalah
mendapatkan representasi tereduksi dari dataset yang volumenya jauh lebih kecil
tetapi menghasilkan kualitas hasil analitik yang sama.
Mengapa Memproses Ulang Data?
Keputusan kualitas harus didasarkan pada data yang berkualitas
1. Data bisa tidak lengkap, noisy, dan tidak konsisten
2. Data warehouse memerlukan integrasi data kualitas yang konsisten
3. Tidak Lengkap
v Kurangnya nilai atribut atau atribut minat tertentu
v Hanya berisi data agregat yang dapat memberikan gambaran
karakteristik dari variable yang diukur
Penyebab:
a. Tidak dianggap penting pada saat masuk
b. Kerusakan peralatan
c. Data tidak dimasukkan karena kesalahpahaman
d. Tidak konsisten dengan data rekaman lainnya dan karenanya dihapus
A. Noisy (memiliki nilai atribut yang salah)
Mengandung kesalahan, atau nilai outlier yang menyimpang dari yang
diharapkan
Penyebab:
Instrumen pengumpulan data yang digunakan mungkin salah
1. Kesalahan manusia atau komputer terjadi pada entri data
2. Kesalahan dalam transmisi data

B. Tidak konsisten
Mengandung perbedaan dalam kode departemen yang digunakan untuk
mengkategorikan item
– Tak-konsisten: memuat perbedaan dalam kode atau
nama
• Misal, Age=“42” Birthday=“03/07/1997”
• Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
1. “Bersihkan” data dengan mengisi nilai yang hilang, menghaluskan data
yang Noisy, mengidentifikasi atau menghapus pencilan, dan
menyelesaikan ketidakkonsistenan.
2. Beberapa contoh ketidak konsistenan:
customer_id vs cust_id
Bill vs William vs B
3. Beberapa atribut dapat disimpulkan dari yang lain. Pembersihan data
termasuk deteksi dan penghapusan redudansi yang mungkin terjadi.
Teknik Pengolah Data (2)
1. Pengurangan Data
a. Warehouse dapat menyimpan terabyte data
b. A n a l i s i s / p e n a m b a n g a n d a t a y a n g k o m p l e k s m u n g k i n
membutuhkan waktu yang sangat lama untuk dijalankan pada set
data yang lengkap
c. Memperoleh representasi tereduksi dari kumpulan data yang
volumenya jauh lebih kecil, namun menghasilkan hasil analitik
yang sama (atau hampir sama).
2 Strategi untuk Pengurangan Data
a. Agregasi data (mis., Membangun kubus data)
b. Pengurangan dimensi (mis. Menghilangkan atribut yang tidak
relevan melalui analisis korelasi)
c. Kompresi data (mis. Menggunakan skema penyandian seperti
penyandian panjang minimum)
d. Pengurangan numerik
e. Generalisasi
Teknik Pengolah Data (3)
Bentuk Bentuk-bentuk Dari Pemrosesan Awal Data
Pembersihan Data - Nilai yang Hilang

Pembersihan data
– Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali
atau menghilangkan outlier, dan memecahkan ketidak-konsistenan
• Tugas pembersihan data
– Mengisi nilai-nilai yang hilang
– Mengenali outliers dan menghaluskan noisy data
– Memecahkan redundansi yang disebabkan oleh integrasi data
– Memperbaiki ketak-konsitenan data, US=USA?
• Suatu data warehouse bisa menyimpan terabytes data
– Analisis/menambang data kompleks bisa membutuhkan waktu sangat
lama untuk dijalankan pada data set komplit (tak efisien)
• Reduksi data
– Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang
sama (hampir sama)
Pemulusan Data vs Pengurangan Data

Banyak metode untuk perataan data juga merupakan metode untuk


reduksi data yang melibatkan diskritisasi.
Contoh
q Teknik Binning mengurangi jumlah nilai yang berbeda per atribut.
Berguna untuk induksi pohon keputusan yang berulang kali membuat
perbandingan nilai pada data yang diurutkan.
q Konsep hierarki juga merupakan bentuk diskritisasi data yang juga
dapat digunakan untuk memperlancar data.
v Memetakan harga riil menjadi murah, sedang, mahal, mahal
v Mengurangi jumlah nilai data yang akan ditangani oleh proses
penambangan.
Pengurangan Data - Agregasi Kubus Data

1. Data terdiri dari penjualan per kuartal, selama beberapa tahun.


Pengguna yang tertarik dengan penjualan tahunan (total per tahun)
data dapat dikumpulkan sehingga data yang dihasilkan merangkum
total penjualan per tahun, bukan per kuartal.
2. Kumpulan data yang dihasilkan lebih kecil volumenya, tanpa
kehilangan informasi yang diperlukan untuk tugas analisis
Pengurangan Dimensi
A. Kumpulan data untuk analisis dapat berisi ratusan atribut, banyak di
antaranya mungkin tidak relevan dengan tugas penambangan, atau
berlebihan.
B. Meninggalkan atribut yang relevan atau menjaga atribut yang tidak
relevan dapat menyebabkan kebingungan untuk algoritma
penambangan, kualitas buruk dari pola yang ditemukan.
C. Menambahkan volume atribut yang tidak relevan atau berlebihan
dapat memperlambat proses penambangan.
D. Pengurangan dimensi mengurangi ukuran kumpulan data dengan
menghapus atribut seperti itu.
Pengurangan Dimensi (2)
A. Tujuan pemilihan subset atribut (juga dikenal sebagai pemilihan fitur)
adalah untuk menemukan set atribut minimum sehingga distribusi
probabilitas yang dihasilkan dari kelas data sedekat mungkin dengan
distribusi asli yang diperoleh dengan menggunakan semua atribut.
B. Untuk atribut d, ada himpunan bagian 2d yang mungkin.
C. Atribut terbaik (dan terburuk) biasanya ditentukan dengan
menggunakan uji signifikansi statistik. Ukuran evaluasi atribut seperti
perolehan informasi dapat digunakan.
Metode heuristik
a. Seleksi maju bertahap
b. Seleksi mundur secara bertahap (atau kombinasi keduanya)
c. Induksi Decision tree
Pengurangan Dimensi (3)
Contoh Induksi Decision tree
Kumpulan atribut awal: {A1, A2,
A3, A4, A5, A6}

Kumpulan atribut yang dikurangi: {A1, A4, A6}


Integrasi dan Transformasi Data
A. Integrasi Data: menggabungkan data dari beberapa penyimpanan data
B. Integrasi skema
1. Mengintegrasikan metadata dari berbagai sumber
2. Masalah identifikasi entitas: mengidentifikasi entitas dunia nyata dari
berbagai sumber data, mis., A.cust-id B.cust- #
C. Mendeteksi dan menyelesaikan konflik nilai data
1. Untuk entitas dunia nyata yang sama, nilai atribut dari sumber berbeda
berbeda
2. Kemungkinan alasan: representasi berbeda, skala berbeda (feet vs
meter)
Transformasi Data

Data ditransformasikan menjadi bentuk yang sesuai untuk penambangan


Metode:
1. Smoothing: binning, clustering, dan regresi
2. Aggregation: summarization, konstruksi data cube
3. Generalisasi: data tingkat rendah atau mentah diganti dengan konsep
tingkat tinggi melalui penggunaan hierarki konsep
a. Street kota atau negara
b. Atribut numerik usia muda, setengah baya, senior
4. Normalisasi: data atribut diskalakan agar masuk dalam rentang kecil
yang ditentukan, seperti 0,0 hingga 1,0. Berguna untuk klasifikasi yang
melibatkan neural networks, seperti klasifikasi nearest neighbor dan
clustering
Kompresi data

Pengkodean atau transformasi data diterapkan untuk


memperoleh representasi yang dikurangi atau terkompresi
dari data asli.
q Teknik kompresi data lossless: Jika data asli dapat
direkonstruksi dari data terkompresi tanpa kehilangan
informasi. A1? A6?
q Teknik kompresi data lossy: kita hanya dapat
merekonstruksi perkiraan dari data
Generasi hierarki konsep untuk data kategorikal

Ø Data kategorikal adalah data diskrit. Memiliki yang terbatas


jumlah nilai yang berbeda, tanpa urutan di antara nilai-nilai
tersebut. Ex. Lokasi, kategori pekerjaan.
Ø Spesifikasi satu set atribut:
v Hirarki konsep dapat menjadi nilai negara
dihasilkan secara otomatis
v Atribut dengan nilai yang paling berbeda
ditempatkan di level hierarki terendah.
Sumber Referensi

1. Much Aziz Muslim dkk. (2019). Data Mining Algoritma


C4.5
2. Neni Purwanti dkk.(2021). Data Mining. Zahira Media
Publisher.
3. Jiawei Han and Micheline Kamber. (2006). Data Mining:
Concepts and Techniques. Springer .

Anda mungkin juga menyukai