485 - Data Mining-P03

Dokumen tersebut membahas tentang preprocessing data yang meliputi pembersihan data, integrasi data, transformasi data, dan pengurangan data untuk mempersiapkan data sebelum proses penambangan data."

Diunggah oleh

William Hans Natanael

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

24 tayangan25 halaman

485 - Data Mining-P03

Dokumen tersebut membahas tentang preprocessing data yang meliputi pembersihan data, integrasi data, transformasi data, dan pengurangan data untuk mempersiapkan data sebelum proses penambangan data."

Diunggah oleh

William Hans Natanael

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 25

PERTEMUAN 3

DATA PREPROCESSING
3.1 Data Cleaning
3.2 Data Reduction
3.3 Data Transformation dan Data Integration
Tujuan
1. Motivasi: Mengapa preproses data?
2. Teknik Preprocessing Data
3. Pembersihan Data
4. Integrasi dan Transformasi Data
5. Pengurangan Data
Tahap preprocessing data mungkin yang paling penting dalam proses
penambangan data. Namun, jarang dieksplorasi sejauh yang layak karena
sebagian besar fokusnya adalah pada aspek analitis penambangan data.
Fase ini dimulai setelah pengumpulan data, dan itu terdiri dari langkah-
langkah berikut:

Tahap preprocessing data

Sumber: v7labs.com
Tahap preprocessing data

1. Pembersihan data:

Data yang diekstraksi mungkin memiliki entri yang salah atau hilang. Karena itu,
beberapa catatan mungkin perlu dihapus, atau entri yang hilang mungkin perlu
diperkirakan. Inkonsistensi mungkin perlu dihilangkan.

Data cleaning atau pembersihan data terutama dilakukan sebagai bagian dari data
preprocessing untuk membersihkan data dengan mengisi nilai yang hilang,
menghaluskan data yang noise, menyelesaikan data yang tidak konsisten, dan
menghapus outlier atau tidak konsisten.

2. Integrasi Data

Integrasi data adalah salah satu langkah data preprocessing yang digunakan untuk
menggabungkan data yang ada di berbagai sumber menjadi satu penyimpanan
data yang lebih besar seperti gudang data atau data warehouse.
Integrasi data dibutuhkan terutama ketika kita bertujuan unt uk
memecahkan skenario seperti mendeteksi keberadaan modul dari gambar
CT scan. Satu-satunya pilihan adalah mengintegrasi gambar dari beberapa
node medis untuk membentuk database yang lebih besar.

3. Transformasi Data

Setelah pembersihan data dilakukan, kita perlu mengkonsolidasikan data

berkualitas ke dalam bentuk alternatif dengan mengubah nilai, struktur,
atau format data meggunakan strategi transformasi data berikut ini.
A. Generalisasi

Data tingkat rendah atau granular yang telah dikonversi menjadi informasi tingkat
tinggi dengan menggunakan konsep hirarki. Kita dapat mengubah data primitif di
alamat seperti kota menjadi informasi tingkat tinggi seperti negara.

B. Normalisasi
Teknik ini adalah teknik transformasi data yang paling penting yang banyak
digunakan. Atribut numerik ditingkatkan atau diturunkan agar sesuai dengan rentang
yang ditentukan. contoh: Normalisasi Min-max
4. Data Reduction
Ukuran dataset di data warehouse bisa terlalu besar untuk ditangani oleh analisis
data dan algoritma data mining. Salah satu solusi yang bisa diambil adalah
mendapatkan representasi tereduksi dari dataset yang volumenya jauh lebih kecil
tetapi menghasilkan kualitas hasil analitik yang sama.
Mengapa Memproses Ulang Data?
Keputusan kualitas harus didasarkan pada data yang berkualitas
1. Data bisa tidak lengkap, noisy, dan tidak konsisten
2. Data warehouse memerlukan integrasi data kualitas yang konsisten
3. Tidak Lengkap
v Kurangnya nilai atribut atau atribut minat tertentu
v Hanya berisi data agregat yang dapat memberikan gambaran
karakteristik dari variable yang diukur
Penyebab:
a. Tidak dianggap penting pada saat masuk
b. Kerusakan peralatan
c. Data tidak dimasukkan karena kesalahpahaman
d. Tidak konsisten dengan data rekaman lainnya dan karenanya dihapus
A. Noisy (memiliki nilai atribut yang salah)
Mengandung kesalahan, atau nilai outlier yang menyimpang dari yang
diharapkan
Penyebab:
Instrumen pengumpulan data yang digunakan mungkin salah
1. Kesalahan manusia atau komputer terjadi pada entri data
2. Kesalahan dalam transmisi data

B. Tidak konsisten
Mengandung perbedaan dalam kode departemen yang digunakan untuk
mengkategorikan item
– Tak-konsisten: memuat perbedaan dalam kode atau
nama
• Misal, Age=“42” Birthday=“03/07/1997”
• Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
1. “Bersihkan” data dengan mengisi nilai yang hilang, menghaluskan data
yang Noisy, mengidentifikasi atau menghapus pencilan, dan
menyelesaikan ketidakkonsistenan.
2. Beberapa contoh ketidak konsistenan:
customer_id vs cust_id
Bill vs William vs B
3. Beberapa atribut dapat disimpulkan dari yang lain. Pembersihan data
termasuk deteksi dan penghapusan redudansi yang mungkin terjadi.
Teknik Pengolah Data (2)
1. Pengurangan Data
a. Warehouse dapat menyimpan terabyte data
b. A n a l i s i s / p e n a m b a n g a n d a t a y a n g k o m p l e k s m u n g k i n
membutuhkan waktu yang sangat lama untuk dijalankan pada set
data yang lengkap
c. Memperoleh representasi tereduksi dari kumpulan data yang
volumenya jauh lebih kecil, namun menghasilkan hasil analitik
yang sama (atau hampir sama).
2 Strategi untuk Pengurangan Data
a. Agregasi data (mis., Membangun kubus data)
b. Pengurangan dimensi (mis. Menghilangkan atribut yang tidak
relevan melalui analisis korelasi)
c. Kompresi data (mis. Menggunakan skema penyandian seperti
penyandian panjang minimum)
d. Pengurangan numerik
e. Generalisasi
Teknik Pengolah Data (3)
Bentuk Bentuk-bentuk Dari Pemrosesan Awal Data
Pembersihan Data - Nilai yang Hilang

Pembersihan data
– Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali
atau menghilangkan outlier, dan memecahkan ketidak-konsistenan
• Tugas pembersihan data
– Mengisi nilai-nilai yang hilang
– Mengenali outliers dan menghaluskan noisy data
– Memecahkan redundansi yang disebabkan oleh integrasi data
– Memperbaiki ketak-konsitenan data, US=USA?
• Suatu data warehouse bisa menyimpan terabytes data
– Analisis/menambang data kompleks bisa membutuhkan waktu sangat
lama untuk dijalankan pada data set komplit (tak efisien)
• Reduksi data
– Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang
sama (hampir sama)
Pemulusan Data vs Pengurangan Data

Banyak metode untuk perataan data juga merupakan metode untuk

reduksi data yang melibatkan diskritisasi.
Contoh
q Teknik Binning mengurangi jumlah nilai yang berbeda per atribut.
Berguna untuk induksi pohon keputusan yang berulang kali membuat
perbandingan nilai pada data yang diurutkan.
q Konsep hierarki juga merupakan bentuk diskritisasi data yang juga
dapat digunakan untuk memperlancar data.
v Memetakan harga riil menjadi murah, sedang, mahal, mahal
v Mengurangi jumlah nilai data yang akan ditangani oleh proses
penambangan.
Pengurangan Data - Agregasi Kubus Data

1. Data terdiri dari penjualan per kuartal, selama beberapa tahun.

Pengguna yang tertarik dengan penjualan tahunan (total per tahun)
data dapat dikumpulkan sehingga data yang dihasilkan merangkum
total penjualan per tahun, bukan per kuartal.
2. Kumpulan data yang dihasilkan lebih kecil volumenya, tanpa
kehilangan informasi yang diperlukan untuk tugas analisis
Pengurangan Dimensi
A. Kumpulan data untuk analisis dapat berisi ratusan atribut, banyak di
antaranya mungkin tidak relevan dengan tugas penambangan, atau
berlebihan.
B. Meninggalkan atribut yang relevan atau menjaga atribut yang tidak
relevan dapat menyebabkan kebingungan untuk algoritma
penambangan, kualitas buruk dari pola yang ditemukan.
C. Menambahkan volume atribut yang tidak relevan atau berlebihan
dapat memperlambat proses penambangan.
D. Pengurangan dimensi mengurangi ukuran kumpulan data dengan
menghapus atribut seperti itu.
Pengurangan Dimensi (2)
A. Tujuan pemilihan subset atribut (juga dikenal sebagai pemilihan fitur)
adalah untuk menemukan set atribut minimum sehingga distribusi
probabilitas yang dihasilkan dari kelas data sedekat mungkin dengan
distribusi asli yang diperoleh dengan menggunakan semua atribut.
B. Untuk atribut d, ada himpunan bagian 2d yang mungkin.
C. Atribut terbaik (dan terburuk) biasanya ditentukan dengan
menggunakan uji signifikansi statistik. Ukuran evaluasi atribut seperti
perolehan informasi dapat digunakan.
Metode heuristik
a. Seleksi maju bertahap
b. Seleksi mundur secara bertahap (atau kombinasi keduanya)
c. Induksi Decision tree
Pengurangan Dimensi (3)
Contoh Induksi Decision tree
Kumpulan atribut awal: {A1, A2,
A3, A4, A5, A6}

Kumpulan atribut yang dikurangi: {A1, A4, A6}

Integrasi dan Transformasi Data
A. Integrasi Data: menggabungkan data dari beberapa penyimpanan data
B. Integrasi skema
1. Mengintegrasikan metadata dari berbagai sumber
2. Masalah identifikasi entitas: mengidentifikasi entitas dunia nyata dari
berbagai sumber data, mis., A.cust-id B.cust- #
C. Mendeteksi dan menyelesaikan konflik nilai data
1. Untuk entitas dunia nyata yang sama, nilai atribut dari sumber berbeda
berbeda
2. Kemungkinan alasan: representasi berbeda, skala berbeda (feet vs
meter)
Transformasi Data

Data ditransformasikan menjadi bentuk yang sesuai untuk penambangan

Metode:
1. Smoothing: binning, clustering, dan regresi
2. Aggregation: summarization, konstruksi data cube
3. Generalisasi: data tingkat rendah atau mentah diganti dengan konsep
tingkat tinggi melalui penggunaan hierarki konsep
a. Street kota atau negara
b. Atribut numerik usia muda, setengah baya, senior
4. Normalisasi: data atribut diskalakan agar masuk dalam rentang kecil
yang ditentukan, seperti 0,0 hingga 1,0. Berguna untuk klasifikasi yang
melibatkan neural networks, seperti klasifikasi nearest neighbor dan
clustering
Kompresi data

Pengkodean atau transformasi data diterapkan untuk

memperoleh representasi yang dikurangi atau terkompresi
dari data asli.
q Teknik kompresi data lossless: Jika data asli dapat
direkonstruksi dari data terkompresi tanpa kehilangan
informasi. A1? A6?
q Teknik kompresi data lossy: kita hanya dapat
merekonstruksi perkiraan dari data
Generasi hierarki konsep untuk data kategorikal

Ø Data kategorikal adalah data diskrit. Memiliki yang terbatas

jumlah nilai yang berbeda, tanpa urutan di antara nilai-nilai
tersebut. Ex. Lokasi, kategori pekerjaan.
Ø Spesifikasi satu set atribut:
v Hirarki konsep dapat menjadi nilai negara
dihasilkan secara otomatis
v Atribut dengan nilai yang paling berbeda
ditempatkan di level hierarki terendah.
Sumber Referensi

1. Much Aziz Muslim dkk. (2019). Data Mining Algoritma

C4.5
2. Neni Purwanti dkk.(2021). Data Mining. Zahira Media
Publisher.
3. Jiawei Han and Micheline Kamber. (2006). Data Mining:
Concepts and Techniques. Springer .

Anda mungkin juga menyukai

Modul Mengkonstruksi Data
Belum ada peringkat
Modul Mengkonstruksi Data
29 halaman
Pertemuan 2 - Data Understanding
Belum ada peringkat
Pertemuan 2 - Data Understanding
45 halaman
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA Rev
Belum ada peringkat
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA Rev
9 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
73 halaman
Tutorial Rapidminer - 4
100% (1)
Tutorial Rapidminer - 4
18 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
Data Preprocessing 2
Belum ada peringkat
Data Preprocessing 2
48 halaman
PERTEMUAN VI Preprocessing Data
Belum ada peringkat
PERTEMUAN VI Preprocessing Data
45 halaman
TDM 3
Belum ada peringkat
TDM 3
24 halaman
Rangkuman Pds Kelompok C-1
Belum ada peringkat
Rangkuman Pds Kelompok C-1
21 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
41 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
3 Teori - Preprocessing Data II
Belum ada peringkat
3 Teori - Preprocessing Data II
25 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Pengertian Data, Jenis Dan Tipe Data
100% (1)
Pengertian Data, Jenis Dan Tipe Data
20 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
Data Mining Pertemuan 3
Belum ada peringkat
Data Mining Pertemuan 3
27 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Pertemuan-3: Persiapan Data
Belum ada peringkat
Pertemuan-3: Persiapan Data
23 halaman
Article Review 9 Data Preprocessing
Belum ada peringkat
Article Review 9 Data Preprocessing
9 halaman
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
Belum ada peringkat
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
12 halaman
Slide Materi Data Preprocessing
Belum ada peringkat
Slide Materi Data Preprocessing
29 halaman
P-4 Data Mining
Belum ada peringkat
P-4 Data Mining
57 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Slide Data Preprocessing
Belum ada peringkat
Slide Data Preprocessing
27 halaman
Modul Membersihkan Data
Belum ada peringkat
Modul Membersihkan Data
12 halaman
Handout TIF311 DM 3
Belum ada peringkat
Handout TIF311 DM 3
36 halaman
Pertemuan Ke 4 Data Processing
Belum ada peringkat
Pertemuan Ke 4 Data Processing
19 halaman
Business Intelligent
Belum ada peringkat
Business Intelligent
15 halaman
Materi 3 Pre Processing Data
Belum ada peringkat
Materi 3 Pre Processing Data
20 halaman
Pemrosesan Data - 123
Belum ada peringkat
Pemrosesan Data - 123
13 halaman
Data Mining M.ridho New 2
Belum ada peringkat
Data Mining M.ridho New 2
9 halaman
CH 03 - Basic Principles of Data Wrangling
Belum ada peringkat
CH 03 - Basic Principles of Data Wrangling
10 halaman
Anesya Mahera - 20221026 - Ai A
Belum ada peringkat
Anesya Mahera - 20221026 - Ai A
4 halaman
Tugas Kuliah PDE - Kelas B - J0303211173 - Muthiah Humaira
Belum ada peringkat
Tugas Kuliah PDE - Kelas B - J0303211173 - Muthiah Humaira
4 halaman
Nabila Nurfadhilah 190402058 Persiapan Data PRT 11 Rangkuman
Belum ada peringkat
Nabila Nurfadhilah 190402058 Persiapan Data PRT 11 Rangkuman
9 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
3KA21 - Dewa Bagus Putu Arya Dhananjaya - 10122362 - Konsep Data Mining
Belum ada peringkat
3KA21 - Dewa Bagus Putu Arya Dhananjaya - 10122362 - Konsep Data Mining
5 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Pertemuan 8 Data Preprocessing
Belum ada peringkat
Pertemuan 8 Data Preprocessing
19 halaman
Dio Prasetyo Data Mining
Belum ada peringkat
Dio Prasetyo Data Mining
3 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Pembahasan Data Wrangling
Belum ada peringkat
Pembahasan Data Wrangling
4 halaman
Materi 1 Pengenalan Data Mining
Belum ada peringkat
Materi 1 Pengenalan Data Mining
5 halaman
Materi3 4
Belum ada peringkat
Materi3 4
15 halaman
Soal Tugas Pemrograman Visual
Belum ada peringkat
Soal Tugas Pemrograman Visual
7 halaman
JAWABAN
Belum ada peringkat
JAWABAN
5 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Processing Data Mining
Belum ada peringkat
Processing Data Mining
16 halaman
Ufa Aurora Guciano - TUGAS 1
Belum ada peringkat
Ufa Aurora Guciano - TUGAS 1
10 halaman
Paper Data Mining
Belum ada peringkat
Paper Data Mining
5 halaman
Ringkasan UTS Data Mining
Belum ada peringkat
Ringkasan UTS Data Mining
23 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
3.5/5 (6)