Data Mining 02
Data Mining 02
PART-02
Data Preprocessing
dalam Data Mining
[email protected]
Pentingnya Data Preprocessing
• Data mining adalah proses penemuan pola atau informasi yang
berguna dari data yang besar dan kompleks. Sebelum melakukan
data mining, data harus dipersiapkan dengan baik agar hasil yang
diperoleh relevan dan berkualitas. Proses persiapan data ini disebut
Data Preprocessing.
• Data preprocessing adalah langkah pertama dalam data mining yang
bertujuan untuk mempersiapkan data mentah agar bisa digunakan
dalam proses penambangan data. Tanpa preprocessing, model yang
dibangun mungkin akan menghasilkan hasil yang tidak akurat,
bahkan bias. Berikut adalah beberapa alasan mengapa
preprocessing sangat penting:
1. Data seringkali tidak lengkap: Banyak data yang hilang atau tidak
lengkap.
2. Data seringkali mengandung kesalahan atau noise: Kesalahan
input data atau data yang tidak relevan dapat mengganggu
analisis.
3. Skala data yang berbeda: Beberapa algoritma membutuhkan data
dalam bentuk skala yang konsisten.
Tahapan dalam Data Preprocessing
a. Pembersihan Data (Data Cleaning)
• Pembersihan data adalah proses menangani data yang hilang, data
duplikat, dan data yang salah.
• Menghapus Data yang Tidak Relevan: Menghapus atribut yang tidak
memiliki pengaruh terhadap hasil analisis.
• Mengatasi Missing Values: Data yang hilang dapat diisi dengan nilai
rata-rata, median, modus, atau bahkan dihapus jika diperlukan.
• Menghapus Duplikasi: Jika terdapat data yang terduplikasi, maka data
tersebut perlu dihapus agar tidak mempengaruhi analisis.
b. Transformasi Data (Data Transformation)
• Transformasi data adalah proses mengubah format atau skala data agar
sesuai dengan kebutuhan algoritma yang akan digunakan.
• Normalisasi: Proses mengubah data ke dalam skala yang seragam,
misalnya mengubah data dengan rentang yang sangat berbeda menjadi
data dengan rentang yang sama (misalnya [0,1]).
• Diskritisasi: Mengubah data numerik menjadi data kategori (misalnya
usia bisa dibagi menjadi kategori: muda, dewasa, tua).
• Pengkodean Kategori: Mengubah data kategorikal menjadi format
numerik yang bisa digunakan dalam algoritma.
c. Pengurangan Dimensi (Dimensionality Reduction)
• Proses ini digunakan untuk mengurangi jumlah atribut atau fitur
dalam dataset tanpa mengorbankan kualitas informasi yang
signifikan.
• PCA (Principal Component Analysis): Teknik yang digunakan untuk
mengurangi dimensi data dengan mencari komponen utama yang
menjelaskan variabilitas dalam data.
• LDA (Linear Discriminant Analysis): Teknik pengurangan dimensi
yang digunakan untuk klasifikasi, dengan fokus pada pemisahan
antar kelas.
d. Penyusunan Data (Data Integration)
• Jika data berasal dari berbagai sumber, tahap ini bertujuan untuk
mengintegrasikan data tersebut menjadi satu set data yang utuh.
• Penggabungan Sumber Data: Menggabungkan data yang berbeda
menjadi satu set yang lebih besar dan lebih komprehensif.
e. Pencocokan Data (Data Matching)
• Data yang berasal dari sumber yang berbeda sering kali memiliki
atribut yang berbeda meskipun menyatakan informasi yang sama.
Pencocokan data bertujuan untuk mengidentifikasi entitas yang
serupa dalam dataset yang berbeda.
Teknik dan Algoritma dalam Data
Preprocessing
• Beberapa teknik yang sering digunakan dalam preprocessing
data antara lain:
• Imputasi Nilai Hilang: Menggunakan teknik statistik untuk
memperkirakan dan mengisi data yang hilang.
• Standardisasi: Mengubah data ke bentuk standar yang
digunakan untuk menghitung statistik (misalnya mengurangi
nilai rata-rata dan membaginya dengan deviasi standar).
• Clustering: Mengelompokkan data yang mirip untuk
mempermudah analisis dan visualisasi.
• Outlier Detection: Mendeteksi dan menangani data yang
berada di luar batas normal.
CONTOH STUDI KASUS
• Diketahui :
1. Dataset yang memiliki data yang hilang dan lakukan proses
imputation.
2. Lakukan normalisasi pada dataset yang memiliki atribut
numerik dengan rentang yang berbeda.
3. Terapkan teknik pengurangan dimensi (misalnya PCA) pada
dataset yang memiliki banyak fitur.
• Penyelesaiannya :
Dapat mengikuti beberapa langkah data preprocessing yang
melibatkan imputation untuk mengatasi data yang hilang,
normalisasi untuk atribut numerik dengan rentang berbeda, dan
pengurangan dimensi (misalnya PCA) untuk dataset dengan
banyak fitur.
• Langkah 1: Ambil Dataset dengan Data yang Hilang dan
Lakukan Proses Imputation
• Misalkan kita memiliki dataset berupa data pelanggan dengan
atribut seperti Usia, Pendapatan, Lokasi, dan Status
Pekerjaan. Dataset ini mengandung nilai yang hilang (missing
values) pada beberapa atribut.
• Contoh dataset:
• Proses Imputation:
• Imputation adalah proses mengisi nilai yang hilang dengan
nilai estimasi berdasarkan data yang ada. Beberapa metode
imputation yang umum adalah:
• Imputasi dengan Mean/Median/Mode:
• Untuk atribut numerik seperti Usia dan Pendapatan, kita bisa
mengisi nilai yang hilang dengan rata-rata (mean) atau median.
• Untuk atribut kategorikal seperti Status Pekerjaan, kita bisa
mengisi nilai yang hilang dengan modus (nilai yang paling sering
muncul).
• Langkah-langkah Imputation:
• Untuk kolom Usia, kita akan mengisi nilai yang hilang dengan
rata-rata Usia.
• Untuk kolom Pendapatan, kita akan mengisi nilai yang hilang
dengan rata-rata Pendapatan.
• Untuk kolom Status Pekerjaan, kita akan mengisi nilai yang
hilang dengan modus (nilai paling sering muncul).
• Langkah 2: Lakukan Normalisasi pada Dataset yang Memiliki Atribut
Numerik dengan Rentang yang Berbeda
• Setelah melakukan imputation, kita memiliki beberapa atribut numerik yang
memiliki rentang yang berbeda, seperti Usia (misalnya antara 20 sampai 50) dan
Pendapatan (misalnya antara 3000 sampai 10000). Agar kedua atribut ini dapat
dibandingkan secara adil, kita perlu melakukan normalisasi.
• Metode Normalisasi yang Digunakan:
• Kita akan menggunakan Min-Max Scaling untuk menormalkan data numerik.
Normalisasi ini mengubah rentang data menjadi antara 0 dan 1, dengan rumus
sebagai berikut:
• Di mana:
• XnormX_{\text{norm}}Xnorm adalah nilai yang sudah dinormalisasi.
• XXX adalah nilai asli (misalnya, Usia atau Pendapatan).
• XminX_{\text{min}}Xmin adalah nilai minimum dari data.
• XmaxX_{\text{max}}Xmax adalah nilai maksimum dari data.
Langkah-langkah Normalisasi:
• Untuk kolom Usia, kita akan mengubah rentang nilai menjadi [0, 1].
• Untuk kolom Pendapatan, kita akan mengubah rentang nilai menjadi
[0, 1].
Langkah-langkah PCA:
• Menstandarkan Data: Sebelum menerapkan PCA, kita harus
menstandarkan data terlebih dahulu (mean = 0, standar deviasi = 1),
jika data memiliki variabel dengan skala yang berbeda.
• Menghitung Matriks Kovarians: PCA mengandalkan matriks
kovarians untuk melihat hubungan antar fitur.
• Menentukan Eigenvector dan Eigenvalue: PCA mencari eigenvector
(komponen utama) dan eigenvalue (magnitude pentingnya
komponen).
• Memilih Komponen Utama: Komponen utama yang dipilih adalah
yang memiliki eigenvalue terbesar, yang menjelaskan sebagian besar
varians dalam data.
• Langkah 3: Hitung Eigenvector dan Eigenvalue
• # Terapkan PCA
• pca = PCA(n_components=1) # Mengurangi ke 1 komponen utama
• principal_components = pca.fit_transform(data_scaled)
• # Menampilkan hasil
• print("Komponen Utama:")
• print(principal_components)
TERIMA KASIH