Dio Prasetyo Data Mining
Dio Prasetyo Data Mining
NPM : 2259201075
MK : DATA MINING
JAWAB
Dalam data mining, mengatasi nilai yang hilang penting untuk menjaga integritas data sebelum
dianalisis. Beberapa teknik yang umum digunakan:
• Menghapus Baris/Kolom dengan Nilai Hilang: Jika jumlah data yang hilang relatif
kecil dibandingkan dataset keseluruhan, baris atau kolom yang memiliki nilai hilang
bisa dihapus.
o Contoh: Pada dataset dengan banyak fitur, jika sebuah fitur memiliki kurang
dari 5% data yang hilang, fitur tersebut bisa dihapus tanpa memengaruhi hasil
analisis secara signifikan.
• Mengganti dengan Mean/Median/Mode: Nilai yang hilang diisi dengan rata-rata
(mean), median, atau modus dari kolom terkait.
o Contoh: Pada kolom harga produk yang hilang nilainya, dapat diisi dengan nilai
rata-rata harga produk dalam dataset tersebut.
• Imputasi KNN: KNN Imputation adalah teknik yang menggunakan tetangga terdekat
untuk memperkirakan nilai yang hilang berdasarkan kemiripan data lain.
o Contoh: Jika beberapa nilai hilang dalam fitur numerik, KNN dapat digunakan
untuk memprediksi nilai yang hilang berdasarkan data tetangga terdekat.
2. Data Transformation (Transformasi Data)
Transformasi data bertujuan untuk membuat data lebih sesuai untuk algoritma data mining.
Data mining sering kali harus bekerja dengan data kategorikal, yang perlu dikodekan ke dalam
bentuk numerik agar bisa digunakan dalam algoritma.
• One-Hot Encoding: Setiap kategori unik diubah menjadi kolom biner dengan nilai 0
atau 1.
o Contoh: Untuk fitur "jenis kelamin" dengan nilai 'Pria' dan 'Wanita', kita bisa
membuat dua kolom: satu untuk 'Pria' dan satu untuk 'Wanita', dengan nilai 0
atau 1.
• Label Encoding: Setiap kategori diubah menjadi angka yang merepresentasikan
kategori tersebut.
o Contoh: Pada kolom "tingkat pendidikan" dengan kategori 'SMA', 'D3', 'S1',
dan 'S2', kita bisa mengkodekan kategori tersebut menjadi 0, 1, 2, dan 3 secara
berurutan.
• Frequency Encoding: Setiap kategori diubah menjadi nilai frekuensi kemunculannya
dalam dataset.
o Contoh: Pada fitur "provinsi", kategori 'Jawa Barat' mungkin akan dikodekan
dengan angka yang lebih besar daripada provinsi lain karena memiliki lebih
banyak data.
Deteksi dan penanganan pencilan sangat penting karena outlier bisa mempengaruhi hasil
analisis secara signifikan.
Seleksi fitur bertujuan untuk memilih fitur yang paling penting agar analisis lebih efektif dan
efisien.
• Filter Method: Memilih fitur berdasarkan korelasi antar fitur atau dengan target
variabel. Fitur dengan korelasi tinggi terhadap target dipertahankan, sedangkan fitur
yang memiliki korelasi rendah dihilangkan.
o Contoh: Menghapus fitur yang memiliki korelasi sangat rendah dengan
variabel target pada model regresi linear.
• Recursive Feature Elimination (RFE): Menggunakan model untuk secara iteratif
menghapus fitur yang paling tidak penting hingga hanya tersisa fitur yang signifikan.
o Contoh: Digunakan pada algoritma seperti regresi logistik untuk menemukan
subset fitur yang paling relevan.
• Principal Component Analysis (PCA): Teknik untuk mengurangi dimensi data
dengan mencari komponen utama yang menangkap variasi terbesar dalam data.
o Contoh: PCA sering digunakan pada dataset dengan banyak fitur untuk
mereduksi dimensi menjadi komponen utama tanpa mengorbankan banyak
informasi.
Teknik ini diperlukan untuk membagi dataset menjadi subset yang dapat digunakan untuk
pelatihan dan pengujian model.
• Train-Test Split: Membagi dataset menjadi data latih dan data uji, biasanya dengan
perbandingan 80:20 atau 70:30.
o Contoh: Membagi dataset pelanggan e-commerce menjadi 80% untuk melatih
model prediksi churn dan 20% untuk menguji performa model.
• Cross-Validation: Teknik validasi silang untuk mengevaluasi model dengan cara
membagi data menjadi beberapa subset dan melatih serta menguji model pada tiap
subset.
o Contoh: K-fold cross-validation dengan 5 lipatan, di mana data dibagi menjadi
5 subset, dan model dilatih serta diuji pada tiap subset secara bergantian.
• Stratified Sampling: Pemecahan data yang memastikan bahwa distribusi kelas dalam
target tetap sama di data latih dan uji.
o Contoh: Pada data klasifikasi biner dengan distribusi kelas yang tidak
seimbang, stratified sampling memastikan proporsi kelas tetap sama di data
latih dan uji.