0% menganggap dokumen ini bermanfaat (0 suara)
11 tayangan3 halaman

Dio Prasetyo Data Mining

Diunggah oleh

Dio Prasetyo
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
11 tayangan3 halaman

Dio Prasetyo Data Mining

Diunggah oleh

Dio Prasetyo
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 3

NAMA : DIO PRASETYO

NPM : 2259201075

MK : DATA MINING

Tugas: Berikan contoh Teknik Preprocessing Data:

1. Handling Missing Values (Penanganan Nilai yang Hilang)


2. Data Transformation (Transformasi Data)
3. Data Encoding (Pengkodean Data)
4. Outlier Detection and Handling (Deteksi dan Penanganan
Pencilan)
5. Feature Selection (Seleksi Fitur)
6. Data Splitting (Pemecahan Data)

JAWAB

1. Handling Missing Values (Penanganan Nilai yang Hilang)

Dalam data mining, mengatasi nilai yang hilang penting untuk menjaga integritas data sebelum
dianalisis. Beberapa teknik yang umum digunakan:

• Menghapus Baris/Kolom dengan Nilai Hilang: Jika jumlah data yang hilang relatif
kecil dibandingkan dataset keseluruhan, baris atau kolom yang memiliki nilai hilang
bisa dihapus.
o Contoh: Pada dataset dengan banyak fitur, jika sebuah fitur memiliki kurang
dari 5% data yang hilang, fitur tersebut bisa dihapus tanpa memengaruhi hasil
analisis secara signifikan.
• Mengganti dengan Mean/Median/Mode: Nilai yang hilang diisi dengan rata-rata
(mean), median, atau modus dari kolom terkait.
o Contoh: Pada kolom harga produk yang hilang nilainya, dapat diisi dengan nilai
rata-rata harga produk dalam dataset tersebut.
• Imputasi KNN: KNN Imputation adalah teknik yang menggunakan tetangga terdekat
untuk memperkirakan nilai yang hilang berdasarkan kemiripan data lain.
o Contoh: Jika beberapa nilai hilang dalam fitur numerik, KNN dapat digunakan
untuk memprediksi nilai yang hilang berdasarkan data tetangga terdekat.
2. Data Transformation (Transformasi Data)

Transformasi data bertujuan untuk membuat data lebih sesuai untuk algoritma data mining.

• Normalisasi: Mengubah data menjadi rentang tetap, biasanya antara 0 hingga 1,


terutama untuk data dengan skala besar.
o Contoh: Dalam analisis clustering seperti K-Means, normalisasi data penting
agar fitur-fitur dengan skala yang besar tidak mendominasi perhitungan jarak.
• Standarisasi: Mengubah data sehingga memiliki mean 0 dan standar deviasi 1. Ini
penting dalam algoritma seperti regresi logistik dan KNN.
o Contoh: Digunakan pada data dengan distribusi Gaussian, seperti fitur
pendapatan, yang bisa diubah agar distribusinya lebih stabil.
• Log Transformation: Digunakan untuk mengurangi skewness pada data yang tidak
simetris, seperti pendapatan yang sering kali tidak terdistribusi secara merata.
o Contoh: Transformasi log pada pendapatan individu untuk mengurangi outlier
dan membuat distribusi lebih normal.

3. Data Encoding (Pengkodean Data)

Data mining sering kali harus bekerja dengan data kategorikal, yang perlu dikodekan ke dalam
bentuk numerik agar bisa digunakan dalam algoritma.

• One-Hot Encoding: Setiap kategori unik diubah menjadi kolom biner dengan nilai 0
atau 1.
o Contoh: Untuk fitur "jenis kelamin" dengan nilai 'Pria' dan 'Wanita', kita bisa
membuat dua kolom: satu untuk 'Pria' dan satu untuk 'Wanita', dengan nilai 0
atau 1.
• Label Encoding: Setiap kategori diubah menjadi angka yang merepresentasikan
kategori tersebut.
o Contoh: Pada kolom "tingkat pendidikan" dengan kategori 'SMA', 'D3', 'S1',
dan 'S2', kita bisa mengkodekan kategori tersebut menjadi 0, 1, 2, dan 3 secara
berurutan.
• Frequency Encoding: Setiap kategori diubah menjadi nilai frekuensi kemunculannya
dalam dataset.
o Contoh: Pada fitur "provinsi", kategori 'Jawa Barat' mungkin akan dikodekan
dengan angka yang lebih besar daripada provinsi lain karena memiliki lebih
banyak data.

4. Outlier Detection and Handling (Deteksi dan Penanganan Pencilan)

Deteksi dan penanganan pencilan sangat penting karena outlier bisa mempengaruhi hasil
analisis secara signifikan.

• Interquartile Range (IQR): Metode untuk mendeteksi pencilan dengan menghitung


IQR dan mengidentifikasi nilai di luar batas (outliers).
o Contoh: Data dengan nilai yang berada di luar rentang 1.5 * IQR dari Q1 atau
Q3 dapat dianggap sebagai pencilan.
• Z-Score: Mengukur seberapa jauh data dari rata-rata, dan pencilan ditentukan
berdasarkan nilai Z lebih dari 3 atau kurang dari -3.
o Contoh: Pada analisis penjualan, jika Z-score suatu nilai penjualan terlalu
tinggi atau rendah dibandingkan rata-rata, maka dapat dianggap sebagai
pencilan.
• Winsorizing: Metode untuk menangani pencilan dengan mengganti pencilan dengan
nilai batas (misalnya batas persentil 5% dan 95%).
o Contoh: Mengubah semua nilai di atas persentil ke-95 dengan nilai persentil
ke-95 itu sendiri.

5. Feature Selection (Seleksi Fitur)

Seleksi fitur bertujuan untuk memilih fitur yang paling penting agar analisis lebih efektif dan
efisien.

• Filter Method: Memilih fitur berdasarkan korelasi antar fitur atau dengan target
variabel. Fitur dengan korelasi tinggi terhadap target dipertahankan, sedangkan fitur
yang memiliki korelasi rendah dihilangkan.
o Contoh: Menghapus fitur yang memiliki korelasi sangat rendah dengan
variabel target pada model regresi linear.
• Recursive Feature Elimination (RFE): Menggunakan model untuk secara iteratif
menghapus fitur yang paling tidak penting hingga hanya tersisa fitur yang signifikan.
o Contoh: Digunakan pada algoritma seperti regresi logistik untuk menemukan
subset fitur yang paling relevan.
• Principal Component Analysis (PCA): Teknik untuk mengurangi dimensi data
dengan mencari komponen utama yang menangkap variasi terbesar dalam data.
o Contoh: PCA sering digunakan pada dataset dengan banyak fitur untuk
mereduksi dimensi menjadi komponen utama tanpa mengorbankan banyak
informasi.

6. Data Splitting (Pemecahan Data)

Teknik ini diperlukan untuk membagi dataset menjadi subset yang dapat digunakan untuk
pelatihan dan pengujian model.

• Train-Test Split: Membagi dataset menjadi data latih dan data uji, biasanya dengan
perbandingan 80:20 atau 70:30.
o Contoh: Membagi dataset pelanggan e-commerce menjadi 80% untuk melatih
model prediksi churn dan 20% untuk menguji performa model.
• Cross-Validation: Teknik validasi silang untuk mengevaluasi model dengan cara
membagi data menjadi beberapa subset dan melatih serta menguji model pada tiap
subset.
o Contoh: K-fold cross-validation dengan 5 lipatan, di mana data dibagi menjadi
5 subset, dan model dilatih serta diuji pada tiap subset secara bergantian.
• Stratified Sampling: Pemecahan data yang memastikan bahwa distribusi kelas dalam
target tetap sama di data latih dan uji.
o Contoh: Pada data klasifikasi biner dengan distribusi kelas yang tidak
seimbang, stratified sampling memastikan proporsi kelas tetap sama di data
latih dan uji.

Anda mungkin juga menyukai