Dio Prasetyo Data Mining

Diunggah oleh

Dio Prasetyo

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

11 tayangan3 halaman

Dio Prasetyo Data Mining

Diunggah oleh

Dio Prasetyo

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 3

NAMA : DIO PRASETYO

NPM : 2259201075

MK : DATA MINING

Tugas: Berikan contoh Teknik Preprocessing Data:

1. Handling Missing Values (Penanganan Nilai yang Hilang)

2. Data Transformation (Transformasi Data)
3. Data Encoding (Pengkodean Data)
4. Outlier Detection and Handling (Deteksi dan Penanganan
Pencilan)
5. Feature Selection (Seleksi Fitur)
6. Data Splitting (Pemecahan Data)

JAWAB

1. Handling Missing Values (Penanganan Nilai yang Hilang)

Dalam data mining, mengatasi nilai yang hilang penting untuk menjaga integritas data sebelum
dianalisis. Beberapa teknik yang umum digunakan:

• Menghapus Baris/Kolom dengan Nilai Hilang: Jika jumlah data yang hilang relatif
kecil dibandingkan dataset keseluruhan, baris atau kolom yang memiliki nilai hilang
bisa dihapus.
o Contoh: Pada dataset dengan banyak fitur, jika sebuah fitur memiliki kurang
dari 5% data yang hilang, fitur tersebut bisa dihapus tanpa memengaruhi hasil
analisis secara signifikan.
• Mengganti dengan Mean/Median/Mode: Nilai yang hilang diisi dengan rata-rata
(mean), median, atau modus dari kolom terkait.
o Contoh: Pada kolom harga produk yang hilang nilainya, dapat diisi dengan nilai
rata-rata harga produk dalam dataset tersebut.
• Imputasi KNN: KNN Imputation adalah teknik yang menggunakan tetangga terdekat
untuk memperkirakan nilai yang hilang berdasarkan kemiripan data lain.
o Contoh: Jika beberapa nilai hilang dalam fitur numerik, KNN dapat digunakan
untuk memprediksi nilai yang hilang berdasarkan data tetangga terdekat.
2. Data Transformation (Transformasi Data)

Transformasi data bertujuan untuk membuat data lebih sesuai untuk algoritma data mining.

• Normalisasi: Mengubah data menjadi rentang tetap, biasanya antara 0 hingga 1,

terutama untuk data dengan skala besar.
o Contoh: Dalam analisis clustering seperti K-Means, normalisasi data penting
agar fitur-fitur dengan skala yang besar tidak mendominasi perhitungan jarak.
• Standarisasi: Mengubah data sehingga memiliki mean 0 dan standar deviasi 1. Ini
penting dalam algoritma seperti regresi logistik dan KNN.
o Contoh: Digunakan pada data dengan distribusi Gaussian, seperti fitur
pendapatan, yang bisa diubah agar distribusinya lebih stabil.
• Log Transformation: Digunakan untuk mengurangi skewness pada data yang tidak
simetris, seperti pendapatan yang sering kali tidak terdistribusi secara merata.
o Contoh: Transformasi log pada pendapatan individu untuk mengurangi outlier
dan membuat distribusi lebih normal.

3. Data Encoding (Pengkodean Data)

Data mining sering kali harus bekerja dengan data kategorikal, yang perlu dikodekan ke dalam
bentuk numerik agar bisa digunakan dalam algoritma.

• One-Hot Encoding: Setiap kategori unik diubah menjadi kolom biner dengan nilai 0
atau 1.
o Contoh: Untuk fitur "jenis kelamin" dengan nilai 'Pria' dan 'Wanita', kita bisa
membuat dua kolom: satu untuk 'Pria' dan satu untuk 'Wanita', dengan nilai 0
atau 1.
• Label Encoding: Setiap kategori diubah menjadi angka yang merepresentasikan
kategori tersebut.
o Contoh: Pada kolom "tingkat pendidikan" dengan kategori 'SMA', 'D3', 'S1',
dan 'S2', kita bisa mengkodekan kategori tersebut menjadi 0, 1, 2, dan 3 secara
berurutan.
• Frequency Encoding: Setiap kategori diubah menjadi nilai frekuensi kemunculannya
dalam dataset.
o Contoh: Pada fitur "provinsi", kategori 'Jawa Barat' mungkin akan dikodekan
dengan angka yang lebih besar daripada provinsi lain karena memiliki lebih
banyak data.

4. Outlier Detection and Handling (Deteksi dan Penanganan Pencilan)

Deteksi dan penanganan pencilan sangat penting karena outlier bisa mempengaruhi hasil
analisis secara signifikan.

• Interquartile Range (IQR): Metode untuk mendeteksi pencilan dengan menghitung

IQR dan mengidentifikasi nilai di luar batas (outliers).
o Contoh: Data dengan nilai yang berada di luar rentang 1.5 * IQR dari Q1 atau
Q3 dapat dianggap sebagai pencilan.
• Z-Score: Mengukur seberapa jauh data dari rata-rata, dan pencilan ditentukan
berdasarkan nilai Z lebih dari 3 atau kurang dari -3.
o Contoh: Pada analisis penjualan, jika Z-score suatu nilai penjualan terlalu
tinggi atau rendah dibandingkan rata-rata, maka dapat dianggap sebagai
pencilan.
• Winsorizing: Metode untuk menangani pencilan dengan mengganti pencilan dengan
nilai batas (misalnya batas persentil 5% dan 95%).
o Contoh: Mengubah semua nilai di atas persentil ke-95 dengan nilai persentil
ke-95 itu sendiri.

5. Feature Selection (Seleksi Fitur)

Seleksi fitur bertujuan untuk memilih fitur yang paling penting agar analisis lebih efektif dan
efisien.

• Filter Method: Memilih fitur berdasarkan korelasi antar fitur atau dengan target
variabel. Fitur dengan korelasi tinggi terhadap target dipertahankan, sedangkan fitur
yang memiliki korelasi rendah dihilangkan.
o Contoh: Menghapus fitur yang memiliki korelasi sangat rendah dengan
variabel target pada model regresi linear.
• Recursive Feature Elimination (RFE): Menggunakan model untuk secara iteratif
menghapus fitur yang paling tidak penting hingga hanya tersisa fitur yang signifikan.
o Contoh: Digunakan pada algoritma seperti regresi logistik untuk menemukan
subset fitur yang paling relevan.
• Principal Component Analysis (PCA): Teknik untuk mengurangi dimensi data
dengan mencari komponen utama yang menangkap variasi terbesar dalam data.
o Contoh: PCA sering digunakan pada dataset dengan banyak fitur untuk
mereduksi dimensi menjadi komponen utama tanpa mengorbankan banyak
informasi.

6. Data Splitting (Pemecahan Data)

Teknik ini diperlukan untuk membagi dataset menjadi subset yang dapat digunakan untuk
pelatihan dan pengujian model.

• Train-Test Split: Membagi dataset menjadi data latih dan data uji, biasanya dengan
perbandingan 80:20 atau 70:30.
o Contoh: Membagi dataset pelanggan e-commerce menjadi 80% untuk melatih
model prediksi churn dan 20% untuk menguji performa model.
• Cross-Validation: Teknik validasi silang untuk mengevaluasi model dengan cara
membagi data menjadi beberapa subset dan melatih serta menguji model pada tiap
subset.
o Contoh: K-fold cross-validation dengan 5 lipatan, di mana data dibagi menjadi
5 subset, dan model dilatih serta diuji pada tiap subset secara bergantian.
• Stratified Sampling: Pemecahan data yang memastikan bahwa distribusi kelas dalam
target tetap sama di data latih dan uji.
o Contoh: Pada data klasifikasi biner dengan distribusi kelas yang tidak
seimbang, stratified sampling memastikan proporsi kelas tetap sama di data
latih dan uji.

Anda mungkin juga menyukai

Teknik & Metode Data Mining
33% (3)
Teknik & Metode Data Mining
36 halaman
Tugas 1-Pebriwindari Data Mining
50% (2)
Tugas 1-Pebriwindari Data Mining
5 halaman
Sebutkan 5 Peran Utama Data Mining
80% (15)
Sebutkan 5 Peran Utama Data Mining
2 halaman
Data Mining 02
Belum ada peringkat
Data Mining 02
30 halaman
Selvia Permata Sari - 22076022 - Uas Data Science
Belum ada peringkat
Selvia Permata Sari - 22076022 - Uas Data Science
10 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
Tugas Data Mining - Mohamad Rizki Lazuardi - 119929003
Belum ada peringkat
Tugas Data Mining - Mohamad Rizki Lazuardi - 119929003
4 halaman
Ringkasan UTS Data Mining
Belum ada peringkat
Ringkasan UTS Data Mining
23 halaman
Tugas 1 - Data Mining
Belum ada peringkat
Tugas 1 - Data Mining
3 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Pertemuan 2
Belum ada peringkat
Pertemuan 2
25 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Tugas Data Mining
Belum ada peringkat
Tugas Data Mining
2 halaman
Data Warehouse
Belum ada peringkat
Data Warehouse
12 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
P-4 Data Mining
Belum ada peringkat
P-4 Data Mining
57 halaman
Article Review 10 Feature Engineering
Belum ada peringkat
Article Review 10 Feature Engineering
17 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
Article Review 9 Data Preprocessing
Belum ada peringkat
Article Review 9 Data Preprocessing
9 halaman
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
Belum ada peringkat
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
12 halaman
Materi Teknik Pengolahan Data
Belum ada peringkat
Materi Teknik Pengolahan Data
7 halaman
Business Intelligent
Belum ada peringkat
Business Intelligent
15 halaman
Materi 3 Pre Processing Data
Belum ada peringkat
Materi 3 Pre Processing Data
20 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Pengambilan Data
Belum ada peringkat
Pengambilan Data
5 halaman
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
Belum ada peringkat
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
13 halaman
Data Mining M.ridho New 2
Belum ada peringkat
Data Mining M.ridho New 2
9 halaman
Tugas Prak. Data Mining Wahyu Wardhana (2009020122)
Belum ada peringkat
Tugas Prak. Data Mining Wahyu Wardhana (2009020122)
5 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
JAWABAN
Belum ada peringkat
JAWABAN
5 halaman
Bab 6 Visualisasi Data: Oleh
Belum ada peringkat
Bab 6 Visualisasi Data: Oleh
7 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Bab 3 Metode Penelitian
Belum ada peringkat
Bab 3 Metode Penelitian
8 halaman
Tugas Data Minning
Belum ada peringkat
Tugas Data Minning
16 halaman
Jawaban Quiz 2 Data Mining - Suparni - 2211014pdf
Belum ada peringkat
Jawaban Quiz 2 Data Mining - Suparni - 2211014pdf
3 halaman
Anesya Mahera - 20221026 - Ai A
Belum ada peringkat
Anesya Mahera - 20221026 - Ai A
4 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Tugas1 - Data Mining - 1221939
Belum ada peringkat
Tugas1 - Data Mining - 1221939
5 halaman
Daming Zidan
Belum ada peringkat
Daming Zidan
3 halaman
Materi 1 Pengenalan Data Mining
Belum ada peringkat
Materi 1 Pengenalan Data Mining
5 halaman
Soal Tugas Pemrograman Visual
Belum ada peringkat
Soal Tugas Pemrograman Visual
7 halaman
Data Mining
Belum ada peringkat
Data Mining
8 halaman
Data Mining 1
Belum ada peringkat
Data Mining 1
5 halaman
UAS CML Tambahan
Belum ada peringkat
UAS CML Tambahan
1 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
(181110035) Aldo Aprialdi
Belum ada peringkat
(181110035) Aldo Aprialdi
3 halaman
Teknik ML (AI)
Belum ada peringkat
Teknik ML (AI)
3 halaman
Tugas Data Mining Yustinus - 200403010004
Belum ada peringkat
Tugas Data Mining Yustinus - 200403010004
2 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Gede Thadeo Angga Kusuma - Tugas 3
Belum ada peringkat
Gede Thadeo Angga Kusuma - Tugas 3
8 halaman
Tugas 2 Analisis Dan Visualisasi Data
Belum ada peringkat
Tugas 2 Analisis Dan Visualisasi Data
2 halaman
Fungsi Asosiasi
Belum ada peringkat
Fungsi Asosiasi
4 halaman
Preprocessing Dalam Data Mining
Belum ada peringkat
Preprocessing Dalam Data Mining
6 halaman