0% menganggap dokumen ini bermanfaat (0 suara)
56 tayangan31 halaman

Data Mining Pertemuan

Diunggah oleh

Dina Angelina
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
56 tayangan31 halaman

Data Mining Pertemuan

Diunggah oleh

Dina Angelina
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 31

Government

GTA Transformation
Academy

Preprocessing
Model Estimasi, Klasifikasi, Evaluasi
Data Preprocessing/Persiapan Data

1. Data Cleaning
2. Data Reduction
3. Data Transformation and Data Discretization
4. Data Integration
Data Preprocessing

Mengapa data di proses di awal?

Pembersihan data
Mengapa Data diproses di awal?

Data dalam dunia nyata kotor


• Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang
dipentingkan tidak disertakan, atau hanya memuat data
agregasi
Misal, pekerjaan=“”
• Noisy: memuat error atau memuat outliers (data yang secara
nyata berbeda dengan data-data yang lain)
Misal, Salary=“-10”
Mengapa Data diproses di awal?
• Tak-konsisten: memuat perbedaan dalam kode atau nama
Misal, Age=“42” Birthday=“03/07/1997”
Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
Misal, perbedaan antara duplikasi record
• Data yang lebih baik akan menghasilkan data mining yang
lebih baik
• Data preprocessing membantu didalam memperbaiki presisi
dan kinerja data mining dan mencegah kesalahan didalam
data mining.
Mengapa Data Kotor?
• Ketidaklengkapan data datang dari
1. Nilai data tidak tersedia saat dikumpulkan
2. Perbedaan pertimbangan waktu antara saat data dikumpulkan dan
saat data dianalisa.
3. Masalah manusia, hardware, dan software
• Noisy data datang dari proses data
1. Pengumpulan
2. Pemasukan (entry)
3. Transmisi
• Ketidakkonsistenan data datang dari
1. Sumber data yang berbeda
2. Pelanggaran kebergantungan fungsional
Mengapa Pemrosesan Awal Data Penting?

• Kualitas keputusan harus didasarkan kepada kualitas data


Misal, duplikasi data atau data hilang bias menyebabkan
ketidakbenaran atau bahkan statistik yang menyesatkan.
• Data warehouse memerlukan kualitas integrasi data yang konsisten
Pengukuran Kualitas Data Multidimensi
Kualitas data dapat diakses dalam bentuk:
• Akurasi
• Kelengkapan
• Konsistensi
• Ketepatan waktu
• Kepercayaan
• Nilai tambah
• Penafsiran
• Kemudahan diakses
Major Tasks in Data Preprocessing
1. Data cleaning
 Fill in missing values
 Smooth noisy data
 Identify or remove outliers
 Resolve inconsistencies
2. Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
3. Data transformation and data discretization
 Normalization
 Concept hierarchy generation
4. Data integration
 Integration of multiple databases or files
Tugas Utama Pemrosesan Awal Data
• Pembersihan data (data yang kotor)
 Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau
menghilangkan outlier, dan memecahkan ketidakkonsistenan
• Integrasi data (data heterogen)
 Integrasi banyak database, banyak kubus data, atau banyak file
• Transformasi data (data detail)
 Normalisasi dan agregasi
• Reduksi data (jumlah data yang besar)
 Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil
analitikal yang sama atau mirip
• Diskritisasi data (kesinambungan atribut)
 Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data numerik
Data Preparation Law

“Data preparation is more than half of every data mining process


Persiapan data lebih dari setengah proses dari Data Mining”
Contoh Missing Data

Dataset: Missingdataset.csv
Bagaimana Mengolah Missing Data?
• Ignore the tuple
• Fill in the missing value manually
• Melelahkan dan tidak mungkin
• Fill in it automatically with
• A global constant
• The attribute mean
• The most probable value
MissingDataset.csv
• Jerry is the marketing manager for a small Internet design and advertising firm
• Jerry’s boss asks him to develop a data set containing information about Internet users
• The company will use this data to determine what kinds of people are using the Internet
and how the firm may be able to market their services to this group of users
• To accomplish his assignment, Jerry creates an online survey and places links to the
survey on several popular Web sites
• Within two weeks, Jerry has collected enough data to begin analysis, but he finds that
his data needs to be denormalized
• He also notes that some observations in the set are missing values or they appear to
contain invalid values
• Jerry realizes that some additional work on the data needs to take place before analysis
begins.
Latihan Preprocessing dengan Rapidminer
• Membuang dataset yang missing
(menggunakan filter example)
(menggunakan replace missing value)
Noisy Data
• Noise: random error or variance in a measured variable
• Incorrect attribute values may be due to
• Faulty data collection instruments
• Data entry problems
• Data transmission problems
• Technology limitation
• Inconsistency in naming convention
• Other data problems which require data cleaning
• Duplicate records
• Incomplete data
• Inconsistent data
How to Handle Noisy Data?
• Binning
• First sort data and partition into (equal-frequency) bins
• Then one can smooth by bin means, smooth by bin median, smooth by bin
boundaries, etc.
• Regression
• Smooth by fitting the data into regression functions
• Clustering
• Detect and remove outliers
• Combined computer and human inspection
• Detect suspicious values and check by human (e.g., deal with possible outliers)
Latihan Preprocessing dengan Rapidminer
• Membuang dataset yang noisy (menggunakan replace),(menggunakan regex)
(menggunakan map)
• Impor data MissingData-Noisy.csv
• Gunakan Regular Expression (operator Replace) untuk mengganti semua noisy data
pada atribut nominal menjadi “N”

• Impor data MissingData-Noisy-Multiple.csv


• Gunakan operator Replace Missing Value untuk mengisi data kosong
• Gunakan Regular Expression (operator Replace) untuk mengganti semua noisy data
pada atribut nominal menjadi “N”
• Gunakan operator Map untuk mengganti semua isian Face, FB dan Fesbuk menjadi
Facebook
Peran Utama Data Mining

1. Estimasi

5. Asosiasi 2. Forcesting
Data Mining Roles
(Larose, 2005)
4. Klastering 3. Klasifikasi
Proses Data Mining
Evaluasi Kinerja Model Data Mining
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
4. Clustering:
Internal Evaluation: Davies–Bouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index,
Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
Evaluasi Model Data Mining
• Pembagian dataset, perbandingan 90:10 atau 80:20 :
• Data Training
• Data Testing

• Data Training untuk pembentukan model, dan data testing digunakan untuk
pengujian model

• Pemisahan data training dan testing


1. Data dipisahkan secara manual
2. Data dipisahkan otomatis dengan operator Split Data
3. Data dipisahkan otomatis dengan X Validation
Latihan : Penentuan Kelayakan Kredit
• Gunakan dataset di bawah :
• creditapproval-training.xls : untuk membuat model
• creditapproval-testing.xls : untuk menguji model
• Data di atas terpisah dengan perbandingan : data testing (10%) dan data
training (90%)
• Data training sebagai pembentuk model, dan data testing untuk pengujian
model, ukur performancenya
Confusion Matrix = Accuracy
FP
TN

pred MACET – true Macet : Jumlah data yang diprediksi macet dan kenyataannya macet (TP) TP
pred LANCAR – true LANCAR : Jumlah data yang diprediksi lancar dan kenyataannya lancar (TN)
pred MACET – true LANCAR : Jumlah data yang diprediksi macet dan kenyataannya lancer (FP) FN
pred LANCAR – true MACET : Jumlah data yang diprediksi lancer tapi kenyataannya macet (FN)


𝑇𝑃 +𝑇𝑁 52+ 38 90
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = =90 %
𝑇𝑃 +𝑇𝑁 + 𝐹𝑃+ 𝐹𝑁 52+38+ 3+7 100 ❑
Guide for Classifying the AUC

1. 0.90 – 1.00 = excellent classification


2. 0.80 – 0.90 = good classification
3. 0.70 – 0.80 = fair classification
4. 0.60 – 0.70 = poor classification
5. 0.50 – 0.60 = failure

(Gorunescu, 2011)
Latihan : Prediksi Harga Saham

• Gunakan dataset di bawah :


• hargasaham-training.xls : untuk membuat model
• hargasaham-testing.xls : untuk menguji model
• Data di atas terpisah dengan perbandingan data testing (10%) dan data
training (90%)
• Jadikan data training sebagai pembentuk model/pola/knowledge, dan data
testing untuk pengujian model
• Ukur performance
Metode Cross - Validation
• Metode cross - validation digunakan untuk menghindari overlapping
pada testing
• Tahapan cross – validation:
1. Bagi data menjadi k subset yang berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya untuk data training
• Disebut juga dengan k-fold cross – validation
• Seringkalai subset dibuat stratified (bertingkat) sebelum cross –
validation dilakukan, karena stratifikasi akan mengurangi variansi dan
estimasi
10 Fold Cross - Validation

Orange : k-subset (data testing)


10 Fold Cross - Validation
• Metode evaluasi standard: stratified 10-fold cross-validation
• Mengapa 10? Hasil dari berbagai percobaan yang ekstensif dan
pembuktian teoritis, menunjukkan bahwa 10-fold cross-validation
adalah pilihan terbaik untuk mendapatkan hasil validasi yang
akurat
• 10-fold cross-validation akan mengulang pengujian sebanyak 10
kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali
pengujian
Latihan : Prediksi Elektabilitas Caleg

• Lakukan training pada data pemilu (datapemilukpu.xls)


• Lakukan pengujian dengan menggunakan 10-fold X validation
• Ukur performance-nya dengan confusion matrix dan ROC Curve
• Lakukan uji coba, ubah algoritma menjadi Naïve Bayes, k-NN,
Random Forest (RF), Logistic Regression (LogR) analisis
algoritma mana yang menghasilkan model yang lebih baik
(akurasi tinggi)
Latihan : Komparasi Prediksi Harga Saham

• Gunakan dataset harga saham (hargasaham-training.xls)


• Lakukan pengujian dengan 10-fold X Validation
• Lakukan ujicoba dengan mengganti algoritma (GLM, LR, NN,
DL, SVM) catat hasil RMSE yang keluar

Anda mungkin juga menyukai