0% menganggap dokumen ini bermanfaat (0 suara)
36 tayangan41 halaman

Data Mining Pertemuan

Diunggah oleh

Dina Angelina
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
36 tayangan41 halaman

Data Mining Pertemuan

Diunggah oleh

Dina Angelina
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 41

Government

GTA Transformation
Academy

Preprocessing
Model Estimasi, Klasifikasi, Evaluasi
Data Preprocessing/Persiapan Data

1. Data Cleaning : jika di suatu data terdapat atribut yg banyak


missing value atau yg sangat berpengaruh, dapat dihilangkan,
dapat diganti dengan data yg lebih representative
2. Data Reduction: ada data yg perlu dihilangkan
3. Data Transformation and Data Discretization: merubah data ke
type2 data yg sesuai dengan data yg kita miliki
4. Data Integration: menggabungkan bbrp data yg kita butuhkan
Data Preprocessing

Mengapa data di proses di awal?

Pembersihan data
Mengapa Data diproses di awal?

Data dalam dunia nyata kotor


• Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang
dipentingkan tidak disertakan, atau hanya memuat data
agregasi
Misal, pekerjaan=“”
• Noisy: memuat error atau memuat outliers (data yang secara
nyata berbeda dengan data-data yang lain)
Misal, Salary=“-10”
Mengapa Data diproses di awal?
• Tak-konsisten: memuat perbedaan dalam kode atau nama
Misal, Age=“42” Birthday=“03/07/1997”
Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
Misal, perbedaan antara duplikasi record
• Data yang lebih baik akan menghasilkan data mining yang
lebih baik
• Data preprocessing membantu didalam memperbaiki presisi
dan kinerja data mining dan mencegah kesalahan didalam
data mining.
Mengapa Data Kotor?
• Ketidaklengkapan data datang dari
1. Nilai data tidak tersedia saat dikumpulkan
2. Perbedaan pertimbangan waktu antara saat data dikumpulkan dan
saat data dianalisa.
3. Masalah manusia, hardware, dan software
• Noisy data datang dari proses data
1. Pengumpulan
2. Pemasukan (entry)
3. Transmisi
• Ketidakkonsistenan data datang dari
1. Sumber data yang berbeda
2. Pelanggaran kebergantungan fungsional
Mengapa Pemrosesan Awal Data Penting?

• Kualitas keputusan harus didasarkan kepada kualitas data


Misal, duplikasi data atau data hilang bias menyebabkan
ketidakbenaran atau bahkan statistik yang menyesatkan.
• Data warehouse memerlukan kualitas integrasi data yang konsisten
Pengukuran Kualitas Data Multidimensi
Kualitas data dapat diakses dalam bentuk:
• Akurasi
• Kelengkapan
• Konsistensi
• Ketepatan waktu
• Kepercayaan
• Nilai tambah
• Penafsiran
• Kemudahan diakses
Major Tasks in Data Preprocessing
1. Data cleaning
 Fill in missing values
 Smooth noisy data
 Identify or remove outliers
 Resolve inconsistencies
2. Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
3. Data transformation and data discretization
 Normalization
 Concept hierarchy generation
4. Data integration
 Integration of multiple databases or files
Tugas Utama Pemrosesan Awal Data
• Pembersihan data (data yang kotor)
 Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau
menghilangkan outlier, dan memecahkan ketidakkonsistenan
• Integrasi data (data heterogen)
 Integrasi banyak database, banyak kubus data, atau banyak file
• Transformasi data (data detail)
 Normalisasi dan agregasi
• Reduksi data (jumlah data yang besar)
 Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil
analitikal yang sama atau mirip
• Diskritisasi data (kesinambungan atribut)
 Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data numerik
Data Preparation Law

“Data preparation is more than half of every data mining process


Persiapan data lebih dari setengah proses dari Data Mining”
Contoh Missing Data

Dataset: Missingdataset.csv
Bagaimana Mengolah Missing Data?
• Ignore the tuple
• Fill in the missing value manually
• Melelahkan dan tidak mungkin
• Fill in it automatically with
• A global constant
• The attribute mean : nilai rata2 attribute yg memiliki missing value
• The most probable value: nilai missing value diganti dengan data yg paling banyak
muncul
MissingDataset.csv
• Jerry is the marketing manager for a small Internet design and advertising firm
• Jerry’s boss asks him to develop a data set containing information about Internet users
• The company will use this data to determine what kinds of people are using the Internet
and how the firm may be able to market their services to this group of users
• To accomplish his assignment, Jerry creates an online survey and places links to the
survey on several popular Web sites
• Within two weeks, Jerry has collected enough data to begin analysis, but he finds that
his data needs to be denormalized
• He also notes that some observations in the set are missing values or they appear to
contain invalid values
• Jerry realizes that some additional work on the data needs to take place before analysis
begins.
Latihan Preprocessing dengan Rapidminer
• Membuang dataset yang missing
(menggunakan replace missing value) (menggunakan filter example)
Noisy Data
• Noise: random error or variance in a measured variable
• Incorrect attribute values may be due to
• Faulty data collection instruments
• Data entry problems
• Data transmission problems
• Technology limitation
• Inconsistency in naming convention
• Other data problems which require data cleaning
• Duplicate records
• Incomplete data
• Inconsistent data
How to Handle Noisy Data?
• Binning
• First sort data and partition into (equal-frequency) bins
• Then one can smooth by bin means, smooth by bin median, smooth by bin
boundaries, etc.
• Regression
• Smooth by fitting the data into regression functions
• Clustering
• Detect and remove outliers
• Combined computer and human inspection
• Detect suspicious values and check by human (e.g., deal with possible outliers)
Latihan Preprocessing dengan Rapidminer
• Membuang dataset yang noisy (menggunakan replace),(menggunakan regex)
(menggunakan map)
• Impor data MissingData-Noisy.csv
• Gunakan Regular Expression (operator Replace) untuk mengganti semua noisy data
pada atribut nominal menjadi “N”

• Impor data MissingData-Noisy-Multiple.csv


• Gunakan operator Replace Missing Value untuk mengisi data kosong
• Gunakan Regular Expression (operator Replace) untuk mengganti semua noisy data
pada atribut nominal menjadi “N”
• Gunakan operator Map untuk mengganti semua isian Face, FB dan Fesbuk menjadi
Facebook
Latihan Preprocessing dengan Rapidminer
Data Reduction Methods
• Data Reduction
 Obtain a reduced representation of the data set that is much smaller in volume but yet produces the
same analytical results
• Why Data Reduction?
 A database/data warehouse may store terabytes of data
 Complex data analysis take a very long time to run on the complete dataset
• Data Reduction Methods
1. Dimensionality Reduction
 Feature Extraction
 Feature Selection
1. Filter Approach
2. Wrapper Approach
3. Embedded Approach
2. Numerosity Reduction (Data Reduction)
 Regression and Log-Linear Models
 Histograms, clustering, samplings
Dimensionality Reduction
• Curse of dimensionality
 When dimensionality increases, data becomes increasingly sparse
 Density and distance between points, which is critical to clustering, outlier analysis,
becomes less meaningful
 The possible combinations of subspaces will grow exponentially
• Dimensionality reduction
 Avoid the curse of dimensionality
 Help eliminate irrelevant features and reduce noise
 Reduce time and space required in data mining
 Allow easier visualization
• Dimensionality Reduction Methods:
1. Feature Extraction: Wavelet transforms, Principal Component Analysis (PCA)
2. Feature Selection: Filter, Wrapper, Embedded
Principal Component Analysis (Steps)
• Given N data vectors from n-dimensions, find k ≤ n orthogonal vectors (principal
components) that can be best used to represent data
1. Normalize input data: Each attribute falls within the same range
2. Compute k orthonormal (unit) vectors, i.e., principal components
3. Each input data (vector) is a linear combination of the k principal component vectors
4. The principal components are sorted in order of decreasing “significance” or strength
5. Since the components are sorted, the size of the data can be reduced by eliminating the
weak components, i.e., those with low variance
• Works for numeric data only
Latihan Feature Extraction
• Dataset : glass.data
• Gunakan Feature Extraction menggunakan PCA (Principal Component Analysis)
• Kemudian bandingkan antara Algoritma yang menggunakan PCA dan yang tanpa
menggunakan PCA
Feature/Attribute Selection
• Another way to reduce dimensionality of data
• Redundant attributes
 Duplicate much or all of the information contained in one or more other attributes
 E.g., purchase price of a product and the amount of sales tax paid
• Irrelevant attributes
 Contain no information that is useful for the data mining task at hand
 E.g., students' ID is often irrelevant to the task of predicting students' GPA
Feature Selection Approach
A number of proposed approaches for feature selection can broadly be
categorized into the following three classifications: wrapper, filter, and embedded
(Liu & Tu, 2004)
1. In the filter approach, statistical analysis of the feature set is required, without
utilizing any learning model (Dash & Liu, 1997)
2. In the wrapper approach, a predetermined learning model is assumed,
wherein features are selected that justify the learning performance of the
particular learning model (Guyon & Elisseeff, 2003)
3. The embedded approach attempts to utilize the complementary strengths of
the wrapper and filter approaches (Huang, Cai, & Xu, 2007)
Wrapper Approach vs Filter Approach
Feature Selection Approach
1. Filter Approach:
• information gain
• chi square
• log likehood rasio
• Etc
2. Wrapper Approach:
• forward selection
• backward elimination
• randomized hill climbing
• Etc
3. Embedded Approach:
• decision tree
• weighted naïve bayes
• etc
Latihan Feature Selection
• Dataset : glass.data
• Gunakan Feature Selection dengan mengganti PCA (Principal Component Analysis) dengan
misalnya information gain, Chi squared etc
Peran Utama Data Mining

1. Estimasi

5. Asosiasi 2. Forcesting
Data Mining Roles
(Larose, 2005)
4. Klastering 3. Klasifikasi
Proses Data Mining
Evaluasi Kinerja Model Data Mining
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
4. Clustering:
Internal Evaluation: Davies–Bouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index,
Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
Evaluasi Model Data Mining
• Pembagian dataset, perbandingan 90:10 atau 80:20 :
• Data Training
• Data Testing

• Data Training untuk pembentukan model, dan data testing digunakan untuk
pengujian model

• Pemisahan data training dan testing


1. Data dipisahkan secara manual
2. Data dipisahkan otomatis dengan operator Split Data
3. Data dipisahkan otomatis dengan X Validation
Latihan : Penentuan Kelayakan Kredit
• Gunakan dataset di bawah :
• creditapproval-training.xls : untuk membuat model
• creditapproval-testing.xls : untuk menguji model
• Data di atas terpisah dengan perbandingan : data testing (10%) dan data
training (90%)
• Data training sebagai pembentuk model, dan data testing untuk pengujian
model, ukur performancenya
Confusion Matrix = Accuracy
FP
TN

pred MACET – true Macet : Jumlah data yang diprediksi macet dan kenyataannya macet (TP) TP
pred LANCAR – true LANCAR : Jumlah data yang diprediksi lancar dan kenyataannya lancar (TN)
pred MACET – true LANCAR : Jumlah data yang diprediksi macet dan kenyataannya lancer (FP) FN
pred LANCAR – true MACET : Jumlah data yang diprediksi lancer tapi kenyataannya macet (FN)


𝑇𝑃 +𝑇𝑁 52+ 38 90
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = =90 %
𝑇𝑃 +𝑇𝑁 + 𝐹𝑃+ 𝐹𝑁 52+38+ 3+7 100 ❑
Guide for Classifying the AUC

1. 0.90 – 1.00 = excellent classification


2. 0.80 – 0.90 = good classification
3. 0.70 – 0.80 = fair classification
4. 0.60 – 0.70 = poor classification
5. 0.50 – 0.60 = failure

(Gorunescu, 2011)
Latihan : Prediksi Harga Saham

• Gunakan dataset di bawah :


• hargasaham-training.xls : untuk membuat model
• hargasaham-testing.xls : untuk menguji model
• Data di atas terpisah dengan perbandingan data testing (10%) dan data
training (90%)
• Jadikan data training sebagai pembentuk model/pola/knowledge, dan data
testing untuk pengujian model
• Ukur performance
Metode Cross - Validation
• Metode cross - validation digunakan untuk menghindari overlapping
pada testing
• Tahapan cross – validation:
1. Bagi data menjadi k subset yang berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya untuk data training
• Disebut juga dengan k-fold cross – validation
• Seringkalai subset dibuat stratified (bertingkat) sebelum cross –
validation dilakukan, karena stratifikasi akan mengurangi variansi dan
estimasi
10 Fold Cross - Validation

Orange : k-subset (data testing)


10 Fold Cross - Validation
• Metode evaluasi standard: stratified 10-fold cross-validation
• Mengapa 10? Hasil dari berbagai percobaan yang ekstensif dan
pembuktian teoritis, menunjukkan bahwa 10-fold cross-validation
adalah pilihan terbaik untuk mendapatkan hasil validasi yang
akurat
• 10-fold cross-validation akan mengulang pengujian sebanyak 10
kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali
pengujian
Latihan : Prediksi Elektabilitas Caleg

• Lakukan training pada data pemilu (datapemilukpu.xls)


• Lakukan pengujian dengan menggunakan 10-fold X validation
• Ukur performance-nya dengan confusion matrix dan ROC Curve
• Lakukan uji coba, ubah algoritma menjadi Naïve Bayes, k-NN,
Random Forest (RF), Logistic Regression (LogR) analisis
algoritma mana yang menghasilkan model yang lebih baik
(akurasi tinggi)
Latihan : Komparasi Prediksi Harga Saham

• Gunakan dataset harga saham (hargasaham-training.xls)


• Lakukan pengujian dengan 10-fold X Validation
• Lakukan ujicoba dengan mengganti algoritma (GLM, LR, NN,
DL, SVM) catat hasil RMSE yang keluar

Anda mungkin juga menyukai