Data Mining Pertemuan

Diunggah oleh

Dina Angelina

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

36 tayangan41 halaman

Data Mining Pertemuan

Diunggah oleh

Dina Angelina

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 41

Government

GTA Transformation
Academy

Preprocessing
Model Estimasi, Klasifikasi, Evaluasi
Data Preprocessing/Persiapan Data

1. Data Cleaning : jika di suatu data terdapat atribut yg banyak

missing value atau yg sangat berpengaruh, dapat dihilangkan,
dapat diganti dengan data yg lebih representative
2. Data Reduction: ada data yg perlu dihilangkan
3. Data Transformation and Data Discretization: merubah data ke
type2 data yg sesuai dengan data yg kita miliki
4. Data Integration: menggabungkan bbrp data yg kita butuhkan
Data Preprocessing

Mengapa data di proses di awal?

Pembersihan data
Mengapa Data diproses di awal?

Data dalam dunia nyata kotor

• Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang
dipentingkan tidak disertakan, atau hanya memuat data
agregasi
Misal, pekerjaan=“”
• Noisy: memuat error atau memuat outliers (data yang secara
nyata berbeda dengan data-data yang lain)
Misal, Salary=“-10”
Mengapa Data diproses di awal?
• Tak-konsisten: memuat perbedaan dalam kode atau nama
Misal, Age=“42” Birthday=“03/07/1997”
Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
Misal, perbedaan antara duplikasi record
• Data yang lebih baik akan menghasilkan data mining yang
lebih baik
• Data preprocessing membantu didalam memperbaiki presisi
dan kinerja data mining dan mencegah kesalahan didalam
data mining.
Mengapa Data Kotor?
• Ketidaklengkapan data datang dari
1. Nilai data tidak tersedia saat dikumpulkan
2. Perbedaan pertimbangan waktu antara saat data dikumpulkan dan
saat data dianalisa.
3. Masalah manusia, hardware, dan software
• Noisy data datang dari proses data
1. Pengumpulan
2. Pemasukan (entry)
3. Transmisi
• Ketidakkonsistenan data datang dari
1. Sumber data yang berbeda
2. Pelanggaran kebergantungan fungsional
Mengapa Pemrosesan Awal Data Penting?

• Kualitas keputusan harus didasarkan kepada kualitas data

Misal, duplikasi data atau data hilang bias menyebabkan
ketidakbenaran atau bahkan statistik yang menyesatkan.
• Data warehouse memerlukan kualitas integrasi data yang konsisten
Pengukuran Kualitas Data Multidimensi
Kualitas data dapat diakses dalam bentuk:
• Akurasi
• Kelengkapan
• Konsistensi
• Ketepatan waktu
• Kepercayaan
• Nilai tambah
• Penafsiran
• Kemudahan diakses
Major Tasks in Data Preprocessing
1. Data cleaning
 Fill in missing values
 Smooth noisy data
 Identify or remove outliers
 Resolve inconsistencies
2. Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
3. Data transformation and data discretization
 Normalization
 Concept hierarchy generation
4. Data integration
 Integration of multiple databases or files
Tugas Utama Pemrosesan Awal Data
• Pembersihan data (data yang kotor)
 Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau
menghilangkan outlier, dan memecahkan ketidakkonsistenan
• Integrasi data (data heterogen)
 Integrasi banyak database, banyak kubus data, atau banyak file
• Transformasi data (data detail)
 Normalisasi dan agregasi
• Reduksi data (jumlah data yang besar)
 Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil
analitikal yang sama atau mirip
• Diskritisasi data (kesinambungan atribut)
 Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data numerik
Data Preparation Law

“Data preparation is more than half of every data mining process

Persiapan data lebih dari setengah proses dari Data Mining”
Contoh Missing Data

Dataset: Missingdataset.csv
Bagaimana Mengolah Missing Data?
• Ignore the tuple
• Fill in the missing value manually
• Melelahkan dan tidak mungkin
• Fill in it automatically with
• A global constant
• The attribute mean : nilai rata2 attribute yg memiliki missing value
• The most probable value: nilai missing value diganti dengan data yg paling banyak
muncul
MissingDataset.csv
• Jerry is the marketing manager for a small Internet design and advertising firm
• Jerry’s boss asks him to develop a data set containing information about Internet users
• The company will use this data to determine what kinds of people are using the Internet
and how the firm may be able to market their services to this group of users
• To accomplish his assignment, Jerry creates an online survey and places links to the
survey on several popular Web sites
• Within two weeks, Jerry has collected enough data to begin analysis, but he finds that
his data needs to be denormalized
• He also notes that some observations in the set are missing values or they appear to
contain invalid values
• Jerry realizes that some additional work on the data needs to take place before analysis
begins.
Latihan Preprocessing dengan Rapidminer
• Membuang dataset yang missing
(menggunakan replace missing value) (menggunakan filter example)
Noisy Data
• Noise: random error or variance in a measured variable
• Incorrect attribute values may be due to
• Faulty data collection instruments
• Data entry problems
• Data transmission problems
• Technology limitation
• Inconsistency in naming convention
• Other data problems which require data cleaning
• Duplicate records
• Incomplete data
• Inconsistent data
How to Handle Noisy Data?
• Binning
• First sort data and partition into (equal-frequency) bins
• Then one can smooth by bin means, smooth by bin median, smooth by bin
boundaries, etc.
• Regression
• Smooth by fitting the data into regression functions
• Clustering
• Detect and remove outliers
• Combined computer and human inspection
• Detect suspicious values and check by human (e.g., deal with possible outliers)
Latihan Preprocessing dengan Rapidminer
• Membuang dataset yang noisy (menggunakan replace),(menggunakan regex)
(menggunakan map)
• Impor data MissingData-Noisy.csv
• Gunakan Regular Expression (operator Replace) untuk mengganti semua noisy data
pada atribut nominal menjadi “N”

• Impor data MissingData-Noisy-Multiple.csv

• Gunakan operator Replace Missing Value untuk mengisi data kosong
• Gunakan Regular Expression (operator Replace) untuk mengganti semua noisy data
pada atribut nominal menjadi “N”
• Gunakan operator Map untuk mengganti semua isian Face, FB dan Fesbuk menjadi
Facebook
Latihan Preprocessing dengan Rapidminer
Data Reduction Methods
• Data Reduction
 Obtain a reduced representation of the data set that is much smaller in volume but yet produces the
same analytical results
• Why Data Reduction?
 A database/data warehouse may store terabytes of data
 Complex data analysis take a very long time to run on the complete dataset
• Data Reduction Methods
1. Dimensionality Reduction
 Feature Extraction
 Feature Selection
1. Filter Approach
2. Wrapper Approach
3. Embedded Approach
2. Numerosity Reduction (Data Reduction)
 Regression and Log-Linear Models
 Histograms, clustering, samplings
Dimensionality Reduction
• Curse of dimensionality
 When dimensionality increases, data becomes increasingly sparse
 Density and distance between points, which is critical to clustering, outlier analysis,
becomes less meaningful
 The possible combinations of subspaces will grow exponentially
• Dimensionality reduction
 Avoid the curse of dimensionality
 Help eliminate irrelevant features and reduce noise
 Reduce time and space required in data mining
 Allow easier visualization
• Dimensionality Reduction Methods:
1. Feature Extraction: Wavelet transforms, Principal Component Analysis (PCA)
2. Feature Selection: Filter, Wrapper, Embedded
Principal Component Analysis (Steps)
• Given N data vectors from n-dimensions, find k ≤ n orthogonal vectors (principal
components) that can be best used to represent data
1. Normalize input data: Each attribute falls within the same range
2. Compute k orthonormal (unit) vectors, i.e., principal components
3. Each input data (vector) is a linear combination of the k principal component vectors
4. The principal components are sorted in order of decreasing “significance” or strength
5. Since the components are sorted, the size of the data can be reduced by eliminating the
weak components, i.e., those with low variance
• Works for numeric data only
Latihan Feature Extraction
• Dataset : glass.data
• Gunakan Feature Extraction menggunakan PCA (Principal Component Analysis)
• Kemudian bandingkan antara Algoritma yang menggunakan PCA dan yang tanpa
menggunakan PCA
Feature/Attribute Selection
• Another way to reduce dimensionality of data
• Redundant attributes
 Duplicate much or all of the information contained in one or more other attributes
 E.g., purchase price of a product and the amount of sales tax paid
• Irrelevant attributes
 Contain no information that is useful for the data mining task at hand
 E.g., students' ID is often irrelevant to the task of predicting students' GPA
Feature Selection Approach
A number of proposed approaches for feature selection can broadly be
categorized into the following three classifications: wrapper, filter, and embedded
(Liu & Tu, 2004)
1. In the filter approach, statistical analysis of the feature set is required, without
utilizing any learning model (Dash & Liu, 1997)
2. In the wrapper approach, a predetermined learning model is assumed,
wherein features are selected that justify the learning performance of the
particular learning model (Guyon & Elisseeff, 2003)
3. The embedded approach attempts to utilize the complementary strengths of
the wrapper and filter approaches (Huang, Cai, & Xu, 2007)
Wrapper Approach vs Filter Approach
Feature Selection Approach
1. Filter Approach:
• information gain
• chi square
• log likehood rasio
• Etc
2. Wrapper Approach:
• forward selection
• backward elimination
• randomized hill climbing
• Etc
3. Embedded Approach:
• decision tree
• weighted naïve bayes
• etc
Latihan Feature Selection
• Dataset : glass.data
• Gunakan Feature Selection dengan mengganti PCA (Principal Component Analysis) dengan
misalnya information gain, Chi squared etc
Peran Utama Data Mining

1. Estimasi

5. Asosiasi 2. Forcesting
Data Mining Roles
(Larose, 2005)
4. Klastering 3. Klasifikasi
Proses Data Mining
Evaluasi Kinerja Model Data Mining
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
4. Clustering:
Internal Evaluation: Davies–Bouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index,
Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
Evaluasi Model Data Mining
• Pembagian dataset, perbandingan 90:10 atau 80:20 :
• Data Training
• Data Testing

• Data Training untuk pembentukan model, dan data testing digunakan untuk
pengujian model

• Pemisahan data training dan testing

1. Data dipisahkan secara manual
2. Data dipisahkan otomatis dengan operator Split Data
3. Data dipisahkan otomatis dengan X Validation
Latihan : Penentuan Kelayakan Kredit
• Gunakan dataset di bawah :
• creditapproval-training.xls : untuk membuat model
• creditapproval-testing.xls : untuk menguji model
• Data di atas terpisah dengan perbandingan : data testing (10%) dan data
training (90%)
• Data training sebagai pembentuk model, dan data testing untuk pengujian
model, ukur performancenya
Confusion Matrix = Accuracy
FP
TN

pred MACET – true Macet : Jumlah data yang diprediksi macet dan kenyataannya macet (TP) TP
pred LANCAR – true LANCAR : Jumlah data yang diprediksi lancar dan kenyataannya lancar (TN)
pred MACET – true LANCAR : Jumlah data yang diprediksi macet dan kenyataannya lancer (FP) FN
pred LANCAR – true MACET : Jumlah data yang diprediksi lancer tapi kenyataannya macet (FN)

❑
𝑇𝑃 +𝑇𝑁 52+ 38 90
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = =90 %
𝑇𝑃 +𝑇𝑁 + 𝐹𝑃+ 𝐹𝑁 52+38+ 3+7 100 ❑
Guide for Classifying the AUC

1. 0.90 – 1.00 = excellent classification

2. 0.80 – 0.90 = good classification
3. 0.70 – 0.80 = fair classification
4. 0.60 – 0.70 = poor classification
5. 0.50 – 0.60 = failure

(Gorunescu, 2011)
Latihan : Prediksi Harga Saham

• Gunakan dataset di bawah :

• hargasaham-training.xls : untuk membuat model
• hargasaham-testing.xls : untuk menguji model
• Data di atas terpisah dengan perbandingan data testing (10%) dan data
training (90%)
• Jadikan data training sebagai pembentuk model/pola/knowledge, dan data
testing untuk pengujian model
• Ukur performance
Metode Cross - Validation
• Metode cross - validation digunakan untuk menghindari overlapping
pada testing
• Tahapan cross – validation:
1. Bagi data menjadi k subset yang berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya untuk data training
• Disebut juga dengan k-fold cross – validation
• Seringkalai subset dibuat stratified (bertingkat) sebelum cross –
validation dilakukan, karena stratifikasi akan mengurangi variansi dan
estimasi
10 Fold Cross - Validation

Orange : k-subset (data testing)

10 Fold Cross - Validation
• Metode evaluasi standard: stratified 10-fold cross-validation
• Mengapa 10? Hasil dari berbagai percobaan yang ekstensif dan
pembuktian teoritis, menunjukkan bahwa 10-fold cross-validation
adalah pilihan terbaik untuk mendapatkan hasil validasi yang
akurat
• 10-fold cross-validation akan mengulang pengujian sebanyak 10
kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali
pengujian
Latihan : Prediksi Elektabilitas Caleg

• Lakukan training pada data pemilu (datapemilukpu.xls)

• Lakukan pengujian dengan menggunakan 10-fold X validation
• Ukur performance-nya dengan confusion matrix dan ROC Curve
• Lakukan uji coba, ubah algoritma menjadi Naïve Bayes, k-NN,
Random Forest (RF), Logistic Regression (LogR) analisis
algoritma mana yang menghasilkan model yang lebih baik
(akurasi tinggi)
Latihan : Komparasi Prediksi Harga Saham

• Gunakan dataset harga saham (hargasaham-training.xls)

• Lakukan pengujian dengan 10-fold X Validation
• Lakukan ujicoba dengan mengganti algoritma (GLM, LR, NN,
DL, SVM) catat hasil RMSE yang keluar

Anda mungkin juga menyukai

Data Prepocessing Rapidminer
Belum ada peringkat
Data Prepocessing Rapidminer
61 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
BAB 3: Data Preprocessing: Mengapa Perlu Proses Awal Terhadap Data?
Belum ada peringkat
BAB 3: Data Preprocessing: Mengapa Perlu Proses Awal Terhadap Data?
42 halaman
Pengertian Data, Jenis Dan Tipe Data
100% (1)
Pengertian Data, Jenis Dan Tipe Data
20 halaman
Pertemuan 2 - Data Understanding
Belum ada peringkat
Pertemuan 2 - Data Understanding
45 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman
Pertemuan 3 - Preprocessing Data
Belum ada peringkat
Pertemuan 3 - Preprocessing Data
31 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
73 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Ringkasan UTS Data Mining
Belum ada peringkat
Ringkasan UTS Data Mining
23 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
Handout TIF311 DM 3
Belum ada peringkat
Handout TIF311 DM 3
36 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Data Mining 02
Belum ada peringkat
Data Mining 02
30 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
29 halaman
PERTEMUAN VI Preprocessing Data
Belum ada peringkat
PERTEMUAN VI Preprocessing Data
45 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Penataan PD PP 72 TH 2019
Belum ada peringkat
Penataan PD PP 72 TH 2019
21 halaman
Terjemahan Eurachem Bab4
Belum ada peringkat
Terjemahan Eurachem Bab4
4 halaman
Data Mining Pertemuan 3
Belum ada peringkat
Data Mining Pertemuan 3
27 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
31 halaman
Kuliah M4 Final
Belum ada peringkat
Kuliah M4 Final
62 halaman
Materi Data Wrangling
Belum ada peringkat
Materi Data Wrangling
50 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
P-4 Data Mining
Belum ada peringkat
P-4 Data Mining
57 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Week6 - Data Preprocessing
Belum ada peringkat
Week6 - Data Preprocessing
20 halaman
2 Preprocessing Data Karlisa
Belum ada peringkat
2 Preprocessing Data Karlisa
40 halaman
3 Teori - Preprocessing Data II
Belum ada peringkat
3 Teori - Preprocessing Data II
25 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Big Data III Data Preprocessing
Belum ada peringkat
Big Data III Data Preprocessing
25 halaman
Pertemuan 3 - Preprocessing Data
Belum ada peringkat
Pertemuan 3 - Preprocessing Data
31 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Surat Edaran Srikandi Fix2
Belum ada peringkat
Surat Edaran Srikandi Fix2
2 halaman
Slide Data Preprocessing
Belum ada peringkat
Slide Data Preprocessing
27 halaman
485 - Data Mining-P03
Belum ada peringkat
485 - Data Mining-P03
25 halaman
Pertemuan Ke 4 Data Processing
Belum ada peringkat
Pertemuan Ke 4 Data Processing
19 halaman
Pertemuan 8 Data Preprocessing
Belum ada peringkat
Pertemuan 8 Data Preprocessing
19 halaman
Materi 3 Pre Processing Data
Belum ada peringkat
Materi 3 Pre Processing Data
20 halaman
Hasil Sidang Ke-12 ISO-TC 207 Environmental Management Di Bu
Belum ada peringkat
Hasil Sidang Ke-12 ISO-TC 207 Environmental Management Di Bu
8 halaman
Processing Data Mining
Belum ada peringkat
Processing Data Mining
16 halaman
6 - 7705 - MIK620KJ101 - 042018 - PDF
Belum ada peringkat
6 - 7705 - MIK620KJ101 - 042018 - PDF
15 halaman
Materi3 4
Belum ada peringkat
Materi3 4
15 halaman
Business Intelligent
Belum ada peringkat
Business Intelligent
15 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Data Mining A - Laporan Tugas 2
Belum ada peringkat
Data Mining A - Laporan Tugas 2
14 halaman
Article Review 9 Data Preprocessing
Belum ada peringkat
Article Review 9 Data Preprocessing
9 halaman
Data Mining M.ridho New 2
Belum ada peringkat
Data Mining M.ridho New 2
9 halaman
Gede Thadeo Angga Kusuma - Tugas 3
Belum ada peringkat
Gede Thadeo Angga Kusuma - Tugas 3
8 halaman
JAWABAN
Belum ada peringkat
JAWABAN
5 halaman
Soal Tugas Pemrograman Visual
Belum ada peringkat
Soal Tugas Pemrograman Visual
7 halaman
Paper Data Mining
Belum ada peringkat
Paper Data Mining
5 halaman
Data Pre
Belum ada peringkat
Data Pre
5 halaman
Data Pre
Belum ada peringkat
Data Pre
5 halaman
Anesya Mahera - 20221026 - Ai A
Belum ada peringkat
Anesya Mahera - 20221026 - Ai A
4 halaman
Tugas Mahasiswa Data Mining 1
Belum ada peringkat
Tugas Mahasiswa Data Mining 1
5 halaman
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
4/5 (16)