Data Mining Pertemuan

Diunggah oleh

Dina Angelina

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

56 tayangan31 halaman

Data Mining Pertemuan

Diunggah oleh

Dina Angelina

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 31

Government

GTA Transformation
Academy

Preprocessing
Model Estimasi, Klasifikasi, Evaluasi
Data Preprocessing/Persiapan Data

1. Data Cleaning
2. Data Reduction
3. Data Transformation and Data Discretization
4. Data Integration
Data Preprocessing

Mengapa data di proses di awal?

Pembersihan data
Mengapa Data diproses di awal?

Data dalam dunia nyata kotor

• Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang
dipentingkan tidak disertakan, atau hanya memuat data
agregasi
Misal, pekerjaan=“”
• Noisy: memuat error atau memuat outliers (data yang secara
nyata berbeda dengan data-data yang lain)
Misal, Salary=“-10”
Mengapa Data diproses di awal?
• Tak-konsisten: memuat perbedaan dalam kode atau nama
Misal, Age=“42” Birthday=“03/07/1997”
Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
Misal, perbedaan antara duplikasi record
• Data yang lebih baik akan menghasilkan data mining yang
lebih baik
• Data preprocessing membantu didalam memperbaiki presisi
dan kinerja data mining dan mencegah kesalahan didalam
data mining.
Mengapa Data Kotor?
• Ketidaklengkapan data datang dari
1. Nilai data tidak tersedia saat dikumpulkan
2. Perbedaan pertimbangan waktu antara saat data dikumpulkan dan
saat data dianalisa.
3. Masalah manusia, hardware, dan software
• Noisy data datang dari proses data
1. Pengumpulan
2. Pemasukan (entry)
3. Transmisi
• Ketidakkonsistenan data datang dari
1. Sumber data yang berbeda
2. Pelanggaran kebergantungan fungsional
Mengapa Pemrosesan Awal Data Penting?

• Kualitas keputusan harus didasarkan kepada kualitas data

Misal, duplikasi data atau data hilang bias menyebabkan
ketidakbenaran atau bahkan statistik yang menyesatkan.
• Data warehouse memerlukan kualitas integrasi data yang konsisten
Pengukuran Kualitas Data Multidimensi
Kualitas data dapat diakses dalam bentuk:
• Akurasi
• Kelengkapan
• Konsistensi
• Ketepatan waktu
• Kepercayaan
• Nilai tambah
• Penafsiran
• Kemudahan diakses
Major Tasks in Data Preprocessing
1. Data cleaning
 Fill in missing values
 Smooth noisy data
 Identify or remove outliers
 Resolve inconsistencies
2. Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
3. Data transformation and data discretization
 Normalization
 Concept hierarchy generation
4. Data integration
 Integration of multiple databases or files
Tugas Utama Pemrosesan Awal Data
• Pembersihan data (data yang kotor)
 Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau
menghilangkan outlier, dan memecahkan ketidakkonsistenan
• Integrasi data (data heterogen)
 Integrasi banyak database, banyak kubus data, atau banyak file
• Transformasi data (data detail)
 Normalisasi dan agregasi
• Reduksi data (jumlah data yang besar)
 Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil
analitikal yang sama atau mirip
• Diskritisasi data (kesinambungan atribut)
 Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data numerik
Data Preparation Law

“Data preparation is more than half of every data mining process

Persiapan data lebih dari setengah proses dari Data Mining”
Contoh Missing Data

Dataset: Missingdataset.csv
Bagaimana Mengolah Missing Data?
• Ignore the tuple
• Fill in the missing value manually
• Melelahkan dan tidak mungkin
• Fill in it automatically with
• A global constant
• The attribute mean
• The most probable value
MissingDataset.csv
• Jerry is the marketing manager for a small Internet design and advertising firm
• Jerry’s boss asks him to develop a data set containing information about Internet users
• The company will use this data to determine what kinds of people are using the Internet
and how the firm may be able to market their services to this group of users
• To accomplish his assignment, Jerry creates an online survey and places links to the
survey on several popular Web sites
• Within two weeks, Jerry has collected enough data to begin analysis, but he finds that
his data needs to be denormalized
• He also notes that some observations in the set are missing values or they appear to
contain invalid values
• Jerry realizes that some additional work on the data needs to take place before analysis
begins.
Latihan Preprocessing dengan Rapidminer
• Membuang dataset yang missing
(menggunakan filter example)
(menggunakan replace missing value)
Noisy Data
• Noise: random error or variance in a measured variable
• Incorrect attribute values may be due to
• Faulty data collection instruments
• Data entry problems
• Data transmission problems
• Technology limitation
• Inconsistency in naming convention
• Other data problems which require data cleaning
• Duplicate records
• Incomplete data
• Inconsistent data
How to Handle Noisy Data?
• Binning
• First sort data and partition into (equal-frequency) bins
• Then one can smooth by bin means, smooth by bin median, smooth by bin
boundaries, etc.
• Regression
• Smooth by fitting the data into regression functions
• Clustering
• Detect and remove outliers
• Combined computer and human inspection
• Detect suspicious values and check by human (e.g., deal with possible outliers)
Latihan Preprocessing dengan Rapidminer
• Membuang dataset yang noisy (menggunakan replace),(menggunakan regex)
(menggunakan map)
• Impor data MissingData-Noisy.csv
• Gunakan Regular Expression (operator Replace) untuk mengganti semua noisy data
pada atribut nominal menjadi “N”

• Impor data MissingData-Noisy-Multiple.csv

• Gunakan operator Replace Missing Value untuk mengisi data kosong
• Gunakan Regular Expression (operator Replace) untuk mengganti semua noisy data
pada atribut nominal menjadi “N”
• Gunakan operator Map untuk mengganti semua isian Face, FB dan Fesbuk menjadi
Facebook
Peran Utama Data Mining

1. Estimasi

5. Asosiasi 2. Forcesting
Data Mining Roles
(Larose, 2005)
4. Klastering 3. Klasifikasi
Proses Data Mining
Evaluasi Kinerja Model Data Mining
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
4. Clustering:
Internal Evaluation: Davies–Bouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index,
Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
Evaluasi Model Data Mining
• Pembagian dataset, perbandingan 90:10 atau 80:20 :
• Data Training
• Data Testing

• Data Training untuk pembentukan model, dan data testing digunakan untuk
pengujian model

• Pemisahan data training dan testing

1. Data dipisahkan secara manual
2. Data dipisahkan otomatis dengan operator Split Data
3. Data dipisahkan otomatis dengan X Validation
Latihan : Penentuan Kelayakan Kredit
• Gunakan dataset di bawah :
• creditapproval-training.xls : untuk membuat model
• creditapproval-testing.xls : untuk menguji model
• Data di atas terpisah dengan perbandingan : data testing (10%) dan data
training (90%)
• Data training sebagai pembentuk model, dan data testing untuk pengujian
model, ukur performancenya
Confusion Matrix = Accuracy
FP
TN

pred MACET – true Macet : Jumlah data yang diprediksi macet dan kenyataannya macet (TP) TP
pred LANCAR – true LANCAR : Jumlah data yang diprediksi lancar dan kenyataannya lancar (TN)
pred MACET – true LANCAR : Jumlah data yang diprediksi macet dan kenyataannya lancer (FP) FN
pred LANCAR – true MACET : Jumlah data yang diprediksi lancer tapi kenyataannya macet (FN)

❑
𝑇𝑃 +𝑇𝑁 52+ 38 90
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = =90 %
𝑇𝑃 +𝑇𝑁 + 𝐹𝑃+ 𝐹𝑁 52+38+ 3+7 100 ❑
Guide for Classifying the AUC

1. 0.90 – 1.00 = excellent classification

2. 0.80 – 0.90 = good classification
3. 0.70 – 0.80 = fair classification
4. 0.60 – 0.70 = poor classification
5. 0.50 – 0.60 = failure

(Gorunescu, 2011)
Latihan : Prediksi Harga Saham

• Gunakan dataset di bawah :

• hargasaham-training.xls : untuk membuat model
• hargasaham-testing.xls : untuk menguji model
• Data di atas terpisah dengan perbandingan data testing (10%) dan data
training (90%)
• Jadikan data training sebagai pembentuk model/pola/knowledge, dan data
testing untuk pengujian model
• Ukur performance
Metode Cross - Validation
• Metode cross - validation digunakan untuk menghindari overlapping
pada testing
• Tahapan cross – validation:
1. Bagi data menjadi k subset yang berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya untuk data training
• Disebut juga dengan k-fold cross – validation
• Seringkalai subset dibuat stratified (bertingkat) sebelum cross –
validation dilakukan, karena stratifikasi akan mengurangi variansi dan
estimasi
10 Fold Cross - Validation

Orange : k-subset (data testing)

10 Fold Cross - Validation
• Metode evaluasi standard: stratified 10-fold cross-validation
• Mengapa 10? Hasil dari berbagai percobaan yang ekstensif dan
pembuktian teoritis, menunjukkan bahwa 10-fold cross-validation
adalah pilihan terbaik untuk mendapatkan hasil validasi yang
akurat
• 10-fold cross-validation akan mengulang pengujian sebanyak 10
kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali
pengujian
Latihan : Prediksi Elektabilitas Caleg

• Lakukan training pada data pemilu (datapemilukpu.xls)

• Lakukan pengujian dengan menggunakan 10-fold X validation
• Ukur performance-nya dengan confusion matrix dan ROC Curve
• Lakukan uji coba, ubah algoritma menjadi Naïve Bayes, k-NN,
Random Forest (RF), Logistic Regression (LogR) analisis
algoritma mana yang menghasilkan model yang lebih baik
(akurasi tinggi)
Latihan : Komparasi Prediksi Harga Saham

• Gunakan dataset harga saham (hargasaham-training.xls)

• Lakukan pengujian dengan 10-fold X Validation
• Lakukan ujicoba dengan mengganti algoritma (GLM, LR, NN,
DL, SVM) catat hasil RMSE yang keluar

Anda mungkin juga menyukai

Data Prepocessing Rapidminer
Belum ada peringkat
Data Prepocessing Rapidminer
61 halaman
Pertemuan 5 - Business Understanding Dan Data Preparation
100% (1)
Pertemuan 5 - Business Understanding Dan Data Preparation
13 halaman
Pertemuan 2 - Data Understanding
Belum ada peringkat
Pertemuan 2 - Data Understanding
45 halaman
M4 PSD Merged
Belum ada peringkat
M4 PSD Merged
112 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
Modul-8-Penentuan Objek Dan Pembersihan Data-Template Bahan Ajar TA DTS 2021-IMW
Belum ada peringkat
Modul-8-Penentuan Objek Dan Pembersihan Data-Template Bahan Ajar TA DTS 2021-IMW
88 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman
M2-2 Proses 1
100% (1)
M2-2 Proses 1
114 halaman
Data Mining - 05
Belum ada peringkat
Data Mining - 05
141 halaman
PERTEMUAN VI Preprocessing Data
Belum ada peringkat
PERTEMUAN VI Preprocessing Data
45 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
73 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
29 halaman
Materi Data Wrangling
Belum ada peringkat
Materi Data Wrangling
50 halaman
Minggu 5
Belum ada peringkat
Minggu 5
25 halaman
Pertemuan 3
Belum ada peringkat
Pertemuan 3
114 halaman
Week6 - Data Preprocessing
Belum ada peringkat
Week6 - Data Preprocessing
20 halaman
Pertemuan 3 - Preprocessing Data
Belum ada peringkat
Pertemuan 3 - Preprocessing Data
31 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Big Data III Data Preprocessing
Belum ada peringkat
Big Data III Data Preprocessing
25 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
41 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Data Mining P4
Belum ada peringkat
Data Mining P4
43 halaman
05 - Slides - Data Preparation
Belum ada peringkat
05 - Slides - Data Preparation
43 halaman
Part 5. KDD
Belum ada peringkat
Part 5. KDD
28 halaman
2 Preprocessing Data Karlisa
Belum ada peringkat
2 Preprocessing Data Karlisa
40 halaman
P Roses Data Mining
Belum ada peringkat
P Roses Data Mining
40 halaman
Pengertian Data, Jenis Dan Tipe Data
100% (1)
Pengertian Data, Jenis Dan Tipe Data
20 halaman
Data Mining Pertemuan 3
Belum ada peringkat
Data Mining Pertemuan 3
27 halaman
6 - 7705 - MIK620KJ101 - 042018 - PDF
Belum ada peringkat
6 - 7705 - MIK620KJ101 - 042018 - PDF
15 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Kuliah M4 Final
Belum ada peringkat
Kuliah M4 Final
62 halaman
Modul1 - Muhamad Aldo Fernanda - 064002000037
Belum ada peringkat
Modul1 - Muhamad Aldo Fernanda - 064002000037
20 halaman
Pertemuan 4 - Eksplorasi Data
Belum ada peringkat
Pertemuan 4 - Eksplorasi Data
19 halaman
Pertemuan 3 - Preprocessing Data
Belum ada peringkat
Pertemuan 3 - Preprocessing Data
31 halaman
Data Mining A - Laporan Tugas 2
Belum ada peringkat
Data Mining A - Laporan Tugas 2
14 halaman
Business Intelligent
Belum ada peringkat
Business Intelligent
15 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Minggu Ke 5 Algoritma Data Science: Business Understanding Dan Data Preparation Menggunakan Python
Belum ada peringkat
Minggu Ke 5 Algoritma Data Science: Business Understanding Dan Data Preparation Menggunakan Python
13 halaman
Data Pre
Belum ada peringkat
Data Pre
5 halaman
Data Pre
Belum ada peringkat
Data Pre
5 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Resume P1
Belum ada peringkat
Resume P1
4 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Processing Data Mining
Belum ada peringkat
Processing Data Mining
16 halaman
Tugas Mahasiswa Data Mining 1
Belum ada peringkat
Tugas Mahasiswa Data Mining 1
5 halaman
Data Warehouse and Business Intelligence: Kode Matkul: 255 SKS: 3 Sks Waktu: 150 Menit
Belum ada peringkat
Data Warehouse and Business Intelligence: Kode Matkul: 255 SKS: 3 Sks Waktu: 150 Menit
47 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Materi3 4
Belum ada peringkat
Materi3 4
15 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Modul Data Mining
Belum ada peringkat
Modul Data Mining
75 halaman
Paper Data Mining
Belum ada peringkat
Paper Data Mining
5 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Gede Thadeo Angga Kusuma - Tugas 3
Belum ada peringkat
Gede Thadeo Angga Kusuma - Tugas 3
8 halaman
Terjemahan Eurachem Bab4
Belum ada peringkat
Terjemahan Eurachem Bab4
4 halaman
Penataan PD PP 72 TH 2019
Belum ada peringkat
Penataan PD PP 72 TH 2019
21 halaman
Surat Edaran Srikandi Fix2
Belum ada peringkat
Surat Edaran Srikandi Fix2
2 halaman
Hasil Sidang Ke-12 ISO-TC 207 Environmental Management Di Bu
Belum ada peringkat
Hasil Sidang Ke-12 ISO-TC 207 Environmental Management Di Bu
8 halaman
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
4/5 (16)