DATA MINING P5 Fix
DATA MINING P5 Fix
1
Latihan: Rekomendasi Contact Lenses
1. Lakukan training pada data Contact Lenses (contact-lenses.xls)
dengan menggunakan algoritma decision tree
2. Gunakan operator Read Excel (on the fly) atau langsung
menggunakan fitur Import Data (persistent)
3. Tampilkan himpunan data (dataset) dan pengetahuan (model
tree) yang terbentuk
2
Read Excel Operator
3
Import Data Function
4
Latihan: Estimasi Performance
CPU
1. Lakukan training pada data CPU (cpu.xls) dengan
menggunakan algoritma linear regression
2. Lakukan pengujian terhadap data baru (cpu-
testing.xls), untuk model yang dihasilkan dari
tahapan 1. Data baru berisi 10 setting konfigurasi,
yang belum diketahui berapa performancenya
3. Amati hasil estimasi performance dari 10 setting
konfigurasi di atas
5
Estimasi Performace cpu-testing.xls
cpu.xls
7
Proses Prediksi Elektabilitas
Caleg
8
Latihan: Estimasi Konsumsi Minyak
1. Lakukan training pada data konsumsi minyak (HeatingOil.csv)
• Dataset jumlah konsumsi minyak untuk alat pemanas ruangan di
rumah pertahun perrumah
• Atribut:
• Insulation: Ketebalan insulasi rumah
• Temperatur: Suhu udara sekitar rumah
• Heating Oil: Jumlah konsumsi minyak pertahun perrumah
• Number of Occupant: Jumlah penghuni rumah
• Average Age: Rata-rata umur penghuni rumah
• Home Size: Ukuran rumah
2. Gunakan operator Set Role untuk memilih Label (Heating Oil),
tidak langsung dipilih pada saat Import Data
3. Pilih metode yang tepat supaya menghasilkan model
4. Apply model yang dihasilkan ke data pelanggan baru di file
HeatingOil-Scoring.csv, supaya kita bisa mengestimasi berapa
kebutuhan konsumsi minyak mereka, untuk mengatur stok
penjualan minyak
9
Proses Estimasi Konsumsi
Minyak
10
Latihan: Matrix Correlation Konsumsi Minyak
Jumlah
Penghuni
Rumah
Rata-Rata 0.381
Umur 0.848
Konsumsi
Ketebalan 0.736 Minyak
Insulasi
Rumah
-0.774
Temperatur
13
Latihan: Aturan Asosiasi Data Transaksi
14
15
Latihan: Klasifikasi Data Kelulusan Mahasiswa
21
Parameter dari Windowing
• Window size: Determines how many “attributes”
are created for the cross-sectional data
• Each row of the original time series within the window
width will become a new attribute
• We choose w = 6
• Step size: Determines how to advance the window
• Let us use s = 1
• Horizon: Determines how far out to make the
forecast
• If the window size is 6 and the horizon is 1, then the
seventh row of the original time series becomes the first
sample for the “label” variable
• Let us use h = 1
22
Latihan
• Lakukan training dengan menggunakan
linear regression pada dataset hargasaham-
training-uni.xls
• Gunakan Split Data untuk memisahkan
dataset di atas, 90% training dan 10% untuk
testing
• Harus dilakukan proses Windowing pada
dataset
• Plot grafik antara label dan hasil prediksi
dengan menggunakan chart
23
Forecasting Harga Saham (Data Lampau)
24
Forecasting Harga Saham (Data Masa Depan)
25
26
Latihan: Penentuan Kelayakan Kredi
27
Latihan: Deteksi Kanker
Payudara
1. Lakukan training pada data kanker payudara
(breasttissue.xls)
29
Latihan: Klasifikasi Resiko Kredit
1. Lakukan training pada data resiko kredit
(CreditRisk.csv)
(http://romisatriawahono.net/lecture/dm/dataset/)
30
Latihan: Klasifikasi Music Genre
1. Lakukan training pada data Music Genre
(musicgenre-small.csv)
31