1 Pengantar Data Mining 1
1 Pengantar Data Mining 1
1
Textbooks
2
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and
Techniques Third Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical
Machine Learning Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining
Use Cases and Business Analytics Applications, CRC Press Taylor &
Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction
to Data Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT
Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and
Techniques, Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge
Discovery Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances
in Data Mining of Enterprise Data: Algorithms and Applications,
World Scientific, 2007
3
Pre-Test
1. Jelaskan perbedaan antara data, informasi dan pengetahuan!
2. Jelaskan apa yang anda ketahui tentang data mining!
3. Sebutkan peran utama data mining!
4. Sebutkan pemanfaatan dari data mining di berbagai bidang!
5. Pengetahuan atau pola apa yang bisa kita dapatkan dari data
di bawah?
NIM Gender Nilai Asal IPS1 IPS2 IPS3 IPS 4 ... Lulus Tepat
UN Sekolah Waktu
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
10002 P 27 SMAN 7 4.0 3.2 3.8 3.7 Tidak
10003 P 24 SMAN 1 2.7 3.4 4.0 3.5 Tidak
10004 L 26.4 SMAN 3 3.2 2.7 3.6 3.4 Ya
...
11000 L 23.4 SMAN 5 3.3 2.8 3.1 3.2 Ya
4
1. Pengantar Data Mining
1.1 Apa itu Data Mining?
1.2 Peran Utama dan Metode Data Mining
1.3 Contoh Penerapan Data Mining
5
1.1 Apa itu Data Mining?
6
Manusia Memproduksi Data
7
Pertumbuhan Data
8
Perubahan Kultur dan Perilaku
9
kilobyte (kB) 103
Datangnya Tsunami Data megabyte (MB) 106
gigabyte (GB) 109
• Mobile Electronics market terabyte (TB) 1012
petabyte (PB) 1015
• 5B mobile phones in use in 2010 exabyte (EB) 1018
• 150M tablets was sold in 2012 (IDC) zettabyte (ZB) 1021
• 200M is global notebooks shipments in 2012 yottabyte (YB) 1024
(Digitimes Research)
• Web and Social Networks generates
amount of data
• Google processes 100 PB per day, 3 million servers
• Facebook has 300 PB of user data per day
• Youtube has 1000PB video storage
• 235 TBs data collected by the US Library of Congress
• 15 out of 17 sectors in the US have more data stored
per company than the US Library of Congress
10
Mengapa Data Mining?
11
Apa itu Data Mining?
12
Apa itu Data Mining?
• Disiplin ilmu yang mempelajari metode untuk
mengekstrak pengetahuan atau menemukan pola dari
suatu data yang besar
13
Apa Itu Data Mining?
14
Definisi Data Mining
• Melakukan ekstraksi untuk mendapatkan informasi
penting yang sifatnya implisit dan sebelumnya tidak
diketahui, dari suatu data (Witten et al., 2011)
15
• Pembersihan data (untuk menghilangkan noise dan data yang
tidak konsisten)
• Integrasi data (di mana beberapa sumber data dapat
dikombinasikan)
• Data selection (dimana data yang relevan untuk dianalisis pada
data base)
• Data transformasi (dimana data diubah atau dikonsolidasikan ke
bentuk yang tepat diuntuk pertambangan(mining) dengan
melakukan ringkasanatau digabungkan
• Data mining (proses esensial dimana metode cerdas diaplikasikan
untukmengekstrak pola data)
• Evaluasi Pola (untuk mengidentifikasi pola yang benar-benar
menarik yang mewakili pengetahuan berdasarkan beberapa
tindakan pengukuran yang menarik perhatian.
• Presentasi pengetahuan (di mana visualisasi dan pengetahuan
representasi techtehnik yang Digunakan untuk menyajikan
pengetahuan ditambang kepada pengguna)
16
Proses Data Mining
17
Data - Informasi – Pengetahuan
1103 22
1142 18 2 2
1156 10 1 11
1173 12 5 5
1180 10 12
Terlambat 7 0 1 0 5
Pulang 0 1 1 1 8
Cepat
Izin 3 0 0 1 4
Alpa 1 0 2 0 2
21
Data Mining pada Business Intelligence
Increasing potential
to support business
End User
decisions Decision
Making
Data Exploration
Statistical Summary, Querying, and Reporting
22
Hubungan dengan Berbagai Bidang
Computing
Statistics
Algorithms
Pattern Database
Recognition Technology
23
Masalah-Masalah di Data Mining
• Tremendous amount of data
• Algorithms must be highly scalable to handle such as tera-
bytes of data
• High-dimensionality of data
• Micro-array may have tens of thousands of dimensions
• High complexity of data
• Data streams and sensor data
• Time-series data, temporal data, sequence data
• Structure data, graphs, social networks and multi-linked data
• Heterogeneous databases and legacy databases
• Spatial, spatiotemporal, multimedia, text and Web data
• Software programs, scientific simulations
• New and sophisticated applications
24
Latihan
1. Jelaskan dengan kalimat sendiri apa
yang dimaksud dengan data mining?
25
1.2 Peran Utama Data Mining
26
Peran Utama Data Mining
1. Estimasi
5. Asosiasi 2. Prediksi
4. Klastering 3. Klasifikasi
27
Dataset (Himpunan Data)
Attribute/Feature Class/Label/Target
Record/
Object/
Sample/
Tuple
Nominal
Numerik
28
29
Jenis Atribut
30
Jenis Deskripsi Contoh Operasi
Tipe Data
Atribut
Ratio • Data yang diperoleh dengan • Umur geometric
(Mutlak) cara pengukuran, dimana jarak • Berat badan mean,
dua titik pada skala sudah • Tinggi badan harmonic
diketahui • Jumlah uang mean, percent
• Mempunyai titik nol yang variation
absolut
(*, /)
Interval • Data yang diperoleh dengan • Suhu 0°c-100°c, mean, standard
(Jarak) cara pengukuran, dimana jarak • Umur 20-30 deviation,
dua titik pada skala sudah tahun Pearson's
diketahui correlation, t
• Tidak mempunyai titik nol yang and F tests
absolut
(+, - )
Ordinal • Data yang diperoleh dengan • Tingkat kepuasan median,
(Peringkat cara kategorisasi atau pelanggan (puas, percentiles,
) klasifikasi sedang, tidak rank
• Tetapi diantara data tersebut puas) correlation, run
terdapat hubungan atau 31 tests, sign tests
Peran Utama Data Mining
1. Estimasi
5. Asosiasi 2. Prediksi
4. Klastering 3. Klasifikasi
32
1. Estimasi Waktu Pengiriman Pizza
Customer Jumlah Pesanan (P) Jumlah Traffic Light (TL) Jarak (J) Waktu Tempuh (T)
1 3 3 3 16
2 1 7 4 20
3 2 4 6 18 Label
4 4 6 8 36
...
1000 2 4 2 12
Pembelajaran dengan
Metode Estimasi (Regresi Linier)
34
Output/Pola/Model/Knowledge
1. Formula/Function (Rumus atau Fungsi Regresi)
• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
4. Rule (Aturan)
• IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
35
2. Prediksi Harga Saham
Label
Pembelajaran dengan
Metode Prediksi (Neural Network)
36
Pengetahuan berupa
Rumus Neural Network
Prediction Plot
37
3. Klasifikasi Kelulusan Mahasiswa
Label
NIM Gender Nilai Asal IPS1 IPS2 IPS3 IPS 4 ... Lulus
UN Sekolah Tepat
Waktu
10001 L 28 SMAN 2 3.3 3.6 2.89 2.9 Ya
39
Contoh: Rekomendasi Main Golf
• Input:
• Output (Rules):
If outlook = sunny and humidity = high then play = no
If outlook = rainy and windy = true then play = no
If outlook = overcast then play = yes
If humidity = normal then play = yes
If none of the above then play = yes
40
Contoh: Rekomendasi Main Golf
• Output (Tree):
41
Contoh: Rekomendasi Contact Lens
• Input:
42
Contoh: Rekomendasi Contact Lens
• Output/Model (Tree):
43
4. Klastering Bunga Iris
Dataset Tanpa Label
Pembelajaran dengan
Metode Klastering (K-Means)
44
Pengetahuan Berupa Klaster
45
5. Aturan Asosiasi Pembelian Barang
Pembelajaran dengan
Metode Asosiasi (FP-Growth)
46
Pengetahuan Berupa Aturan Asosiasi
47
Contoh Aturan Asosiasi
48
Metode Learning Pada Algoritma DM
49
1. Supervised Learning
50
Dataset dengan Class
Attribute/Feature Class/Label/Target
Nominal
Numerik
51
2. Unsupervised Learning
52
Dataset tanpa Class
Attribute/Feature
53
3. Semi-Supervised Learning
• Semi-supervised learning adalah metode data
mining yang menggunakan data dengan label dan
tidak berlabel sekaligus dalam proses
pembelajarannya
• Data yang memiliki kelas digunakan untuk
membentuk model (pengetahuan), data tanpa label
digunakan untuk membuat batasan antara kelas
54
3. Semi-Supervised Learning
55
Algoritma Data Mining (DM)
1. Estimation (Estimasi):
• Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
• Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):
• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):
• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
56
Output/Pola/Model/Knowledge
3. Tingkat Korelasi
4. Rule (Aturan)
• IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
57
Latihan
1. Sebutkan 5 peran utama data mining!
2. Jelaskan perbedaan estimasi dan prediksi!
3. Jelaskan perbedaan prediksi dan klasifikasi!
4. Jelaskan perbedaan klasifikasi dan klastering!
5. Jelaskan perbedaan klastering dan association!
6. Jelaskan perbedaan estimasi dan klasifikasi!
7. Jelaskan perbedaan estimasi dan klastering!
8. Jelaskan perbedaan supervised dan unsupervised
learning!
9. Sebutkan tahapan utama proses data mining!
58
1.3 Contoh Penerapan Data Mining
59
Contoh Penerapan Data Mining
• Penentuan kelayakan aplikasi peminjaman uang di bank
• Penentuan pasokan listrik PLN untuk wilayah Jakarta
• Prediksi profile tersangka koruptor dari data pengadilan
• Perkiraan harga saham dan tingkat inflasi
• Analisis pola belanja pelanggan
• Memisahkan minyak mentah dan gas alam
• Menentukan kelayakan seseorang dalam kredit KPR
• Penentuan pola pelanggan yang loyal pada perusahaan
operator telepon
• Deteksi pencucian uang dari transaksi perbankan
• Deteksi serangan (intrusion) pada suatu jaringan
60
61
Contoh (1)
• Anda seorang manajer marketing untuk
perusahaan telepon cellular:
– Pelanggan menerima sebuah telepon gratis (nilai
1.5 juta) dengan kontrak satu tahun; anda
memberikan suatu komisi penjualan sebesar 2.5
juta per kontrak
– Problem: Turnover (setelah kontrak berakhir)
adalah 25%
– Memberikan suatu telepon baru ke setiap orang
yang kontraknya habis sangatlah mahal
– Membawa kembali customer setelah keluar
adalah juga sukar dan mahal
Pengantar DM
Contoh (1)
• Tiga bulan sebelum suatu
kontrak berakhir, cari tahu
customer mana yang akan
Yippee! keluar:
I won't leave!
– Jika anda ingin
mempertahankan
customer yang diduga akan
keluar, tawarkan customer
tersebut suatu telepon baru
Pengantar DM
Contoh (2)
• Anda seorang petugas
asuransi dan anda harus
mendefinisikan suatu
Oh, yes! pembayaran bulanan yang
I love my pantas untuk seorang pemuda
Ferrari! berusia 18 tahun yang
membeli sebuah Ferrari …
apa yang anda akan lakukan?
Pengantar DM
Contoh (2)
• Kaji seluruh data customer dan data
kompensasi pembayaran sebelumnya
• Kaji peluang penyebab kecelakaan paling
banyak berdasarkan dugaan…
– Kelamin pengendara (pria/wanita) dan
usia
– Model dan usia mobil, tempat tinggal
– dsb.
• Jika peluang kecelakaan lebih besar dari
rata-rata, aturlah pembayaran bulanan
yang sesuai!
Pengantar DM
Contoh (3)
• Anda berada diluar negeri dan seseorang
mencuri atau menggandakan kartu kredit
atau telepon mobile anda …
• Perusahaan kartu kredit …
– Menggunakan data histori untuk
membangun model prilaku penipuan dan
gunakan data mining untuk membantu
didalam mengenali kejadian yang mirip
• Perusahaan telepon …
– Menganalisis pola yang menyimpang dari
suatu kebiasaan yang diharapkan (tujuan,
durasi, dsb.)
Pengantar DM
Contoh (4)
• Demikian pula …
– Seluruh jenis analisis log informasi
Pengantar DM
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and
Techniques Third Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical
Machine Learning Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining
Use Cases and Business Analytics Applications, CRC Press Taylor &
Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction
to Data Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT
Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and
Techniques, Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge
Discovery Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances
in Data Mining of Enterprise Data: Algorithms and Applications,
World Scientific, 2007
68