Pengenalan Data Mining

Data mining adalah proses ekstraksi pengetahuan dari basis data besar menggunakan teknik statistik, pembelajaran mesin, dan kecerdasan buatan untuk menemukan pola dan hubungan di dalam data. Dokumen ini membahas pengertian, tujuan, proses, dan metode utama dalam data mining seperti klasifikasi dan klustering. "

Diunggah oleh

Nurulmanrat

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

233 tayangan27 halaman

Pengenalan Data Mining

Diunggah oleh

Nurulmanrat

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 27

DATA MINING

Nurul Renaningtias, S.T., M.Kom

POKOK BAHASAN

• Pengertian Data Mining

• Task dalam Data Mining
• Proses Data Mining
• Konsep Klasifikasi
• Konsep Kluster
PENGERTIAN DATA MINING

Data mining adalah proses yang menggunakan teknik statistik, matematika,

kecerdasan buatan, dan machine learning untuk mengekstraksi dan
mengidentifikasi informasi dan pengetahuan yang terkait dari berbagai database
besar (Turban dkk., 2005).

Data mining disebut sebagai Knowledge Discovery in Database (KDD).

KDD merupakan kegiatan yang meliputi pengumpulan dan pemakaian data
historis untuk menemukan keteraturan pola atau hubungan dalam set data
berukuran besar.
MUNCULNYA DATA MINING
Pada era sekarang, data tersedia dalam jumlah yang besar dan semakin
besarnya kebutuhan untuk mengubah data menjadi informasi dan
pengetahuan yang berguna.

Contoh :
Jika mempunyai kartu kredit, biasanya bank selalu memberikan penawaran
barang atau jasa. Jika bank memiliki 1.000.000 nasabah dan biaya
pengiriman surat setiap nasabah adalah 500 rupiah maka biaya yang harus
dikeluarkan oleh bank adalah 500 juta rupiah. Padahal nasabah yang
mungkin menerima tawaran tsb hanya 15% sehingga terjadi pembuangan
biaya sekitar 85% dari 500 juta yang merugikan pihak bank sekitar
425juta. Jika pihak bank dapat memanfaatkan data-data yang ada sehingga
hanya nasabah yang berpotensi untuk membeli saja yang dikirimkan surat
maka biaya pengiriman dapat ditekan.
AKAR ILMU DATA MINING
1. 1. Statistik
2. Tanpa ada statistik maka data mining mungkin tidak ada. Teknik yang
digunakan adalah metode komputasional dan visualisasi data.
3. 2.Artificial Intelligence
4. AI berkontribusi terhadap teknik pengolahan informasi berdasarkan
pada model penalaran manusia. Salah satu cabang AI adalah machine
learning.
5. 3. Pattern Recognition
6. Pengenalan pola pada data mining dilakukan dengan mengolah data
dari basis data. Ciri dari data mining adalah pencarian pola asosiasi dan
pola sekuensial.
7. 4. Sistem Basis Data
8. Basis data menyediakan informasi berupa data yang akan digali
menggunakan metode-metode tertentu.
TASK DALAM DATA MINING

Model prediksi Analisis Cluster

(Prediction modelling) (Cluster analysis)

Analisis Asosiasi Deteksi anomali

(Association analysis) (Anomaly detection)
• Terdapat 2 model prediksi yaitu :
1. Klasifikasi
MODE L PR E DI K SI
( P R E DI CT ION MODE L LING ) Klasifikasi digunakan untuk variabel target diskret.
Contoh klasifikasi adalah melakukan deteksi jenis
penyakit pasien berdasarkan sejumlah nilai-nilai
Pekerjaan ini berkaitan dengan pembuatan
sebuah model yang dapat melakukan
parameter penyakit yang diderita.
pemetaan dari setiap himpunan variabel ke 2. Regresi
setiap targetnya, kemudian menggunakan
model tersebut untuk memberikan nilai Regresi digunakan untuk variabel target kontinu.
target pada himpunan baru yang didapat. Contoh Regresi adalah melakukan prediksi jumlah
penjualan yang didapatkan pada 3 bulan ke depan.
• Contoh pekerjaan yang berkaitan dengan
ANALYSIS CLUSTER analisis cluster adalah bagaimana mengetahui
pola pembelian barang oleh konsumen pada
waktu-waktu tertentu. Dengan mengetahui
Analisis cluster melakukan pengelompokkan
pola kelompok pembelian, maka perusahaan
data ke sejumlah kelompok berdasarkan dapat menentukan jadwal promosi sehingga
kesamaan karakteristik masing-masing data dapat meningkatkan omzet penjualan.
pada kelompok-kelompok yang ada.
• Penerapan dalam kehidupan sehari-hari
adalah analisis data keranjang belanja. Jika
ANALISIS ASOSIASI seorang IRT akan membeli kebutuhan rumah
(ASSOCIATION ANALYSIS ) tangga misalnya beras di supermarket maka
sangat besar kemungkinan ibu tsb akan
Analisis asosiasi digunakan untuk menemukan membeli kebutuhan rumah tangga lainnya
pola yang menggambarkan kekuatan hubungan seperti telur atau minyak dan tidak mungkin
fitur dalam data. Pola yang ditemukan biasanya (sangat jarang) membeli topi atau buku.
merepresentasikan bentuk aturan implikasi
atau subset fitur. Tujuannya adalah untuk
Dengan mengetahui hubungan tsb, maka
menemukan pola yang menarik dengan cara retailer dapat menentukan barang yang
yang efisien. sebaiknya disediakan dalam jumlah yang
banyak.
• Algoritma deteksi anomali yang baik harus
DETEKSI ANOMALI mempunyai laju deteksi yang tinggi dan laju
(ANOMALY DETECTION ) kesalahan yang rendah.
• Deteksi anomali dapat diterapkan pada
Berkaitan dengan pengamatan sebuah data dari sistem jaringan untuk mengetahui pola data
sejumlah data yang secara signifikan yang memasuki jaringan sehingga dapat
mempunyai karakteristik yang berbeda dari
sisa data yang lain. Data yang karakteristiknya diketahui adanya penyusupan jika pola kerja
menyimpang dari data yang lain disebut outlier. data yang datang berbeda.
PROSES DALAM DATA MINING
Secara sistematis, terdapat tiga langkah utama dalam data mining (Gonunescu, 2011) :
1. Eksplorasi atau pemrosesan awal data
Eksplorasi atau pemrosesan awal data terdiri dari pembersihan data, normalisasi data,
transformasi data, penanganan data yang salah, reduksi dimensi, pemilihan subset fitur,
dan sebagainya.
2. Membangun model dan melakukan validasi terhadapnya
Melakukan analisis berbagai model dan memilih model dengan kinerja prediksi terbaik,
digunakan metode-metode seperti klasifikasi, regresi, analisis kluster, deteksi anomali,
analisis asosiasi, dan sebagainya.
3. Penerapan
Menerapkan model pada data yang baru untuk menghasilkan prediksi atau perkiraan
masalah yang diinvestigasi.
TAHAPAN DALAM DATA MINING

Tahapan dalam Knowledge Discovery in Database (Han dkk., 2006)

• Pembersihan data (data cleaning), merupakan proses untuk menghilangkan data yang mengandung
noise dan data yang tidak konsisten atau data tidak relevan.
• Integrasi data (data integration), merupakan proses penggabungan data dari berbagai sumber.
• Seleksi data (data selection), merupakan proses pemilihan data yang relevan dari database.
• Transformasi data (data transformation), merupakan proses pengubahan atau penggabungan ke
dalam format yang sesuai untuk diproses dalam data mining.
• Proses mining, merupakan proses utama saat metode diterapkan untuk menemukan pengetahuan
berharga dan tersembunyi dari data.
• Evaluasi pola (pattern evaluation), merupakan proses untuk mengidentifikasi pola-pola menarik ke
dalam knowledge based yang ditemukan.
• Presentasi pengetahuan (knowledge presentation), merupakan visualisasi dan penyajian
pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh
pengguna.
Berdasarkan tugas dan tujuan analisis, proses data mining dapat dibagi
menjadi dua kategori utama yaitu proses belajar yang diawasi (supervised)
dan proses belajar tanpa pengawasan (unsupervised) (Vercilles, 2009).

1. Belajar yang diawasi (supervised learning)

Dalam analisis supervised learning, analisis belajar dilakukan dengan adanya
latihan (training) atau label, contohnya regresi, analisa deskriminan, artificial
neural network dan support vector machine.

2. Belajar tanpa pengawasan (unsupervised learning)

Dalam unsupervised learning, analisis belajar tidak dipandu oleh atribut
target atau label. Oleh karena itu, data mining ditujukan untuk menemukan
pola berulang dan kedekatan dalam kumpulan data atau dengan kata lain
metode belajar tanpa adanya latihan (training) atau label, contohnya
clustering dan self organization map (SOM).
KONSEP KLASIFIKASI

• Klasifikasi merupakan proses untuk menemukan sebuah model atau fungsi

untuk menjelaskan dan membedakan kelas data atau konsep yang bertujuan
untuk memprediksi atau memperkirakan kelas dari suatu objek yang belum
diketahui (Han dkk., 2011).
• Ada dua langkah utama dalam klasifikasi data yaitu tahap pembelajaran dan
tahap klasifikasi. Pada tahap pembelajaran, model klasifikasi dibangun dengan
menggunakan algoritma pada satu set pelatihan. Set pelatihan yang digunakan
untuk langkah pembelajaran harus memiliki label kelas untuk data yang
diberikan. Setelah model pengklasifikasi dibangun, digunakan untuk
memprediksi label kelas untuk data yang akan diprediksi.
AL G OR I T MA K L ASI FIKASI

Pada eager learner dilakukan proses pelatihan Pada lazy learner hanya sedikit melakukan
atau pembelajaran pada data latih agar dapat pelatihan bahkan tidak. Hal ini menyebabkan
memetakan dengan benar setiap vektor proses prediksi menjadi lama karena model
masukan ke label kelas keluarannya sehingga di harus membaca semua data latih agar dapat
akhir proses pelatihan model sudah dapat memberikan keluaran dengan benar. Kelebihan
memetakan data uji dengan benar. Proses algoritma ini proses pelatihan berjalan dengan
prediksi menggunakan model yang tersimpan cepat.
dan tidak melibatkan data latih sehingga proses
prediksi berjalan dengan cepat tetapi proses Algoritma yang termasuk kategori ini antara
pelatihannya memakan waktu lama. lain k-nearest neighbours (KNN), fuzzy k-
nearest neighbour, dan regresi linear
Algoritma yang termasuk eager learner yaitu
jaringan syaraf tiruan, decision tree, bayesian,
support vector machine
ALGORITMA KLASIFIKASI

Support
Vector
Machine
(SVM).
K-nearest Jaringan
Neighbors Syarat Tiruan Naive Bayes
(KNN) (JST) Classifier

Bayesian
Network

Decision
Tree
KONSEP KLASIFIKASI
KONSEP KLUSTER

Clustering merupakan proses partisi satu set objek data ke dalam himpunan
bagian yang disebut dengan cluster. Objek yang di dalam cluster memiliki
kemiripan karakteristik antar satu sama lainnya dan berbeda dengan cluster yang
lain. Partisi tidak dilakukan secara manual melainkan dengan suatu algoritma
clustering.
Clustering dapat dibedakan menjadi 2 tujuan yaitu clustering untuk pemahaman
dan clustering untuk penggunaan.
METODE CLUSTER

Pada hierarchical clustering data Pada artitional clustering data dikelompokkan

dikelompokkan melalui suatu bagan yang ke dalam sejumlah cluster tanpa adanya
berupa hirarki, dimana terdapat penggabungan struktur hirarki antara satu dengan yang
dua grup yang terdekat disetiap iterasinya lainnya. Pada metode partitional clustering
ataupun pembagian dari seluruh set data setiap cluster memiliki titik
kedalam cluster. pusat cluster (centroid) dan secara umum
metode ini memiliki fungsi tujuan yaitu
Contoh metode hierarchy clustering: Single
meminimumkan jarak (dissimilarity) dari
Linkage, Complete Linkage,Average
seluruh data ke pusat cluster masing-masing.
Linkage,Average Group Linkage.
Contoh metode partitional clustering: K-
Means, Fuzzy K-means dan Mixture Modelling.
• Dalam pengelompokan berbasis hierarki, • Pengelompokkan berbasis partisi
satu set data tunggal bisa dianggap sebagai membagi set data ke dalam sejumlah
cluster, dua atau lebih cluster kecil dapat cluster yang tidak bertumpang tindih
bergabung menjadi sebuah cluster besar, antara satu cluster dengan cluster lain,
begitu seterusnya hingga semua data artinya setiap data hanya menjadi anggota
dapat bergabung menjadi sebuah cluster. satu cluster saja.
KONSEP KLUSTER
Dataset yang digunakan pada clustering tidak
menampilkan class / target attribute, sedangkan
dataset yang digunakan pada classification mutlak
harus menampilkan class / target attribute.

Pengetahuan yang dihasilkan oleh metode clustering

berupa cluster hasil pengelompokan, sedangkan
pengetahuan yang dihasilkan oleh metode
PERBEDAAN KLASIFIKASI classification berupa selain cluster (bisa decision tree,
DAN KLUSTER ruleset, weight pada backpropagation, dan lain-lain).

Clustering dipakai ketika tidak diketahuinya

bagaimana data harus dikelompokkan. Jumlah
kelompok diasumsikan sendiri tanpa ditentukan
terlebih dahulu. Keluaran pendekatan ini adalah data
yang sudah dikelompokkan sedangkan classification
terdapat informasi mengenai bagaimana data
tersebut dikelompokkan.
DISKUSI

Buatlah sebuah contoh kasus yang bisa diaplikasikan dengan teknik data
mining.
TUGAS DIKUMPUL SEBELUM UTS

Buatlah review 2 paper internasional dengan topik data mining.

Judul paper yang direview tidak boleh sama, untuk kelas A, B, C maupun D.
Kirim paling lambat sehari sebelum pelaksanaan UTS (Tanggal …… pukul …… )
Ke email [email protected] dengan subjek :
NAMA_NIM_ TUGASUTSDATAMINING

Anda mungkin juga menyukai

Teknik Data Mining Dasar Menggunakan Weka
Belum ada peringkat
Teknik Data Mining Dasar Menggunakan Weka
55 halaman
04 Ekosistem Sains Data
Belum ada peringkat
04 Ekosistem Sains Data
24 halaman
1465 4162 1 SM
Belum ada peringkat
1465 4162 1 SM
7 halaman
Data Mining
Belum ada peringkat
Data Mining
5 halaman
Pertemuan 1 - Pengantar Data Mining
Belum ada peringkat
Pertemuan 1 - Pengantar Data Mining
56 halaman
Konsep Data Mining Dan Implementasi
Belum ada peringkat
Konsep Data Mining Dan Implementasi
9 halaman
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
Belum ada peringkat
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
32 halaman
Slide Materi Data Preprocessing
Belum ada peringkat
Slide Materi Data Preprocessing
29 halaman
Algoritam Machine Learning Dan Implementasi
Belum ada peringkat
Algoritam Machine Learning Dan Implementasi
8 halaman
Iqbal Fathur Rahman
Belum ada peringkat
Iqbal Fathur Rahman
98 halaman
Pertemuan 3 - Preprocessing Data
Belum ada peringkat
Pertemuan 3 - Preprocessing Data
32 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
Akuntansi Kliring
Belum ada peringkat
Akuntansi Kliring
11 halaman
Metode Data Mining
Belum ada peringkat
Metode Data Mining
17 halaman
Data Mining - 5 - Teknik Data Mining
Belum ada peringkat
Data Mining - 5 - Teknik Data Mining
47 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Data Science
Belum ada peringkat
Data Science
79 halaman
Pengenalan Data Mining
100% (1)
Pengenalan Data Mining
71 halaman
UEU Data Mining Pertemuan 1
Belum ada peringkat
UEU Data Mining Pertemuan 1
37 halaman
162-Article Text-6115-1-10-20211108
100% (1)
162-Article Text-6115-1-10-20211108
100 halaman
p.10 Evaluasi Data Mining
Belum ada peringkat
p.10 Evaluasi Data Mining
21 halaman
Makalah Algoritma Data Mining K Medoids
Belum ada peringkat
Makalah Algoritma Data Mining K Medoids
31 halaman
Tugas Data Minning
Belum ada peringkat
Tugas Data Minning
16 halaman
Kecerdasan Buatan 20140113N2
Belum ada peringkat
Kecerdasan Buatan 20140113N2
194 halaman
PPT-Data Mining-Pertemuan 2
Belum ada peringkat
PPT-Data Mining-Pertemuan 2
44 halaman
Materi Kuliah Data Mining 1
Belum ada peringkat
Materi Kuliah Data Mining 1
39 halaman
Penerapan Teknik Data Mining Dalam Akuntansi Keuangan
100% (1)
Penerapan Teknik Data Mining Dalam Akuntansi Keuangan
8 halaman
MODUL 3 Data Analytic
Belum ada peringkat
MODUL 3 Data Analytic
18 halaman
Modul 4 Data Screening
Belum ada peringkat
Modul 4 Data Screening
11 halaman
Case Study (Rapid Miner)
Belum ada peringkat
Case Study (Rapid Miner)
3 halaman
Kul 3 - Heuristic Search
Belum ada peringkat
Kul 3 - Heuristic Search
23 halaman
Pertemuan 5 - Klasifikasi Dengan Naive Bayes
100% (1)
Pertemuan 5 - Klasifikasi Dengan Naive Bayes
21 halaman
Crisp-DM Dan Naive Bayes
Belum ada peringkat
Crisp-DM Dan Naive Bayes
20 halaman
About Software WEKA
Belum ada peringkat
About Software WEKA
18 halaman
JURNAL
Belum ada peringkat
JURNAL
5 halaman
01 PENGANTAR KNOWLEDGE DISCOVERY in DATABASE (KDD) PDF
Belum ada peringkat
01 PENGANTAR KNOWLEDGE DISCOVERY in DATABASE (KDD) PDF
26 halaman
UEU Kecerdasan Buatan Pertemuan 4
Belum ada peringkat
UEU Kecerdasan Buatan Pertemuan 4
49 halaman
Uas Data Mining
Belum ada peringkat
Uas Data Mining
14 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Penggunaan Algorithma Apriori Dalam Menganalisa Perilaku Mahasiswa Dalam Memilih Mata Kuliah (Studi Kasus: FKIP UPI "YPTK")
Belum ada peringkat
Penggunaan Algorithma Apriori Dalam Menganalisa Perilaku Mahasiswa Dalam Memilih Mata Kuliah (Studi Kasus: FKIP UPI "YPTK")
12 halaman
Pertemuan 14-Big Data
Belum ada peringkat
Pertemuan 14-Big Data
66 halaman
Tugas Akhir Data Mining
Belum ada peringkat
Tugas Akhir Data Mining
63 halaman
Pengenalan Pola. Dasar Pengenalan Pola
0% (1)
Pengenalan Pola. Dasar Pengenalan Pola
56 halaman
Machine Learning
100% (1)
Machine Learning
2 halaman
M3 DS23-Big Data Sain Data Analitik Big Data
100% (1)
M3 DS23-Big Data Sain Data Analitik Big Data
22 halaman
Tutorial Rapidminer 2
Belum ada peringkat
Tutorial Rapidminer 2
51 halaman
Modul Praktikum - Sistem Basis Data (Rev1) PDF
Belum ada peringkat
Modul Praktikum - Sistem Basis Data (Rev1) PDF
51 halaman
Tugas Clustering
Belum ada peringkat
Tugas Clustering
4 halaman
Jurnal Naive Bayes 8
Belum ada peringkat
Jurnal Naive Bayes 8
14 halaman
Jurnal Apriori Dan Frequent Pattern Growth
Belum ada peringkat
Jurnal Apriori Dan Frequent Pattern Growth
15 halaman
Analisis Leksikal Teknik Kompilasi
Belum ada peringkat
Analisis Leksikal Teknik Kompilasi
15 halaman
Data Mining
Belum ada peringkat
Data Mining
106 halaman
Tugas 2. Data Mining
Belum ada peringkat
Tugas 2. Data Mining
31 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Materi DBSCAN
Belum ada peringkat
Materi DBSCAN
36 halaman
Pertemuan 9 - Normalisasi
Belum ada peringkat
Pertemuan 9 - Normalisasi
33 halaman
Data Mining
Belum ada peringkat
Data Mining
20 halaman
1 Konsep Data Mining
Belum ada peringkat
1 Konsep Data Mining
14 halaman
1 KONSEP DATA MINING PPTX
Belum ada peringkat
1 KONSEP DATA MINING PPTX
14 halaman
Strategi Meningkatkan Kinerja Guru
Dari Everand
Strategi Meningkatkan Kinerja Guru
Andi Sulistiadi
5/5 (1)