0% menganggap dokumen ini bermanfaat (0 suara)
233 tayangan27 halaman

Pengenalan Data Mining

Data mining adalah proses ekstraksi pengetahuan dari basis data besar menggunakan teknik statistik, pembelajaran mesin, dan kecerdasan buatan untuk menemukan pola dan hubungan di dalam data. Dokumen ini membahas pengertian, tujuan, proses, dan metode utama dalam data mining seperti klasifikasi dan klustering. "

Diunggah oleh

Nurulmanrat
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
233 tayangan27 halaman

Pengenalan Data Mining

Data mining adalah proses ekstraksi pengetahuan dari basis data besar menggunakan teknik statistik, pembelajaran mesin, dan kecerdasan buatan untuk menemukan pola dan hubungan di dalam data. Dokumen ini membahas pengertian, tujuan, proses, dan metode utama dalam data mining seperti klasifikasi dan klustering. "

Diunggah oleh

Nurulmanrat
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 27

DATA MINING

Nurul Renaningtias, S.T., M.Kom


POKOK BAHASAN

• Pengertian Data Mining


• Task dalam Data Mining
• Proses Data Mining
• Konsep Klasifikasi
• Konsep Kluster
PENGERTIAN DATA MINING

Data mining adalah proses yang menggunakan teknik statistik, matematika,


kecerdasan buatan, dan machine learning untuk mengekstraksi dan
mengidentifikasi informasi dan pengetahuan yang terkait dari berbagai database
besar (Turban dkk., 2005).

Data mining disebut sebagai Knowledge Discovery in Database (KDD).


KDD merupakan kegiatan yang meliputi pengumpulan dan pemakaian data
historis untuk menemukan keteraturan pola atau hubungan dalam set data
berukuran besar.
MUNCULNYA DATA MINING
Pada era sekarang, data tersedia dalam jumlah yang besar dan semakin
besarnya kebutuhan untuk mengubah data menjadi informasi dan
pengetahuan yang berguna.

Contoh :
Jika mempunyai kartu kredit, biasanya bank selalu memberikan penawaran
barang atau jasa. Jika bank memiliki 1.000.000 nasabah dan biaya
pengiriman surat setiap nasabah adalah 500 rupiah maka biaya yang harus
dikeluarkan oleh bank adalah 500 juta rupiah. Padahal nasabah yang
mungkin menerima tawaran tsb hanya 15% sehingga terjadi pembuangan
biaya sekitar 85% dari 500 juta yang merugikan pihak bank sekitar
425juta. Jika pihak bank dapat memanfaatkan data-data yang ada sehingga
hanya nasabah yang berpotensi untuk membeli saja yang dikirimkan surat
maka biaya pengiriman dapat ditekan.
AKAR ILMU DATA MINING
1. 1. Statistik
2. Tanpa ada statistik maka data mining mungkin tidak ada. Teknik yang
digunakan adalah metode komputasional dan visualisasi data.
3. 2.Artificial Intelligence
4. AI berkontribusi terhadap teknik pengolahan informasi berdasarkan
pada model penalaran manusia. Salah satu cabang AI adalah machine
learning.
5. 3. Pattern Recognition
6. Pengenalan pola pada data mining dilakukan dengan mengolah data
dari basis data. Ciri dari data mining adalah pencarian pola asosiasi dan
pola sekuensial.
7. 4. Sistem Basis Data
8. Basis data menyediakan informasi berupa data yang akan digali
menggunakan metode-metode tertentu.
TASK DALAM DATA MINING

Model prediksi Analisis Cluster


(Prediction modelling) (Cluster analysis)

Analisis Asosiasi Deteksi anomali


(Association analysis) (Anomaly detection)
• Terdapat 2 model prediksi yaitu :
1. Klasifikasi
MODE L PR E DI K SI
( P R E DI CT ION MODE L LING ) Klasifikasi digunakan untuk variabel target diskret.
Contoh klasifikasi adalah melakukan deteksi jenis
penyakit pasien berdasarkan sejumlah nilai-nilai
Pekerjaan ini berkaitan dengan pembuatan
sebuah model yang dapat melakukan
parameter penyakit yang diderita.
pemetaan dari setiap himpunan variabel ke 2. Regresi
setiap targetnya, kemudian menggunakan
model tersebut untuk memberikan nilai Regresi digunakan untuk variabel target kontinu.
target pada himpunan baru yang didapat. Contoh Regresi adalah melakukan prediksi jumlah
penjualan yang didapatkan pada 3 bulan ke depan.
• Contoh pekerjaan yang berkaitan dengan
ANALYSIS CLUSTER analisis cluster adalah bagaimana mengetahui
pola pembelian barang oleh konsumen pada
waktu-waktu tertentu. Dengan mengetahui
Analisis cluster melakukan pengelompokkan
pola kelompok pembelian, maka perusahaan
data ke sejumlah kelompok berdasarkan dapat menentukan jadwal promosi sehingga
kesamaan karakteristik masing-masing data dapat meningkatkan omzet penjualan.
pada kelompok-kelompok yang ada.
• Penerapan dalam kehidupan sehari-hari
adalah analisis data keranjang belanja. Jika
ANALISIS ASOSIASI seorang IRT akan membeli kebutuhan rumah
(ASSOCIATION ANALYSIS ) tangga misalnya beras di supermarket maka
sangat besar kemungkinan ibu tsb akan
Analisis asosiasi digunakan untuk menemukan membeli kebutuhan rumah tangga lainnya
pola yang menggambarkan kekuatan hubungan seperti telur atau minyak dan tidak mungkin
fitur dalam data. Pola yang ditemukan biasanya (sangat jarang) membeli topi atau buku.
merepresentasikan bentuk aturan implikasi
atau subset fitur. Tujuannya adalah untuk
Dengan mengetahui hubungan tsb, maka
menemukan pola yang menarik dengan cara retailer dapat menentukan barang yang
yang efisien. sebaiknya disediakan dalam jumlah yang
banyak.
• Algoritma deteksi anomali yang baik harus
DETEKSI ANOMALI mempunyai laju deteksi yang tinggi dan laju
(ANOMALY DETECTION ) kesalahan yang rendah.
• Deteksi anomali dapat diterapkan pada
Berkaitan dengan pengamatan sebuah data dari sistem jaringan untuk mengetahui pola data
sejumlah data yang secara signifikan yang memasuki jaringan sehingga dapat
mempunyai karakteristik yang berbeda dari
sisa data yang lain. Data yang karakteristiknya diketahui adanya penyusupan jika pola kerja
menyimpang dari data yang lain disebut outlier. data yang datang berbeda.
PROSES DALAM DATA MINING
Secara sistematis, terdapat tiga langkah utama dalam data mining (Gonunescu, 2011) :
1. Eksplorasi atau pemrosesan awal data
Eksplorasi atau pemrosesan awal data terdiri dari pembersihan data, normalisasi data,
transformasi data, penanganan data yang salah, reduksi dimensi, pemilihan subset fitur,
dan sebagainya.
2. Membangun model dan melakukan validasi terhadapnya
Melakukan analisis berbagai model dan memilih model dengan kinerja prediksi terbaik,
digunakan metode-metode seperti klasifikasi, regresi, analisis kluster, deteksi anomali,
analisis asosiasi, dan sebagainya.
3. Penerapan
Menerapkan model pada data yang baru untuk menghasilkan prediksi atau perkiraan
masalah yang diinvestigasi.
TAHAPAN DALAM DATA MINING

Tahapan dalam Knowledge Discovery in Database (Han dkk., 2006)


• Pembersihan data (data cleaning), merupakan proses untuk menghilangkan data yang mengandung
noise dan data yang tidak konsisten atau data tidak relevan.
• Integrasi data (data integration), merupakan proses penggabungan data dari berbagai sumber.
• Seleksi data (data selection), merupakan proses pemilihan data yang relevan dari database.
• Transformasi data (data transformation), merupakan proses pengubahan atau penggabungan ke
dalam format yang sesuai untuk diproses dalam data mining.
• Proses mining, merupakan proses utama saat metode diterapkan untuk menemukan pengetahuan
berharga dan tersembunyi dari data.
• Evaluasi pola (pattern evaluation), merupakan proses untuk mengidentifikasi pola-pola menarik ke
dalam knowledge based yang ditemukan.
• Presentasi pengetahuan (knowledge presentation), merupakan visualisasi dan penyajian
pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh
pengguna.
Berdasarkan tugas dan tujuan analisis, proses data mining dapat dibagi
menjadi dua kategori utama yaitu proses belajar yang diawasi (supervised)
dan proses belajar tanpa pengawasan (unsupervised) (Vercilles, 2009).

1. Belajar yang diawasi (supervised learning)


Dalam analisis supervised learning, analisis belajar dilakukan dengan adanya
latihan (training) atau label, contohnya regresi, analisa deskriminan, artificial
neural network dan support vector machine.

2. Belajar tanpa pengawasan (unsupervised learning)


Dalam unsupervised learning, analisis belajar tidak dipandu oleh atribut
target atau label. Oleh karena itu, data mining ditujukan untuk menemukan
pola berulang dan kedekatan dalam kumpulan data atau dengan kata lain
metode belajar tanpa adanya latihan (training) atau label, contohnya
clustering dan self organization map (SOM).
KONSEP KLASIFIKASI

• Klasifikasi merupakan proses untuk menemukan sebuah model atau fungsi


untuk menjelaskan dan membedakan kelas data atau konsep yang bertujuan
untuk memprediksi atau memperkirakan kelas dari suatu objek yang belum
diketahui (Han dkk., 2011).
• Ada dua langkah utama dalam klasifikasi data yaitu tahap pembelajaran dan
tahap klasifikasi. Pada tahap pembelajaran, model klasifikasi dibangun dengan
menggunakan algoritma pada satu set pelatihan. Set pelatihan yang digunakan
untuk langkah pembelajaran harus memiliki label kelas untuk data yang
diberikan. Setelah model pengklasifikasi dibangun, digunakan untuk
memprediksi label kelas untuk data yang akan diprediksi.
AL G OR I T MA K L ASI FIKASI

Pada eager learner dilakukan proses pelatihan Pada lazy learner hanya sedikit melakukan
atau pembelajaran pada data latih agar dapat pelatihan bahkan tidak. Hal ini menyebabkan
memetakan dengan benar setiap vektor proses prediksi menjadi lama karena model
masukan ke label kelas keluarannya sehingga di harus membaca semua data latih agar dapat
akhir proses pelatihan model sudah dapat memberikan keluaran dengan benar. Kelebihan
memetakan data uji dengan benar. Proses algoritma ini proses pelatihan berjalan dengan
prediksi menggunakan model yang tersimpan cepat.
dan tidak melibatkan data latih sehingga proses
prediksi berjalan dengan cepat tetapi proses Algoritma yang termasuk kategori ini antara
pelatihannya memakan waktu lama. lain k-nearest neighbours (KNN), fuzzy k-
nearest neighbour, dan regresi linear
Algoritma yang termasuk eager learner yaitu
jaringan syaraf tiruan, decision tree, bayesian,
support vector machine
ALGORITMA KLASIFIKASI

Support
Vector
Machine
(SVM).
K-nearest Jaringan
Neighbors Syarat Tiruan Naive Bayes
(KNN) (JST) Classifier

Bayesian
Network

Decision
Tree
KONSEP KLASIFIKASI
KONSEP KLUSTER

Clustering merupakan proses partisi satu set objek data ke dalam himpunan
bagian yang disebut dengan cluster. Objek yang di dalam cluster memiliki
kemiripan karakteristik antar satu sama lainnya dan berbeda dengan cluster yang
lain. Partisi tidak dilakukan secara manual melainkan dengan suatu algoritma
clustering.
Clustering dapat dibedakan menjadi 2 tujuan yaitu clustering untuk pemahaman
dan clustering untuk penggunaan.
METODE CLUSTER

Pada hierarchical clustering data Pada artitional clustering data dikelompokkan


dikelompokkan melalui suatu bagan yang ke dalam sejumlah cluster tanpa adanya
berupa hirarki, dimana terdapat penggabungan struktur hirarki antara satu dengan yang
dua grup yang terdekat disetiap iterasinya lainnya. Pada metode partitional clustering
ataupun pembagian dari seluruh set data setiap cluster memiliki titik
kedalam cluster. pusat cluster (centroid) dan secara umum
metode ini memiliki fungsi tujuan yaitu
Contoh metode hierarchy clustering: Single
meminimumkan jarak (dissimilarity) dari
Linkage, Complete Linkage,Average
seluruh data ke pusat cluster masing-masing.
Linkage,Average Group Linkage.
Contoh metode partitional clustering: K-
Means, Fuzzy K-means dan Mixture Modelling.
• Dalam pengelompokan berbasis hierarki, • Pengelompokkan berbasis partisi
satu set data tunggal bisa dianggap sebagai membagi set data ke dalam sejumlah
cluster, dua atau lebih cluster kecil dapat cluster yang tidak bertumpang tindih
bergabung menjadi sebuah cluster besar, antara satu cluster dengan cluster lain,
begitu seterusnya hingga semua data artinya setiap data hanya menjadi anggota
dapat bergabung menjadi sebuah cluster. satu cluster saja.
KONSEP KLUSTER
Dataset yang digunakan pada clustering tidak
menampilkan class / target attribute, sedangkan
dataset yang digunakan pada classification mutlak
harus menampilkan class / target attribute.

Pengetahuan yang dihasilkan oleh metode clustering


berupa cluster hasil pengelompokan, sedangkan
pengetahuan yang dihasilkan oleh metode
PERBEDAAN KLASIFIKASI classification berupa selain cluster (bisa decision tree,
DAN KLUSTER ruleset, weight pada backpropagation, dan lain-lain).

Clustering dipakai ketika tidak diketahuinya


bagaimana data harus dikelompokkan. Jumlah
kelompok diasumsikan sendiri tanpa ditentukan
terlebih dahulu. Keluaran pendekatan ini adalah data
yang sudah dikelompokkan sedangkan classification
terdapat informasi mengenai bagaimana data
tersebut dikelompokkan.
DISKUSI

Buatlah sebuah contoh kasus yang bisa diaplikasikan dengan teknik data
mining.
TUGAS DIKUMPUL SEBELUM UTS

Buatlah review 2 paper internasional dengan topik data mining.

Judul paper yang direview tidak boleh sama, untuk kelas A, B, C maupun D.
Kirim paling lambat sehari sebelum pelaksanaan UTS (Tanggal …… pukul …… )
Ke email [email protected] dengan subjek :
NAMA_NIM_ TUGASUTSDATAMINING

Anda mungkin juga menyukai