0% menganggap dokumen ini bermanfaat (0 suara)
178 tayangan8 halaman

Modul 3 Data Mining

Knowledge Discovery in Databases (KDD) adalah proses untuk menemukan pola dalam data yang melibatkan beberapa tahapan seperti pembersihan data, integrasi, pemilihan, transformasi, dan penambangan data. Data mining merupakan salah satu bagian penting dari KDD yang bertujuan untuk mengeksplorasi data besar dan menemukan pola yang berguna. Metodologi CRISP-DM menyediakan enam fase dalam proyek data mining, termasuk pemahaman bisnis, pemahaman data, pengolahan data, pemodelan, evaluasi, dan penyebaran.

Diunggah oleh

Bosker Sinaga
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
178 tayangan8 halaman

Modul 3 Data Mining

Knowledge Discovery in Databases (KDD) adalah proses untuk menemukan pola dalam data yang melibatkan beberapa tahapan seperti pembersihan data, integrasi, pemilihan, transformasi, dan penambangan data. Data mining merupakan salah satu bagian penting dari KDD yang bertujuan untuk mengeksplorasi data besar dan menemukan pola yang berguna. Metodologi CRISP-DM menyediakan enam fase dalam proyek data mining, termasuk pemahaman bisnis, pemahaman data, pengolahan data, pemodelan, evaluasi, dan penyebaran.

Diunggah oleh

Bosker Sinaga
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 8

MODUL III

KNOWLEDGE DISCOVERY IN DATABASES

3.1 Pengertian Knowledge Discovery In Databases (KDD)


KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi
dari pola-pola sejumlah kumpulan data.
Knowledge discovery in databases (KDD) adalah keseluruhan proses non-trivial
untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan
bersifat sah, baru, dapat bermanfaat dan dapat dimengerti dari proses data minig. Data Mining
merupakan salah satu proses dari keseluruhan proses yang ada pada Knowledge Discovery in
Databases (KDD). Knowledge Discovery in Databases (KDD) merupakan sekumpulan proses
untuk menemukan pengetahuan yang bermanfaat dari data.
Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi
data (data integration), pemilihan data (data selection), transformasi data (data
transformation), penambangan data (data mining), evaluasi pola (pattern evaluation), dan
presentasi pengetahuan (knowledge presentation). Seperti gambar berikut ini:
Gambar 1. : Proses Knowledge Discovery Database (KDD)
Berdasarkan definisi ini terlihat bahwa data mining hanya merupakan salah satu proses dari
keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam
menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa
disimpan dalam basisdata, Data Warehouse, atau media penyimpanan informasi lainnya).
Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan
secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu
basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi
berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data
mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut:
1. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk
proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data
yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data,
memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan
cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang
sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti
data atau informasi eksternal.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut
sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan
sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining
sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan
dan proses KDD secara keseluruhan.
5. Interpretation/Evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang
mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses
KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau
informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
Penjelasan di atas dapat direfresentasikan pada gambar dibawah ini :
Gambar proses KDD
Cross-Industry Standart Process for Data Mining (CRISP-DM) yang di kembangkan tahun
1996 oleh analisis dari beberapa industri seperti Daimler Chrysler, SPSS dan NCR. CRISP-
DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara
umum dari bisnis atau unit penelitian.
Dalam CRISP-DM sebuah proyek data mining memiliki siklus hidup yang terbagi dalam
enam fase Gambar dibawah ini . Keseluruhan fase berurutan yang ada tersebut bersifat
adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari fase sebelumnya.
Hubungan penting antar fase digambarkan dengan panah. Sebagai contoh, jika proses berada
pada fase modeling. Berdasar pada perilaku dan karakteristik model, proses mungkin
kembali kepada fase data preparation untuk perbaikan lebih lanjut terhadap data atau
berpindah maju kepada fase evaluation.

Proses Data Mining Menurut CRISP-DM


Enam fase CRISP-DM (Cross Industry Standard Process for Data Mining)
1. Fase Pemahaman Bisnis ( Business Understanding Phase )
a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit
penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data ( Data Understanding Phase )
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan
pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin
mengandung pola dari permasalahan
3. Fase Pengolahan Data ( Data Preparation Phase )
a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu
dilaksanakan secara intensif.
b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang
akan dilakukan.
c. Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan ( Modeling Phase )
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada
permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan
teknik data mining tertentu.
5. Fase Evaluasi ( Evaluation Phase )
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan
untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk
digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian
yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.
6. Fase Penyebaran (Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan
telah terselesaikannya proyek.
b. Contoh sederhana penyebaran: Pembuatan laporan.
c. Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel
pada departemen lain. Informasi lebih lanjut mengenai CRISP-DM dapat
dilihat di www.crisp-dm.org
3.2 Tahapan Data Mining
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah
diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika
mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi
aksi ataupun keputusan yang bermanfaat.
Data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan
tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada
umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada
awalnya tidak
sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.

Gambar Tahap-Tahap Data Mining


Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang
diilustrasikan pada Gambar diatas. Tahap-tahap tersebut bersifat interaktif di mana pemakai
terlibat langsung atau dengan perantaraan knowledge base.
1. Pembersihan data
Digunakan untuk membuang data yang tidak konsisten dan noise
2. Integrasi Data
Data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi
juga berasal dari beberapa database atau file teks. Hasil integrasi data sering
diwujudkan dalam sebuah data warehouse karena dengan data warehouse, data
dikonsolidasikan dengan struktur khusus yang efisien. Selain itu data warehouse juga
memungkinkan tipe analisa seperti OLAP.
3. Transformasi data
Transformasi dan pemilihan data ini untuk menentukan kualitas dari hasil data
mining, sehingga data diubah menjadi bentuk sesuai untuk di-Mining.
4. Aplikasi Teknik Data Mining
Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses
data mining. Ada beberapa teknik data mining yang sudah umum dipakai.
5. Evaluasi pola yang ditemukan
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun
model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai.
6. Presentasi Pengetahuan
Presentasi pola yang ditemukan untuk menghasilkan aksi tahap terakhir dari proses
data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil
analisa yang didapat.
3.3 KDD vs Data Mining
Menurut Cabena, Data Mining = Knowledge Discovery in Database (KDD).
Menurut Jiawei Han, Data Mining merupakan Subset atau salah satu tahap dari KDD
saja. Sehingga, batasan ini yang selanjutkan digunakan.
Data Mining bertujuan mengekplorasi basis data untuk menemukan pola-pola
pengetahuan yang tersembunyi di dalam data tersebut.
3.4 Tahapan Knowledge Discovery In Database
Menurut Peter Cabena, Tahapan – tahapan dalam KDD adalah sebagai berikut :
1. Penentuan Sasaran Bisnis (Business Objective Determination)
2. Persiapan Data (Preparation Data)
- Data Selection
- Data Preprocessing
- Data Transformation
3. Data Mining
4. Anaysis of Result
5. Assimilation of Knowledge
1. Business Objective Determination
Merupakan sebuah tahapan yang mendefinisikan permasalahan atau tantangan bisnis
dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data
mining.
Contoh Sasaran Bisnis :
Mengembangkan suatu strategi marketing untuk mempertahankan loyalitas customer
di Jawa Tengah dan Jawa Timur untuk produk soft drink dengan brand dan ukuran
tertentu (200ml dalam kotak alumunium) selama bulan April, Mei , Juni yang akan
datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing
(mixed marketing), yang salah satunya adalah direct mail campaign kepada customer
yang tampaknya "mudah rusak" loyalitasnya.
2. Persiapan Data (Preparation Data)
Merupakan tahapan untuk mempersiapkan data yang diperlukan untuk proses data
mining. Tujuannya adalah agar data yang digunakan benar-benar sesuai dengan
permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam
format yang sesuai/tepat.
Tahap yang paling banyak mengkonsumsi resources (manusia, biaya, waktu) yang
tersedia. Biasanya mencapai 60% keseluruhan proyek KDD.
- Data Selection
Mengidentifikasi semua sumber informasi internal dan eksternal dan memilih
sebagian saja dari data yang diperlukan untuk aplikasi data mining.
- Data Preprocessing
Meyakinkan kualitas data yang telah dipilih pada tahapan sebelumnya. 2 issue
yang sering dihadapkan pada tahapan ini adalah Noisy Data dan Missing Value.
- Data Transformation
Mengubah data ke dalam model analitis serta memodelkan data agar sesuai
dengan analisa yang diharapkan dan format data yang diperlukan oleh algoritma
data mining.
3. Data Mining
Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan
pada tahap sebelumnya.
Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“:
IF soft drink sejenis dengan ukuran yang lebih besar (bukan botol kecil) dibeli
lebih dari 58% dalam sejarah pembelian soft drink seorang consumer
THEN consumer tersebut diprediksi Loyal.
Pemilihan tugas data mining : pemilihan goal dari proses KDD misalnya
klasifikasi, regresi, clustering, dll.
Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau
algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma
yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
4. Analysis of Result
Menginterpretasikan dan mengevaluasi output dari tahap mining: patterns.
Pendekatan analisa yang digunakan akan bervariasi menurut operasi data mining
yang digunakan, tetapi biasanya akan melibatkan teknik visualisasi.
5. Assimilation of Knowledge
Menggunakan hasil mining yang telah dievaluasi ke dalam perilaku organisasi dan
sistem informasi perusahaan.
Jadi dapat disimpulkan bawa:
1. Data mining : penemuan pola menarik dari data set yang besar secara semi-otomatis
2. Knowledge discovery adalah suatu proses:
a. Preprocessing
b. Data mining
c. Postprocessing

Anda mungkin juga menyukai