0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
178 tayangan8 halaman
Modul 3 Data Mining
Knowledge Discovery in Databases (KDD) adalah proses untuk menemukan pola dalam data yang melibatkan beberapa tahapan seperti pembersihan data, integrasi, pemilihan, transformasi, dan penambangan data. Data mining merupakan salah satu bagian penting dari KDD yang bertujuan untuk mengeksplorasi data besar dan menemukan pola yang berguna. Metodologi CRISP-DM menyediakan enam fase dalam proyek data mining, termasuk pemahaman bisnis, pemahaman data, pengolahan data, pemodelan, evaluasi, dan penyebaran.
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
178 tayangan8 halaman
Modul 3 Data Mining
Knowledge Discovery in Databases (KDD) adalah proses untuk menemukan pola dalam data yang melibatkan beberapa tahapan seperti pembersihan data, integrasi, pemilihan, transformasi, dan penambangan data. Data mining merupakan salah satu bagian penting dari KDD yang bertujuan untuk mengeksplorasi data besar dan menemukan pola yang berguna. Metodologi CRISP-DM menyediakan enam fase dalam proyek data mining, termasuk pemahaman bisnis, pemahaman data, pengolahan data, pemodelan, evaluasi, dan penyebaran.
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 8
MODUL III
KNOWLEDGE DISCOVERY IN DATABASES
3.1 Pengertian Knowledge Discovery In Databases (KDD)
KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data. Knowledge discovery in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti dari proses data minig. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD). Knowledge Discovery in Databases (KDD) merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi pengetahuan (knowledge presentation). Seperti gambar berikut ini: Gambar 1. : Proses Knowledge Discovery Database (KDD) Berdasarkan definisi ini terlihat bahwa data mining hanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, Data Warehouse, atau media penyimpanan informasi lainnya). Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut: 1. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. 2. Pre-processing/Cleaning Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. 3. Transformation Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data. 4. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 5. Interpretation/Evalution Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. Penjelasan di atas dapat direfresentasikan pada gambar dibawah ini : Gambar proses KDD Cross-Industry Standart Process for Data Mining (CRISP-DM) yang di kembangkan tahun 1996 oleh analisis dari beberapa industri seperti Daimler Chrysler, SPSS dan NCR. CRISP- DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian. Dalam CRISP-DM sebuah proyek data mining memiliki siklus hidup yang terbagi dalam enam fase Gambar dibawah ini . Keseluruhan fase berurutan yang ada tersebut bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari fase sebelumnya. Hubungan penting antar fase digambarkan dengan panah. Sebagai contoh, jika proses berada pada fase modeling. Berdasar pada perilaku dan karakteristik model, proses mungkin kembali kepada fase data preparation untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase evaluation.
Proses Data Mining Menurut CRISP-DM
Enam fase CRISP-DM (Cross Industry Standard Process for Data Mining) 1. Fase Pemahaman Bisnis ( Business Understanding Phase ) a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan. b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining. c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data ( Data Understanding Phase ) a. Mengumpulkan data. b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal. c. Mengevaluasi kualitas data. d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan 3. Fase Pengolahan Data ( Data Preparation Phase ) a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif. b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan. c. Lakukan perubahan pada beberapa variabel jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. 4. Fase Pemodelan ( Modeling Phase ) a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil. c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama. d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5. Fase Evaluasi ( Evaluation Phase ) a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan. b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6. Fase Penyebaran (Deployment Phase) a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek. b. Contoh sederhana penyebaran: Pembuatan laporan. c. Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain. Informasi lebih lanjut mengenai CRISP-DM dapat dilihat di www.crisp-dm.org 3.2 Tahapan Data Mining Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Gambar Tahap-Tahap Data Mining
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan pada Gambar diatas. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. 1. Pembersihan data Digunakan untuk membuang data yang tidak konsisten dan noise 2. Integrasi Data Data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Hasil integrasi data sering diwujudkan dalam sebuah data warehouse karena dengan data warehouse, data dikonsolidasikan dengan struktur khusus yang efisien. Selain itu data warehouse juga memungkinkan tipe analisa seperti OLAP. 3. Transformasi data Transformasi dan pemilihan data ini untuk menentukan kualitas dari hasil data mining, sehingga data diubah menjadi bentuk sesuai untuk di-Mining. 4. Aplikasi Teknik Data Mining Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. 5. Evaluasi pola yang ditemukan Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. 6. Presentasi Pengetahuan Presentasi pola yang ditemukan untuk menghasilkan aksi tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. 3.3 KDD vs Data Mining Menurut Cabena, Data Mining = Knowledge Discovery in Database (KDD). Menurut Jiawei Han, Data Mining merupakan Subset atau salah satu tahap dari KDD saja. Sehingga, batasan ini yang selanjutkan digunakan. Data Mining bertujuan mengekplorasi basis data untuk menemukan pola-pola pengetahuan yang tersembunyi di dalam data tersebut. 3.4 Tahapan Knowledge Discovery In Database Menurut Peter Cabena, Tahapan – tahapan dalam KDD adalah sebagai berikut : 1. Penentuan Sasaran Bisnis (Business Objective Determination) 2. Persiapan Data (Preparation Data) - Data Selection - Data Preprocessing - Data Transformation 3. Data Mining 4. Anaysis of Result 5. Assimilation of Knowledge 1. Business Objective Determination Merupakan sebuah tahapan yang mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining. Contoh Sasaran Bisnis : Mengembangkan suatu strategi marketing untuk mempertahankan loyalitas customer di Jawa Tengah dan Jawa Timur untuk produk soft drink dengan brand dan ukuran tertentu (200ml dalam kotak alumunium) selama bulan April, Mei , Juni yang akan datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing (mixed marketing), yang salah satunya adalah direct mail campaign kepada customer yang tampaknya "mudah rusak" loyalitasnya. 2. Persiapan Data (Preparation Data) Merupakan tahapan untuk mempersiapkan data yang diperlukan untuk proses data mining. Tujuannya adalah agar data yang digunakan benar-benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang sesuai/tepat. Tahap yang paling banyak mengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanya mencapai 60% keseluruhan proyek KDD. - Data Selection Mengidentifikasi semua sumber informasi internal dan eksternal dan memilih sebagian saja dari data yang diperlukan untuk aplikasi data mining. - Data Preprocessing Meyakinkan kualitas data yang telah dipilih pada tahapan sebelumnya. 2 issue yang sering dihadapkan pada tahapan ini adalah Noisy Data dan Missing Value. - Data Transformation Mengubah data ke dalam model analitis serta memodelkan data agar sesuai dengan analisa yang diharapkan dan format data yang diperlukan oleh algoritma data mining. 3. Data Mining Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya. Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“: IF soft drink sejenis dengan ukuran yang lebih besar (bukan botol kecil) dibeli lebih dari 58% dalam sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi Loyal. Pemilihan tugas data mining : pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll. Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 4. Analysis of Result Menginterpretasikan dan mengevaluasi output dari tahap mining: patterns. Pendekatan analisa yang digunakan akan bervariasi menurut operasi data mining yang digunakan, tetapi biasanya akan melibatkan teknik visualisasi. 5. Assimilation of Knowledge Menggunakan hasil mining yang telah dievaluasi ke dalam perilaku organisasi dan sistem informasi perusahaan. Jadi dapat disimpulkan bawa: 1. Data mining : penemuan pola menarik dari data set yang besar secara semi-otomatis 2. Knowledge discovery adalah suatu proses: a. Preprocessing b. Data mining c. Postprocessing