Paper Data Mining
Paper Data Mining
A. Pengantar
Perkembangan zaman dibidang dunia teknologi masa kini yang semakin modern dan
semakin meninggalkan era masa lalu telah memberikan dampak besar di dunia teknologi
yang semakin pesat. Yakni dalam bidang pengumpulan data dan teknologi penyimpanan
di berbagai bidang yang menghasilkan basis data terlalu besar sehingga data tersebut tak
lagi terlihat, dikarenakan data yang terkumpul semakin panjang, membosankan dan tidak
lagi menarik. Data Mining ini lahir dikarenakan seringnya mengambil keputusan yang tak
lagi berdasarkan data, melainkan dibuat berdasarkan hasil dari pola pikir si pembuat itu
sendiri. Maka dari itu Data Mining diciptakan untuk menyelesaikan permasalahan yang
seharusnya diselesaikan berdasarkan data yang ada.
B. Fokus Masalah
Paper saya ini mengajak Anda untuk mengetahui bahwa untuk melakukan data mining yang baik
ada beberapa persoalan utama yaitu menyangkut metologi mining dan interaksi user,
performance dan perbedaan dan tipe data base. Hal inilah yang sering kita hadapi disaat kita
ingin membuat data mining.
Berikut adalah gagasan gagasan untuk memahami fokus paper saya :
1. Pengertian data Pre-processing/Pre-paration dalam Data Mining
2. 5 Metode yang umum digunakan dalam aplikasi Data Mining beserta contohnya.
Isi
A.Penguraian Definisi
Preprocessing merupakan salah satu tahapan yang penting untuk data pada proses
mining. Data yang digunakan dalam proses mining tidak selamanya dalam kondisi
yang ideal untuk diproses. Terkadang pada data tersebut terdapat berbagai
permasalahan yang dapat menggangu hasil dari proses mining itu sendiri seperi
diantaranya adalah missing value, data redundant, outliers, ataupun format data
yang tidak sesuai dengan sistem. Oleh karenanya untuk mengatasi permasalahan
tersebut dibutuhkan tahap Preprocessing. Preprocessing merupakan salah satu
tahapan menghilangkan permasalahan-permasalahan yang dapat mengganggu hasil
daripada proses data. Dalam kasus klasifikasi dokumen yang menggunakan data
bertipe teks, terdapat beberapa macam proses yang dilakukan umumnya
diantaranya case folding, filtering(remove punctution), stopword removal, stemming,
tokenization dan sebagainya.
Tugas Utama
Pemrosesan Awal Data
Pemrosesan Awal Data
• Pembersihandata(datayangkotor)
– Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau
menghilangkan outlier, dan memecahkan ketak-konsistenan
• Integrasidata(dataheterogen)
– Integrasi banyak database, banyak kubus data, atau banyak file
• Transformasidata(datadetail) – Normalisasi dan agregasi
• Reduksidata(jumlahdatayangbesar)
– Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil
analitikal yang sama atau mirip
• Diskritisasidata(kesinambunganatribut)
– Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data
numerik.
1. Jika data masukan tidak berkualitas, maka hasil data mining juga tidak akan
berkualitas.
2. Keputusan yang berkualitas pasti berasal/berdasarkan data yang
berkualitas.
3. Data Warehouse membutuhkan integrasi yang konsisten dari data yang
berkualitas.
4. Jangan sampai terjadi Garbage In Garbage Out.
Dalam data mining terdapat banyak tool pemodelan. Setiap tool memiliki
kelebihan dan kekurangan masing-masing. Tool bisa saja sensitif terhadap tipe
data, noise, dan missing value. Jadi suatu data bisa dikatakan berkualitas atau
tidak tergantung nantinya mau dimodelkan dengan tool yang mana. Suatu data bisa
dikatakan berkualitas untuk suatu tool, tapi belum tentu berkualitas untuk tool
yang lain.
1. Data Cleaning
Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value,
mengidentifikasi outlier, menangani data noise, mengoreksi data yang tidak
konsisten, dan menyelesaikan masalah redudansi data akibat integrasi data.
2. Data Integration
Data integration adalah suatu langkah untuk menggabungkan data dari beberapa
sumber. Data integration hanya dilakukan jika data berasal dari tempat yang
berbeda-beda (sumber data tidak hanya dari 1 tempat). Langkah yang dilakukan
antara lain mengintegrasikan skema, mengidentifikasi masalah entitas, dan
mendeteksi sekaligus menyelesaikan konflik pada nilai data.
3. Data Transformation
Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih
berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data
(smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan
pembentukan atribut/fitur.
4. Data Reduction
Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah
data. Yang akan dilakukan antara lain agregasi data cube, reduksi dimensi,
diskretisasi, dan kompresi data.
Ada beberapa metode atau fungsi data mining yang bisa digunakan untuk menemukan,
menggali dan menambang pengetahuan. Ada 5 fungsi utama dalam data mining, antara lain:
1. Estimasi: untuk menerka sebuah nilai yang belum diketahui, misal menerka
penghasilan seseorang ketika informasi mengenai orang tersebut diketahui. Metode
yang digunakan antara lain Point Estimation dan Confidence Interval
Estimations, Simple Linear Regression dan Correlation, dan Multiple Regression.
2. Prediksi: untuk memperkirakan nilai masa mendatang, missal memprediksi stok
barang satu tahun ke depan. Fungsi ini mencakup
metode Neural Network, Decision Tree, dan k–Nearest Neighbor.
3. Klasifikasi: merupakan proses penemuan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan
kelas dari suatu objek yang labelnya tidak diketahui. Metode yang digunakan antara
lain NeuralNetwork, Decision Tree, k-Nearest Neighbor, dan Naive Bayes.
4. Klastering: pengelompokan mengidentifikasi data yang memiliki karakteristik
tertentu. Metode dalam fungsi ini diantaranya Hierarchical Clustering, metode K-
Means, dan Self Organizing Map (SOM)
5. Asosiasi: dinamakan juga analisis keranjang pasar dimana fungsi ini
mengidentifikasi item-item produk yang kemungkinan dibeli konsumen bersamaan
dengan produk lain. Metode atau algoritma dalam fungsi ini adalah Apriori,
Generalized Sequential Pattern (GSP), FP-Growth dan GRI algorithm
Kesimpulan
Data mining merupakan solusi bagi suatu perusahaan untuk dapat manambang
informasi dari kumpulan data tsb. Data mining merupakan serangkaian proses
untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang
selama ini tidak diketahui secara manual.
Daftar Pustaka
http://rosyid.lecturer.pens.ac.id/dataMining/Data%20Preprocessing.pdf
https://media.neliti.com/media/publications/227327-komparasi-5-metode-algoritma-
klasifikasi-62d004db.pdf
https://www.google.co.id/amp/s/www.adhikrisnadermawan.com/2018/07/10/apa-saja-
metode-data-mining/amp/