0% menganggap dokumen ini bermanfaat (0 suara)
100 tayangan5 halaman

Paper Data Mining

Dokumen tersebut membahas tentang pentingnya pra-pemrosesan data sebelum melakukan data mining untuk menghasilkan informasi yang berkualitas. Langkah-langkah pra-pemrosesan data meliputi pembersihan data, integrasi data, transformasi data, dan reduksi data. Metode-metode umum yang digunakan dalam data mining antara lain estimasi, prediksi, klasifikasi, klastering, dan asosiasi.

Diunggah oleh

isma
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
100 tayangan5 halaman

Paper Data Mining

Dokumen tersebut membahas tentang pentingnya pra-pemrosesan data sebelum melakukan data mining untuk menghasilkan informasi yang berkualitas. Langkah-langkah pra-pemrosesan data meliputi pembersihan data, integrasi data, transformasi data, dan reduksi data. Metode-metode umum yang digunakan dalam data mining antara lain estimasi, prediksi, klasifikasi, klastering, dan asosiasi.

Diunggah oleh

isma
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 5

PENDAHULUAN

A. Pengantar

Perkembangan zaman dibidang dunia teknologi masa kini yang semakin modern dan
semakin meninggalkan era masa lalu telah memberikan dampak besar di dunia teknologi
yang semakin pesat. Yakni dalam bidang pengumpulan data dan teknologi penyimpanan
di berbagai bidang yang menghasilkan basis data terlalu besar sehingga data tersebut tak
lagi terlihat, dikarenakan data yang terkumpul semakin panjang, membosankan dan tidak
lagi menarik. Data Mining ini lahir dikarenakan seringnya mengambil keputusan yang tak
lagi berdasarkan data, melainkan dibuat berdasarkan hasil dari pola pikir si pembuat itu
sendiri. Maka dari itu Data Mining diciptakan untuk menyelesaikan permasalahan yang
seharusnya diselesaikan berdasarkan data yang ada.

B. Fokus Masalah

Paper saya ini mengajak Anda untuk mengetahui bahwa untuk melakukan data mining yang baik
ada beberapa persoalan utama yaitu menyangkut metologi mining dan interaksi user,
performance dan perbedaan dan tipe data base. Hal inilah yang sering kita hadapi disaat kita
ingin membuat data mining.
Berikut adalah gagasan gagasan untuk memahami fokus paper saya :
1. Pengertian data Pre-processing/Pre-paration dalam Data Mining
2. 5 Metode yang umum digunakan dalam aplikasi Data Mining beserta contohnya.

Isi

A.Penguraian Definisi

Preprocessing merupakan salah satu tahapan yang penting untuk data pada proses
mining. Data yang digunakan dalam proses mining tidak selamanya dalam kondisi
yang ideal untuk diproses. Terkadang pada data tersebut terdapat berbagai
permasalahan yang dapat menggangu hasil dari proses mining itu sendiri seperi
diantaranya adalah missing value, data redundant, outliers, ataupun format data
yang tidak sesuai dengan sistem. Oleh karenanya untuk mengatasi permasalahan
tersebut dibutuhkan tahap Preprocessing. Preprocessing merupakan salah satu
tahapan menghilangkan permasalahan-permasalahan yang dapat mengganggu hasil
daripada proses data. Dalam kasus klasifikasi dokumen yang menggunakan data
bertipe teks, terdapat beberapa macam proses yang dilakukan umumnya
diantaranya case folding, filtering(remove punctution), stopword removal, stemming,
tokenization dan sebagainya.

Mengapa Data Diproses Awal?


• Datadalamdunianyatakotor
– Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang dipentingkan tidak
disertakan, atau hanya memuat data agregasi
• Misal, pekerjaan=“”
– Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda
dengan data-data yang lain)
• Misal, Salary=“-10”

Mengapa Data Kotor?


• Ketaklengkapandatadatangdari
– Nilai data tidak tersedia saat dikumpulkan
– Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data
dianalisa.
– Masalah manusia, hardware, dan software • Noisydatadatangdariprosesdata
– Pengumpulan
– Pemasukan (entry) – Transmisi

Mengapa Pemrosesan Awal Data Penting?


• Kualitasdatatidakada,kualitashasilminingtidak ada!
– Kualitas keputusan harus didasarkan kepada kualitas data
• Misal, duplikasi data atau data hilang bisa menyebabkan ketidak-benaran atau
bahkan statistik yang menyesatkan.
– Data warehouse memerlukan kualitas integrasi data yang konsisten
• Ekstraksidata,pembersihan,dantransformasi merupakan kerja utama dari
pembuatan suatu data warehouse.

Tugas Utama
Pemrosesan Awal Data
Pemrosesan Awal Data
• Pembersihandata(datayangkotor)
– Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau
menghilangkan outlier, dan memecahkan ketak-konsistenan
• Integrasidata(dataheterogen)
– Integrasi banyak database, banyak kubus data, atau banyak file
• Transformasidata(datadetail) – Normalisasi dan agregasi
• Reduksidata(jumlahdatayangbesar)
– Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil
analitikal yang sama atau mirip
• Diskritisasidata(kesinambunganatribut)
– Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data
numerik.

Mengapa harus dilakukan data preparation?

1. Jika data masukan tidak berkualitas, maka hasil data mining juga tidak akan
berkualitas.
2. Keputusan yang berkualitas pasti berasal/berdasarkan data yang
berkualitas.
3. Data Warehouse membutuhkan integrasi yang konsisten dari data yang
berkualitas.
4. Jangan sampai terjadi Garbage In Garbage Out.

Dalam data mining terdapat banyak tool pemodelan. Setiap tool memiliki
kelebihan dan kekurangan masing-masing. Tool bisa saja sensitif terhadap tipe
data, noise, dan missing value. Jadi suatu data bisa dikatakan berkualitas atau
tidak tergantung nantinya mau dimodelkan dengan tool yang mana. Suatu data bisa
dikatakan berkualitas untuk suatu tool, tapi belum tentu berkualitas untuk tool
yang lain.

Langkah-Langkah dalam data preparation :

1. Data Cleaning

Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value,
mengidentifikasi outlier, menangani data noise, mengoreksi data yang tidak
konsisten, dan menyelesaikan masalah redudansi data akibat integrasi data.

2. Data Integration

Data integration adalah suatu langkah untuk menggabungkan data dari beberapa
sumber. Data integration hanya dilakukan jika data berasal dari tempat yang
berbeda-beda (sumber data tidak hanya dari 1 tempat). Langkah yang dilakukan
antara lain mengintegrasikan skema, mengidentifikasi masalah entitas, dan
mendeteksi sekaligus menyelesaikan konflik pada nilai data.

3. Data Transformation

Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih
berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data
(smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan
pembentukan atribut/fitur.

4. Data Reduction

Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah
data. Yang akan dilakukan antara lain agregasi data cube, reduksi dimensi,
diskretisasi, dan kompresi data.

5 Metode umum yang di gunakan dalam data mining

Ada beberapa metode atau fungsi data mining yang bisa digunakan untuk menemukan,
menggali dan menambang pengetahuan. Ada 5 fungsi utama dalam data mining, antara lain:

1. Estimasi: untuk menerka sebuah nilai yang belum diketahui, misal menerka
penghasilan seseorang ketika informasi mengenai orang tersebut diketahui. Metode
yang digunakan antara lain Point Estimation dan Confidence Interval
Estimations, Simple Linear Regression dan Correlation, dan Multiple Regression.
2. Prediksi: untuk memperkirakan nilai masa mendatang, missal memprediksi stok
barang satu tahun ke depan. Fungsi ini mencakup
metode Neural Network, Decision Tree, dan k–Nearest Neighbor.
3. Klasifikasi: merupakan proses penemuan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan
kelas dari suatu objek yang labelnya tidak diketahui. Metode yang digunakan antara
lain NeuralNetwork, Decision Tree, k-Nearest Neighbor, dan Naive Bayes.
4. Klastering: pengelompokan mengidentifikasi data yang memiliki karakteristik
tertentu. Metode dalam fungsi ini diantaranya Hierarchical Clustering, metode K-
Means, dan Self Organizing Map (SOM)
5. Asosiasi: dinamakan juga analisis keranjang pasar dimana fungsi ini
mengidentifikasi item-item produk yang kemungkinan dibeli konsumen bersamaan
dengan produk lain. Metode atau algoritma dalam fungsi ini adalah Apriori,
Generalized Sequential Pattern (GSP),  FP-Growth dan GRI algorithm

Kesimpulan

Data mining merupakan solusi bagi suatu perusahaan untuk dapat manambang
informasi dari kumpulan data tsb. Data mining merupakan serangkaian proses
untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang
selama ini tidak diketahui secara manual.

Daftar Pustaka
http://rosyid.lecturer.pens.ac.id/dataMining/Data%20Preprocessing.pdf

https://media.neliti.com/media/publications/227327-komparasi-5-metode-algoritma-
klasifikasi-62d004db.pdf

https://www.google.co.id/amp/s/www.adhikrisnadermawan.com/2018/07/10/apa-saja-
metode-data-mining/amp/

Anda mungkin juga menyukai