0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
100 tayangan
Processing Data Mining
Pra-pemrosesan data merupakan langkah penting dalam proses data mining untuk membersihkan, mengintegrasikan, dan mengurangi data mentah agar lebih baik dan dapat diolah. Teknik yang digunakan meliputi cleaning, integration, reduction, transformation, seperti pengisian nilai kosong, deteksi outlier, normalisasi, diskretisasi, dan reduksi dimensi.
Unduh sebagai PPT, PDF, TXT atau baca online di Scribd
0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
100 tayangan
Processing Data Mining
Pra-pemrosesan data merupakan langkah penting dalam proses data mining untuk membersihkan, mengintegrasikan, dan mengurangi data mentah agar lebih baik dan dapat diolah. Teknik yang digunakan meliputi cleaning, integration, reduction, transformation, seperti pengisian nilai kosong, deteksi outlier, normalisasi, diskretisasi, dan reduksi dimensi.
Unduh sebagai PPT, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 16
PRA PROSESING DATA MINING
Pengenalan Data Mining
• Perangkat lunak yang digunakan untuk menemukan pola-pola ter- sembunyi maupun hubungan-hubungan yang terdapat dalam basis data yang besar dan mengha silkan aturan- aturan yang diguna- kan untuk memperkirakan perilaku di masa medatang • Data mining sering dikatakan ber- urusan dengan “penemuan penge- tahun” dalam basis data. Suatu aturan yang dihasilkan oleh data mining misalnya seperti berikut : “Kebanyakan pembeli mobil Forsa adalah wanita berusia di atas 30 th” Apa itu pra proses data mining • merupakan langkah penting dalam proses data mining. Ungkapan "sampah masuk, sampah" terutama berlaku untuk proyek penelitian data mining dan mesin. Metode pengumpulan-data seringkali dikendalikan secara longgar, menghasilkan nilai yang tidak pasti (misalnya, Penghasilan: -100), kombinasi data yang tidak tepat (misalnya, Jenis Kelamin: Laki-laki, Hamil: Ya), nilai yang hilang, dll. Menganalisis data yang memiliki Tidak disaring dengan saksama karena masalah semacam itu bisa menghasilkan hasil yang menyesatkan. Dengan demikian, representasi dan kualitas data pertama dan terutama sebelum menjalankan analisis. Mengapa kita perlu pra proses data mining • Data mentah yang ada sebagian besar kotor • Tidak komplet • Berisi data yang hilang/kosong • Kekurangan atribut yang sesuai • Hanya berisi data aggregate • Banyak “noise” • Berisi data yang Outlier • Berisi error • Tidak konsisten TEKNIK PRA PROCESSING • Data Cleaning • Data integration • Data Reduction • Data Transformation DATA CLEANING • ADALAH proses untuk mendeteksi dan memperbaiki atau menghapus record korup adalah tidak akurat dari mengatur catatan, table ,atau database • Kegunaan nya • Memperkecil noise • membetulkan data yang tidak konsisten. • Mengisi missing value • Mengidentifikasi atau membuang outlier DATA CLEANIG MISSING VALUES • Mengabaikan record • Biasanya untuk label klasifikasi yang kosong • Mengisikan secara manual • Menggunakan mean/median dari atribut yang mengandung missing value • Mean dapat dipakai jika distribusi data normal • Median digunakan jika distribusi data tidak normal(condong) • Menggunakan nilai global • Menggunakan nilai termungkin • Menerapkan regresi Angkatan IPK Pekerjaan Kelamin
2004 3.45 Programmer L
2005 ? Irt P
2003 2.81 ?` p
Contoh untuk missing value IPK diisi dengan rata-
rata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga. Contoh untuk missing value Pekerjaan, dapat di isidengan pekerjaan yang paling banyak muncul. DATA CLEANING NOISLY DATA MINING • Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. • Kegunaan • Teknik-teknik • Binning • Smoothing by bin means • Smoothing by bin medians • Smoothing by bin boundaries • Regression • Outlier Analysis TEKNIK INTEGRASI DATA
• adalah menggabungkan data dari beberapa sumber (database ,data
,cube atau file ) • dalam penyimpana yanf sesuai TEKNIK INTEGRASI DATA
• Digunakan untuk menguraikan data kedalam bentuk
yang lebih kecil ukuran nya tetapi menghasilkan data analisis yang sama DATA TRANFORMASI • Data Transformation • Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami • Kegunaan nya . • Strategi: • Smoothing • Attribute (feature) construction • Aggregation • Normalization • Discretization Data Transformation: Aggregation dan Smoothing Data Transformation: Normalization • Unit ukuran dapat mempengaruhi analisis data. • Unit yang lebih kecil akan menghasilkan rentang nilai • yang besar • Atribut akan memiliki “bobot” yang lebih besar dari atribut • lain • Sehingga • Data perlu dinormalisasi atau dibakukan. • Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] • Diperlukan dalam klasifikasi (termasuk neural network • dan nearest network) dan clustering. Data Transformation: Discretization • Melakukan pergantian atribut numerik menjadi • interval label (misalnya: 0-10,11-20, dst.) atau • konseptual label (misalnya: bawah, tengah, atas) • Data Transformation: Data Reduction • Teknik • Dimensionality reduction • Wavelet transform • Principal Component Analysis • Attribute Subset Selection • Numerosity reduction • sampling • Data compression Kesimpulan • Data pra processing adalah persiaapan data meliputi pembersihan data integrasi data reduksi data dan pemiliha proses metode diskretisasi telah di kembangkan • merupakan langkah penting dalam proses data mining. Ungkapan "sampah masuk, sampah" terutama berlaku untuk proyek penelitian data mining dan mesin. Metode pengumpulan-data seringkali dikendalikan secara longgar, menghasilkan nilai yang tidak pasti (misalnya, Penghasilan: -100), kombinasi data yang tidak tepat (misalnya, Jenis Kelamin: Laki-laki, Hamil: Ya), nilai yang hilang, dll.