100% menganggap dokumen ini bermanfaat (1 suara)
579 tayangan2 halaman

Data Preparation

Data preparation atau preprocessing adalah proses untuk mengubah data mentah menjadi data berkualitas dengan menangani masalah seperti data yang tidak lengkap, berisik, dan tidak konsisten. Langkah-langkahnya meliputi cleaning, integration, transformation, dan reduction untuk menghasilkan data yang berkualitas sebagai masukan untuk data mining.

Diunggah oleh

Reza Fahlepi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
100% menganggap dokumen ini bermanfaat (1 suara)
579 tayangan2 halaman

Data Preparation

Data preparation atau preprocessing adalah proses untuk mengubah data mentah menjadi data berkualitas dengan menangani masalah seperti data yang tidak lengkap, berisik, dan tidak konsisten. Langkah-langkahnya meliputi cleaning, integration, transformation, dan reduction untuk menghasilkan data yang berkualitas sebagai masukan untuk data mining.

Diunggah oleh

Reza Fahlepi
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 2

Data Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan

Pengertian data preparation Data Preparation atau bisa disebut juga dengan data preprocessing adalah suatu proses/langkah yang dilakukan untuk membuat data mentah menjadi data yang berkualitas(input yang baik untuk data mining tools).

Mengapa data perlu di-preprocessing? Karena dalam data mentah masih terdapat data yang : 1. incomplete, yaitu data yang kekurangan nilai atribut atau hanya mengandung agregat data (contoh : address = " "). 2. noisy, yaitu data yang masih mengandung error dan outliers (contoh : salary = -10). 3. inconsistent, yaitu data yang mengandung discrepansi dalam code dan nama atau singkatnya datanya tidak konsisten (contoh : dulu rating = 1,2,3 sekarang a,b,c). Mengapa harus dilakukan data preparation?

1. Jika data masukan tidak berkualitas, maka hasil data mining juga tidak akan berkualitas. 2. Keputusan yang berkualitas pasti berasal/berdasarkan data yang berkualitas. 3. Data Warehouse membutuhkan integrasi yang konsisten dari data yang berkualitas. 4. Jangan sampai terjadi Garbage In Garbage Out. Dalam data mining terdapat banyak tool pemodelan. Setiap tool memiliki kelebihan dan kekurangan masing-masing. Tool bisa saja sensitif terhadap tipe data, noise, dan missing value. Jadi suatu data bisa dikatakan berkualitas atau tidak tergantung nantinya mau dimodelkan dengan tool yang mana.

Suatu data bisa dikatakan berkualitas untuk suatu tool, tapi belum tentu berkualitas untuk tool yang lain. Langkah-Langkah dalam data preparation : 1. Data Cleaning Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value, mengidentifikasi outlier, menangani data noise, mengoreksi data yang tidak konsisten, dan menyelesaikan masalah redudansi data akibat integrasi data. 2. Data Integration Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data integration hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari 1 tempat). Langkah yang dilakukan antara lain mengintegrasikan skema, mengidentifikasi masalah entitas, dan mendeteksi sekaligus menyelesaikan konflik pada nilai data. 3. Data Transformation Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data (smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut/fitur. 4. Data Reduction Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. Yang akan dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi data.

Anda mungkin juga menyukai