Week6 - Data Preprocessing
Week6 - Data Preprocessing
DATA PREPROCESSING
Minggu ke 6
Dosen : Mifta Ardianti, S.T., M.Kom
Peta Konsep Pembelajaran
Langkah-
Data Tujuan Data
langkah Data
Prepocessing Preprocessing
Preprocessing
Dokumentasi
Validasi Data Hasil Data
Data
Preprocessing Preprocessing
Preprocessing
Definisi Data Preprocessing
– Data preprocessing, atau pra-pemrosesan data, adalah serangkaian
langkah atau tahapan yang dilakukan pada data mentah sebelum
data tersebut digunakan untuk analisis lebih lanjut atau
pengembangan model.
Missing Values
Data Cleaning Data Integration
Handling
Handling
Data Feature
Imbalanced
Transformation Selection
Data
Performance
Optimization
Berikut adalah beberapa komponen utama dari definisi data preprocessing :
a. Pembersihan Data (Data Cleaning)
• Identifikasi dan Penanganan Outliers
Mendeteksi dan mengatasi data yang di luar pola umum, yang dapat mempengaruhi hasil
analisis secara negatif.
• Penanganan Duplikasi
Mengidentifikasi dan menghapus data duplikat yang dapat menghasilkan hasil yang tidak
akurat.
b. Pengisian Nilai yang Hilang (Missing Values Handling)
• Imputasi Nilai
Melakukan estimasi atau pengisian nilai yang hilang menggunaan metode tertentu, seperti
nilai nilai rata-rata atau median.
c. Integrasi Data (Data Integration)
• Penggabungan Data
Menggabungkan data dari berbagai sumber, untuk membuat kumpulan data yang lebih
lengkap dan bermakna.
• Penanganan perbedaan format
Menangani perbedaan dalam fomrat, sekma, atau struktur data
d. Transformasi Data (Data Transformation)
• Standarisasi dan Normalisasi
Menyesuaikan skala dan bentuk distribusi data agar lebih konsisten.
• Encoding Variabel Kategorikal
Mengubah variabel kategorikal menjadi bentuk yang dapat diproses oleh algoritma, seperti
menggunakan one-hot encoding.
e. Seleksi Fitur (Feature Selection)
Memilih subset fitur yang paling relevan dan signifikan untuk analisis atau pemodelan.
f. Manajemen Data Tidak Seimbang (Handling Imbalanced Data)
• Oversampling dan Undersampling
menangani masalah ketidakseimbangan kelas dengan meningkatkan atau mengurangi
jumlah sampel pada kelas tertentu.
• Pengelolaan Kesalahan atau Inkonsistensi (Error Handling)
Penanganan kesalahan data : mendeteksi dan memperbaiki kesalahn atau inkonsistensi
dalam data yang dapat memengaruhi keakuratan analisis.
g. Optimasi Kinerja (Performance Optimization)
• Pemrosesan Paralel
Menggunakan teknik pemrosesan paralel untuk meningkatkan efisiesni dan kecepatan
pemrosesan data.
Pentingnya Data Preprocessing dalam Analisis Data (1)
a. Meningkatkan Kualitas Data
Membersihkan data dari duplikat, outlier, dan nilai yang hilang membantu
meningkatkan kualitas dan integritas data. Data yang bersih dan
terstruktur meminimalkan risiko menghasilkan hasil yang bias atau tidak
akurat.
b. Memastikan Keakuratan Analisis
Data preprocessing membantu memastikan bahwa data yang
digunakan dalam analisis adalah representatif dan akurat. Tanpa
preprocessing, analisis dapat terpengaruh oleh kesalahan atau
ketidakpastian yang mungkin muncul dari data yang tidak bersih atau
tidak terstruktur.
Data
Data cleaning Transformation
Data juga bisa dibersihkan dan dirapihkan menggunakan segmen-segmen yang memiliki ukuran serupa lalu
dihaluskan (binning), dengan fungsi regresi linear atau berganda (regression), atau dengan mengelompokkannya
ke dalam kelompok data yang serupa (grouping).
2. Data Integration
Data integration adalah tahap yang menggabungkan data dari berbagai sumber menjadi satu kesatuan data
(dataset). Dalam proses penggabungan tersebut, data dengan format yang berbeda harus diubah terlebih dahulu
ke format yang sama.
Secara keseluruhan, proses integrasi data ini ditujukan untuk menyatukan dan membuat data menjadi lebih halus
melalui upaya-upaya sebagai berikut.
•Memastikan data memiliki format dan atribut yang sama
•Menghapus atribut yang tidak dibutuhkan dari semua sumber data
•Mendeteksi nilai data yang konflik
Tahapan Data Preprocessing
3. Data Transformation
Pada tahap ini, data akan dinormalisasi dan digeneralisasi. Normalisasi data dilakukan untuk memastikan bahwa
tidak ada data yang berlebihan, sementara generalisasi data dilakukan untuk menyeragamkan data. Data
transformation memungkinkan Anda untuk mengubah struktur data, format data, dan nilai data menjadi
sebuah dataset yang sesuai untuk proses mining ataupun algoritma yang sudah dirancang.
Terdapat setidaknya lima langkah yang dapat dilakukan dalam proses data transformation, yaitu:
•Agregation: Langkah untuk menggabungkan semua data dalam format yang seragam.
•Normalization: Langkah untuk mengubah data ke dalam skala yang teratur sehingga dapat dibandingkan dengan
lebih akurat.
•Feature Selection: Langkah untuk menentukan variabel apa saja yang paling penting untuk analisis, di mana
variabel ini juga akan digunakan untuk melatih model machine learning atau kecerdasan buatan.
•Discreditization: Langkah untuk mengumpulkan data ke dalam interval yang lebih kecil. Misalnya, saat
menghitung latihan harian rata-rata, Anda bisa mengelompokkannya menjadi 0-15 menit, 15-30 menit, dan
seterusnya, daripada menggunakan menit dan detik secara rinci.
•Concept Hierarchy Generation: Langkah untuk menambahkan hirarki baru di dalam dataset.
Tahapan Data Preprocessing
4. Data Reduction
Langkah terakhir yang perlu dilakukan adalah data reduction atau pengurangan jumlah
data. Data mining menggunakan data dalam jumlah besar yang dikhawatirkan dapat
menyebabkan tingkat akurasinya menjadi rendah. Oleh karena itu, sampel data perlu
direduksi, namun dengan tetap memperhatikan bahwa proses tersebut tidak akan
mengubah hasil analisis data.
Ada tiga teknik yang bisa diterapkan saat mereduksi data, yakni dengan dimensionality
reduction (pengurangan dimensi), numerosity reduction (pengurangan jumlah),
dan data compression (kompresi data). Ketiga teknik tersebut bisa disesuaikan dengan
kebutuhan, seperti apakah data yang diolah besar, sedang, atau perlu dikompresi dan
beresiko merugikan.
Terima Kasih