0% menganggap dokumen ini bermanfaat (0 suara)
106 tayangan20 halaman

Week6 - Data Preprocessing

data perpcesing

Diunggah oleh

mifta ardianti
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
106 tayangan20 halaman

Week6 - Data Preprocessing

data perpcesing

Diunggah oleh

mifta ardianti
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 20

BI & Informatika UIM 2024

DATA PREPROCESSING
Minggu ke 6
Dosen : Mifta Ardianti, S.T., M.Kom
Peta Konsep Pembelajaran

Langkah-
Data Tujuan Data
langkah Data
Prepocessing Preprocessing
Preprocessing

Dokumentasi
Validasi Data Hasil Data
Data
Preprocessing Preprocessing
Preprocessing
Definisi Data Preprocessing
– Data preprocessing, atau pra-pemrosesan data, adalah serangkaian
langkah atau tahapan yang dilakukan pada data mentah sebelum
data tersebut digunakan untuk analisis lebih lanjut atau
pengembangan model.

– Tujuan utama dari data preprocessing adalah untuk meningkatkan


kualitas data, memastikan keakuratan hasil analisis, dan mengatasi
masalah atau kekurangan yang mungkin muncul dalam data mentah.
Komponen Utama Data Preprocessing

Missing Values
Data Cleaning Data Integration
Handling

Handling
Data Feature
Imbalanced
Transformation Selection
Data

Performance
Optimization
Berikut adalah beberapa komponen utama dari definisi data preprocessing :
a. Pembersihan Data (Data Cleaning)
• Identifikasi dan Penanganan Outliers
Mendeteksi dan mengatasi data yang di luar pola umum, yang dapat mempengaruhi hasil
analisis secara negatif.
• Penanganan Duplikasi
Mengidentifikasi dan menghapus data duplikat yang dapat menghasilkan hasil yang tidak
akurat.
b. Pengisian Nilai yang Hilang (Missing Values Handling)
• Imputasi Nilai
Melakukan estimasi atau pengisian nilai yang hilang menggunaan metode tertentu, seperti
nilai nilai rata-rata atau median.
c. Integrasi Data (Data Integration)
• Penggabungan Data
Menggabungkan data dari berbagai sumber, untuk membuat kumpulan data yang lebih
lengkap dan bermakna.
• Penanganan perbedaan format
Menangani perbedaan dalam fomrat, sekma, atau struktur data
d. Transformasi Data (Data Transformation)
• Standarisasi dan Normalisasi
Menyesuaikan skala dan bentuk distribusi data agar lebih konsisten.
• Encoding Variabel Kategorikal
Mengubah variabel kategorikal menjadi bentuk yang dapat diproses oleh algoritma, seperti
menggunakan one-hot encoding.
e. Seleksi Fitur (Feature Selection)
Memilih subset fitur yang paling relevan dan signifikan untuk analisis atau pemodelan.
f. Manajemen Data Tidak Seimbang (Handling Imbalanced Data)
• Oversampling dan Undersampling
menangani masalah ketidakseimbangan kelas dengan meningkatkan atau mengurangi
jumlah sampel pada kelas tertentu.
• Pengelolaan Kesalahan atau Inkonsistensi (Error Handling)
Penanganan kesalahan data : mendeteksi dan memperbaiki kesalahn atau inkonsistensi
dalam data yang dapat memengaruhi keakuratan analisis.
g. Optimasi Kinerja (Performance Optimization)
• Pemrosesan Paralel
Menggunakan teknik pemrosesan paralel untuk meningkatkan efisiesni dan kecepatan
pemrosesan data.
Pentingnya Data Preprocessing dalam Analisis Data (1)
a. Meningkatkan Kualitas Data
Membersihkan data dari duplikat, outlier, dan nilai yang hilang membantu
meningkatkan kualitas dan integritas data. Data yang bersih dan
terstruktur meminimalkan risiko menghasilkan hasil yang bias atau tidak
akurat.
b. Memastikan Keakuratan Analisis
Data preprocessing membantu memastikan bahwa data yang
digunakan dalam analisis adalah representatif dan akurat. Tanpa
preprocessing, analisis dapat terpengaruh oleh kesalahan atau
ketidakpastian yang mungkin muncul dari data yang tidak bersih atau
tidak terstruktur.

c. Mengatasi Missing Values


Pengisian nilai yang hilang memastikan bahwa tidak ada informasi
yang hilang atau tidak lengkap, yang dapat mengarah pada
kesimpulan yang keliru atau keputusan yang tidak akurat.
Pentingnya Data Preprocessing dalam Analisis Data (2)
d. Integrasi Data dari Sumber yang Berbeda
Dalam kasus penggabungan data dari sumber yang berbeda,
preprocessing membantu menyatukan data dengan format yang
berbeda atau skema yang berbeda, memastikan konsistensi dan
integritas data.
e. Standarisasi dan Normalisasi
Standarisasi dan normalisasi data membantu menghindari bias yang
mungkin muncul akibat perbedaan skala atau unit pengukuran dalam
variabel-variabel yang digunakan dalam analisis.

f. Transformasi Data untuk Analisis yang Optimal


Transformasi data, seperti encoding variabel kategorikal atau
pengurangan dimensi, membantu mempersiapkan data agar sesuai
dengan kebutuhan analisis atau model tertentu.
Pentingnya Data Preprocessing dalam Analisis Data (3)

g. Seleksi Fitur yang Relevan i. Pemrosesan Paralel dan Optimasi


Memilih fitur yang paling relevan mengurangi kompleksitas KinerjaDalam situasi di mana kinerja waktu adalah
model dan meningkatkan interpretabilitas hasil. Hal ini juga faktor kunci, data preprocessing dapat mencakup
dapat menghindari overfitting dan meningkatkan kinerja pemrosesan paralel untuk meningkatkan efisiensi
model. dan kecepatan pemrosesan data.

h. Manajemen Data Tidak Seimbang j. Peningkatan Validitas dan Reliabilitas


Mengatasi masalah data tidak seimbang membantu Dengan memastikan bahwa data telah melalui
memastikan bahwa analisis klasifikasi atau model prosespreprocessing yang tepat, hasil analisis atau
pembelajaran mesin tidak didominasi oleh satu kelas model yang dihasilkan lebih valid dan dapat
tertentu,yang dapat menghasilkan model yang tidak diandalkan.
seimbang dantidak akurat.
Tahapan Data Preprocessing

Data
Data cleaning Transformation

Data Data Reduction


Integration
Tahapan Data Preprocessing
1. Data Cleaning
Dalam langkah data cleaning, data mentah akan dibersihkan melalui beberapa proses seperti mengisi nilai yang
hilang, menghaluskan noisy data, dan menyelesaikan inkonsestensi yang ditemukan.

Data juga bisa dibersihkan dan dirapihkan menggunakan segmen-segmen yang memiliki ukuran serupa lalu
dihaluskan (binning), dengan fungsi regresi linear atau berganda (regression), atau dengan mengelompokkannya
ke dalam kelompok data yang serupa (grouping).

2. Data Integration
Data integration adalah tahap yang menggabungkan data dari berbagai sumber menjadi satu kesatuan data
(dataset). Dalam proses penggabungan tersebut, data dengan format yang berbeda harus diubah terlebih dahulu
ke format yang sama.

Secara keseluruhan, proses integrasi data ini ditujukan untuk menyatukan dan membuat data menjadi lebih halus
melalui upaya-upaya sebagai berikut.
•Memastikan data memiliki format dan atribut yang sama
•Menghapus atribut yang tidak dibutuhkan dari semua sumber data
•Mendeteksi nilai data yang konflik
Tahapan Data Preprocessing
3. Data Transformation
Pada tahap ini, data akan dinormalisasi dan digeneralisasi. Normalisasi data dilakukan untuk memastikan bahwa
tidak ada data yang berlebihan, sementara generalisasi data dilakukan untuk menyeragamkan data. Data
transformation memungkinkan Anda untuk mengubah struktur data, format data, dan nilai data menjadi
sebuah dataset yang sesuai untuk proses mining ataupun algoritma yang sudah dirancang.

Terdapat setidaknya lima langkah yang dapat dilakukan dalam proses data transformation, yaitu:
•Agregation: Langkah untuk menggabungkan semua data dalam format yang seragam.
•Normalization: Langkah untuk mengubah data ke dalam skala yang teratur sehingga dapat dibandingkan dengan
lebih akurat.
•Feature Selection: Langkah untuk menentukan variabel apa saja yang paling penting untuk analisis, di mana
variabel ini juga akan digunakan untuk melatih model machine learning atau kecerdasan buatan.
•Discreditization: Langkah untuk mengumpulkan data ke dalam interval yang lebih kecil. Misalnya, saat
menghitung latihan harian rata-rata, Anda bisa mengelompokkannya menjadi 0-15 menit, 15-30 menit, dan
seterusnya, daripada menggunakan menit dan detik secara rinci.
•Concept Hierarchy Generation: Langkah untuk menambahkan hirarki baru di dalam dataset.
Tahapan Data Preprocessing
4. Data Reduction
Langkah terakhir yang perlu dilakukan adalah data reduction atau pengurangan jumlah
data. Data mining menggunakan data dalam jumlah besar yang dikhawatirkan dapat
menyebabkan tingkat akurasinya menjadi rendah. Oleh karena itu, sampel data perlu
direduksi, namun dengan tetap memperhatikan bahwa proses tersebut tidak akan
mengubah hasil analisis data.

Ada tiga teknik yang bisa diterapkan saat mereduksi data, yakni dengan dimensionality
reduction (pengurangan dimensi), numerosity reduction (pengurangan jumlah),
dan data compression (kompresi data). Ketiga teknik tersebut bisa disesuaikan dengan
kebutuhan, seperti apakah data yang diolah besar, sedang, atau perlu dikompresi dan
beresiko merugikan.
Terima Kasih

Anda mungkin juga menyukai