Week6 - Data Preprocessing

data perpcesing

Diunggah oleh

mifta ardianti

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

106 tayangan20 halaman

Week6 - Data Preprocessing

data perpcesing

Diunggah oleh

mifta ardianti

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 20

BI & Informatika UIM 2024

DATA PREPROCESSING
Minggu ke 6
Dosen : Mifta Ardianti, S.T., M.Kom
Peta Konsep Pembelajaran

Langkah-
Data Tujuan Data
langkah Data
Prepocessing Preprocessing
Preprocessing

Dokumentasi
Validasi Data Hasil Data
Data
Preprocessing Preprocessing
Preprocessing
Definisi Data Preprocessing
– Data preprocessing, atau pra-pemrosesan data, adalah serangkaian
langkah atau tahapan yang dilakukan pada data mentah sebelum
data tersebut digunakan untuk analisis lebih lanjut atau
pengembangan model.

– Tujuan utama dari data preprocessing adalah untuk meningkatkan

kualitas data, memastikan keakuratan hasil analisis, dan mengatasi
masalah atau kekurangan yang mungkin muncul dalam data mentah.
Komponen Utama Data Preprocessing

Missing Values
Data Cleaning Data Integration
Handling

Handling
Data Feature
Imbalanced
Transformation Selection
Data

Performance
Optimization
Berikut adalah beberapa komponen utama dari definisi data preprocessing :
a. Pembersihan Data (Data Cleaning)
• Identifikasi dan Penanganan Outliers
Mendeteksi dan mengatasi data yang di luar pola umum, yang dapat mempengaruhi hasil
analisis secara negatif.
• Penanganan Duplikasi
Mengidentifikasi dan menghapus data duplikat yang dapat menghasilkan hasil yang tidak
akurat.
b. Pengisian Nilai yang Hilang (Missing Values Handling)
• Imputasi Nilai
Melakukan estimasi atau pengisian nilai yang hilang menggunaan metode tertentu, seperti
nilai nilai rata-rata atau median.
c. Integrasi Data (Data Integration)
• Penggabungan Data
Menggabungkan data dari berbagai sumber, untuk membuat kumpulan data yang lebih
lengkap dan bermakna.
• Penanganan perbedaan format
Menangani perbedaan dalam fomrat, sekma, atau struktur data
d. Transformasi Data (Data Transformation)
• Standarisasi dan Normalisasi
Menyesuaikan skala dan bentuk distribusi data agar lebih konsisten.
• Encoding Variabel Kategorikal
Mengubah variabel kategorikal menjadi bentuk yang dapat diproses oleh algoritma, seperti
menggunakan one-hot encoding.
e. Seleksi Fitur (Feature Selection)
Memilih subset fitur yang paling relevan dan signifikan untuk analisis atau pemodelan.
f. Manajemen Data Tidak Seimbang (Handling Imbalanced Data)
• Oversampling dan Undersampling
menangani masalah ketidakseimbangan kelas dengan meningkatkan atau mengurangi
jumlah sampel pada kelas tertentu.
• Pengelolaan Kesalahan atau Inkonsistensi (Error Handling)
Penanganan kesalahan data : mendeteksi dan memperbaiki kesalahn atau inkonsistensi
dalam data yang dapat memengaruhi keakuratan analisis.
g. Optimasi Kinerja (Performance Optimization)
• Pemrosesan Paralel
Menggunakan teknik pemrosesan paralel untuk meningkatkan efisiesni dan kecepatan
pemrosesan data.
Pentingnya Data Preprocessing dalam Analisis Data (1)
a. Meningkatkan Kualitas Data
Membersihkan data dari duplikat, outlier, dan nilai yang hilang membantu
meningkatkan kualitas dan integritas data. Data yang bersih dan
terstruktur meminimalkan risiko menghasilkan hasil yang bias atau tidak
akurat.
b. Memastikan Keakuratan Analisis
Data preprocessing membantu memastikan bahwa data yang
digunakan dalam analisis adalah representatif dan akurat. Tanpa
preprocessing, analisis dapat terpengaruh oleh kesalahan atau
ketidakpastian yang mungkin muncul dari data yang tidak bersih atau
tidak terstruktur.

c. Mengatasi Missing Values

Pengisian nilai yang hilang memastikan bahwa tidak ada informasi
yang hilang atau tidak lengkap, yang dapat mengarah pada
kesimpulan yang keliru atau keputusan yang tidak akurat.
Pentingnya Data Preprocessing dalam Analisis Data (2)
d. Integrasi Data dari Sumber yang Berbeda
Dalam kasus penggabungan data dari sumber yang berbeda,
preprocessing membantu menyatukan data dengan format yang
berbeda atau skema yang berbeda, memastikan konsistensi dan
integritas data.
e. Standarisasi dan Normalisasi
Standarisasi dan normalisasi data membantu menghindari bias yang
mungkin muncul akibat perbedaan skala atau unit pengukuran dalam
variabel-variabel yang digunakan dalam analisis.

f. Transformasi Data untuk Analisis yang Optimal

Transformasi data, seperti encoding variabel kategorikal atau
pengurangan dimensi, membantu mempersiapkan data agar sesuai
dengan kebutuhan analisis atau model tertentu.
Pentingnya Data Preprocessing dalam Analisis Data (3)

g. Seleksi Fitur yang Relevan i. Pemrosesan Paralel dan Optimasi

Memilih fitur yang paling relevan mengurangi kompleksitas KinerjaDalam situasi di mana kinerja waktu adalah
model dan meningkatkan interpretabilitas hasil. Hal ini juga faktor kunci, data preprocessing dapat mencakup
dapat menghindari overfitting dan meningkatkan kinerja pemrosesan paralel untuk meningkatkan efisiensi
model. dan kecepatan pemrosesan data.

h. Manajemen Data Tidak Seimbang j. Peningkatan Validitas dan Reliabilitas

Mengatasi masalah data tidak seimbang membantu Dengan memastikan bahwa data telah melalui
memastikan bahwa analisis klasifikasi atau model prosespreprocessing yang tepat, hasil analisis atau
pembelajaran mesin tidak didominasi oleh satu kelas model yang dihasilkan lebih valid dan dapat
tertentu,yang dapat menghasilkan model yang tidak diandalkan.
seimbang dantidak akurat.
Tahapan Data Preprocessing

Data
Data cleaning Transformation

Data Data Reduction

Integration
Tahapan Data Preprocessing
1. Data Cleaning
Dalam langkah data cleaning, data mentah akan dibersihkan melalui beberapa proses seperti mengisi nilai yang
hilang, menghaluskan noisy data, dan menyelesaikan inkonsestensi yang ditemukan.

Data juga bisa dibersihkan dan dirapihkan menggunakan segmen-segmen yang memiliki ukuran serupa lalu
dihaluskan (binning), dengan fungsi regresi linear atau berganda (regression), atau dengan mengelompokkannya
ke dalam kelompok data yang serupa (grouping).

2. Data Integration
Data integration adalah tahap yang menggabungkan data dari berbagai sumber menjadi satu kesatuan data
(dataset). Dalam proses penggabungan tersebut, data dengan format yang berbeda harus diubah terlebih dahulu
ke format yang sama.

Secara keseluruhan, proses integrasi data ini ditujukan untuk menyatukan dan membuat data menjadi lebih halus
melalui upaya-upaya sebagai berikut.
•Memastikan data memiliki format dan atribut yang sama
•Menghapus atribut yang tidak dibutuhkan dari semua sumber data
•Mendeteksi nilai data yang konflik
Tahapan Data Preprocessing
3. Data Transformation
Pada tahap ini, data akan dinormalisasi dan digeneralisasi. Normalisasi data dilakukan untuk memastikan bahwa
tidak ada data yang berlebihan, sementara generalisasi data dilakukan untuk menyeragamkan data. Data
transformation memungkinkan Anda untuk mengubah struktur data, format data, dan nilai data menjadi
sebuah dataset yang sesuai untuk proses mining ataupun algoritma yang sudah dirancang.

Terdapat setidaknya lima langkah yang dapat dilakukan dalam proses data transformation, yaitu:
•Agregation: Langkah untuk menggabungkan semua data dalam format yang seragam.
•Normalization: Langkah untuk mengubah data ke dalam skala yang teratur sehingga dapat dibandingkan dengan
lebih akurat.
•Feature Selection: Langkah untuk menentukan variabel apa saja yang paling penting untuk analisis, di mana
variabel ini juga akan digunakan untuk melatih model machine learning atau kecerdasan buatan.
•Discreditization: Langkah untuk mengumpulkan data ke dalam interval yang lebih kecil. Misalnya, saat
menghitung latihan harian rata-rata, Anda bisa mengelompokkannya menjadi 0-15 menit, 15-30 menit, dan
seterusnya, daripada menggunakan menit dan detik secara rinci.
•Concept Hierarchy Generation: Langkah untuk menambahkan hirarki baru di dalam dataset.
Tahapan Data Preprocessing
4. Data Reduction
Langkah terakhir yang perlu dilakukan adalah data reduction atau pengurangan jumlah
data. Data mining menggunakan data dalam jumlah besar yang dikhawatirkan dapat
menyebabkan tingkat akurasinya menjadi rendah. Oleh karena itu, sampel data perlu
direduksi, namun dengan tetap memperhatikan bahwa proses tersebut tidak akan
mengubah hasil analisis data.

Ada tiga teknik yang bisa diterapkan saat mereduksi data, yakni dengan dimensionality
reduction (pengurangan dimensi), numerosity reduction (pengurangan jumlah),
dan data compression (kompresi data). Ketiga teknik tersebut bisa disesuaikan dengan
kebutuhan, seperti apakah data yang diolah besar, sedang, atau perlu dikompresi dan
beresiko merugikan.
Terima Kasih

Anda mungkin juga menyukai

Ini Soal
Belum ada peringkat
Ini Soal
16 halaman
Discrete Mathematics: Bbk1Bab3
Belum ada peringkat
Discrete Mathematics: Bbk1Bab3
24 halaman
Pdf-Modul Compress
Belum ada peringkat
Pdf-Modul Compress
109 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Roundown Grand Opening Sekolah Kepenulisan
Belum ada peringkat
Roundown Grand Opening Sekolah Kepenulisan
9 halaman
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA Rev
Belum ada peringkat
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA Rev
9 halaman
Silabus - Software Quality Assurance
Belum ada peringkat
Silabus - Software Quality Assurance
9 halaman
Cetak Bukti Print
Belum ada peringkat
Cetak Bukti Print
1 halaman
Makalah Rencana Startegis Baru
Belum ada peringkat
Makalah Rencana Startegis Baru
17 halaman
Radar Lampung, 15 September 2020 PDF
Belum ada peringkat
Radar Lampung, 15 September 2020 PDF
12 halaman
1 PB
Belum ada peringkat
1 PB
9 halaman
Tugas UTS Pak Sur
Belum ada peringkat
Tugas UTS Pak Sur
5 halaman
Laporan Penjualan
Belum ada peringkat
Laporan Penjualan
13 halaman
Laporan Praktikum 1 Preprocessing Dalam Machine Learning
Belum ada peringkat
Laporan Praktikum 1 Preprocessing Dalam Machine Learning
52 halaman
Peran Data Understanding
Belum ada peringkat
Peran Data Understanding
3 halaman
01 - Surat Undangan Pementor SPM
Belum ada peringkat
01 - Surat Undangan Pementor SPM
3 halaman
Rundown Kegiatan Webinar Good Manuscript
Belum ada peringkat
Rundown Kegiatan Webinar Good Manuscript
3 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Setitik Wajah Peternakan Indonesia
Belum ada peringkat
Setitik Wajah Peternakan Indonesia
13 halaman
Minggu 1 - Perancangan Database
Belum ada peringkat
Minggu 1 - Perancangan Database
23 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
29 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Data Preparation
100% (1)
Data Preparation
2 halaman
Data Mining Pertemuan 3
Belum ada peringkat
Data Mining Pertemuan 3
27 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Mifta Ardianti
Belum ada peringkat
Mifta Ardianti
1 halaman
Data Pre-Processing
Belum ada peringkat
Data Pre-Processing
9 halaman
PERTEMUAN VI Preprocessing Data
Belum ada peringkat
PERTEMUAN VI Preprocessing Data
45 halaman
Modul Data Mining
Belum ada peringkat
Modul Data Mining
75 halaman
Rangkuman Pds Kelompok C-1
Belum ada peringkat
Rangkuman Pds Kelompok C-1
21 halaman
Modul-8-Penentuan Objek Dan Pembersihan Data-Template Bahan Ajar TA DTS 2021-IMW
Belum ada peringkat
Modul-8-Penentuan Objek Dan Pembersihan Data-Template Bahan Ajar TA DTS 2021-IMW
88 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Pertemuan 3-Data Preprocessing
Belum ada peringkat
Pertemuan 3-Data Preprocessing
15 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
CH 03 - Basic Principles of Data Wrangling
Belum ada peringkat
CH 03 - Basic Principles of Data Wrangling
10 halaman
3 Teori - Preprocessing Data II
Belum ada peringkat
3 Teori - Preprocessing Data II
25 halaman
Pemrosesan Data - 123
Belum ada peringkat
Pemrosesan Data - 123
13 halaman
05 - Slides - Data Preparation
Belum ada peringkat
05 - Slides - Data Preparation
43 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
41 halaman
Anesya Mahera - 20221026 - Ai A
Belum ada peringkat
Anesya Mahera - 20221026 - Ai A
4 halaman
Data Pre
Belum ada peringkat
Data Pre
5 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
31 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Article Review 9 Data Preprocessing
Belum ada peringkat
Article Review 9 Data Preprocessing
9 halaman
6 - 7705 - MIK620KJ101 - 042018 - PDF
Belum ada peringkat
6 - 7705 - MIK620KJ101 - 042018 - PDF
15 halaman
Kel. 1
Belum ada peringkat
Kel. 1
29 halaman
Aaron Frank Mailopuw - UAS - Big Data Analytics
Belum ada peringkat
Aaron Frank Mailopuw - UAS - Big Data Analytics
4 halaman
Modul - Business Big Data - Sesi 13
Belum ada peringkat
Modul - Business Big Data - Sesi 13
5 halaman
Part 5. KDD
Belum ada peringkat
Part 5. KDD
28 halaman
Laporan Deteksi Warna Opencv
Belum ada peringkat
Laporan Deteksi Warna Opencv
9 halaman
Business Intelligent
Belum ada peringkat
Business Intelligent
15 halaman
Modul1 - Muhamad Aldo Fernanda - 064002000037
Belum ada peringkat
Modul1 - Muhamad Aldo Fernanda - 064002000037
20 halaman
SL - Day 2 Domain - Al-Jazari - Nyzatty Arifin
Belum ada peringkat
SL - Day 2 Domain - Al-Jazari - Nyzatty Arifin
2 halaman
Data Mining M.ridho New 2
Belum ada peringkat
Data Mining M.ridho New 2
9 halaman
Materi 3 Pre Processing Data
Belum ada peringkat
Materi 3 Pre Processing Data
20 halaman
Pertemuan Ke 4 Data Processing
Belum ada peringkat
Pertemuan Ke 4 Data Processing
19 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Data Mining A - Laporan Tugas 2
Belum ada peringkat
Data Mining A - Laporan Tugas 2
14 halaman
Aditya Rifki Nugroho - G.211.21.0001 - Resume Data Preparation
Belum ada peringkat
Aditya Rifki Nugroho - G.211.21.0001 - Resume Data Preparation
2 halaman
Tugas Mahasiswa Data Mining 1
Belum ada peringkat
Tugas Mahasiswa Data Mining 1
5 halaman
Data Pre
Belum ada peringkat
Data Pre
5 halaman
02 - Data Preprocessing
Belum ada peringkat
02 - Data Preprocessing
27 halaman
Silabus Studi Independen
Belum ada peringkat
Silabus Studi Independen
14 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Materi3 4
Belum ada peringkat
Materi3 4
15 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Paper Data Mining
Belum ada peringkat
Paper Data Mining
5 halaman
Resume P1
Belum ada peringkat
Resume P1
4 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Processing Data Mining
Belum ada peringkat
Processing Data Mining
16 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Pengertian Data Preparation
Belum ada peringkat
Pengertian Data Preparation
2 halaman
Tbi Bumn 2023 FR
Belum ada peringkat
Tbi Bumn 2023 FR
1 halaman
Strategi Meningkatkan Kinerja Guru
Dari Everand
Strategi Meningkatkan Kinerja Guru
Andi Sulistiadi
5/5 (1)