0% menganggap dokumen ini bermanfaat (0 suara)

60 tayangan27 halaman

PPT-Data Mining-Pertemuan 3

Dokumen ini membahas tentang pra-pemrosesan data sebelum analisis data. Pra-pemrosesan data meliputi kegiatan membersihkan, mengintegrasikan, dan mengubah data agar lebih baik dan konsisten untuk analisis selanjutnya.

Diunggah oleh

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

60 tayangan27 halaman

PPT-Data Mining-Pertemuan 3

Diunggah oleh

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 27

Pra-Pemrosesan Data

PERTEMUAN 3

Program Studi Teknik Informatika

Mengapa Data Diproses di Awal?
• Di lapangan, data yang dimiliki (raw data) biasanya kotor dan berantakan.
• Beberapa kasus yang sering dihadapi, antara lain:
• Tidak lengkap: nilai-nilai atribut kosong (missing data) yang disebabkan karena responden tidak mau mengisi survey,
adanya human error saat pengisian data, dan faktor lainnya.
Misal, pekerjaan=“ ” di mana seharusnya diisi misal “staff keuangan”.
• Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain).
Misal, Salary=“-10” di mana seharusnya salary tidak pernah negatif (yang mungkin negatif contohnya adalah cashflow)
• Tak-konsisten: memuat perbedaan dalam kode atau nama
Contoh:
• ulang tahun = “03/07/1997” harus konsisten date/month/year
• rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
• perbedaan antara duplikasi record (data yang sama muncul dua kali atau lebih)
• Data yang baik akan menghasilkan hasil yang baik.
• Tahapan preprocessing membantu di dalam memperbaiki presisi dan kinerja dalam analisis data dan mencegah kesalahan dalam
prosesnya.
Mengapa Data Kotor?

• Ketidaklengkapan data datang dari:

1. Nilai data tidak tersedia saat dikumpulkan
2. Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data dianalisa.
3. Masalah manusia, hardware, dan software

• Noisy data datang dari proses data:

1. Pengumpulan
2. Pemasukan (entry)
3. Transmisi

• Tidak konsistennya data datang dari:

1. Sumber data yang berbeda
2. Pelanggaran kebergantungan fungsional

Sumber: Herlambang, M.B., Data Science for Non-Programmers [Power Point Slides]
Tujuan Pemrosesan Data

• Menghasilkan hasil mining yang berkualitas

• Data warehouse membutuhkan integrasi yang konsisten
• Data extraction, cleaning, and transformation merupakan salah satu tahapan untuk membangun
gudang data
Tahapan Pra-Pemrosesan Data Preprocessing terdiri dari beberapa aspek:
 Data cleaning
 Data kosong (data imputation)
 Meminimumkan Noise
 Mengatasi data yang tidak konsisten
 Mengatasi outliers

 Data integration
 Penggabungan dari beberapa sumber data seperti database,
kubus data, atau file

 Data transformation
 Normalisasi dan agregasi data sehingga menjadi sama

 Data Reduction
 Pengurangan dimensi
 Pengurangan angka
 Kompresi data

 Data Discretization
 Bagian dari reduksi data
 Mengganti atribut numerik dengan atribut nominal. Termasuk
juga pengurangan sejumlah nilai atribut kontinu denaan
membagi rentang interval atribut.

https://miro.medium.com/v2/resize:fit:720/format:webp/0*Boo5Qqmef08gvz_4.png
Data Cleaning (Pembersihan Data)

Data di dunia nyata sering kali tidak lengkap, bermasalah, dan tidak konsisten. Banyak bagian
data yang mungkin tidak relevan atau hilang. Pembersihan data dilakukan untuk menangani
aspek ini.

Metode pembersihan data bertujuan untuk mengisi nilai yang hilang, menghaluskan noise
sekaligus mengidentifikasi outlier, dan memperbaiki perbedaan data. Data yang tidak bersih
dapat membingungkan data dan model. Oleh karena itu, menjalankan data melalui berbagai
metode Pembersihan/Pembersihan Data merupakan langkah Pra-pemrosesan Data yang
penting.

https://miro.medium.com/v2/resize:fit:466/format:webp/0*MQo2mbX9GjTyPRYX
Missing Data Imputation
• Jika datasetnya lengkap (tidak ada nilai kosong), maka idealnya tidak perlu dilakukan missing data imputation.
• Tujuan dari missing data imputation (pengisian nilai kosong) adalah menghasilkan dataset yang lengkap, sehingga
bisa digunakan untuk proses analisis lebih lanjut.
• Adanya nilai kosong di dataset menyebabkan beberapa masalah, antara lain:
– Beberapa algoritma machine learning tidak bisa dijalankan jika masih ada data kosong.
– Data kosong dapat mendistorsi distribusi dari variabel yang terpengaruh.
• Sebelum kita lakukan langkah-langkah saat menemukan data kosong, maka perlu diketahui penyebab mengapa ada
data kosong di dataset kita.
• Dalam menentukan metode yang tepat untuk mengatasi nilai kosong, maka sangat penting untuk mengetahui
bagaimana data tersebut didapatkan.
• Dengan mengetahui metode didapatkannya data, kita bisa menilai secara objektif mengapa terdapat nilai kosong di
dataset.
• Dengan demikian, bisa dipilih metode missing data imputation yang tepat sesuai kondisi yang sebenarnya terjadi di
lapangan sebagai penyebab adanya missing data.

Sumber: Herlambang, M.B., Data Science for Non-Programmers [Power Point Slides]
Metode Missing Data Imputation

• Menghapus baris/kolom: Jika baris/kolom memiliki nilai NaN maka tidak

ada nilai pada baris/kolom tersebut, sehingga baris/kolom tersebut harus segera
dihilangkan. Atau jika % baris/kolom sebagian besar hilang, katakanlah lebih dari
65%, maka dapat memilih untuk menghapus baris/kolom tersebut.

• Memeriksa data duplikat: Jika baris/kolom yang sama diulang maka dapat
dihilangkan dengan mempertahankan data pertama, sehingga pada saat menjalankan
algoritma pembelajaran mesin (Machine Learning), agar tidak bias pada objek data
tertentu.
Metode Missing Data Imputation
• Memperkirakan data yang hilang: Jika hanya sebagian kecil dari nilai yang hilang, metode interpolasi dasar dapat digunakan
untuk mengisi kekosongan tersebut. Namun, pendekatan paling umum untuk menangani data yang hilang adalah dengan
mengisinya dengan nilai mean, median, atau mode fitur.
– Tipe data Numerik (angka)
• Mengganti dengan nilai mean (jika normal) atau median (jika skewed)  Perhitungan mean/median dihitung di
training set, kemudian nilai mean/median diisikan untuk training dan test set.
• Mengganti dengan nilai akhir dari distribusi (mirip dengan tahap kedua di atas)  Formula: Mean ± 3*SD jika
berdistribusi normal dan jika distribusi skewed maka Q1 - IQR*3 (lower limit) atau Q3 + IQR*3 (upper limit).
• Menghilangkan baris-baris data yang hilang (dilakukan jika baris yang hilang adalah random dan kurang dari 5% total
data)
- Tipe data Categorical (kategori)
• Mengganti dengan nilai kategori yang sering muncul (modus / most frequent)  diasumsikan terjadi karena MCAR
• Mengganti dengan kategori baru, seperti ‘kosong’, ‘missing’, dll
• Menghilangkan baris-baris data yang hilang (dilakukan jika baris yang hilang adalah random dan kurang dari 5% total
data)
Metode Missing Data Imputation
Program: Tipe data Categorical (kategori)
Metode Missing Data Imputation
Program: Tipe data Categorical (kategori)
Metode Missing Data Imputation
Program: Tipe data Numerik
Noisy Data
Cara mengetahui outlier : Klastering (clustering), Regresi Linear

Mendeteksi Outlier dengan Clustering

Dalam metode Clustering, data

terkait dikelompokkan dalam sebuah
cluster. Outlier berada di luar
kelompok.
Mendeteksi Outlier dengan Regresi
Mengatasi Outlier

• Outliers adalah data points (nilai baris dalam feature/kolom tertentu) yang berbeda dari baris-baris lainnya
dalam feature/kolom yang sama dan diduga berasal dari sumber/mekanisme data yang berbeda.
• Tidak selamanya outlier harus dibuang. Ini semua ditentukan oleh pengamatan terhadap data dan konteks
masalah yang dihadapi.
• Aturan dasarnya, jika outliers disebabkan karena kesalahan (error) karena metode pengukuran, maka sebaiknya
outliers tersebut dibuang terlebih dahulu sebelum datanya dianalisis lebih lanjut.
Mengatasi Outlier (2)

• Trimming
 Langsung menghapus data point (baris) dari dataset ( prosesnya cepat tapi harus hati-hati)
• Missing data
 Memberlakukan outlier sebagai missing data dan lakukan missing data imputation
• Discretization
 Mentransformasi data kontinu menjadi data diskrit dengan rentang tertentu. Dengan demikian, data
outlier akan menjad bagian dari data urutan di belakangnya.
 Misal: Usia 16-70 th diganti menjadi  16-20 th, 21-25 th, 30-35 th, dst
• Censoring
 Jika lebih besar atau lebih kecil dari batas tertentu, maka ganti dengan nilai yang ditentukan.
Data Transformation

Tujuan diadakan transformasi data agar data lebih efisien dalam proses data mining
dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.

Hal-hal yang termasuk transformasi data:

Smoothing : menghapus noise dari data
Aggregation : ringkasan, kontruksi data cube
Normalization : min-max, Z-Score, decimal scaling
Data Transformation
Normalization atau dikenal juga penskalaan fitur (feature scaling) dan standardisasi

https://miro.medium.com/v2/resize:fit:828/format:webp/1*yR54MSI1jjnf2QeGtt57PA.png
Data Transformation

Normalization

a. Min-max normalization: menghasilkan [new_min,new_max]

Tujuan: mengubah data kedalam rentang nilai 0 hingga 1.

Rumus :

Dengan:
Data Transformation
Tabel 1.1 fitur gaji dan pengalaman
Contoh:
Gaji Pengalaman

5.000.000 1

7.000.000 3

9.000.000 5

12.000.000 7

15.000.000 10

Lakukan normalisasi data di tabel 1.1 dengan menggunakan teknik minmax.

Data Transformation
Jawaban: Tabel 1.2 fitur pengalaman yang sudah dinormalisasikan
Dengan menggunakan rumus min-max normalisasi
Pengalaman yang
Pengalaman
dinormalisasikan

1 0

3 0.22

5 0.44

7 0.67

10 1
Data Transformation
Program:
Dengan menggunakan rumus min-max normalisasi pada Pyhton
Data Transformation

Standardization (Z-score normalization)

Teknik normalisasi data yang menggunakan nilai rata-rata dan standar deviasi untuk menghitung nilai baru
dari setiap titik data. Tujuan: untuk membuat distribusi data menjadi memiliki mean 0 dan standar deviasi 1.

Dengan:
Data Transformation
Jawaban: Tabel 1.3 fitur pengalaman yang sudah dinormalisasikan
Dengan menggunakan rumus Z-score normalization Pengalaman yang
Pengalaman
dinormalisasikan

1
-1,34439

3
-0,7042

5
-0,06402

7
0,576166

66 10
,536443 1,536443
Data Transformation
Program:
Dengan menggunakan rumus StandardScaler pada Pyhton
Latihan
1. Download data train.csv pada
https://www.kaggle.com/competitions/titanic/data kemudian lakukan
langkah-langkah pra-pemrosesan (data cleaning dan data transformation)
dengan menggunakan pyhton.
TERIMA
KASIH

Anda mungkin juga menyukai

Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
4/5 (16)
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
73 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
29 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
LiDIA Materi-6 Data-Preparasi Up
Belum ada peringkat
LiDIA Materi-6 Data-Preparasi Up
39 halaman
Data Mining Pertemuan 3
Belum ada peringkat
Data Mining Pertemuan 3
27 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA Rev
Belum ada peringkat
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA Rev
9 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Modul Membersihkan Data
Belum ada peringkat
Modul Membersihkan Data
12 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Cleaning Data
50% (4)
Cleaning Data
19 halaman
Handout TIF311 DM 3
Belum ada peringkat
Handout TIF311 DM 3
36 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Pembersihan Data (Data Cleansing)
Belum ada peringkat
Pembersihan Data (Data Cleansing)
29 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Pertemuan 8 Data Preprocessing
Belum ada peringkat
Pertemuan 8 Data Preprocessing
19 halaman
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
Belum ada peringkat
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
13 halaman
Pre-Processing Data Part 1
Belum ada peringkat
Pre-Processing Data Part 1
22 halaman
Pengertian Data, Jenis Dan Tipe Data
100% (1)
Pengertian Data, Jenis Dan Tipe Data
20 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
31 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Materi3 4
Belum ada peringkat
Materi3 4
15 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Data Mining A - Laporan Tugas 2
Belum ada peringkat
Data Mining A - Laporan Tugas 2
14 halaman
PERTEMUAN VI Preprocessing Data
Belum ada peringkat
PERTEMUAN VI Preprocessing Data
45 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
41 halaman
Membersihkan Data
Belum ada peringkat
Membersihkan Data
41 halaman
Preprocessing Dalam Data Mining
Belum ada peringkat
Preprocessing Dalam Data Mining
6 halaman
6 - 7705 - MIK620KJ101 - 042018 - PDF
Belum ada peringkat
6 - 7705 - MIK620KJ101 - 042018 - PDF
15 halaman
Gede Thadeo Angga Kusuma - Tugas 3
Belum ada peringkat
Gede Thadeo Angga Kusuma - Tugas 3
8 halaman
Sesi 3 - Data Cleaning & EDA
Belum ada peringkat
Sesi 3 - Data Cleaning & EDA
38 halaman
485 - Data Mining-P03
Belum ada peringkat
485 - Data Mining-P03
25 halaman
Modul RPD 1
Belum ada peringkat
Modul RPD 1
18 halaman
AD Modul 12. Pembersihan Data
Belum ada peringkat
AD Modul 12. Pembersihan Data
17 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
37 halaman
TDM 3
Belum ada peringkat
TDM 3
24 halaman
Pertemuan 2 - Data Understanding
Belum ada peringkat
Pertemuan 2 - Data Understanding
45 halaman
05.2 Bab 2
Belum ada peringkat
05.2 Bab 2
7 halaman
Modul-9-Transformasi Data-Template Bahan Ajar TA DTS 2021 - Final
Belum ada peringkat
Modul-9-Transformasi Data-Template Bahan Ajar TA DTS 2021 - Final
68 halaman
Data Mining 02
Belum ada peringkat
Data Mining 02
30 halaman
Laporan Tugas Minggu 2
Belum ada peringkat
Laporan Tugas Minggu 2
17 halaman
Data Mining-G1F020024 - Bagus Mirzana
Belum ada peringkat
Data Mining-G1F020024 - Bagus Mirzana
11 halaman
Data Imputation Dengan Default Value
Belum ada peringkat
Data Imputation Dengan Default Value
3 halaman
Eps2 - Data Understanding
Belum ada peringkat
Eps2 - Data Understanding
8 halaman
Modul Mengkonstruksi Data
Belum ada peringkat
Modul Mengkonstruksi Data
29 halaman
Anesya Mahera - 20221026 - Ai A
Belum ada peringkat
Anesya Mahera - 20221026 - Ai A
4 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Business Intelligent
Belum ada peringkat
Business Intelligent
15 halaman
Processing Data Mining
Belum ada peringkat
Processing Data Mining
16 halaman
Karakteritis Dan Preprocessing Data DER
Belum ada peringkat
Karakteritis Dan Preprocessing Data DER
60 halaman
PPT-Data Mining-Pertemuan 2
Belum ada peringkat
PPT-Data Mining-Pertemuan 2
44 halaman
Pertemuan 2 JST 2024 02
Belum ada peringkat
Pertemuan 2 JST 2024 02
24 halaman
Pertemuan 3 JST 2024 03
Belum ada peringkat
Pertemuan 3 JST 2024 03
10 halaman
Filsafat Ilmu 06
Belum ada peringkat
Filsafat Ilmu 06
16 halaman
Filsafat Ilmu Sore Daring
Belum ada peringkat
Filsafat Ilmu Sore Daring
1 halaman
Filsafat Ilmu 05
Belum ada peringkat
Filsafat Ilmu 05
20 halaman