PPT-Data Mining-Pertemuan 3
PPT-Data Mining-Pertemuan 3
PERTEMUAN 3
Sumber: Herlambang, M.B., Data Science for Non-Programmers [Power Point Slides]
Tujuan Pemrosesan Data
Data integration
Penggabungan dari beberapa sumber data seperti database,
kubus data, atau file
Data transformation
Normalisasi dan agregasi data sehingga menjadi sama
Data Reduction
Pengurangan dimensi
Pengurangan angka
Kompresi data
Data Discretization
Bagian dari reduksi data
Mengganti atribut numerik dengan atribut nominal. Termasuk
juga pengurangan sejumlah nilai atribut kontinu denaan
membagi rentang interval atribut.
https://miro.medium.com/v2/resize:fit:720/format:webp/0*Boo5Qqmef08gvz_4.png
Data Cleaning (Pembersihan Data)
Data di dunia nyata sering kali tidak lengkap, bermasalah, dan tidak konsisten. Banyak bagian
data yang mungkin tidak relevan atau hilang. Pembersihan data dilakukan untuk menangani
aspek ini.
Metode pembersihan data bertujuan untuk mengisi nilai yang hilang, menghaluskan noise
sekaligus mengidentifikasi outlier, dan memperbaiki perbedaan data. Data yang tidak bersih
dapat membingungkan data dan model. Oleh karena itu, menjalankan data melalui berbagai
metode Pembersihan/Pembersihan Data merupakan langkah Pra-pemrosesan Data yang
penting.
https://miro.medium.com/v2/resize:fit:466/format:webp/0*MQo2mbX9GjTyPRYX
Missing Data Imputation
• Jika datasetnya lengkap (tidak ada nilai kosong), maka idealnya tidak perlu dilakukan missing data imputation.
• Tujuan dari missing data imputation (pengisian nilai kosong) adalah menghasilkan dataset yang lengkap, sehingga
bisa digunakan untuk proses analisis lebih lanjut.
• Adanya nilai kosong di dataset menyebabkan beberapa masalah, antara lain:
– Beberapa algoritma machine learning tidak bisa dijalankan jika masih ada data kosong.
– Data kosong dapat mendistorsi distribusi dari variabel yang terpengaruh.
• Sebelum kita lakukan langkah-langkah saat menemukan data kosong, maka perlu diketahui penyebab mengapa ada
data kosong di dataset kita.
• Dalam menentukan metode yang tepat untuk mengatasi nilai kosong, maka sangat penting untuk mengetahui
bagaimana data tersebut didapatkan.
• Dengan mengetahui metode didapatkannya data, kita bisa menilai secara objektif mengapa terdapat nilai kosong di
dataset.
• Dengan demikian, bisa dipilih metode missing data imputation yang tepat sesuai kondisi yang sebenarnya terjadi di
lapangan sebagai penyebab adanya missing data.
Sumber: Herlambang, M.B., Data Science for Non-Programmers [Power Point Slides]
Metode Missing Data Imputation
• Memeriksa data duplikat: Jika baris/kolom yang sama diulang maka dapat
dihilangkan dengan mempertahankan data pertama, sehingga pada saat menjalankan
algoritma pembelajaran mesin (Machine Learning), agar tidak bias pada objek data
tertentu.
Metode Missing Data Imputation
• Memperkirakan data yang hilang: Jika hanya sebagian kecil dari nilai yang hilang, metode interpolasi dasar dapat digunakan
untuk mengisi kekosongan tersebut. Namun, pendekatan paling umum untuk menangani data yang hilang adalah dengan
mengisinya dengan nilai mean, median, atau mode fitur.
– Tipe data Numerik (angka)
• Mengganti dengan nilai mean (jika normal) atau median (jika skewed) Perhitungan mean/median dihitung di
training set, kemudian nilai mean/median diisikan untuk training dan test set.
• Mengganti dengan nilai akhir dari distribusi (mirip dengan tahap kedua di atas) Formula: Mean ± 3*SD jika
berdistribusi normal dan jika distribusi skewed maka Q1 - IQR*3 (lower limit) atau Q3 + IQR*3 (upper limit).
• Menghilangkan baris-baris data yang hilang (dilakukan jika baris yang hilang adalah random dan kurang dari 5% total
data)
- Tipe data Categorical (kategori)
• Mengganti dengan nilai kategori yang sering muncul (modus / most frequent) diasumsikan terjadi karena MCAR
• Mengganti dengan kategori baru, seperti ‘kosong’, ‘missing’, dll
• Menghilangkan baris-baris data yang hilang (dilakukan jika baris yang hilang adalah random dan kurang dari 5% total
data)
Metode Missing Data Imputation
Program: Tipe data Categorical (kategori)
Metode Missing Data Imputation
Program: Tipe data Categorical (kategori)
Metode Missing Data Imputation
Program: Tipe data Numerik
Noisy Data
Cara mengetahui outlier : Klastering (clustering), Regresi Linear
• Outliers adalah data points (nilai baris dalam feature/kolom tertentu) yang berbeda dari baris-baris lainnya
dalam feature/kolom yang sama dan diduga berasal dari sumber/mekanisme data yang berbeda.
• Tidak selamanya outlier harus dibuang. Ini semua ditentukan oleh pengamatan terhadap data dan konteks
masalah yang dihadapi.
• Aturan dasarnya, jika outliers disebabkan karena kesalahan (error) karena metode pengukuran, maka sebaiknya
outliers tersebut dibuang terlebih dahulu sebelum datanya dianalisis lebih lanjut.
Mengatasi Outlier (2)
• Trimming
Langsung menghapus data point (baris) dari dataset ( prosesnya cepat tapi harus hati-hati)
• Missing data
Memberlakukan outlier sebagai missing data dan lakukan missing data imputation
• Discretization
Mentransformasi data kontinu menjadi data diskrit dengan rentang tertentu. Dengan demikian, data
outlier akan menjad bagian dari data urutan di belakangnya.
Misal: Usia 16-70 th diganti menjadi 16-20 th, 21-25 th, 30-35 th, dst
• Censoring
Jika lebih besar atau lebih kecil dari batas tertentu, maka ganti dengan nilai yang ditentukan.
Data Transformation
Tujuan diadakan transformasi data agar data lebih efisien dalam proses data mining
dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.
https://miro.medium.com/v2/resize:fit:828/format:webp/1*yR54MSI1jjnf2QeGtt57PA.png
Data Transformation
Normalization
Rumus :
Dengan:
Data Transformation
Tabel 1.1 fitur gaji dan pengalaman
Contoh:
Gaji Pengalaman
5.000.000 1
7.000.000 3
9.000.000 5
12.000.000 7
15.000.000 10
1 0
3 0.22
5 0.44
7 0.67
10 1
Data Transformation
Program:
Dengan menggunakan rumus min-max normalisasi pada Pyhton
Data Transformation
Teknik normalisasi data yang menggunakan nilai rata-rata dan standar deviasi untuk menghitung nilai baru
dari setiap titik data. Tujuan: untuk membuat distribusi data menjadi memiliki mean 0 dan standar deviasi 1.
Dengan:
Data Transformation
Jawaban: Tabel 1.3 fitur pengalaman yang sudah dinormalisasikan
Dengan menggunakan rumus Z-score normalization Pengalaman yang
Pengalaman
dinormalisasikan
1
-1,34439
3
-0,7042
5
-0,06402
7
0,576166
66 10
,536443 1,536443
Data Transformation
Program:
Dengan menggunakan rumus StandardScaler pada Pyhton
Latihan
1. Download data train.csv pada
https://www.kaggle.com/competitions/titanic/data kemudian lakukan
langkah-langkah pra-pemrosesan (data cleaning dan data transformation)
dengan menggunakan pyhton.
TERIMA
KASIH