0% menganggap dokumen ini bermanfaat (0 suara)
60 tayangan27 halaman

PPT-Data Mining-Pertemuan 3

Dokumen ini membahas tentang pra-pemrosesan data sebelum analisis data. Pra-pemrosesan data meliputi kegiatan membersihkan, mengintegrasikan, dan mengubah data agar lebih baik dan konsisten untuk analisis selanjutnya.

Diunggah oleh

RM
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
60 tayangan27 halaman

PPT-Data Mining-Pertemuan 3

Dokumen ini membahas tentang pra-pemrosesan data sebelum analisis data. Pra-pemrosesan data meliputi kegiatan membersihkan, mengintegrasikan, dan mengubah data agar lebih baik dan konsisten untuk analisis selanjutnya.

Diunggah oleh

RM
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 27

Pra-Pemrosesan Data

PERTEMUAN 3

Program Studi Teknik Informatika


Mengapa Data Diproses di Awal?
• Di lapangan, data yang dimiliki (raw data) biasanya kotor dan berantakan.
• Beberapa kasus yang sering dihadapi, antara lain:
• Tidak lengkap: nilai-nilai atribut kosong (missing data) yang disebabkan karena responden tidak mau mengisi survey,
adanya human error saat pengisian data, dan faktor lainnya.
Misal, pekerjaan=“ ” di mana seharusnya diisi misal “staff keuangan”.
• Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain).
Misal, Salary=“-10” di mana seharusnya salary tidak pernah negatif (yang mungkin negatif contohnya adalah cashflow)
• Tak-konsisten: memuat perbedaan dalam kode atau nama
Contoh:
• ulang tahun = “03/07/1997” harus konsisten date/month/year
• rating sebelumnya “1,2,3”, sekarang rating “A, B, C”
• perbedaan antara duplikasi record (data yang sama muncul dua kali atau lebih)
• Data yang baik akan menghasilkan hasil yang baik.
• Tahapan preprocessing membantu di dalam memperbaiki presisi dan kinerja dalam analisis data dan mencegah kesalahan dalam
prosesnya.
Mengapa Data Kotor?

• Ketidaklengkapan data datang dari:


1. Nilai data tidak tersedia saat dikumpulkan
2. Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data dianalisa.
3. Masalah manusia, hardware, dan software

• Noisy data datang dari proses data:


1. Pengumpulan
2. Pemasukan (entry)
3. Transmisi

• Tidak konsistennya data datang dari:


1. Sumber data yang berbeda
2. Pelanggaran kebergantungan fungsional

Sumber: Herlambang, M.B., Data Science for Non-Programmers [Power Point Slides]
Tujuan Pemrosesan Data

• Menghasilkan hasil mining yang berkualitas


• Data warehouse membutuhkan integrasi yang konsisten
• Data extraction, cleaning, and transformation merupakan salah satu tahapan untuk membangun
gudang data
Tahapan Pra-Pemrosesan Data Preprocessing terdiri dari beberapa aspek:
 Data cleaning
 Data kosong (data imputation)
 Meminimumkan Noise
 Mengatasi data yang tidak konsisten
 Mengatasi outliers

 Data integration
 Penggabungan dari beberapa sumber data seperti database,
kubus data, atau file

 Data transformation
 Normalisasi dan agregasi data sehingga menjadi sama

 Data Reduction
 Pengurangan dimensi
 Pengurangan angka
 Kompresi data

 Data Discretization
 Bagian dari reduksi data
 Mengganti atribut numerik dengan atribut nominal. Termasuk
juga pengurangan sejumlah nilai atribut kontinu denaan
membagi rentang interval atribut.

https://miro.medium.com/v2/resize:fit:720/format:webp/0*Boo5Qqmef08gvz_4.png
Data Cleaning (Pembersihan Data)

Data di dunia nyata sering kali tidak lengkap, bermasalah, dan tidak konsisten. Banyak bagian
data yang mungkin tidak relevan atau hilang. Pembersihan data dilakukan untuk menangani
aspek ini.

Metode pembersihan data bertujuan untuk mengisi nilai yang hilang, menghaluskan noise
sekaligus mengidentifikasi outlier, dan memperbaiki perbedaan data. Data yang tidak bersih
dapat membingungkan data dan model. Oleh karena itu, menjalankan data melalui berbagai
metode Pembersihan/Pembersihan Data merupakan langkah Pra-pemrosesan Data yang
penting.

https://miro.medium.com/v2/resize:fit:466/format:webp/0*MQo2mbX9GjTyPRYX
Missing Data Imputation
• Jika datasetnya lengkap (tidak ada nilai kosong), maka idealnya tidak perlu dilakukan missing data imputation.
• Tujuan dari missing data imputation (pengisian nilai kosong) adalah menghasilkan dataset yang lengkap, sehingga
bisa digunakan untuk proses analisis lebih lanjut.
• Adanya nilai kosong di dataset menyebabkan beberapa masalah, antara lain:
– Beberapa algoritma machine learning tidak bisa dijalankan jika masih ada data kosong.
– Data kosong dapat mendistorsi distribusi dari variabel yang terpengaruh.
• Sebelum kita lakukan langkah-langkah saat menemukan data kosong, maka perlu diketahui penyebab mengapa ada
data kosong di dataset kita.
• Dalam menentukan metode yang tepat untuk mengatasi nilai kosong, maka sangat penting untuk mengetahui
bagaimana data tersebut didapatkan.
• Dengan mengetahui metode didapatkannya data, kita bisa menilai secara objektif mengapa terdapat nilai kosong di
dataset.
• Dengan demikian, bisa dipilih metode missing data imputation yang tepat sesuai kondisi yang sebenarnya terjadi di
lapangan sebagai penyebab adanya missing data.

Sumber: Herlambang, M.B., Data Science for Non-Programmers [Power Point Slides]
Metode Missing Data Imputation

• Menghapus baris/kolom: Jika baris/kolom memiliki nilai NaN maka tidak


ada nilai pada baris/kolom tersebut, sehingga baris/kolom tersebut harus segera
dihilangkan. Atau jika % baris/kolom sebagian besar hilang, katakanlah lebih dari
65%, maka dapat memilih untuk menghapus baris/kolom tersebut.

• Memeriksa data duplikat: Jika baris/kolom yang sama diulang maka dapat
dihilangkan dengan mempertahankan data pertama, sehingga pada saat menjalankan
algoritma pembelajaran mesin (Machine Learning), agar tidak bias pada objek data
tertentu.
Metode Missing Data Imputation
• Memperkirakan data yang hilang: Jika hanya sebagian kecil dari nilai yang hilang, metode interpolasi dasar dapat digunakan
untuk mengisi kekosongan tersebut. Namun, pendekatan paling umum untuk menangani data yang hilang adalah dengan
mengisinya dengan nilai mean, median, atau mode fitur.
– Tipe data Numerik (angka)
• Mengganti dengan nilai mean (jika normal) atau median (jika skewed)  Perhitungan mean/median dihitung di
training set, kemudian nilai mean/median diisikan untuk training dan test set.
• Mengganti dengan nilai akhir dari distribusi (mirip dengan tahap kedua di atas)  Formula: Mean ± 3*SD jika
berdistribusi normal dan jika distribusi skewed maka Q1 - IQR*3 (lower limit) atau Q3 + IQR*3 (upper limit).
• Menghilangkan baris-baris data yang hilang (dilakukan jika baris yang hilang adalah random dan kurang dari 5% total
data)
- Tipe data Categorical (kategori)
• Mengganti dengan nilai kategori yang sering muncul (modus / most frequent)  diasumsikan terjadi karena MCAR
• Mengganti dengan kategori baru, seperti ‘kosong’, ‘missing’, dll
• Menghilangkan baris-baris data yang hilang (dilakukan jika baris yang hilang adalah random dan kurang dari 5% total
data)
Metode Missing Data Imputation
Program: Tipe data Categorical (kategori)
Metode Missing Data Imputation
Program: Tipe data Categorical (kategori)
Metode Missing Data Imputation
Program: Tipe data Numerik
Noisy Data
Cara mengetahui outlier : Klastering (clustering), Regresi Linear

Mendeteksi Outlier dengan Clustering

Dalam metode Clustering, data


terkait dikelompokkan dalam sebuah
cluster. Outlier berada di luar
kelompok.
Mendeteksi Outlier dengan Regresi
Mengatasi Outlier

• Outliers adalah data points (nilai baris dalam feature/kolom tertentu) yang berbeda dari baris-baris lainnya
dalam feature/kolom yang sama dan diduga berasal dari sumber/mekanisme data yang berbeda.
• Tidak selamanya outlier harus dibuang. Ini semua ditentukan oleh pengamatan terhadap data dan konteks
masalah yang dihadapi.
• Aturan dasarnya, jika outliers disebabkan karena kesalahan (error) karena metode pengukuran, maka sebaiknya
outliers tersebut dibuang terlebih dahulu sebelum datanya dianalisis lebih lanjut.
Mengatasi Outlier (2)

• Trimming
 Langsung menghapus data point (baris) dari dataset ( prosesnya cepat tapi harus hati-hati)
• Missing data
 Memberlakukan outlier sebagai missing data dan lakukan missing data imputation
• Discretization
 Mentransformasi data kontinu menjadi data diskrit dengan rentang tertentu. Dengan demikian, data
outlier akan menjad bagian dari data urutan di belakangnya.
 Misal: Usia 16-70 th diganti menjadi  16-20 th, 21-25 th, 30-35 th, dst
• Censoring
 Jika lebih besar atau lebih kecil dari batas tertentu, maka ganti dengan nilai yang ditentukan.
Data Transformation

Tujuan diadakan transformasi data agar data lebih efisien dalam proses data mining
dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.

Hal-hal yang termasuk transformasi data:


Smoothing : menghapus noise dari data
Aggregation : ringkasan, kontruksi data cube
Normalization : min-max, Z-Score, decimal scaling
Data Transformation
Normalization atau dikenal juga penskalaan fitur (feature scaling) dan standardisasi

https://miro.medium.com/v2/resize:fit:828/format:webp/1*yR54MSI1jjnf2QeGtt57PA.png
Data Transformation

Normalization

a. Min-max normalization: menghasilkan [new_min,new_max]

Tujuan: mengubah data kedalam rentang nilai 0 hingga 1.

Rumus :

Dengan:
Data Transformation
Tabel 1.1 fitur gaji dan pengalaman
Contoh:
Gaji Pengalaman

5.000.000 1

7.000.000 3

9.000.000 5

12.000.000 7

15.000.000 10

Lakukan normalisasi data di tabel 1.1 dengan menggunakan teknik minmax.


Data Transformation
Jawaban: Tabel 1.2 fitur pengalaman yang sudah dinormalisasikan
Dengan menggunakan rumus min-max normalisasi
Pengalaman yang
Pengalaman
dinormalisasikan

1 0

3 0.22

5 0.44

7 0.67

10 1
Data Transformation
Program:
Dengan menggunakan rumus min-max normalisasi pada Pyhton
Data Transformation

Standardization (Z-score normalization)

Teknik normalisasi data yang menggunakan nilai rata-rata dan standar deviasi untuk menghitung nilai baru
dari setiap titik data. Tujuan: untuk membuat distribusi data menjadi memiliki mean 0 dan standar deviasi 1.

Dengan:
Data Transformation
Jawaban: Tabel 1.3 fitur pengalaman yang sudah dinormalisasikan
Dengan menggunakan rumus Z-score normalization Pengalaman yang
Pengalaman
dinormalisasikan

1
-1,34439

3
-0,7042

5
-0,06402

7
0,576166

66 10
,536443 1,536443
Data Transformation
Program:
Dengan menggunakan rumus StandardScaler pada Pyhton
Latihan
1. Download data train.csv pada
https://www.kaggle.com/competitions/titanic/data kemudian lakukan
langkah-langkah pra-pemrosesan (data cleaning dan data transformation)
dengan menggunakan pyhton.
TERIMA
KASIH

Anda mungkin juga menyukai