0% menganggap dokumen ini bermanfaat (0 suara)
12 tayangan27 halaman

Preprocessing Data

Dokumen ini membahas tentang preprocessing data dalam konteks KDD, termasuk masalah seperti data yang tidak komplit, noisy, dan tidak konsisten. Tujuan dari preprocessing adalah untuk menghasilkan data yang berkualitas tinggi melalui pembersihan, integrasi, transformasi, dan reduksi data. Metode yang dijelaskan mencakup pengisian missing value, deteksi outlier, dan teknik normalisasi serta diskritisasi data.

Diunggah oleh

lecture willy
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
12 tayangan27 halaman

Preprocessing Data

Dokumen ini membahas tentang preprocessing data dalam konteks KDD, termasuk masalah seperti data yang tidak komplit, noisy, dan tidak konsisten. Tujuan dari preprocessing adalah untuk menghasilkan data yang berkualitas tinggi melalui pembersihan, integrasi, transformasi, dan reduksi data. Metode yang dijelaskan mencakup pengisian missing value, deteksi outlier, dan teknik normalisasi serta diskritisasi data.

Diunggah oleh

lecture willy
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 27

KDD (Knowledge DataWILLY PRIHARTONO

Discovery)

PREPROCESSING DATA

This Photo by Unknown Author is licensed under CC BY-NC


Preprocessing Data
LATAR BELAKANG PRAPROSES DATA

Tidak komplit
• Terdapat artribut yang kosong dikarenakan atribut tersebut tidak dapat
diaplikasikan untuk semua kasus
• Human/Hardware/Software problems

Noisy
• Data mengandung error atau outlier karena terdapat kesalahan dalam
penggunaan alat, kesalahan manusia atau komputer pada saat
memasukkan data, eror dalam transmisi data

Tidak konsisten
• Format data berubah-ubah dikarenakan berasal dari sumber data yang
berbeda. Contoh: Format tanggal
TUJUAN PRAPROSES

• Menghasilkan hasil mining yang berkualitas


• Data warehouse membutuhkan integrasi yang konsisten
• Data extraction, cleaning, and transformation merupakan salah
satu tahapan untuk membangun gudang data

Sumber:
www.syncsort.com/Syncsort/m
edia/images/data-quality-hero-
mobile.png
TAHAPAN PRAPROSES DATA

Pembersihan
Data

Integrasi Diskritisasi
Data Data

Transformasi Reduksi
Data Data
ILUSTRASI PRAPROSES DATA
PEMBERSIHAN DATA

Mengisi missing Meminimumkan


value Noise

Membetulkan Mengindentifikasi
data yang tidak /membuang https://developer.salesforce.com/
resource/images/trailhead/badges/
konsisten outlier modules/
trailhead_module_data_quality.png
MENGISI MISSING VALUE

• Mengabaikan record
• Menggunakan mean/median/modus dari
atribut yang mengandung missing value
• Menggunakan nilai termungkin (Menerapkan
regresi)
NOISY DATA

Cara mengetahui outlier : Clustering, Regresi


Linear

Binning

• Smoothing menggunakan Bin Means


• Smoothing menggunakan Bin Medians
• Smoothing menggunakan Bin Boundaries
MENDETEKSI OUTLIER DENGAN
CLUSTERING
MENDETEKSI OUTLIER DENGAN REGRESI
LINEAR
METODE BINING

Metode yang dilakukan untuk mengelompokkan data

Salah satu pendekatan diskritisasi

Urutan proses:
1. Urutkan data dari kecil ke besar
(ascending)
2. Melakukan partisi data dalam bins
menggunakan equal-width atau equal-
depth (frekuensi)
3. Dapat di-smoothing menggunakan rata-
rata, median, batasan, dsb.
METODE BINING

 Partisi Equal-Width
Langkah-langkah membagi data ke dalam k
interval ukuran yang sama. Lebar interval adalah
w= (max-min)/k
 Partisi Equal- depth
Membagi data ke dalam k kelompok dimana
tiap k kelompok berisi jumlah yang sama
CONTOH PARTISI BINNING

Data: 0, 4, 12, 16 16, 18, 24, 26, 28 Smoothing berdasarkan rata-rata:


Semua nilai tiap bin diganti dengan
 Equal Width rata-rata nilai tiap bin
BIN 1= 0,4
BIN 2= 12,16,16,18 Smoothing berdasarkan batasan:
Setiap nilai bin diganti dengan nilai
BIN 3= 24,26,28 yang paling dekat dari batasan
nilai. Batasan nilai terbentuk dari
 Equal Depth [min, max] tiap bin
BIN 1= 0, 4, 12
BIN 2= 16,16,18
BIN 3= 24,26,28
INTEGRASI DATA

 Data dapat bersumber dari beberapa sumber


 Teknik-teknik:

ANALISIS
KORELASI

ATRIBUT
REDUDAN

DUPLIKASI
MENGATASI REDUNDASI PADA
INTEGRASI DATA
Dapat dideteksi
PENYEBAB REDUNDANSI menggunakan
• Atribut yang sama mempunyai nama analisis korelasi
yang berbeda pada database yang
berbeda Berhati-hati dalam
• Satu atribut merupakan turunan dari menggabungkan data
atribut lainnya dari berbagai sumber
untuk mengurangi
redundasi
MENGATASI REDUNDASI PADA
INTEGRASI DATA

Redudancy/ Duplicate :
Hubungan korelasi antar variabel dapat dilihat
menggunakan rumus korelasi. Jika data numerik, hubungan
korelasinya seperti dibawah ini:

Semakin besar hasil perhitungan tersebut, semakin tinggi


korelasi. Jika hasil perhitungan tersebut =0 berarti independen.
Jika kurang dari nol tidak independen
MENGATASI REDUNDASI PADA
INTEGRASI DATA

Jika data kategorik, hubungan korelasinya seperti


dibawah ini menggunakan chi-square:

Semakin besar chi-square, semakin tinggi korelasi. Jika


hasil perhitungan tersebut =0 berarti independen. Jika kurang
dari nol tidak independen
CONTOH SOAL MENGGUNAKAN CHI-
SQUARE
TRANFORMASI DATA
TRANSFORMASI DATA

Normalization

a. Min-max normalization: menghasilkan


[new_min,new_max]

Contoh soal:
Penghasilan berkisar dari $10,000 sampai $98,000
dinormalisasikan dari [0,1]. Sehingga untuk penghasilan sebesar
$73,000 dipetakan ke (1-0)+0=0.716
TRANSFORMASI DATA

Normalization

b. Min-max Z-score normalization : μ: mean, σ: standard


deviation

Contoh soal:
Misal μ = 55,000, σ = 20,000. Maka, = 0.9
TRANSFORMASI DATA

Normalization
c. Normalisasi pada skala desimal

Dimana j adalah bilangan bulat terkecil sehingga Max(|ν’|) < 1


REDUKSI DATA

Memperkecil volume tapi menghasilkan analasis data


yang sama. Strategi- strategi data reduksi: Data cube
aggregation, reduksi dimensi (menghapus atribut yang tidak
penting), kompresi data, dsb.

Menggunakan
DATA CUBE Mengurangi
AGGREGATION
representasi
ukuran data
yang singkat
REDUKSI DATA
DATA CUBE
AGGREGATION
DISKRITISASI DATA

Terdapat tiga tipe atribut:

• Nominal = Nilai dari sekumpulan data yang tidak beraturan. Contoh: Warna, Profesi
• Ordinal = Nilai dari sekumpulan data yang terurut..
Contoh: Ip, nomor antrian
• Kontinu = Nilai real seperti integer atau real number

Diskritisasi
Metode disktritisasi bisa dilakukan pada data kontinu.Tahap pertama, kita mengelompokkan
nilai ke dalam interval. Setelah itu kita menggantikan nilai atribut dengan label atau interval.

Contoh:
Dataset (age, salary): (26;56,000),(28;70,000),(89;99,000)
c
Latihan (lakukan Konfigurasi Berikut)

Lakukan Preprocessing Data terhadap Data Berikut

https://drive.google.com/file/d/1RIxYnH5RkphTZymdrpwpF
eDZpRgl6MdT/view?usp=sharing

Menggunakan :

1. Python
2. Rapid Minner

Anda mungkin juga menyukai