Data Mining - 3 - Data Preprocessing
Data Mining - 3 - Data Preprocessing
Data Preprocessing
Aggregation
Pengumpulan (Aggregation)
Prosesmengkombinasikan dua atau lebih objek
ke dalam sebuah objek tunggal;
Sangat berguna ketika pada set data ada
sejumlah nilai dalam satu fitur yang sebenarnya
satu kelompok;
Tidakakan menyimpang dari deskripsi fitur
tersebut jika nilainya digabungkan
Agregasi yang dapat dilakukan adalah
sum (jumlah), average (rata-rata), min
(terkecil), max (terbesar).
Contoh
Mengapa dilakukan?
Set
data yang lebih kecil akan membutuhkan
memori penyimpanan yang lebih sedikit
(pengurangan data atau perubahan skala).
Waktupemrosesan dalam algoritma data mining
menjadi lebih cepat.
Agregasi bertindak untuk mengubah cara pandang
terhadap data dari level rendah menjadi level tinggi.
Perilaku pengelompokan objek atau atribut sering
kali lebih stabil dari pada objek individu itu sendiri
(lebih sedikit variasinya).
Data Preprocessing
Sampling
Penarikan contoh
Sampel data akan bekerj hampir sama
dengan seluruh data jika sample tersebut
mampu mewakili (representatif) seluruh data.
Sample disebut representatif jika diperkirakan
mempunyai sifat yang sama dengan seluruh
data, biasanya diukur dengan rata-rata (mean)
pada sample dan data asli
Tipe penarikan contoh
Penarikancontoh acak sederhana, kemungkinan ada
suatu pemilihan item tertentu yang sama
Penarikan contoh tanpa penggantian. Setiap item
yang dipilih dikeluarkan dari populasinya
Penarikan contoh dengan penggantian (replacement).
Item tidak dikeluarkan dari populasi saat dipilih,
namun item yang sama dapat terpilih lebih dari satu
kali
Penarikan
contoh bertingkat (Stratified sampling).
Membagi data dalam beberapa bagian (partisi).
Kemudian menarik contoh dari setiap partisi
Contoh
Gambar berikut memperlihatkan perbedaan
pengambilan sample. Semakin besar ukuran
sample, maka nilai semakin akurat. Namun
kapasitas penyimpanan dan proses yang
diperlukan juga semakin besar
Data Preprocessing
Pengurangan dimensi
(dimensionality reduction)
Jika
dimensi meningkat, data akan meningkat
secara halus dalam daerah yang ditempati
Definisidari kepadatan dan jarak antar titik,
yang merupakan kondisi kritis untuk
clustering dan outliner detection, akan
menjadi kurang berarti
Manfaat
Mencegah terjadinya efek dimensionalitas
Mengurangi jumlah waktu dan memori yang
dibutuhkan oleh algoritma data mining
Membuat data lebih mudah divisualisasikan
Membantu untuk mengurangi fitur-fitur yang
tidak relevan atau mengurangi
gangguna/derau
Teknik yang digunakan
Principal
Component Analysis : Bertujuan
untuk mendapatkan sebuah proyeksi yang
menangkap variasi data paling besar
Single Value decompotition
Supervised learning
Non linier techniques
Data Preprocessing
Discretization and
binarization
pengertian
Transformasi data dari tipe kontinu dan diskret
ke atribut biner disebut
binerisasi(binarization).
Transformasi data dari atribut kontinu ke
atribut kategoris disebut diskretisasi
(discretization).
Binerisasi
M macam nilai kategoris, masing-masing diberikan nilai
yang unik dengan nilai integer dalam jangkauan [0,M-1]
Jumlah bit yang dibutuhkan untuk binerisasi adalah N=
𝑙𝑜𝑔2(𝑀)
Diskretisasi
Pertama,
memutuskan berapa jumlah kategori yang harus
digunakan.
Kedua,menentukan bagaimana memetakan nilai-nilai dari atribut
kontinyu ke nilai kategori.
Contoh:nilai yang ada pada tabel 4 diubah menjadi atribut
katarogikal dengan nilai: rendah, sedang tinggi.
Hasil pendekatan equal width
Range data [60 - 220]
Rendah: range [60-113]
Sedang: range [114-167]
Tinggi: range [168-220]
Hasil pendekatan equal frequenct
Sort Data: 60, 70, 75,…, 220
Rendah: 60, 70, 75
Sedang: 85, 90, 95
Tinggi: 100, 120, 125, 200
Data Preprocessing
Transformasi atribut
(Attribute Transformation)
Pengertian
Sebagian fungsi dari transformasi atribut
adalah standarisasi dan normalisasi.
Tujuandari standarisasi dan normalisasi
adalah untuk membuat keseluruhan nilai
mempunyai suatu sifat khusus.
Persamaan
Salah
satu contoh transformasi standarisasi
adalah dengan:
1. Hitung nilai tengah dengan median;
2. Hidung absolute standard deviation dengan persamaan:
Contoh
lakukan standarisasi dari data set berikut x = {2.5, 0.5, 2.2,
1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}. Dari data tersebut dihitung
median = 𝜇=(1.9+2)/2=1.95
Transformasi atribut: normalisasi
Transformasi
atribut menggunakan normalisasi
menggunakan pendekatan linear, yang pertama kita
terlebih dahulu menghitung rata-rata (persamaan 1)
dan varian (persamaan 2) dengan rumus
(persamaan 1)
(persamaan 2)
Data hasil normalisasi persamaan berikut:
(persamaan 3)
Hasil
normalisasi dengan cara persamaan 3
didapatkan fitur yang mempunyai sifat zero-mean
dan unit variance
Contoh normalisasi
Sebagai contoh ada data X = {x1, x2, x3, x4, x5}T, dimana untuk
x1 = {0, 2, 1}, x2 = {1, 7, 1}, x3 = {2, 6, 3}, x4 = {5, 1, 4}, x5 =
{3, 3, 4}.
Jangkauan nilai untuk fitur pertama adalah [0,5], fitur kedua
[1,7], fitur ketiga [1,4]. Masing-masing fitur memiliki
jangkauan yang tidak sama
Transformasi atribut: penskalaan [0,1]
Teknik
linear yang lain adalah dengan menskalakan jangkauan
setiap fitur dalam jangkauan [0,1]:
Transformasi atribut: penskalaan [-1, 1]
Teknik
linear yang lain adalah dengan menskalakan jangkauan
setiap fitur dalam jangkauan [-1,1]
Soal
Hitungpenskalaan dengan 3 cara (normalisasi standar deviasi,
normalisasi penskalaan[0,1], normalisasi penskalaan [-1,1]) data
kepadatan penduduk berikut: