0% menganggap dokumen ini bermanfaat (0 suara)
182 tayangan

Data Mining - 3 - Data Preprocessing

Data preprocessing merupakan tahapan penting dalam mempersiapkan data agar dapat diolah oleh algoritma data mining dengan lebih baik dan menghasilkan kesimpulan yang lebih akurat. Beberapa teknik utama data preprocessing meliputi agregasi, pengambilan contoh, reduksi dimensi, seleksi fitur, pembuatan fitur baru, diskretisasi, dan transformasi atribut.

Diunggah oleh

Ryo Bastian
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
182 tayangan

Data Mining - 3 - Data Preprocessing

Data preprocessing merupakan tahapan penting dalam mempersiapkan data agar dapat diolah oleh algoritma data mining dengan lebih baik dan menghasilkan kesimpulan yang lebih akurat. Beberapa teknik utama data preprocessing meliputi agregasi, pengambilan contoh, reduksi dimensi, seleksi fitur, pembuatan fitur baru, diskretisasi, dan transformasi atribut.

Diunggah oleh

Ryo Bastian
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 40

Data Mining

Data Preprocessing

Novi Wulandari, SSi, M.Kom


[email protected]
+6287876492262
Mengapa dilakukan?
 Data dalam dunia nyata kotor
 Tak-lengkap: nilai-nilai atribut kurang. contoh:
pekerjaan=“”
 Noisy: memuat error atau memuat outliers. Contoh:
Salary=“-10”
 Tak-konsisten: memuat perbedaan dalam kode atau nama.
Contoh: Age=“42” Birthday=“03/07/1997”
Pengolahan awal data
 Dilakukan sebelum penerapan algoritma data
mining
 Bertujuan untuk mendapatkan data set yang
dapat dioleh dengan cepat dan menghasilkan
kesimpulan yang tepat
 Datayang lebih baik akan menghasilkan data
mining yang lebih baik
 Datapreprocessing membantu didalam
memperbaiki presisi dan kinerja data mining
dan mencegah kesalahan didalam data mining
Macam proses data preprocessing
 Pengumpulan (aggregation)
 Contoh (Sampling)
 Pengurangan dimensi (dimensionality reduction)
 Pemilihan fitur (feature selection)
 Pembuatan fitur (feature creation)
 Pendiskretan dan Pembineran (Discretization and
binarization)
 Transformasi atribut (Attribute Transformation)
Data Preprocessing

Aggregation
Pengumpulan (Aggregation)
 Prosesmengkombinasikan dua atau lebih objek
ke dalam sebuah objek tunggal;
 Sangat berguna ketika pada set data ada
sejumlah nilai dalam satu fitur yang sebenarnya
satu kelompok;
 Tidakakan menyimpang dari deskripsi fitur
tersebut jika nilainya digabungkan
 Agregasi yang dapat dilakukan adalah
sum (jumlah), average (rata-rata), min
(terkecil), max (terbesar).
Contoh
Mengapa dilakukan?
 Set
data yang lebih kecil akan membutuhkan
memori penyimpanan yang lebih sedikit
(pengurangan data atau perubahan skala).
 Waktupemrosesan dalam algoritma data mining
menjadi lebih cepat.
 Agregasi bertindak untuk mengubah cara pandang
terhadap data dari level rendah menjadi level tinggi.
 Perilaku pengelompokan objek atau atribut sering
kali lebih stabil dari pada objek individu itu sendiri
(lebih sedikit variasinya).
Data Preprocessing

Sampling
Penarikan contoh
 Sampel data akan bekerj hampir sama
dengan seluruh data jika sample tersebut
mampu mewakili (representatif) seluruh data.
 Sample disebut representatif jika diperkirakan
mempunyai sifat yang sama dengan seluruh
data, biasanya diukur dengan rata-rata (mean)
pada sample dan data asli
Tipe penarikan contoh
 Penarikancontoh acak sederhana, kemungkinan ada
suatu pemilihan item tertentu yang sama
 Penarikan contoh tanpa penggantian. Setiap item
yang dipilih dikeluarkan dari populasinya
 Penarikan contoh dengan penggantian (replacement).
Item tidak dikeluarkan dari populasi saat dipilih,
namun item yang sama dapat terpilih lebih dari satu
kali
 Penarikan
contoh bertingkat (Stratified sampling).
Membagi data dalam beberapa bagian (partisi).
Kemudian menarik contoh dari setiap partisi
Contoh
 Gambar berikut memperlihatkan perbedaan
pengambilan sample. Semakin besar ukuran
sample, maka nilai semakin akurat. Namun
kapasitas penyimpanan dan proses yang
diperlukan juga semakin besar
Data Preprocessing

Pengurangan dimensi
(dimensionality reduction)
 Jika
dimensi meningkat, data akan meningkat
secara halus dalam daerah yang ditempati
 Definisidari kepadatan dan jarak antar titik,
yang merupakan kondisi kritis untuk
clustering dan outliner detection, akan
menjadi kurang berarti
Manfaat
 Mencegah terjadinya efek dimensionalitas
 Mengurangi jumlah waktu dan memori yang
dibutuhkan oleh algoritma data mining
 Membuat data lebih mudah divisualisasikan
 Membantu untuk mengurangi fitur-fitur yang
tidak relevan atau mengurangi
gangguna/derau
Teknik yang digunakan
 Principal
Component Analysis : Bertujuan
untuk mendapatkan sebuah proyeksi yang
menangkap variasi data paling besar
 Single Value decompotition
 Supervised learning
 Non linier techniques
Data Preprocessing

Pemilihan fitur (feature


selection)
Pemilihan fitur
 Dalam memilih fitur perlu diperhatikan fitur-
fitur yang memiliki duplikasi informasi yang
tergantung dalam satu dan lebih atribut lain.
 Selain itu fitur-fitur yang tidak relevan yaitu
fitur-fitur yang tidak mengandung informasi
berguna untuk tugas data mining secara
langsung
 Contoh: NIM setiap mahasiswa sering tidak
relevan untuk memprediksi IPK mahasiswa
Teknik yang digunakan
 Brute-force approach: mencoba semua kemungkinan
fitu sub-set sebagai masukan algoritma data mining
 Embedded approaches: terjadi secara alami sebagai
bagian dari algoritma data mining
 Filter approaches: fitur-fitur dipilih sebelum
algoritma data mining dijalankan
 Wrapper approaches: menggunakan algoritma data
mining sebagai sebuah kotak hitam untuk
mendapatkan sub-set atribut-atribut yang paling baik
Data Preprocessing

Pembuatan fitur (feature


creation)
Pembuatan fitur
 Merupakan proses membuat atribut baru yang
dapat menangkap informasi penting dalam
sebuah himpunan data yang lebih efisien
daripada atribut-atribut yang ada
Metodologi umum
 Ekstrasi fitur (feature extraction): domain
specific
 Pemetaan data ke ruang menggunakan
transformasi fourier atau transformasi wavelet
 Konstruksi
fitur (feature construction) denagn
menggabungkan fitur-fitur (Combining
feature)
Data Preprocessing

Discretization and
binarization
pengertian
 Transformasi data dari tipe kontinu dan diskret
ke atribut biner disebut
binerisasi(binarization).
 Transformasi data dari atribut kontinu ke
atribut kategoris disebut diskretisasi
(discretization).
Binerisasi
M macam nilai kategoris, masing-masing diberikan nilai
yang unik dengan nilai integer dalam jangkauan [0,M-1]
 Jumlah bit yang dibutuhkan untuk binerisasi adalah N=
𝑙𝑜𝑔2(𝑀)
Diskretisasi
 Pertama,
memutuskan berapa jumlah kategori yang harus
digunakan.
 Kedua,menentukan bagaimana memetakan nilai-nilai dari atribut
kontinyu ke nilai kategori.
 Contoh:nilai yang ada pada tabel 4 diubah menjadi atribut
katarogikal dengan nilai: rendah, sedang tinggi.
Hasil pendekatan equal width
 Range data [60 - 220]
 Rendah: range [60-113]
 Sedang: range [114-167]
 Tinggi: range [168-220]
Hasil pendekatan equal frequenct
 Sort Data: 60, 70, 75,…, 220
 Rendah: 60, 70, 75
 Sedang: 85, 90, 95
 Tinggi: 100, 120, 125, 200
Data Preprocessing

Transformasi atribut
(Attribute Transformation)
Pengertian
 Sebagian fungsi dari transformasi atribut
adalah standarisasi dan normalisasi.
 Tujuandari standarisasi dan normalisasi
adalah untuk membuat keseluruhan nilai
mempunyai suatu sifat khusus.
Persamaan
 Salah
  satu contoh transformasi standarisasi
adalah dengan:
1. Hitung nilai tengah dengan median;
2. Hidung absolute standard deviation dengan persamaan:
Contoh
 lakukan standarisasi dari data set berikut x = {2.5, 0.5, 2.2,
1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}. Dari data tersebut dihitung
median = 𝜇=(1.9+2)/2=1.95
Transformasi atribut: normalisasi
 Transformasi
   atribut menggunakan normalisasi
menggunakan pendekatan linear, yang pertama kita
terlebih dahulu menghitung rata-rata (persamaan 1)
dan varian (persamaan 2) dengan rumus
 (persamaan 1)
 (persamaan 2)
 Data hasil normalisasi persamaan berikut:
 (persamaan 3)
 Hasil
normalisasi dengan cara persamaan 3
didapatkan fitur yang mempunyai sifat zero-mean
dan unit variance
Contoh normalisasi
 Sebagai contoh ada data X = {x1, x2, x3, x4, x5}T, dimana untuk
x1 = {0, 2, 1}, x2 = {1, 7, 1}, x3 = {2, 6, 3}, x4 = {5, 1, 4}, x5 =
{3, 3, 4}.
 Jangkauan nilai untuk fitur pertama adalah [0,5], fitur kedua
[1,7], fitur ketiga [1,4]. Masing-masing fitur memiliki
jangkauan yang tidak sama
Transformasi atribut: penskalaan [0,1]
Teknik

  linear yang lain adalah dengan menskalakan jangkauan
setiap fitur dalam jangkauan [0,1]:
Transformasi atribut: penskalaan [-1, 1]
Teknik

  linear yang lain adalah dengan menskalakan jangkauan
setiap fitur dalam jangkauan [-1,1]
Soal
 Hitungpenskalaan dengan 3 cara (normalisasi standar deviasi,
normalisasi penskalaan[0,1], normalisasi penskalaan [-1,1]) data
kepadatan penduduk berikut:

Anda mungkin juga menyukai