Data Mining - 3 - Data Preprocessing

Data preprocessing merupakan tahapan penting dalam mempersiapkan data agar dapat diolah oleh algoritma data mining dengan lebih baik dan menghasilkan kesimpulan yang lebih akurat. Beberapa teknik utama data preprocessing meliputi agregasi, pengambilan contoh, reduksi dimensi, seleksi fitur, pembuatan fitur baru, diskretisasi, dan transformasi atribut.

Diunggah oleh

Ryo Bastian

Hak Cipta

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

182 tayangan

Data Mining - 3 - Data Preprocessing

Diunggah oleh

Ryo Bastian

Hak Cipta

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 40

Data Mining

Data Preprocessing

Novi Wulandari, SSi, M.Kom

[email protected]
+6287876492262
Mengapa dilakukan?
 Data dalam dunia nyata kotor
 Tak-lengkap: nilai-nilai atribut kurang. contoh:
pekerjaan=“”
 Noisy: memuat error atau memuat outliers. Contoh:
Salary=“-10”
 Tak-konsisten: memuat perbedaan dalam kode atau nama.
Contoh: Age=“42” Birthday=“03/07/1997”
Pengolahan awal data
 Dilakukan sebelum penerapan algoritma data
mining
 Bertujuan untuk mendapatkan data set yang
dapat dioleh dengan cepat dan menghasilkan
kesimpulan yang tepat
 Datayang lebih baik akan menghasilkan data
mining yang lebih baik
 Datapreprocessing membantu didalam
memperbaiki presisi dan kinerja data mining
dan mencegah kesalahan didalam data mining
Macam proses data preprocessing
 Pengumpulan (aggregation)
 Contoh (Sampling)
 Pengurangan dimensi (dimensionality reduction)
 Pemilihan fitur (feature selection)
 Pembuatan fitur (feature creation)
 Pendiskretan dan Pembineran (Discretization and
binarization)
 Transformasi atribut (Attribute Transformation)
Data Preprocessing

Aggregation
Pengumpulan (Aggregation)
 Prosesmengkombinasikan dua atau lebih objek
ke dalam sebuah objek tunggal;
 Sangat berguna ketika pada set data ada
sejumlah nilai dalam satu fitur yang sebenarnya
satu kelompok;
 Tidakakan menyimpang dari deskripsi fitur
tersebut jika nilainya digabungkan
 Agregasi yang dapat dilakukan adalah
sum (jumlah), average (rata-rata), min
(terkecil), max (terbesar).
Contoh
Mengapa dilakukan?
 Set
data yang lebih kecil akan membutuhkan
memori penyimpanan yang lebih sedikit
(pengurangan data atau perubahan skala).
 Waktupemrosesan dalam algoritma data mining
menjadi lebih cepat.
 Agregasi bertindak untuk mengubah cara pandang
terhadap data dari level rendah menjadi level tinggi.
 Perilaku pengelompokan objek atau atribut sering
kali lebih stabil dari pada objek individu itu sendiri
(lebih sedikit variasinya).
Data Preprocessing

Sampling
Penarikan contoh
 Sampel data akan bekerj hampir sama
dengan seluruh data jika sample tersebut
mampu mewakili (representatif) seluruh data.
 Sample disebut representatif jika diperkirakan
mempunyai sifat yang sama dengan seluruh
data, biasanya diukur dengan rata-rata (mean)
pada sample dan data asli
Tipe penarikan contoh
 Penarikancontoh acak sederhana, kemungkinan ada
suatu pemilihan item tertentu yang sama
 Penarikan contoh tanpa penggantian. Setiap item
yang dipilih dikeluarkan dari populasinya
 Penarikan contoh dengan penggantian (replacement).
Item tidak dikeluarkan dari populasi saat dipilih,
namun item yang sama dapat terpilih lebih dari satu
kali
 Penarikan
contoh bertingkat (Stratified sampling).
Membagi data dalam beberapa bagian (partisi).
Kemudian menarik contoh dari setiap partisi
Contoh
 Gambar berikut memperlihatkan perbedaan
pengambilan sample. Semakin besar ukuran
sample, maka nilai semakin akurat. Namun
kapasitas penyimpanan dan proses yang
diperlukan juga semakin besar
Data Preprocessing

Pengurangan dimensi
(dimensionality reduction)
 Jika
dimensi meningkat, data akan meningkat
secara halus dalam daerah yang ditempati
 Definisidari kepadatan dan jarak antar titik,
yang merupakan kondisi kritis untuk
clustering dan outliner detection, akan
menjadi kurang berarti
Manfaat
 Mencegah terjadinya efek dimensionalitas
 Mengurangi jumlah waktu dan memori yang
dibutuhkan oleh algoritma data mining
 Membuat data lebih mudah divisualisasikan
 Membantu untuk mengurangi fitur-fitur yang
tidak relevan atau mengurangi
gangguna/derau
Teknik yang digunakan
 Principal
Component Analysis : Bertujuan
untuk mendapatkan sebuah proyeksi yang
menangkap variasi data paling besar
 Single Value decompotition
 Supervised learning
 Non linier techniques
Data Preprocessing

Pemilihan fitur (feature

selection)
Pemilihan fitur
 Dalam memilih fitur perlu diperhatikan fitur-
fitur yang memiliki duplikasi informasi yang
tergantung dalam satu dan lebih atribut lain.
 Selain itu fitur-fitur yang tidak relevan yaitu
fitur-fitur yang tidak mengandung informasi
berguna untuk tugas data mining secara
langsung
 Contoh: NIM setiap mahasiswa sering tidak
relevan untuk memprediksi IPK mahasiswa
Teknik yang digunakan
 Brute-force approach: mencoba semua kemungkinan
fitu sub-set sebagai masukan algoritma data mining
 Embedded approaches: terjadi secara alami sebagai
bagian dari algoritma data mining
 Filter approaches: fitur-fitur dipilih sebelum
algoritma data mining dijalankan
 Wrapper approaches: menggunakan algoritma data
mining sebagai sebuah kotak hitam untuk
mendapatkan sub-set atribut-atribut yang paling baik
Data Preprocessing

Pembuatan fitur (feature

creation)
Pembuatan fitur
 Merupakan proses membuat atribut baru yang
dapat menangkap informasi penting dalam
sebuah himpunan data yang lebih efisien
daripada atribut-atribut yang ada
Metodologi umum
 Ekstrasi fitur (feature extraction): domain
specific
 Pemetaan data ke ruang menggunakan
transformasi fourier atau transformasi wavelet
 Konstruksi
fitur (feature construction) denagn
menggabungkan fitur-fitur (Combining
feature)
Data Preprocessing

Discretization and
binarization
pengertian
 Transformasi data dari tipe kontinu dan diskret
ke atribut biner disebut
binerisasi(binarization).
 Transformasi data dari atribut kontinu ke
atribut kategoris disebut diskretisasi
(discretization).
Binerisasi
M macam nilai kategoris, masing-masing diberikan nilai
yang unik dengan nilai integer dalam jangkauan [0,M-1]
 Jumlah bit yang dibutuhkan untuk binerisasi adalah N=
𝑙𝑜𝑔2(𝑀)
Diskretisasi
 Pertama,
memutuskan berapa jumlah kategori yang harus
digunakan.
 Kedua,menentukan bagaimana memetakan nilai-nilai dari atribut
kontinyu ke nilai kategori.
 Contoh:nilai yang ada pada tabel 4 diubah menjadi atribut
katarogikal dengan nilai: rendah, sedang tinggi.
Hasil pendekatan equal width
 Range data [60 - 220]
 Rendah: range [60-113]
 Sedang: range [114-167]
 Tinggi: range [168-220]
Hasil pendekatan equal frequenct
 Sort Data: 60, 70, 75,…, 220
 Rendah: 60, 70, 75
 Sedang: 85, 90, 95
 Tinggi: 100, 120, 125, 200
Data Preprocessing

Transformasi atribut
(Attribute Transformation)
Pengertian
 Sebagian fungsi dari transformasi atribut
adalah standarisasi dan normalisasi.
 Tujuandari standarisasi dan normalisasi
adalah untuk membuat keseluruhan nilai
mempunyai suatu sifat khusus.
Persamaan
 Salah
satu contoh transformasi standarisasi
adalah dengan:
1. Hitung nilai tengah dengan median;
2. Hidung absolute standard deviation dengan persamaan:
Contoh
 lakukan standarisasi dari data set berikut x = {2.5, 0.5, 2.2,
1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}. Dari data tersebut dihitung
median = 𝜇=(1.9+2)/2=1.95
Transformasi atribut: normalisasi
 Transformasi
 atribut menggunakan normalisasi
menggunakan pendekatan linear, yang pertama kita
terlebih dahulu menghitung rata-rata (persamaan 1)
dan varian (persamaan 2) dengan rumus
 (persamaan 1)
 (persamaan 2)
 Data hasil normalisasi persamaan berikut:
 (persamaan 3)
 Hasil
normalisasi dengan cara persamaan 3
didapatkan fitur yang mempunyai sifat zero-mean
dan unit variance
Contoh normalisasi
 Sebagai contoh ada data X = {x1, x2, x3, x4, x5}T, dimana untuk
x1 = {0, 2, 1}, x2 = {1, 7, 1}, x3 = {2, 6, 3}, x4 = {5, 1, 4}, x5 =
{3, 3, 4}.
 Jangkauan nilai untuk fitur pertama adalah [0,5], fitur kedua
[1,7], fitur ketiga [1,4]. Masing-masing fitur memiliki
jangkauan yang tidak sama
Transformasi atribut: penskalaan [0,1]
Teknik

linear yang lain adalah dengan menskalakan jangkauan
setiap fitur dalam jangkauan [0,1]:
Transformasi atribut: penskalaan [-1, 1]
Teknik

linear yang lain adalah dengan menskalakan jangkauan
setiap fitur dalam jangkauan [-1,1]
Soal
 Hitungpenskalaan dengan 3 cara (normalisasi standar deviasi,
normalisasi penskalaan[0,1], normalisasi penskalaan [-1,1]) data
kepadatan penduduk berikut:

Anda mungkin juga menyukai

Pertemuan 2 Manajemen Database
Belum ada peringkat
Pertemuan 2 Manajemen Database
27 halaman
2.1 Big Data Stack
Belum ada peringkat
2.1 Big Data Stack
12 halaman
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
4/5 (16)
Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
3.5/5 (6)
Data Reduction
100% (1)
Data Reduction
39 halaman
Metode Data Mining
Belum ada peringkat
Metode Data Mining
17 halaman
Peran Utama DM
Belum ada peringkat
Peran Utama DM
18 halaman
Praktikum Datmin 3
Belum ada peringkat
Praktikum Datmin 3
13 halaman
UTS Kecerdasan Buatan TI 0001
0% (1)
UTS Kecerdasan Buatan TI 0001
2 halaman
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
Belum ada peringkat
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
32 halaman
Iqbal Fathur Rahman
Belum ada peringkat
Iqbal Fathur Rahman
98 halaman
Pengenalan Data Mining
Belum ada peringkat
Pengenalan Data Mining
27 halaman
Penerapan Teknik Data Mining Dalam Akuntansi Keuangan
100% (1)
Penerapan Teknik Data Mining Dalam Akuntansi Keuangan
8 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Model Convolutional Neural Network Sistem Cerdas Untuk Mendeteksi Penyakit Pada Tanaman Sayur - Anwar Sadad - 522402034
Belum ada peringkat
Model Convolutional Neural Network Sistem Cerdas Untuk Mendeteksi Penyakit Pada Tanaman Sayur - Anwar Sadad - 522402034
8 halaman
UTS-Kecerdasan Buatan-F5B1
Belum ada peringkat
UTS-Kecerdasan Buatan-F5B1
2 halaman
Extreme Learning Machine
Belum ada peringkat
Extreme Learning Machine
7 halaman
Pengenalan Data Mining
100% (1)
Pengenalan Data Mining
71 halaman
Materi Teknik Kompilasi
Belum ada peringkat
Materi Teknik Kompilasi
50 halaman
Neural Network
Belum ada peringkat
Neural Network
8 halaman
Pengenalan Pola Sidik Jari
100% (1)
Pengenalan Pola Sidik Jari
39 halaman
Modul Mahasiswa Week 2 - Classification
Belum ada peringkat
Modul Mahasiswa Week 2 - Classification
16 halaman
Clustering Kmeans
Belum ada peringkat
Clustering Kmeans
44 halaman
Algoritam Machine Learning Dan Implementasi
Belum ada peringkat
Algoritam Machine Learning Dan Implementasi
8 halaman
UEU Data Mining Pertemuan 1
Belum ada peringkat
UEU Data Mining Pertemuan 1
37 halaman
7 Kategori Evolusi Dari Alat Pengambil Keputusan Terkomputerisasi
Belum ada peringkat
7 Kategori Evolusi Dari Alat Pengambil Keputusan Terkomputerisasi
1 halaman
Clustering Dan Evaluasi
Belum ada peringkat
Clustering Dan Evaluasi
22 halaman
Tugas Akhir Data Mining
Belum ada peringkat
Tugas Akhir Data Mining
63 halaman
3 Preprocessing Data
Belum ada peringkat
3 Preprocessing Data
33 halaman
Abstract Data Type
Belum ada peringkat
Abstract Data Type
22 halaman
Data Cleansing PPT
Belum ada peringkat
Data Cleansing PPT
17 halaman
MODUL 3 Data Analytic
Belum ada peringkat
MODUL 3 Data Analytic
18 halaman
Crisp-DM Dan Naive Bayes
Belum ada peringkat
Crisp-DM Dan Naive Bayes
20 halaman
DFD Dan Bagan Terstruktur - m7
100% (1)
DFD Dan Bagan Terstruktur - m7
57 halaman
Konsep Basis Data
100% (1)
Konsep Basis Data
12 halaman
Resume Data Science
Belum ada peringkat
Resume Data Science
6 halaman
Sistem Basis Data Bab 9 SIA 2
Belum ada peringkat
Sistem Basis Data Bab 9 SIA 2
78 halaman
Data Mining - Tahapan Proses Data Mining
100% (2)
Data Mining - Tahapan Proses Data Mining
4 halaman
Sistem Berbasis Pengetahuan
Belum ada peringkat
Sistem Berbasis Pengetahuan
97 halaman
Proposal Perancangan
Belum ada peringkat
Proposal Perancangan
8 halaman
Modul Praktik Perancangan Big Data - Ridwan Ramadhan - 2291476560
Belum ada peringkat
Modul Praktik Perancangan Big Data - Ridwan Ramadhan - 2291476560
46 halaman
Manajemen Data Dengan R
Belum ada peringkat
Manajemen Data Dengan R
1 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Searching & Sorting
Belum ada peringkat
Searching & Sorting
28 halaman
Data Flow Diagram-DFD PSI
Belum ada peringkat
Data Flow Diagram-DFD PSI
62 halaman
Normalisasi
Belum ada peringkat
Normalisasi
8 halaman
Modul Praktikum Perancangan Basis Data
Belum ada peringkat
Modul Praktikum Perancangan Basis Data
58 halaman
Tugas Ke 2 Pemodelan Dan Simulasi
Belum ada peringkat
Tugas Ke 2 Pemodelan Dan Simulasi
5 halaman
PPT-Data Mining-Pertemuan 2
Belum ada peringkat
PPT-Data Mining-Pertemuan 2
44 halaman
Analisissss Kinerja Jaringan Komputer Dalam Lingkungan Cloud Computing
Belum ada peringkat
Analisissss Kinerja Jaringan Komputer Dalam Lingkungan Cloud Computing
3 halaman
Tugas Data Minning
Belum ada peringkat
Tugas Data Minning
16 halaman
Sistem Informasi Manajemen - HTML
50% (2)
Sistem Informasi Manajemen - HTML
47 halaman
Teknik Pencarian
Belum ada peringkat
Teknik Pencarian
37 halaman
9 VIEW Dan Cara Penggunaan Dalam MySQL
Belum ada peringkat
9 VIEW Dan Cara Penggunaan Dalam MySQL
12 halaman
SIM Pertemuan 1
Belum ada peringkat
SIM Pertemuan 1
31 halaman
Contoh Perhitungan Manual Fuzzy Dempster Shafer Pada Sistem Pakar Penilaian Kredit Konsumtif
Belum ada peringkat
Contoh Perhitungan Manual Fuzzy Dempster Shafer Pada Sistem Pakar Penilaian Kredit Konsumtif
6 halaman
RPS - OBE - Inteligen Bisnis
Belum ada peringkat
RPS - OBE - Inteligen Bisnis
6 halaman
Slide Materi Data Preprocessing
Belum ada peringkat
Slide Materi Data Preprocessing
29 halaman
Arsitektur Model Data Mining
Belum ada peringkat
Arsitektur Model Data Mining
27 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
BSU Tambun Utara
Belum ada peringkat
BSU Tambun Utara
3 halaman
Soal PTS
Belum ada peringkat
Soal PTS
25 halaman
Soal Kelas X
Belum ada peringkat
Soal Kelas X
3 halaman
Data Mining - 5 - Teknik Data Mining
Belum ada peringkat
Data Mining - 5 - Teknik Data Mining
47 halaman
Data Mining - 2 - Data
Belum ada peringkat
Data Mining - 2 - Data
36 halaman
Data Mining - 4 - Similaritas Dan Jarak
Belum ada peringkat
Data Mining - 4 - Similaritas Dan Jarak
22 halaman