0% menganggap dokumen ini bermanfaat (0 suara)
137 tayangan19 halaman

Pertemuan 8 Data Preprocessing

Dokumen tersebut membahas konsep dan teknik-teknik dasar preprocessing data yang dilakukan sebelum proses data mining untuk meningkatkan kualitas data, seperti cleaning, integrasi, reduksi, dan transformasi data."

Diunggah oleh

laniadarma23
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPSX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
137 tayangan19 halaman

Pertemuan 8 Data Preprocessing

Dokumen tersebut membahas konsep dan teknik-teknik dasar preprocessing data yang dilakukan sebelum proses data mining untuk meningkatkan kualitas data, seperti cleaning, integrasi, reduksi, dan transformasi data."

Diunggah oleh

laniadarma23
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PPSX, PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 19

DATA PREPROCESSING

KONSEP PEMBELAJARAN DATA MINING


Pertemuan 8

[email protected]
BAHAN KAJIAN

KONSEP DATA PREPROCESSING

TAHAP PREPROCESSING

TEKNIK PREPROCESSING
APA ITU PEPROCESSING
DALAM DATA MINING?

Data preprocessing ini digunakan karena dalam data realtime database


seringkali tidak lengkap dan tidak konsisten sehingga mengakibatkan hasil
data mining tidak tepat dan kurang akurat. Oleh karena itu, untuk
meningkatkan kualitas data yang akan dianalisis, perlu dilakukan langkah-
langkah preprocessing data

Preprocessing data merupakan teknik awal data mining untuk mengubah


data mentah atau biasa dikenal dengan raw data yang dikumpulkan dari
berbagai sumber menjadi informasi yang lebih bersih dan bisa digunakan
untuk pengolahan selanjutnya
MENGAPA PERLU DATA PREPROCESSING

Tidak komplit
• Berisi data yang hilang/kosong
• Kekurangan atribut yang sesuai Data mentah yang ada sebagian besar kotor
• Hanya berisi data aggregate

Data yang tidak berkualitas, akan


menghasilkan kualitas mining yang tidak
baik pula.

Tidak konsisten Banyak “noise”


• Berisi nilai yang • Berisi data yang
berbeda dalam suatu Outlier
kode atau nama • Berisi error
KRITERIA KUALITAS DATA

Accuracy and Precision Legitimacy and Validity


Menurut Mark Mosley (2008), dalam bukunya
Reliability dan consistency “Dictionary of Data Management”, pengertian
Kualitas data adalah level data yang menyatakan
data tersebut akurat (accurate), lengkap
Timeliness and Relevance
(complete), timely (update),
konsisten(consistent) sesuai dengan semua
Completeness and kebutuhan peraturan bisnis dan relevan.

Comprehensiveness

Availability and Accessibility

Granularity and Uniqueness.


TEKNIK DATA PREPROCESSING

Data Cleaning Data integration Data Reduction Data Transformation

Memperkecil noise Analisis korelasi Data Cube Aggregation, Smoothing


Membetulkan data yang Atribut redudan Attribute Subset Selection, Attribute (feature)
tidak konsisten duplikasi Numerosity Reduction, construction
Mengisi missing value Dimensionality Reduction. Aggregation
Mengidentifikasi atau Normalization
membuang outlier Discretization
DATA CLEANING – MISSING VALUES

Mengabaikan record

Mengisikan secara manual


Menggunakan mean/median dari atribut yang
mengandung missing value
Menggunakan nilai global

Menggunakan nilai termungkin


DATA CLEANING: MISSING VALUES

 Contoh untuk missing value IPK diisi


dengan rata- rata IPK atau diisi dengan
Angkatan IPK Pekerjaan Jenis
nilai IPK yang paling mungkin untuk Kelamin
angkatan 2012 dan Perempuan 2010 3.50 IT Konsultan L
serta menjadi ibu rumah tangga.
2011 2.75 ? P
 Contoh untuk missing value Pekerjaan,
2012 ? Wirausaha P
dapat diisi dengan pekerjaan yang paling
banyak muncul.
DATA CLEANING: NOISY DATA
Noise data adalah suatu kesalahan acak atau variasi
dalam variabel terukur.

Binning
• Smoothing by bin means
• Smoothing by bin medians
• Smoothing by bin boundaries

Regression

Outlier Analysis
METODE BINNING

Metode ini akan melakukan pengelompokan


terhadap kumpulan data.

Metode binning merupakan salah satu pendekatan


dicretization.

Urutan proses:
• Urutkan data secara ascending
• Lakukan partisi ke dalam bins
• Kemudian dapat di-smoothing: smooth by means, smooth by
median, smooth by boundaries, dsb.
PARTISI DALAM METODE
BINNING

Algoritma membagi data ke dalam k interval


Partisi ukuran yang sama. Lebar interval adalah w =
Equal- (max-min)/k
Batasan interval adalah min+w, min+2w, ...,
Width min+(k-1)w

Partisi Membagi data ke dalam k kelompok


Equal- dimana tiap
depth kelompok berisi jumlah yang sama
INTEGRASI DATA
Integrasi data:

• Mengkombinasikan data dari banyak sumber kedalam suatu simpanan


terpadu

Integrasi skema

• Mengintegrasikan metadata dari sumber-sumber berbeda


• Problem identifikasi entitas: mengenali entitas dunia nyata dari banyak
sumber-sumber data, misal A.cust-id  B.cust-#

Pendeteksian dan pemecahan konflik nilai data

• Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari sumber-
sumber berbeda adalah berbeda
• Alasan yang mungkin: representasi berbeda, skala berbeda, misal berat
bisa dalam pound atau kilogram
Integrasi Data

 Problem: integrasi skema heterogen


 Nama-nama tribut berbeda
cid name byear Customer-ID state
1 Jones 1960 1 NY
2 Smith 1974 2 CA
3 Smith 1950 3 NY

Atribut turunan: Annual salary versus monthly salary


cid monthlySalary cid Salary
1 5000 6 50,000
2 2400 7 100,000
8 40,000
3 3000
Integrasi Data

 Problem: Data tidak konsisten karena redundansi


 Customer dengan customer-id 150 punya 3 anak dalam relation1 dan 4
anak dalam relation2

cid numChildren cid numChildren


1 3 1 4
 Komputasi annual salary dari monthly salary dalam relation1 tak cocok
dengan atribut “annual-salary” dalam relation2
PENANGANAN REDUDANSI
DALAM INTEGRASI DATA

Data redudan sering terjadi saat integrasi dari banyak database

• Atribut yang sama bisa memiliki nama berbeda dalam database berbeda
• Atribut yang satu bisa merupakan suatu atribut “turunan” dalam tabel lainnya,
misal, annual revenue

Data redundan mungkin bisa dideteksi dengan analisis korelasi

Integrasi data hati-hati dari banyak sumber bisa membantu


mengurangi/mencegah redundansi dan ketak-konsistenan dan
memperbaiki kecepatan dan kualitas mining
TRANSFORMASI DATA

Normalisasi:
Penghalusan:
Agregasi: ringkasan, Generalisasi: konsep diskalakan agar jatuh Konstruksi
menghilangkan noise
konstruksi kubus data hierarchy climbing didalam suatu range atribut/fitur
dari data
kecil yang tertentu

Atribut-atribut baru
Normalisasi dengan
Normalisasi min-max Normalisasi z-score dibangun dari atribut-
penskalaan desimal
atribut yang ada
STRATEGI REDUKSI DATA

Suatu data warehouse bisa menyimpan terabytes data

• Analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk


dijalankan pada data set komplit (tak efisien)

Reduksi data

• Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir
sama)

Strategi reduksi data

• Agregasi kubus data


• Reduksi dimensionalitas—menghilangkan atribut tak penting
• Kompresi data
• Reduksi Numerosity reduction—mencocokkan data kedalam model
• Diskritisasi dan pembuatan konsep hierarki
TERIMA KASIH

Anda mungkin juga menyukai