0% menganggap dokumen ini bermanfaat (0 suara)
31 tayangan

Big Data III Data Preprocessing

Dokumen tersebut membahas tentang pentingnya data preprocessing dalam analisis data mining meliputi kegiatan membersihkan data, integrasi data, reduksi data, dan transformasi data untuk meningkatkan kualitas data seperti akurasi, kelengkapan, dan konsistensi."

Diunggah oleh

Ryan Ali Pratama
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
31 tayangan

Big Data III Data Preprocessing

Dokumen tersebut membahas tentang pentingnya data preprocessing dalam analisis data mining meliputi kegiatan membersihkan data, integrasi data, reduksi data, dan transformasi data untuk meningkatkan kualitas data seperti akurasi, kelengkapan, dan konsistensi."

Diunggah oleh

Ryan Ali Pratama
Hak Cipta
© © All Rights Reserved
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 25

Data Preprocessing

dengan RapidMiner
Budi Susanto

RapidMiner - Budi Susanto


Kenali Data Anda
• Atribut Data
o Memahami tipe atribut
o Membantu membetulkan data saat integrasi data

• Deskripsi Statistik Data


o Memudahkan untuk mengisi nilai yang kosong,
o memperhalus noise data,
o mengetahui outlier selama pemrosesan data

• Mengukur Kesamaan dan ketidaksamaan


o Dapat berguna juga untuk mendeteksi outlier
o Untuk melakukan klasifikasi
o Pada umumnya untuk mengukur “kedekatan”.

RapidMiner - Budi Susanto


Data
• Data yang ada pada umumnya:
o Banyak noise
o Ukuran yang besar
o Dapat merupakan campuran dari berbagai macam sumber

• Memahami data sangat penting untuk tahap


preprosesing.

RapidMiner - Budi Susanto


Atribut Data
• Mencerminkan karakteristik objek data.
• Tipe atribut menentukan himpunan nilai yang
diperbolehkan.
o Nominal
o Binary (Binomial)
o Ordinal
o Numerik
• Interval-scale
• Ratio-scale
o Diskret atau Continue

RapidMiner - Budi Susanto


Deskripsi Statistik
• Mengukur lokasi pusat/tengah dari distribusi data
o Mean
o Median
o Mode
o Midrange

Data Mining:
RapidMiner - BudiConcepts
Susanto and Techniques, 3th ed., p. 47
Deskripsi Statistik
• Mengukur penyebaran data
o Rentang dan Kuartil
o Variasi dan Standard Deviasi

Data Mining:
RapidMiner - BudiConcepts
Susanto and Techniques, 3th ed., p. 48
BoxPlot
• Interquartil Range (IQR)
o Q3 – Q1

• Outlier data
o 1.5 x IQR

RapidMiner - Budi Susanto


Mengukur Kesamaan
• Dalam aplikasi data mining, seperti clustering,
analisis outlier, klasifikasi nearest-neighbor,
membutuhkan cara untuk menilai dua objek data
serupa atau tidak.
o Minkwoski distance
• Euclidean dan Manhattan
o Cosine

RapidMiner - Budi Susanto


Mengukur Kesamaan

RapidMiner - Budi Susanto


Data Preprocessing
• Teknik-teknik:
o Data Cleaning
o Data integration
o Data Reduction
o Data Transformation

• Mengapa penting?
o Untuk memenuhi data quality
• Accuracy
• Completeness
• Consistency
o Disamping terdapat faktor data quality lain:
• Timeliness
• Believability
• interpretability

RapidMiner - Budi Susanto


Data Cleaning
• Proses untuk membersihkan data dengan
beberapa teknik
o Memperkecil noise
o membetulkan data yang tidak konsisten.
o Mengisi missing value
o Mengidentifikasi atau membuang outlier

RapidMiner - Budi Susanto


Data Cleaning: Missing Values
• Mengabaikan record
o Biasanya untuk label klasifikasi yang kosong

• Mengisikan secara manual


• Menggunakan mean/median dari atribut yang
mengandung missing value
o Mean dapat dipakai jika distribusi data normal
o Median digunakan jika distribusi data tidak normal (condong)

• Menggunakan nilai global


• Menggunakan nilai termungkin
o Menerapkan regresi

RapidMiner - Budi Susanto


Data Cleaning: Noisy Data
• Noise data adalah suatu kesalahan acak atau
variasi dalam variabel terukur.
• Teknik-teknik
o Binning
• Smoothing by bin means
• Smoothing by bin medians
• Smoothing by bin boundaries
o Regression
o Outlier Analysis

RapidMiner - Budi Susanto


Percobaan Data Cleaning
• Dataset
o Labor-Negotiations

RapidMiner - Budi Susanto


Workflow #1

RapidMiner - Budi Susanto


Data Integration
• Data dapat bersumber dari beberapa sumber
• Teknik
o Analisis korelasi
o Atribut redundan
o duplikasi

RapidMiner - Budi Susanto


Covariance Correlation

RapidMiner - Budi Susanto


Data Transformation
• Tujuannya: diharapkan lebih efisien dalam proses
data mining dan mungkin juga agar pola yang
dihasilkan lebih mudah dipahami.
• Strategi:
o Smoothing
o Attribute (feature) construction
o Aggregation
o Normalization
o Discretization

RapidMiner - Budi Susanto


Data Transformation: Aggregation
dan Smoothing

RapidMiner - Budi Susanto


Data Transformation:
Normalization
• Unit ukuran dapat mempengaruhi analisis data.
• Unit yang lebih kecil akan menghasilkan rentang
nilai yang besar
o Atribut akan memiliki “bobot” yang lebih besar dari atribut lain

• Sehingga
o Data perlu dinormalisasi atau dibakukan.

• Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]


• Diperlukan dalam klasifikasi (termasuk neural
network dan nearest network) dan clustering.

RapidMiner - Budi Susanto


Data Transformation: Metode
Normalization
• Min-max
• Z-score
• Decimal scaling

RapidMiner - Budi Susanto


normalization

RapidMiner - Budi Susanto


Data Transformation:
Discretization
• Melakukan pergantian atribut numerik menjadi
interval label (misalnya: 0-10,11-20, dst.) atau
konseptual label (misalnya: bawah, tengah, atas)

RapidMiner - Budi Susanto


discretization

RapidMiner - Budi Susanto


Data Transformation: Data
Reduction
• Teknik
o Dimensionality reduction
• Wavelet transform
• Principal Component Analysis
• Attribute Subset Selection
o Numerosity reduction
• sampling
o Data compression

RapidMiner - Budi Susanto

Anda mungkin juga menyukai