0% menganggap dokumen ini bermanfaat (0 suara)

12 tayangan27 halaman

Preprocessing Data

Dokumen ini membahas tentang preprocessing data dalam konteks KDD, termasuk masalah seperti data yang tidak komplit, noisy, dan tidak konsisten. Tujuan dari preprocessing adalah untuk menghasilkan data yang berkualitas tinggi melalui pembersihan, integrasi, transformasi, dan reduksi data. Metode yang dijelaskan mencakup pengisian missing value, deteksi outlier, dan teknik normalisasi serta diskritisasi data.

Diunggah oleh

lecture willy

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

12 tayangan27 halaman

Preprocessing Data

Diunggah oleh

lecture willy

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 27

KDD (Knowledge DataWILLY PRIHARTONO

Discovery)

PREPROCESSING DATA

This Photo by Unknown Author is licensed under CC BY-NC

Preprocessing Data
LATAR BELAKANG PRAPROSES DATA

Tidak komplit
• Terdapat artribut yang kosong dikarenakan atribut tersebut tidak dapat
diaplikasikan untuk semua kasus
• Human/Hardware/Software problems

Noisy
• Data mengandung error atau outlier karena terdapat kesalahan dalam
penggunaan alat, kesalahan manusia atau komputer pada saat
memasukkan data, eror dalam transmisi data

Tidak konsisten
• Format data berubah-ubah dikarenakan berasal dari sumber data yang
berbeda. Contoh: Format tanggal
TUJUAN PRAPROSES

• Menghasilkan hasil mining yang berkualitas

• Data warehouse membutuhkan integrasi yang konsisten
• Data extraction, cleaning, and transformation merupakan salah
satu tahapan untuk membangun gudang data

Sumber:
www.syncsort.com/Syncsort/m
edia/images/data-quality-hero-
mobile.png
TAHAPAN PRAPROSES DATA

Pembersihan
Data

Integrasi Diskritisasi
Data Data

Transformasi Reduksi
Data Data
ILUSTRASI PRAPROSES DATA
PEMBERSIHAN DATA

Mengisi missing Meminimumkan

value Noise

Membetulkan Mengindentifikasi
data yang tidak /membuang https://developer.salesforce.com/
resource/images/trailhead/badges/
konsisten outlier modules/
trailhead_module_data_quality.png
MENGISI MISSING VALUE

• Mengabaikan record
• Menggunakan mean/median/modus dari
atribut yang mengandung missing value
• Menggunakan nilai termungkin (Menerapkan
regresi)
NOISY DATA

Cara mengetahui outlier : Clustering, Regresi

Linear

Binning

• Smoothing menggunakan Bin Means

• Smoothing menggunakan Bin Medians
• Smoothing menggunakan Bin Boundaries
MENDETEKSI OUTLIER DENGAN
CLUSTERING
MENDETEKSI OUTLIER DENGAN REGRESI
LINEAR
METODE BINING

Metode yang dilakukan untuk mengelompokkan data

Salah satu pendekatan diskritisasi

Urutan proses:
1. Urutkan data dari kecil ke besar
(ascending)
2. Melakukan partisi data dalam bins
menggunakan equal-width atau equal-
depth (frekuensi)
3. Dapat di-smoothing menggunakan rata-
rata, median, batasan, dsb.
METODE BINING

 Partisi Equal-Width
Langkah-langkah membagi data ke dalam k
interval ukuran yang sama. Lebar interval adalah
w= (max-min)/k
 Partisi Equal- depth
Membagi data ke dalam k kelompok dimana
tiap k kelompok berisi jumlah yang sama
CONTOH PARTISI BINNING

Data: 0, 4, 12, 16 16, 18, 24, 26, 28 Smoothing berdasarkan rata-rata:

Semua nilai tiap bin diganti dengan
 Equal Width rata-rata nilai tiap bin
BIN 1= 0,4
BIN 2= 12,16,16,18 Smoothing berdasarkan batasan:
Setiap nilai bin diganti dengan nilai
BIN 3= 24,26,28 yang paling dekat dari batasan
nilai. Batasan nilai terbentuk dari
 Equal Depth [min, max] tiap bin
BIN 1= 0, 4, 12
BIN 2= 16,16,18
BIN 3= 24,26,28
INTEGRASI DATA

 Data dapat bersumber dari beberapa sumber

 Teknik-teknik:

ANALISIS
KORELASI

ATRIBUT
REDUDAN

DUPLIKASI
MENGATASI REDUNDASI PADA
INTEGRASI DATA
Dapat dideteksi
PENYEBAB REDUNDANSI menggunakan
• Atribut yang sama mempunyai nama analisis korelasi
yang berbeda pada database yang
berbeda Berhati-hati dalam
• Satu atribut merupakan turunan dari menggabungkan data
atribut lainnya dari berbagai sumber
untuk mengurangi
redundasi
MENGATASI REDUNDASI PADA
INTEGRASI DATA

Redudancy/ Duplicate :
Hubungan korelasi antar variabel dapat dilihat
menggunakan rumus korelasi. Jika data numerik, hubungan
korelasinya seperti dibawah ini:

Semakin besar hasil perhitungan tersebut, semakin tinggi

korelasi. Jika hasil perhitungan tersebut =0 berarti independen.
Jika kurang dari nol tidak independen
MENGATASI REDUNDASI PADA
INTEGRASI DATA

Jika data kategorik, hubungan korelasinya seperti

dibawah ini menggunakan chi-square:

Semakin besar chi-square, semakin tinggi korelasi. Jika

hasil perhitungan tersebut =0 berarti independen. Jika kurang
dari nol tidak independen
CONTOH SOAL MENGGUNAKAN CHI-
SQUARE
TRANFORMASI DATA
TRANSFORMASI DATA

Normalization

a. Min-max normalization: menghasilkan

[new_min,new_max]

Contoh soal:
Penghasilan berkisar dari $10,000 sampai $98,000
dinormalisasikan dari [0,1]. Sehingga untuk penghasilan sebesar
$73,000 dipetakan ke (1-0)+0=0.716
TRANSFORMASI DATA

Normalization

b. Min-max Z-score normalization : μ: mean, σ: standard

deviation

Contoh soal:
Misal μ = 55,000, σ = 20,000. Maka, = 0.9
TRANSFORMASI DATA

Normalization
c. Normalisasi pada skala desimal

Dimana j adalah bilangan bulat terkecil sehingga Max(|ν’|) < 1

REDUKSI DATA

Memperkecil volume tapi menghasilkan analasis data

yang sama. Strategi- strategi data reduksi: Data cube
aggregation, reduksi dimensi (menghapus atribut yang tidak
penting), kompresi data, dsb.

Menggunakan
DATA CUBE Mengurangi
AGGREGATION
representasi
ukuran data
yang singkat
REDUKSI DATA
DATA CUBE
AGGREGATION
DISKRITISASI DATA

Terdapat tiga tipe atribut:

• Nominal = Nilai dari sekumpulan data yang tidak beraturan. Contoh: Warna, Profesi
• Ordinal = Nilai dari sekumpulan data yang terurut..
Contoh: Ip, nomor antrian
• Kontinu = Nilai real seperti integer atau real number

Diskritisasi
Metode disktritisasi bisa dilakukan pada data kontinu.Tahap pertama, kita mengelompokkan
nilai ke dalam interval. Setelah itu kita menggantikan nilai atribut dengan label atau interval.

Contoh:
Dataset (age, salary): (26;56,000),(28;70,000),(89;99,000)
c
Latihan (lakukan Konfigurasi Berikut)

Lakukan Preprocessing Data terhadap Data Berikut

https://drive.google.com/file/d/1RIxYnH5RkphTZymdrpwpF
eDZpRgl6MdT/view?usp=sharing

Menggunakan :

1. Python
2. Rapid Minner

Anda mungkin juga menyukai

Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
3.5/5 (6)
TDM-3
Belum ada peringkat
TDM-3
24 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Pertemuan 8 Data Preprocessing
Belum ada peringkat
Pertemuan 8 Data Preprocessing
19 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
Slide Materi Data Preprocessing
Belum ada peringkat
Slide Materi Data Preprocessing
29 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Pertemuan Ke 4 Data Processing
Belum ada peringkat
Pertemuan Ke 4 Data Processing
19 halaman
Soal Tugas Pemrograman Visual
Belum ada peringkat
Soal Tugas Pemrograman Visual
7 halaman
Data Mining 02
Belum ada peringkat
Data Mining 02
30 halaman
Ufa Aurora Guciano - TUGAS 1
Belum ada peringkat
Ufa Aurora Guciano - TUGAS 1
10 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman
Materi 1 Pengenalan Data Mining
Belum ada peringkat
Materi 1 Pengenalan Data Mining
5 halaman
Materi 3 Pre Processing Data
Belum ada peringkat
Materi 3 Pre Processing Data
20 halaman
485 - Data Mining-P03
Belum ada peringkat
485 - Data Mining-P03
25 halaman
P-4 Data Mining
Belum ada peringkat
P-4 Data Mining
57 halaman
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
Belum ada peringkat
Data Mining - 2020240051 - Si6b - Vabby Shaizul Aliyy Kartadinata
13 halaman
Data Preparation
Belum ada peringkat
Data Preparation
42 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Handout TIF311 DM 3
Belum ada peringkat
Handout TIF311 DM 3
36 halaman
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
Belum ada peringkat
Tugas 3 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
12 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
11 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
Materi3 4
Belum ada peringkat
Materi3 4
15 halaman
Pengertian Data, Jenis Dan Tipe Data
100% (1)
Pengertian Data, Jenis Dan Tipe Data
20 halaman
Ringkasan UTS Data Mining
Belum ada peringkat
Ringkasan UTS Data Mining
23 halaman
Slide Data Preprocessing
Belum ada peringkat
Slide Data Preprocessing
27 halaman
Paper Data Mining
Belum ada peringkat
Paper Data Mining
5 halaman
3 Teori - Preprocessing Data II
Belum ada peringkat
3 Teori - Preprocessing Data II
25 halaman
Data Mining M.ridho New 2
Belum ada peringkat
Data Mining M.ridho New 2
9 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA rev
Belum ada peringkat
TEKNIK PEMBERSIHAN DAN TRANSFORMASI DATA rev
9 halaman
Anesya Mahera_20221026_Ai A
Belum ada peringkat
Anesya Mahera_20221026_Ai A
4 halaman
Article_Review_9__Data_Preprocessing-f557424c-ca1c-4c43-bba8-b07436946c8b
Belum ada peringkat
Article_Review_9__Data_Preprocessing-f557424c-ca1c-4c43-bba8-b07436946c8b
9 halaman
Knowledge Discovery in Database (KDD)
Belum ada peringkat
Knowledge Discovery in Database (KDD)
12 halaman
3. Karakteritis dan preprocessing Data DER
Belum ada peringkat
3. Karakteritis dan preprocessing Data DER
60 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Data Mining Pertemuan
Belum ada peringkat
Data Mining Pertemuan
41 halaman
Processing Data Mining
Belum ada peringkat
Processing Data Mining
16 halaman
Andata 2020 05
Belum ada peringkat
Andata 2020 05
159 halaman
Overdosis
Belum ada peringkat
Overdosis
12 halaman
Data Mining A - Laporan Tugas 2
Belum ada peringkat
Data Mining A - Laporan Tugas 2
14 halaman
Preprocessing Dalam Data Mining
Belum ada peringkat
Preprocessing Dalam Data Mining
6 halaman
dio prasetyo data mining
Belum ada peringkat
dio prasetyo data mining
3 halaman
Tugas Rangkuman Seminar
Belum ada peringkat
Tugas Rangkuman Seminar
6 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Makalah Pemrosesan Data - 2-1
Belum ada peringkat
Makalah Pemrosesan Data - 2-1
12 halaman
Pre-Processing Data Part 2
Belum ada peringkat
Pre-Processing Data Part 2
37 halaman
Business Intelligent
Belum ada peringkat
Business Intelligent
15 halaman
Modul 1 Preprocessing
Belum ada peringkat
Modul 1 Preprocessing
6 halaman
Materi Teknik Pengolahan Data (1)
Belum ada peringkat
Materi Teknik Pengolahan Data (1)
7 halaman
Sesi 2 - MSIM4403_2024-2025 Ganjil
Belum ada peringkat
Sesi 2 - MSIM4403_2024-2025 Ganjil
14 halaman
Pilih_Judul[1] (1)
Belum ada peringkat
Pilih_Judul[1] (1)
18 halaman
add sc
Belum ada peringkat
add sc
19 halaman
Framework Arch
Belum ada peringkat
Framework Arch
32 halaman
Latihan Pertemuan 2
Belum ada peringkat
Latihan Pertemuan 2
1 halaman
DLP
Belum ada peringkat
DLP
14 halaman
Preventing Remote Code Execution
Belum ada peringkat
Preventing Remote Code Execution
10 halaman
Skema Bab 3
Belum ada peringkat
Skema Bab 3
3 halaman