0% menganggap dokumen ini bermanfaat (0 suara)

137 tayangan6 halaman

Modul 1 Preprocessing

Modul ini membahas tentang pemrosesan awal data (preprocessing) yang meliputi tujuan dan peralatan praktikum preprocessing, serta metode-metode dasar seperti agregasi, penyampelan, dan binerisasi/diskretisasi data untuk mempersiapkan data sebelum proses penggalian informasi.

Diunggah oleh

Ardi Susanto

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

137 tayangan6 halaman

Modul 1 Preprocessing

Diunggah oleh

Ardi Susanto

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 6

KEMENTRIAN RISET, TEKNOLOGI DAN PENDIDIKAN TINGGI

UNIVERSITAS ANDALAS
FAKULTAS TEKNOLOGI INFORMASI
JURUSAN SISTEM INFORMASI
LABORATORIUM BUSINESS INTELLIGENCE
Kampus Universitas Andalas, Limau Manis, Padang – 25163

MODUL PRAKTIKUM 1
PEMROSESAN AWAL DATA (PREPROCESSING)
A. Tujuan
1. Mahasiswa mampu memahami dasar tujuan preprocessing
2. Mahasiswa mampu melakukan tahapan preprocessing

B. Peralatan Praktikum
1. Aplikasi Matlab (2014, 2016 atau 2018)
2. Aplikasi Weka (optional)

C. Pertanyaan Dasar
1. Apa yang praktikan ketahui tentang data?
2. Data seperti apa yang bisa dihasilkan setelah preprocessing?
D. Landasan Teori
Preprocessing merupakan tahapan persiapan / proses awal pengolahan data asli
sebelum data dilakukan proses mining (penggalian informasi dari data yang telah diolah).
Preprocessing ini bertujuan untuk mempersiapkan data mentah yang sebelumnya belum bisa
dikategorikan belum baik.
Penyebab data dikatakan belum baik dikarenakan :
a. Noisy = data awal berisi data yang tidak diinginkan
b. Inconsisten = data yang tidak sama pada masing-masing kategori
c. Incomplete = data yang memiliki missing value

1. Agregasi
Agregasi (aggregation) adalah proses mengombinasikan dua atau lebih objek ke
dalam sebuah objek tunggal. Aggregasi data sangat berguna ketika pada set data ada
sejumlah nilai dalam satu fitur yang sebenarnya satu kelompok, yang tidak akan
menyimpang dari deskripsi fitur tersebut jika nilainya digabungkan. Agregasi yang dapat
dilakukan adalah sum (jumlah), average (rata-rata), min (terkecil), max (terbesar).
Sebagai contoh adalah data transaksi pembelian di beberapa cabang distributor.
Setiah hari masing-masing cabang melakukan banyak sekali transaksi. Semua transaksi
tersebut akan menghasilkan data yang besar dan komplek. Oleh sebab itu data tersebut
akan lebih sederhana tetapi tetap tidak menghilangkan deskripsinya apabila disajikan dalam
bentuk gabungan setiap harinya di masing-masing cabang. Dengan begitu, pemrosesan
data dalam data mining akan relatif lebih sederhana dan komputasinya menjadi lebih
cepat. Selain itu dampaknya adalah penggunaan perangkat penyimpanan menjadi lebih
sedikit atau kecil. Lebih jelasnya dapat dilihat pada tabel-tabel di bawah ini.
Tabel 1. Set Data Transaksi Pembelian Oleh Pelanggan
Cabang IDT Tanggal Tot
Gresik 2018102 30-01-2018 250.000
al
Gresik 2018103 30-01-2018 304.000
Surabaya 2018201 30-01-2018 535.000
Surabaya 2018202 30-01-2018 451.000
Surabaya 2018203 30-01-2018 357.000
Madura 2018301 30-01-2018 265.000
Bandung 2018401 30-01-2018 152.000
Solo 2018501 30-01-2018 426.000
Cilacap 2018601 30-01-2018 723.000
Cilacap 2018602 30-01-2018 938.000
Malang 2018701 30-01-2018 656.000
Malang 2018702 30-01-2018 763.000
Cianjur 2018801 30-01-2018 235.000
Cianjur 2018802 30-01-2018 327.000
78
Cianjur 2018803 30-01-2018 783.000
Bogor 2018901 30-01-2018 237.000
Bogor 2018902 30-01-2018 285.000
Karawang 2018111 30-01-2018 575.000
Subang 2018121 30-01-2018 876.000
Majalengka 2018131 30-01-2018 235.000
Ngawi 2018141 30-01-2018 910.000
Tuban 2018151 30-01-2018 627.000
Jember 2018161 30-01-2018 382.000

Misalnya kita menggunakan agregasi sum pada kolom total, dikelompokan

berdasrkan kolom tanggal dan kolom IDT dapat dihilangkan sehingga hasilnya tampak
seperti pada tabel 2 di bawah ini.
Tabel 2. Set Data Transaksi Pembelian Oleh Pelanggan Setelah Agregasi
Cabang Tanggal Total
Gresik 30-01-2018 554.000
Surabaya 30-01-2018 1.343.000
Madura 30-01-2018 265.000
Bandung 30-01-2018 152.000
Solo 30-01-2018 426.000
Cilacap 30-01-2018 1.661.000
Malang 30-01-2018 1.419.000
Cianjur 30-01-2018 1.345.000
Bogor 30-01-2018 522.000
Karawang 30-01-2018 575.000
Subang 30-01-2018 876.000
Majalengka 30-01-2018 235.000
Ngawi 30-01-2018 910.000
Tuban 30-01-2018 627.000
Jember 30-01-2018 382.000

Dari data yang telah digabungkan, bisa dilihat bahwa di daerah Cilacap memiliki
tingkat pembelian dari pelanggan yang paling tinggi.

Ada beberapa alasan mengapa sebaiknya melakukan agregasi, diantaranya adalah:

1. Set data yang lebih kecil akan membutuhkan memori penyimpanan yang lebih
sedikit (pengurangan data atau perubahan skala).
2. Waktu pemrosesan dalam algoritma data mining menjadi lebih cepat.
3. Agregasi bertindak untuk mengubah cara pandang terhadap data dari level
rendah menjadi level tinggi.
4. Perilaku pengelompokan objek atau atribut sering kali lebih stabil dari pada
objek individu itu sendiri (lebih sedikit variasinya).

2. Penyampelan
Penyampelan (sampling) adalah bahwa sampel data akan bekerja hampir sama
dengan seluruh data jika sample tersebut mampu mewakili (representatif) seluruh data.
Sample disebut representatif jika diperkirakan mempunyai sifat yang sama dengan seluruh
data, biasanya diukur dengan rata-rata (mean) pada sample dan data asli. Jika sama atau
sangat mendekati, sample tersebut bisa dikatakan bagus. Tetapi, penggunaan sample yang
baik juga tidak menjamin bahwa hasil pemrosesan data mining pada sample juga sama
bagusnya dengan pemrosesan pada seluruh data asli.
Ada dua tipe penarikan contoh yang sering digunakan yaitu penarikan contoh tanpa
pengembalian dan penarikan contoh dengan pengembalian. Pada teknik yang pertama,
setiap data yang sudah terambil untuk digunakan sebagi sample tidak dikembalikan lagi ke
data aslinya, sedangkan pada teknik kedua setiap data yang sudah terambil untuk
digunakan sebagai sampel dikembalkan ke data asli. Akibatnya, sebuah data memiliki
kemungkinan untuk muncul lebih dari satu kali dalam sampel. Sebagai contoh dapat dilihat
pada gambar 1 di bawah ini.
Gambar 1. Struktur Data Yang Hilang Karena Penarikan Contoh

Pada gambar 1 di atas dapat dilihat contoh proses sampling secara acak pada set data
dua dimensi yang berisi 9.000 data. Secara kasat mata penarikan contoh 7.000 data masih
memberikan bentuk data yang menyerupai bentuk distribusi data yang asli. Ketika
menggunakan 4.000 data, bentuk aslinya masih terlihat. Akan tetapi, ketika menggunakan
2.000 data, hasil penyampelan mulai terdistorsi dan bentuk asli data mulai tidak tampak.

3. Binerisasi dan Diskretisasi

Beberapa algoritma data mining, khususnya algoritma klasifikasi membutuhkan data
dalam bentuk atribut kategorikal. Sedangkan algoritma asosiasi memerlukan data dalam
bentuk atribut biner. Transformasi data dari tipe kontinu dan diskret ke atribut biner disebut
binerisasi (binarization) sedangkan transformasi data dari atribut kontinu ke atribut
kategoris disebut diskretisasi (discretization).
Cara pertama untuk melakukan binerisasi adalah dari M macam nilai kategoris,
masing-masing diberikan nilai yang unik dengan nilai integer dalam jangkauan [0,M-1].
Jika atribut ordinal, urutan nilai kategorisnya harus diperhatikan. Misalnya untuk nilai
kategoris kualitas = {rusak, jelek, sedang, bagus, sempurna}, nilai-nilai tersebut memeliki
urutan nilai dari rendah ke tinggi (kalau dari contoh nilai kualitas tersebut dari kiri ke
kanan). Jumlah bit yang digunakan untuk binerisasi adalah 𝑁 = ⌈𝑙𝑜𝑔2 (𝑚)⌉
Sebagai contoh dapat dilihat pada tabel 3 di bawah ini, dimana nilai kategoris
kualitas = {rusak, jelek, sedang, bagus, sempurna} dikonversi menjadi nilai integer {0, 1,
2, 3, 4}. Karena ada lima macam nilai kategoris, jumlah bit yang dibutuhkan adalah
𝑁 = ⌈𝑙𝑜𝑔2 (5)⌉ = 3, yaitu menjadi tiga atribut biner x1, x2, x3.

Tabel 3. Konversi Atribut Kategoris ke Tiga Atribut Biner

Nilai Kategoris Nilai Integer Nilai Biner
X1 X2 X3
Rusak 0 0 0 0
Jelek 1 0 0 1
Sedang 2 0 1 0
Bagus 3 0 1 1
Sempurna 4 1 0 0

Sedangkan untuk melakukan diskretisasi terdiri atas dua langkah. Pertama,

memutuskan berapa jumlah kategori yang harus digunakan. Langkah kedua, menentukan
bagaimana memetakan nilai-nilai dari atribut kontinyu ke nilai kategori. Sebagai contoh
nilai yang ada pada tabel 4 diubah menjadi atribut katarogikal dengan nilai: rendah,
sedang tinggi.

Tabel 4. Contoh Atribut Kontinu Yang Akan Didiskretisasi

Atribut Kontinu
125
100
70
120
95
60
220
85
75
90

Pendekatan equal width: range data [60 - 220]:

Rendah: range [60-113]
Sedang: range [114-167]
Tinggi: range [168-220]

E. Instruksi praktikum

HRG_ JML_
URUT KODE_BAR SAT
NOTRANS NAMA_BARANG QTY TGL_TRANS DISKON
AN ANG UAN
JUAL RETUR

TS012013 0JCE010- Susu Cair Indomilk 0 0

00001 1 030 Stroberi 195ml Pcs 2237.55 1 01/01/2018

TS012013 0BGTT001- 0 0
00001 2 077 Gula KBA Kg 8600 1 01/01/2018

TS012013 0BGTT001- 0 0
00001 3 077 Gula KBA Kg 8600 1 01/01/2018
TS012013 0MMB024- Indomie Goreng 0 0
00001 4 030 Kriuk Bawang Pcs 1354.56 2 01/01/2018

TS012013 0MMB024- Indomie Goreng 0 0

00002 1 030 Kriuk Bawang Pcs 1354.56 2 01/01/2018

TS012013 0MMB024- Indomie Goreng 0 0

00002 2 030 Kriuk Bawang Pcs 1354.56 2 01/01/2018

TS012013 0JCE010- Susu Cair Indomilk 0 0

00002 3 030 Stroberi 195ml Pcs 2237.55 1 01/01/2018

TS012013 0RBK005- 0 0
00003 1 083 Roti Tawar BH 7000 1 01/01/2018

TS012013 0JCE010- Susu Cair Indomilk 0 0

00003 2 030 Stroberi 195ml Pcs 2237.55 1 01/01/2018

TS012013 0JCE010- Susu Cair Indomilk 0 0

00003 3 030 Stroberi 195ml Pcs 2237.55 1 01/01/2018

1. Cari dan tambahkan data transaksi baru kedalam tabel diatas

2. Lakukan tahapan awal pemrosesan dari tabel
3. Analisa data yang ada menjadi informasi baru yang bisa dikemukakan

Anda mungkin juga menyukai

Soal Tugas Pemrograman Visual
Belum ada peringkat
Soal Tugas Pemrograman Visual
7 halaman
Data Dan Eksplorasi Data Mining
Belum ada peringkat
Data Dan Eksplorasi Data Mining
32 halaman
Data Mining
Belum ada peringkat
Data Mining
21 halaman
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
Belum ada peringkat
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
32 halaman
Preprocessing Dalam Data Mining
Belum ada peringkat
Preprocessing Dalam Data Mining
6 halaman
Pertemuan3 Ketiga Proses Data Mining
Belum ada peringkat
Pertemuan3 Ketiga Proses Data Mining
27 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
Materi 3 Pre Processing Data
Belum ada peringkat
Materi 3 Pre Processing Data
20 halaman
Pertemuan 3 - Materi (DM - 2016)
Belum ada peringkat
Pertemuan 3 - Materi (DM - 2016)
15 halaman
Data Mining - 3 - Data Preprocessing
Belum ada peringkat
Data Mining - 3 - Data Preprocessing
40 halaman
Materi 1 Pengenalan Data Mining
Belum ada peringkat
Materi 1 Pengenalan Data Mining
5 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Karakteritis Dan Preprocessing Data DER
Belum ada peringkat
Karakteritis Dan Preprocessing Data DER
60 halaman
Ufa Aurora Guciano - TUGAS 1
Belum ada peringkat
Ufa Aurora Guciano - TUGAS 1
10 halaman
Kelompok 4 - LKP5
Belum ada peringkat
Kelompok 4 - LKP5
14 halaman
Minggu 2 Data Preprocessing
Belum ada peringkat
Minggu 2 Data Preprocessing
27 halaman
Konsep Dan Explorasi Data
Belum ada peringkat
Konsep Dan Explorasi Data
60 halaman
Pertemuan Ke 4 Data Processing
Belum ada peringkat
Pertemuan Ke 4 Data Processing
19 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
Belum ada peringkat
Pemrosesan Awal Data - Jordy Cahya Buana - 205150207111040
6 halaman
Data Mining - 2 - Data
Belum ada peringkat
Data Mining - 2 - Data
36 halaman
Overdosis
Belum ada peringkat
Overdosis
12 halaman
SIA Pertemuan 5
Belum ada peringkat
SIA Pertemuan 5
5 halaman
Data Preprocessing Business Intelligence
Belum ada peringkat
Data Preprocessing Business Intelligence
7 halaman
3 Teori - Preprocessing Data II
Belum ada peringkat
3 Teori - Preprocessing Data II
25 halaman
PDM Kel 7
Belum ada peringkat
PDM Kel 7
16 halaman
Pertemuan 2 - Data Understanding
Belum ada peringkat
Pertemuan 2 - Data Understanding
45 halaman
Conny Ariestyani TB1 Pengantar Data Ming 41519310013
100% (1)
Conny Ariestyani TB1 Pengantar Data Ming 41519310013
8 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Tutorial Rapidminer - 4
100% (1)
Tutorial Rapidminer - 4
18 halaman
KDD (Knowledge Data Discovery) 1
Belum ada peringkat
KDD (Knowledge Data Discovery) 1
24 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
PDM Kel 7
Belum ada peringkat
PDM Kel 7
15 halaman
Tugas01 DataMining H071181012
Belum ada peringkat
Tugas01 DataMining H071181012
7 halaman
Tugas Sesi 1 Data Mining 2 Universitas Terbuka
Belum ada peringkat
Tugas Sesi 1 Data Mining 2 Universitas Terbuka
4 halaman
PDM Kel 5
Belum ada peringkat
PDM Kel 5
4 halaman
Tugas Penjelasan Data Mining (Kelompok)
Belum ada peringkat
Tugas Penjelasan Data Mining (Kelompok)
8 halaman
Tugas Data Analisis
Belum ada peringkat
Tugas Data Analisis
18 halaman
Diktat Datamining
Belum ada peringkat
Diktat Datamining
68 halaman
Data Mining Memahami Data
Belum ada peringkat
Data Mining Memahami Data
38 halaman
Tutorial Belajar Rapidminer (Bagian 7) - Menggabung Dan Mengelompokkan
Belum ada peringkat
Tutorial Belajar Rapidminer (Bagian 7) - Menggabung Dan Mengelompokkan
17 halaman
Bab 6 Visualisasi Data: Oleh
Belum ada peringkat
Bab 6 Visualisasi Data: Oleh
7 halaman
Makalah Pemrosesan Data - 2-1
Belum ada peringkat
Makalah Pemrosesan Data - 2-1
12 halaman
Tugas 2 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
Belum ada peringkat
Tugas 2 Data Mining - 210210501004 - Musda Rida Mulia - SC 1
9 halaman
Kuliah M4 Final
Belum ada peringkat
Kuliah M4 Final
62 halaman
Nabila Nurfadhilah 190402058 Persiapan Data PRT 11 Rangkuman
Belum ada peringkat
Nabila Nurfadhilah 190402058 Persiapan Data PRT 11 Rangkuman
9 halaman
Tugas 1 Msim4403
Belum ada peringkat
Tugas 1 Msim4403
4 halaman
JAWABAN
Belum ada peringkat
JAWABAN
5 halaman
Pengertian Data, Jenis Dan Tipe Data
100% (1)
Pengertian Data, Jenis Dan Tipe Data
20 halaman
Quiz6 - Kapita Selekta Informatika - A.A Ivan Arya Pangestu (20180801044)
Belum ada peringkat
Quiz6 - Kapita Selekta Informatika - A.A Ivan Arya Pangestu (20180801044)
5 halaman
6 - 7705 - MIK620KJ101 - 042018 - PDF
Belum ada peringkat
6 - 7705 - MIK620KJ101 - 042018 - PDF
15 halaman
TR2 Data Mining Nurul Khairunnisa
Belum ada peringkat
TR2 Data Mining Nurul Khairunnisa
31 halaman
Tugas Data Minning
Belum ada peringkat
Tugas Data Minning
16 halaman
Pertemuan 3 Data Mining
Belum ada peringkat
Pertemuan 3 Data Mining
10 halaman
Contoh Kasus Dalam Data Mining - 1
Belum ada peringkat
Contoh Kasus Dalam Data Mining - 1
9 halaman
Data Science Pertemuan 10
Belum ada peringkat
Data Science Pertemuan 10
35 halaman
Pertemuan 1 - Pendahuluan
Belum ada peringkat
Pertemuan 1 - Pendahuluan
26 halaman
Learning Progress Review Week 5 - Kelompok3
Belum ada peringkat
Learning Progress Review Week 5 - Kelompok3
31 halaman
Adoc - Pub - Data Mining Terapan Dengan Matlab
Belum ada peringkat
Adoc - Pub - Data Mining Terapan Dengan Matlab
10 halaman
6 Image Smoothing Sharpening
100% (1)
6 Image Smoothing Sharpening
30 halaman
Diagnosa Penyakit Gagal Ginjal Berbasis CBR Dan Analisis
Belum ada peringkat
Diagnosa Penyakit Gagal Ginjal Berbasis CBR Dan Analisis
15 halaman
Dokumentasi Kebutuhan User
Belum ada peringkat
Dokumentasi Kebutuhan User
11 halaman
Catatan Kuliah Fuzzy-1
Belum ada peringkat
Catatan Kuliah Fuzzy-1
60 halaman
Jurnal
Belum ada peringkat
Jurnal
9 halaman