Modul 1 Preprocessing
Modul 1 Preprocessing
UNIVERSITAS ANDALAS
FAKULTAS TEKNOLOGI INFORMASI
JURUSAN SISTEM INFORMASI
LABORATORIUM BUSINESS INTELLIGENCE
Kampus Universitas Andalas, Limau Manis, Padang – 25163
MODUL PRAKTIKUM 1
PEMROSESAN AWAL DATA (PREPROCESSING)
A. Tujuan
1. Mahasiswa mampu memahami dasar tujuan preprocessing
2. Mahasiswa mampu melakukan tahapan preprocessing
B. Peralatan Praktikum
1. Aplikasi Matlab (2014, 2016 atau 2018)
2. Aplikasi Weka (optional)
C. Pertanyaan Dasar
1. Apa yang praktikan ketahui tentang data?
2. Data seperti apa yang bisa dihasilkan setelah preprocessing?
D. Landasan Teori
Preprocessing merupakan tahapan persiapan / proses awal pengolahan data asli
sebelum data dilakukan proses mining (penggalian informasi dari data yang telah diolah).
Preprocessing ini bertujuan untuk mempersiapkan data mentah yang sebelumnya belum bisa
dikategorikan belum baik.
Penyebab data dikatakan belum baik dikarenakan :
a. Noisy = data awal berisi data yang tidak diinginkan
b. Inconsisten = data yang tidak sama pada masing-masing kategori
c. Incomplete = data yang memiliki missing value
1. Agregasi
Agregasi (aggregation) adalah proses mengombinasikan dua atau lebih objek ke
dalam sebuah objek tunggal. Aggregasi data sangat berguna ketika pada set data ada
sejumlah nilai dalam satu fitur yang sebenarnya satu kelompok, yang tidak akan
menyimpang dari deskripsi fitur tersebut jika nilainya digabungkan. Agregasi yang dapat
dilakukan adalah sum (jumlah), average (rata-rata), min (terkecil), max (terbesar).
Sebagai contoh adalah data transaksi pembelian di beberapa cabang distributor.
Setiah hari masing-masing cabang melakukan banyak sekali transaksi. Semua transaksi
tersebut akan menghasilkan data yang besar dan komplek. Oleh sebab itu data tersebut
akan lebih sederhana tetapi tetap tidak menghilangkan deskripsinya apabila disajikan dalam
bentuk gabungan setiap harinya di masing-masing cabang. Dengan begitu, pemrosesan
data dalam data mining akan relatif lebih sederhana dan komputasinya menjadi lebih
cepat. Selain itu dampaknya adalah penggunaan perangkat penyimpanan menjadi lebih
sedikit atau kecil. Lebih jelasnya dapat dilihat pada tabel-tabel di bawah ini.
Tabel 1. Set Data Transaksi Pembelian Oleh Pelanggan
Cabang IDT Tanggal Tot
Gresik 2018102 30-01-2018 250.000
al
Gresik 2018103 30-01-2018 304.000
Surabaya 2018201 30-01-2018 535.000
Surabaya 2018202 30-01-2018 451.000
Surabaya 2018203 30-01-2018 357.000
Madura 2018301 30-01-2018 265.000
Bandung 2018401 30-01-2018 152.000
Solo 2018501 30-01-2018 426.000
Cilacap 2018601 30-01-2018 723.000
Cilacap 2018602 30-01-2018 938.000
Malang 2018701 30-01-2018 656.000
Malang 2018702 30-01-2018 763.000
Cianjur 2018801 30-01-2018 235.000
Cianjur 2018802 30-01-2018 327.000
78
Cianjur 2018803 30-01-2018 783.000
Bogor 2018901 30-01-2018 237.000
Bogor 2018902 30-01-2018 285.000
Karawang 2018111 30-01-2018 575.000
Subang 2018121 30-01-2018 876.000
Majalengka 2018131 30-01-2018 235.000
Ngawi 2018141 30-01-2018 910.000
Tuban 2018151 30-01-2018 627.000
Jember 2018161 30-01-2018 382.000
Dari data yang telah digabungkan, bisa dilihat bahwa di daerah Cilacap memiliki
tingkat pembelian dari pelanggan yang paling tinggi.
2. Penyampelan
Penyampelan (sampling) adalah bahwa sampel data akan bekerja hampir sama
dengan seluruh data jika sample tersebut mampu mewakili (representatif) seluruh data.
Sample disebut representatif jika diperkirakan mempunyai sifat yang sama dengan seluruh
data, biasanya diukur dengan rata-rata (mean) pada sample dan data asli. Jika sama atau
sangat mendekati, sample tersebut bisa dikatakan bagus. Tetapi, penggunaan sample yang
baik juga tidak menjamin bahwa hasil pemrosesan data mining pada sample juga sama
bagusnya dengan pemrosesan pada seluruh data asli.
Ada dua tipe penarikan contoh yang sering digunakan yaitu penarikan contoh tanpa
pengembalian dan penarikan contoh dengan pengembalian. Pada teknik yang pertama,
setiap data yang sudah terambil untuk digunakan sebagi sample tidak dikembalikan lagi ke
data aslinya, sedangkan pada teknik kedua setiap data yang sudah terambil untuk
digunakan sebagai sampel dikembalkan ke data asli. Akibatnya, sebuah data memiliki
kemungkinan untuk muncul lebih dari satu kali dalam sampel. Sebagai contoh dapat dilihat
pada gambar 1 di bawah ini.
Gambar 1. Struktur Data Yang Hilang Karena Penarikan Contoh
Pada gambar 1 di atas dapat dilihat contoh proses sampling secara acak pada set data
dua dimensi yang berisi 9.000 data. Secara kasat mata penarikan contoh 7.000 data masih
memberikan bentuk data yang menyerupai bentuk distribusi data yang asli. Ketika
menggunakan 4.000 data, bentuk aslinya masih terlihat. Akan tetapi, ketika menggunakan
2.000 data, hasil penyampelan mulai terdistorsi dan bentuk asli data mulai tidak tampak.
E. Instruksi praktikum
HRG_ JML_
URUT KODE_BAR SAT
NOTRANS NAMA_BARANG QTY TGL_TRANS DISKON
AN ANG UAN
JUAL RETUR
TS012013 0BGTT001- 0 0
00001 2 077 Gula KBA Kg 8600 1 01/01/2018
TS012013 0BGTT001- 0 0
00001 3 077 Gula KBA Kg 8600 1 01/01/2018
TS012013 0MMB024- Indomie Goreng 0 0
00001 4 030 Kriuk Bawang Pcs 1354.56 2 01/01/2018
TS012013 0RBK005- 0 0
00003 1 083 Roti Tawar BH 7000 1 01/01/2018