Modul 1 - Data Mining
Modul 1 - Data Mining
(CTI311)
MODUL 1
INTRODUKSI DATA MINING
DISUSUN OLEH
AGUNG MULYO WIDODO, ST, M.Sc.
Proses penggalian data secara keseluruhan diilustrasikan pada Gambar 1.2 Perhatikan
bahwa blok analitik pada Gambar 1.2 menunjukkan beberapa blok penyusun yang
merepresentasikan desain solusi untuklakasi tertuten. Bagian dari desain algoritmik ini
bergantung pada keterampilan analis dan sering kali menggunakan satu atau lebih dari.
empat masalah utama sebagai blok bangunan. Hal ini, tentu saja, tidak selalu terjadi, tetapi
cukup sering untuk mendapatkan perlakuan khusus dari keempat masalah ini dalam buku
ini. Untuk menjelaskan proses data mining, kami akan menggunakan contoh dari skenario
rekomendasi.
Contoh 1 : Pertimbangkan skenario di mana pengecer memiliki log web yang sesuai dengan
akses pelanggan ke halaman web di situsnya. Masing-masing halaman web ini berhubungan
dengan suatu produk, dan oleh karena itu akses pelanggan ke suatu halaman sering kali
menunjukkan ketertarikan pada produk tersebut. Pengecer juga menyimpan profil
demografis untuk pelanggan yang berbeda. Pengecer ingin membuat rekomendasi produk
Log mungkin berisi ratusan ribu entri seperti itu. . . Di sini, pelanggan di alamat IP
98.206.207.157 telah mengakses productA.htm. Pelanggan dari alamat IP dapat
diidentifikasi menggunakan informasi login sebelumnya, dengan menggunakan cookie,
atau dengan alamat IP ITu sendiri, tetapi ini mungkin merupakan proses yang berisik
danung mkin tak selalu memberikan yangkurat. Analis perlu merancang algoritme untuk
memutuskan cara memfilter entri log yang berbeda dan hanya menggunakan algoritme yang
manikan hasil yang akurat sebagai bagian dari proses pembersihan dan ekstraksi.
Lebih jauh lagi, raw log tersebut mengandung banyak informasi tambahan yang belum
tentu berguna bagi pengecer. Dalam proses ekstraksi fitur, pengecer memutuskan untuk
membuat satu catatan untuk setiap pelanggan, dengan pilihan fitur tertentu yang diekstrak
dari akses halaman Web. Untuk setiap record, atribut sesuai dengan jumlah akses ke setiap
deskripsi produk. Oleh karena itu, log mentah perlu diproses, dan akses perlu dikumpulkan
selama fase ekstraksi fitur ini. Atribut ditambahkan ke catatan ini untuk database pengecer
yang berisi informasi demografis dalam fase integrasi data. Entri yang hilang dari catatan
demografis perlu diperkirakan untuk pembersihan data lebih lanjut. Ini menghasilkan satu
kumpulan data yang berisi atribut untuk demografi pelanggan dan akses pelanggan.
Pada titik ini, analis harus memutuskan bagaimana menggunakan kumpulan data yang
dibersihkan ini untuk membuat rekomendasi. Dia memutuskan untuk menentukan
kelompok pelanggan yang serupa, dan membuat rekomendasi berdasarkan perilaku
pembelian dari kelompok serupa tersebut. Secara khusus, blok bangunan pengelompokan
digunakan untuk menentukan grup serupa. Untuk pelanggan tertentu, item yang paling
sering diakses oleh pelanggan dalam grup itu direkomendasikan. Ini memberikan contoh
seluruh pipeline data mining. Oleh karena itu, seluruh proses data mining adalah bentuk
seni, yang didasarkan pada keterampilan analis, dan tidak dapat sepenuhnya ditangkap oleh
satu teknik atau blok bangunan. Dalam praktiknya, keterampilan ini hanya dapat dipelajari
dengan bekerja dengan beragam aplikasi melalui skenario dan tipe data yang berbeda.
Sepanjang bab-bab awal buku ini, kami akan bekerja dengan data multidimensi karena ini
adalah bentuk data yang paling sederhana dan menetapkan prinsip yang lebih luas di mana
tipe data yang lebih kompleks dapat diproses. Tipe data yang lebih kompleks akan dibahas
di bab-bab selanjutnya dari buku ini, dan dampak ketergantungan pada proses penambangan
akan dibahas secara eksplisit.
Misalnya, pertimbangkan kasus di mana dua sensor di lokasi tertentu memantau suhu dan
tekanan setiap detik selama satu menit. Hal ini sesuai dengan deret multidimensi dengan d
= 2 dan n = 60. Dalam beberapa kasus, stempel/penanda waktu t1 ... tn dapat diganti dengan
nilai indeks dari 1 hingga n, terutama bila nilai stempel waktu berjarak sama pada suatu
bagian . Data time series relatif umum di banyak aplikasi sensor, peramalan, dan analisis
pasar keuangan.
Misalnya, pertimbangkan urutan akses Web, di mana alamat halaman Web dan alamat IP
asal dari permintaan dikumpulkan untuk 100 akses berbeda. Ini mewakili urutan diskrit
dengan panjang n = 100 dan dimensi d = 2. Kasus yang sangat umum dalam data urutan
adalah skenario univariat, di mana nilai d adalah 1. Data urutan tersebut juga disebut sebagai
string.
Perlu dicatat bahwa definisi yang disebutkan di atas hampir identik dengan kasus rangkaian
waktu, dengan perbedaan utama adalah bahwa urutan diskrit mengandung atribut
kategorikal. Secara teori, dimungkinkan untuk memiliki deret yang dicampur antara data
kategorikal dan numerik. Variasi penting lainnya adalah kasus di mana urutan tidak
mengandung atribut kategorikal, tetapi sekumpulan nilai kategorikal yang tidak berurutan.
Misalnya, transaksi supermarket mungkin berisi serangkaian item. Setiap set dapat berisi
sejumlah item. Urutan setwise tersebut sebenarnya bukan urutan multivariasi, tetapi
merupakan urutan univariat, di mana setiap elemen urutan adalah satu set yang bertentangan
dengan elemen unit. Dengan demikian, urutan diskrit dapat didefinisikan dalam berbagai
cara yang lebih luas, dibandingkan dengan data deret waktu karena kemampuan untuk
menentukan himpunan pada elemen diskrit.
Dalam beberapa kasus, atribut kontekstual mungkin tidak mengacu pada waktu secara
eksplisit, tetapi mungkin merupakan posisi yang didasarkan pada penempatan fisik. Ini
adalah kasus untuk data urutan biologis. Dalam kasus seperti itu, stempel waktu dapat
diganti dengan indeks yang mewakili posisi nilai dalam string, menghitung posisi paling
kiri sebagai 1. Beberapa contoh skenario umum di mana data urutan mungkin muncul
adalah sebagai berikut:
Log peristiwa (event logs): Berbagai macam sistem komputer, server web, dan
aplikasi web membuat log peristiwa berdasarkan aktivitas pengguna. Contoh log
peristiwa adalah urutan tindakan pengguna di situs web keuangan:
Urutan khusus ini mungkin mewakili skenario di mana pengguna mencoba masuk
ke sistem yang dilindungi sandi, dan mungkin menarik dari perspektif deteksi
anomali.
Data biologis (Biological data): Dalam hal ini, urutannya mungkin sesuai dengan
string nukleotida atau asam amino. Pengurutan unit tersebut memberikan informasi
tentang karakteristik fungsi protein. Oleh karena itu, proses data mining dapat
digunakan untuk menentukan pola menarik yang mencerminkan sifat biologis yang
berbeda.
Urutan diskrit seringkali lebih menantang untuk algoritma penambangan karena mereka
tidak memiliki nilai kelancaran kontinuitas data deret waktu.
Definisi tersebut di atas memberikan fleksibilitas yang luas dalam hal bagaimana
catatan Xi dan lokasi Li dapat didefinisikan. Misalnya, atribut perilaku dalam catatan Xi
mungkin berupa numerik atau kategorikal, atau campuran keduanya. Dalam aplikasi
meteorologi, Xi mungkin berisi atribut suhu dan tekanan di lokasi Li. Lebih lanjut, Li dapat
dispesifikasikan dalam istilah koordinat spasial yang tepat, seperti lintang dan bujur, atau
dalam istilah lokasi logis, seperti kota atau negara bagian. Penambangan data spasial terkait
erat dengan penambangan data deret waktu, di mana atribut perilaku dalam aplikasi spasial
yang paling sering dipelajari bersifat kontinu, meskipun beberapa aplikasi dapat
menggunakan atribut kategorikal juga. Oleh karena itu, kontinuitas nilai diamati di seluruh
lokasi spasial yang berdekatan, seperti halnya kontinuitas nilai diamati di lokasi yang
berdekatan stempel waktu dalam data deret waktu
.
1.3.2.4 Data Spatiotemporal
Bentuk tertentu dari data spasial adalah data spasiotemporal, yang mengandung atribut
spasial dan temporal. Sifat tepat dari data juga bergantung pada atribut mana yang
kontekstual dan mana yang berperilaku. Dua jenis data spasiotemporal paling umum:
Baik atribut spasial dan temporal bersifat kontekstual: Jenis data ini dapat
dipandang sebagai generalisasi langsung dari data spasial dan data temporal. Jenis
data ini sangat berguna ketika dinamika spasial dan temporal dari atribut perilaku
tertentu diukur secara bersamaan. Misalnya, pertimbangkan kasus di mana variasi
suhu permukaan laut perlu diukur dari waktu ke waktu. Dalam kasus seperti itu,
suhu adalah atribut perilaku, sedangkan atribut spasial dan temporal bersifat
kontekstual.
Atribut temporal bersifat kontekstual, sedangkan atribut spasial adalah perilaku:
Sebenarnya, jenis data ini juga dapat dianggap sebagai data deret waktu. Namun,
sifat spasial dari atribut perilaku juga memberikan interpretabilitas yang lebih baik
dan analisis yang lebih terfokus dalam banyak skenario. Bentuk paling umum dari
data ini muncul dalam konteks analisis lintasan
Harus diperhatikan bahwa data deret waktu 2 atau 3 dimensi dapat dipetakan ke lintasan.
Ini adalah transformasi yang berguna karena menyiratkan bahwa algoritme penambangan
lintasan juga dapat digunakan untuk data deret waktu 2 atau 3 dimensi. Misalnya, kumpulan
data Intel Research Berkeley [556] berisi bacaan dari berbagai sensor. Contoh sepasang
bacaan dari sensor suhu dan tegangan diilustrasikan pada Gambar. 1.2a dan b. Lintasan
suhu-tegangan yang sesuai diilustrasikan pada Gambar 1.2c
Tepi (i, j) dapat diarahkan atau tidak, tergantung pada aplikasi yang digunakan. Misalnya,
grafik Web mungkin berisi tepi terarah yang sesuai dengan arah hyperlink antar halaman,
sedangkan pertemanan di jejaring sosial Facebook tidak terarah. Kelas kedua dari masalah
penambangan grafik adalah database yang berisi banyak grafik kecil seperti senyawa kimia.
Tantangan di kedua kelas masalah ini sangat berbeda. Beberapa contoh data yang
direpresentasikan dalam bentuk grafik adalah sebagai berikut:
Grafik web: Node berhubungan dengan halaman Web, dan ujungnya berhubungan
dengan hyperlink. Node memiliki atribut teks yang sesuai dengan konten di
halaman.
Jejaring sosial: Dalam hal ini, simpul berhubungan dengan aktor jejaring sosial,
sedangkan tepi berhubungan dengan tautan pertemanan. Node tersebut mungkin
memiliki atribut yang sesuai dengan konten halaman sosial. Dalam beberapa bentuk
jaringan sosial khusus, seperti email atau jaringan chat-messenger, ujung-ujungnya
Pola yang memenuhi persyaratan dukungan minimum sering disebut sebagai pola frequent,
atau frequent itemset. Pola yang sering mewakili kelas pola asosiasi yang penting. Banyak
definisi lain dari pola asosiasi yang relevan yang mungkin tidak menggunakan frekuensi
Pencilan juga disebut sebagai kelainan, sumbang, menyimpang, atau anomali dalam data
mining dan literatur statistik. Di sebagian besar aplikasi, data dibuat oleh satu atau lebih
proses pembangkit yang dapat mencerminkan aktivitas dalam sistem atau pengamatan yang
dikumpulkan tentang entitas. Ketika proses pembangkitan berperilaku dengan cara yang
tidak biasa, itu menghasilkan penciptaan outlier. Oleh karena itu, outlier sering kali berisi
informasi yang berguna tentang karakteristik abnormal dari sistem dan entitas yang
berdampak pada proses pembuatan data. Pengenalan karakteristik yang tidak biasa tersebut
memberikan wawasan khusus aplikasi yang berguna. Masalah deteksi outlier didefinisikan
secara informal dalam matriks data sebagai berikut:
Masalah deteksi outlier terkait dengan masalah pengelompokan dengan saling melengkapi.
Ini karena outlier sesuai dengan titik data yang berbeda dari kelompok utama dalam data.
Di sisi lain, kelompok utama dalam data adalah cluster. Bahkan, metodologi sederhana
untuk menentukan outlier menggunakan pengelompokan sebagai langkah perantara.
Beberapa contoh aplikasi yang relevan adalah sebagai berikut:
Sistem deteksi penyusupan: Dalam banyak sistem komputer jaringan, berbagai jenis
data dikumpulkan tentang panggilan sistem operasi, lalu lintas jaringan, atau
aktivitas lain dalam sistem. Data ini mungkin menunjukkan perilaku yang tidak
biasa karena aktivitas berbahaya. Deteksi aktivitas tersebut disebut sebagai deteksi
intrusi.
Penipuan kartu kredit: Penggunaan kartu kredit yang tidak sah dapat menunjukkan
pola yang berbeda, seperti pembelian dari lokasi yang tidak jelas secara geografis.
Pola tersebut mungkin muncul sebagai outlier dalam data transaksi kartu kredit.
Peristiwa sensor yang menarik: Sensor sering digunakan untuk melacak berbagai
parameter lingkungan dan lokasi di banyak aplikasi nyata. Perubahan mendadak
Catatan yang label kelasnya tidak diketahui disebut sebagai catatan tes. Sangat menarik
untuk mengkaji hubungan antara pengelompokan dan masalah klasifikasi. Dalam kasus
masalah pengelompokan, data dipartisi menjadi k grup berdasarkan kesamaan. Dalam kasus
masalah klasifikasi, catatan (pengujian) juga dikategorikan ke dalam salah satu dari k
kelompok, kecuali bahwa hal ini dicapai dengan mempelajari model dari database pelatihan
D, bukan berdasarkan kesamaan. Dengan kata lain, pengawasan dari data pelatihan
mendefinisikan kembali gagasan tentang sekelompok catatan "serupa". Oleh karena itu, dari
perspektif pembelajaran, clustering sering disebut sebagai unsupervised learning (karena
kurangnya database pelatihan khusus untuk “mengajarkan” model tentang pengertian
Masalah ini terkait erat dengan frequent pattern mining karena analis dapat menggunakan
masalah frequent pattern mining untuk menentukan kelompok item yang sering dibeli
bersama pada level support tertentu. Poin penting yang perlu diperhatikan di sini adalah
bahwa penentuan pola yang sering, sambil memberikan wawasan yang berguna, tidak
memberikan panduan yang tepat kepada pedagang tentang bagaimana produk dapat
ditempatkan di rak yang berbeda. Situasi ini cukup umum dalam data mining. Masalah
building block seringkali tidak secara langsung menyelesaikan masalah yang dihadapi.
Dalam kasus khusus ini, pedagang dapat memilih dari berbagai ide heuristik dalam hal
bagaimana produk dapat ditebar di rak yang berbeda. Misalnya, pedagang mungkin sudah
memiliki penempatan yang ada, dan dapat menggunakan pola frequent untuk membuat skor
numerik untuk kualitas penempatan. Penempatan ini dapat dioptimalkan secara berurutan
dengan membuat perubahan bertahap pada penempatan saat ini. Dengan metodologi
inisialisasi yang tepat, pendekatan penambangan pola yang sering dapat dimanfaatkan
sebagai subrutin yang sangat berguna untuk masalah tersebut. Bagian-bagian dari data
mining ini seringkali spesifik untuk aplikasi dan menunjukkan variasi yang luas di berbagai
domain yang hanya dapat dipelajari melalui pengalaman praktis.
Masalah ini adalah versi sederhana dari masalah penyaringan kolaboratif yang banyak
dipelajari dalam data mining dan literatur rekomendasi. Ada ratusan solusi untuk versi
vanilla dari masalah ini, dan kami memberikan tiga contoh contoh dengan berbagai
kompleksitas di bawah ini:
1. Solusi sederhana adalah dengan menggunakan penambangan aturan asosiasi pada
tingkat dukungan dan kepercayaan tertentu. Untuk pelanggan tertentu, aturan yang
relevan adalah aturan di mana semua barang di sisi kiri sebelumnya dibeli oleh
pelanggan ini. Item yang sering muncul di sisi kanan aturan yang relevan dilaporkan.
2. Solusi sebelumnya tidak menggunakan kesamaan antar pelanggan yang berbeda
untuk membuat rekomendasi. Solusi kedua adalah menentukan baris yang paling
mirip dengan pelanggan target, dan kemudian merekomendasikan item paling
umum yang terjadi di baris serupa ini.
3. Solusi terakhir adalah menggunakan pengelompokan untuk membuat segmen
pelanggan serupa. Dalam setiap segmen yang serupa, penambangan pola asosiasi
dapat digunakan untuk membuat rekomendasi.
Dengan demikian, ada banyak cara untuk memecahkan masalah tertentu yang sesuai dengan
jalur analitis yang berbeda. Jalur yang berbeda ini dapat menggunakan berbagai jenis blok
bangunan, yang semuanya berguna di berbagai bagian proses penambangan data.
Aplikasi ini dapat dipetakan ke masalah yang berbeda, tergantung pada sifat data input yang
tersedia. Misalnya, pertimbangkan kasus di mana tidak ada contoh seri EKG anomali
sebelumnya yang tersedia. Dalam kasus seperti itu, masalah dapat dipetakan ke masalah
deteksi outlier. Deret waktu yang berbeda secara signifikan dari deret lainnya dalam data
dapat dianggap sebagai outlier. Namun, metodologi solusi berubah secara signifikan jika
contoh deret normal dan anomali sebelumnya tersedia. Dalam kasus seperti itu, masalah
memetakan ke masalah klasifikasi pada data deret waktu. Selanjutnya, label kelas
cenderung tidak seimbang karena jumlah deret abnormal biasanya jauh lebih sedikit
daripada jumlah deret normal.
Karena data biasanya tersedia dalam bentuk log mentah, sejumlah besar pembersihan data
diperlukan. Pertama, log mentah perlu diubah menjadi rangkaian simbol. Urutan ini
kemudian mungkin perlu didekomposisi menjadi jendela yang lebih kecil untuk
menganalisis urutan pada tingkat perincian tertentu. Urutan anomali dapat ditentukan
dengan menggunakan algoritma pengelompokan urutan, dan kemudian menentukan urutan
yang tidak terletak pada cluster tersebut. Jika diinginkan untuk menemukan posisi tertentu
yang sesuai dengan anomali, maka metode yang lebih canggih seperti model Markovian
dapat digunakan untuk menentukan anomali. Seperti pada kasus sebelumnya, fase analitis
dari masalah ini dapat dimodelkan secara berbeda, tergantung pada tersedia atau tidaknya
contoh anomali log Web. Jika tidak ada contoh anomali log Web sebelumnya yang tersedia,
maka masalah ini dipetakan ke masalah deteksi outlier temporal yang tidak diawasi.
C. LATIHAN
1. Seorang analis mengumpulkan survei dari peserta yang berbeda tentang suka dan
tidak suka mereka. Selanjutnya, analis mengunggah data ke database, mengoreksi
kesalahan atau hilang entri, dan merancang algoritme rekomendasi atas dasar ini.
Manakah dari tindakan berikut yang mewakili pengumpulan data, pra-pemrosesan
data, dan analisis data? (a) Melakukan survei dan mengunggah ke database, (b)
mengoreksi entri yang hilang, (c) merancang algoritme rekomendasi.
2. Apa tipe data dari masing-masing jenis atribut berikut (a) Umur, (b) Gaji, (c) Kode
Pos, (d) Negara tempat tinggal, (e) Tinggi Badan, (f) Berat Badan?
3. Seorang analis memperoleh catatan medis dari seorang dokter untuk tujuan
penggalian data, dan kemudian mengubahnya menjadi tabel yang berisi obat-obatan
yang diresepkan untuk setiap pasien. Apa tipe data dari (a) data asli, dan (b) data
yang diubah? (c) Apa proses transformasi data ke format baru yang disebut?
4. Seorang analis membuat jaringan sensor untuk mengukur suhu lokasi yang berbeda
selama suatu periode. Apa tipe data dari data yang dikumpulkan?
5. Analis yang sama seperti yang dibahas dalam Latihan 4 di atas menemukan database
lain dari sumber berbeda yang berisi pembacaan tekanan. Dia memutuskan untuk
membuat satu database yang berisi bacaannya sendiri dan pembacaan tekanan. Apa
proses pembuatan database tunggal seperti itu yang disebut?
D. Kunci Jawaban
1. Tan, Steinbach, Karpatne, Kumar, Introduction to Data Mining, 2nd Edition, 2019
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item3
2. Charu C. Aggarwal , Data Mining: Textbook, IBM T.J. Watson Research Center
Yorktown Heights, New York
USA, 2015