Pertemuan 4 Data Mining
Pertemuan 4 Data Mining
PERTEMUAN-4
Similaritas (kemiripan) antara dua objek merupakan ukuran numerik dari seberapa
mirip dua buah objek. Similaritas mempunyai nilai yang lebih tinggi jika objek-
seberapa berbeda dua buah objek. Dissimilaritas bernilai lebih rendah jika objek-
bervariasi.
Ordinal |𝑝 − 𝑞| s= 1 −
|𝑝−𝑞|
𝑑= 𝑛−1
𝑛−1
E-Learning STMIK Nusa Mandiri Page |2
Copyright © Maret 2020
(nilai-nilai dipetakan ke
atau
𝑑 − min _𝑑
𝑠 =1−
max _𝑑 − min _𝑑
Jika d(p,q) adalah jarak (dissimilarity) antara titik-titik (data objects), p dan q,
sifat, yaitu:
1. 𝑑(𝑝, 𝑞)3 0 untuk semua p dan q dan d(p,q)=0 hanya jika p=q (positive
definiteness)
2
𝑑𝑖𝑠𝑡 = √∑𝑛𝑘=1(𝑝𝑘 − 𝑞𝑘 )
E-Learning STMIK Nusa Mandiri Page |3
Copyright © Maret 2020
(komponen) ke-k, atau objek data p dan q. Jika skala nilai dari objek-objek yang
Contoh:
𝑛
1
∑ = ∑(𝑥𝑖,𝑗 − 𝑥̅𝑗 )(𝑥𝑖𝑘 − 𝑥̅𝑘 )
𝑗,𝑘 𝑛−1
𝑖=1
Beberapa metode yang digunakan untuk menghitung similaritas dua buah objek,
diantaranya:
E-Learning STMIK Nusa Mandiri Page |4
Copyright © Maret 2020
= (M11+M00)/(M01+M10+M11+M00)
= (M11)/(M01+M10+M11)
Contoh soal: Hitung similaritas dari dua vektor berikut dengan menggunakan
p=1000000000
q=0000001001
Jawab: M01 = 2
M10 = 1
E-Learning STMIK Nusa Mandiri Page |5
Copyright © Maret 2020
M00 = 7
M11 = 0
SMC = (M11+M00)/(M01+M10+M11+M00)=(0+7)/(2+1+0+7)=0.7
J = (M11)/(M01+M10+M11)=0/(2+1+0)=0
Cosine similarity
dua vektor dokumen maka similaritas antara dua vektor dokumen yang dihitung
cos(d1,d2) = (d1d2)/‖𝑑1‖‖𝑑2‖
dimana adalah vector dot product dan ‖𝑑‖ adalah panjang vektor d
similaritas dua vektor atribut kontinyu atau count attribute dengan persamaan
sebagai berikut:
𝑝∙𝑞
𝑇(𝑝, 𝑞) = ‖𝑝‖2 +𝑞 2 −𝑝∙𝑞′̀
Correlation
1
𝑐𝑜𝑣(𝑝, 𝑞) = 𝑛−1 ∑𝑛𝑘−1(𝑝𝑘 − 𝑝̅ )(𝑞𝑘 − 𝑞̅)
standard deviasi dari vektor p dan 𝜎𝑞 adalah standard deviasi dari vektor q, maka
𝑐𝑜𝑣(𝑝,𝑞)
𝑐𝑜𝑟𝑟(𝑝, 𝑞) = 𝜎𝑝 ∙𝜎𝑞
1. Agregasi
Set data yang akan diproses dengan metode-motode data mining sering kali harus
melalui pemrosesan awal. Langkah ini masuk ke dalam tahapan KDD sebelum
proses data mining. Beberapa permasalahan seperti jumlah populasi data yang
besar, banyaknya data yang menyimpang (anomali data), dimensi yang terlalu
tinggi, banyaknya fitur yang tidak berkontribusi besar, dan lain-lain merupakan
pada set data sebelum akhirnya digunakan dalam proses data mining. Beberapa
pekerjaan yang umum dilakukan sebagai pemrosesan awal pada set data akan
dibahas pada bab-bab di bawah ini. 6.1. Agregasi Agregasi (aggregation) adalah
proses mengkombinasikan dua atau lebih objek ke dalam sebuah objek tunggal.
Aggregasi data sangat berguna ketika pada set data ada sejumlah nilai dalam satu
fitur yang sebenarnya satu kelompok, yang tidak akan menyimpang dari deskripsi
fitur tersebut jika nilainya digabungkan. Agregasi yang dapat dilakukan adalah
sum (jumlah), average (rata-rata), min (terkecil), max (terbesar). Sebagai contoh
tersebut akan menghasilkan data yang besar dan komplek. Oleh sebab itu data
cabang. Dengan begitu, pemrosesan data dalam data mining akan relatif lebih
sederhana dan komputasinya menjadi lebih cepat. Selain itu dampaknya adalah
berdasarkan kolom tanggal dan kolom IDT dapat dihilangkan sehingga hasilnya
1. Set data yang lebih kecil akan membutuhkan memori penyimpanan yang lebih
sedikit (pengurangan data atau perubahan skala).
3. Agregasi bertindak untuk mengubah cara pandang terhadap data dari level
rendah menjadi level tinggi.
4. Perilaku pengelompokan objek atau atribut sering kali lebih stabil dari pada
objek individu itu sendiri (lebih sedikit variasinya).
2. Penarikan Contoh
Kunci utama dalam penarikan contoh (sampling) adalah bahwa sampel data akan
bekerja hampir sama dengan seluruh data jika sample tersebut mampu mewakili
(representatif) seluruh data. Sample disebut representatif jika diperkirakan
mempunyai sifat yang sama dengan seluruh data, biasanya diukur dengan rata-rata
(mean) pada sample dan data asli. Jika sama atau sangat mendekati, sample
tersebut bisa dikatakan bagus. Tetapi, penggunaan sample yang baik juga tidak
menjamin bahwa hasil pemrosesan data mining pada sample juga sama bagusnya
dengan pemrosesan pada seluruh data asli. Ada dua tipe penarikan contoh yang
sering digunakan yaitu penarikan contoh tanpa pengembalian dan penarikan
contoh dengan pengembalian. Pada teknik yang pertama, setiap data yang sudah
terambil untuk digunakan sebagi sample tidak dikembalikan lagi ke data aslinya,
sedangkan pada teknik kedua setiap data yang sudah terambil untuk digunakan
sebagai sampel dikembalkan ke data asli. Akibatnya, sebuah data memiliki
kemungkinan untuk muncul lebih dari satu kali dalam sampel. Sebagai contoh
dapat dilihat pada gambar di bawah ini.
E-Learning STMIK Nusa Mandiri Page |9
Copyright © Maret 2020
Pada gambar 2 di atas dapat dilihat contoh proses sampling secara acak pada set
data dua dimensi yang berisi 9.000 data. Secara kasat mata penarikan contoh
7.000 data masih memberikan bentuk data yang menyerupai bentuk distribusi data
yang asli. Ketika menggunakan 4.000 data, bentuk aslinya masih terlihat. Akan
tetapi, ketika menggunakan 2.000 data, hasil penyampelan mulai terdistorsi dan
bentuk asli data mulai tidak tampak.
nilai kualitas tersebut dari kiri ke kanan). Jumlah bit yang dibutuhkan untuk
binerisasi adalah N=.
Sebagai contoh dapat dilihat pada tabel 7 di bawah ini, dimana nilai kategoris
kualitas = {rusak, jelek, sedang, bagus, sempurna} dikonversi menjadi nilai
integer {0, 1, 2, 3, 4}. Karena ada lima macam nilai kategoris, jumlah bit yang
dibutuhkan adalah N= , yaitu menjadi tiga atribut biner x1, x2, x3.
4. Pemilihan Fitur
Salah satu cara untuk mengurangi dimensi set data adalah dengan memilih fitur
yang tepat atau hanya menggunaka atribut-atribut yang diperlukan. Secara
konseptual, pemilihan sub set fitur merupakan suatu proses pencarian terhadap
semua kemungkinan sub set fitur.
Dalam memilih fitur perlu diperhatikan fitur-fitur yang memiliki duplikasi
informasi yang tergantung dalam satu dan lebih atribut lain. Selain itu fitur-fitur
yang tidak relevan yaitu fitur-fitur yang tidak mengandung informasi berguna
untuk tugas data mining secara langsung. Sebagai contoh NIM setiap mahasiswa
sering tidak relevan untuk memprediksi IPK mahasiswa.
5. Transfromasi Atribut
Transformasi atribut berfungsi untuk memetakan keseluruhan himpunan nilai dari
atribut yang diberikan ke suatu himpunan nilai-nilai pengganti yang baru
sedemikian hingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai baru
tersebut.
Sebagian fungsi dari transformasi atribut adalah standarisasi dan normalisasi.
Tujuan dari standarisasi dan normalisasi adalah untuk membuat keseluruhan nilai
mempunyai suatu sifat khusus. Salah satu contoh transformasi standarisasi adalah
dengan cara:
1. Hitung nilai tengah dengan median