Data Mining [04]
Ukuran Kemiripan dan Ketidakmiripan Antar Data
[email protected]April 2013
Data
`
Data: kumpulan obyek beserta atributnya. Atribut (fitur, variabel, atau field): properti atau karakteristik yang melekat pada suatu obyek. Kumpulan sejumlah atribut mendeskripsikan suatu obyek (entitas atau record).
2
Tipe Atribut
1. Nominal
Data kualitatif yang tidak memiliki urutan. Contoh: warna rambut, agama, nama, kode pos
2. Ordinal
Data kualitatif yang dapat diurutkan. Contoh: rasa makanan dalam skala 1-10, peringkat di kelas, tinggi badan dalam {tinggi, sedang, rendah}, nomor rumah.
Tipe Atribut
3. Interval
Data kuantitatif (ukuran) dimana perbedaan nilai antara dua data sangat berarti. Contoh: tanggal di kalender, temperatur dalam Celcius atau Fahrenheit.
4. Ratio
Data kuantitatif dimana perbedaan nilai data dan perbandingannya sangat berarti. Contoh: temperatur dalam Kelvin (2K = 2*1K), panjang suatu benda, hasil perhitungan
4
Kemiripan vs Ketidakmiripan
`
Kemiripan (Similarity)
Pengukuran numerik untuk menunjukkan seberapa mirip dua obyek data.
Ketidakmiripan (Dissimilarity)
Pengukuran numerik untuk menunjukkan seberapa berbeda dua obyek data.
Kemiripan vs Ketidakmiripan
`
Kemiripan (Similarity)
Umumnya berada pada rentang 0 (no similarity) dan 1 (complete similarity) Bernilai lebih tinggi jika obyek semakin mirip.
Ketidakmiripan (Dissimilarity)
Umumnya berada pada rentang 0 (obyek mirip) dan ~ (obyek berbeda) Bernilai lebih rendah jika data semakin tidak mirip.
Istilah PROXIMITY (kedekatan) mengacu pada kemiripan atau ketidakmiripan antar data.
6
Jika p dan q adalah nilai atribut untuk dua obyek data, maka:
Metode Pengukuran Similarity/Dissimilarity
Dissimilarity dikenal juga sebagai jarak antar data (d). Sifat umumnya:
d(p, q) 0 for all p and q, and d(p, q) = 0 if and only if p = q, d(p, q) = d(q,p) for all p and q, d(p, r) d(p, q) + d(p, r) for all p, q, and r, where d(p, q) is the distance (dissimilarity) between points (data objects), p and q.
9
1. Euclidean Distance (Jarak Euclidean)
dist =
`
k =1
( pk qk )
Dgn ketentuan: n adalah jumlah dimensi (atribut), pk dan qk adalah nilai atribut ke-k untuk obyek data p dan q. Standarisasi data dibutuhkan jika nilai antar atribut memiliki skala yang berbeda.
10
`
3 2 1
Distance Matrix (Matriks Jarak)
p1 p3 p2 p4
0 0 1 2 3 4 5 6
point p1 p2 p3 p4
x 0 2 3 5
y 2 0 1 1
p1 p1 p2 p3 p4 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
11
Contoh: Euclidean Distance
`
Misal dihitung jarak dari p1 ke p2:
euclide( p1, p 2) = ( x1 x 2) 2 + ( y1 y 2) 2 euclide( p1, p 2) = (0 2) + (2 0) = 8 = 2.828
2 2
12
2. Minkowski Distance (Jarak Minkowski) merupakan bentuk umum dari Euclidean Distance.
dist = ( | pk qk
k =1
`
1 |r ) r
Dgn ketentuan: r adalah parameter, n adalah jumlah dimensi (atribut), pk and qk masing-masing adalah nilai atribut ke-k dari obyek data p dan q.
13
L1 norm: r = 1. City block atau Manhattan distance.
Contoh umum: Hamming distance (jumlah bit yang berbeda diantara dua buah vektor biner)
` `
L2 norm: r = 2. Euclidean distance L norm: r . supremum (Lmax norm) distance.
Perbedaan yang paling maksimum diantara semua nilai atribut vektor.
14
City block atau Manhattan Distance (L1 norm).
Untuk xij i = 1, , N , j = 1, , p :
Lmax Distance (L norm).
15
Contoh: Minkowski Distance
`
L1 Norm untuk jarak antar titik p1 ke titik lain:
L 1n o rm ( p 1, p 2 ) = | x1 x 2 | + | y1 y 2 | L 1n o rm ( p 1, p 2 ) = | 0 2 | + | 2 0 |= 4 L 1n o rm ( p 1, p 3) = | 0 3 | + | 2 1 |= 4 L 1n o rm ( p 1, p 4 ) = | 0 5 | + | 2 1 |= 6
L norm untuk jarak antar titik p1 ke titik lain:
L norm ( p1, p 2) = m ax{| x1 x 2 |, | y1 y 2 |} L norm ( p1, p 2) = m ax{| 0 2 |, | 2 0 |} = 2 L norm ( p1, p 3) = m ax{| 0 3 |, | 2 1 |} = 3 L norm ( p1, p 4) = m ax{| 0 5 |, | 2 1 |} = 5
16
Distance Matrix
L1 p1 p2 p3 p4 L2 p1 p2 p3 p4
L p1 p2 p3 p4
p1 0 4 4 6 p1 0 2.828 3.162 5.099
p1 0 2 3 5
p2 4 0 2 4 p2 2.828 0 1.414 3.162
p2 2 0 1 3
p3 4 2 0 2 p3 3.162 1.414 0 2
p3 3 1 0 2
p4 6 4 2 0 p4 5.099 3.162 2 0
p4 5 3 2 0
17
point p1 p2 p3 p4
x 0 2 3 5
y 2 0 1 1
3. Mahalanobi Distance (Jarak Mahalonobi) 1
`
mahalanobis( p, q) = ( p q) ( p q)
Dgn ketentuan:
(p - q)T adalah matriks transpose dari matriks hasil pengurangan antara obyek p dan q (p q) adalah covariance matriks -1 adalah invers covariance matriks.
Cara menentukan covariance matriks: 1 n j ,k = ( X ij X j )( X ik X k ) n 1 i =1
18
Diketahui 3 obyek data sbb:
A(0.5, 0.5) B(0, 1) C(1.5, 1.5)
C B A
Diketahui juga covariance matriks sbb:
0.3 0.2 = 0 . 2 0 . 3
19
( A B) =
1
( 0.5
0.5
0.3 0.2 1 = 0.09 0.04 0.2 0.3 0.5 T ( A B) = 0.5 6 4 0.5 Mahal ( A, B ) = 0.5 0.5 4 6 0.5 0.5 = 5 5 0.5 =5
20
Diketahui matriks sbb:
1 3 1 2 4 x = 1 3 1 2 1 2 2 2 2 2
`
Tentukan Distance Matrix menggunakan perhitungan jarak Euclidean (L2 norm) untuk setiap obyek di matriks tsb! Tentukan Distance Matrix menggunakan perhitungan jarak Minkowski (untuk =1 dan atau L1 norm dan L norm) untuk setiap obyek di matriks tsb!
21
Latihan Soal (2)
`
Diketahui matriks sbb:
2 3 x = 10 7 3 2
Hitunglah jarak Minkowski (=1, =2, ) untuk obyek pertama dan kedua! Hitunglah jarak Mahalanobi untuk obyek pertama dan kedua! 19 11 Diketahui nilai covariance matrix: = 11 7
22
Similarity juga memiliki ciri umum, sbb:
1. s(p, q) = 1 (atau maximum similarity) hanya jika p = q, 2. s(p, q) = s(q, p) untuk semua p dan q, dimana s(p, q) adalah kemiripan obyek data antara
p dan q.
23
Similarity antara vektor biner: diterapkan pada obyek, p dan q, yang hanya memiliki atribut biner.
1. Simple Matching and Jaccard Coefficients ` SMC = number of matches / number of attributes = (n11 + n00) / (n01 + n10 + n11 + n00)
`
J = number of 11 matches / number of not-both-zero attributes values = (n11) / (n01 + n10 + n11)
24
Latihan Soal (3)
`
Terdapat dua buah obyek, p dan q, dengan nilai sbb:
p=1000000000 q=0000001001
Hitunglah kemiripan (similarity) kedua obyek tsb dengan SMC dan Jaccard Coefficients!
25
2. Cosine Similarity
`
Jika d1 and d2 adalah dua buah dokumen vektor, maka:
cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2||
Tanda merupakan dot product vektor dan ||d|| adalah panjang vektor d.
26
Diketahui dua buah dokumen vektor, sbb: d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 + 0*2 = 5
d1 d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0
||d1|| = (3*3 + 2*2 + 0*0 + 5*5 + 0*0 + 0*0 + 0*0 + 2*2 + 0*0 + 0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 1*1 + 0*0 + 2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2|| = 0.3150
27
3. Extended Jaccard Coefficients
Merupakan variasi dari Jaccard Coefficients untuk atribut yang bersifat kontinu atau diskrit. Reduces to Jaccard for binary attributes
28
4. Correlation (korelasi) ` Mengukur tingkat hubungan linearitas antar obyek.
29
Scatter plots yang menunjukkan nilai similarity dari rentang 1 smp dengan 1.
30
Mahasiswa dapat menghitung nilai similarity (kemiripan) dan dissimilarity (ketidakmiripan) antar data.
31