0% menganggap dokumen ini bermanfaat (0 suara)
3K tayangan31 halaman

Similarity Dissimilarity

Dokumen tersebut membahas mengenai ukuran kemiripan dan ketidakmiripan antar data. Terdapat beberapa metode pengukuran kemiripan dan ketidakmiripan seperti jarak Euclidean, jarak Minkowski, jarak Mahalanobi, similarity matching coefficients, cosine similarity, extended Jaccard coefficients, dan korelasi.

Diunggah oleh

Helmi Fabre
Hak Cipta
© Attribution Non-Commercial (BY-NC)
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
3K tayangan31 halaman

Similarity Dissimilarity

Dokumen tersebut membahas mengenai ukuran kemiripan dan ketidakmiripan antar data. Terdapat beberapa metode pengukuran kemiripan dan ketidakmiripan seperti jarak Euclidean, jarak Minkowski, jarak Mahalanobi, similarity matching coefficients, cosine similarity, extended Jaccard coefficients, dan korelasi.

Diunggah oleh

Helmi Fabre
Hak Cipta
© Attribution Non-Commercial (BY-NC)
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 31

Data Mining [04]

Ukuran Kemiripan dan Ketidakmiripan Antar Data


[email protected]

April 2013

Data
`

Data: kumpulan obyek beserta atributnya. Atribut (fitur, variabel, atau field): properti atau karakteristik yang melekat pada suatu obyek. Kumpulan sejumlah atribut mendeskripsikan suatu obyek (entitas atau record).
2

Tipe Atribut
1. Nominal
Data kualitatif yang tidak memiliki urutan. Contoh: warna rambut, agama, nama, kode pos

2. Ordinal
Data kualitatif yang dapat diurutkan. Contoh: rasa makanan dalam skala 1-10, peringkat di kelas, tinggi badan dalam {tinggi, sedang, rendah}, nomor rumah.

Tipe Atribut
3. Interval
Data kuantitatif (ukuran) dimana perbedaan nilai antara dua data sangat berarti. Contoh: tanggal di kalender, temperatur dalam Celcius atau Fahrenheit.

4. Ratio

Data kuantitatif dimana perbedaan nilai data dan perbandingannya sangat berarti. Contoh: temperatur dalam Kelvin (2K = 2*1K), panjang suatu benda, hasil perhitungan
4

Kemiripan vs Ketidakmiripan
`

Kemiripan (Similarity)
Pengukuran numerik untuk menunjukkan seberapa mirip dua obyek data.

Ketidakmiripan (Dissimilarity)
Pengukuran numerik untuk menunjukkan seberapa berbeda dua obyek data.

Kemiripan vs Ketidakmiripan
`

Kemiripan (Similarity)
Umumnya berada pada rentang 0 (no similarity) dan 1 (complete similarity) Bernilai lebih tinggi jika obyek semakin mirip.

Ketidakmiripan (Dissimilarity)
Umumnya berada pada rentang 0 (obyek mirip) dan ~ (obyek berbeda) Bernilai lebih rendah jika data semakin tidak mirip.

Istilah PROXIMITY (kedekatan) mengacu pada kemiripan atau ketidakmiripan antar data.
6

Jika p dan q adalah nilai atribut untuk dua obyek data, maka:

Metode Pengukuran Similarity/Dissimilarity

Dissimilarity dikenal juga sebagai jarak antar data (d). Sifat umumnya:

d(p, q) 0 for all p and q, and d(p, q) = 0 if and only if p = q, d(p, q) = d(q,p) for all p and q, d(p, r) d(p, q) + d(p, r) for all p, q, and r, where d(p, q) is the distance (dissimilarity) between points (data objects), p and q.
9

1. Euclidean Distance (Jarak Euclidean)

dist =
`

k =1

( pk qk )

Dgn ketentuan: n adalah jumlah dimensi (atribut), pk dan qk adalah nilai atribut ke-k untuk obyek data p dan q. Standarisasi data dibutuhkan jika nilai antar atribut memiliki skala yang berbeda.
10

`
3 2 1

Distance Matrix (Matriks Jarak)


p1 p3 p2 p4

0 0 1 2 3 4 5 6

point p1 p2 p3 p4

x 0 2 3 5

y 2 0 1 1

p1 p1 p2 p3 p4 0 2.828 3.162 5.099

p2 2.828 0 1.414 3.162

p3 3.162 1.414 0 2

p4 5.099 3.162 2 0

11

Contoh: Euclidean Distance


`

Misal dihitung jarak dari p1 ke p2:

euclide( p1, p 2) = ( x1 x 2) 2 + ( y1 y 2) 2 euclide( p1, p 2) = (0 2) + (2 0) = 8 = 2.828


2 2

12

2. Minkowski Distance (Jarak Minkowski) merupakan bentuk umum dari Euclidean Distance.

dist = ( | pk qk
k =1
`

1 |r ) r

Dgn ketentuan: r adalah parameter, n adalah jumlah dimensi (atribut), pk and qk masing-masing adalah nilai atribut ke-k dari obyek data p dan q.

13

L1 norm: r = 1. City block atau Manhattan distance.


Contoh umum: Hamming distance (jumlah bit yang berbeda diantara dua buah vektor biner)

` `

L2 norm: r = 2. Euclidean distance L norm: r . supremum (Lmax norm) distance.


Perbedaan yang paling maksimum diantara semua nilai atribut vektor.
14

City block atau Manhattan Distance (L1 norm).


Untuk xij i = 1, , N , j = 1, , p :

Lmax Distance (L norm).

15

Contoh: Minkowski Distance


`

L1 Norm untuk jarak antar titik p1 ke titik lain:


L 1n o rm ( p 1, p 2 ) = | x1 x 2 | + | y1 y 2 | L 1n o rm ( p 1, p 2 ) = | 0 2 | + | 2 0 |= 4 L 1n o rm ( p 1, p 3) = | 0 3 | + | 2 1 |= 4 L 1n o rm ( p 1, p 4 ) = | 0 5 | + | 2 1 |= 6

L norm untuk jarak antar titik p1 ke titik lain:


L norm ( p1, p 2) = m ax{| x1 x 2 |, | y1 y 2 |} L norm ( p1, p 2) = m ax{| 0 2 |, | 2 0 |} = 2 L norm ( p1, p 3) = m ax{| 0 3 |, | 2 1 |} = 3 L norm ( p1, p 4) = m ax{| 0 5 |, | 2 1 |} = 5
16

Distance Matrix
L1 p1 p2 p3 p4 L2 p1 p2 p3 p4
L p1 p2 p3 p4

p1 0 4 4 6 p1 0 2.828 3.162 5.099


p1 0 2 3 5

p2 4 0 2 4 p2 2.828 0 1.414 3.162


p2 2 0 1 3

p3 4 2 0 2 p3 3.162 1.414 0 2
p3 3 1 0 2

p4 6 4 2 0 p4 5.099 3.162 2 0
p4 5 3 2 0
17

point p1 p2 p3 p4

x 0 2 3 5

y 2 0 1 1

3. Mahalanobi Distance (Jarak Mahalonobi) 1


`

mahalanobis( p, q) = ( p q) ( p q)
Dgn ketentuan:
(p - q)T adalah matriks transpose dari matriks hasil pengurangan antara obyek p dan q (p q) adalah covariance matriks -1 adalah invers covariance matriks.

Cara menentukan covariance matriks: 1 n j ,k = ( X ij X j )( X ik X k ) n 1 i =1


18

Diketahui 3 obyek data sbb:


A(0.5, 0.5) B(0, 1) C(1.5, 1.5)
C B A

Diketahui juga covariance matriks sbb:

0.3 0.2 = 0 . 2 0 . 3
19

( A B) =
1

( 0.5

0.5

0.3 0.2 1 = 0.09 0.04 0.2 0.3 0.5 T ( A B) = 0.5 6 4 0.5 Mahal ( A, B ) = 0.5 0.5 4 6 0.5 0.5 = 5 5 0.5 =5

20

Diketahui matriks sbb:

1 3 1 2 4 x = 1 3 1 2 1 2 2 2 2 2
`

Tentukan Distance Matrix menggunakan perhitungan jarak Euclidean (L2 norm) untuk setiap obyek di matriks tsb! Tentukan Distance Matrix menggunakan perhitungan jarak Minkowski (untuk =1 dan atau L1 norm dan L norm) untuk setiap obyek di matriks tsb!
21

Latihan Soal (2)


`

Diketahui matriks sbb:


2 3 x = 10 7 3 2

Hitunglah jarak Minkowski (=1, =2, ) untuk obyek pertama dan kedua! Hitunglah jarak Mahalanobi untuk obyek pertama dan kedua! 19 11 Diketahui nilai covariance matrix: = 11 7
22

Similarity juga memiliki ciri umum, sbb:


1. s(p, q) = 1 (atau maximum similarity) hanya jika p = q, 2. s(p, q) = s(q, p) untuk semua p dan q, dimana s(p, q) adalah kemiripan obyek data antara
p dan q.

23

Similarity antara vektor biner: diterapkan pada obyek, p dan q, yang hanya memiliki atribut biner.

1. Simple Matching and Jaccard Coefficients ` SMC = number of matches / number of attributes = (n11 + n00) / (n01 + n10 + n11 + n00)
`

J = number of 11 matches / number of not-both-zero attributes values = (n11) / (n01 + n10 + n11)

24

Latihan Soal (3)


`

Terdapat dua buah obyek, p dan q, dengan nilai sbb:


p=1000000000 q=0000001001

Hitunglah kemiripan (similarity) kedua obyek tsb dengan SMC dan Jaccard Coefficients!

25

2. Cosine Similarity
`

Jika d1 and d2 adalah dua buah dokumen vektor, maka:

cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2||


Tanda merupakan dot product vektor dan ||d|| adalah panjang vektor d.

26

Diketahui dua buah dokumen vektor, sbb: d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 + 0*2 = 5

d1 d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0

||d1|| = (3*3 + 2*2 + 0*0 + 5*5 + 0*0 + 0*0 + 0*0 + 2*2 + 0*0 + 0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 1*1 + 0*0 + 2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2|| = 0.3150

27

3. Extended Jaccard Coefficients


Merupakan variasi dari Jaccard Coefficients untuk atribut yang bersifat kontinu atau diskrit. Reduces to Jaccard for binary attributes

28

4. Correlation (korelasi) ` Mengukur tingkat hubungan linearitas antar obyek.

29

Scatter plots yang menunjukkan nilai similarity dari rentang 1 smp dengan 1.

30

Mahasiswa dapat menghitung nilai similarity (kemiripan) dan dissimilarity (ketidakmiripan) antar data.

31

Anda mungkin juga menyukai