0% menganggap dokumen ini bermanfaat (0 suara)

209 tayangan11 halaman

Pertemuan 4 Data Mining

Diunggah oleh

Ahmad Sofyan

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

209 tayangan11 halaman

Pertemuan 4 Data Mining

Diunggah oleh

Ahmad Sofyan

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Anda di halaman 1/ 11

E-Learning STMIK Nusa Mandiri Page |1

Copyright © Maret 2020

PERTEMUAN-4

SIMILARITAS DAN JARAK

Similaritas (kemiripan) antara dua objek merupakan ukuran numerik dari seberapa

mirip dua buah objek. Similaritas mempunyai nilai yang lebih tinggi jika objek-

objek tersebut sama. Range nilai similaritas adalah [0,1].

Dissimilaritas (ketidakmiripan) antara dua objek merupakan ukuran numerik dari

seberapa berbeda dua buah objek. Dissimilaritas bernilai lebih rendah jika objek-

objek tersebut mirip. Minimum dissimilaritas adalah 0 dan batas atasnya

bervariasi.

Dissimilaritas sering disebut juga dengan distance (jarak). Kedekatan (proximity)

mengacu kepada suatu similaritas atau dissimilaritas

Pengukuran kedekatan untuk satu atribut sederhana yang dibedakan berdasarkan

tipe dari atribut

Tipe Atribut Dissimilaritas Similaritas

Nominal 0 𝑗𝑖𝑘𝑎 𝑝 = 𝑞 0 𝑗𝑖𝑘𝑎 𝑝 = 𝑞

𝑑={ 𝑠={
1 𝑗𝑖𝑘𝑎 𝑝 ≠ 𝑞 1 𝑗𝑖𝑘𝑎 𝑝 ≠ 𝑞

Ordinal |𝑝 − 𝑞| s= 1 −
|𝑝−𝑞|
𝑑= 𝑛−1
𝑛−1
E-Learning STMIK Nusa Mandiri Page |2
Copyright © Maret 2020

(nilai-nilai dipetakan ke

bilangan bulat antara 0

sampai n-1, dimana n

adalah jumlah nilai)

Interval atau rasio d= |𝑝 − 𝑞| 1

S=−d, 𝑠 = 1+𝑑

atau

𝑑 − min _𝑑
𝑠 =1−
max _𝑑 − min _𝑑

3.1. Pengukuran jarak (distance) dari dua objek

Jika d(p,q) adalah jarak (dissimilarity) antara titik-titik (data objects), p dan q,

maka nilai pengukuran disimilaritas atau jarak (distances) mempunyai sejumlah

sifat, yaitu:

1. 𝑑(𝑝, 𝑞)3 0 untuk semua p dan q dan d(p,q)=0 hanya jika p=q (positive

definiteness)

2. d(p,q)=d(q,p) untuk semua p dan q (symmetry)

3. d(p,r)₤d(p,q)+d(q,r) untuk semua titik p,q,r (triangle inequality)

Beberapa pengukuran jarak adalah:

 Jarak Euclidean, yang dinyatakan dengan persamaan:

2
𝑑𝑖𝑠𝑡 = √∑𝑛𝑘=1(𝑝𝑘 − 𝑞𝑘 )
E-Learning STMIK Nusa Mandiri Page |3
Copyright © Maret 2020

Dimana n adalah jumlah dimensi (atribut) dan pk dan qk adalah atribut

(komponen) ke-k, atau objek data p dan q. Jika skala nilai dari objek-objek yang

diukur berbeda maka diperlukan standarisasi.

Contoh:

Hitung jarak data-1 (2,10) ke centroid (5,8) menggunakan Euclidean distance

𝐷𝑒𝑢𝑐𝑙𝑖𝑑 [𝐷1 (2,10), 𝐶(5,8)] = √(2 − 5)2 + (10 − 8)2 = √9 + 4 = 3,606

 Mahalanobis distance, dinyatakan dengan persamaan:

maℎ𝑎𝑙𝑎𝑛𝑜𝑏𝑖𝑠(𝑝, 𝑞) = (𝑝 − 𝑞) ∑−1(𝑝 − 𝑞)𝑟

Dimana S merupakan matriks kovarian (covariance matrix) dari data input X

𝑛
1
∑ = ∑(𝑥𝑖,𝑗 − 𝑥̅𝑗 )(𝑥𝑖𝑘 − 𝑥̅𝑘 )
𝑗,𝑘 𝑛−1
𝑖=1

3.2. Pengukuran similaritas dari dua objek

Similaritas, mempunyai beberapa sifat:

1. s(p,q) = 1 (ormaximum similarity) only if p=q

2. S(p,q) = s(q,p) for all p and 1. (Symmetry) dimana s(p,q) merupakan

similaritas antara titik-titik (objek data), p dan q.

Beberapa metode yang digunakan untuk menghitung similaritas dua buah objek,

diantaranya:
E-Learning STMIK Nusa Mandiri Page |4
Copyright © Maret 2020

 Simple matching (SMC) dan jaccard coefficients(J)

Metode yang dapat digunakan untuk menghitung similaritas dua vektor

biner. Misalkan objek-objek p dan q hanya mempunyai atribut biner. Similaritas

antara dua vektor biner dapat dihitung dengan kuantitas berikut:

M01 : jumlah atribut dimana p adalah 0 dan q adalah 1

M10 : jumlah atribut dimana p adalah 1 dan q adalah 0

M00 : jumlah atribut dimana p adalah 0 dan q adalah 0

M11 : jumlah atribut dimana p adalah 1 dan q adalah 1

SMC = number of matches/number of attributes

= (M11+M00)/(M01+M10+M11+M00)

J = number of 11 matches/number of not-booth-zero attribute values

= (M11)/(M01+M10+M11)

Contoh soal: Hitung similaritas dari dua vektor berikut dengan menggunakan

simple matching dan jaccard coefficient

p=1000000000

q=0000001001

Jawab: M01 = 2

M10 = 1
E-Learning STMIK Nusa Mandiri Page |5
Copyright © Maret 2020

M00 = 7

M11 = 0

SMC = (M11+M00)/(M01+M10+M11+M00)=(0+7)/(2+1+0+7)=0.7

J = (M11)/(M01+M10+M11)=0/(2+1+0)=0

 Cosine similarity

Digunakan untuk menghitung dua vektor dokumen. Jika d1 dan d2 adalah

dua vektor dokumen maka similaritas antara dua vektor dokumen yang dihitung

dengan cosine similarity adalah sebagai berikut:

cos(d1,d2) = (d1d2)/‖𝑑1‖‖𝑑2‖

dimana  adalah vector dot product dan ‖𝑑‖ adalah panjang vektor d

 Extended Jaccard Coefficient (Tanimoto)

Merupakan pengembangan dari koefisien jaccard untuk menghitung

similaritas dua vektor atribut kontinyu atau count attribute dengan persamaan

sebagai berikut:

𝑝∙𝑞
𝑇(𝑝, 𝑞) = ‖𝑝‖2 +𝑞 2 −𝑝∙𝑞′̀

 Correlation

Digunakan untuk mengukur hubungan objek secara linier. Untuk

menghitung correlation, perlu dilakukan perhitungan covariance antara dua objek

tersebut dengan persamaan sebagai berikut:

E-Learning STMIK Nusa Mandiri Page |6
Copyright © Maret 2020

1
𝑐𝑜𝑣(𝑝, 𝑞) = 𝑛−1 ∑𝑛𝑘−1(𝑝𝑘 − 𝑝̅ )(𝑞𝑘 − 𝑞̅)

dimana 𝑝̅ , 𝑞̅ adalah mean dari masing-masing objek, jika 𝜎𝑝 adalah

standard deviasi dari vektor p dan 𝜎𝑞 adalah standard deviasi dari vektor q, maka

persamaan correlation dari dua vektor p dan q adalah:

𝑐𝑜𝑣(𝑝,𝑞)
𝑐𝑜𝑟𝑟(𝑝, 𝑞) = 𝜎𝑝 ∙𝜎𝑞

Pemrosesan Awal Data

1. Agregasi

Set data yang akan diproses dengan metode-motode data mining sering kali harus

melalui pemrosesan awal. Langkah ini masuk ke dalam tahapan KDD sebelum

proses data mining. Beberapa permasalahan seperti jumlah populasi data yang

besar, banyaknya data yang menyimpang (anomali data), dimensi yang terlalu

tinggi, banyaknya fitur yang tidak berkontribusi besar, dan lain-lain merupakan

pemicu munculnya pemrosesan awal data (pre-processing) yang harus diterapkan

pada set data sebelum akhirnya digunakan dalam proses data mining. Beberapa

pekerjaan yang umum dilakukan sebagai pemrosesan awal pada set data akan

dibahas pada bab-bab di bawah ini. 6.1. Agregasi Agregasi (aggregation) adalah

proses mengkombinasikan dua atau lebih objek ke dalam sebuah objek tunggal.

Aggregasi data sangat berguna ketika pada set data ada sejumlah nilai dalam satu

fitur yang sebenarnya satu kelompok, yang tidak akan menyimpang dari deskripsi

fitur tersebut jika nilainya digabungkan. Agregasi yang dapat dilakukan adalah

sum (jumlah), average (rata-rata), min (terkecil), max (terbesar). Sebagai contoh

adalah data transaksi pembelian di beberapa cabang distributor. Setiah hari

masing-masing cabang melakukan banyak sekali transaksi. Semua transaksi

tersebut akan menghasilkan data yang besar dan komplek. Oleh sebab itu data

tersebut akan lebih sederhana tetapi tetap tidak menghilangkan deskripsinya

apabila disajikan dalam bentuk gabungan setiap harinya di masing-masing

cabang. Dengan begitu, pemrosesan data dalam data mining akan relatif lebih

sederhana dan komputasinya menjadi lebih cepat. Selain itu dampaknya adalah

penggunaan perangkat penyimpanan menjadi lebih sedikit atau kecil. Lebih

jelasnya dapat dilihat pada tabel-tabel di bawah ini.

Tabel 1. Set data transaksi pembelian

Misalnya kita menggunakan agregasi sum pada kolom total, dikelompokan

berdasarkan kolom tanggal dan kolom IDT dapat dihilangkan sehingga hasilnya

tampak seperti pada tabel di bawah ini.

Tabel 2. Set data transaksi pembelian setelah agregasi

Ada beberapa alasan mengapa sebaiknya melakukan agregasi, diantaranya adalah:

1. Set data yang lebih kecil akan membutuhkan memori penyimpanan yang lebih
sedikit (pengurangan data atau perubahan skala).

2. Waktu pemrosesan dalam algoritma data mining menjadi lebih cepat.

3. Agregasi bertindak untuk mengubah cara pandang terhadap data dari level
rendah menjadi level tinggi.

4. Perilaku pengelompokan objek atau atribut sering kali lebih stabil dari pada
objek individu itu sendiri (lebih sedikit variasinya).

2. Penarikan Contoh

Kunci utama dalam penarikan contoh (sampling) adalah bahwa sampel data akan
bekerja hampir sama dengan seluruh data jika sample tersebut mampu mewakili
(representatif) seluruh data. Sample disebut representatif jika diperkirakan
mempunyai sifat yang sama dengan seluruh data, biasanya diukur dengan rata-rata
(mean) pada sample dan data asli. Jika sama atau sangat mendekati, sample
tersebut bisa dikatakan bagus. Tetapi, penggunaan sample yang baik juga tidak
menjamin bahwa hasil pemrosesan data mining pada sample juga sama bagusnya
dengan pemrosesan pada seluruh data asli. Ada dua tipe penarikan contoh yang
sering digunakan yaitu penarikan contoh tanpa pengembalian dan penarikan
contoh dengan pengembalian. Pada teknik yang pertama, setiap data yang sudah
terambil untuk digunakan sebagi sample tidak dikembalikan lagi ke data aslinya,
sedangkan pada teknik kedua setiap data yang sudah terambil untuk digunakan
sebagai sampel dikembalkan ke data asli. Akibatnya, sebuah data memiliki
kemungkinan untuk muncul lebih dari satu kali dalam sampel. Sebagai contoh
dapat dilihat pada gambar di bawah ini.
E-Learning STMIK Nusa Mandiri Page |9
Copyright © Maret 2020

Struktur Data Yang Hilang Karena Penarikan Contoh

Pada gambar 2 di atas dapat dilihat contoh proses sampling secara acak pada set
data dua dimensi yang berisi 9.000 data. Secara kasat mata penarikan contoh
7.000 data masih memberikan bentuk data yang menyerupai bentuk distribusi data
yang asli. Ketika menggunakan 4.000 data, bentuk aslinya masih terlihat. Akan
tetapi, ketika menggunakan 2.000 data, hasil penyampelan mulai terdistorsi dan
bentuk asli data mulai tidak tampak.

3. Binerisasi dan Diskretisasi

Beberapa algoritma data mining, khususnya algoritma klasifikasi membutuhkan
data dalam bentuk atribut kategorikal. Sedangkan algoritma asosiasi memerlukan
data dalam bentuk atribut biner. Transformasi data dari tipe kontinu dan diskret ke
atribut biner disebut binerisasi (binarization) sedangkan transformasi data dari
atribut kontinu ke atribut kategoris disebut diskretisasi (discretization).
Cara pertama untuk melakukan binerisasi adalah dari M macam nilai kategoris,
masing-masing diberikan nilai yang unik dengan nilai integer dalam jangkauan
[0,M-1]. Jika atribut ordinal, urutan nilai kategorisnya harus diperhatikan.
Misalnya untuk nilai kategoris kualitas = {rusak, jelek, sedang, bagus, sempurna},
nilai-nilai tersebut memiliki urutan nilai dari rendah ke tinggi (kalau dari contoh
E-Learning STMIK Nusa Mandiri Page |10
Copyright © Maret 2020

nilai kualitas tersebut dari kiri ke kanan). Jumlah bit yang dibutuhkan untuk
binerisasi adalah N=.
Sebagai contoh dapat dilihat pada tabel 7 di bawah ini, dimana nilai kategoris
kualitas = {rusak, jelek, sedang, bagus, sempurna} dikonversi menjadi nilai
integer {0, 1, 2, 3, 4}. Karena ada lima macam nilai kategoris, jumlah bit yang

dibutuhkan adalah N= , yaitu menjadi tiga atribut biner x1, x2, x3.

Sedangkan untuk melakukan diskretisasi terdiri atas dua langkah. Pertama,

memutuskan berapa jumlah kategori yang harus digunakan. Langkah kedua,
menentukan bagaimana memetakan nilai-nilai dari atribut kontinyu ke nilai
kategori. Sebagai contoh nilai yang ada pada tabel diubah menjadi atribut
katarogikal dengan nilai: rendah, sedang, tinggi.

Pendekatan equal width: range data [60 - 220]:

4. Pemilihan Fitur
Salah satu cara untuk mengurangi dimensi set data adalah dengan memilih fitur
yang tepat atau hanya menggunaka atribut-atribut yang diperlukan. Secara
konseptual, pemilihan sub set fitur merupakan suatu proses pencarian terhadap
semua kemungkinan sub set fitur.
Dalam memilih fitur perlu diperhatikan fitur-fitur yang memiliki duplikasi
informasi yang tergantung dalam satu dan lebih atribut lain. Selain itu fitur-fitur
yang tidak relevan yaitu fitur-fitur yang tidak mengandung informasi berguna
untuk tugas data mining secara langsung. Sebagai contoh NIM setiap mahasiswa
sering tidak relevan untuk memprediksi IPK mahasiswa.

5. Transfromasi Atribut
Transformasi atribut berfungsi untuk memetakan keseluruhan himpunan nilai dari
atribut yang diberikan ke suatu himpunan nilai-nilai pengganti yang baru
sedemikian hingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai baru
tersebut.
Sebagian fungsi dari transformasi atribut adalah standarisasi dan normalisasi.
Tujuan dari standarisasi dan normalisasi adalah untuk membuat keseluruhan nilai
mempunyai suatu sifat khusus. Salah satu contoh transformasi standarisasi adalah
dengan cara:
1. Hitung nilai tengah dengan median

2. Hitung absolute standard deviation dengan persamaan.

Anda mungkin juga menyukai

RPL Uas
Belum ada peringkat
RPL Uas
204 halaman
RPL Uas
Belum ada peringkat
RPL Uas
204 halaman
Metode Data Mining
Belum ada peringkat
Metode Data Mining
17 halaman
Tugas 1-Pebriwindari Data Mining
50% (2)
Tugas 1-Pebriwindari Data Mining
5 halaman
Data Reduction
100% (1)
Data Reduction
39 halaman
Pertemuan 02 Representasi Data
Belum ada peringkat
Pertemuan 02 Representasi Data
17 halaman
Multidimensional Scaling 2
0% (2)
Multidimensional Scaling 2
12 halaman
Clustering K-Means
Belum ada peringkat
Clustering K-Means
42 halaman
Usaha
Belum ada peringkat
Usaha
17 halaman
Pertemuan 4 Proses Bisnis TI
Belum ada peringkat
Pertemuan 4 Proses Bisnis TI
15 halaman
3b. Metode Similarity Measure
Belum ada peringkat
3b. Metode Similarity Measure
24 halaman
Pertemuan 3 Data Mining
Belum ada peringkat
Pertemuan 3 Data Mining
10 halaman
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
Belum ada peringkat
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
32 halaman
Similarity Dissimilarity
Belum ada peringkat
Similarity Dissimilarity
31 halaman
Otok2 Mds 2014
Belum ada peringkat
Otok2 Mds 2014
47 halaman
5 6057616475504509131 PDF
Belum ada peringkat
5 6057616475504509131 PDF
12 halaman
Pertemuan 2 Data Mining PDF
Belum ada peringkat
Pertemuan 2 Data Mining PDF
10 halaman
Pertemuan 5 Datawarehouse Dan Business Intelligence
Belum ada peringkat
Pertemuan 5 Datawarehouse Dan Business Intelligence
15 halaman
Modul Analisa Mds
Belum ada peringkat
Modul Analisa Mds
14 halaman
Data Dan Eksplorasi Data Mining
Belum ada peringkat
Data Dan Eksplorasi Data Mining
32 halaman
Data Mining
Belum ada peringkat
Data Mining
21 halaman
Metode Clustering
Belum ada peringkat
Metode Clustering
3 halaman
Data Mining - 4 - Similaritas Dan Jarak
Belum ada peringkat
Data Mining - 4 - Similaritas Dan Jarak
22 halaman
Revisi RTM2
Belum ada peringkat
Revisi RTM2
24 halaman
Modul 1 Preprocessing
Belum ada peringkat
Modul 1 Preprocessing
6 halaman
Ufa Aurora Guciano - TUGAS 1
Belum ada peringkat
Ufa Aurora Guciano - TUGAS 1
10 halaman
Data Mining Memahami Data
Belum ada peringkat
Data Mining Memahami Data
38 halaman
Aplikasi Absensi Siswa Berbasis Web Dan Sms Gateway Pada Sma Negeri 6 Pekanbaru
Belum ada peringkat
Aplikasi Absensi Siswa Berbasis Web Dan Sms Gateway Pada Sma Negeri 6 Pekanbaru
7 halaman
Metode-Metode Pada Sistem Pakar
Belum ada peringkat
Metode-Metode Pada Sistem Pakar
24 halaman
05 Algoritma Klasifikasi
Belum ada peringkat
05 Algoritma Klasifikasi
44 halaman
Pertemuan 3 - Materi (DM - 2016)
Belum ada peringkat
Pertemuan 3 - Materi (DM - 2016)
15 halaman
Pertemuan 5: Similaritas, Jarak, Dan Klasifikasi
Belum ada peringkat
Pertemuan 5: Similaritas, Jarak, Dan Klasifikasi
23 halaman
09 Kmeans
Belum ada peringkat
09 Kmeans
18 halaman
Algoritma KNN
Belum ada peringkat
Algoritma KNN
16 halaman
Clustering
Belum ada peringkat
Clustering
32 halaman
Muhammad Fikri 2120013 (1-3)
Belum ada peringkat
Muhammad Fikri 2120013 (1-3)
12 halaman
Soal Tugas Pemrograman Visual
Belum ada peringkat
Soal Tugas Pemrograman Visual
7 halaman
Analisis Peubah Ganda Aspek Dari Analisis Multivariat
Belum ada peringkat
Analisis Peubah Ganda Aspek Dari Analisis Multivariat
7 halaman
Jawaban Soalt Pertemuan 4
Belum ada peringkat
Jawaban Soalt Pertemuan 4
4 halaman
Data Preprocessing-PCA R
Belum ada peringkat
Data Preprocessing-PCA R
60 halaman
PDM Kel 5
Belum ada peringkat
PDM Kel 5
4 halaman
1 Data Screening
Belum ada peringkat
1 Data Screening
30 halaman
Modul Clustering Data Mining-Modul Clustering
Belum ada peringkat
Modul Clustering Data Mining-Modul Clustering
12 halaman
Bab Ii
Belum ada peringkat
Bab Ii
8 halaman
Aspek APG - Vektor Matriks - Geometry Sampling
Belum ada peringkat
Aspek APG - Vektor Matriks - Geometry Sampling
122 halaman
Getting To Know Your Data
Belum ada peringkat
Getting To Know Your Data
20 halaman
05.3 Bab 3
Belum ada peringkat
05.3 Bab 3
9 halaman
PDM Kel 7
Belum ada peringkat
PDM Kel 7
16 halaman
PDM Kel 7
Belum ada peringkat
PDM Kel 7
15 halaman
Analisis Pengelompokan
Belum ada peringkat
Analisis Pengelompokan
48 halaman
(Bahasa) Pertemuan 13 - Analisis Klaster
Belum ada peringkat
(Bahasa) Pertemuan 13 - Analisis Klaster
29 halaman
Abd Uts
Belum ada peringkat
Abd Uts
7 halaman
TM11-Classification and Clustering
Belum ada peringkat
TM11-Classification and Clustering
27 halaman
PDF Mini Riset Aljabar Linnierdoc
Belum ada peringkat
PDF Mini Riset Aljabar Linnierdoc
11 halaman
Overdosis
Belum ada peringkat
Overdosis
12 halaman
Tugas 1 - Data Mining
Belum ada peringkat
Tugas 1 - Data Mining
3 halaman
Uts G-231220098
Belum ada peringkat
Uts G-231220098
3 halaman
Karakteritis Dan Preprocessing Data DER
Belum ada peringkat
Karakteritis Dan Preprocessing Data DER
60 halaman
Laporan 2
Belum ada peringkat
Laporan 2
16 halaman
Klastering K2
Belum ada peringkat
Klastering K2
11 halaman
Pert 12 KNN
Belum ada peringkat
Pert 12 KNN
19 halaman
3 - 7705 - MIK620 - 032018 - PDF
Belum ada peringkat
3 - 7705 - MIK620 - 032018 - PDF
15 halaman
Preprocessing Data
Belum ada peringkat
Preprocessing Data
27 halaman
11 Analisa Clustering
Belum ada peringkat
11 Analisa Clustering
41 halaman
TR2 Data Mining Nurul Khairunnisa
Belum ada peringkat
TR2 Data Mining Nurul Khairunnisa
31 halaman