100% menganggap dokumen ini bermanfaat (1 suara)
90 tayangan40 halaman

Clustering PDF

Teks tersebut membahas konsep dasar clustering dan algoritma k-means. Secara singkat, clustering digunakan untuk mengelompokkan data secara otomatis tanpa label kelas, sedangkan k-means adalah algoritma partisi populer yang bekerja dengan memilih centroid awal dan menghitung jarak objek untuk menentukan anggota kluster.

Diunggah oleh

Hafifah Permatasari
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
100% menganggap dokumen ini bermanfaat (1 suara)
90 tayangan40 halaman

Clustering PDF

Teks tersebut membahas konsep dasar clustering dan algoritma k-means. Secara singkat, clustering digunakan untuk mengelompokkan data secara otomatis tanpa label kelas, sedangkan k-means adalah algoritma partisi populer yang bekerja dengan memilih centroid awal dan menghitung jarak objek untuk menentukan anggota kluster.

Diunggah oleh

Hafifah Permatasari
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 40

Clustering – Konsep Dasar &

Penerapan Algoritma K
Means

Data Minig

Sumarni Adi, S.Kom., M.Cs

Fakultas Ilmu Komputer 1


Unsupervised Learning
Basic Concept Clustering

• Disebut juga klasterisasi (clustering) yang


mampu mengelompokkan himpunan data secara
otomatis.
• Jika pada supervised learning (Klasifikasi)
membutuhkan label kelas maka pada
Unsupervised learning tidak memerlukan label
kelas.

Fakultas Ilmu Komputer 2


Contoh
Basic Concept Clustering

Handphone Baterai Kamera Harga Layak direkomendasikan


H1 26 8 1,2 ?
H2 27 13 15 ?
H3 28 5 6 ?
H4 25 2 5 ?
H5 23 10 1 ?

• Bagaimana cara mengelompokkan data tersebut


ke dalam 2 klaster sehingga Anda bisa menjawab
handphone mana yang layak dan mana yang
tidak layak direkomendasikan?

Fakultas Ilmu Komputer 3


Contoh
Basic Concept Clustering

Data disebuah perusahaan telekomunikasi


Panggilan Blok Layak Dapat Bonus
30 50 ?
40 140 ?
50 220 ?
60 300 ?

• Bagaimana cara mengelompokkan data tersebut


ke dalam 2 klaster sehingga Anda bisa menjawab
pelanggan mana yang layak dan mana yang
tidak layak mendapatkan bonus?
Fakultas Ilmu Komputer 4
Contoh
Basic Concept Clustering

• Catatan akademik pada sejumlah mahasiswa


diketahui data jumlah sks dan nilai IPK
mahasiswa.
SETELAH PENGELOMPOKAN
4
3.5
3
2.5

IPK 2 sks sedikit ipk


1.5 rendah
1 sks sedikit ipk
0.5 tinggi
0 sks banyak ipk
0 10 20 30 rendah
SKS

Fakultas Ilmu Komputer 5


Classification vs Clustering
Basic Concept Clustering

1. Clustering bertujuan
1. Classification bertujuan untuk mengelompokan
untuk memetakan satu titik titik-titik data yang
data ke dalam satu kelas berdekatan dan
yang telah ditentukan mimisahkannya dengan
sebelumnya kelompok-kelompok lain
2. Classification dilakukan yang berjauhan dalam
secara supervised, artinya suatu ruang.
algoritma pemelajaran 2. Clustering dilakukan
untuk melakukan secara unsupervised,
klasifikasi diberikan contoh artinya tidak ada contoh
titik data dan kelas apa bagaimana seharusnya
seharusnya titik data mengelompokan titik-titik
tersebut dipetakan. tersebut.
Fakultas Ilmu Komputer 6
Clustering
Basic Concept Clustering

Clustering atau Klasterisasi adalah proses


pengelompokan himpunan data ke dalam
beberapa group atau klaster sedemikian hingga
objek-objek yang ada di dalam kluster memiliki
kemiripan yang tinggi,
namun sangat berbeda (memiliki ketidakmiripan
yang tinggi) dengan objek –objek di klaster-klaster
lainnya (J Han et Al, 2012)

Fakultas Ilmu Komputer 7


Clustering Implementation
Basic Concept Clustering

• Riset pasar : segmentasi profiling pelanggan


untuk merancang startegi produk, harga, tempat,
promosi dll
• Recomender System : Jual beli online pendekatan
collaborative filtering, business intelligence
• Pencarian Informasi : Mengelompokkan hasil
halaman yang diberikan mesin pencari
• …dll

Fakultas Ilmu Komputer 8


Clustering Methods
Basic Concept Clustering

• Partitioning methods (metode partisi)


• Hierarchical methods (metode hirarki)
• Density-based methods (metode kepadatan)
• Grid-based methods (metode berbasis kisi)

Fakultas Ilmu Komputer 9


Partitioning methods (metode partisi)
Partitioning Methods

• Metode ini bekerja dengan cara


membagi/mempartisi data kedalam sejumlah
kelompok.

• Misalnya sejumlah himpunan data D berisi n objek.


n objek dimasukkan kedalam k kluster C1,C2…Ck
tanpa ada objek yang saling tumpah tindih sehingga
C1 ∈ 𝐷 dan Ci ∩ Cj = 0

Algoritma yang digunakan :


1. K-Means
2. K-Harmonic means
3. K-Modes
4. Fuzzy C-Means
Fakultas Ilmu Komputer 10
K-Means
Partitioning Methods

• K-means merupakan algoritma klasterisasi yang


paling tua dan paling banyak digunakan
diberbagai aplikasi kecil dan menengah.
• Peneliti yang berpengaruh adalah Lloyd (1982),
Friedman dan Rubin (1967). McQueen (1967)
• Ide dasar algoritma ini adalah meminimalkan
Sum of Squared Error (SSE) antara objek-objek
data dengan sejumlah k centroid.

Fakultas Ilmu Komputer 11


Cara Kerja K-Means
K-means

1. Dari himpunan data yang akan diklaster,


tentukan jumlah k kluster dan pilih secara acak
sebagai centroid awal sejumlah k kluster
2. Setiap objek yang bukan centroid dimasukkan
ke dalam kluster terdekat berdasarkan ukuran
jarak tertentu.
3. Setiap centroid diperbarui berdasarkan rata-
rata dari objek yang ada didalam setiap kluster.
4. Langkah ke-2 dan ke-3 diulang-ulang sampai
semua centroid stabil atau konvergen. Artinya
semua centroid yang dihasilkan dalam iterasi
saat ini sama dengan centroid sebelumnya

Fakultas Ilmu Komputer 12


k-Means Clustering

Langkah 1

Langkah 2

Langkah 3

Sumber : Dr. SuyantoTelkom University


k-Means Clustering Data x1 x2
o1 2 5
o2 4 5
x2 o3 4 2

6 o4 2 2
o5 9 5
5 o1 o2 o5 o6 o6 11 5
o7 11 2
4
o8 9 2
3

2 o4 o3 o8 o7

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


Langkah 1
K-means

• Menentukan Centroid awal secara acak k=2


yaitu :
C1 yang berada di objek o1
C2 berada di objek o3

Fakultas Ilmu Komputer 15


k-Means Clustering Misal k = 2. Pilih dua centroid
secara acak dari 8 objek data (titik)
x2
6
c1
5 o1 + o2 o5 o6

2 o4 +
c
o 3 o8 o7
2
1

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


Langkah 2
K-means
• Menentukan anggota kluster dengan menghitung jarak objek
ke posisi centroid terdekat
Contoh Perhitungan jarak dari
𝑟
Objek o2 ke centroid C1 dan C2
𝑑 𝑥1 , 𝑐1 = 𝑥1𝑖 − 𝑐1𝑖 2

𝑖=1 𝑑 𝑜2 , 𝑐1 = 4−2 2 + 5−5 2 =2


Jarak ke Centroid Cluster yang
𝑑 𝑜2 , 𝑐2 = 4−4 2 + 5−2 2 =3
Data diikuti
C1 C2
o1 0 2 C1
o2 2 3 C1
o3 3,6 0 C2
o4 3 2 C2
o5 7 5,8 C2
o6 9 7,6 C2
o7 9,8 7 C2
o8 7,6 5 C2
Fakultas Ilmu Komputer 17
k-Means Clustering Tentukan anggota setiap klaster
dengan memiilih centroid terdekat
x2
6
c1 2
5 o1 + o2 o5 o6

4
3
3

2 o4 +
c
o 3 o8 o7
2
1

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


k-Means Clustering Tentukan anggota setiap klaster
dengan memiilih centroid terdekat
x2
6
c1
5 o1 + o2 o5 o6

2 o4 +
c
o 3 o8 o7
2
1

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


k-Means Clustering Tentukan anggota setiap klaster
dengan memiilih centroid terdekat
x2
6
c1
5 o1 + o2 o5 o6

2 o4 +
c
o 3 o8 o7
2
1

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


k-Means Clustering Tentukan anggota setiap klaster
dengan memiilih centroid terdekat
x2 Jarak ke Centroid Cluster
Data yang
6 C1 C2
c1 diikuti
5 o1 + o2 o5 o6 o1 0 2 C1

4 o2 2 3 C1

3 o3 3,6 0 C2

2 o4 +
c
o 3 o8 o7 o4 3 2 C2
2 o5 7 5,8 C2
1
o6 9 7,6 C2
0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12 o7 9,8 7 C2

o8 7,6 5 C2

Sumber : Dr. SuyantoTelkom University


k-Means Clustering Hitung rata-rata titik di setiap klaster
untuk mendapatkan centroid baru
x2
6
c1
5 o1 + o2 o5 o6

2 o4 +
c
o 3 o8 o7
2
1

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


Langkah 3
K-means

• Hitung rata – rata titik Data x1 x2 Centroid

masing-masing anggota o1 2 5 C1

kluster untuk o2 4 5 C1

menentukan titik o3 4 2 C2

centroid baru o4 2 2 C2
o5 9 5 C2
C1 (x1,x2) = (2+4)/2,(5+5)/2
o6 11 5 C2
= 3,5 o7 11 2 C2
C2 (x1,x2) =(4+2+9+11+11+9)/6, o8 9 2 C2
(2+2+5+5+2+2)/6
=7.6 , 3

Fakultas Ilmu Komputer 23


k-Means Clustering Centroid baru menjadi seperti ini :

x2
6
c1
5 o1 + o2 o5 o6

3 +
c
2
2 o4 o3 o8 o7

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


Fungsi Objektif
K-means

• Fungsi objektif berdasarkan jarak dan nilai


keanggotaan data dalam cluster
J    aic Dxi , Cl 
N K 2
i 1l 1

• Dimana N adalah jumlah data, K adalah jumlah cluster,


ail adalah nilai keanggotaan titik data xi ke pusat cluster
Cl, Cl adalah pusat cluster ke-l, D(xi,Cl) adalah jarak titik
xi ke cluster Cl yang diikuti.
• Untuk a mempunyai nilai 0 atau 1. Apabila suatu data
merupakan anggota suatu kelompok maka nilai ail =1 ,
jika tidak, akan maka nilai ail =0

Fakultas Ilmu Komputer 25


J    aic Dxi , Cl 
N K 2
i 1l 1 Langkah 4
K-means

• Apakah Centroid Konvergen Data x1 x2 C1 C2 Centroid

…? Hitung dengan fungsi


Objektif (J)
o1 2 5 1 C1

o2 4 5 1 C1
Contoh Fungsi Objektif O1 : o3 4 2 13,96 C2
D(X1,C1) 2 = (2-3) ²+(5-5) ² =1 o4 2 2 32,36 C2

Perubahan Fungsi Objektif o5 9 5 10,76 C2

=|j baru- J lama | o6 11 5 25,16 C2

o7 11 2 22,16 C2
=|114,16-0= 114,16 o8 9 2 7,76 C2

Perubahan masih di atas 2 112,16

ambang batas threshold Fungsi Objektif 114,16

(T)>0,1, artinya pencarian


centroid masih terus dilakukan
Fakultas Ilmu Komputer 26
Ulangi Langkah 2 dengan centroid baru
K-means

x2 Jarak ke Cluster Cluster


Centroid Lama Baru
6
c1 Data
5 o1 + o2 o5 o6 C1 C2
4
o1 ? ? C1 C1
3 +
c o2 ? ? C1 C1
2
2 o4 o3 o8 o7
o3 3,16 3,6 C2 C1
1
o4 ? ? C2 C1
0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12
o5 ? ? C2 C2
o6 ? ? C2 C2

Perbarui anggota setiap klaster o7 ? ? C2 C2


dengan memilih centroid terdekat o8 ? ? C2 C2

Fakultas Ilmu Komputer 27


k-Means Clustering Anggota kluster yang baru (ke-2)

x2
6
c1
5 o1 + o2 o5 o6

3 +
c
2
2 o4 o3 o8 o7

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


Ulangi Langkah 3
K-means

Data x1 x2 Centroid
• Hitung rata – rata titik baru
masing-masing anggota o1 2 5 C1
kluster untuk o2 4 5 C1
menentukan titik o3 4 2 C1
centroid baru o4 2 2 C1
o5 9 5 C2
C1 (x1,x2) = 12/4, 14/4
o6 11 5 C2
= 3, 3.5
o7 11 2 C2
C2 (x1,x2) = 40/4, 14/4
o8 9 2 C2
=10, 3.5

Fakultas Ilmu Komputer 29


k-Means Clustering Posisi Centroid Baru

x2
6

5 o1 o2 o5 o6

3
+ c1 + c2
2 o4 o3 o8 o7

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


Ulangi Langkah 4
K-means

• Apakah Centroid Konvergen Data x1 x2 C1 C2 Centroid

…? Hitung dengan fungsi


Objektif (J) o1 2 5 1 C1

Perubahan Fungsi Objektif o2 4 5 1 C1

o3 4 2 3,25 C1
=|j baru- J lama | o4 2 2 3,25 C1

=|25,5-114,16 | o5 9 5 3,25 C2

=88,66 o6 11 5 7,25 C2

Perubahan masih di atas


o7 11 2 3,25 C2

ambang batas threshold


o8 9 2 3,25 C2

(T)>0,1, artinya pencarian 8,5 17

centroid masih terus Fungsi Objektif 25,5

dilakukan
Fakultas Ilmu Komputer 31
Ulangi langkah 2 dengan centroid baru
K-means

x2 Jarak ke Cluster Cluster


Centroid Lama Baru
6 Data
C1 C2
5 o1 o2 o5 o6

4
o1 1,80 8,13 C1 C1
3
+ c1 + c2 o2 1,80 6,18 C1 C1
2 o4 o3 o8 o7 o3 1,80 6,18 C1 C1
1 o4 1,80 8,13 C1 C1
0 x1 o5 6,18 1,80 C2 C2
0 1 2 3 4 5 6 7 8 9 10 11 12
o6 8,13 1,80 C2 C2
o7 8,13 1,80 C2 C2
Tidak ada perubahan cluster lama dengan
o8 6,18 1,80 C2 C2
cluster baru, pencarian centroid berakhir

Fakultas Ilmu Komputer 32


k-Means Clustering Perbarui anggota setiap klaster
dengan memiilih centroid terdekat.
x2
Posisi kedua centroid sudah stabil
6

5 o1 o2 o5 o6

3
+ c1 + c2
2 o4 o3 o8 o7

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


k-Means Clustering Ilustrasi k-Means dengan klaster
berbentuk lingkaran
x2
6

5 o1 o2 o5 o6

2 o4 o3 o8 o7

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


k-Means Clustering Misal k = 2. Pilih dua centroid
secara acak dari 8 objek data (titik)
x2
6
c1
5 o1 + o2 o5 o6

2 o4 +
c
o 3 o8 o7
2
1

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


k-Means Clustering Tentukan anggota setiap klaster
dengan memiilih centroid terdekat
x2
6
c1
5 o1 + o2 o5 o6

2 o4 +
c
o 3 o8 o7
2
1

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


Sumber : Dr. SuyantoTelkom University
k-Means Clustering

x2
6
c1
5 o1 + o2 o5 o6

3 +
c
2
2 o4 o3 o8 o7

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


k-Means Clustering
x2
6

5 o1 o2 o5 o6

3
+ c1 + c2
2 o4 o3 o8 o7

0 x1
0 1 2 3 4 5 6 7 8 9 10 11 12

Sumber : Dr. SuyantoTelkom University


latihan
K-Means

Data ke-i Fitur x Fitur y


• Ada 10 data pada data set. 1 1 1
• Dimensi data ada 2 fitur 2 4 1
(agar mudah dalam 3 6 1
visualisasi koordinat
kartesius). 4 1 2
• Fitur yang digunakan dalam 5 2 3
pengelompokan adalah x 6 5 3
dan y 7 2 5
• Jarak yang digunakan adalah
Euclidean distance. 8 3 5
9 2 6
• Jumlah cluster (K) adalah 3.
10 3 8
• Threshold (T) yang
digunakan untuk perubahan Misalnya : Centroid Awal
fungsi objektif adalah 0.1. Cluster Fitur x Fitur y
1 1 1
2 3.4 3.8
3 2.75 3.75

Fakultas Ilmu Komputer 40

Anda mungkin juga menyukai