Penerapan Metode K-Means Clustering Datamining pada Tingkat
Persaingan SBMPTN di Program Studi ITS
Tugas : Demo Program Data Mining
Disusun sebagai salah satu syarat untuk memenuhi tugas Projek Akhir mata kuliah Data Mining.
Oleh :
Riza Nidhom Fahmi
NRP 2110157002
PROGRAM STUDI D4 LJ PJJ TEKNIK INFORMATIKA
DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER
POLITEKNIK ELEKTRONIKA NEGERI SURABAYA
2016
Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan data-
data kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut
data. Berikut adalah contoh data yang saya Gunakan:
NO Nama Prodi data tampung 2016 peminat
2015
1 FISIKA 30 361
2 MATEMATIKA 39 493
3 STATISTIKA 36 759
4 KIMIA 36 586
5 BIOLOGI 27 644
6 TEKNIK MESIN 60 1.784
7 TEKNIK ELEKTRO 48 1.199
8 TEKNIK KIMIA 48 956
9 TEKNIK FISIKA 45 898
10 TEKNIK INDUSTRI 60 1.225
11 TEKNIK MATERIAL DAN 39 1.235
METALURGI
12 TEKNIK SIPIL 45 1.653
13 ARSITEKTUR 30 1.135
Berdasarkan data diatas saya ingin mengelompokkan Tingkat Persaingan yang ada di Program
Studi ITS dengan kriteria Daya Tampung program studi dan peminat program studi tersebut.
Algoritma Metode K Means Clustering
Algoritma Flowchart Metode Klastering K Means
Langkah- Langkah perhitungannya adalah:
1. Menentukan Jumlah cluster data.
2. Tentukan titik pusat cluster secara Random.
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. kelompokan obyek (Alokasikan masing-masing data ke centroid/rata-rata terdekat)
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai
centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada
objective function yang digunakan di atas nilai threshold yang ditentukan
Distance space digunakan untuk menghitung jarak antara data dan centroid. Adapun
persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean
distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh
merupakan jarak terpendek antara dua titik yang diperhitungkan. Adapun persamaannya adalah
sebagai berikut :
dimana :
dij = Jarak objek antara objek i dan j
P = Dimensi data
Xik = Koordinat dari obyek i pada dimensi k
Xjk = Koordinat dari obyek j pada dimensi k
Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara
manual:
Langkah 1. Menentukan Jumlah Claster.
Diketahui:
Jumlah Cluster = 3,
jumlah data = 13,
jumlah atribut = 2
NO Nama Prodi data tampung 2016 peminat 2015
1 FISIKA 30 361
2 MATEMATIKA 39 493
3 STATISTIKA 36 759
4 KIMIA 36 586
5 BIOLOGI 27 644
6 TEKNIK MESIN 60 1.784
7 TEKNIK ELEKTRO 48 1.199
8 TEKNIK KIMIA 48 956
9 TEKNIK FISIKA 45 898
10 TEKNIK INDUSTRI 60 1.225
11 TEKNIK MATERIAL DAN 39 1.235
METALURGI
12 TEKNIK SIPIL 45 1.653
13 ARSITEKTUR 30 1.135
Langkah 2. Tentukan Titik Pusat Cluster Secara Random.
Di ambil data random sebagai pusat cluster ke-1 30 586
Di ambil data random sebagai pusat cluster ke-2 27 1199
Di ambil data random sebagai pusat cluster ke-3 45 759
Langkah 3. Perhitungan Jarak Pusat Cluster
Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian
akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:
Berikut perhitungannya dengan menggunakan persamaan Euclidean Distance Space :
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster pertama.
C1= SQRT((30-30)^2+(361-586)^2)=225
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-dua.
C2= SQRT((30-27)^2+(361-1199)^2)= 838.0054
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-tiga.
C3= SQRT((30-45)^2+(361-759)^2)= 398.2826
Adapun hasil dari perhitungan dari keseluruhan data terhadap tiap pusat cluster awal disajikan
pada tabel berikut
NO Nama Prodi data peminat C1 C2 C3 Jarak
tampung 2015 Terpendek
2016
1 FISIKA 30 361 225 838.0054 398.2826 225
2 MATEMATIKA 39 493 93.43447 706.0255 266.0677 93.43447
3 STATISTIKA 36 759 173.104 441.0215 9 9
4 KIMIA 36 586 6 613.3974 173.2339 6
5 BIOLOGI 27 644 58.07753 555.6564 116.4002 58.07753
6 TEKNIK MESIN 60 1.784 1198.376 588.0689 1025.11 588.0689
7 TEKNIK ELEKTRO 48 1.199 613.2642 48 440.0102 48
8 TEKNIK KIMIA 48 956 370.4376 247.6954 197.0228 197.0228
9 TEKNIK FISIKA 45 898 312.3604 304.3452 139 139
10 TEKNIK INDUSTRI 60 1.225 639.7038 65.39113 466.2414 65.39113
11 TEKNIK 39 1.235
MATERIAL DAN
METALURGI 649.0624 53.07542 476.0378 53.07542
12 TEKNIK SIPIL 45 1.653 1067.105 456.2247 894 456.2247
13 ARSITEKTUR 30 1.135 549 70.68239 376.2991 70.68239
Langkah 4. Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan
pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan
pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut
berada dalam group(kelompok data).
NO C1 C2 C3
1 1 0 0
2 1 0 0 Kelompok data 1
3 0 0 1
4 1 0 0
5 1 0 0
6 0 1 0
7 0 1 0
8 0 0 1
9 0 0 1
10 0 1 0
11 0 1 0
12 0 1 0
13 0 1 0
Langkah 5. Penentuan pusat cluster baru
Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung
berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga
didapatkan perhitungan sebagai berikut :
1 2
C1 33 521
C2 47 1371.833
C3 43 871
Ulangi langkah ke 3 (kedua) hingga posisi data tidak mengalami perubahan.
No Nama Prodi data peminat c1 c2 c3
tampung 2015
2016
1 FISIKA 30 361 160.0281 1010.976 510.1657
2 MATEMATIKA 39 493 28.63564 878.8694 378.0212
3 STATISTIKA 36 759 238.0189 612.9317 112.2185
4 KIMIA 36 586 65.06919 785.91 285.086
5 BIOLOGI 27 644 123.1463 728.1077 227.5632
6 TEKNIK MESIN 60 1784 1263.289 412.372 913.1583
7 TEKNIK ELEKTRO 48 1199 678.1659 172.8359 328.0381
8 TEKNIK KIMIA 48 956 435.2585 415.8342 85.14693
9 TEKNIK FISIKA 45 898 377.1909 473.8372 27.07397
10 TEKNIK INDUSTRI 60 1225 704.5176 147.4074 354.408
11 TEKNIK MATERIAL 39 1235 714.0252 137.0667 364.022
DAN METALURGI
12 TEKNIK SIPIL 45 1653 1132.064 281.1741 782.0026
13 ARSITEKTUR 30 1135 614.0073 237.4424 264.3199
Langkah selanjutnya sama dengan langkah pada nomor 4 jarak hasil perhitungan akan
dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini
menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.
NO C1 C2 C3
1 1 0 0
2 1 0 0
3 0 0 1
4 1 0 0
5 1 0 0
6 0 1 0 Kelompok data 2
7 0 1 0
8 0 0 1
9 0 0 1
10 0 1 0
11 0 1 0
12 0 1 0
13 0 1 0
Keterangan: Karena kelompok data 1 dan Kelompok data 2 sudah tidak ada perbedaan maka Proses
Perulangannya di Hentikan karena proses pengclasifikasian sudah selesai.