0% menganggap dokumen ini bermanfaat (0 suara)
146 tayangan7 halaman

Penerapan Metode K-Means Clustering Data

Dokumen tersebut menggambarkan penggunaan metode K-Means Clustering pada data program studi untuk mengelompokkan tingkat persaingan berdasarkan daya tampung dan minat mahasiswa. Metode ini digunakan untuk memecah data menjadi 3 cluster dengan menghitung jarak euclidean antara data dan centroid cluster.

Diunggah oleh

ciwideyadhitya
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
146 tayangan7 halaman

Penerapan Metode K-Means Clustering Data

Dokumen tersebut menggambarkan penggunaan metode K-Means Clustering pada data program studi untuk mengelompokkan tingkat persaingan berdasarkan daya tampung dan minat mahasiswa. Metode ini digunakan untuk memecah data menjadi 3 cluster dengan menghitung jarak euclidean antara data dan centroid cluster.

Diunggah oleh

ciwideyadhitya
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 7

Penerapan Metode K-Means Clustering Datamining pada Tingkat

Persaingan SBMPTN di Program Studi ITS

Tugas : Demo Program Data Mining

Disusun sebagai salah satu syarat untuk memenuhi tugas Projek Akhir mata kuliah Data Mining.

Oleh :
Riza Nidhom Fahmi
NRP 2110157002

PROGRAM STUDI D4 LJ PJJ TEKNIK INFORMATIKA


DEPARTEMEN TEKNIK INFORMATIKA DAN KOMPUTER
POLITEKNIK ELEKTRONIKA NEGERI SURABAYA
2016
Metode K-Means Clustering digunakan dalam data mining untuk mengelompokan data-
data kedalam cluster atau beberapa kelompok berdasarkan suatu kemiripan variabel atau atribut
data. Berikut adalah contoh data yang saya Gunakan:

NO Nama Prodi data tampung 2016 peminat


2015
1 FISIKA 30 361
2 MATEMATIKA 39 493
3 STATISTIKA 36 759
4 KIMIA 36 586
5 BIOLOGI 27 644
6 TEKNIK MESIN 60 1.784
7 TEKNIK ELEKTRO 48 1.199
8 TEKNIK KIMIA 48 956
9 TEKNIK FISIKA 45 898
10 TEKNIK INDUSTRI 60 1.225
11 TEKNIK MATERIAL DAN 39 1.235
METALURGI
12 TEKNIK SIPIL 45 1.653
13 ARSITEKTUR 30 1.135

Berdasarkan data diatas saya ingin mengelompokkan Tingkat Persaingan yang ada di Program
Studi ITS dengan kriteria Daya Tampung program studi dan peminat program studi tersebut.

Algoritma Metode K Means Clustering

Algoritma Flowchart Metode Klastering K Means


Langkah- Langkah perhitungannya adalah:
1. Menentukan Jumlah cluster data.
2. Tentukan titik pusat cluster secara Random.
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. kelompokan obyek (Alokasikan masing-masing data ke centroid/rata-rata terdekat)
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai
centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada
objective function yang digunakan di atas nilai threshold yang ditentukan

Distance space digunakan untuk menghitung jarak antara data dan centroid. Adapun
persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance Space. Euclidean
distance space sering digunakan dalam perhitungan jarak, hal ini dikarenakan hasil yang diperoleh
merupakan jarak terpendek antara dua titik yang diperhitungkan. Adapun persamaannya adalah
sebagai berikut :

dimana :
dij = Jarak objek antara objek i dan j
P = Dimensi data
Xik = Koordinat dari obyek i pada dimensi k
Xjk = Koordinat dari obyek j pada dimensi k
Dalam tahap ini akan dijelaskan langkah-langkah pengoperasian algoritma K-Means secara
manual:
Langkah 1. Menentukan Jumlah Claster.

Diketahui:
Jumlah Cluster = 3,
jumlah data = 13,
jumlah atribut = 2

NO Nama Prodi data tampung 2016 peminat 2015

1 FISIKA 30 361
2 MATEMATIKA 39 493
3 STATISTIKA 36 759
4 KIMIA 36 586
5 BIOLOGI 27 644
6 TEKNIK MESIN 60 1.784
7 TEKNIK ELEKTRO 48 1.199
8 TEKNIK KIMIA 48 956
9 TEKNIK FISIKA 45 898
10 TEKNIK INDUSTRI 60 1.225
11 TEKNIK MATERIAL DAN 39 1.235
METALURGI
12 TEKNIK SIPIL 45 1.653
13 ARSITEKTUR 30 1.135

Langkah 2. Tentukan Titik Pusat Cluster Secara Random.

Di ambil data random sebagai pusat cluster ke-1 30 586


Di ambil data random sebagai pusat cluster ke-2 27 1199
Di ambil data random sebagai pusat cluster ke-3 45 759
Langkah 3. Perhitungan Jarak Pusat Cluster
Untuk mengukur jarak antara dengan pusat Cluster digunakan Euclidian Distance, kemudian
akan didapatkan matriks jarak yaitu C1, C2 dan C3 sebagai berikut:

Berikut perhitungannya dengan menggunakan persamaan Euclidean Distance Space :


- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster pertama.
C1= SQRT((30-30)^2+(361-586)^2)=225
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-dua.
C2= SQRT((30-27)^2+(361-1199)^2)= 838.0054
- Jarak antara data daya tampung dan peminat pertama dengan pusat cluster ke-tiga.
C3= SQRT((30-45)^2+(361-759)^2)= 398.2826
Adapun hasil dari perhitungan dari keseluruhan data terhadap tiap pusat cluster awal disajikan
pada tabel berikut

NO Nama Prodi data peminat C1 C2 C3 Jarak


tampung 2015 Terpendek
2016
1 FISIKA 30 361 225 838.0054 398.2826 225
2 MATEMATIKA 39 493 93.43447 706.0255 266.0677 93.43447
3 STATISTIKA 36 759 173.104 441.0215 9 9
4 KIMIA 36 586 6 613.3974 173.2339 6
5 BIOLOGI 27 644 58.07753 555.6564 116.4002 58.07753
6 TEKNIK MESIN 60 1.784 1198.376 588.0689 1025.11 588.0689
7 TEKNIK ELEKTRO 48 1.199 613.2642 48 440.0102 48
8 TEKNIK KIMIA 48 956 370.4376 247.6954 197.0228 197.0228
9 TEKNIK FISIKA 45 898 312.3604 304.3452 139 139
10 TEKNIK INDUSTRI 60 1.225 639.7038 65.39113 466.2414 65.39113
11 TEKNIK 39 1.235
MATERIAL DAN
METALURGI 649.0624 53.07542 476.0378 53.07542
12 TEKNIK SIPIL 45 1.653 1067.105 456.2247 894 456.2247
13 ARSITEKTUR 30 1.135 549 70.68239 376.2991 70.68239
Langkah 4. Pengelompokan Data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat antara data dengan
pusat cluster, jarak ini menunjukkan bahwa data tersebut berada dalam satu kelompok dengan
pusat cluster terdekat.
Berikut ini akan ditampilkan data matriks pengelompokkan group, nilai 1 berarti data tersebut
berada dalam group(kelompok data).

NO C1 C2 C3
1 1 0 0
2 1 0 0 Kelompok data 1
3 0 0 1
4 1 0 0
5 1 0 0
6 0 1 0
7 0 1 0
8 0 0 1
9 0 0 1
10 0 1 0
11 0 1 0
12 0 1 0
13 0 1 0

Langkah 5. Penentuan pusat cluster baru


Setelah diketahui anggota tiap-tiap cluster kemudian pusat cluster baru dihitung
berdasarkan data anggota tiap-tiap cluster sesuai dengan rumus pusat anggota cluster. Sehingga
didapatkan perhitungan sebagai berikut :
1 2
C1 33 521
C2 47 1371.833
C3 43 871
Ulangi langkah ke 3 (kedua) hingga posisi data tidak mengalami perubahan.
No Nama Prodi data peminat c1 c2 c3
tampung 2015
2016
1 FISIKA 30 361 160.0281 1010.976 510.1657
2 MATEMATIKA 39 493 28.63564 878.8694 378.0212
3 STATISTIKA 36 759 238.0189 612.9317 112.2185
4 KIMIA 36 586 65.06919 785.91 285.086
5 BIOLOGI 27 644 123.1463 728.1077 227.5632
6 TEKNIK MESIN 60 1784 1263.289 412.372 913.1583
7 TEKNIK ELEKTRO 48 1199 678.1659 172.8359 328.0381
8 TEKNIK KIMIA 48 956 435.2585 415.8342 85.14693
9 TEKNIK FISIKA 45 898 377.1909 473.8372 27.07397
10 TEKNIK INDUSTRI 60 1225 704.5176 147.4074 354.408
11 TEKNIK MATERIAL 39 1235 714.0252 137.0667 364.022
DAN METALURGI
12 TEKNIK SIPIL 45 1653 1132.064 281.1741 782.0026
13 ARSITEKTUR 30 1135 614.0073 237.4424 264.3199

Langkah selanjutnya sama dengan langkah pada nomor 4 jarak hasil perhitungan akan
dilakukan perbandingan dan dipilih jarak terdekat antara data dengan pusat cluster, jarak ini
menunjukkan bahwa data tersebut berada dalam satu kelompok dengan pusat cluster terdekat.

NO C1 C2 C3
1 1 0 0
2 1 0 0
3 0 0 1
4 1 0 0
5 1 0 0
6 0 1 0 Kelompok data 2
7 0 1 0
8 0 0 1
9 0 0 1
10 0 1 0
11 0 1 0
12 0 1 0
13 0 1 0

Keterangan: Karena kelompok data 1 dan Kelompok data 2 sudah tidak ada perbedaan maka Proses
Perulangannya di Hentikan karena proses pengclasifikasian sudah selesai.

Anda mungkin juga menyukai