8 Unsupervised Learning Kmeans
8 Unsupervised Learning Kmeans
(K-Means)
Kuliah Pertemuan 8
MK Pembelajaran Mesin
Semester 6
Teknologi Rekayasa Komputer
Unsupervised Learning
Unsupervised learning adalah proses pembelajaran dilakukan tanpa petunjuk. Algoritma
dalam komputerlah yang bekerja untuk menemukan pola- pola di dalam data.
Secara matematis, unsupervised learning terjadi ketika kita memiliki sejumlah data
masukan (X) dan tanpa variabel output yang berhubungan.
Jika menggunakan analogi, siswa belajar tanpa ada solusi dan jawaban yang benar, siswa
harus menemukan sendiri jawabannya.
Masalah Unsupervised learning dapat dibagi menjadi dua jenis yaitu asosiasi dan
clustering
Contoh
Contoh
Data berisi tiga jenis item yang berbeda.
Ketiga item tersebut akan dipisah menjadi beberapa kategori tergantung data.
Komputer hanya mengetahui fitur-fitur yang akan digunakan untuk membedakan ketiga
item tersebut yaitu warna dan bentuk.
Dengan menggunakan algoritma clustering, komputer akan dapat membagi item-item
menjadi tiga kelompok tanpa harus diberi pengetahuan.
Algoritma akan bekerja untuk membagi menjadi beberapa kelompok dengan melihat isi
data masing-masing item.
Asosiasi
Asosiasi adalah teknik yang digunakan untuk mengidentifikasi hubungan atau keterkaitan
antara dua atau lebih variabel dalam data.
Dalam analisis asosiasi, kita mencari korelasi antara variabel-variabel tersebut dan
mencoba untuk mengidentifikasi pola-pola yang tersembunyi di dalamnya.
Salah satu contoh penerapan asosiasi adalah dalam analisis pasar, di mana kita mencoba
untuk menemukan keterkaitan antara produk-produk yang dibeli bersama-sama.
Clustering
Clustering adalah teknik yang digunakan untuk mengelompokkan objek-objek dalam data
ke dalam kelompok-kelompok yang serupa berdasarkan pada karakteristik yang dimiliki.
Dalam analisis clustering, kita mencari pola-pola di dalam data yang menggambarkan
kesamaan atau perbedaan antara objek-objek.
Salah satu contoh penerapan clustering adalah dalam analisis pelanggan, di mana kita
mencoba untuk mengelompokkan pelanggan-pelanggan yang memiliki preferensi dan
perilaku konsumsi serupa.
K-means
Overview
K-Means adalah salah satu “unsupervised machine learning algorithms” yang paling
sederhana dan populer. Tujuan dari algoritma ini adalah untuk menemukan grup dalam
data, dengan jumlah grup yang diwakili oleh variabel K. Variabel K adalah jumlah kluster
yang diinginkan.
Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam
beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang
sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang
ada di dalam kelompok yang lain. Karakteristik yang sama itu ditandai dengan jarak atau
distance yang lebih dekat, mirip seperti KNN.
Algoritma
1. Tentukan jumlah kluster
Jumlah kluster adalah jumlah kelompok yang diinginkan.
Penentuan jumlah kluster ini merupakan langkah awal yang menentukan hasil dari
klasterisasi nantinya.
Untuk mengelompokkan data tersebut perlu keahlian dan pemahaman terhadap data
dan subjek permasalahan.
Dapat juga melakukan uji terhadap kluster untuk menentukan K-terbaik.
Jumlah kluster yang telah ditentukan akan diberi nilai koordinat acak yang
merepresentasikan mean atau rata-rata dari kelompok tersebut yang disebut mean-
cluster.
Mean-cluster
Algoritma