0% menganggap dokumen ini bermanfaat (0 suara)
55 tayangan21 halaman

8 Unsupervised Learning Kmeans

Diunggah oleh

Zufar Ntsr
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
55 tayangan21 halaman

8 Unsupervised Learning Kmeans

Diunggah oleh

Zufar Ntsr
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 21

Unsupervised Learning

(K-Means)
Kuliah Pertemuan 8
MK Pembelajaran Mesin
Semester 6
Teknologi Rekayasa Komputer
Unsupervised Learning
Unsupervised learning adalah proses pembelajaran dilakukan tanpa petunjuk. Algoritma
dalam komputerlah yang bekerja untuk menemukan pola- pola di dalam data.
Secara matematis, unsupervised learning terjadi ketika kita memiliki sejumlah data
masukan (X) dan tanpa variabel output yang berhubungan.

Jika menggunakan analogi, siswa belajar tanpa ada solusi dan jawaban yang benar, siswa
harus menemukan sendiri jawabannya.

Masalah Unsupervised learning dapat dibagi menjadi dua jenis yaitu asosiasi dan
clustering
Contoh
Contoh
Data berisi tiga jenis item yang berbeda.
Ketiga item tersebut akan dipisah menjadi beberapa kategori tergantung data.
Komputer hanya mengetahui fitur-fitur yang akan digunakan untuk membedakan ketiga
item tersebut yaitu warna dan bentuk.
Dengan menggunakan algoritma clustering, komputer akan dapat membagi item-item
menjadi tiga kelompok tanpa harus diberi pengetahuan.
Algoritma akan bekerja untuk membagi menjadi beberapa kelompok dengan melihat isi
data masing-masing item.
Asosiasi
Asosiasi adalah teknik yang digunakan untuk mengidentifikasi hubungan atau keterkaitan
antara dua atau lebih variabel dalam data.
Dalam analisis asosiasi, kita mencari korelasi antara variabel-variabel tersebut dan
mencoba untuk mengidentifikasi pola-pola yang tersembunyi di dalamnya.

Salah satu contoh penerapan asosiasi adalah dalam analisis pasar, di mana kita mencoba
untuk menemukan keterkaitan antara produk-produk yang dibeli bersama-sama.
Clustering
Clustering adalah teknik yang digunakan untuk mengelompokkan objek-objek dalam data
ke dalam kelompok-kelompok yang serupa berdasarkan pada karakteristik yang dimiliki.
Dalam analisis clustering, kita mencari pola-pola di dalam data yang menggambarkan
kesamaan atau perbedaan antara objek-objek.

Salah satu contoh penerapan clustering adalah dalam analisis pelanggan, di mana kita
mencoba untuk mengelompokkan pelanggan-pelanggan yang memiliki preferensi dan
perilaku konsumsi serupa.
K-means
Overview
K-Means adalah salah satu “unsupervised machine learning algorithms” yang paling
sederhana dan populer. Tujuan dari algoritma ini adalah untuk menemukan grup dalam
data, dengan jumlah grup yang diwakili oleh variabel K. Variabel K adalah jumlah kluster
yang diinginkan.
Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam
beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang
sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang
ada di dalam kelompok yang lain. Karakteristik yang sama itu ditandai dengan jarak atau
distance yang lebih dekat, mirip seperti KNN.
Algoritma
1. Tentukan jumlah kluster
Jumlah kluster adalah jumlah kelompok yang diinginkan.
Penentuan jumlah kluster ini merupakan langkah awal yang menentukan hasil dari
klasterisasi nantinya.
Untuk mengelompokkan data tersebut perlu keahlian dan pemahaman terhadap data
dan subjek permasalahan.
Dapat juga melakukan uji terhadap kluster untuk menentukan K-terbaik.
Jumlah kluster yang telah ditentukan akan diberi nilai koordinat acak yang
merepresentasikan mean atau rata-rata dari kelompok tersebut yang disebut mean-
cluster.
Mean-cluster
Algoritma

2. Alokasikan data ke dalam kluster


secara random
Setiap data dimasukkan ke dalam kluster
tertentu secara acak.
Walaupun akan ada data yang masuk ke
dalam kluster yang salah tidak apa-apa.
Karena algoritma ini akan mengubahnya
berdasarkan nilai mean-cluster yang diset
pada langkah 1 di langkah berikutnya.
Algoritma

3. Update mean/rata-rata jarak cluster


berdasarkan data cluster
Langkah ini merupakan koreksi untuk
langkah 1 dimana kita memberikan nilai
acak pada mean-cluster.
Proses update dilakukan dengan
menghitung jarak rata-rata baru pada
kluster tersebut berdasarkan titik-titik
pada langkah 2 lalu nilai mean yang baru
akan menggantikan nilai mean- cluster.
Dengan kata lain, nilai mean-cluster telah
di update sesuai dengan anggotanya.
Algoritma
4. Alokasikan masing-masing data ke rata-rata terdekat
Langkah ini merupakan koreksi terhadap anggota kluster, dimana keangotaan data
terhadap kluster diubah berdasarkan jarak data ke titik mean-cluster.
Keanggotaan dipilih berdasarkan jarak terdekat.
Sebagai contoh pada gambar, data yang berada pada titik (1,5) adalah anggota kluster 1,
namun jika dihitung kembali jaraknya ke mean kluster 1 baru dan mean kluster 2 baru
ternyata jaraknya lebih dekat kepada mean kluster 2.
Oleh karena itu pada gambar, keanggotaan titik (1,5) berubah dari kluster 1 menjadi
kluster 2
Update
keanggotaan
kluster
berdasarkan
mean-cluster
baru
Algoritma
5. Kembali ke langkah 3
Apabila masih ada data yang berpindah cluster pada langkah 4 atau apabila perubahan
nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan
nilai pada objective function yang digunakan, di atas nilai threshold yang ditentukan
maka kembali ke langkah 3 untuk mengupdate nilai mean-cluster.
Nilai threshold dapat bervariasi tergantung pada data yang digunakan, dan biasanya
diatur untuk mencapai tingkat akurasi atau kecepatan komputasi yang diinginkan.
Semakin kecil nilai threshold, semakin lama waktu yang dibutuhkan untuk mencapai
konvergensi.
Konvergensi dapat didefinisikan sebagai suatu kondisi di mana proses iterasi telah
mencapai titik di mana perubahan nilai output atau parameter yang dicari menjadi kecil
dan tidak signifikan lagi. Pada titik tersebut, nilai yang ditemukan dianggap sebagai solusi
yang paling optimal.
Algoritma
Manfaat
1. Pemrosesan data yang lebih cepat dan efisien
Algoritma k-means merupakan salah satu algoritma klasterisasi yang paling populer dan
mudah digunakan. Algoritma ini dapat memproses data dengan cepat dan efisien bahkan
dengan jumlah data yang sangat besar.

2. Menghasilkan kelompok atau klaster data yang homogen


Dengan menggunakan algoritma k-means, kita dapat mengelompokkan data ke dalam
cluster yang memiliki kemiripan fitur atau karakteristik. Dalam setiap cluster, data
memiliki kesamaan yang signifikan dan perbedaan yang relatif kecil.

3. Identifikasi pola dan struktur dalam data


Algoritma k-means membantu dalam mengidentifikasi pola atau struktur dalam data
yang mungkin sulit ditemukan secara manual.
Manfaat
4. Meningkatkan pemahaman tentang data
Algoritma k-means dapat membantu dalam memahami data dengan lebih baik. Dengan
mengetahui kelompok mana data termasuk, kita dapat mempelajari lebih banyak
tentang karakteristik data dan mengambil keputusan yang lebih tepat dalam
penggunaannya.

5. Aplikasi dalam berbagai bidang


Algoritma k-means memiliki berbagai aplikasi di berbagai bidang seperti ilmu
pengetahuan, teknologi, ekonomi, dan sosial. Algoritma ini dapat digunakan untuk
mengidentifikasi tren dan pola dalam data pasar, membantu dalam analisis data medis
dan epidemiologi, serta membantu dalam mengklasifikasikan kategori pelanggan dalam
bisnis.
Kelebihan
1. Sederhana dan mudah digunakan: Algoritma k-means mudah dipahami dan
diimplementasikan, bahkan oleh pemula.
2. Efisien: Algoritma k-means memproses data dengan cepat, bahkan pada jumlah data
yang besar.
3. Hasil yang akurat: Algoritma k-means dapat menghasilkan klaster yang akurat dan
berarti.
4. Skalabilitas: Algoritma k-means dapat diterapkan pada berbagai macam data, baik
data numerik maupun kategorikal.
5. Sangat cocok untuk data dengan jumlah klaster yang jelas: Algoritma k-means bekerja
dengan baik untuk data yang memiliki jumlah klaster yang jelas dan terlihat.
Kekurangan
1. Bergantung pada jumlah klaster: Algoritma k-means sangat bergantung pada jumlah
klaster yang dipilih dan bisa sangat mempengaruhi hasil clustering. Oleh karena itu,
memilih jumlah klaster yang optimal menjadi sangat penting dalam analisis data.
2. Rentan terhadap inisialisasi centroid awal yang buruk: Hasil clustering dapat sangat
dipengaruhi oleh inisialisasi centroid awal. Jika centroid awal dipilih secara acak,
algoritma k-means dapat memberikan hasil yang tidak optimal.
3. Rentan terhadap data yang berbeda skala: Algoritma k-means sangat rentan
terhadap data yang berbeda skala. Oleh karena itu, perlu untuk melakukan
normalisasi data sebelum melakukan klasterisasi.
4. Tidak cocok untuk data dengan bentuk yang kompleks: Algoritma k-means tidak
cocok untuk data dengan bentuk yang kompleks seperti data berbentuk lingkaran
atau data dengan kelompok yang tumpang tindih.
5. Kesulitan menangani outlier: Algoritma k-means sangat sensitif terhadap outlier
dalam data, yang dapat mempengaruhi hasil clustering secara signifikan.

Anda mungkin juga menyukai