Modul 6 - Data Mining
Modul 6 - Data Mining
(CTI311)
MODUL 6
ANALISIS CLUSTER
(CLUSTER ANALYSIS)
DISUSUN OLEH
AGUNG MULYO WIDODO, ST, M.Sc.
6.1 Introduksi
Banyak aplikasi memerlukan partisi titik data (data pint) ke dalam grup yang serupa
secara intuitif. Mempartisi sejumlah besar titik data menjadi sejumlah kecil kelompok
sangat membantu dalam meringkas data dan memahaminya untuk berbagai aplikasi
penambangan data. Definisi informal dan intuitif dari clustering adalah sebagai berikut:
“Diberikan satu set titik data, partisi mereka ke dalam kelompok yang berisi titik data
yang sangat mirip”.
Ini merupakan definisi yang sangat kasar dan intuitif karena tidak menyatakan banyak
tentang cara yang berbeda di mana masalah dapat dirumuskan, seperti jumlah kelompok,
atau kriteria objektif untuk kesamaan. Namun demikian, deskripsi sederhana ini berfungsi
sebagai dasar untuk sejumlah model yang secara khusus dirancang untuk aplikasi yang
berbeda. Beberapa contoh aplikasi tersebut adalah sebagai berikut:
Peringkasan data (Data summarization): Pada tingkat yang paling luas, masalah
pengelompokan dapat dianggap sebagai bentuk peringkasan data. Karena
penambangan data adalah tentang mengekstraksi informasi ringkasan (atau
wawasan ringkas) dari data, proses pengelompokan sering kali merupakan langkah
pertama dalam banyak algoritma penambangan data. Faktanya, banyak aplikasi
menggunakan properti summarization dari analisis cluster dalam satu bentuk atau
lainnya.
Segmentasi pelanggan (Customer segmentation): Sering kali diinginkan untuk
menganalisis perilaku umum kelompok pelanggan serupa. Hal ini dicapai dengan
segmentasi pelanggan. Contoh penerapan segmentasi pelanggan adalah penyaringan
kolaboratif, di mana preferensi yang dinyatakan atau diturunkan dari kelompok
pelanggan serupa digunakan untuk membuat rekomendasi produk dalam grup.
Berbagai macam model telah dikembangkan untuk analisis cluster. Model yang berbeda
ini dapat bekerja lebih baik dalam skenario dan tipe data yang berbeda. Masalah, yang
dihadapi oleh banyak algoritma pengelompokan, adalah bahwa banyak fitur mungkin
berisik atau tidak informatif untuk analisis klaster. Fitur tersebut perlu dihapus dari analisis
di awal proses clustering. Masalah ini disebut sebagai seleksi fitur. Bab ini juga akan
mempelajari algoritma pemilihan fitur untuk pengelompokan.
Dalam modul ini dan selanjutnya, studi tentang pengelompokan akan dibatasi pada tipe
data multidimensi yang lebih sederhana, seperti data numerik atau diskrit. Tipe data yang
lebih kompleks, seperti data temporal atau jaringan, akan dipelajari di bab selanjutnya.
Model kunci berbeda terutama dalam hal bagaimana kesamaan didefinisikan dalam
kelompok data. Dalam beberapa kasus, kesamaan didefinisikan secara eksplisit dengan
ukuran jarak yang sesuai, sedangkan dalam kasus lain, itu didefinisikan secara implisit
dengan model campuran probabilistik atau model berbasis kepadatan. Selain itu, skenario
tertentu untuk analisis klaster, seperti kumpulan data berdimensi tinggi atau sangat besar,
menimbulkan tantangan khusus.
Tujuan utama dari pemilihan fitur adalah untuk menghilangkan atribut-atribut noise
yang tidak mengelompok dengan baik. Pemilihan fitur umumnya lebih sulit untuk masalah
yang tidak diawasi, seperti pengelompokan, di mana kriteria validasi eksternal, seperti label,
tidak tersedia untuk pemilihan fitur.
Model filter (Filter Model): Dalam hal ini, skor dikaitkan dengan setiap fitur dengan
menggunakan kriteria berbasis kesamaan. Kriteria ini pada dasarnya adalah filter
yang menyediakan kondisi yang jelas untuk penghapusan fitur. Poin data yang tidak
memenuhi skor yang dipersyaratkan dikeluarkan dari pertimbangan. Dalam
beberapa kasus, model ini dapat mengukur kualitas subset fitur sebagai kombinasi,
bukan fitur tunggal. Model seperti itu lebih kuat karena secara implisit
memperhitungkan dampak tambahan dari penambahan fitur ke fitur lain.
Model pembungkus (Wrapper Model): Dalam hal ini, algoritma pengelompokan
digunakan untuk mengevaluasi kualitas subset fitur. Ini kemudian digunakan untuk
memperbaiki subset fitur di mana pengelompokan dilakukan. Ini adalah pendekatan
iteratif alami di mana pilihan fitur yang baik bergantung pada cluster dan sebaliknya.
Fitur yang dipilih biasanya akan sedikitnya tergantung pada metodologi tertentu
yang digunakan untuk pengelompokan. Meskipun ini mungkin tampak seperti
kerugian, kenyataannya adalah bahwa metode pengelompokan yang berbeda dapat
bekerja lebih baik dengan set fitur yang berbeda. Oleh karena itu, metodologi ini
juga dapat mengoptimalkan pemilihan fitur dengan teknik clustering tertentu. Di sisi
lain, keinformatifan yang melekat pada fitur tertentu terkadang tidak tercermin oleh
pendekatan ini karena dampak dari metodologi pengelompokan tertentu.
Perbedaan utama antara model filter dan pembungkus adalah bahwa yang pertama dapat
dilakukan murni sebagai fase pra-pemrosesan, sedangkan yang terakhir diintegrasikan
langsung ke dalam proses pengelompokan. Pada bagian berikut, sejumlah model filter dan
pembungkus akan dibahas.
Dalam model filter, kriteria khusus digunakan untuk mengevaluasi dampak fitur
tertentu, atau subset fitur, pada kecenderungan pengelompokan kumpulan data. Berikut ini
akan memperkenalkan banyak kriteria yang umum digunakan..
Jika diinginkan, istilah kekuatan juga dapat digeneralisasikan ke data multidimensi dengan
mendiskritkan atribut kuantitatif menjadi nilai biner. Langkah-langkah analog lainnya
menggunakan korelasi antara jarak keseluruhan dan jarak atribut-bijaksana untuk relevansi
model.
Motivasi intuitif dari ukuran ini adalah bahwa fitur yang berkorelasi akan selalu
menghasilkan cluster yang lebih baik daripada fitur yang tidak berkorelasi. Ketika sebuah
atribut relevan, atribut lain dapat digunakan untuk memprediksi nilai atribut ini. Algoritma
klasifikasi (atau pemodelan regresi) dapat digunakan untuk mengevaluasi prediktif ini. Jika
atributnya numerik, maka algoritma pemodelan regresi digunakan. Jika tidak, algoritma
klasifikasi digunakan. Pendekatan keseluruhan untuk mengukur relevansi atribut i adalah
sebagai berikut:
Setiap algoritma klasifikasi yang masuk akal dapat digunakan, meskipun pengklasifikasi
tetangga terdekat diinginkan karena koneksi alaminya dengan komputasi kesamaan dan
pengelompokan.
Ide dasar di balik metode ini adalah bahwa data yang sangat berkerumun
mencerminkan beberapa karakteristik pengelompokannya pada distribusi jarak yang
mendasarinya. Untuk mengilustrasikan hal ini, dua distribusi data yang berbeda masing-
masing diilustrasikan pada Gambar 6.1a dan b. Plot pertama menggambarkan data yang
terdistribusi secara seragam, sedangkan yang kedua menggambarkan data dengan dua
cluster. Dalam Gambar 6.1c dan d, distribusi jarak titik-ke-titik berpasangan diilustrasikan
untuk dua kasus. Terlihat jelas bahwa distribusi jarak untuk data yang seragam disusun
dalam bentuk kurva lonceng, sedangkan untuk data klaster memiliki dua puncak yang
berbeda sesuai dengan sebaran antar klaster dan sebaran intra klaster.
Jumlah puncak tersebut biasanya akan meningkat dengan jumlah cluster. Tujuan
pengukuran berbasis entropi adalah untuk mengukur "bentuk" dari distribusi jarak ini pada
subset fitur tertentu, dan kemudian memilih subset di mana distribusi menunjukkan perilaku
Cara alami untuk mengukur entropi adalah dengan langsung menggunakan distribusi
probabilitas pada titik data dan mengukur entropi menggunakan nilai-nilai ini.
Pertimbangkan subset fitur k-dimensi. Langkah pertama adalah mendiskritisasi data
menjadi satu set wilayah grid multidimensi menggunakan wilayah grid untuk setiap dimensi.
Ini menghasilkan 𝑚 = ∅𝑘 rentang kisi yang diindeks dari 1 hingga m. Nilai m kira-kira
sama di semua subset fitur yang dievaluasi dengan memilih ∅ = ⌈𝑚1⁄𝑘 ⌉ . Jika pi adalah
pecahan titik data di wilayah grid i, maka entropi E berbasis probabilitas didefinisikan
sebagai berikut:
𝐸 = − ∑𝑚
𝑖=1[𝑝𝑖 𝑙𝑜𝑔(𝑝𝑖 ) + (1 − 𝑝𝑖 )𝑙𝑜𝑔(1 − 𝑝𝑖 )] (6.2)
Distribusi yang seragam dengan perilaku pengelompokan yang buruk memiliki entropi
yang tinggi, sedangkan data yang berkerumun memiliki entropi yang lebih rendah. Oleh
karena itu, ukuran entropi memberikan umpan balik tentang kualitas pengelompokan dari
subset fitur.
∑𝑟𝑖=1 𝛽𝑖
𝐻 = ∑𝑟 (6.3)
𝑖=1(𝛼𝑖 +𝛽𝑖 )
Statistik Hopkins akan berada dalam kisaran (0, 1). Data yang terdistribusi secara seragam
akan memiliki statistik Hopkins sebesar 0,5 karena nilai 𝛼𝑖 dan 𝛽𝑖 akan serupa. Di sisi lain,
nilai 𝛼𝑖 biasanya akan jauh lebih rendah daripada 𝛽𝑖 untuk data cluster. Hal ini akan
menghasilkan nilai statistik Hopkins yang mendekati 1. Oleh karena itu, nilai statistik
Hopkins H yang tinggi menunjukkan titik data yang sangat berkerumun. Satu pengamatan
adalah bahwa pendekatan ini menggunakan pengambilan sampel acak, dan oleh karena itu
ukurannya akan bervariasi di berbagai sampel acak yang berbeda. Jika diinginkan,
pengambilan sampel acak dapat diulang melalui beberapa percobaan. Uji kepercayaan ekor
statistik dapat digunakan untuk menentukan tingkat kepercayaan di mana statistik Hopkins
lebih besar dari 0,5. Untuk pemilihan fitur, nilai rata-rata statistik pada beberapa percobaan
dapat digunakan. Statistik ini dapat digunakan untuk mengevaluasi kualitas subset tertentu
dari atribut untuk mengevaluasi kecenderungan pengelompokan subset tersebut. Kriteria ini
Karena ruang pencarian dari subset fitur secara eksponensial terkait dengan dimensi,
algoritma serakah dapat digunakan untuk secara berurutan menjatuhkan fitur yang
menghasilkan peningkatan terbesar dari kriteria validitas cluster. Kelemahan utama dari
pendekatan ini adalah sensitif terhadap pilihan kriteria validitas. Seperti yang akan Anda
pelajari dalam bab ini, kriteria validitas cluster masih jauh dari sempurna. Selain itu,
pendekatan ini dapat menjadi mahal secara komputasi.
Metodologi lain yang lebih sederhana adalah memilih fitur individual dengan kriteria
pemilihan fitur yang dipinjam dari yang digunakan dalam algoritma klasifikasi. Dalam hal
ini, fitur dievaluasi secara individual, bukan secara kolektif, sebagai subset. Pendekatan
pengelompokan secara artifisial menciptakan satu set label L, sesuai dengan
pengidentifikasi cluster dari titik data individual. Kriteria pemilihan fitur dapat dipinjam
dari literatur klasifikasi dengan penggunaan label di L. Kriteria ini digunakan untuk
mengidentifikasi fitur yang paling diskriminatif:
Gunakan algoritma pengelompokan pada subset saat ini dari fitur yang dipilih F,
untuk memperbaiki label cluster L untuk titik data.
Gunakan kriteria yang diawasi untuk mengukur kualitas fitur individu sehubungan
dengan label L. Pilih fitur top-k berdasarkan kuantifikasi ini.
Gambar 6.2 Algoritma generic representative dengan fungsi jarak yang tidak
ditentukan
Skor Fisher, digunakan untuk mengukur rasio varians antar cluster dengan varians
intracluster pada atribut tertentu. Selain itu, dimungkinkan untuk menerapkan prosedur dua
langkah ini secara iteratif. Namun, beberapa modifikasi pada langkah pertama diperlukan.
Alih-alih memilih fitur top-k, bobot fitur top-k diatur ke 1, dan sisanya diatur ke < 1.
Di sini, adalah parameter yang ditentukan pengguna. Pada langkah terakhir, fitur top-k
dipilih. Model wrapper sering dikombinasikan dengan model filter untuk membuat model
hybrid untuk efisiensi yang lebih baik. Dalam hal ini, subset fitur kandidat dibangun dengan
menggunakan model filter. Kemudian, kualitas masing-masing kandidat subset fitur
dievaluasi dengan algoritma clustering. Evaluasi dapat dilakukan baik dengan kriteria
validitas cluster atau dengan menggunakan algoritma klasifikasi pada label cluster yang
dihasilkan. Subset fitur kandidat terbaik dipilih. Model hibrida memberikan akurasi yang
lebih baik daripada model filter dan lebih efisien daripada model pembungkus (wrapper).
Algoritma berbasis perwakilan adalah yang paling sederhana dari semua algoritma
pengelompokan karena mereka bergantung langsung pada gagasan intuitif tentang jarak
(atau kesamaan) ke titik data pengelompokan. Dalam algoritma berbasis perwakilan, cluster
dibuat dalam satu kesempatan, dan hubungan hierarkis tidak ada di antara cluster yang
𝑂 = ∑𝑛𝑖=1[𝑚𝑖𝑛𝑗 𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑖 )] (6.4)
Dengan kata lain, jumlah jarak dari titik data yang berbeda ke perwakilan terdekatnya perlu
diminimalkan. Perhatikan bahwa penugasan poin data kepada perwakilan tergantung pada
pilihan perwakilan 𝑌̅1 , … , ̅̅̅̅
𝑌𝑘 . Dalam beberapa variasi algoritma perwakilan, seperti
algoritma k-medoid, diasumsikan bahwa perwakilan 𝑌̅1 , … , ̅̅̅̅
𝑌𝑘 diambil dari database asli 𝒟,
meskipun ini jelas tidak akan memberikan solusi yang optimal. Secara umum, diskusi di
bagian ini tidak akan secara otomatis mengasumsikan bahwa perwakilan diambil dari
database asli 𝒟, kecuali ditentukan lain.
Satu pengamatan tentang perumusan Persamaan. 6.4 adalah bahwa perwakilan 𝑌̅1 , … , ̅̅̅̅
𝑌𝑘
dan penugasan titik data yang optimal kepada perwakilan tidak diketahui secara apriori,
tetapi mereka saling bergantung satu sama lain secara melingkar. Misalnya, jika perwakilan
optimal diketahui, maka penugasan optimal mudah ditentukan, dan sebaliknya. Masalah
optimasi seperti itu diselesaikan dengan menggunakan pendekatan iteratif di mana
perwakilan kandidat dan penugasan kandidat digunakan untuk saling meningkatkan. Oleh
karena itu, pendekatan k-representatif generik dimulai dengan menginisialisasi k perwakilan
S dengan menggunakan heuristik langsung (seperti pengambilan sampel acak dari data asli),
dan kemudian menyempurnakan perwakilan dan tugas pengelompokan, secara iteratif,
sebagai berikut:
Akan terbukti nanti dalam bab ini bahwa prosedur dua langkah ini sangat erat kaitannya
dengan model generatif analisis klaster dalam bentuk algoritma maksimalisasi harapan.
Langkah kedua optimasi lokal disederhanakan dengan pendekatan iteratif dua langkah ini,
karena tidak lagi bergantung pada penetapan titik data yang tidak diketahui ke cluster seperti
dalam masalah optimasi global Persamaan. 6.4. Biasanya, perwakilan yang dioptimalkan
dapat ditunjukkan menjadi beberapa ukuran pusat dari titik data di cluster ke-j 𝐶𝑗 , dan
ukuran yang tepat tergantung pada pilihan fungsi jarak 𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑖 ). Khususnya, untuk
kasus jarak Euclidean dan fungsi kesamaan kosinus, dapat ditunjukkan bahwa perwakilan
terpusat yang optimal dari setiap cluster adalah meannya. Namun, fungsi jarak yang berbeda
dapat menyebabkan jenis perwakilan terpusat yang sedikit berbeda, dan ini menyebabkan
variasi yang berbeda dari pendekatan yang lebih luas ini, seperti algoritma k-means dan
kmedians. Dengan demikian, pendekatan k-representative mendefinisikan keluarga
algoritma, di mana perubahan kecil pada kerangka dasar memungkinkan penggunaan
kriteria jarak yang berbeda. Kriteria yang berbeda ini akan dibahas di bawah ini. Kerangka
kerja umum untuk algoritma berbasis perwakilan dengan fungsi jarak yang tidak ditentukan
diilustrasikan dalam pseudocode Gambar 6.2. Idenya adalah untuk meningkatkan fungsi
tujuan melalui beberapa iterasi. Biasanya, peningkatannya signifikan pada iterasi awal,
tetapi melambat pada iterasi selanjutnya. Ketika peningkatan fungsi tujuan dalam iterasi
kurang dari ambang batas yang ditentukan pengguna, algoritme dapat diizinkan untuk
dihentikan. Hambatan komputasi utama dari pendekatan ini adalah langkah penugasan di
mana jarak perlu dihitung antara semua pasangan titik representatif. Kompleksitas waktu
dari setiap iterasi adalah 𝑂(𝑘. 𝑛. 𝑑) untuk kumpulan data dengan ukuran n dan dimensi d.
Algoritma biasanya berakhir dalam sejumlah kecil iterasi yang konstan. Cara kerja
algoritma k-representatives diilustrasikan dengan contoh pada Gambar 6.3, dimana data
berisi tiga cluster alami, dilambangkan dengan A, B, dan C. Sebagai ilustrasi, diasumsikan
bahwa input k ke algoritma adalah sama dengan jumlah cluster alami dalam data, yang
Ini mengarah pada inisialisasi yang sangat buruk, di mana dua perwakilan dekat dengan
cluster B, dan salah satunya terletak di suatu tempat di tengah-tengah antara cluster A dan
C. Akibatnya, cluster B awalnya terpecah oleh "lingkup pengaruh" dari dua perwakilan,
sedangkan sebagian besar titik dalam cluster A dan C ditugaskan ke satu perwakilan pada
langkah penugasan pertama. Situasi ini diilustrasikan pada Gambar 6.3a. Namun, karena
Dalam algoritma k-means, jumlah kuadrat jarak Euclidean dari titik data ke
perwakilan terdekatnya digunakan untuk mengukur fungsi tujuan pengelompokan.
𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌 ̅𝑗 ‖2
̅𝑗 ) = ‖𝑋̅𝑖 − 𝑌 (6.5)
2
dari pendekatan titik data dengan perwakilan terdekatnya. Dengan demikian, tujuan
keseluruhan meminimalkan jumlah kesalahan kuadrat pada titik data yang berbeda. Ini juga
kadang-kadang disebut sebagai SSE. Dalam kasus seperti itu, dapat ditunjukkan bahwa
̅𝑗 untuk setiap langkah iteratif “optimasi” adalah rata-rata dari titik
perwakilan optimal 𝑌
data dalam cluster 𝐶𝑗 . Jadi, satu-satunya perbedaan antara pseudocode generik dari Gambar
6.2 dan k berarti pseudocode adalah instantiasi spesifik dari fungsi jarak 𝐷𝑖𝑠𝑡(. , . ), dan
𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑗 ) = (𝑋̅𝑖 − 𝑌 ̅𝑗 )𝑇
̅𝑗 )Σ𝑗−1 (𝑋̅𝑖 − 𝑌 (6.6)
Algoritma k-means dapat diperluas untuk menemukan klaster dengan bentuk arbitrer
dengan menggunakan metode yang dikenal sebagai trik kernel. Ide dasarnya adalah untuk
secara implisit mengubah data sehingga klaster berbentuk arbitrer dipetakan ke klaster
Euclidean di ruang baru. Masalah utama dengan algoritma kernel k-means adalah bahwa
kompleksitas komputasi matriks kernel saja secara kuadrat terkait dengan jumlah titik data.
Pendekatan seperti itu dapat secara efektif menemukan klaster berbentuk arbitrer pada
Gambar 6.4a.
Gambar 6.6 Algoritma k-medoids generik dengan strategi mendaki bukit yang tidak
ditentukan
Dalam algoritma k-median, jarak Manhattan digunakan sebagai fungsi tujuan pilihan.
Oleh karena itu, fungsi jarak 𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑗 ) didefinisikan sebagai berikut:
𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑗 ) = ‖𝑋̅𝑖 − 𝑌
̅𝑗 ‖ (6.7)
1
Solusi kedua membutuhkan waktu yang sebanding dengan r kali ukuran basis data tetapi
biasanya dapat diterapkan secara praktis untuk basis data berukuran sedang. Solusi
Sejumlah masalah praktis muncul dalam implementasi yang tepat dari semua
algoritma berbasis perwakilan, seperti algoritma k-means, k-median, dan k-medoids. Isu-isu
tersebut berkaitan dengan kriteria inisialisasi, pilihan jumlah cluster k, dan keberadaan
outlier.
Kriteria inisialisasi paling sederhana adalah memilih titik secara acak dari domain
ruang data, atau mengambil sampel basis data asli 𝒟. Pengambilan sampel basis data asli 𝒟
umumnya lebih unggul daripada pengambilan sampel ruang data, karena mengarah pada
perwakilan statistik yang lebih baik dari basis data yang mendasarinya. data. Algoritma k-
representatives tampaknya secara mengejutkan kuat untuk pilihan inisialisasi, meskipun
mungkin bagi algoritme untuk membuat cluster suboptimal. Salah satu solusi yang mungkin
adalah mengambil sampel lebih banyak titik data dari 𝒟 daripada jumlah k yang diperlukan,
dan menggunakan pendekatan pengelompokan aglomeratif hierarkis yang lebih mahal
untuk membuat k centroid yang kuat. Karena centroid ini lebih mewakili database 𝒟, ini
memberikan titik awal yang lebih baik untuk algoritma.
Pendekatan yang sangat sederhana, yang tampaknya bekerja dengan sangat baik,
adalah memilih perwakilan awal sebagai centroid dari m sampel titik yang dipilih secara
acak untuk beberapa parameter yang dipilih pengguna m. Ini akan memastikan bahwa
centroid awal tidak terlalu bias oleh outlier tertentu. Selanjutnya, sementara semua
perwakilan centroid ini kira-kira sama dengan rata-rata data, mereka biasanya akan sedikit
bias terhadap satu cluster atau lainnya karena variasi acak di sampel yang berbeda. Iterasi
berikutnya dari k-means pada akhirnya akan mengasosiasikan masing-masing perwakilan
ini dengan sebuah cluster.
Kehadiran outlier biasanya akan berdampak buruk pada algoritma tersebut. Ini dapat
terjadi dalam kasus di mana prosedur inisialisasi memilih outlier sebagai salah satu pusat
awal. Meskipun algoritma k-medoids biasanya akan membuang perwakilan outlier selama
pertukaran iteratif, pendekatan k-center dapat terjebak dengan cluster tunggal atau cluster
kosong dalam iterasi berikutnya. Dalam kasus seperti itu, salah satu solusinya adalah
Jumlah cluster k adalah parameter yang digunakan oleh pendekatan ini. Validitas
cluster memberikan metode perkiraan untuk memilih jumlah cluster k. Seperti yang dibahas
sebelumnya, pendekatan ini jauh dari sempurna. Jumlah cluster alami seringkali sulit
ditentukan dengan menggunakan metode otomatis. Karena jumlah klaster alami tidak
diketahui secara apriori, kadang-kadang mungkin diinginkan untuk menggunakan nilai k
yang lebih besar daripada "tebakan" analis tentang jumlah klaster alami yang sebenarnya
dalam data. Ini akan mengakibatkan pemisahan beberapa klaster data menjadi beberapa
perwakilan, tetapi kecil kemungkinan klaster digabungkan secara tidak benar. Sebagai
langkah post-processing, dimungkinkan untuk menggabungkan beberapa cluster
berdasarkan jarak antar cluster. Beberapa algoritma hybrid agglomerative dan partisi
termasuk langkah penggabungan dalam prosedur k-representative.
C. LATIHAN
1. Perhatikan kumpulan data 1 dimensi dengan 10 titik data {1, 2, 3, . . . 10}. Tunjukkan tiga
iterasi dari algoritma k-means ketika k = 2, dan random seeds diinisialisasi ke {1, 2}.
2. Ulangi Latihan 1 dengan set benih awal {2, 9}. Bagaimana perbedaan pilihan set benih
mempengaruhi kualitas hasil?
3. Buatlah program komputer untuk mengimplementasikan algoritma k-representative.
Gunakan struktur program modular, di mana fungsi jarak dan penentuan pusat massa adalah
subrutin yang terpisah. Instansiasikan subrutin ini ke kasus (i) algoritma k-means, dan (ii)
algoritma k-median.
4. Terapkan algoritma k-means Mahalanobis.
D. Kunci Jawaban
1. Tan, Steinbach, Karpatne, Kumar, Introduction to Data Mining, 2nd Edition, 2019
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item3
2. Charu C. Aggarwal , Data Mining: Textbook, IBM T.J. Watson Research Center
Yorktown Heights, New York
USA, 2015