0% menganggap dokumen ini bermanfaat (0 suara)
38 tayangan21 halaman

Modul 6 - Data Mining

Modul ini membahas analisis cluster sebagai metode untuk memecah data menjadi kelompok yang homogen. Topik utama meliputi pemilihan fitur untuk clustering, konsep representative-based algorithms, dan beberapa model filter dan wrapper untuk seleksi fitur seperti term strength dan predictive attribute dependence.

Diunggah oleh

Mumtaz2 Alhaitami
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
38 tayangan21 halaman

Modul 6 - Data Mining

Modul ini membahas analisis cluster sebagai metode untuk memecah data menjadi kelompok yang homogen. Topik utama meliputi pemilihan fitur untuk clustering, konsep representative-based algorithms, dan beberapa model filter dan wrapper untuk seleksi fitur seperti term strength dan predictive attribute dependence.

Diunggah oleh

Mumtaz2 Alhaitami
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
Anda di halaman 1/ 21

MODUL DATA MINING

(CTI311)

MODUL 6
ANALISIS CLUSTER
(CLUSTER ANALYSIS)

DISUSUN OLEH
AGUNG MULYO WIDODO, ST, M.Sc.

UNIVERSITAS ESA UNGGUL


2021

https://esaunggul.ac.id Page 1 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


TOPIK PERKULIAHAN SESUAI RPS

A. Kemampuan Akhir Yang Diharapkan


Setelah mempelajari modul ini, diharapkan mahasiswa mampu :

1. Mahasiswa mampu memahami pemilihan fitur untuk clustering


2. Mahasiswa mampu memahami menguasai konsep Representative-Based Algorithms

B. Uraian dan Contoh

6.1 Introduksi

Banyak aplikasi memerlukan partisi titik data (data pint) ke dalam grup yang serupa
secara intuitif. Mempartisi sejumlah besar titik data menjadi sejumlah kecil kelompok
sangat membantu dalam meringkas data dan memahaminya untuk berbagai aplikasi
penambangan data. Definisi informal dan intuitif dari clustering adalah sebagai berikut:

“Diberikan satu set titik data, partisi mereka ke dalam kelompok yang berisi titik data
yang sangat mirip”.

Ini merupakan definisi yang sangat kasar dan intuitif karena tidak menyatakan banyak
tentang cara yang berbeda di mana masalah dapat dirumuskan, seperti jumlah kelompok,
atau kriteria objektif untuk kesamaan. Namun demikian, deskripsi sederhana ini berfungsi
sebagai dasar untuk sejumlah model yang secara khusus dirancang untuk aplikasi yang
berbeda. Beberapa contoh aplikasi tersebut adalah sebagai berikut:

 Peringkasan data (Data summarization): Pada tingkat yang paling luas, masalah
pengelompokan dapat dianggap sebagai bentuk peringkasan data. Karena
penambangan data adalah tentang mengekstraksi informasi ringkasan (atau
wawasan ringkas) dari data, proses pengelompokan sering kali merupakan langkah
pertama dalam banyak algoritma penambangan data. Faktanya, banyak aplikasi
menggunakan properti summarization dari analisis cluster dalam satu bentuk atau
lainnya.
 Segmentasi pelanggan (Customer segmentation): Sering kali diinginkan untuk
menganalisis perilaku umum kelompok pelanggan serupa. Hal ini dicapai dengan
segmentasi pelanggan. Contoh penerapan segmentasi pelanggan adalah penyaringan
kolaboratif, di mana preferensi yang dinyatakan atau diturunkan dari kelompok
pelanggan serupa digunakan untuk membuat rekomendasi produk dalam grup.

https://esaunggul.ac.id Page 2 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


 Analisis jaringan sosial (Social media analysis): Dalam kasus data jaringan, simpul-
simpul yang dikelompokkan bersama oleh hubungan keterkaitan sering kali
merupakan kelompok teman, atau komunitas yang serupa. Masalah deteksi
komunitas adalah salah satu yang paling banyak dipelajari dalam analisis jejaring
sosial, karena pemahaman yang lebih luas tentang perilaku manusia diperoleh dari
analisis dinamika kelompok masyarakat.
 Hubungan dengan masalah data mining lainnya (Relationship to other data mining
problems) : Karena representasi ringkasan yang diberikannya, masalah clustering
berguna untuk mengaktifkan masalah data mining lainnya. Sebagai contoh,
clustering sering digunakan sebagai langkah preprocessing dalam banyak klasifikasi
dan model deteksi outlier.

Berbagai macam model telah dikembangkan untuk analisis cluster. Model yang berbeda
ini dapat bekerja lebih baik dalam skenario dan tipe data yang berbeda. Masalah, yang
dihadapi oleh banyak algoritma pengelompokan, adalah bahwa banyak fitur mungkin
berisik atau tidak informatif untuk analisis klaster. Fitur tersebut perlu dihapus dari analisis
di awal proses clustering. Masalah ini disebut sebagai seleksi fitur. Bab ini juga akan
mempelajari algoritma pemilihan fitur untuk pengelompokan.

Dalam modul ini dan selanjutnya, studi tentang pengelompokan akan dibatasi pada tipe
data multidimensi yang lebih sederhana, seperti data numerik atau diskrit. Tipe data yang
lebih kompleks, seperti data temporal atau jaringan, akan dipelajari di bab selanjutnya.
Model kunci berbeda terutama dalam hal bagaimana kesamaan didefinisikan dalam
kelompok data. Dalam beberapa kasus, kesamaan didefinisikan secara eksplisit dengan
ukuran jarak yang sesuai, sedangkan dalam kasus lain, itu didefinisikan secara implisit
dengan model campuran probabilistik atau model berbasis kepadatan. Selain itu, skenario
tertentu untuk analisis klaster, seperti kumpulan data berdimensi tinggi atau sangat besar,
menimbulkan tantangan khusus.

6.2 Pemilihan Fitur untuk Pengelompokan

Tujuan utama dari pemilihan fitur adalah untuk menghilangkan atribut-atribut noise
yang tidak mengelompok dengan baik. Pemilihan fitur umumnya lebih sulit untuk masalah
yang tidak diawasi, seperti pengelompokan, di mana kriteria validasi eksternal, seperti label,
tidak tersedia untuk pemilihan fitur.

https://esaunggul.ac.id Page 3 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


Secara intuitif, masalah pemilihan fitur terkait erat dengan penentuan kecenderungan
pengelompokan yang melekat dari sekumpulan fitur. Metode pemilihan fitur menentukan
subset fitur yang memaksimalkan kecenderungan pengelompokan yang mendasarinya. Ada
dua kelas utama model untuk melakukan seleksi fitur:

 Model filter (Filter Model): Dalam hal ini, skor dikaitkan dengan setiap fitur dengan
menggunakan kriteria berbasis kesamaan. Kriteria ini pada dasarnya adalah filter
yang menyediakan kondisi yang jelas untuk penghapusan fitur. Poin data yang tidak
memenuhi skor yang dipersyaratkan dikeluarkan dari pertimbangan. Dalam
beberapa kasus, model ini dapat mengukur kualitas subset fitur sebagai kombinasi,
bukan fitur tunggal. Model seperti itu lebih kuat karena secara implisit
memperhitungkan dampak tambahan dari penambahan fitur ke fitur lain.
 Model pembungkus (Wrapper Model): Dalam hal ini, algoritma pengelompokan
digunakan untuk mengevaluasi kualitas subset fitur. Ini kemudian digunakan untuk
memperbaiki subset fitur di mana pengelompokan dilakukan. Ini adalah pendekatan
iteratif alami di mana pilihan fitur yang baik bergantung pada cluster dan sebaliknya.
Fitur yang dipilih biasanya akan sedikitnya tergantung pada metodologi tertentu
yang digunakan untuk pengelompokan. Meskipun ini mungkin tampak seperti
kerugian, kenyataannya adalah bahwa metode pengelompokan yang berbeda dapat
bekerja lebih baik dengan set fitur yang berbeda. Oleh karena itu, metodologi ini
juga dapat mengoptimalkan pemilihan fitur dengan teknik clustering tertentu. Di sisi
lain, keinformatifan yang melekat pada fitur tertentu terkadang tidak tercermin oleh
pendekatan ini karena dampak dari metodologi pengelompokan tertentu.

Perbedaan utama antara model filter dan pembungkus adalah bahwa yang pertama dapat
dilakukan murni sebagai fase pra-pemrosesan, sedangkan yang terakhir diintegrasikan
langsung ke dalam proses pengelompokan. Pada bagian berikut, sejumlah model filter dan
pembungkus akan dibahas.

6.3 Filter Model

Dalam model filter, kriteria khusus digunakan untuk mengevaluasi dampak fitur
tertentu, atau subset fitur, pada kecenderungan pengelompokan kumpulan data. Berikut ini
akan memperkenalkan banyak kriteria yang umum digunakan..

6.3.1 Istilah Kekuatan (Term Strength)

https://esaunggul.ac.id Page 4 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


Istilah Kekuatan cocok untuk domain yang jarang seperti data teks. Dalam domain
seperti itu, lebih bermakna untuk berbicara tentang ada atau tidak adanya nilai bukan nol
pada atribut (kata), daripada jarak. Lebih jauh, lebih baik menggunakan fungsi kesamaan
daripada fungsi jarak. Dalam pendekatan ini, pasangan dokumen dijadikan sampel, tetapi
urutan acak dikenakan di antara pasangan tersebut. Istilah kekuatan didefinisikan sebagai
fraksi dari pasangan dokumen yang serupa (dengan kesamaan lebih besar dari 𝛽 ), di mana
istilah muncul di kedua dokumen, tergantung pada fakta bahwa itu muncul di dokumen
pertama. Dengan kata lain, untuk setiap suku t, dan pasangan dokumen (𝑋̅, 𝑌̅) yang
dianggap cukup mirip, istilah kekuatan didefinisikan sebagai berikut:

𝑇𝑒𝑟𝑚 𝑆𝑡𝑟𝑒𝑛𝑔𝑡ℎ = 𝑃((𝑡 ∈ 𝑋̅|𝑡 ∈ 𝑌̅)) (6.1)

Jika diinginkan, istilah kekuatan juga dapat digeneralisasikan ke data multidimensi dengan
mendiskritkan atribut kuantitatif menjadi nilai biner. Langkah-langkah analog lainnya
menggunakan korelasi antara jarak keseluruhan dan jarak atribut-bijaksana untuk relevansi
model.

6.3.2 Atribut Tergantung Prediktif (Predictive Attribute Dependence)

Motivasi intuitif dari ukuran ini adalah bahwa fitur yang berkorelasi akan selalu
menghasilkan cluster yang lebih baik daripada fitur yang tidak berkorelasi. Ketika sebuah
atribut relevan, atribut lain dapat digunakan untuk memprediksi nilai atribut ini. Algoritma
klasifikasi (atau pemodelan regresi) dapat digunakan untuk mengevaluasi prediktif ini. Jika
atributnya numerik, maka algoritma pemodelan regresi digunakan. Jika tidak, algoritma
klasifikasi digunakan. Pendekatan keseluruhan untuk mengukur relevansi atribut i adalah
sebagai berikut:

 Menggunakan algoritma klasifikasi pada semua atribut, kecuali atribut i, untuk


memprediksi nilai atribut i, sambil memperlakukannya sebagai variabel kelas
buatan.
 Melaporkan akurasi klasifikasi sebagai relevansi atribut i.

Setiap algoritma klasifikasi yang masuk akal dapat digunakan, meskipun pengklasifikasi
tetangga terdekat diinginkan karena koneksi alaminya dengan komputasi kesamaan dan
pengelompokan.

https://esaunggul.ac.id Page 5 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


Gambar 6.1 Pengaruh data berkelompok pada entropi distribusi jarak

6.3.4 Atribut Tergantung Prediktif (Predictive Attribute Dependence)

Ide dasar di balik metode ini adalah bahwa data yang sangat berkerumun
mencerminkan beberapa karakteristik pengelompokannya pada distribusi jarak yang
mendasarinya. Untuk mengilustrasikan hal ini, dua distribusi data yang berbeda masing-
masing diilustrasikan pada Gambar 6.1a dan b. Plot pertama menggambarkan data yang
terdistribusi secara seragam, sedangkan yang kedua menggambarkan data dengan dua
cluster. Dalam Gambar 6.1c dan d, distribusi jarak titik-ke-titik berpasangan diilustrasikan
untuk dua kasus. Terlihat jelas bahwa distribusi jarak untuk data yang seragam disusun
dalam bentuk kurva lonceng, sedangkan untuk data klaster memiliki dua puncak yang
berbeda sesuai dengan sebaran antar klaster dan sebaran intra klaster.

Jumlah puncak tersebut biasanya akan meningkat dengan jumlah cluster. Tujuan
pengukuran berbasis entropi adalah untuk mengukur "bentuk" dari distribusi jarak ini pada
subset fitur tertentu, dan kemudian memilih subset di mana distribusi menunjukkan perilaku

https://esaunggul.ac.id Page 6 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


yang lebih mirip dengan kasus Gambar 6.1b. Oleh karena itu, algoritma tersebut biasanya
membutuhkan cara sistematis untuk mencari kombinasi fitur yang sesuai, selain mengukur
entropi berbasis jarak. Jadi bagaimana entropi berbasis jarak dapat dikuantifikasi pada
subset atribut tertentu?

Cara alami untuk mengukur entropi adalah dengan langsung menggunakan distribusi
probabilitas pada titik data dan mengukur entropi menggunakan nilai-nilai ini.
Pertimbangkan subset fitur k-dimensi. Langkah pertama adalah mendiskritisasi data
menjadi satu set wilayah grid multidimensi menggunakan wilayah grid untuk setiap dimensi.
Ini menghasilkan 𝑚 = ∅𝑘 rentang kisi yang diindeks dari 1 hingga m. Nilai m kira-kira
sama di semua subset fitur yang dievaluasi dengan memilih ∅ = ⌈𝑚1⁄𝑘 ⌉ . Jika pi adalah
pecahan titik data di wilayah grid i, maka entropi E berbasis probabilitas didefinisikan
sebagai berikut:

𝐸 = − ∑𝑚
𝑖=1[𝑝𝑖 𝑙𝑜𝑔(𝑝𝑖 ) + (1 − 𝑝𝑖 )𝑙𝑜𝑔(1 − 𝑝𝑖 )] (6.2)

Distribusi yang seragam dengan perilaku pengelompokan yang buruk memiliki entropi
yang tinggi, sedangkan data yang berkerumun memiliki entropi yang lebih rendah. Oleh
karena itu, ukuran entropi memberikan umpan balik tentang kualitas pengelompokan dari
subset fitur.

Meskipun kuantifikasi yang disebutkan di atas dapat digunakan secara langsung,


kerapatan probabilitas pi dari wilayah grid i terkadang sulit untuk diperkirakan secara akurat
dari data berdimensi tinggi. Ini karena wilayah grid bersifat multidimensi, dan semakin
jarang dalam dimensi tinggi. Juga sulit untuk menetapkan jumlah daerah kisi m di atas
himpunan bagian fitur dari berbagai dimensi k karena nilai = m1/k⌉ dibulatkan ke atas
menjadi nilai bilangan bulat. Oleh karena itu, alternatifnya adalah menghitung entropi pada
distribusi jarak titik ke titik 1 dimensi pada sampel data. Ini sama dengan distribusi yang
ditunjukkan pada Gambar. 6.1. Nilai pi kemudian mewakili fraksi jarak dalam rentang
diskritisasi 1-dimensi ke-i. Meskipun pendekatan ini tidak sepenuhnya menjawab tantangan
dimensi tinggi, biasanya merupakan pilihan yang lebih baik untuk data dimensi sederhana.
Misalnya, jika entropi dihitung pada histogram pada Gambar. 6.1c dan d, maka ini akan
membedakan kedua distribusi dengan baik. Pendekatan heuristik berdasarkan jarak mentah
juga sering digunakan.

https://esaunggul.ac.id Page 7 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


Untuk menentukan subset fitur, di mana entropi E diminimalkan, berbagai strategi
pencarian digunakan. Misalnya, mulai dari set lengkap fitur, pendekatan serakah sederhana
dapat digunakan untuk menjatuhkan fitur yang mengarah pada pengurangan entropi
terbesar. Fitur berulang kali dijatuhkan dengan rakus sampai pengurangan inkremental tidak
signifikan, atau entropi meningkat.

6.5.1 Statistik Hopkins

Statistik Hopkins sering digunakan untuk mengukur kecenderungan pengelompokan


dari kumpulan data, meskipun itu juga dapat diterapkan pada subset atribut tertentu. Ukuran
yang dihasilkan kemudian dapat digunakan bersama dengan algoritma pencarian fitur,
seperti metode serakah yang dibahas pada subbagian sebelumnya.

Biarkan 𝒟 menjadi kumpulan data yang kecenderungan pengelompokannya perlu


dievaluasi. Sebuah sampel S dari r titik data sintetik dibangkitkan secara acak dalam domain
ruang data. Pada saat yang sama, sampel R dari r titik data dipilih dari 𝒟 . Misalkan
𝛼1 , … , 𝛼𝑟 adalah jarak titik data dalam sampel 𝑅 ⊆ 𝒟 ke tetangga terdekatnya dalam
database asli 𝒟. Demikian pula, misalkan 𝛽1 , … , 𝛽𝑟 menjadi jarak titik data dalam sampel
sintetis S ke tetangga terdekat mereka dalam 𝒟 . Kemudian, statistik Hopkins H
didefinisikan sebagai berikut:

∑𝑟𝑖=1 𝛽𝑖
𝐻 = ∑𝑟 (6.3)
𝑖=1(𝛼𝑖 +𝛽𝑖 )

Statistik Hopkins akan berada dalam kisaran (0, 1). Data yang terdistribusi secara seragam
akan memiliki statistik Hopkins sebesar 0,5 karena nilai 𝛼𝑖 dan 𝛽𝑖 akan serupa. Di sisi lain,
nilai 𝛼𝑖 biasanya akan jauh lebih rendah daripada 𝛽𝑖 untuk data cluster. Hal ini akan
menghasilkan nilai statistik Hopkins yang mendekati 1. Oleh karena itu, nilai statistik
Hopkins H yang tinggi menunjukkan titik data yang sangat berkerumun. Satu pengamatan
adalah bahwa pendekatan ini menggunakan pengambilan sampel acak, dan oleh karena itu
ukurannya akan bervariasi di berbagai sampel acak yang berbeda. Jika diinginkan,
pengambilan sampel acak dapat diulang melalui beberapa percobaan. Uji kepercayaan ekor
statistik dapat digunakan untuk menentukan tingkat kepercayaan di mana statistik Hopkins
lebih besar dari 0,5. Untuk pemilihan fitur, nilai rata-rata statistik pada beberapa percobaan
dapat digunakan. Statistik ini dapat digunakan untuk mengevaluasi kualitas subset tertentu
dari atribut untuk mengevaluasi kecenderungan pengelompokan subset tersebut. Kriteria ini

https://esaunggul.ac.id Page 8 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


dapat digunakan bersama dengan pendekatan serakah untuk menemukan subset fitur yang
relevan. Pendekatan serakah (greedy) mirip dengan yang dibahas dalam kasus metode
entropi berbasis jarak.

6.4 Model Wrapper

Model wrapper menggunakan kriteria validitas cluster internal dalam hubungannya


dengan algoritma clustering yang diterapkan pada subset fitur yang sesuai. Kriteria validitas
cluster digunakan untuk mengevaluasi kualitas clustering dan dibahas secara rinci dalam
Modul selanjutnya. Idenya adalah menggunakan algoritma pengelompokan dengan subset
fitur, dan kemudian mengevaluasi kualitas pengelompokan ini dengan kriteria validitas
cluster. Oleh karena itu, ruang pencarian dari subset fitur yang berbeda perlu dieksplorasi
untuk menentukan kombinasi fitur yang optimal.

Karena ruang pencarian dari subset fitur secara eksponensial terkait dengan dimensi,
algoritma serakah dapat digunakan untuk secara berurutan menjatuhkan fitur yang
menghasilkan peningkatan terbesar dari kriteria validitas cluster. Kelemahan utama dari
pendekatan ini adalah sensitif terhadap pilihan kriteria validitas. Seperti yang akan Anda
pelajari dalam bab ini, kriteria validitas cluster masih jauh dari sempurna. Selain itu,
pendekatan ini dapat menjadi mahal secara komputasi.

Metodologi lain yang lebih sederhana adalah memilih fitur individual dengan kriteria
pemilihan fitur yang dipinjam dari yang digunakan dalam algoritma klasifikasi. Dalam hal
ini, fitur dievaluasi secara individual, bukan secara kolektif, sebagai subset. Pendekatan
pengelompokan secara artifisial menciptakan satu set label L, sesuai dengan
pengidentifikasi cluster dari titik data individual. Kriteria pemilihan fitur dapat dipinjam
dari literatur klasifikasi dengan penggunaan label di L. Kriteria ini digunakan untuk
mengidentifikasi fitur yang paling diskriminatif:

 Gunakan algoritma pengelompokan pada subset saat ini dari fitur yang dipilih F,
untuk memperbaiki label cluster L untuk titik data.
 Gunakan kriteria yang diawasi untuk mengukur kualitas fitur individu sehubungan
dengan label L. Pilih fitur top-k berdasarkan kuantifikasi ini.

https://esaunggul.ac.id Page 9 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


Ada fleksibilitas yang cukup besar dalam kerangka kerja yang disebutkan di atas, di mana
berbagai jenis algoritma pengelompokan dan kriteria pemilihan fitur digunakan di masing-
masing yang disebutkan di atas.

Gambar 6.2 Algoritma generic representative dengan fungsi jarak yang tidak
ditentukan

Skor Fisher, digunakan untuk mengukur rasio varians antar cluster dengan varians
intracluster pada atribut tertentu. Selain itu, dimungkinkan untuk menerapkan prosedur dua
langkah ini secara iteratif. Namun, beberapa modifikasi pada langkah pertama diperlukan.
Alih-alih memilih fitur top-k, bobot fitur top-k diatur ke 1, dan sisanya diatur ke < 1.

Di sini, adalah parameter yang ditentukan pengguna. Pada langkah terakhir, fitur top-k
dipilih. Model wrapper sering dikombinasikan dengan model filter untuk membuat model
hybrid untuk efisiensi yang lebih baik. Dalam hal ini, subset fitur kandidat dibangun dengan
menggunakan model filter. Kemudian, kualitas masing-masing kandidat subset fitur
dievaluasi dengan algoritma clustering. Evaluasi dapat dilakukan baik dengan kriteria
validitas cluster atau dengan menggunakan algoritma klasifikasi pada label cluster yang
dihasilkan. Subset fitur kandidat terbaik dipilih. Model hibrida memberikan akurasi yang
lebih baik daripada model filter dan lebih efisien daripada model pembungkus (wrapper).

6.5 Algoritma Berbasis Perwakilan (Representative)

Algoritma berbasis perwakilan adalah yang paling sederhana dari semua algoritma
pengelompokan karena mereka bergantung langsung pada gagasan intuitif tentang jarak
(atau kesamaan) ke titik data pengelompokan. Dalam algoritma berbasis perwakilan, cluster
dibuat dalam satu kesempatan, dan hubungan hierarkis tidak ada di antara cluster yang

https://esaunggul.ac.id Page 10 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


berbeda. Ini biasanya dilakukan dengan menggunakan satu set perwakilan partisi.
Perwakilan partisi dapat dibuat sebagai fungsi dari titik data dalam cluster (misalnya, mean)
atau dapat dipilih dari titik data yang ada di cluster. Wawasan utama dari metode ini adalah
bahwa penemuan klaster berkualitas tinggi dalam data setara dengan menemukan
sekumpulan perwakilan berkualitas tinggi. Setelah perwakilan ditentukan, fungsi jarak
dapat digunakan untuk menetapkan titik data ke perwakilan terdekat mereka.

Biasanya, diasumsikan bahwa jumlah cluster, dilambangkan dengan k, ditentukan oleh


pengguna. Pertimbangkan kumpulan data 𝒟 yang berisi n titik data yang dilambangkan
̅̅̅1 , … , ̅̅̅̅
dengan 𝑋 𝑋𝑛 dalam ruang d-dimensi. Tujuannya adalah untuk menentukan k
perwakilan 𝑌̅1 , … , ̅̅̅̅
𝑌𝑘 yang meminimalkan fungsi tujuan O berikut:

𝑂 = ∑𝑛𝑖=1[𝑚𝑖𝑛𝑗 𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑖 )] (6.4)

Dengan kata lain, jumlah jarak dari titik data yang berbeda ke perwakilan terdekatnya perlu
diminimalkan. Perhatikan bahwa penugasan poin data kepada perwakilan tergantung pada
pilihan perwakilan 𝑌̅1 , … , ̅̅̅̅
𝑌𝑘 . Dalam beberapa variasi algoritma perwakilan, seperti
algoritma k-medoid, diasumsikan bahwa perwakilan 𝑌̅1 , … , ̅̅̅̅
𝑌𝑘 diambil dari database asli 𝒟,
meskipun ini jelas tidak akan memberikan solusi yang optimal. Secara umum, diskusi di
bagian ini tidak akan secara otomatis mengasumsikan bahwa perwakilan diambil dari
database asli 𝒟, kecuali ditentukan lain.

Satu pengamatan tentang perumusan Persamaan. 6.4 adalah bahwa perwakilan 𝑌̅1 , … , ̅̅̅̅
𝑌𝑘
dan penugasan titik data yang optimal kepada perwakilan tidak diketahui secara apriori,
tetapi mereka saling bergantung satu sama lain secara melingkar. Misalnya, jika perwakilan
optimal diketahui, maka penugasan optimal mudah ditentukan, dan sebaliknya. Masalah
optimasi seperti itu diselesaikan dengan menggunakan pendekatan iteratif di mana
perwakilan kandidat dan penugasan kandidat digunakan untuk saling meningkatkan. Oleh
karena itu, pendekatan k-representatif generik dimulai dengan menginisialisasi k perwakilan
S dengan menggunakan heuristik langsung (seperti pengambilan sampel acak dari data asli),
dan kemudian menyempurnakan perwakilan dan tugas pengelompokan, secara iteratif,
sebagai berikut:

https://esaunggul.ac.id Page 11 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


 (Langkah Tugas) Tetapkan setiap titik data ke perwakilan terdekatnya di S
menggunakan fungsi jarak 𝐷𝑖𝑠𝑡(. , . ) dan nyatakan klaster yang sesuai dengan
𝐶1 , … , 𝐶𝑘 .
 ̅𝑗 untuk setiap cluster 𝐶𝑗 yang
(Langkah optimasi) Tentukan perwakilan optimal 𝑌
meminimalkan fungsi tujuan lokalnya ∑̅̅̅ ̅ ̅
𝑋̅𝑖 ∈𝐶𝑗 [𝐷𝑖𝑠𝑡(𝑋𝑖 , 𝑌𝑖 )].

Akan terbukti nanti dalam bab ini bahwa prosedur dua langkah ini sangat erat kaitannya
dengan model generatif analisis klaster dalam bentuk algoritma maksimalisasi harapan.
Langkah kedua optimasi lokal disederhanakan dengan pendekatan iteratif dua langkah ini,
karena tidak lagi bergantung pada penetapan titik data yang tidak diketahui ke cluster seperti
dalam masalah optimasi global Persamaan. 6.4. Biasanya, perwakilan yang dioptimalkan
dapat ditunjukkan menjadi beberapa ukuran pusat dari titik data di cluster ke-j 𝐶𝑗 , dan
ukuran yang tepat tergantung pada pilihan fungsi jarak 𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑖 ). Khususnya, untuk
kasus jarak Euclidean dan fungsi kesamaan kosinus, dapat ditunjukkan bahwa perwakilan
terpusat yang optimal dari setiap cluster adalah meannya. Namun, fungsi jarak yang berbeda
dapat menyebabkan jenis perwakilan terpusat yang sedikit berbeda, dan ini menyebabkan
variasi yang berbeda dari pendekatan yang lebih luas ini, seperti algoritma k-means dan
kmedians. Dengan demikian, pendekatan k-representative mendefinisikan keluarga
algoritma, di mana perubahan kecil pada kerangka dasar memungkinkan penggunaan
kriteria jarak yang berbeda. Kriteria yang berbeda ini akan dibahas di bawah ini. Kerangka
kerja umum untuk algoritma berbasis perwakilan dengan fungsi jarak yang tidak ditentukan
diilustrasikan dalam pseudocode Gambar 6.2. Idenya adalah untuk meningkatkan fungsi
tujuan melalui beberapa iterasi. Biasanya, peningkatannya signifikan pada iterasi awal,
tetapi melambat pada iterasi selanjutnya. Ketika peningkatan fungsi tujuan dalam iterasi
kurang dari ambang batas yang ditentukan pengguna, algoritme dapat diizinkan untuk
dihentikan. Hambatan komputasi utama dari pendekatan ini adalah langkah penugasan di
mana jarak perlu dihitung antara semua pasangan titik representatif. Kompleksitas waktu
dari setiap iterasi adalah 𝑂(𝑘. 𝑛. 𝑑) untuk kumpulan data dengan ukuran n dan dimensi d.
Algoritma biasanya berakhir dalam sejumlah kecil iterasi yang konstan. Cara kerja
algoritma k-representatives diilustrasikan dengan contoh pada Gambar 6.3, dimana data
berisi tiga cluster alami, dilambangkan dengan A, B, dan C. Sebagai ilustrasi, diasumsikan
bahwa input k ke algoritma adalah sama dengan jumlah cluster alami dalam data, yang

https://esaunggul.ac.id Page 12 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


dalam hal ini adalah 3. Fungsi jarak Euclidean digunakan, dan oleh karena itu langkah
"pemusatan kembali" menggunakan rata-rata cluster. Set perwakilan awal (atau benih)
dipilih secara acak dari ruang data.

Gambar 6.3 Ilustrasi algoritma k-representative dengan inisialisasi acak

Ini mengarah pada inisialisasi yang sangat buruk, di mana dua perwakilan dekat dengan
cluster B, dan salah satunya terletak di suatu tempat di tengah-tengah antara cluster A dan
C. Akibatnya, cluster B awalnya terpecah oleh "lingkup pengaruh" dari dua perwakilan,
sedangkan sebagian besar titik dalam cluster A dan C ditugaskan ke satu perwakilan pada
langkah penugasan pertama. Situasi ini diilustrasikan pada Gambar 6.3a. Namun, karena

https://esaunggul.ac.id Page 13 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


setiap perwakilan diberi jumlah titik data yang berbeda dari klaster yang berbeda,
perwakilan hanyut dalam iterasi berikutnya ke salah satu klaster unik. Misalnya, perwakilan
1 terus bergerak menuju cluster A, dan perwakilan 3 terus bergerak menuju cluster C. Pada
saat yang sama, perwakilan 2 menjadi perwakilan terpusat yang lebih baik dari cluster B.
Akibatnya, cluster B tidak lagi terpecah di antara perwakilan yang berbeda. pada akhir
iterasi 10 (Gbr. 6.3f). Pengamatan yang menarik adalah bahwa meskipun inisialisasi sangat
buruk, hanya diperlukan 10 iterasi untuk pendekatan k-representatives untuk membuat
pengelompokan data yang masuk akal. Dalam praktiknya, ini umumnya berlaku untuk
metode k-representative, yang konvergen relatif cepat menuju pengelompokan titik data
yang baik. Namun, dimungkinkan k-means untuk konvergen ke solusi suboptimal, terutama
ketika titik data outlier dipilih sebagai perwakilan awal untuk algoritma. Dalam kasus
seperti itu, salah satu cluster mungkin berisi titik tunggal yang tidak mewakili kumpulan
data, atau mungkin berisi dua cluster yang digabungkan. Penanganan kasus-kasus tersebut
dibahas pada bagian masalah implementasi. Pada bagian berikut, beberapa kasus khusus
dan variasi kerangka kerja ini akan dibahas. Sebagian besar variasi kerangka k-representatif
ditentukan oleh pilihan fungsi jarak 𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑖 ) antara titik data 𝑋̅𝑖 dan perwakilan 𝑌
̅𝑖 .
Masing-masing pilihan ini menghasilkan tipe perwakilan terpusat yang berbeda dari sebuah
cluster.

6.5.2 Algoritma K-Means

Dalam algoritma k-means, jumlah kuadrat jarak Euclidean dari titik data ke
perwakilan terdekatnya digunakan untuk mengukur fungsi tujuan pengelompokan.

Oleh karena itu, bisa diekspresikan sebagai berikut:

𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌 ̅𝑗 ‖2
̅𝑗 ) = ‖𝑋̅𝑖 − 𝑌 (6.5)
2

Ini, || · ||p mewakili norm-Lp. Ekspresi 𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌


̅𝑗 ) dapat dilihat sebagai kesalahan kuadrat

dari pendekatan titik data dengan perwakilan terdekatnya. Dengan demikian, tujuan
keseluruhan meminimalkan jumlah kesalahan kuadrat pada titik data yang berbeda. Ini juga
kadang-kadang disebut sebagai SSE. Dalam kasus seperti itu, dapat ditunjukkan bahwa
̅𝑗 untuk setiap langkah iteratif “optimasi” adalah rata-rata dari titik
perwakilan optimal 𝑌
data dalam cluster 𝐶𝑗 . Jadi, satu-satunya perbedaan antara pseudocode generik dari Gambar
6.2 dan k berarti pseudocode adalah instantiasi spesifik dari fungsi jarak 𝐷𝑖𝑠𝑡(. , . ), dan

https://esaunggul.ac.id Page 14 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


pilihan perwakilan sebagai mean lokal dari clusternya. Variasi yang menarik dari algoritma
k-means adalah dengan menggunakan jarak Mahalanobis lokal untuk penugasan titik data
ke cluster. Fungsi jarak ini dibahas dalam terdahulu. Setiap cluster 𝐶𝑗 memiliki matriks
kovarians dxd sendiri Σ𝑗 , yang dapat dihitung menggunakan titik data yang ditetapkan ke
cluster tersebut pada iterasi sebelumnya. Jarak Mahalanobis kuadrat antara titik data 𝑋̅𝑖 dan
̅𝑗 dengan matriks kovarians Σ𝑗 didefinisikan sebagai berikut:
perwakilan 𝑌

𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑗 ) = (𝑋̅𝑖 − 𝑌 ̅𝑗 )𝑇
̅𝑗 )Σ𝑗−1 (𝑋̅𝑖 − 𝑌 (6.6)

Gambar 6.4 Kekuatan dan kelemahan k-means

Penggunaan jarak Mahalanobis umumnya membantu ketika cluster memanjang secara


elips sepanjang arah tertentu, seperti dalam kasus Gambar 6.3. Faktor Σ𝑗−1 juga
menyediakan normalisasi kepadatan lokal, yang berguna dalam kumpulan data dengan
kepadatan lokal yang bervariasi. Algoritma yang dihasilkan disebut sebagai algoritma k-
means Mahalanobis. Algoritma k-means tidak bekerja dengan baik ketika klaster berbentuk
arbitrer. Sebuah contoh diilustrasikan pada Gambar 6.4a, di mana kluster A memiliki bentuk
tidak cembung. Algoritma k-means memecahnya menjadi dua bagian, dan juga
menggabungkan salah satu bagian ini dengan cluster B. Situasi seperti itu biasa terjadi di k-
means, karena bias untuk menemukan cluster bola. Bahkan algoritma k-means Mahalanobis
tidak bekerja dengan baik dalam skenario ini meskipun kemampuannya untuk
menyesuaikan perpanjangan cluster. Di sisi lain, algoritma Mahalanobis kmeans dapat
menyesuaikan dengan baik untuk berbagai kepadatan cluster, seperti yang diilustrasikan

https://esaunggul.ac.id Page 15 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


pada Gambar 6.4b. Hal ini dikarenakan metode Mahalanobis menormalkan jarak lokal
dengan menggunakan matriks kovarians spesifik cluster. Kumpulan data pada Gambar 6.4b
tidak dapat dikelompokkan secara efektif oleh banyak algoritma berbasis kepadatan, yang
dirancang untuk menemukan kelompok berbentuk arbitrer. Oleh karena itu, algoritma yang
berbeda cocok untuk pengaturan aplikasi yang berbeda.

6.5.3 Algoritma Kernel K-Means

Algoritma k-means dapat diperluas untuk menemukan klaster dengan bentuk arbitrer
dengan menggunakan metode yang dikenal sebagai trik kernel. Ide dasarnya adalah untuk
secara implisit mengubah data sehingga klaster berbentuk arbitrer dipetakan ke klaster
Euclidean di ruang baru. Masalah utama dengan algoritma kernel k-means adalah bahwa
kompleksitas komputasi matriks kernel saja secara kuadrat terkait dengan jumlah titik data.
Pendekatan seperti itu dapat secara efektif menemukan klaster berbentuk arbitrer pada
Gambar 6.4a.

Gambar 6.6 Algoritma k-medoids generik dengan strategi mendaki bukit yang tidak
ditentukan

6.5.4 Algoritma K-Medians

Dalam algoritma k-median, jarak Manhattan digunakan sebagai fungsi tujuan pilihan.
Oleh karena itu, fungsi jarak 𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑗 ) didefinisikan sebagai berikut:

𝐷𝑖𝑠𝑡(𝑋̅𝑖 , 𝑌
̅𝑗 ) = ‖𝑋̅𝑖 − 𝑌
̅𝑗 ‖ (6.7)
1

https://esaunggul.ac.id Page 16 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


̅𝑗 adalah median dari
Dalam kasus seperti itu, dapat ditunjukkan bahwa perwakilan optimal 𝑌
titik-titik data sepanjang setiap dimensi dalam cluster 𝐶𝑗 . Hal ini karena titik yang memiliki
jumlah minimum jarak 𝐿1 ke sekumpulan titik yang terdistribusi pada suatu garis adalah
median dari himpunan tersebut. Bukti dari hasil ini sederhana. Definisi median dapat
digunakan untuk menunjukkan bahwa gangguan di kedua arah dari median tidak dapat
secara tegas mengurangi jumlah jarak 𝐿1 . Ini menyiratkan bahwa median mengoptimalkan
jumlah jarak 𝐿1 ke titik data dalam himpunan.

Karena median dipilih secara independen di sepanjang setiap dimensi, perwakilan


dimensi d yang dihasilkan (biasanya) tidak akan termasuk dalam kumpulan data asli 𝒟.
Pendekatan k-median terkadang dibingungkan dengan pendekatan k-medoid, yang memilih
perwakilan ini dari database asli 𝒟 . Dalam hal ini, satu-satunya perbedaan antara
pseudocode generik dari Gambar 6.2, dan variasi k-median adalah untuk menginstansiasi
fungsi jarak ke jarak Manhattan dan menggunakan perwakilan sebagai median lokal cluster
(secara independen di sepanjang masing-masing dimensi). Pendekatan k-median umumnya
memilih perwakilan cluster dengan cara yang lebih kuat daripada k-means, karena median
tidak sensitif terhadap keberadaan outlier di cluster sebagai mean.

6.5.4 Algoritma K-Medoids

Meskipun algoritme k-medoids juga menggunakan gagasan perwakilan, struktur


algoritmenya berbeda dari algoritma k-perwakilan generik pada Gambar 6.2. Fungsi tujuan
pengelompokan, bagaimanapun, memiliki bentuk yang sama dengan algoritma perwakilan
k. Fitur pembeda utama dari algoritma k-medoid adalah bahwa perwakilan selalu dipilih
dari database 𝒟 , dan perbedaan ini memerlukan perubahan pada struktur dasar dari
algoritma k-representatives. Muncul pertanyaan mengapa terkadang diinginkan untuk
memilih perwakilan dari 𝒟. Ada dua alasan untuk ini. Salah satu alasannya adalah bahwa
perwakilan dari k-means cluster mungkin terdistorsi oleh outlier di cluster tersebut. Dalam
kasus seperti itu, adalah mungkin bagi perwakilan untuk ditempatkan di wilayah kosong
yang tidak mewakili sebagian besar titik data dalam cluster itu. Perwakilan tersebut dapat
mengakibatkan penggabungan sebagian cluster yang berbeda, yang jelas tidak diinginkan.
Masalah ini dapat, bagaimanapun, sebagian diselesaikan dengan penanganan outlier yang
hati-hati dan penggunaan variasi outlier-robust seperti algoritma k-median. Alasan kedua
adalah terkadang sulit untuk menghitung perwakilan pusat yang optimal dari sekumpulan

https://esaunggul.ac.id Page 17 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


titik data dari tipe data yang kompleks. Misalnya, jika algoritma pengelompokan k-
representatives diterapkan pada serangkaian deret waktu dengan panjang yang bervariasi,
lalu bagaimana perwakilan pusat harus didefinisikan sebagai fungsi deret waktu yang
heterogen ini? Dalam kasus seperti itu, memilih perwakilan dari kumpulan data asli
mungkin sangat membantu. Selama objek yang representatif dipilih dari setiap cluster,
pendekatan tersebut akan memberikan hasil yang berkualitas tinggi. Oleh karena itu,
properti kunci dari algoritma k-medoids adalah dapat didefinisikan secara virtual pada
semua tipe data, selama fungsi kesamaan atau jarak yang sesuai dapat didefinisikan pada
tipe data. Oleh karena itu, metode k-medoids secara langsung menghubungkan masalah
perancangan fungsi jarak dengan clustering. Pendekatan k-medoids menggunakan strategi
hill-climbing generik, di mana himpunan perwakilan S diinisialisasi ke himpunan titik dari
database asli 𝒟. Selanjutnya, himpunan S ini ditingkatkan secara iteratif dengan menukar
satu titik dari himpunan S dengan titik data yang dipilih dari database 𝒟 . Pertukaran
berulang ini dapat dilihat sebagai strategi mendaki bukit, karena himpunan S secara implisit
mendefinisikan solusi untuk masalah pengelompokan, dan setiap pertukaran dapat dilihat
sebagai langkah mendaki bukit. Jadi apa yang harus menjadi kriteria untuk pertukaran, dan
kapan seseorang harus berhenti?

Jelas, agar algoritma pengelompokan berhasil, pendekatan hill-climbing setidaknya


harus meningkatkan fungsi tujuan dari masalah sampai batas tertentu. Beberapa pilihan
muncul dalam hal bagaimana pertukaran dapat dilakukan:

 Seseorang dapat mencoba semua |S|·| 𝒟 | kemungkinan untuk mengganti perwakilan


di S dengan titik data di 𝒟 dan kemudian pilih yang terbaik. Namun, ini sangat
mahal karena perhitungan fungsi tujuan inkremental berubah untuk masing-masing
|S|·| 𝒟 | alternatif akan membutuhkan waktu yang sebanding dengan ukuran
database asli.
 Solusi yang lebih sederhana adalah dengan menggunakan himpunan r pasangan
(𝑋̅𝑖 , 𝑌
̅𝑗 ) yang dipilih secara acak untuk kemungkinan pertukaran, di mana 𝑋̅𝑖 dipilih
̅𝑗 dipilih dari himpunan perwakilan S. Yang terbaik dari r
dari database 𝒟, dan 𝑌
pasangan ini adalah digunakan untuk pertukaran.

Solusi kedua membutuhkan waktu yang sebanding dengan r kali ukuran basis data tetapi
biasanya dapat diterapkan secara praktis untuk basis data berukuran sedang. Solusi

https://esaunggul.ac.id Page 18 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


dikatakan konvergen ketika fungsi tujuan tidak meningkat, atau jika peningkatan fungsi
tujuan rata-rata berada di bawah ambang batas yang ditentukan pengguna pada iterasi
sebelumnya. Pendekatan k-medoids umumnya jauh lebih lambat daripada metode k-means
tetapi memiliki penerapan yang lebih besar untuk tipe data yang berbeda.

Sejumlah masalah praktis muncul dalam implementasi yang tepat dari semua
algoritma berbasis perwakilan, seperti algoritma k-means, k-median, dan k-medoids. Isu-isu
tersebut berkaitan dengan kriteria inisialisasi, pilihan jumlah cluster k, dan keberadaan
outlier.

Kriteria inisialisasi paling sederhana adalah memilih titik secara acak dari domain
ruang data, atau mengambil sampel basis data asli 𝒟. Pengambilan sampel basis data asli 𝒟
umumnya lebih unggul daripada pengambilan sampel ruang data, karena mengarah pada
perwakilan statistik yang lebih baik dari basis data yang mendasarinya. data. Algoritma k-
representatives tampaknya secara mengejutkan kuat untuk pilihan inisialisasi, meskipun
mungkin bagi algoritme untuk membuat cluster suboptimal. Salah satu solusi yang mungkin
adalah mengambil sampel lebih banyak titik data dari 𝒟 daripada jumlah k yang diperlukan,
dan menggunakan pendekatan pengelompokan aglomeratif hierarkis yang lebih mahal
untuk membuat k centroid yang kuat. Karena centroid ini lebih mewakili database 𝒟, ini
memberikan titik awal yang lebih baik untuk algoritma.

Pendekatan yang sangat sederhana, yang tampaknya bekerja dengan sangat baik,
adalah memilih perwakilan awal sebagai centroid dari m sampel titik yang dipilih secara
acak untuk beberapa parameter yang dipilih pengguna m. Ini akan memastikan bahwa
centroid awal tidak terlalu bias oleh outlier tertentu. Selanjutnya, sementara semua
perwakilan centroid ini kira-kira sama dengan rata-rata data, mereka biasanya akan sedikit
bias terhadap satu cluster atau lainnya karena variasi acak di sampel yang berbeda. Iterasi
berikutnya dari k-means pada akhirnya akan mengasosiasikan masing-masing perwakilan
ini dengan sebuah cluster.

Kehadiran outlier biasanya akan berdampak buruk pada algoritma tersebut. Ini dapat
terjadi dalam kasus di mana prosedur inisialisasi memilih outlier sebagai salah satu pusat
awal. Meskipun algoritma k-medoids biasanya akan membuang perwakilan outlier selama
pertukaran iteratif, pendekatan k-center dapat terjebak dengan cluster tunggal atau cluster
kosong dalam iterasi berikutnya. Dalam kasus seperti itu, salah satu solusinya adalah

https://esaunggul.ac.id Page 19 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


menambahkan langkah tambahan di bagian iteratif dari algoritma yang membuang pusat
dengan cluster yang sangat kecil dan menggantinya dengan titik yang dipilih secara acak
dari data.

Jumlah cluster k adalah parameter yang digunakan oleh pendekatan ini. Validitas
cluster memberikan metode perkiraan untuk memilih jumlah cluster k. Seperti yang dibahas
sebelumnya, pendekatan ini jauh dari sempurna. Jumlah cluster alami seringkali sulit
ditentukan dengan menggunakan metode otomatis. Karena jumlah klaster alami tidak
diketahui secara apriori, kadang-kadang mungkin diinginkan untuk menggunakan nilai k
yang lebih besar daripada "tebakan" analis tentang jumlah klaster alami yang sebenarnya
dalam data. Ini akan mengakibatkan pemisahan beberapa klaster data menjadi beberapa
perwakilan, tetapi kecil kemungkinan klaster digabungkan secara tidak benar. Sebagai
langkah post-processing, dimungkinkan untuk menggabungkan beberapa cluster
berdasarkan jarak antar cluster. Beberapa algoritma hybrid agglomerative dan partisi
termasuk langkah penggabungan dalam prosedur k-representative.

C. LATIHAN

1. Perhatikan kumpulan data 1 dimensi dengan 10 titik data {1, 2, 3, . . . 10}. Tunjukkan tiga
iterasi dari algoritma k-means ketika k = 2, dan random seeds diinisialisasi ke {1, 2}.
2. Ulangi Latihan 1 dengan set benih awal {2, 9}. Bagaimana perbedaan pilihan set benih
mempengaruhi kualitas hasil?
3. Buatlah program komputer untuk mengimplementasikan algoritma k-representative.
Gunakan struktur program modular, di mana fungsi jarak dan penentuan pusat massa adalah
subrutin yang terpisah. Instansiasikan subrutin ini ke kasus (i) algoritma k-means, dan (ii)
algoritma k-median.
4. Terapkan algoritma k-means Mahalanobis.

D. Kunci Jawaban

1. Silakan dibaca di uraian diatas.


2. Silakan dibaca di uraian diatas.
3. Silakan dibaca di uraian diatas.
4. Silakan dibaca di uraian diatas.
5. Silakan dibaca di uraian diatas.

https://esaunggul.ac.id Page 20 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )


Daftar Pustaka

1. Tan, Steinbach, Karpatne, Kumar, Introduction to Data Mining, 2nd Edition, 2019
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item3
2. Charu C. Aggarwal , Data Mining: Textbook, IBM T.J. Watson Research Center
Yorktown Heights, New York
USA, 2015

https://esaunggul.ac.id Page 21 of 21 Revisi/Tgl. ( 0 / 01-09-2021 )

Anda mungkin juga menyukai