0% found this document useful (0 votes)

46 views11 pages

Week 8. GMM

The document discusses Gaussian mixture models (GMM) for clustering data. GMM extends K-means clustering by using a probabilistic model assuming that data points are generated from a mixture of Gaussian distributions with unknown parameters. GMM uses the Expectation-Maximization algorithm to estimate the parameters, assigning soft membership probabilities rather than hard assignments. The document provides examples of using GMM for clustering in Python and compares its advantages over K-means, such as being able to model non-spherical clusters and distributions.

Uploaded by

revaldianggara

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

46 views11 pages

Week 8. GMM

Uploaded by

revaldianggara

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 11

Gaussian Mixture Models

Jasman Pardede
Pendahuluan

 Clustering merupakan bagian penting pada data analysis

 K-Means clustering merupakan teknik clustering yang paling sederhana dan mudah
dipahami. K-means clustering sangat cocok untuk data yang sederhana.
 K-means clustering hard assignments, setiap titik ditentukan berdasarkan pusat
cluster. Permasalahan: bagaimana menentukan jumlah cluster, apakah clusternya
secara aktual tidak overlap, bagaimana penangan data yang lebih tersebar.
 K-means clustering merupakan non-probabilistic sehingga kinerjanya tidak baik pada
berbagai situasi real-word.
 Gaussian mixture models (GMM) merupakan perluasan dari K-means.
 import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

K-Means from sklearn.datasets.samples_generator import

make_blobs
from sklearn.cluster import KMeans

def main():
X, y_true = make_blobs(n_samples=400, centers=4,
cluster_std=0.60, random_state=0)
X = X[:, ::-1] # flip axes for better plotting
print(X)
kmeans = KMeans(4, random_state=0)
labels = kmeans.fit(X).predict(X)
centroids = kmeans.cluster_centers_
print("Centroid")
print(centroids)
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40,
cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], c='red',
s=50)
plt.show()
Centroid
[[ 2.84849883 -1.61366997] [ 7.75608144 if __name__ == "__main__":
-1.2689694 ] [ 0.83945671 1.95662677] main()
[ 4.36874542 0.95041055]]
Plot circular

 from scipy.spatial.distance import cdist

 def plot_kmeans(kmeans, X, n_clusters=4, rseed=0,
ax=None):
labels = kmeans.fit_predict(X)

# plot the input data

ax = ax or plt.gca()
ax.axis('equal')
ax.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis',
zorder=2)

# plot the representation of the KMeans model

centers = kmeans.cluster_centers_
radii = [cdist(X[labels == i], [center]).max()
for i, center in enumerate(centers)]
for c, r in zip(centers, radii):
ax.add_patch(plt.Circle(c, r, fc='#CCCCCC', lw=3,
alpha=0.5, zorder=1))
import matplotlib.pyplot as plt

K-means (Non- import seaborn as sns; sns.set()

import numpy as np
from sklearn.datasets.samples_generator import make_blobs

circular ~ poor
from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist

def plot_kmeans(kmeans, X, n_clusters=4, rseed=0, ax=None):

fit)
labels = kmeans.fit_predict(X)

# plot the input data

ax = ax or plt.gca()
ax.axis('equal')
ax.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis', zorder=2)

# plot the representation of the KMeans model

def main():

X, y_true = make_blobs(n_samples=400, centers=4,

cluster_std=0.60, random_state=0)
X = X[:, ::-1] # flip axes for better plotting

rng = np.random.RandomState(13)
X_stretched = np.dot(X, rng.randn(2, 2))

print(X)
kmeans = KMeans(4, random_state=0)
labels = kmeans.fit(X).predict(X)
centroids = kmeans.cluster_centers_
print("Centroid")
print(centroids)
plot_kmeans(kmeans, X_stretched)
plt.show()

if __name__ == "__main__":
main()
GMM (Gaussian Mixture Models)

 Berusaha untuk mencari model terbaik dari input dataset yang diberikan berdasarkan
sebaran multi-dimensional Gaussian.
 Secara sederhana, GMM dapat digunakan untuk mencari cluster yang sama dengan k-
means.
 GMM dalam mencari model terbaiknya menggunakan Expectation-Maximization (EM)
Kelebihan EM

 Algoritma EM lebih stabil secara numerik, dimana dalam setiap iterasinya loglikelihood-nya naik.
 Dibawah kondisi umum, algoritma EM konvergen terhadap suatu nilai reliabel. Yaitu dengan dimulai
suatu nilai sembarang θ(0) akan hampir selalu konvergen terhadap suatu lokal maximizer, terkecuali
salah dalam mengambil nilai awal θ(0).
 Algoritma EM cenderung mudah diterapkan, karena bersandarkan pada penghitungan complete data.
 Algoritma EM mudah diprogram, karena tidak melibatkan baik integral ataupun turunan dari
likelihood.
 Algoritma EM hanya memakan sedikit ruang harddisk dan memori di komputer karena tidak
menggunakan matriks ataupun invers-nya dalam setiap iterasi.
 Analisis lebih mudah dibanding metode lain.
 Dengan memperhatikan kenaikan monoton likelihood pada iterasi, maka mudah untuk memonitor
konvergensi dan kesalahan program.
 Bisa digunakan untuk mengestimasi nilai dari missing data.
Kekurangan EM

 Tidak menyediakan prosedur untuk menghasilkan estimasi matriks kovarian dari

penduga parameter.
 Algoritma EM bisa saja konvergen secara lambat, yaitu jika terlalu banyak incomplete
information.
 Algoritma EM tidak menjamin akan konvergen pada suatu nilai maksimum global jika
terdapat multipel maksima.
 Dalam beberapa masalah, E step mungkin secara analisis akan degil (intractable).

https://zhiyzuo.github.io/EM/
Tahapan GMM

 Melakukan guess lokasi dan bentuk cluster yang sesuai

 Melakukan tahapa E-step dan M-step sampai diperoleh data yang convergen.
 from sklearn.mixture import GMM
import numpy as np
GMM Cluster from sklearn.datasets.samples_generator
import make_blobs
import matplotlib.pyplot as plt
import seaborn as sns

def main():
sns.set()
print("Contoh GMM")
X, y_true =
make_blobs(n_samples=400, centers=4,
cluster_std=0.60,
random_state=0)
X = X[:, ::-1] # flip axes for better
plotting
gmm = GMM(n_components=4).fit(X)
labels = gmm.predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels,
s=40, cmap='viridis');
plt.show()

if __name__ == "__main__":
main()
GMM plot

 gmm = GMM(n_components=4, covariance_type='full'

random_state=42)
plot_gmm(gmm, X_stretched)

 https://jakevdp.github.io/PythonDataScienceHandbook/05.1
2-gaussian-mixtures.html

Warehouse Management With Lean and RFID Application PDF
No ratings yet
Warehouse Management With Lean and RFID Application PDF
12 pages
Week 8. K-Means
No ratings yet
Week 8. K-Means
7 pages
ML Minors Exp7
No ratings yet
ML Minors Exp7
6 pages
DS - ML - 7 - 60019210046 1
No ratings yet
DS - ML - 7 - 60019210046 1
6 pages
Kmeans Algorithm
No ratings yet
Kmeans Algorithm
3 pages
Baidurya Debnath 4
No ratings yet
Baidurya Debnath 4
37 pages
01 K Means - Merged
No ratings yet
01 K Means - Merged
26 pages
Experiment 3.1 K-Mean
No ratings yet
Experiment 3.1 K-Mean
8 pages
GMM 1
No ratings yet
GMM 1
3 pages
Experiment No 7
No ratings yet
Experiment No 7
4 pages
K Means
No ratings yet
K Means
3 pages
Drawback of Standard K-Means Algorithm
No ratings yet
Drawback of Standard K-Means Algorithm
5 pages
ML Exp5 C36
No ratings yet
ML Exp5 C36
18 pages
Mla 7th
No ratings yet
Mla 7th
2 pages
K Means Algorithm
No ratings yet
K Means Algorithm
6 pages
AI&ML Lab-Ex.9corre
No ratings yet
AI&ML Lab-Ex.9corre
5 pages
Aiml Lab
No ratings yet
Aiml Lab
37 pages
ML-Lab Programs - VTU
No ratings yet
ML-Lab Programs - VTU
5 pages
AIML Lab 10
No ratings yet
AIML Lab 10
4 pages
MLT Lab 08
No ratings yet
MLT Lab 08
5 pages
09.unsupervised Learning
No ratings yet
09.unsupervised Learning
50 pages
EXP-6 K Mean Clustring
No ratings yet
EXP-6 K Mean Clustring
6 pages
LAB7 Kmeans
No ratings yet
LAB7 Kmeans
11 pages
Detecting Patterns With Unsupervised Learning
No ratings yet
Detecting Patterns With Unsupervised Learning
21 pages
K-Means in Python - Solution
No ratings yet
K-Means in Python - Solution
6 pages
8 Taks
No ratings yet
8 Taks
3 pages
Wa0033.
No ratings yet
Wa0033.
38 pages
Program 7
No ratings yet
Program 7
3 pages
Artificial Intelligence Lab 10
No ratings yet
Artificial Intelligence Lab 10
8 pages
3.1 K - Means
No ratings yet
3.1 K - Means
16 pages
PMA Experiment 2
No ratings yet
PMA Experiment 2
6 pages
K.means Clustering
No ratings yet
K.means Clustering
8 pages
Machine Learning Lab Assessment 5: 18BCE2301 Devangshu Mazumder
No ratings yet
Machine Learning Lab Assessment 5: 18BCE2301 Devangshu Mazumder
10 pages
Document 10
No ratings yet
Document 10
3 pages
ML Unit3
No ratings yet
ML Unit3
21 pages
DWM Exp4
No ratings yet
DWM Exp4
9 pages
Rajeek8 12
No ratings yet
Rajeek8 12
21 pages
K Means Clustering
No ratings yet
K Means Clustering
11 pages
ML Lecture06 Unsupervised Learning
No ratings yet
ML Lecture06 Unsupervised Learning
87 pages
Da Exp 10
No ratings yet
Da Exp 10
6 pages
ML - K-Means
No ratings yet
ML - K-Means
12 pages
Da Exp 10
No ratings yet
Da Exp 10
6 pages
Aml - Lab (1-6)
No ratings yet
Aml - Lab (1-6)
15 pages
Screenshot 2023-09-22 at 7.55.40 PM
No ratings yet
Screenshot 2023-09-22 at 7.55.40 PM
4 pages
K Means Algorithms
No ratings yet
K Means Algorithms
27 pages
Unsupervisd Learning Algorithm
No ratings yet
Unsupervisd Learning Algorithm
6 pages
V Aiml 12
No ratings yet
V Aiml 12
2 pages
Pattern Analysis-Machine Learning
No ratings yet
Pattern Analysis-Machine Learning
74 pages
ML - Unit-6 KMeans
No ratings yet
ML - Unit-6 KMeans
20 pages
A Paper With 12pt Global Font Size
No ratings yet
A Paper With 12pt Global Font Size
13 pages
K Means Clustering - Ipynb - Colaboratory
No ratings yet
K Means Clustering - Ipynb - Colaboratory
4 pages
ML0101EN Clus K Means Customer Seg Py v1
100% (1)
ML0101EN Clus K Means Customer Seg Py v1
8 pages
Presentation 1
No ratings yet
Presentation 1
47 pages
ML DSBA Lab7
No ratings yet
ML DSBA Lab7
6 pages
Lab Report6 - B21CI014
No ratings yet
Lab Report6 - B21CI014
8 pages
AML Clustering
No ratings yet
AML Clustering
7 pages
Program-1 Aim:: Theory
No ratings yet
Program-1 Aim:: Theory
4 pages
K-Means Algo
No ratings yet
K-Means Algo
4 pages
AdityaGaur BDA Exp8
No ratings yet
AdityaGaur BDA Exp8
4 pages
2.3 Aiml Rishit
No ratings yet
2.3 Aiml Rishit
7 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Sap Retail Pricing
100% (2)
Sap Retail Pricing
11 pages
Vertical Bulk Storage Tanks: Taylor-Wharton Malaysia Sdn. BHD
No ratings yet
Vertical Bulk Storage Tanks: Taylor-Wharton Malaysia Sdn. BHD
2 pages
Phase-2 AP Ed - CET-2024 Detailed Notification - 18092024040936
No ratings yet
Phase-2 AP Ed - CET-2024 Detailed Notification - 18092024040936
7 pages
Ibadan, Nigeria: by Laurent Fourchard
100% (2)
Ibadan, Nigeria: by Laurent Fourchard
27 pages
Sol Midterm 1
100% (1)
Sol Midterm 1
6 pages
Test Bank For A Childs World Infancy Through Adolescence 12th Edition by Papalia
100% (2)
Test Bank For A Childs World Infancy Through Adolescence 12th Edition by Papalia
28 pages
Civil Law, Poli Case Compilation
No ratings yet
Civil Law, Poli Case Compilation
39 pages
Google Sustainability Report 2015
No ratings yet
Google Sustainability Report 2015
4 pages
The Schrödinger Equation in One Dimension
100% (1)
The Schrödinger Equation in One Dimension
23 pages
Forward Planning Document Australian Curriculum Mathematics
No ratings yet
Forward Planning Document Australian Curriculum Mathematics
11 pages
Senior Software Development Engineer in Test (SSDET)
No ratings yet
Senior Software Development Engineer in Test (SSDET)
2 pages
Personal Finance 6th Edition Madura Digital Access
No ratings yet
Personal Finance 6th Edition Madura Digital Access
412 pages
RAFI 1.01.102.011-0104 en PDF
No ratings yet
RAFI 1.01.102.011-0104 en PDF
2 pages
Nursing Audit Protocol
No ratings yet
Nursing Audit Protocol
15 pages
Revista Psycap Vol7
No ratings yet
Revista Psycap Vol7
14 pages
Dick Curtis in Memoriam REC v8 1 A4
No ratings yet
Dick Curtis in Memoriam REC v8 1 A4
16 pages
MSP - Week 7 8
No ratings yet
MSP - Week 7 8
7 pages
Basics of Income Tax
No ratings yet
Basics of Income Tax
20 pages
Problem 11.29
No ratings yet
Problem 11.29
2 pages
Expert Stan Boutin's Report On The Woodland Caribou
0% (1)
Expert Stan Boutin's Report On The Woodland Caribou
64 pages
Word Formation
No ratings yet
Word Formation
16 pages
Final Test Practice Corrected
No ratings yet
Final Test Practice Corrected
4 pages
Different Types of Batteries Used in Automobiles
No ratings yet
Different Types of Batteries Used in Automobiles
13 pages
Newspaper Report On Coral Reefs
No ratings yet
Newspaper Report On Coral Reefs
1 page
Slab If Else Programs
No ratings yet
Slab If Else Programs
3 pages
Financial Analysis
No ratings yet
Financial Analysis
155 pages
MNHS Absenteeism Among Senior High During Harvest Season
100% (2)
MNHS Absenteeism Among Senior High During Harvest Season
19 pages
Don't Let The Little Things Ruin Your Day
No ratings yet
Don't Let The Little Things Ruin Your Day
5 pages
Mime Research
No ratings yet
Mime Research
2 pages

Week 8. GMM

Uploaded by

Week 8. GMM

Uploaded by

Gaussian Mixture Models

 Clustering merupakan bagian penting pada data analysis

K-Means from sklearn.datasets.samples_generator import

 from scipy.spatial.distance import cdist

# plot the input data

# plot the representation of the KMeans model

K-means (Non- import seaborn as sns; sns.set()

def plot_kmeans(kmeans, X, n_clusters=4, rseed=0, ax=None):

# plot the input data

# plot the representation of the KMeans model

X, y_true = make_blobs(n_samples=400, centers=4,

 Tidak menyediakan prosedur untuk menghasilkan estimasi matriks kovarian dari

 Melakukan guess lokasi dan bentuk cluster yang sesuai

 gmm = GMM(n_components=4, covariance_type='full'

You might also like