Tema2 - Metodos Jerarquicos
Tema2 - Metodos Jerarquicos
Tema2 - Metodos Jerarquicos
Análisis de Cluster
Parte I: Métodos Jerárquicos
2 Medidas de Asociación.
3 Métodos jerárquicos.
x11 x12 . . . x1p
x21 x22 . . . x2p
X=
.. .. . . .
. ..
. .
xn1 xn2 . . . xnp
1 δij = δ(xi , xj ) ≥ 0.
2 δ(xi , xj ) = 0 si y solo si xi = xj .
3 δ(xi , xj ) = δ(xj , xi ).
4 δ(xi , xk ) ≤ δ(xi , xj ) + δ( xj , xk ) (desigualdad triangular).
Adicionalmente, si se cumple la siguiente propiedad, se dice que la
distancia δ es ultramétrica:
δik ≤ máx {δij , δjk }
En la literatura se encuentran multitud de distancias propuestas para
valores continuos.
• Distancia Euclidiana.
v
q u p
uX
d2 (xi , xj ) = ∥xi − xj ∥2 = ′
(xi − xj ) (xi − xj ) = t (xil − xjl )2
l=1
• Distancia de Minkowski.
p
!1
X r
r
dr (xi , xj ) = ∥xi − xj ∥r = |xil − xjl |
l=1
• Distancia Manhattan.
p
X
d1 (xi , xj ) = ∥xi − xj ∥1 = |xil − xjl |
l=1
• Distancia de Mahalanobis.
q
dm (xi , xj ) = ∥xi − xj ∥m = (xi − xj )′ S−1 (xi − xj )
• La medida de distancia más habitual es la distancia euclı́dea
(d2 ), pues corresponde con la distancia fı́sica entre dos puntos
p−dimensionales en el espacio euclı́deo.
• También es común emplear la distancia rectilı́nea o de
Manhattan (d1 ), que interpreta distancias en configuración
rectilı́nea, como si el espacio se tratara de calles dispuestas en
una cuadrı́cula.
• Tanto la distancia euclı́dea como la de Manhattan son casos
particulares de la distancia de Minkowski (dp ).
• Finalmente, en la distancia de Mahalanobis, las variables se
ponderan según el grado de relación que exista entre ellas, es
decir, si están más o menos correlacionadas. Si la correlación es
nula y las variables están estandarizadas, se obtiene la distancia
euclı́dea.
Medidas de similitud para datos binarios
′ 1
δk,(i,j) = (δik + δjk ), k ̸= i, j
2
Si la matriz D no cumple la propiedad ultramétrica, los distintos
métodos de clasificación darán lugar a que matrices ultramétricas
distintas, y por tanto, a representaciones jerárquicas distintas.
Ejemplo: Sea la matriz de distancias entre 5 objetos la dada por:
0
9 0
D= 3 7 0
6 5 9 0
11 10 2 8 0
Usando la mı́nima distancia (simple linkage) construir un
dendograma.
La distancia mı́nima no funciona bien cuando los objetos están
próximos.
Se obtienen dendogramas similares si se utiliza la distancia máxima,
o la distancia media, aunque las distancias a las que se van uniendo
los objetos en los clusters varı́an en cada caso.
Problemas
• Las fuentes de error y variación no entran en consideración con
los métodos jerárquicos. Esto implica una gran sensibilidad a
observaciones anómalas o outliers.
• Si un objeto se ha colocado erróneamente en un grupo al
principio del proceso, ya no se puede arreglar en una etapa
posterior.
• Un sistema de trabajo conveniente es usar varias distancias o
similitudes con los mismos objetos y observar si se mantienen
los mismos clusters o grupos. Ası́, se comprueba la existencia
de grupos naturales.
Ejemplo (Indicadores económicos y sociales): El conjunto de
datos (paises.txt) contiene 11 indicadores económicos y sociales
de 96 paı́ses. Las variables observadas son:
clust<- cutree(complete_clust, k = 5)
fviz_cluster(list(data = paises,
cluster = clust))