Manual Abreviado de Analisis Multivarian
Manual Abreviado de Analisis Multivarian
Manual Abreviado de Analisis Multivarian
Multivariante
Enero de 2015
Índice general
1. Preliminares 7
1.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Principales parámetros probabilı́sticos . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Nociones básicas de Álgebra Lineal . . . . . . . . . . . . . . . . . . . . . . . . . 13
4. Problema de clasificación 47
4.1. Planteamiento general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2. Análisis Discriminate Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.1. LDA y ejes discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.2. Estrategia cuadrática de Fisher . . . . . . . . . . . . . . . . . . . . . . . 53
4.3. Métodos alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.1. Regresión logı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.2. Vecino más próximo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.3. Árbol de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5. Reducción dimensional 61
5.1. Una primera definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2. Justificación de las componentes principales . . . . . . . . . . . . . . . . . . . . 62
5.3. Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5
6 ÍNDICE GENERAL
6. Análisis de conglomerados 75
6.1. Método de k-medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.2. Método jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Capı́tulo 1
Preliminares
En este capı́tulo intentaremos fijar la notación, ası́ como definir e interpretar conceptos
fundamentales en el contexto de la Estadı́stica Multivariante, muchos de los cuales deben ser
conocidos. También llevaremos a cabo un breve repaso de Álgebra Lineal.
1.1. Notación
En general, solemos manejar en estadı́stica dos tipos de lenguajes: probabilı́stico y muestral.
El primero sirve para expresar las propiedades de la población objeto del estudio, entendiendo
población en un sentido amplio; el segundo se utiliza para expresar las propiedades de una
muestra de n datos extraı́dos, se supone que aleatoriamente, de dicha población.
El marco formal en el que se desarrolla el estudio poblacional es el espacio L2 de funciones
reales de cuadrado integrable, definidas sobre cierto espacio de probabilidad. Queremos decir
que las variables aleatorias que estudiemos se identificarán con elementos de L2 . El estudio
muestral tiene lugar en el espacio euclı́deo Rn , es decir que, dada una variable aleatoria X ∈ L2 ,
una muestra aleatoria de tamaño n de dicha variable se identificará con un vector X de Rn ,
cuyas componentes Xi serán las distintas mediciones de la misma. Obsérvese que hemos utilizado
distintas fuentes de letra para denotar ambos conceptos, norma que intentaremos seguir en la
medida de lo posible.
En el contexto del análisis multivariante, X puede denotar con frecuencia un vector aleatorio
p-dimensional de componentes X[1], . . . , X[p]. En tal caso, una muestra aleatoria de tamaño n
para dicho vector aleatorio se expresará mediante la matriz X ∈ Mn×p definida que descompone
ası́: ′
X1 [1] . . . X1 [p] X1
.. .
. ..
X = (X[1], . . . , X[p]) = . . = . (1.1)
′
Xn [1] . . . Xn [p] Xn
A tı́tulo de ejemplo, en el cuadro 1.1 de la página 16 se expone una muestra de tamaño n = 38
de un vector aleatorio de dimensión p = 8. Los datos corresponden a medidas de la motilidad de
espermatozoides en moruecos y fueron recogidos por J.A. Bravo en el CENSYRA de Badajoz.
L2 forma parte de una categorı́a de espacios que generalizan el concepto de espacio euclı́deo
por estar también dotados de un producto interior. Concretamente, dados f, g ∈ L2 , se define
hf, gi = EP [f · g] (1.2)
EP se entiende como el funcional que asigna a cada variable aleatoria su integral respecto a la
probabilidad P definida en el espacio de origen. El subı́ndice P suele omitirse. En Rn podemos
7
8 CAPÍTULO 1. PRELIMINARES
En ambos espacios, los respectivos productos inducen sendas normas (al cuadrado), definidas
en general mediante kak2 = ha, ai y, en consecuencia, sendas métricas basadas en la norma al
cuadrado de las diferencias:
La segunda es, salvo una homotecia, la distancia Euclı́dea al cuadrado en Rn . El uso de estas
distancias para cuantificar errores se asocia al denominado método de Mı́nimos Cuadrados. Por
otra parte, del producto interior se deriva a su vez una noción de ortogonalidad o perpendicu-
laridad. En Rn decimos que a y b son ortogonales entre sı́ cuando ha, bi = 0, en cuyo caso se
denota a ⊥ b. En L2 se define de manera análoga.
✁✕✻
✁
✁
E ✁
✁
✁
e ✁ e − PV e
✁
✁
✁
✁
✁ ✁✁
✁ ✏✏✶
✏ ✁
✁ ✏✏✏
✁t✏✏
✁
P e V ✁
0 ✁
✁
✁
V
1.2. PRINCIPALES PARÁMETROS PROBABILÍSTICOS 9
La colección de resultados teóricos conocida como Leyes de los Grandes Números establecen
una clara conexión entre los espacios Rn y L2 , si entendemos X ∈ Rn como una muestra aleato-
ria simple de una variable aleatoria X ∈ L2 . Lo más importante en esta sección es resaltar que
todos las definiciones en L2 expresadas en términos del producto interior pueden traducirse au-
tomáticamente al lenguaje muestral e interpretarse de manera completamente análoga. Por ello,
en este capı́tulo nos centraremos principalmente en el estudio de los parámetros probabilı́sticos
o poblacionales, dejando como ejercicio para el lector el estudio paralelo en términos muestra-
les. Por lo general seguiremos la costumbre habitual de expresar los parámetros probabilı́sticos
mediante letras griegas y sus homólogos muestrales con notación latina.
Si X es una familia de k elementos, bien sean de L2 o de Rn (en el segundo caso puede
identificarse con una matriz n × k), se denota por hX i su expansión lineal. En el espacio L2
se denotará por 1 la variable aleatoria con valor constante 1, siendo entonces h1i el subespacio
unidimensional de las funciones constantes en L2 ; se denotará por h1i⊥ su ortogonal, que es
un hiperplano de L2 . Análogamente, se denotará por 1n al vector de Rn cuyas componentes
son todas 1, siendo por tanto h1n i la recta de los vectores constantes y h1n i⊥ su ortogonal, de
dimensión (n − 1).
Ejercicio 5. Probar que E[X] es el vector aleatorio constante que más se aproxima a X en
términos de la distancia (1.10) y que, además,
denotándose también por σij . Se trata de una generalización de la varianza, pues σii = σi2 , que
describe, según veremos en la próxima sección, el grado de relación lineal existente entre las
variabilidades totales, es decir, el grado de relación afı́n existente entre las variables originales.
Se dice que dos variables son incorreladas cuando su covarianza es nula, es decir, cuando sus
variabilidades totales son ortogonales.
Ejercicio 6. Probar que −σi σj ≤ σij ≤ σi σj
cuya diagonal está compuesta por las diferentes varianzas. Suele denotarse por la letra Σ. Lo
mismo ocurre con los coeficientes de correlación, que componen una matriz de correlaciones
p × p simétrica cuya diagonal está compuesta por unos.
Ejercicio 7. ¿Por qué es simétrica Σ? ¿Por qué la diagonal de la matriz de correlaciones está
compuesta por unos?
Es muy frecuente contemplar transformaciones de un vector aleatorio del tipo X̃ = AX + b,
con A ∈ Mm×p y b ∈ Rm .
Ejercicio 8. Probar que, en ese caso, el vector m-dimensional X̃ verifica
También es frecuente considerar una partición del vector aleatorio p-dimensional X en dos
vectores X1 y X2 de dimensiones p1 y p2 , respectivamente, lo cual da lugar a su vez a particiones
obvias de la media y la matriz de covarianzas:
X1 µ1 Σ11 Σ12
X= , µ= , Σ= (1.16)
X2 µ2 Σ21 Σ22
En tal caso cabe definir el coeficiente de correlación lineal múltiple (al cuadrado) entre X1 y
X2 mediante
2 Σ12 Σ−1
22 Σ21
ρ12 = (1.18)
σ12
Se trata de una generalización del coeficiente de correlación simple (al cuadrado) que interpre-
taremos en la siguiente sección.
✁✕✻
✁
✁
h1i⊥ ✁
✁
✁
X1 − E[X1 ] ✁ X1 − E[X1 ] − β ′ (X2 − E[X2 ])
✁
✁
✁
✁
✁ ✁✁
✁ ✶
✏
✏✏ ✁
✏
✁t✏✏ β ′ (X2 − E[X2 ]) ✁
✁ ✏✏ ✁
0 ✁
✁
✁
hX2 − E[X2 ]i
X1 − E[X1 ]
h1i⊥ ✁
✁✕✻
✁
✁
✁
✁
σ12 ✁ σ12 (1 − ρ212 )
✁
✁
✁
✁
✁ ✁✁
✁ ✏✏ ✶
✏ ✁
✁ ✏✏✏
✁t✏✏ σ12 ρ212
✁
✁
0 ✁
✁
✁
hX2 − E[X2 ]i
La independencia supone sin embargo una propiedad estrictamente más fuerte que la incorre-
lación. Efectivamente, puede ocurrir que entre X1 y X2 no se dé relación afı́n alguna pero que,
sin embargo, exista entre ambas una relación de otro tipo, que podrı́a ser incluso funcional.
E[X1 |X2 ] ◦ X2 es la función medible de X2 que mejor se aproxima a X1 según la métrica (1.4) y
no podemos en general afirmar que se trate de una función afı́n. Eso sı́ ocurre bajo el supuesto
de (p1 + p2 )-normalidad, como veremos en el próximo capı́tulo. En ese caso, debe verificarse
entonces E[X1 |X2 ] ◦ X2 = α + βX2 , con α y β definidas como antes.
El concepto probabilı́stico de independencia lo suponemos conocido. Desde un punto de
vista geométrico, podrı́a definirse como sigue: primeramente, dado un vector k-dimensional
Y con componentes en L2 , denótese por M(Y ) el espacio de las variables en h1i⊥ que son
funciones medibles de Y . En tal caso, se verifica
Ejercicio 11. Probar (1.26) y (1.27). Deducir entonces que la independencia implica incorre-
lación.
En lo sucesivo S denotará la matriz de covarianzas definidas directamente a partir del
producto interior (1.3), es decir, que suma total se dividirá entre n. Ası́ mismo, R denotará la
matriz de correlaciones muestrales.
Ejercicio 12. Definir en lenguaje muestral todos los parámetros estudiados en la sección
2, interpretándolos según hemos visto en la sección 3. Tener presente que, de todos ellos, el
de mayor trascendencia estadı́stica es, posiblemente, el coeficiente de correlación múltiple (al
cuadrado), que en el contexto muestral se denotará por R2 y se define a partir de la matriz de
covarianzas muestral S mediante
−1
S12 S22 S21
R2 = 2
(1.28)
s1
Este producto interior permite generalizar la distancia (1.5) al conjunto Mn×p mediante:
donde a′i y b′i denotan las filas de A y B, respectivamente. Esta distancia generalizada puede
entenderse a su vez como una versión muestral de la distancia (1.10). Entre otras propiedades,
podemos destacar que tr(A′ B) = tr(B ′ A) y que, si A, B, C son matrices cuadradas de orden
m, se verifica que tr(ABC) = tr(CBA) = tr(ACB).
Ejercicio 13. Probar (1.30) y (1.32).
Ejercicio 14. Dada una matriz de datos X ∈ Mn×p y si se denota X = 1n · x′ , probar que la
varianza total muestral de X, definida de manera análoga a (1.9) como la suma de las varianzas
muestrales de sus p-componentes, verifica
s2T = d2n,p (X, X) (1.33)
Matriz ortogonal: Se dice que una matriz Γ ∈ Mm×m es ortogonal cuando sus columnas
constituyen una base ortonormal de Rm , es decir, cuando Γ′ = Γ−1 . El conjunto de matrices
ortogonales de orden m se denotará por Om .
Se verifica además que δ1 = máx{γ ′ Aγ : kγk = 1}, que se alcanza con γ = γ1 , y que, para
todo j = 2, . . . , m, δj = máx{γ ′ Aγ : kγk = 1, γ ⊥ hγ1 , . . . , γj−1 i}, alcanzándose con γ = γj .
Del teorema se sigue directamente que las columnas de Γ constituyen una base ortonormal
de autovectores asociados a los correspondientes autovalores. También podemos de deducir de
(1.36) que ∆ = Γ−1 AΓ. Por lo tanto, la aplicación lineal identificada con la matriz A para la
base vectorial original admite una expresión diagonal respecto a una base ortonormal canónica
de autovectores. Es decir, el cambio a la base de autovectores permite expresar la matriz de
forma sencilla. A modo de ejemplo, podemos utilizar ese procedimiento para demostrar las
siguientes propiedades;
Ejercicio 16. Dada una matriz simétrica A, probar:
(ii) Si A ≥ 0, sus autovalores son todos no negativos. Si A > 0, son todos estrictamente
positivos.
(iii) Si A ≥ 0, existe una matriz simétrica A1/2 tal que A = A1/2 A1/2 . Si A > 0, existe
también una matriz simétrica A−1/2 tal que A−1 = A−1/2 A−1/2 .
(iv) Si A ≥ 0, existe una matriz X con las mismas dimensiones tal que A = X ′ X.
A partir del teorema 1.4.1 y del ejercicio 1 podemos probar el siguiente resultado en el cual
se fundamenta el capı́tulo 5:
Lema 1.4.2. En las condiciones del teorema 1.4.1 y dado k ≤ m, si Γ1 es la matriz con los
autovectores asociados a los k primeros autovalores de A, se verifica que
k
X
′ ′
máx{tr(B AB) : B ∈ Mm×k , B B = Id} = δi (1.37)
i=1
y se alcanza en B = Γ1 .
16 CAPÍTULO 1. PRELIMINARES
En este capı́tulo expondremos los aspectos más generales del modelo lineal normal multiva-
riante. Previamente, estudiaremos con brevedad las distribuciones de probabilidad relacionadas
con este modelo ası́ como el modelo lineal normal (univariante) que pretende generalizar.
Proposición 2.1.2. Si Z[1], . . . , Z[p] iid N(0,1), entonces Z = (Z[1], . . . , Z[p])′ ∼ Np (0, Id)
A partir de las dos propiedades anteriores podemos construir cualquier vector normal:
Proposición 2.1.3. Dados µ y Σ como en la definición, si consideramos el vector aleatorio Z
anterior, la descomposición Σ = Γ∆Γ′ y se denota A = Γ∆1/2 , se sigue que AZ + µ ∼ Np (µ, Σ).
En consecuencia, se sigue de (1.15) el siguiente resultado:
Proposición 2.1.4. Si X ∼ Np (µ, Σ), E[X] = µ y Cov[X] = Σ.
También es consecuencia de la proposición 2.1.1 que, si X ∼ N (µ, Σ), cada componente
X[i] de X sigue un modelo de distribución N (µi , σi2 ). Sin embargo, el recı́proco no es cierto.
Hemos de tener en cuenta que la componente X[i] puede obtenerse mediante e′i X, siendo ei el
vector unidad en el eje de coordenadas i-ésimo, y que la siguiente afirmación puede probarse
con relativa facilidad:
Proposición 2.1.5. Dado un vector aleatorio p-dimensional X, cualquiera de las condiciones
siguientes garantizan la p-normalidad del mismo:
17
18 CAPÍTULO 2. MODELO LINEAL MULTIVARIANTE
2
1
0
y
-1
-2
-3
-3 -2 -1 0 1 2
mientras que en la figura 2.2 se podemos ver un diagrama de dispersión con una muestra
aleatoria simple de tamaño n = 150 de dicha distribución en la que aparecen marcados dos
contornos elı́pticos de la misma.
Consideremos un vector aleatorio X (p1 + p2 )-normal que descompone de la forma
X1 µ1 Σ11 Σ12
X= ∼ Np1 +p2 , (2.6)
X2 µ2 Σ21 Σ22
El siguiente resultado puede probarse teniendo en cuenta el hecho conocido de que la densidad
de la distribución condicional P X1 |X2 puede calcularse mediante
fX1 ,X2 (x1 , x2 )
fX1 |X2 =x2 (x1 ) = (2.7)
f X 2 ( x2 )
Proposición 2.1.8. Si Σ22 > 0, se verifica
Esta afirmación puede probarse también teniendo en cuenta la proposición 2.1.6, (1.26) y (1.27).
En definitiva, establece una clara conexión entre los conceptos de normalidad y linealidad.
Ejercicio 18. Si X denota un vector 2-normal siguiendo un modelo de distribución (2.5),
razonar qué modelo de distribución sigue en cada caso el vector Y indicando, si procede, su
función de densidad:
(a) Y [1] = 1 + 2X[1] + 3X[2]; Y [2] = 4 − X[1] + X[2]
(b) Y [1] = 2 + 5X[1] − 4X[2]
(c) Y [1] = 1 + 2X[1] + 3X[2]; Y [2] = 4 − 4X[1] − 6X[2]
Ejercicio 19. Simular de manera aproximada una muestra de tamaño n = 200 de la distribu-
ción (2.5).
20 CAPÍTULO 2. MODELO LINEAL MULTIVARIANTE
Desde el punto de vista estadı́stico, podemos proponer tests para contrastar la hipótesis
inicial de normalidad multivariante. En Bilodeau y Brenner (1999) se recoge un test que se
basa en el hecho de que, para una muestra aleatoria simple de tamaño n de una distribución
p-normal, las distancias de Mahalanobis entre las observaciones y la media aritmética de la
misma dada la matriz de covarianzas muestral siguen una distribución de la familia Beta y
tienden a la incorrelación conforme aumenta el tamaño de muestra. Desde una perspectiva
eminentemente práctica, si realmente tenemos la intención de utilizar alguno de los procedi-
mientos de tipo paramétrico que expondremos a continuación, resulta más realista comprobar
que los diagramas de dispersión entre las diferentes componentes revelan al menos relaciones
de tipo lineal, estando muy pendiente de la presencia de sesgos, que pueden conducirnos a
transformar las variables originales, o fragmentaciones de los datos, que pueden conducirnos a
introducir factores cualitativos en el modelo.
psico1
8
6
4
2
psico2
8
6
4
2
psico3
8
6
4
2
psico4
7
5
3
psico5
7
5
3
psico6
7
6
5
4
3
2 4 6 8 2 4 6 8 3 5 7
Se verifica además que E [kPE Yk2 ] = (dim E)σ 2 (1 + δ). Como caso particular, si µ ∈ E ⊥ ,
entonces kPE Yk2 ∼ σ 2 χ2dim E .
Ejercicio 21. Probar que, dadosi E1 ⊥ E2 y X ∼ Nn (µ, σ 2 Id), se verifica que kPEi Yk2 ∼
σ 2 χ2dim Ei (kPEi µk2 /σ 2 ), para i = 1, 2, y son independientes.
Nótese que el cociente entre las medias del numerador y el denominador es (1 + δ) y, por lo
tanto, 1 cuando δ = 0. La distribución m · Fm,n converge a χ2m cuando n tiende a infinito.
PE 2 Y ✻ ✒PE1 ⊕E2 Y
✬✩
✉
0
✲
E1
✫✪
PE 1 Y
E 1 ⊕ E 2 ⊂ Rn
respecto al parámetro σ 2 pero si se impone una restricción de tipo lineal para el parámetro µ,
pues se supondrá por hipótesis que µ ∈ V para un cierto subespacio lineal conocido V ⊂ Rn .
Se denota mediante
Y ∼ Nn (µ, σ 2 ), µ ∈ V, σ 2 > 0 (2.12)
La restricción lineal µ ∈ V vendrá dada, bien por la presencia de factores cualitativos, bien por
la relación lineal respecto a otras variables numéricas con valores conocidos.
Si una matriz X ∈ Mn×dim V constituye una base de V , podemos parametrizar el mode-
lo (2.12) a través de las coordenadas β de µ respecto a X, es decir, Y ∼ Nn (Xβ, σ 2 Id), o
equivalentemente,
β0 = µr , βj = µj − µr , j = 1, . . . , r − 1 (2.17)
Ejercicio 22. Probar (2.17). Indicar ası́ mismo cómo se relacionarı́a µ con β si consideráramos
la base natural X̃ = (1n , v1 − vr , . . . , vr−1 − vr ).
Los vectores Z[1], . . . , Z[r − 1] de X en la parametrización anterior recogen valores concretos
de unas variables denominadas dummys que indican la muestra o categorı́a a la que pertenece
cada dato. Que las medias µ1 , . . . , µr sean idénticas, es decir, que las muestras procedan de una
única distribución común, equivale a que β sea nulo, independientemente de la parametrización
particular considerada. En otras palabras, la ausencia de relación entre el factor cualitativo que
distingue las muestras con la variable numérica Y equivale a la ausencia de relación de ésta
con las variables numéricas dummys.
Ejercicio 23. Desarrollar con detalle los modelos asociados a los cuatro ejemplos anteriores.
µ̂ = PV Y (2.18)
En tal caso, resulta también razonable estimar σ 2 mediante la distancia (1.5) entre Y y µ̂, es
2 −1 2
decir, σ̂M V = n kPV ⊥ Yk . Puede probarse que ambos estimadores son independientes y que
constituyen un estadı́stico suficiente y completo. Se sigue entonces del teorema de Lehmann-
Scheffe que µ̂ es el estimador insesgado de mı́nima varianza (EIMV) de µ. También puede
2
probarse a partir de (2.3) que (µ̂, σ̂M V ) constituyen un estimador de máxima verosimilitud
24 CAPÍTULO 2. MODELO LINEAL MULTIVARIANTE
Ejercicio 26. Probar que, en el ejemplo 4, podemos estimar β a partir de las medias aritméticas
del vector Y y la matriz Z, ası́ como de la matriz de covarianza muestral conjunta mediante
−1
β̂ = Szz Szy , β̂0 = y − z′ β̂ (2.22)
Anova: Nos ocuparemos pues del contraste de hipótesis tipo H0 : µ ∈ W , para algún subes-
pacio lineal W ⊂ V . Veamos ejemplos de hipótesis de este tipo:
Ejercicio 28. En el ejemplo 1 podemos contrastar si la media ν de la distribución es nula.
Probar que se corresponde con W = 0.
Ejercicio 29. En los ejemplos 2 y 3 podemos contrastar si todas las muestras consideradas pro-
vienen de una misma distribución de probabilidad. Probar que en ambos casos se corresponde
con W = h1n i.
Ejercicio 30. En el ejemplo 4 podemos contrastar si los vectores explicativos Z[1], . . . , Z[q]
no intervienen en la explicación de Y, lo cual equivale a β = 0. Probar que se corresponde con
W = h1n i. Dicho contraste se denomina total.
Ejercicio 31. En las condiciones del ejemplo 4 podemos contrastar también hipótesis del
tipo βj = 0. Probar que se corresponde con W = h1n , Z[1], . . . , Z[q − 1]i. Dicho contraste se
denomina parcial.
Yi − y)2 .
1
Pn
Nos referimos al estimador insesgado de la varianza s2y = (n − 1)1 i=1 (
2.2. MODELO LINEAL 25
Y = PW Y + PV |W Y + PV ⊥ Y (2.24)
Si W = 0, como en el ejercicio 28, la descomposisión (2.24) se reduce a los dos últimos sumandos.
El caso de mayor interés práctico es W = h1n i (como en los ejercicios 29 y 30), en el cual
podemos descomponer kYk2 mediante
Y−Y
⊥
h1n i ✁✕✻
✁
✁
✁
✁
✁
s2y ✁ (n−dim V ) 2
σ̂
✁ n−1
✁
✁
✁
✁ ✁✁
✁ ✏✏ ✶
✏ ✁
✁ ✏✏✏
✁t ✏ R2 s2y
✁
✏ ✁
0 ✁
✁
✁
V |h1n i
En todo caso, del Principio de Invarianza y teniendo en cuenta que (µ̂, σ̂ 2 ) es suficiente,
se sigue que, en lo que respecta al contraste de H0 la decisión respecto debe depender de
la observación Y a través del cociente entre kPV |W Y k2 y kPV ⊥ Y k2 que, una vez normalizados
dividiendo por sus respectivos grados de libertad, nos conduce a la distribución F . En definitiva,
consideramos el estadı́stico de contraste
n − dim V kPV |W Yk2
F (Y) = · (2.28)
dim V |W kPV ⊥ Yk2
que, según (2.11), sigue en general un modelo de distribución Fdim V |W,n−dim V (δ), con δ =
kPV |W µk2 /σ 2 , y en particular, un modelo Fdim V |W,n−dim V bajo la hipótesis inicial. Siguiendo el
Principio de Máxima Verosimilitud, construimos el denominado test F o anova de manera que
se rechace la hipótesis inicial si el estadı́stico F toma valores extremos. Del lema fundamental
26 CAPÍTULO 2. MODELO LINEAL MULTIVARIANTE
Ejercicio 32. Relacionar la descomposición (2.26) con los términso de la tabla 2.1.
Ejercicio 33. Resolver el contrate de la hipótesis inicial H0 : ν = 0 en el ejemplo 1; resolver
el contrate de la hipótesis inicial H0 : µ1 = µ2 en el ejemplo 2.
Ejercicio 34. Probar que el test anova que resuelve el contraste H0 : µ1 = . . . = µr en el
ejemplo 3 consiste en confrontar con la distribución Fr−1,n−r el estadı́stico de contraste
SCH/(r − 1)
F = , (2.29)
SCE/(n − r)
donde
X
SCH = ni (Yi· − y·· )2 , (2.30)
i
XX
SCE = (Yij − yi· )2 (2.31)
i j
Ejercicio 35. Probar que el test anova que resuelve el contrate H0 : β = 0 en el ejemplo 4
consiste en confrontar con la distribución Fq,n−(q+1) el estadı́stico de contraste
n − (q + 1) R2
F = . (2.32)
q 1 − R2
¿Qué sucede en el caso particular q = 1?
Ejercicio 36. En las condiciones del ejemplo 4, ¿qué distribución sigue bajo la hipótesis inicial
H0 : βq = 0 el estadı́stico de contraste?
Dado que, en las condiciones del ejemplo 3, la hipótesis inicial H0 : µ1 = . . . = µr equivale
a β = 0 para cualquier parametrización del modelo mediante variables dummys, se sigue de
(2.32) que la decisión al respecto depende de Y a través de su correlación múltiple R2 con
dichas variables dummys. Este hecho, que tendrá lugar igualmente en el modelo multivariante,
justifica el estudio de los coeficientes de correlación canónicos.
En la salida de SPSS recogida en el cuadro 2.1 podemos apreciar muchos de los ingredientes
estudiados en la sección.
Ejercicio 37. Construye mediante SPSS dos variables dummys para distinguir las tres especies
de flores de irisdata y comprueba que el coeficiente de correlación múltiple R2 entre sepleng y
dichas variables es el que aparece en la tabla 2.1.
Ejercicio 38. En el cuadro 2.2 aparece el resultado del anova para comparar los valores medios
de glucemia de cuatro categorı́as de recién nacidos (control, respiratoria, metabólica y mixta).
Relacionar los valores que aparecen en dicha tabla con las columnmas de la matriz de datos
del cuadro 2.3, donde a los datos originales se les ha añadido las proyecciones relacionadas con
la descomposición (2.24), las sumas de cuadrados correspondientes a las descomposición (2.26)
y las variables dummys asociadas a la parametrización del ejercicio 22.
2.3. MODELO GENERAL 27
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Modelo corregido 63,212a 2 31,606 119,265 ,000
Intersección 5121,682 1 5121,682 19326,505 ,000
species 63,212 2 31,606 119,265 ,000
Error 38,956 147 ,265
Total 5223,850 150
Total corregida 102,168 149
a. R cuadrado = ,619 (R cuadrado corregida = ,614)
mediante
1 1 −1 ′
f (x) = exp − tr[(X − µ)Σ (X − µ) ] (2.33)
(2π)np |Σ|n/2 2
Distribución de Wishart: Generaliza la distribución χ2 . Dado Y ∼ Nn,p (µ, Id, Σ), puede
probarse que la distribución de Y′ Y depende de µ a través de µ′ µ. Teniendo en cuenta eso y
dado E ⊂ Rn , se define la distribución de Wishart mediante Y ′ PE Y ∼ Wp (dim E, δ, Σ), con
δ = µ′ PE µ. Si δ = 0 se denota Wp (dim E, Σ). Las propiedades de la distribución de Wishart
son por completo análogas a la de la distribución χ2 y se estudian con detalle en Arnold (1981).
Ejercicio 39. Comprobar que W1 (m, δ, σ 2 ) = σ 2 χ2m (δ/σ 2 )
mX ′ W −1 X ∼ Tp,m
2
(δ), δ = ν ′ Σ−1 ν (2.34)
2
En el caso δ = 0 se denota Tp,m . En Arnold (1981) se prueba que esta distribución no es en
esencia nueva, sino que se identifica, salvo un factor escala, con un modelo tipo F , lo cual
garantiza que está bien definida. Concretamente
2 mp
Tp,m (δ) = Fp,m−p+1 (δ) (2.35)
m−p+1
2.3. MODELO GENERAL 29
2
En particular, se verifica que T1,m = t2m , por lo que debemos entender la distribución T 2 una
generalización en sentido estadı́stico de la distribución t2 . Es decir, que se utilizará en aquellos
problemas multivariantes cuyos análogos univariantes precisen de la distribución t-Student,
concretamente, en el contraste de hipótesis del tipo H0 : µ ∈ W con dim V |W = 1. Veremos
que en tales casos el estadı́stico de contraste puede entenderse geométricamente como una
2
distancia de Mahalanobis. Además, puede probarse que Tp,m converge en distribución a χ2p
conforme m tiende a infinito.
Los cuatro problemas univariantes (ejemplos 1-4) considerados en el apartado 2.2.2 se genera-
lizan al caso multivariante dando lugar a los siguientes problemas estadı́sticos multivariantes
que se estudiarán con más detalle en el siguiente capı́tulo. Basta tener en cuenta que la variable
respuesta Y se convierte en este caso en un vector respuesta p-dimensional de componentes
Y [1], . . . , Y [p].
Ejemplo 5. [Muestra aleatoria simple de una distribución p-normal] Consideremos Y1 , . . . , Yn
iid Np (ν, Σ). En ese caso, la matriz aleatoria Y = (Y1 , . . . , Yn )′ sigue un modelo de distribución
Nn (µ, Id, Σ) con µ ∈ V = h1n i y Σ > 0. Efectivamente, se verifica que cada columna µ[j] de
µ, que corresponde a la componente Y [j] del vector Y , pertenece a V .
Ejemplo 6. [Muestras independientes de p-normales con idéntica matriz de covarianzas] Consi-
deremos, para i = 1, 2, sendas muestras independientes Yi1 , . . . , Yini iid Np (µi , Σ). Si se denota
n = n1 +n2 e Y = (Y11 , . . . , Y2n2 )′ , se verifica que Y ∼ Nn (µ, Id, Σ) con Σ > 0 y µ ∈ V = hv1 , v2 i.
Ejemplo 7. [Diseño completamente aleatorizado multivariante] Se generaliza el caso univariante
como en los ejemplos 5 y 6.
Ejemplo 8. [Regresión lineal multivariante] A diferencia del ejemplo 4 univariante, se pretende
explicar p variables respuesta, Y [1], . . . , Y [p], a partir de q variables explicativas, lo cual nos
lleva a un modelo tipo (2.36) donde Y es la matriz n × p de observaciones respuesta, expresada
como en (1.1), E la matriz n × p de errores, X es la misma matriz que aparece en (2.15) y β es
la matriz (q + 1) × p siguiente
′
β0 [1] . . . β0 [p] β0
β1 [1] . . . β1 [p] β ′
1
β = .. .. = .. (2.37)
. ... . .
βq [1] . . . βq [p] βq′
30 CAPÍTULO 2. MODELO LINEAL MULTIVARIANTE
Para cada coeficiente βi [j], el subı́ndice i y el ı́ndice entre corchetes j indican, respectivamente,
a qué vector explicativo y a qué vector respuesta hace referencia. La primera fila, relativa al
término independiente, se denota por β0 , y el resto de la matriz por β.
Al igual que en el caso univariante, un problema como el del ejemplo 7 puede parametrizarse
de idéntica forma mediante variables dummys para convertirse en un problema de regresión
lineal multivariante, donde el contraste de la igualdad de las r medias equivale al contraste
total de la hipótesis β = 0.
Estos cuatro problemas se abordarán con más detalle en el siguiente capı́tulo. A continuación
estudiaremos brevemente la solución teórica a los problemas de estimación y contraste de
hipótesis.
µ̂ = PV Y, (2.38)
1
Σ̂ = Y ′ PV ⊥ Y (2.39)
n − dim V
S 1 = Y ′ PW Y , S2 = Y′ PV |W Y, S 3 = Y ′ PV ⊥ Y (2.41)
(ii) Si dim V |W = 1 puede probarse que t1 sigue, salvo una constante, una distribución T 2 -
Hotelling, lo cual permite formular un test UMP-invariante y de razón de verosimilitudes.
Si, además, p = 1, estaremos hablando del test de Student.
Dado que en el caso b > 1 el Principio de Invarianza no propicia una simplificación completa
de la información, el problema se ha abordado históricamente acogiéndose a otros diferentes
principios estadı́sticos que conducen a respectivas soluciones razonables que pueden expresarse
a partir de los mencionados autovalores. De esta manera aparecen en la literatura estadı́stica
cuatro tests diferentes (Wilks, Lawley-Hotelling, Roy y Pillay), aunque nos centraremos aquı́
en el test de Wilks por dos razones: por ser el TRV y por que facilita el algoritmo de selección
de variables en regresión lineal, lo cual es especialmente interesante en el análisis discriminante
lineal. De (2.33) se sigue que el estadı́stico de contraste del test de Wilks, es decir, la razón de
verosimilitudes, es la siguiente:
|S3 |
λ(Y) = (2.43)
|S2 + S3 |
Ejercicio 42. Probar que λ(Y) puede expresarse a través de t1 , . . . , tb mediante
b
Y
λ(Y) = (1 + ti )−1 (2.44)
i=1
Se demuestra en Arnold (1981) que, bajo la hipótesis nula, −(n − dimV ) log λ converge en
distribución a χ2p·dim V |W cuando n tiende a infinito. Este resultado es incluso cierto aunque no
se respete el supuesto de normalidad, siempre y cuando el diseño de la muestra respete ciertas
condiciones razonables. En definitiva, para muestras de gran tamaño utilizaremos la distribu-
ción χ2 como referencia, aunque el programa SPSS puede trabajar con otras aproximaciones a
la distribución F .
También se recogen en Arnold (1981), Dillon y Goldstein (1984), Flury (1996) y Rencher
(1995), entre otras referencias, diversos tests para contrastes de hipótesis relativos a la matriz
de covarianzas implementados en los programas estadı́sticos, como el test M de Box, el de
esfericidad de Barlett y algunos otros, que no abordamos aquı́ por brevedad y dado que son
sensibles ante la violación del supuesto de normalidad.
32 CAPÍTULO 2. MODELO LINEAL MULTIVARIANTE
Capı́tulo 3
En este capı́tulo desarrollaremos los cuatro problemas estadı́sticos formulados en los ejem-
plos 5-8 de la página 29 del capı́tulo anterior, cuyo denominador común es que se formalizan
mediante el modelo lineal multivariante. Añadimos además un apartado dedicado al análisis de
correlación canónica, relacionado directamente con el problema de regresión lineal multivarian-
te, y una sección dedicada al análisis de perfiles, relacionado con los tres problemas restantes.
Por último, ilustraremos con un ejemplo algunas de las técnicas estudiadas. En los distintos
casos se aplicarán los métodos teóricos de estimación y contraste de hipótesis expuestos en el
capı́tulo anterior. Se da por supuesto que el lector conoce ya las técnicas univariante análo-
gas (test de Student para muestras independientes y relacionadas, anova de una vı́a y estudio
de regresión lineal múltiple), que puede consultar, por ejemplo, en Peña (2010). A lo largo
del capı́tulo se hará uso del siguiente resultado, comúnmente conocido como teorema de los
multiplicadores finitos de Langrange, que permite obtener valores extremos para una función
definida en Rp bajo una serie de restricciones.
Lema 3.0.1. Sean k < p enteros y φ y f funciones derivables de Rp en R y Rk , respectivamente,
tales que existe máx{φ(x) : f (x) = 0} alcanzándose en c ∈ Rp . Entonces, existe η ∈ Rk tal
que ▽(φ − η ′ f )(c) = 0.
33
34 CAPÍTULO 3. APLICACIONES DEL MODELO
Por otra parte, del Teorema Central el Lı́mite y la Ley Débil de los Grandes Números se
sigue:
Este resultado otorga validez asintótica al test propuesto aunque no se verifique el supuesto
de normalidad. Nótese también que podemos construir una región de confianza a nivel 1 − α sin
utilizar técnicas multivariantes, calculando para cada componente del vector respuesta Y un
intervalo de confianzas a nivel 1 − α∗ y componiendo entonces un rectángulo en dimensión p.
El valor de α∗ puede determinarse mediante de manera conservadora mediante la desigualdad
de Bonferroni: m m
\ X
P Aci
P Ai ≥ 1 − (3.6)
i=1 i=1
y[2] y
y[1]
El elipsoide (3.2) delimita una región del espacio de menor tamaño que el del rectángulo,
siendo mayor su diferencia cuanto mayor sea la correlación entre las variables. Ello es debido a
que el método univariante no hace uso en ningún momento de las covarianzas y, por lo tanto,
emplea menos información que el multivariante.
Si las componentes del vector aleatorio Y fueran incorreladas (independientes bajo el su-
puesto de p-normalidad) el rectángulo anterior podrı́a construirse sin recurrir a la desigualdad
de Bonferroni (3.6) y tendrı́a un área similar al de la elipse, cuyos ejes coincidirı́an con los ejes
de coordenadas. En ese caso no procederı́a el uso de métodos multivariantes.
n1 n2
T 2 (Y) = · DΣ̂2 (y1 , y2 ) (3.9)
n1 + n2
Nótese por otra parte que la j-ésima componente del vector respuesta, Y [j], es la proyec-
ción del vector Y sobre el j-ésimo eje de coordenadas. Si ej denota un vector unitario que lo
3.3. MANOVA DE UNA VÍA 37
determina, podemos expresar Y [j] = e′j Y . En general, para cada eje hai con kak = 1, podemos
considerar la proyección a′ Y sobre hai que da lugar a dos muestras independientes
′
a Y11 , . . . , a′ Y1n1 iid N1 (a′ µ1 , a′ Σa)
(3.10)
a′ Y21 , . . . , a′ Y2n2 iid N1 (a′ µ2 , a′ Σa)
y a una hipótesis inicial H0a : a′ µ1 = a′ µ2 , que puede contrastarse a partir de los datos proyec-
tados mediante el test de Student. Concretamente, se confronta con la distribución tn1 +n2 −2 el
estadı́stico de contrate thai (Y) definido como t(Ya). Conocido Y, debe existir necesariamente un
eje ha1 i que aporte un valor máximo para thai (Y). Mediante el lema 3.0.1 obtenemos la solución
concreta
(n1 − 1)S1 + (n2 − 1)S2
ha1 i = Sc−1 (y1 − y2 ), Sc = (3.11)
n1 + n2 − 2
Es más, si se denota
Wij [1] = a′1 Yij , i = 1, 2, j = 1, . . . , ni (3.12)
se verifica entonces que t2 (W[1]) = T 2 (Y). En ese sentido podemos afirmar que distinguir las
dos muestras en dimensión p es equivalente a distinguirlas en dimensión 1 sobre el eje ha1 i,
que se denomina (primer) eje discriminante. El vector de proyecciones W[1] = Ya1 se denomina
vector de las (primeras) puntuaciones discriminantes. En la figura 3.2 el eje discriminante se
representa con lı́neas discontinuas:
complicación formal dado que no puede resolverse en términos de una distancia T 2 entre un
único par de elementos. Por eso nos limitamos a aplicar la solución general del contraste ex-
puesta en el capı́tulo anterior a este caso concreto: se obtienen t1 ≥ . . . ≥ tb > 0, los autovalores
positivos de S−1
3 S2 , donde S2 y S3 se calculan según (2.41) y, a partir de los mismos, obtene-
mos el valor del estadı́stico λ de Wilks definido según (2.44); por último, se confronta con la
distribución χ2p(r−1) el valor −(n − r) log λ(Y).
En el caso p = 1 el test obtenido es el anova de una vı́a; en el caso r = 2 es el test (3.9); en
general se denomina manova de una vı́a, que será asintóticamente válido aunque no se verifique
el supuesto de normalidad si n1 , . . . , nr tienden a infinito.
Desde este punto de vista, el problema de contrastar una hipótesis tipo H0 : µ ∈ W se
reduce a obtener las matrices S2 y S3 adecuadas. En este caso particular, pueden obtenerse
trivialmente de manera similar a SCE y SCH en (2.29).
Ejercicio 49. Probar que
SCH11 . . . SCH1p SCE11 . . . SCE1p
S2 = .. .. .. ..
, S3 = (3.13)
. . . .
SCH1p . . . SCHpp SCE1p . . . SCEpp
donde, para h, k = 1, . . . , p,
r
X
SCHhk = ni yi· [h] − y·· [h] · yi· [k] − y·· [k] (3.14)
i=1
Xr Xni
SCEhk = Yij [h] − yi· [h] · Yij [k] − yi· [k] (3.15)
i=1 j=1
Aunque no vamos a estudiar aquı́ diseños de experimentos multivariantes con dos o más
factores, el lector debe percatarse de que, si es capaz de resolver el problema en el caso univa-
riante, basta con proceder de manera análoga a (3.14) y (3.15) para obtener la solución general
para el caso multivariante.
El interés de estas dos últimas secciones radica en la vinculación existente entre el manova
de una vı́a y test (3.9), entendido como caso particular, con el LDA (análisis discriminate lineal)
de Fisher. Por otra parte, el problema de comparación de medias en un diseño completamente
3.3. MANOVA DE UNA VÍA 39
aleatorizado puede entenderse como un problema de regresión lineal, multivariante en este caso,
respecto a r −1 variables dummys de asignación a categorı́as, lo cual justifica a su vez el estudio
del problema de regresión lineal multivariante que desarrollamos en la siguiente sección.
Ejercicio 51. Utilizando el lema 3.0.1, probar que Fha1 i (Y) = n−r
r−1
· t1 , siendo t1 el primer
−1 ′
autovalor de S3 S2 y a1 un autovector asociado tal que a1 S3 a1 = 1.
De esta forma construimos el primer vector de puntuaciones discriminantes W[1] = Ya1 . El
proceso puede continuar en principio hasta completar p ejes discriminantes con sus respectivas
puntuaciones: el segundo eje discriminante ha2 i se define como aquél sobre el que debemos
proyectar Y para obtener un vector de puntuaciones W[2] = Ya2 incorrelado con W[1] y con
Fha2 i (Y) máximo, y ası́ sucesivamente hasta obtener ap y el vector de puntuaciones W[p] = Yap .
Los ejes discriminantes son los p autovectores de S−1 3 S2 y los valores máximos del estadı́stico
F son, salvo el escalar (n − r)/(r − 1), sus respectivos autovalores t1 , . . . , tp . Dado que los
p − b últimos son necesariamente nulos, sólo se contemplan en la práctica los b primeros, de
ahı́ que en el caso r = 2 consideremos un único eje discriminante. En definitiva, si A denota la
matriz p×p cuyas columnas son los vectores a1 , . . . , ap , podemos transformar la matriz de datos
originales Y en una matiz de idénticas dimensiones con todas las puntuaciones discriminantes
W=YA (3.17)
donde A verifica
t1 0 0 0
.. ..
.
.
0 tb 0 0
A′ S3 A = Id, ′
A S2 A = (3.18)
0 0 0 0
.. ..
. .
0 0 0 0
Por otra parte, los autovalores ti pueden entenderse respectivamente como estimadores
de os autovalores probabilı́sticos θ1 , . . . , θp de la matriz Σ−1 · µ′ PV |W µ. La hipótesis inicial
H0 (1) : θ1 = 0 equivale a H0 : µ1 = . . . = µr = 0, y se contrasta mediante el manova de una vı́a
a partir de t1 , . . . , tb , tomando como referencia la distribución χ2p(r−1) . Sin embargo, la veracidad
de la hipótesis inicial H0 (2) : θ2 = 0 equivale en términos intuitivos a que toda la discriminación
40 CAPÍTULO 3. APLICACIONES DEL MODELO
entre las medias recaiga exclusivamente en el primer eje discriminante. La hipótesis H0 (2) puede
contrastarse a partir de t2 , . . . , tp y tomando como referencia la distribución χ2(p−1)(r−2) . De esta
forma puede evaluarse la capacidad de discriminación de sucesivos ejes, aunque en la práctica
la valoraremos directamente en términos muestrales ponderando los autovalores t1 , . . . , tb .
Ejercicio 53. Interpretar en los términos de la teorı́a los cuadros 3.5 y 3.6, correspondientes
a la comparación multivariante de medias entre las tres especies de flores de irisdata.
ti ri2
ri2 = ti = , i = 1, . . . , b (3.24)
1 + ti 1 − ri2
Los autovalores r12 > . . . > rb2 > 0 se denominan coeficientes de correlación canónica
muestrales (al cuadrado) y, según hemos visto, contienen información relevante en el contraste
de la hipótesis H0 : β = 0. No obstante, podemos interpretarlos de manera más clara.
En lenguaje probabilı́stico, si Y y Z son vectores aleatorios de dimensiones p y q, respec-
tivamente, buscamos α1 ∈ Rp y β1 ∈ Rq tales que las variables U1 = α1′ Y y V1 = β1′ Z tengan
varianza 1 y su correlación sea máxima entre todas las proyecciones de Y y Z sobre sendos
ejes de Rp y Rq . En ese caso, los ejes obtenidos, hα1 i y hβ1 i, se denominan primer par de ejes
canónicos, y (U1 , V1 ), el primer par de variables canónicas. La correlación entre ambas se denota
por ρ1 y se denomina primer coeficiente de correlación canónica. El siguiente paso es determi-
nar otro par de ejes y, por lo tanto, otro par de proyecciones (U2 , V2 ), incorreladas con (U1 , V1 )
y con una correlación entre sı́ ρ2 máxima, y ası́ sucesivamente hasta llegar a b = mı́n{p, q}.
Consideremos las siguientes matrices de dimensiones p × p y q × q, ambas de rango b:
Σ−1 −1
yy Σyz Σzz Σzy (3.25)
Σ−1 −1
zz Σzy Σyy Σyz (3.26)
Ejercicio 57. Probar que los b primeros autovalores de las matrices (3.25) y (3.26) coinciden
(no ası́ sus respectivos autovectores).
La demostración del siguiente resultado, que se recoge en el manual 59 de la UEx, se basa
fundamentalmente en el lema 3.0.1:
(i) Los coeficientes de correlación canónicas ρ21 . . . , ρ2b son los b primeros autovalores de la
matriz (3.25).
(ii) Los vectores α1 , . . . , αb que determinan los ejes canónicos asociados a Y pueden obtenerse
como autovectores de la matriz (3.25) asociados a ρ21 . . . , ρ2b , respectivamente. Análoga-
mente, los vectores β1 , . . . , βb que determinan los ejes canónicos para Z pueden obtenerse
como autovectores de la matriz (3.26) asociados a ρ21 . . . , ρ2b , respectivamente.
En definitiva, los ejes canónicos permiten entender de manera más natural la correlación
lineal entre las variables respuestas y las explicativas.
ρ
Z1 V1 ←→
1
U1 Y1
.. . .. .
. −→ .. . ←− ..
ρb
Zq Vb ←→ Ub Yp
Ejercicio 58. Expresar la definición y el teorema anteriores en términos muestrales.
42 CAPÍTULO 3. APLICACIONES DEL MODELO
Ejercicio 59. Probar que, dada una variable aleatoria real Y y un vector aleatorio Z de
dimensión q, la máxima correlación lineal simple entre Y y una combinación lineal de las
componentes de Z, β ′ Z, es el coeficiente (1.18), y se obtiene con β según (1.21).
Sabemos que la hipótesis inicial H0 : µ1 = . . . = µr en un diseño completamente aleatoriza-
do equivale a H0 : β = 0 si parametrizamos el modelo como una regresión lineal multivariante
respecto a r − 1 variables dummys. En ese caso, los autovalores t1 , . . . , tb correspondientes al
manova de una vı́a, que expresan la capacidad de discriminación de los ejes discriminantes,
pueden calcularse a partir de S2 y S3 definidas según (3.20) y (3.21), siendo Z el vector de
variables dummys. No obstante, dichos autovalores se relacionan con los coeficientes de co-
rrelación canónicos según (3.24). Por lo tanto, el propio manova de una vı́a puede expresarse
en términos de los coeficientes de correlación canónicos, calculados a partir de las variables
dummys, de la misma forma que el anova de una vı́a se expresa en términos del coeficiente de
correlación múltiple R2 . Además, ri expresa al igual que ti el poder de discriminación del eje
hai i, con la ventaja a la hora de interpretarlo de que está acotado entre 0 y 1.
Ejercicio 60. Probar que los ejes discriminantes son los propios ejes canónicos que se obtienen
considerando como Z el vector de variables dummys (ver figura 4.2).
Ejercicio 61. Interpretar en los términos de la teorı́a los coeficientes de correlación canónica
que aparecen en el cuadro 3.5.
h1n ZR i
✯
✟
✟✟
λ(Y )(ZR |ZD )
✟✟
h1n ZR ZD i ✟
❍ λ(Y )(ZR )
❍❍
λ(Y )(Z) ❍❍ ❄
❥
❍
h1n i
3.4. REGRESIÓN MULTIVARIANTE 43
λ(Y)(Z)
λ(YR |Y[j])(Z) = (3.28)
λ(YR )(Z)
En este caso, que los tres tratamientos tengan efectos idénticos por término medio equivale
a la hipótesis inicial H0 : µ1 = µ2 = µ3 del diseño completamente aleatorizado, que se contrasta
1
J. Rodrı́guez Mansilla et al. Clinical Rehabilitation (2014).
3.5. ANÁLISIS DE PERFILES 45
mediante el manova de una vı́a. No obstante, también puede resultar de interés contrastar, por
ejemplo, el paralelismo de los perfiles, que se interpreta como una evolución similar desde la
fase inicial. Si contamos con sólo p = 2 mediciones, una inicial y otra final, estaremos ante un
diseño conocido como de muestras relacionadas. Se resuelve calculando la diferencia D, con
media ν, entre las dos fases. De esta forma, la hipótesis inicial H0 : µ[1] = µ[2] equivale a ν = 0
y se contrasta mediante el test de Student para una muestra aplicado a D. La hipótesis inicial
de paralelismo entre los r perfiles equivale a ν1 = . . . = νr y se contrasta mediante el anova de
una vı́a.
Sin embargo, cuando consideramos más de 2 fases debemos calcular la diferencia entre cada
variable y la anterior, dando lugar a un vector D en dimensión p − 1. La hipótesis inicial
H0 : µ[1] = . . . = µ[p] se contrasta mediante el test (3.3) aplicado a D, y la de paralelismo
entre los r perfiles, mediante el manova de una vı́a.
Abordar un análisis de perfiles mediante un manova es sólo una de las posibles opciones
y, seguramente, no la más popular. Los supuestos es los que basa son la normalidad multiva-
riante y la igualdad de matrices de covarianzas (en el caso de incluir un factor intersujeto en
el modelo, como es el tratamiento en el estudio del dolor). Del primero sabemos que puede
obviarse asintóticamente, lo cual justifica la robustez del modelo. Como principal alternativa
podemos destacar2 el modelo de medidas repetidas que, en principio, supone además dos con-
diciones adicionales sobre la matriz o matrices de covarianzas: la igualdad de las varianzas de
las componentes, por un lado, y la igualdad de las covarianzas por otro. Un caso particular de
esta hipótesis es el supuesto de esfericidad (homocedasticidad y covarianzas nulas), que con-
ducirı́a a aplicar un test F , pudiendo aplicarse correcciones en los grados de libertad tanto del
numerador como del denominador en dichos test en función del grado de desviación respecto
al modelo esférico. En eso consiste en la práctica el análisis de medidas repetidas. Si no existe
un factor intergrupo y no estamos dispuestos a asumir hipótesis relativas a la distribución del
vector (salvo la continuidad del mismo) contamos con la alternativa de Friedman basada en
rangos.
2
Rencher (1996), sección 6.9.
46 CAPÍTULO 3. APLICACIONES DEL MODELO
Capı́tulo 4
Problema de clasificación
Clasificación
47
48 CAPÍTULO 4. PROBLEMA DE CLASIFICACIÓN
p1 (y) 1−q
≥ (4.2)
p2 (y) q
Ası́ pues, debemos seleccionar una estrategia de este tipo, dependiendo del valor de q que
queramos considerar. Si no estamos en condiciones de proponer una distribución a priori,
podemos optar por escoger la estrategia minimax, que es el elemento maximal para el orden
definido a partir del máximo de los riesgos. Puede probarse que se trata de la estrategia Bayes
S0.5 , es decir, la que corresponde a una probabilidad a priori uniforme, y que RS0.5 (1) = RS0.5 (2).
Es ésta la que adoptaremos por defecto, teniendo en cuenta que cualquier otra estrategia
Bayes no es sino un corrección trivial de la misma en función de las probabilidades a priori
consideradas. Según (4.2), la estrategia minimax consiste en asignar y a P1 cuando se verifica
es decir, se asigna la observación a la distribución que la hace más verosı́mil. Se trata pues de
una aplicación directa del Principio de Máxima Verosimilitud y ésta es la idea fundamental
que debe prevalecer. En el caso general de r categorı́as se procede de forma idéntica, asignando
y a Pi cuando
pi (y) ≥ pj (y), ∀j 6= i (4.4)
al intervalo anterior si, y sólo si, δ −1 |yi − y| ≤ 1. Definimos entonces la función (denominada
núcleo) 1
2
si |u| ≤ 1
K(u) = , u ∈ R. (4.6)
0 si |u| > 1
De esta forma,
n
1 X y − yi
p̂(y) = K , x∈R (4.7)
nδ i=1 δ
En el caso multivariante (dimensión p) no consideramos intervalos de amplitud 2δ centrados
en y sino cubos de volumen 2p δ p , y el núcleo K p asigna el valor 2−p a un punto u cuando
kuk∞ ≤ 1. De esta forma, la función de densidad se estima reemplazando en (4.7) K por
K p y δ por δ p . No obstante, la función de densidad estimada será de tipo escalonado. Un
procedimiento comúnmente utilizado para suavizarla es considerar, en vez del núcleo anterior,
el siguiente:
1 1 ′ −1
K̃(u) = p/2
exp − u S u , u ∈ Rp , (4.8)
(2πS) 2
donde S es la matriz de covarianzas muestral. Ası́, la función de densidad se estima mediante
n
1 X 1 ′ −1
p̂(y) = exp − 2 (y − yi ) S (y − yi ) (4.9)
nδ p (2πS)p/2 i=1
2δ
Podemos comprobar que la función anterior se trata, efectivamente, de una densidad. Una vez
estimadas las densidades de las distintas categorı́as procederemos a establecer las regiones de
clasificación según (4.5). En la literatura estadı́stica encontramos núcleos diferentes a (4.8),
denominado gaussiano, como el triangular, el del coseno o de Epanechnikov, entre otros. Hay
que tener en cuenta que la estimación de las densidades, y por tanto la estrategia de clasifi-
cación, depende de la elección del núcleo K y del ancho de banda δ. Diversos trabajos vienen
a convencernos de que la elección del núcleo es poco determinante. Sin embargo, la elección
del ancho de banda sı́ lo es. No podemos hablar, desde luego, de un ancho de banda universal,
sino que debe depender del problema considerado. La selección de un ancho de banda excesiva-
mente grande tenderá a estimar la densidad demasiado plana, mientras que uno excesivamente
pequeño la estimará de manera excisivamente abrupta.
Otro inconveniente a tener en cuenta es la denominada “maldición de la dimensión”, que
consiste en que el número de datos requerido para lograr una estimación satisfactoria de la
densidad crece exponencialmente en relación con la dimensión considerada. Por lo tanto, cuan-
do tengamos un amplio número de variables precisaremos de una cantidad ingente de datos
para obtener una estimación fiable de la densidad. Eso explica el hecho de que sigamos hacien-
do hincapié aquı́ en el método tradicional para clasificar observaciones, denominado Análisis
Discriminante Lineal (LDA), debido a Fisher.
Cada desigualdad en (4.11) da lugar a la división del Rp en dos semiespacios cuya frontera
es una subvariedad afı́n (p − 1)-dimensional, de ahı́ que esta estrategia se denomine lineal (de
Fisher) para diferenciarse de la cuadrática (de Fisher también), que veremos más adelante, en
la cual Rp estará fragmentado por cuádricas.
Como ejemplo, utilizaremos el archivo irisdata de Fisher para intentar clasificar una flor
entre las tres especies consideradas en función de sus cuatro medidas morfológicas. El programa
SPSS diseña la estrategia LDA a partir de los datos ya asignados a categorı́as y es capaz de
clasificar en función de la misma cualquier otro dato que aparezca desagrupado. También recla-
sifica según la estrategia los propios datos agrupados, como el caso que vemos a continuación.
La reclasificación aporta una estimación de los riesgos de la estrategia, que son, según el cuadro
4.2, del 0 % para setosa, del 2 % para virginica y 4 % para vesicolor.
Grupo mayor
siendo f la densidad de la distribución N (0, 1), y θ = DΣ2 (µ1 , µ2 ). Se trata del parámetro θ que
aparece en (3.8) en relación con el contraste de la hipótesis inicial H0 : µ1 = µ2 , que se identifica
con θ = 0. Por lo tanto, si µ1 = µ2 , la estrategia de Fisher se comportarı́a asintóticamente como
un sorteo a cara o cruz. Sin embargo, a medida que las medias se alejan según la métrica de
Mahalanobis, los riesgos asintóticos tienden a 0. En la práctica, que las distribuciones estén bien
diferenciadas suele ser mucho más importante que el cumplimiento de los supuestos del modelo
de cara a lograr una estrategia con riesgos bajos, que es lo que a la postre nos interesa. Eso es
lo que ocurre con irisdata: no estamos en condiciones de asumir la normalidad ni la igualdad
de matrices de covarianzas, pero las tres especies consideradas se diferencian claramente según
sus medidas morfológicas, de ahı́ el éxito de la estrategia de Fisher, que queda patente en el
cuadro 4.2.
En definitiva, como afirmábamos en la introducción, el manova de una vı́a y la estrategia de
clasificación lineal de Fisher comparten el mismo modelo, aunque en el primer caso es el factor
el que desempeña la función explicativa, mientras que en el segundo es el vector numérico. Un
resultado poco significativo a la hora de comparar las medias no ofrece expectativas de éxito en
la clasificación, justo al contrario que un resultado significativo. Por eso decimos que el manova
y clasificación son el anverso y el reverso de una misma moneda. De hecho, es el problema
de clasificación el que da pleno sentido al estudio del manova y, dado que este último puede
entenderse como una regresión multivariante respecto a las variables dummys, da sentido al
estudio de los coeficientes de correlación canónicos, pues el contraste de igualdad de medias
puede expresarse en términos de los mismos según (3.24).
Una vez hemos entendido el problema de clasificación como un problema de relación entre
un vector aleatorio p-dimensional y un factor con r categorı́as, cobra especial interés el método
de selección de variables Lambda de Wilks, estudiado en el capı́tulo 3, pues permite desechar
aquellas componentes del vector que no aportan información particular en el problema de
clasificación.
52 CAPÍTULO 4. PROBLEMA DE CLASIFICACIÓN
En el caso de irisdata (figura 4.3), podemos apreciar que el peso de la discriminación recae
casi exclusivamente en la primera puntuación discriminante, según sabı́amos ya por el cuadro
3.5. En la figura 4.4 (izquierda) se aprecia cierta confusión entre algunas de las variedades de
4.2. ANÁLISIS DISCRIMINATE LINEAL 53
aceituna a partir de 17 variables numéricas medidas1 al representar las dos primeras puntua-
ciones discriminantes. Sin embargo, la confusión se resuelve en parte al introducir la tercera
puntuación, como se aprecia en la figura de la derecha.
nvar nvar
6,00000
CARRASQUEÑA CARRASQUEÑA
CACEREÑA CACEREÑA
5,00000
CORNICHE CORNICHE
CORNEZUELO CORNEZUELO
MORISCA
Segunda puntuación discriminante
MORISCA
2,00000
0,00000
0,00000
-2,50000
-2,00000
-5,00000
-4,00000
-5,00000 -2,50000 0,00000 2,50000 5,00000 -5,00000 -2,50000 0,00000 2,50000 5,00000
P (I = 1|Y = y) = L − (β0 + y ′ β)
(4.17)
donde
1−q
β0 = log + µ′1 Σ−1 µ1 − µ′0 Σ−1 µ0 , (4.18)
q
β = Σ−1 (µ0 − µ1 ) (4.19)
Se denota por L la denomina función Logit, representada en la figura 4.5, que se define
mediante
ex
L(x) = , x∈R (4.20)
1 + ex
Al condicionar a partir de una muestra aleatoria simple de tamaño n de (I, Y ) obtendremos
por lo tanto de un modelo lineal generalizado. En tal caso, el estimador de máxima verosimilitud
del parámetro (β0 , β) se obtiene de manera iterativa en función de la muestra. Una estimación
4.3. MÉTODOS ALTERNATIVOS 55
1.0
0.8
0.6
logit(x)
0.4
0.2
0.0
-5 0 5
adecuada permite conocer de manera aproximada qué categorı́a es más probable para una
observación concreta del vector Y .
Si el factor cualitativo distingue r > 2 categorı́as podemos aplicar el método de regre-
sión logı́stica multinomial. A grandes rasgos, consiste en una composición de r − 1 regresiones
logı́sticas tomando una categorı́a como referencia. Cada una de estas regresiones permite esti-
mar la probabilidad de que un dato concreto pertenezca a una categorı́a dada, dividida por la
probabilidad de que pertenezca a la categorı́a de referencia. Si los r − 1 cocientes resultan ser
inferiores a 1, el dato se asigna a la categorı́a de referencia; en caso contrario, se asigna a la
que aporte un cociente máximo.
Ası́ pues, el método de regresión logı́stica requiere en principio supuestos muy similares al
LDA, de ahı́ que, en la práctica, suele aportar resultados muy similares. En su contra podemos
afirmar que es más complejo desde un punto de vista formal y computacional. Efectivamente,
mientras que el método LDA puede considerarse el reveso del modelo lineal, cuyas parámetros
se estiman mediante soluciones a sistemas de ecuaciones lineales, los de la regresión logı́stica
se obtienen como aproximaciones a soluciones de sistemas de ecuaciones no lineales, con las
dificultades que ello conlleva. Dichas dificultades se ven incrementadas cuando el factor cuali-
tativo posee más de dos categorı́as. Sin embargo, podemos aducir a su favor que la regresión
logı́stica proporciona en todo caso, exista o no correlación entre las variables predictoras y la
respuesta, una estimación de la distribución condicional (4.17) cuya veracidad puede contras-
tarse mediante el test de Hosmer-Lemeshov. Un resultado significativo en este test se traduce
como una ineptitud del modelo de regresión logı́stica para estimar la distribución condicional
de la variable categórica y, en particular, para llevar a cabo la clasificación. En tal caso cabrı́a
esperar lo mismo de la estrategia LDA, lo cual nos conducirı́a a ensayar con estrategias alter-
nativas de diferente naturaleza, como las que enunciaremos a continuación. Otra circunstancia
a favor de la regresión logı́stica es que facilita directamente los Odds Ratios, parámetros muy
valorados en Epidemiologı́a.
Grupo
A
B
14,00
12,00
x1
10,00
8,00
5,00 6,00 7,00 8,00 9,00 10,00
x2
petleng
Variable independiente
petwidt
sepleng
sepwidt
Importancia
species
Nodo 0
Categoría % n
setosa 28,2 20
setosa vesicolor 39,4 28
vesicolor virginica 32,4 23
virginica Total 100,0 71
petleng
Mejora=0,304
Nodo 1 Nodo 2
Categoría % n Categoría % n
setosa 100,0 20 setosa 0,0 0
vesicolor 0,0 0 vesicolor 54,9 28
virginica 0,0 0 virginica 45,1 23
Total 28,2 20 Total 71,8 51
petleng
Mejora=0,303
Nodo 3 Nodo 4
Categoría % n Categoría % n
setosa 0,0 0 setosa 0,0 0
vesicolor 93,3 28 vesicolor 0,0 0
virginica 6,7 2 virginica 100,0 21
Total 42,3 30 Total 29,6 21
60 CAPÍTULO 4. PROBLEMA DE CLASIFICACIÓN
Capı́tulo 5
Reducción dimensional
Uj = γj′ X (5.1)
61
62 CAPÍTULO 5. REDUCCIÓN DIMENSIONAL
En el caso trivial k = 0, el teorema afirma que el vector de Rp constante por el que debemos
reemplazar las observaciones Xi con el menor error cuadrático posible es la media aritmética
x, siendo la varianza total muestral, definida en (1.33), la medida de dicho error.
Ejercicio 75. Probar que s2T = pj=1 dj
P
X = U G′1 + E (5.6)
siendo U G′1 la matriz en Mn×k que permite alcanzar las distancia mı́nima a X en el teorema
5.2.1.
Ejercicio 76. Probar que las componentes principales son incorreladas entre sı́. Probar que
el primer eje principal es aquél sobre el que hay que proyectar las observaciones para obtener
una máxima varianza, que vale d1 .
64 CAPÍTULO 5. REDUCCIÓN DIMENSIONAL
Ejercicio 77. Probar que el segundo eje principal es aquél sobre el que hay que proyectar
las observaciones para obtener la máxima varianza de entre todas la variables incorreladas con
la primera componente principal, que vale d2 , y ası́ sucesivamente. Probar que el último eje
principal es aquél sobre el que hay que proyectar para obtener una mı́nima varianza.
Ejercicio 78. ¿Cómo se interpreta dp = 0? ¿Cómo se interpreta |Σ| = 0 para un vector
aleatorio con distribución Np (µ, Σ)?
Ası́ pues, los ejes principales resuelven el problema de maximización de la varianza, mien-
tras que los ejes discriminantes, estudiados en los capı́tulos 3 y 4, solucionan el problema de
maximización relativo a la discriminación entre categorı́as, que a su vez puede entenderse como
una maximización de correlaciones lineales.
Esta normalización tiene por objeto fijar una base no sólo ortogonal sino también ortonormal
1/2
en Rn . Por otra parte, transformamos de manera inversa G1 definiendo Λ = G1 D1 ∈ Mp×k .
La matriz Λ, denominada de componentes, se expresará ası́
λ1 [1] . . . λk [1] λ[1]′
Λ = ... .. = .. (5.9)
. .
′
λ1 [p] . . . λk [p] λ[p]
X = FΛ′ + E (5.10)
R=H +Ψ (5.11)
Dado j entre 1 y p, los elementos hjj y ψjj de las diagonales de H y Ψ, que se denotarán por
h2j y ψj2 , se denominan respectivamente comunalidad y varianza especı́fica de la componente
j-ésima. En ese caso, se verifica que ψj2 = n−1 kE[j]k2Rn y, por lo tanto, en virtud del teorema
5.2.1,
n
1X
tr(Ψ) = kEi k2Rp (5.12)
n i=1
= d2n,p (X, U G′1 ) (5.13)
p
X
= dj (5.14)
j=k+1
Aplicando la igualdad (5.11) a las diagonales, obtenemos que 1 = h2j + ψj2 , para todo j. Es
decir, la proximidad a 1 de las comunalidades se traduce en una buena aproximación de U G′1
a X.
Ejercicio 80. Probar que Pk
p
1X 2 j=1 dj
h = (5.15)
p j=1 j p
66 CAPÍTULO 5. REDUCCIÓN DIMENSIONAL
Dicho parámetro se denota por h2 y expresa por tanto la proporción de varianza total explicada
por las k primeras componentes principales.
Ejercicio 81. Probar que, para todo i = 1, . . . , n, se verifica
n p
1 X 2
X
kEi − Ei′ k = 2 dj (5.16)
n2 i,i′ =1 j=k+1
Por lo tanto, se sigue de (5.16) que, en lo que respecta a la métrica Euclı́dea, el hecho de
reemplazar los datos originales por sus k primeras componentes principales conlleva un error
que puede valorarse en función de (5.14). Si en lugar de Ui y Ui′ utizamos las puntuaciones
factoriales Fi y Fi′ obtendremos la misma representación salvo cambios de escala en los k
ejes de coordenadas en función de los respectivos autovalores d1 , . . . , dk , pues las puntuaciones
factoriales pueden entenderse como componentes principales normalizadas. Concretamente, la
observación Xi ∈ Rp puede aproximarse mediante el vector Fi de Rk de la forma:
→ Pk → →
Xi = j=1 Fi [j] · λj + Ei
(5.18)
Ello nos permite identificar las columnas X[l], X[s] ∈ Rn , que constituyen mediciones de sendas
variables aleatorias X[l] y X[s] sobre n individuos, con los vectores de la matriz de componentes
λ[l], λ[s] ∈ Rk , respectivamente, en el sentido de que
siempre que las comunalidades h2l y h2s sean próximas a 1, lo cual se relaciona con la cir-
cunstancia h2 ≃ 1. Luego, en tal caso, el hecho de que los vectores de Rk λ[l] y λ[s] sean
aproximadamente perpendiculares se interpreta como incorrelación aproximada entre X[l] y
X[s]; que estén en la misma dirección, aproximadamente, se interpreta como fuerte correlación
lineal entre ambas, que es directa si tienen el mismo sentido e inversa si tienen sentido opuesto.
Ejercicio 82. Probar que λj [l] es el coeficiente de correlación lineal entre X[l] y F[j].
Ejercicio 83. Probar que, para cada l = 1, . . . , p, h2l = kλ[l]k2 .
5.3. ANÁLISIS FACTORIAL 67
�⃗[j]
B C
Podemos apreciar en las ecuaciones (5.18) y (5.19) que los papeles que desempeñan las
matrices F y Λ se permutan tal y como se indica en el cuadro 5.3 según representemos las
observaciones o las variables. Esta simetrı́a es lo que justifica en última instancia el uso de
puntuaciones factoriales F en lugar de la componentes principales originales U .
k ejes k coordenadas
n observaciones Λ F
p variables F Λ
rotación que identifique los posibles conglomerados de variables con los ejes de coordenadas
puede resulta muy útil para determinar los posibles factores. Para conseguir tal propósito exis-
ten diversos métodos iterativos como varimax o equamax, que se describen con mayor detalle
en Rencher (1995).
El denominado coeficiente de Kaiser-Meyer-Olkin, definido en (5.23), es un parámetro mera-
mente descriptivo de cierta utilidad para pronosticar el éxito o fracaso de un posterior análisis
factorial. Entendemos que el análisis factorial tiene éxito cuando logramos agrupar un gran
número de variables en pocos factores. En tal caso, la suma de coeficientes de correlación sim-
ple al cuadrado entre cada posible par de variables diferentes debe ser grande en relación con
la suma de los coeficientes de correlación parcial al cuadrado entre cada par, conocidas el resto,
2
P
que se denota por i6=j aij en (5.23). En la práctica, valores de KMO inferiores a 0.6 suelen
considerase un mal indicio de cara a una clara simplificación del problema de correlación.
2
P
i6=j rij
KM O = P 2
P 2
(5.23)
i6=j rij + i6=j aij
Ejercicio 84. Razonar por qué un valor de KMO próximo a 1 se asocia a una reducción
profunda en el análisis factorial.
En el cuadro de diálogos 5.6 se indica a grandes rasgos cómo ejecutar un PCA con SPSS.
cualitativa denominada grupo que distingue entre 28 categorı́as diferentes. El biplot 5.7, que
recoge el 63 % de la distancia χ2 (correlación), ilustra las asociaciones entre las especies y las
diferentes condiciones del terreno. El cuadro de diálogos 5.9 ilustra cómo se ejecuta esta técnica
con SPSS.
1,0
T. villosa
O-4
O-3
D. glomerata O-1
0,5 O-2
Ax4
especie
Ax1 Axx2
grupo
Bxx3
Axx1 Axx4 C. cristatus
Dimensión 2
-1,0 Cx2
R. crispus
-1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0
Dimensión 1
ˆ
β̂ = Gη̂
5.5. MULTICOLINEALIDAD Y PCA 73
Si hemos eliminado las últimas componentes principales en los tests parciales, esta nueva es-
timación de β estará sometida a tantas restricciones lineales como componentes eliminadas,
y será sesgada pero con menor varianza que el EIMV β̂. En las condiciones de la simulación
propuesta en el ejercicio 86, el primer eje principal es h(1, 1)′ i. Luego, si se desecha la segunda
componente principal, la ecuación estimada consistirá en multiplicar Z[1] y Z[2] por un mismo
coeficiente.
Desde un punto de vista práctico, distinguimos pues dos posibles circunstancias: que se
eliminen componentes principales en la regresión lineal, lo cual conduce a considerar una ecua-
ción más estable que puede entenderse como una especie compromiso entre las distintas varia-
bles correlacionadas, como en el ejemplo comentado anteriormente; o bien que no se eliminen
componentes principales, lo cual debe entenderse como que la muestra consta de información
suficiente para determinar qué variables poseen influencia real en la respuesta, en cuyo caso
debemos acatar el resultado que aporten los tests parciales.
Análisis de conglomerados
70
60
50
eruption
En las dos primeras secciones abordaremos un breve estudio de los dos métodos tradicionales
del análisis de conglomerados: el de k-medias y el jerárquico. En la tercera sección introducire-
mos escuetamente el algoritmo de agrupación EM, basado en un modelo de mezclas. Este tipo
de técnica va más allá de la mera agrupación de observaciones pues tiene el ambicioso objeto
de determinar de manera sencilla y precisa la distribución probabilı́stica que las explica.
En todo caso, para hablar de afinidad entre observaciones es preciso definir previamente
una métrica en el espacio Rp . La opción más utilizada es la distancia Euclı́dea. Si optamos por
75
76 CAPÍTULO 6. ANÁLISIS DE CONGLOMERADOS
ella debemos tener presente que no es invariante ante un cambio de escala en cualquiera de las
variables medidas, lo cual afecta de manera decisiva a la agrupación, de ahı́ que la elección de
la distancia Euclı́dea vaya acompañada frecuentemente de la tipificación de los datos. Entre
otra alternativas a la distancia Euclı́dea podemos mencionar la de Mahalanobis, dada la matriz
de covarianzas muestral, que es sı́ invariante.
los conglomerados queda registrado, de manera que se puede analizar el estado más intere-
sante, que será aquél en el que queden patentes grandes diferencias entre los conglomerados
y pequeñas diferencias dentro de los conglomerados. Eso querrá decir que en todos los pasos
anteriores se unieron conglomerados próximos, pero en el inmediatamente posterior se unen
dos conglomerados distantes, lo cual puede detectarse gráficamente mediante el dendrograma.
El denominado diagrama de témpanos aporta una información similar. Mediante el análisis de
los gráficos debemos pues determinar el número de conglomerados en la solución final. Hemos
dicho anteriormente que cada paso consistirá en la fusión de los dos conglomerados más próxi-
mos entre sı́. Obviamente, la proximidad se determinará en virtud de la medida de afinidad que
hayamos escogido. No obstante, ésta se aplica a cada par de puntos, mientras que los conglo-
merados son conjuntos (unitarios o no). Por ello, queda aún pendiente determinar una medida
de proximidad entre conjuntos partiendo de la medida d de proximidad entre puntos seleccio-
nada. En ese sentido, contamos con varias opciones. El SPSS utiliza por defecto la vinculación
inter-grupos, que consiste en definir la distancia entre dos conglomerados A y B mediante
X
d̃(A, B) = [card(A × B)]−1 d(a, b) (6.1)
a∈A, b∈B
6.3. Algoritmo EM
En la sección anterior destacamos lo conflictivo que resulta determinar el número k de
conglomerados a configurar a partir de la observación de la muestra. Existen diversos procedi-
mientos semiautomáticos para tal fin basados en principios bastante intuitivos, como el méto-
do gráfico del codo y el de Calinsky-Harabasz. El método bayesiano denominado EM-cluster
(esperaza-maximización) está basado en un modelo de mezclas: desde el punto de vista formal
se fundamenta en la aproximación de cualquier distribución de probabilidad p-dimensional a
una cierta mezcla de r distribuciones p-normales. Las condiciones de partidas son muy simi-
lares a las del modelo de regresión logı́stica, con la salvedad de que la variable cualitativa I
no tiene que ser necesariamente binaria y, además, es latente, es decir, no está especificada.
En ese sentido guarda también relación con el Análisis Factorial. En definitiva, sobre un cierto
espacio de probabilidad contamos con una variable aleatoria I con valores en {1, . . . , k} y un
78 CAPÍTULO 6. ANÁLISIS DE CONGLOMERADOS
40
30
Height
20
10
0
17
9
33
3
22
16
24
29
32
12
13
18
19
25
23
27
20
30
15
26
4
31
10
1
34
2
35
8
14
21
28
5
11
vector aleatorio Y con valores en Rp . De la primera suponemos que sigue una distribución
multinomial con probabilidades a priori {q1 , . . . , qk } y suponemos, además, que la distribución
condicional de Y conocido que I = j es p-normal con media µj y matriz de covarianzas Σj ,
para j = 1, . . . , k. Se denotará por pj la correspondiente función de densidad.
Obviamente, cuanto mayor sea el número de componentes k que integren la mezcla y menos
restricciones impongamos a las respectivas matrices de covarianzas, mayor será la verosimilitud
L obtenida para la muestra observada. De ahı́ que, para evitar sobreajustes, se utilice el criterio
de información bayesiano (BIC) a la hora de valorar la aptitud del modelo a seleccionar. Es
decir, se ensayarán con diferentes valores de k y diversos grados de restricción para la matriz
de covarianzas y se elegirá el modelo que maximice el valor del BIC 1 .
d
BIC = log L − log n (6.2)
2
El método para estimar los diferentes parámetros del modelo es complicado en el caso ge-
neral (ver Hastie et al. (2008), sección 8.5). Consiste en comenzar con una estimación inicial
que se va mejorando iterativamente en dos fases: maximización y esperanza. Concretamente, se
estiman por máxima verosimilitud los parámetros (qj , µj , Σj ), j = 1, . . . , k, que caracterizan el
modelo a partir de un algoritmo tipo k-medias, considerando como valores de la variable I los
obtenidos mediante dicho método. Es decir, se estimarı́an de manera natural calculando respec-
tivamente las proporciones, medias y matrices de covarianza por categorı́as. Entonces, podemos
aprovechar esas estimaciones para calcular la esperanzas condicionales de los verdaderos valores
de I, es decir, las probabilidades a posteriori, mediante la Regla de Bayes:
qj · pj (yi )
P̂ (I = j|X = xi ) = Pk (6.3)
l=1 ql · pl (yi )
reemplazando los parámetros desconocidos por estimadores de los mismos. Asimismo, supues-
to conocidas las probabilidades a posteriori, podemos reculcular la estimación por máxima
1
d denota el número de parámetros del modelo.
6.3. ALGORITMO EM 79
Y ası́ sucesivamente hasta alcanzar un cierto grado de estabilidad en los parámetros o bien
hasta completar un número establecido de iteraciones. Al modelo de mezclas ası́ obtenido
le corresponderá un BIC que se comparará con el de los modelos obtenidos bajo diferentes
restricciones.
Este método puede ejecutase haciendo uso del paquete mclust del programa R. Si, por
ejemplo, lo aplicamos a los datos de Old Faithful, el método proporciona un valor máximo del
BIC para k = 3 componentes, con matrices de covarianzas asociadas a elipses con el mismo
volumen, excentricidad y orientación (EEE). En la figura 6.4 se muestran la coparativa entre los
diferentes modelos considerados y los diferentes clústers con las correspondientes distribuciones
2-normales superpuestas.
En ocasiones como ésta y a la vista del gráfico, puede procederse a agrupar clusters (verde y
azul) cuya separación no resulte natural. Es decir, que este método aparentemente automático
también puede precisar en última instancia de decisiones subjetivas, por lo que, en definitiva,
no difiere tanto de los comentados en la sección anterior.
90
80
-3000
waiting
70
BIC
-3500
60
EII EVE
VII VEE
EEI VVE
VEI EEV
50
EVI VEV
VVI EVV
-4000
EEE VVV
1 2 3 4 5 6 7 8 9
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Number of components
eruption
80 CAPÍTULO 6. ANÁLISIS DE CONGLOMERADOS
Bibliografı́a
Arnold, S.F. (1981), “The Theory of Linear Models and Multivariate Analysis”, Wiley.
Anderson, T.W. (1958), “An Introduction to Multivariate Statistical Analysis”, Wiley.
Bilodeau, M. y Brenner, D. (1999), “Theory of Multivariate Statistics”, Springer.
Dillon, W.R. y Goldstein, M. (1984), “Multivariate Analysis. Methods and Aplications”, Wiley.
Dobson, A.J. (1990), “An Introduction to Generalized Linear Models”, Chapman & Hall.
Flury, B. (1997), “A First Course in Multivariate Statistics”, Springer.
Gifi, A. (1990), “Nonlinear Multivariante Analysis”, Wiley.
Greenacre, M.J. (1984), “Theory and Applications of Correspondence Analysis”, Academic
Press.
Hair, J.F., Anderson, R.E., Tatham, R.L., y Black, C.B. (1999), “Análisis Multivariante”,
Prentice Hall.
Hastie, T., Tibshirani, R. y Friedman, J. (2008), “ The Elements of Statistical Learning”,
Springer.
Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979), “ Multivariate Analysis”, Academic Press.
Montanero, J. (2008), “Manual 56: Modelos Lineales”, Servicio de Publicaciones UEx.
http://hdl.handle.net/10662/2443
Montanero, J. (2008), “Manual 59: Análisis Multivariante”, Servicio de Publicaciones UEx.
http://hdl.handle.net/10662/2444
Nogales, A.G. (1998), “Estadı́stica Matemática”, Servicio de publicaciones UEx.
Peña, D. (2010), “Regresión y Diseño de Experimentos”, Alianza editorial.
Rencher, A.C. (1995), “Methods of Multivariate Analysis”, Wiley.
Silverman, B. W. (1986), “Density Estimation for Statistics and Data Analysis”, Chapman &
Hall.
Uriel, E. y Aldás, J. (2005), “Análisis Multivariante Aplicado”, Thomson.
81