Manual Esta 5503
Manual Esta 5503
Manual Esta 5503
Preparado por:
José Carlos Vega Vilca, Ph.D.
[email protected]
José Carlos Vega, Ph. D.
Tema 1.- Revisión del álgebra de matrices: Definición de matriz. Tipos de matrices. Operaciones
con matrices.
a) 𝐴′
b) 𝐵 −1
c) 𝐵 + 𝐶
d) (𝐵 + 𝐶) + 𝐷
e) 𝐵 + (𝐶 + 𝐷)
f) 𝐵 + 𝐶 + 𝐷
g) 𝐵𝐶 − 𝐷
h) (𝐸𝐹)𝐴
i) 𝐸(𝐹𝐴)
j) 𝐸𝐹𝐴
k) (𝐸𝐹𝐴)−1
l) 𝐵′𝐶 𝐷−1
m) (𝐵 −1 + 𝐶 ′ − 𝐷)′
n) −2𝐵 + 5𝐶 + 2 𝐷−1
1
José Carlos Vega, Ph. D.
Tema 2.- Revisión del algebra de matrices: Determinante e inversa. Valores y vectores propios.
Teorema de descomposición espectral. Manipulación de matrices mediante la
computadora.
2
José Carlos Vega, Ph. D.
Tema 3.- Conceptos básicos del análisis multivariante: Vector aleatorio. Matriz de datos. Vector
promedio. Matriz de covarianzas. Matriz de correlaciones. Operaciones de cómputo
mediante la computadora.
Compañia X1 X2 X3
Citigroup 108 17 1484
General_Electric 152 17 750
American_Intl_Group 95 11 766
Bank_of_America 65 14 1110
HSBC_Group 63 10 1031
Exxon_Mobil 264 25 195
Royal_Dutch/Shell 265 18 194
BP 285 16 191
ING_Group 92 8 1175
Toyota_Motor 166 11 211
3
José Carlos Vega, Ph. D.
Para probar la normalidad de una matriz de datos 𝐗 de orden 𝑛 × 𝑝, se presentan dos métodos
muy conocidos, estos son:
1) Prueba de normalidad de Mardia
2) Prueba de Normalidad gráfica de Gnanadesikan
Ambos procedimientos necesitan que la matriz de datos sea “data.frame”
mardia1=function(dat)
{n=dim(dat)[1]; p=dim(dat)[2]
u=rep(1,n)
D=scale(dat,scale=F)
mx=u%*%as.matrix(dat)*(1/n); s=var(dat)
si=solve(s)
G=D%*%si%*%t(D)
sesgo=sum(G^3)/n^2
kurtosis=sum(diag(G)^2)/n
kur=p*(p+2)
chi.cal=n*sesgo/6; gl=kur*(p+1)/6
z.cal=(kurtosis-kur)/(8*kur/n)^0.5
p1=pchisq(chi.cal,gl); q1=1-p1
p2=pnorm(z.cal); q2=1-p2
ses.sal=cbind(sesgo,chi.cal,pval1)
kur.sal=cbind(kurtosis,z.cal,pval2)
list(media=mx,var_cov=s,sesgo=ses.sal,kurtosis=kur.sal)
4
José Carlos Vega, Ph. D.
normplot=function(dat)
{ n=dim(dat)[1]; p=dim(dat)[2]
u=rep(1,n)
mx=u%*%as.matrix(dat)*(1/n); vx=var(dat)
d2=mahalanobis(dat,mx,vx)
d2=sort(d2)
a=seq((1-1/2),(n-1/2),by=1)
b=a/n
quant=qchisq(b,p)
plot(quant,d2,xlab="quantil chi-cuadrado",
ylab="distancia de Mahalanobis al cuadrado",
main="Plot de normalidad multivariada")
abline(0,1,col=2)
list(media=mx,var_cov=vx)
}
4.1) Con los datos del Ejemplo 4.14 (pag. 186). Evaluar la normalidad multivariada de un
conjunto de datos con 4-variables
4.2) Evaluar la normalidad de los datos “iris” de la base de datos en R, para la especie “setosa”
4.3) Evaluar la normalidad de los datos “iris” de la base de datos en R, para la especie
“versicolor”
4.4) Evaluar la normalidad de los datos “iris” de la base de datos en R, para la especie
“virginica”
5
José Carlos Vega, Ph. D.
Tema 5.- Inferencias con datos multivariantes. Prueba de hipótesis de un vector de medias,
prueba de hipótesis de diferencia de dos vectores de media, prueba de hipótesis de no
igualdad de matrices de covavianzas
Hip.vm=function(dat,mu)
{ n=dim(dat)[1]; p=dim(dat)[2]
mx=colMeans(dat)
s=var(dat)
T2=n*mahalanobis(mx,mu,s)
Fcal=T2*(n-p)/((n-1)*p)
pval=1-pf(Fcal,p,(n-p))
calculos=data.frame(T2=T2,Fcal=Fcal,glNum=p,glDen=n-p,Pval=pval)
list(Prueba=calculos)
}
M.Box=function(dat)
{n=dim(dat)[1]
q=dim(dat)[2]; p=q-1
y=dat[,q]
r=table(y)
g=NROW(r)
datg=list(); Sg=list()
SS=matrix(0,p,p)
m2=0
for(i in 1:g)
{datg[[i]]=dat[y==i,-q]
Sg[[i]]=var(datg[[i]])
m2=m2+(r[i]-1)*log(det(Sg[[i]]))
SS=SS+(r[i]-1)*Sg[[i]]
}
Sp=SS/sum(r-1)
k=(p+1)*(g-1)
u1=sum(1/(r-1))-1/sum(r-1)
u2=(2*p^2+3*p-1)/(6*k)
u=u1*u2
m1=sum(r-1)*log(det(Sp))
M=m1-m2
C=(1-u)*M
v=p*k/2
pvalue=1-pchisq(C,v)
calculos=data.frame(M,C,gl=v,pvalue)
list(pooled=Sp,Prueba=calculos)
6
José Carlos Vega, Ph. D.
Hip.2vm=function(dat1,dat2)
{ n1=dim(dat1)[1]; p=dim(dat1)[2]
n2=dim(dat2)[1]
mx1=colMeans(dat1); s1=var(dat1)
mx2=colMeans(dat2); s2=var(dat2)
sp=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2)
S=sp*(1/n1+1/n2)
T2=mahalanobis(mx1,mx2,S)
Fcal=T2*(n1+n2-p-1)/((n1+n2-2)*p)
q=n1+n2-p-1
pval=1-pf(Fcal,p,q)
medias=rbind(mx1,mx2)
calculos=data.frame(T2=T2,Fcal=Fcal,glNum=p,glDen=q,Pval=pval)
list(Prueba=calculos)
}
7
José Carlos Vega, Ph. D.
Tema 6.- Aplicaciones del Análisis de Componentes Principales (ACP). Análisis del
comportamiento de las empresas respecto a las variables: compensación, ventas,
utilidades y empleos. Uso de software estadístico. Interpretación de los resultados.
empresa X1 X2 X3 X4
1 450 4600.6 128.1 48000
2 387 9255.4 783.9 55900
3 368 1526.2 136.0 13783
4 277 1683.2 179.0 27765
5 676 2752.8 231.5 34000
6 454 2205.8 329.5 26500
7 507 2384.6 381.8 30800
8 496 2746.0 237.9 41000
9 487 1434.0 222.3 25900
10 383 470.6 63.7 8600
11 311 1508.0 149.5 21075
12 271 464.4 30.0 6874
13 524 9329.3 577.3 39000
14 498 2377.5 250.7 34300
15 343 1174.3 82.6 19405
16 354 409.3 61.5 3586
17 324 724.7 90.8 3905
18 225 578.9 63.3 4139
19 254 966.8 42.8 6255
20 208 591.0 48.5 10605
21 518 4933.1 310.6 65392
22 406 7613.2 491.6 89400
23 332 3457.4 228.0 55200
24 340 545.3 54.6 7800
25 698 22862.8 3011.3 337119
26 306 2361.0 203.0 52000
27 613 2614.1 201.0 50500
28 302 1013.2 121.3 18625
29 540 4560.3 194.6 97937
30 293 855.7 63.4 12300
31 528 4211.6 352.1 71800
32 456 5440.4 655.2 87700
33 417 1229.9 97.5 14600
8
José Carlos Vega, Ph. D.
9
José Carlos Vega, Ph. D.
Tema 7.- Aplicaciones del Análisis Factorial (AF). Análisis de un estudio de satisfacción de
clientes de una entidad bancaria. Uso de software estadístico. Interpretación de los
resultados.
Un estudio, con el objetivo de conocer la calidad de servicio de las Agencias Hipotecarias fueron
entrevistados 15 clientes que recientemente habían hecho su préstamo hipotecario y
respondieron a las siguientes preguntas:
cliente X1 X2 X3 X4 X5
1 0 3 0 7 7
2 5 3 7 3 2
3 9 9 4 9 9
4 7 7 9 0 0
5 3 0 1 6 6
6 6 1 4 5 2
7 5 4 3 6 3
8 1 3 1 7 7
9 5 5 9 1 1
10 7 1 5 4 2
11 8 7 3 9 9
12 3 0 2 6 4
13 3 2 8 2 1
14 7 8 2 8 8
15 0 2 0 7 8
10
José Carlos Vega, Ph. D.
6.7) Mediante el análisis de los valores propios, calcular la varianza acumulada de los
componentes principales.
11
José Carlos Vega, Ph. D.
Tema 8.- Aplicaciones del Análisis de Correlación Canónica (ACC). Análisis de efectividad de
vendedores mediante el estudio de asociación de variables de ventas y variables de
aptitud del vendedor. Uso de software estadístico. Interpretación de los resultados.
vendedor X1 X2 X3 X4 X5 X6 X7
1 93.0 96.0 97.8 9 12 9 20
2 88.8 91.8 96.8 7 10 10 15
3 95.0 100.3 99.0 8 12 9 26
4 101.3 103.8 106.8 13 14 12 29
5 102.0 107.8 103.0 10 15 12 32
6 95.8 97.5 99.3 10 14 11 21
7 95.5 99.5 99.0 9 12 9 25
8 110.8 122.0 115.3 18 20 15 51
9 102.8 108.3 103.8 10 17 13 31
10 106.8 120.5 102.0 14 18 11 39
11 103.3 109.8 104.0 12 17 12 32
12 99.5 111.8 100.3 10 18 8 31
13 103.5 112.5 107.0 16 17 11 34
14 99.5 105.5 102.3 8 10 11 34
15 100.0 107.0 102.8 13 10 8 34
16 81.5 93.5 95.0 7 9 5 16
17 101.3 105.3 102.8 11 12 11 32
18 103.3 110.8 103.5 11 14 11 35
19 95.3 104.3 103.0 5 14 13 30
20 99.5 105.3 106.3 17 17 11 27
21 88.5 95.3 95.8 10 12 7 15
22 99.3 115.0 104.3 5 11 11 42
23 87.5 92.5 95.8 9 9 7 16
24 105.3 114.0 105.3 12 15 12 37
25 107.0 121.0 109.0 16 19 12 39
26 93.3 102.0 97.8 10 15 7 23
27 106.8 118.0 107.3 14 16 12 39
28 106.8 120.0 104.8 10 16 11 49
29 92.3 90.8 99.8 8 10 13 17
12
José Carlos Vega, Ph. D.
13
José Carlos Vega, Ph. D.
7.5) Calcular la matriz de covarianzas entre las variables de ventas y las variables de aptitud del
vendedor
7.8) Calcular la correlación entre las variables canónicas y las variables canónicas
14
José Carlos Vega, Ph. D.
Tema 9.- Aplicaciones del Análisis Discriminante (AD). Análisis de clasificación de nuevos
clientes de una empresa. Análisis de admisión de estudiantes a una Escuela Graduada
de Negocios. Uso de software estadístico. Interpretación de los resultados.
Para probar la diferencia de matrices de varianzas-covarianzas, se usa la prueba M de Box
DOS CONJUNTOS DE DATOS
mbox=function(dat1,dat2)
{n1=dim(dat1)[1]; p=dim(dat1)[2]
n2=dim(dat2)[1]; g=2 #g:grupos
gl1=n1-1; gl2=n2-1
u1=1/gl1+1/gl2
u2=1/(gl1+gl2)
u3=(2*p^2+3*p-1)/(6*(p+1)*(g-1))
u=(u1-u2)*u3
s1=var(dat1); s2=var(dat2)
sp=(gl1*s1+gl2*s2)/(gl1+gl2)
m1=(gl1+gl2)*log(det(sp))
m2=gl1*log(det(s1))+gl2*log(det(s2))
M=m1-m2
C=(1-u)*M; v=p*(p+1)*(g-1)/2; gl=v
pvalue=1-pchisq(C,v)
calculos=cbind(M,C,gl,pvalue)
list(pooled=sp,Prueba=calculos)
}
15
José Carlos Vega, Ph. D.
Un estudio para analizar la admisión de estudiantes a una Escuela Graduada de Negocios está
basado en el análisis de dos variables
X1: GPA
X2: GMAT
16
José Carlos Vega, Ph. D.
8.3) ¿Existe homogeneidad de matrices de covarianzas entre estudiantes “no admitidos” y “en
espera”?
8.5) Calcular la función discriminante para clasificar estudiantes “admitidos” y “no adminitidos”
8.6) Calcular la función discriminante para clasificar estudiantes “admitidos”, “no admitidos” y
“en espera”
17
José Carlos Vega, Ph. D.
Tema 10.- Aplicaciones del Análisis de Conglomerados (AC). Análisis de diseño de un plan de
incentivos para vendedores, considerando las dificultades de las distintas zonas de
ventas. Uso de software estadístico. Interpretación de los resultados.
zonas X1 X2 X3 X4 X5 X6
18
José Carlos Vega, Ph. D.
9.5) Hacer un dendograma de las zonas, mediante el método enlace simple. ¿Cuántos grupos se
formaron?
9.6) Hacer un dendograma de las zonas, mediante el método enlace completo. ¿Cuántos grupos
se formaron?
9.7) Hacer un dendograma de las zonas, mediante el método enlace promedio. ¿Cuántos
grupos se formaron?
9.8) Hacer un dendograma de las zonas, mediante el método enlace de Ward. ¿Cuántos grupos
se formaron?
19
José Carlos Vega, Ph. D.
REFERENCIAS
Ezequiel Uriel y Joaquín Aldás (2005) Análisis Multivariante Aplicado: Aplicaciones al Marketing,
Investigación de Mercados, Economía y Dirección de Empresas y Turismo. Thomson
Richard A. Johnson and Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Sixth edition.
Pearson, Prentice Hall.
Ezequiel Uriel Jimenez y Joaquin Aldas Manzano (2005). Análisis Multivariante Aplicado. Thomsom
Paraninfo, S.A.
Mardia, K.V., Kent, J.T. and Bibby, J.M. (2003). Multivariate Analysis (paperback). London: Academic Press.
Srivastava, M.S. (2002). Methods of Multivariate Statistics. New York: John Wiley.
20