Listoimprimir PDF
Listoimprimir PDF
Listoimprimir PDF
Presentado por
Director
GUILLERMO MARTÍNEZ FLÓREZ
Universidad de Córdoba
Junio 16
2015
UNIVERSIDAD DE CÓRDOBA
FACULTAD DE CIENCIAS BÁSICAS
DEPARTAMENTO DE MATEMÁTICAS Y ESTADÍSTICA
Los jurados abajo firmantes certifican que han leido y que aprueban el traba-
jo titulado MODELOS DE REGRESIÓN LINEALES Y NO LINEALES
CON APOYO COMPUTACIONAL presentado por la estudiante CLARE-
NA ARRIETA ARRIETA
Fecha: 16-06-2015
Director:
Guillermo Martínez
Jurado:
Javier Ramírez
Jurado:
Jessica Rojas
i
A mis padres Darys y Orlando.
ii
Agradecimientos
iii
Contenido
Resumen viii
Introducción ix
1. Regresión en R 1
1.1. Estadística con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Creación de Vectores en R . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Lectura de datos de un archivo . . . . . . . . . . . . . . . . . . . . . 3
1.3.1. La Función read.table() . . . . . . . . . . . . . . . . . . . . 3
1.3.2. Función attach() . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. La Función lm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4.1. Otras funciones . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2. Modelos de regresión 6
2.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Análisis de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Coeficiente de correlación lineal de Pearson . . . . . . . . . . . . . . . 8
2.3.1. Prueba de Hipótesis para el Coeficiente de Correlación . . . . 9
2.3.2. Medidas de asociación no paramétricas . . . . . . . . . . . . . 10
iv
3.2. Análisis de varianza (ANAVA) . . . . . . . . . . . . . . . . . . . . . . 24
3.2.1. Particionamiento de la suma de cuadrados total . . . . . . . . 25
3.2.2. Coeficiente de determinación R2 . . . . . . . . . . . . . . . . 27
3.3. Distribución de las formas cuadráticas . . . . . . . . . . . . . . . . . 27
3.4. Distribuciónes F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.5. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6. ANAVA Parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.7. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.8. Validación de Supuestos . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.8.1. Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.8.2. Homogeneidad de Varianzas de los errores . . . . . . . . . . . 41
3.8.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.8.4. Prueba de Rachas . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.9. Selección de variables y mejor modelo . . . . . . . . . . . . . . . . . . 46
3.9.1. Criterio Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . 46
3.9.2. Criterio AIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.9.3. Regresión paso a paso . . . . . . . . . . . . . . . . . . . . . . 46
3.9.4. Backward elimination . . . . . . . . . . . . . . . . . . . . . . . 47
3.9.5. Forward elimination . . . . . . . . . . . . . . . . . . . . . . . 47
3.10. Análisis de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.10.1. Medidas de influencia . . . . . . . . . . . . . . . . . . . . . . . 49
3.11. Predicción en el modelo lineal . . . . . . . . . . . . . . . . . . . . . . 54
3.11.1. Predicción para valores observados . . . . . . . . . . . . . . . 54
3.11.2. Predicción para valores futuros (no observados) . . . . . . . . 57
3.12. Modelos Polinomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4. Variables dicotómicas. 73
4.1. Interpretación del modelo con variables dicotómicas . . . . . . . . . . 75
4.2. Variables dicotómicas para mas de dos grupos . . . . . . . . . . . . . 75
4.3. Variables dicotómicas en presencia de interacción . . . . . . . . . . . 76
v
5. Modelos de regresión no lineal 83
5.1. Modelos no lineales más usuales . . . . . . . . . . . . . . . . . . . . . 84
5.1.1. Modelos Exponenciales(log-lin) . . . . . . . . . . . . . . . . . 84
5.1.2. Modelos Logarítmicos (lin-log) . . . . . . . . . . . . . . . . . . 91
5.1.3. Modelos Potenciales (log-log) . . . . . . . . . . . . . . . . . . 97
5.1.4. Modelo inverso . . . . . . . . . . . . . . . . . . . . . . . . . . 104
vi
B.7.3. Pruebas de hipótesis para dos poblaciones normales indepen-
dientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
B.7.4. Prueba de Hipótesis para Comparar Proporciones: . . . . . . . 135
Bibliografía 136
vii
Resumen
viii
Introducción
Los modelos de regresión son una técnica estadística utilizada para estudiar la re-
lación entre variables. Se adapta a una amplia variedad de situaciones, por ejemplo
en la investigación social, los modelos de regresión se utilizan para predecir un am-
plio rango de fenómenos, desde medidas económicas hasta diferentes aspectos del
comportamiento humano, también en otros campos como la medicina, la ingenie-
ría,la biología,la informática entre otros; en el caso de una variables independiente
(regresión simple) y en múltiples variables independientes (regresión múltiple). Los
modelos de regresión se usan para explorar y cuantificar la relación entre una variable
llamada dependiente (o explicada) Y y una o más variable llamadas independientes
(o predictoras) X1 , X2 , · · · , Xp−1 ; con el objetivo de desarrollar una ecuación con
fines predictivos. Los modelos de regresión llevan asociados una serie de procedi-
mientos de diagnóstico (análisis de los residuos, análisis de influencia) que informan
sobre el modelo estadístico que sigue el termino aleatorio (errores) y la influencia
que tiene una observación o grupo de observaciones sobre la estimación de los pará-
metros ó sobre la validación de los supuestos con los que deben cumplir el modelo
ajustado.
Gujarati (2004) señala que, entre los modelos de regresión que existen se encuentran
los modelos lineales y no lineales. Los modelos de regresión lineal son aquellos en
los cuales la(s) variable(s) predictora(s) y la variable dependiente se relacionan en
forma lineal, así el modelo es de la forma
yi = β0 + β1 xi + i en caso simple,
ix
para i = 1, 2, . . . , n. En general estos modelos se puede escribir en forma matricial
de la siguiente manera
Y = Xβ +
x
Capítulo 1
Regresión en R
1
table(x): Tabla de frecuencias de x.
prop.table(table(x)): Tabla de frecuencias relativas
table(x,y): Tabla de frecuencias cruzadas de x por y.
prop.table(table(x),margin=i): Tabla de frecuencias relativas. Las frecuencias
relativas se calculan por fila si margin=1, por columna si margin=2 o globales si no
se especifica margin.
mean(x): Media de los elementos de x
median(x): Mediana de los elementos de x.
quantile(x,probs=): Cuantiles muestrales correspondientes a las probabilidades
especificadas, por ejemplo si hacemos
probs=c(0.25, 0.5,0.75,0.95).
weighted.mean(x, w): Media de x ponderada por w.
rank(x): Rangos de los elementos de x.
var(x): Varianza muestral de x (se usa n − 1 como divisor);
sd(x): Desviación típica de x.
summary(x): Muestra un resumen de estadísticos descriptivos: mínimo, máximo, me-
dia, mediana y primer y tercer cuartil para variables continuas; tabla de frecuencias
para variables discretas (factores).
cov(x,y): Covarianza entre las variables x e y.
cov(A): Matriz de varianzas-covarianzas del data.frame A.
cor(x, y, method, use): Correlación lineal entre las variables x e y. Como método
se puede elegir “pearson”, “spearman”o “kendall”. Por defecto se calcula la correlación
de Pearson. El parámetro use permite especificar la acción a realizar en presencia
de valores perdidos.
cor(A): Matriz de correlaciones de las variables del data.frame A.
scale(x): Tipificación de los valores de x (se les resta su media y se dividen por
su desviación típica); si se añade la opción center=FALSE sólo se cambian de esca-
la, dividiendo por la desviación típica; si se añade scale=FALSE sólo se les resta la
media.
2
1.2. Creación de Vectores en R
R utiliza diferentes estructuras de datos. La estructura más simple es el vector,
que es una colección ordenada de números. Para crear un vector, por ejemplo X,
consistente en cinco números, por ejemplo 10.4, 5.6, 3.1, 6.4 y 21.7, use la orden
Esta es una asignación "<-" con la que se usa la función c() que, en este contexto,
puede tener un número arbitrario de vectores como argumento y cuyo valor es el
vector obtenido mediante la unión de todos estos. Un número, por sí mismo, se
considera un vector de longitud uno.
Para poder leer una hoja de datos directamente, el archivo externo debe reunir las
condiciones adecuadas. La forma más sencilla es:
3
1.3.2. Función attach()
> attach(cualquier.lista)
1.4. La Función lm
Existe una gran gamma de funciones para estimar modelos de regresión como lo son
lm, nls, aov, lme, nlme, lmer; entre otras, pero en este trabajo nos enfocare-
mos en la función lm, la cual es un mecanismo fuerte y cómodo de utilizar para el
análisis de regresión lineal. Puede utilizarse con tan solo dos argumentos una fórmu-
la y una dataframe que suministra los valores para evaluar las expresiones en dicha
fórmula. Por ejemplo, así:
4
textttgam(formula,family=, . . . ): Ajuste de modelos aditivos generalizados. Debe
cargarse el paquete mgcv.
5
Capítulo 2
Modelos de regresión
6
Variable dependiente o predicha
Una variable dependiente es aquella cuyos valores dependen de los que tome
otra variable. La variable dependiente en una función se suele representar por
Y . La variable dependiente se representan en el eje de las ordenadas. Las va-
riables de respuesta que se observan en el estudio y que podrían estar influidas
por los valores de las variables independientes.
Hayman(1974) la define como propiedad o característica que se trata de cam-
biar mediante la manipulación des las variables independientes.
7
2.3. Coeficiente de correlación lineal de Pearson
El coeficiente de correlación lineal de Pearson mide el grado de asociación lineal que
existe entre dos variables X y Y , viene dado por:
σXY
ρ= (2.1)
σX σY
5. Aunque es una medida de asociación lineal entre dos variables, esto no implica
necesariamente alguna relación causa-efecto.
A continuación mostramos un gráfico donde se observa la tendencia entre dos
variables y su respectivo coeficiente de correlación.
8
Tendencias y Correlaciones
1 P n
(xi − x) (yi − y)
n − 1 i=1
r = ρb = (2.2)
Sx Sy
Realizando los productos respectivos y aplicando las propiedades de la sumatoria
llegamos a la siguiente expresión.
n
P
xi yi − nx y
i=1
r= 1/2 1/2 (2.3)
n n
2 2
x2i yi2
P P
− nx − ny
i=1 i=1
9
puntos (Xi ,Yi ) se puede llevar a cabo la prueba de hipótesis:
H0 : ρ = 0 contra H1 : ρ 6= 0, (2.4)
e2l1 − 1 e2l2 − 1
< ρ < (2.6)
e2l1 + 1 e2l2 + 1
Z1−α/2
donde el límite inferior l1 = Zr − √ ; mientras que el límite superior l2 =
n−3
Z1−α/2 1+r
Zr + √ y Zr = 12 ln .
n−3 1−r
10
por Ri (y) quedando:
Pn
[(Ri (x) − Ri (x)) − (Ri (y) − Ri (y))]
rs = q P i=1
[ 2i=1 (Ri (x) − Ri (x))2 ][ 2i=1 (Ri (y) − Ri (y))2 ]
P
Nc − Nd
τ=
n(n − 1)/2
donde
Nc : El número de concordantes (ordenado de la misma manera)
Nd : El número de discordantes (un orden diferente).
11
Preámbulo en R para el cálculo de los coeficientes de correlación
Mediante el diagrama de dispersión notamos una posible relación lineal directa entre
las variables X e Y . Para el cálculo del coeficiente de correlación de Pearson en R
se usa la función cor()
> cor(X,Y,method="pearson")
0.977135
Es decir, que existe una asociación lineal directa del 97.7 % entre las variables dosis
de nitrógeno y peso de la primera mano, lo que indica que el peso de la primera
mano está asociado directamente con la dosis de nitrógeno aplicada. Para probar la
hipótesis:
H0 : ρ = 0 vs H1 : ρ 6= 0 usamos la función cor.test() en la siguiente forma
12
> cor.test(X,Y,method="pearson")
Pearson’s product-moment correlation
data: X and Y
t = 14.5329, df = 10, p-value = 4.737e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9180659 0.9937578
sample estimates:
cor
0.977135
0.918 ≤ ρ ≤ 0.993
> cor(X,Y,method="spearman")
0.958042
> cor.test(X,Y,method="spearman")
Spearman’s rank correlation rho
data: X and Y
S = 12, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
13
sample estimates:
rho
0.958042
> cor(X,Y,method="kendall")
0.8787879
> cor.test(X,Y,method="kendall")
Kendall’s rank correlation tau
data: X and Y
T = 62, p-value = 5.319e-06
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.8787879
14
Capítulo 3
El análisis de regresión lineal múltiple permite establecer la relación que existe entre
una variable dependiente Y y un conjunto de variables (X1 , X2 , . . . , Xp−1 ), indepen-
dientes. El análisis de regresión lineal múltiple, a se aproxima más a situaciones de
análisis real puesto que los fenómenos, hechos y procesos sociales, por definición,
son complejos y, en consecuencia, deben ser explicados en la medida de lo posible
por la serie de variables que, directa e indirectamente, participan en su concreción.
Al aplicar el análisis de regresión múltiple lo más frecuente es que tanto la variable
dependiente como las independientes sean variables continuas medidas en escala de
intervalo o razón.
El modelo de regresión lineal múltiple se define por
Y = Xβ +
15
asociados con éstas, respectivamente.consideran puras. En forma más detallada
y 1 x11 · · · x1j · · · x1(p−1) β e
1 0 1
y2 1 x21 · · · x2j · · · x2(p−1) β1 e2
.. .. .. .. .. .. ..
. . . . . . .
= +
yi 1 xi1 · · · xij · · · xi(p−1) βj ei
.. .. .. .. .. .. ..
. . . . . . .
yn 1 xn1 · · · xnj · · · xn(p−1) βp−1 en
iid
Para el modelo de regresión lineal se deben satisfacer i ∼ N (0, σ 2 ). Esto es,
E() = µ = 0 y V ar() = σ 2 I, luego Y = Xβ + satisface
2
V ar(Y) = σY = V ar(Xβ + ) = V ar() = σ 2 I.
yi = β0 + β1 xi + i , para i = 1, 2, . . . , n (3.1)
16
3.1.1. Mínimos cuadrados ordinarios
=Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ,
considerando esta última cantidad como una función de β, digamos f (β) y aplicando
diferenciación matricial derivamos f (β) con respecto a β obteniendo:
∂f
= −2X0 Y + 2X0 Xβ (3.2)
∂β
X0 Xβ̂ = X0 Y (3.3)
Sobre la teoría clásica, se supone que los errores cumplen ciertos supuestos, los cuales
son fundamentales para la estimación de los parámetros. Estos supuestos para el caso
particular p = 2 son:
17
iid
puede resumir mediante la expresión i ∼ N (0, σ 2 ). Esto implica que la esperanza
de la variable respuesta y dado la variable explicativa x, o la recta promedio, viene
determinada por µyi |xi = E (yi |xi ) = β0 +β1 xi , el cual representa el valor promedio
de la variable dependiente y, para un valor de la variable independiente x.
µ
byi |xi = ybi = βb0 + βb1 xi para i = 1, 2, . . . , n (3.5)
es decir que b
i = ei = yi − ybi donde βb0 y βb1 son, respectivamente, los mejores
estimadores lineales insesgados de β0 y β1 . Para llegar a una expresión con la cual
se logre estimar estos parámetros se aplica el método de los mínimos cuadrados
ordinarios, el cual consiste en minimizar la suma de cuadrados de los errores, es
decir minimizar la expresión
n
X n
X
e2i = (yi − β0 − β1 xi )2 . (3.6)
i=1 i=1
n
X
(yi − β0 − β1 xi ) = 0 (3.8)
i=1
18
de máxima verosimilitud se hace alguna suposición acerca de esta distribución (a
menudo se supone que es normal) y se maximiza la verosimilitud de las observaciones
muéstrales representadas por los datos. Asumiendo que
i ∼ N (0, σ 2 ), i = 1, 2, . . . , n.
La función de verosimilitud es
n
" n
#
Y 1 1 X
L(β; Y) = f (i ) = n exp − 2 (i −
E(i ))
2
, pero E(i ) = 0
i=1
(2π) 2 σ n 2σ i=1
!2
n p
1 − 1
X X
= n exp yi − xij βj
(2πσ 2 ) 2 2σ 2 i=1 j=0
1 1 0
= n exp − (Y − Xβ) (Y − Xβ)
(2πσ 2 ) 2 2σ 2
1 1 0
= n exp − .
(2πσ 2 ) 2 2σ 2
Maximizar ésta función equivale a maximizar log(L(β; Y)),de acuerdo a resultados
conocidos en el cálculo diferencial entonces haciendo diferenciación matricial con
respecto al vector de parámetros β obtenemos:
n n 1
log(L(β; Y)) = − log(2π) − log(σ 2 ) − 2 (Y − Xβ)0 (Y − Xβ)
2 2 2σ
n n 1
= − log(2π) − log(σ 2 ) − 2 (Y0 Y − 2β 0 X0 Y + β 0 X0 Xβ).
2 2 2σ
∂ log(L) 1
= − 2 (−2X0 Y + 2X0 Xβ) (3.11)
∂β 2σ
Igualando a cero la ecuación (3.11) se tiene:
X0 Xβ̂ = X0 Y
19
Maximizar esta última expresión es equivalente a minimizar
n
X n
X n
X
e2i = (yi − ŷi )2 = (yi − β0 − β1 xi )2
i=1 i=1 i=1
Nota 3.1 Notamos que por el método de los Mínimos cuadrados Ordinarios y por
el de Máxima Verosimilitud obtenemos el mismo estimador para β, esto se debe a
que maximizar la función exp(− 2σ1 2 0 ) equivale a minimizar 0 , lo cual conduce a
obtener el mismo estimador por los dos métodos.
∂ log(L) n 1 1
= − (1) + (Y − Xβ)0 (Y − Xβ)
∂σ 2 2 σ2 2σ 4
1 1 0
= 2 −n + 2 (Y − Xβ) (Y − Xβ) .
2σ σ
(Y − Xβ̂)0 (Y − Xβ̂)
Igualando a cero y definiendo S 2 = , obtenemos el estimador
n−p
n−p 2 1
σ̂ 2 = S = (Y − Xβ̂)0 (Y − Xβ̂).
n n
3.1.3. Propiedades de β̂ y S 2
20
Varianza: Para β̂ tenemos la siguiente matriz de varianzas y covarianzas:
= σ 2 (X0 X)−1 .
ê = (Y − Xβ̂) = Y − Ŷ = (I − H)Y
La matriz H recibe el nombre matriz Hat porque HY = Ŷ, es fácil verificar que:
2. [I − H]X = 0n×p
3. X0 [I − H] = 0p×n
21
Para finalizar esta sección tenemos un teorema que resume lo obtenido hasta ahora
y nos brinda aún mas información, por ejemplo asegura la independencia de los
estimadores β̂ y S 2 , y además nos dice la distribución que sigue cada uno de estos.
Como veremos en la prueba, E(S 2 ) = σ 2 , lo cual implica que el estimador de máxima
verosimilitud obtenido para σ 2 es sesgado ya que:
2 n−p 2 n − p 2 n − p 2
E[σ̂ ] = E S = E S = σ 6= σ 2 .
n n n
σ2 2
β̂ ∼ N (β, σ 2 (X0 X)−1 ) y S 2 ∼ χ .
n − p (n−p)
Prueba. Ya sabemos que E(β̂) = β, V [β̂] = σ 2 (X0 X)−1 , y β̂ ∼ N (β, σ 2 ((X0 X)−1 )).
Ahora, sea γ = ê = (I − H)Y, así
= 0,
= σ 2 (I − H)(I − H)0 .
Además
22
γ
luego γ ∼ N (0, (I − H)σ 2 ) y ∼ N (0, I − H).
σ
Ahora bien, como I − H también es idempotente
= tr(In ) − tr(Ip ) = n − p.
γ 0γ
1 1
2
E[S ] = E = E[γ 0 γ] = E[Y0 (I − H)Y]
n−p n−p n−p
1
= {tr[(I − H)σ 2 I] + E[Y]0 (I − H)E[Y]}
n−p
1
= {σ 2 (n − p) + β 0 X0 (I − H)Xβ}
n−p
(n − p)
= σ2 = σ2.
(n − p)
Entonces S 2 es un estimador insesgado de σ 2 . Por tanto
1 σ2 2
S2 = γγ 0 ∼ χ .
n−p n − p (n−p)
1
Ahora, β̂ = (X0 X)−1 X0 Y y S 2 = Y0 (I − H)Y, donde
n−p
=0
23
Entonces
∗ n (Y − Xβ)0 (Y − Xβ) (Y − Xβ)0 (Y − Xβ)
t = = = S2
n−p n n−p
es insesgado y por el teorema de Rao- Blackwell, t∗ = S 2 es de mínima varianza. ♦
H0 : β = 0 vs H1 : β 6= 0
La figura(3.3.1) muestra los casos representados por las hipótesis mencionadas an-
teriormente.
Gráfico 3.3.1
24
La figura (3.3.2) muestra los elementos necesarios para obtener el estadístico de
prueba
Gráfico 3.3.2
0
SCE = Y0 [In −H][In −H]Y = Y0 [In −H]Y = Y0 Y − Y0 HY = Y0 Y − β̂ X0 Y
(3.16)
El término Y0 Y es la suma de cuadrados total de las observaciones y usaremos el
0
símbolo SCT y β̂ X0 Y se conoce como la suma de cuadrados de la regresión (o del
SCE
modelo) y usaremos el símbolo SCR para referirnos a ella. Notemos que S 2 = .
n−p
25
0
Se sigue que Y0 Y = β̂ X0 Y + SCE, escrito de otra forma
0
la diferencia SCR = SCT − SCE = β̂ X0 Y representa la porción de la suma de
cuadrados total atribuible al ajuste del modelo de regresión y por eso se llama suma
de cuadrados debido a la regresión o reducción en la suma de cuadrados debido al
ajuste del modelo. Esta partición de la SCT se resume en una forma tal que sirve
como fundamento para la tradicional tabla de análisis de varianza
26
2
SCT − SCM = Y0 Y − nY se conoce como la suma de cuadrados total corregida
por la media la cual notaremos por SCTm y se puede particionar así: SCTm =
SCRm + SCE escrita en forma de tabla nos queda este formato es idéntico al de la
β̂ y σ̂ 2 son independientes
Ya hemos probado esto en el Teorema de Gauss-Markov. Veamos una prueba un
poco diferente: Sabemos que σ̂ 2 = SCE
n−p
con SCE = Y0 [In − H]Y que es una forma
27
cuadrática en Y y β̂ = (X0 X)−1 X0 Y es una forma lineal en Y que tiene una distri-
bución normal con E(Y) = Xβ y V ar(Y) = σ 2 I por tanto usando las propiedades
de la matriz [In − H] tenemos lo siguiente:
(n − p)Cov(σ̂ 2 , β̂) = Cov(Y0 [In − H]Y, (X0 X)−1 X0 Y) = (X0 X)−1 X0 Var(Y)[In − H]
SCE
n−p tiene distribución χ2 central
SCE
Tenemos que = 1
σ2
Y0 [In − H]Y que es una forma cuadrática en Y. Luego
n−p
1 1
2
[In −H]V ar(Y) = 2 [In − H]σ 2 I = [In − H],
σ σ
SCE
∼ χ2[ran(In −H)] = χ2[tr(In −H)] = χ2[tr(In )−tr(H)] = χ2(n−p)
σ2
1
[H][σ 2 I] = X(X0 X)−1 X0
σ2
SCR
la cual es una matriz idempotente, por tanto tiene distribución χ2 no central
σ2
con ran[X(X0 X)−1 X0 ] = tr[X(X0 X)−1 X0 ] = tr[X0 X(X0 X)−1 ] = tr(Ip ) = p grados
de libertad y parámetro de no centralidad β 0 [X0 X]β, es decir,
β 0 [X0 X]β
SCR 2
∼ χ p,
σ2 2σ 2
28
SCM SCRm
Para probar que y tiene distribucion χ2 no central notemos que
σ2 σ2
y
1
n y2
1X 1 1 = 1 10n Y,
Y = Yi = (Y1 + Y2 + · · · + Yn ) = 1 1 ··· 1 .. n
n i=1 n n .
yn
0
2 1 0 1 0 1 1
luego Y = 1n Y 1n Y = 2 Y0 1n 10n Y = 2 Y0 Jn Y que es una forma
n n n n
cuadrática donde Jn es una matriz de tamaño n × n tal que Jij = 1 para todo
SCR
i, j = 1, 2, . . . , n y se realiza un análisis similar al que se usó para probar que
σ2
tiene una distribución χ2 no central.
3.4. Distribuciónes F
Recordemos que si u1 es una variable aleatoria con distribución χ2 no central con
n1 grados de libertad y parámetro de no centralidad λ1 y u2 tiene distribución χ2
u1 /n1
central con n2 grados de libertad independiente de u1 entonces el cociente v = ,
u2 /n2
aplicando este resultado podemos concluir
β 0 [X0 X]β
1. Como SCE ∼ χ(n−p) , SCR ∼ χ p, 2σ2
2 2
SCR/σ 2
β 0 [X0 X]β
p
F (R) = SCE/σ 2
∼ F p, n − p, (3.18)
2σ 2
n−p
29
2. Con argumentos similares se demuestra que:
SCRm /σ 2
p−1
F (Rm ) = SCE/σ 2
∼ F [p − 1, n − p] (3.19)
n−p
3. De igual forma
SCM /σ 2
(1n Xβ)2
p
F (M ) = SCE/σ 2
∼ F 1, n − p, (3.20)
2nσ 2
n−p
Total n SCTm = Y0 Y
Total n SCT = Y0 Y
30
Tabla 3.5.3 Análisis de varianza a partir de la partición 3.
Fuente de Grados de Sumas de Cuadrados Estadístico
variación libertad cuadrados medios F
0 2
Regresión p−1 SCRm = β̂ X0 Y − nY CM Rm = SCRm
p−1
F (Rm ) = CM Rm
CM E
0
Error n−p SCE = Y0 Y − β̂ X0 Y CM E = SCE
n−p
2
Total n−1 SCTm = Y0 Y − nY
Prueba basada en F (M )
El parámetro de no centralidad de la estadística F (M ) de la tabla de análisis de
(10 Xβ)2
varianza (3.5.2) es n 2 pero
2σ
31
luego podemos escribir el parámetro de no centralidad como
nE(Y )2
2σ 2
β̂i − βi β̂i − βi
=√ ∼ tn−p .
σβ̂i aii σ̂ 2
32
Entonces, para probar la hipótesis H0 : βi = 0 vs H1 : βi 6= 0, se utilizará el
estadístico de prueba
β̂i − βi
ti = √
aii σ̂ 2
el cual se rechaza al nivel α, si |tc | > t1− α2 ,n−p .
entonces el estadístico
K0 β̂ − K0 β
t= p ∼ tn−p
σ̂ K0 (X0 X)−1 K
El cual es utilizado para contrastar la hipótesis
H0 : K0 β i = 0 vs H1 : K0 β i 6= 0
Para p = 2
2
P P P 2 P
x x x i xi
i i i 1i i i
n2 S 2 − 2 2 n P (xi − X)2 − n P (xi − X)2
X1 n SX1 i i
σ̂β2 = σ̂ 2 = σ̂ 2
P 2
P
x 1i σ i x i 1
− 2i 2 2
− P P
n SX1 nSX 1
n i (xi − X)2 i (xi − X)
2
33
3.7. Intervalos de confianza
Para encontrar un intervalo confidencial para βi , nos basamos en el resultado
β̂i − βi
t= √ ∼ tn−p
σ̂ aii
y siguiendo los pasos ya conocidos en la construcción de un I.C. al nivel 1 − α se
tiene que
pγ [−tn−p, α2 ≤ t ≤ tn−p, α2 ] = 1 − α,
entonces " #
β̂i − βi
pγ −tn−p, α2 ≤ √ ≤ tn−p, α2 = 1 − α,
σ̂ aii
luego
√ √
pγ [β̂i − σ̂ aii tn−p, α2 ≤ βi ≤ β̂i + σ̂ aii tn−p, α2 ] = 1 − α,
√ √
β̂i − σ̂ aii tn−p, α2 ≤ βi ≤ β̂i + σ̂ aii tn−p, α2
Ejemplo 3.1 En una investigación en suelos (Eid et al, 1954) se deseaba conocer
el efecto de las fuentes de donde el cultivo de maíz tomaba el fósforo, para lo cual
se midió la concentración de fósforo inorgánico (X1 ) y el orgánico (X2 ) en varios
suelos calcáreos. También se midió el contenido de fósforo del maíz sembrado en
esos suelos y se estimó el fósforo aprovechable por la planta (ppm) en suelos a una
temperatura de 200 C
Entonces:
34
Y : Fósforo disponible por la planta sembrada en un suelo con temperaturas
de 200 C (ppm). Esta variable se trata como una variable dependiente de las
variables independientes X1 y X2
M uestra X1 X2 Y M uestra X1 X2 Y
1 0,4 53 64 10 12,6 58 51
2 0,4 23 60 11 10,9 37 76
3 3,1 19 71 12 23,1 46 96
4 0,6 34 61 13 23,1 50 77
5 4,7 24 54 14 21,6 44 93
6 1,7 65 77 15 23,1 56 95
7 9,4 44 81 16 1,9 36 54
8 10,1 31 93 17 26,8 58 168
9 11,6 29 93 18 29,9 51 99
El modelo de regresión de primer orden con sus términos de error se espera que sea
el apropiado
Yi = β0 + β1 Xi1 + β2 Xi2 + i
Solución
Primero miraremos el comportamiento de las variables gráficamente a través de un
diagrama de dispersión.
> X1=c(0.4,0.4,3.1,0.6,4.7,1.7,9.4,10.1,11.6,12.6,10.9,23.1,
23.1,21.6,23.1,1.9,26.8,29.9)
> X2=c(53,23,19,34,24,65,44,31,29,58,37,46,50,44,56,36,58,51)
> Y=c(64,60,71,61,54,77,81,93,93,51,76,96,77,93,95,54,168,99)
> datos= cbind(Y,X1,X2) ; datos
> pairs(datos,panel=panel.smooth) # Realiza un diagrama de
dispersión múltiple
35
En el gráfico anterior notamos una mejor tendencia lineal entres las variables X1 e
Y , para reforzar esta afirmación se calcula la matriz de correlaciones de la base de
datos.
> cor(datos)
Y X1 X2
Y 1.0000000 0.6934031 0.3544662
X1 0.6934031 1.0000000 0.4615668
X2 0.3544662 0.4615668 1.0000000
36
para el vector de parámetros β̂ como lo son los respectivos errores estándar para
cada parámetro del modelo y los valores t para probar la hipótesis H0 : βi = 0;
además obtenemos la estimación de la desviación estándar del error σ̂
> summary(mod1)
Call:
lm(formula = Y X1 + X2)
Residuals:
Min 1Q Median 3Q Max
-32.828 -8.440 -1.118 6.694 58.757
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 56.25102 16.31074 3.449 0.00358 **
X1 1.78977 0.55674 3.215 0.00579 **
X2 0.08665 0.41494 0.209 0.83740
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 20.68 on 15 degrees of freedom
Multiple R-squared: 0.4823, Adjusted R-squared: 0.4133
F-statistic: 6.988 on 2 and 15 DF, p-value: 0.00717
Tenemos los siguientes errores estándar 16.31, 0.556, 0.414 para βˆ0 , βˆ1 y βˆ2 respecti-
vamente; además se tiene que el parámetro βˆ2 es no significativo en el modelo ya que
tiene un p − valor = 0.83 > 0.05 por lo que no se rechaza la hipótesis H0 : β2 = 0
para obtener σ̂ usamos summary(mod1)$sigma
> summary(mod1)$sigma
20.6784
Obteniendo σ̂ = 20.678
> confint(mod1)
2.5 % 97.5 %
(Intercept) 21.4855104 91.0165378
37
X1 0.6031036 2.9764446
X2 -0.7977808 0.9710793
3.8.1. Normalidad
La regresión lineal clásica supone que cada i esta distribuido normal con media
µ = E(i ) = 0 y varianza σ 2 para i = 1, 2, . . . , n, es decir,
iid
i ∼ N (0, σ 2 )
38
Las cuales se pueden contrastar mediante los siguientes test:
Prueba de Kolmogorov-Smirnov
Esta prueba asume que para una muestra aleatoria X1 , X2 , . . . , Xn de alguna
distribución continua con función de distribución acumulada dada por F (·).
En muchas ocasiones se desea saber si esta distribución sigue alguna estructura
conocida, para esto se fórmula el siguiente sistema de hipótesis
√
lı́m P ( nDn ≤ z) = Q(z)
n→∞
Con
∞
X
Q(z) = 1 − 2 (−1)k−1 exp(−2k 2 z 2 )
k=1
>library(car)
> ks.test(resid(mod1),"pnorm",0,sd(resid(mod1)))
39
One-sample Kolmogorov-Smirnov test
data: resid(mod1)
D = 0.1497, p-value = 0.761
alternative hypothesis: two-sided
Shapiro-Wilk(1965).
Esta es una prueba con mayor sensibilidad a la no normalidad, en esta no es
necesario calcular la media y la varianza de la muestra para incluirlas en la
hipótesis. Los autores han proporcionado tablas para n ≤ 50, las hipótesis a
probar es que los datos siguen distribución normal; los pasos para realizar esta
prueba son los siguientes.
Continuando con el ejemplo 3.1 realizamos el test de normalidad del modelo ajus-
tado.
>library(car)
> shapiro.test(resid(mod1))
Shapiro-Wilk normality test
data: resid(mod1)
W = 0.8875, p-value = 0.03493
40
3.8.2. Homogeneidad de Varianzas de los errores
Un supuesto importante del modelo clásico de regresión lineal es que los errores i
que aparecen en el modelo poblacional son homocedásticas, es decir, todas tienen la
misma varianza.
V ar(i ) = σi2 = σ 2 para todo i = 1, 2, . . . , n La hipótesis de interés es:
Para contrastar esta hipótesis se usan algunas pruebas entre las cuales tenemos:
Las variables z pueden ser las mismas X del modelo. La idea es probar que si
algún αi es distinto de cero entonces hay problema de heterocedasticidad.
Para llevar a cabo esta prueba se deben seguir los siguientes pasos:
Pi = α0 + α1 z1 + · · · + αk zk
41
> library(lmtest)
> bptest(mod1,varformula= resid(mod1),studentize=F)
Breusch-Pagan test
data: mod1
BP = 14.514, df = 1, p-value = 0.0001391
Prueba de White
Para llevar a cabo dicha prueba, consiste en realizar la regresión auxiliar (vea
Gujarati, 2004),
2i = α
b0 + α
b1 ybi . (3.22)
la cual sigue una distribución χ2(1) . Sí W > χ2(α,1) , entonces se rechaza la hipó-
tesis de homogeneidad de varianza, lo cual implicaría ensayar otros modelos,
observar sí hay valores influyentes o transformar la información, para tratar
de hacer cumplir el supuesto del modelo.
3.8.3. Independencia
Para realizar contrastes de autocorrelación entre los residuales hay que especificar la
hipótesis alternativa que defina un esquema de autocorrelación; ver Gujarati (2009).
La hipótesis a probar es:
42
H0 : Cov(j , j 0 ) = 0 para todo j 6= j 0
vs
H1 : Cov(j , j 0 ) 6= 0 para algún j 6= j 0
Existen varios test para contrastar este sistema de hipótesis entre los cuales tenemos
los siguientes
Durbin-Watson (1951)
Pn
i − ˆi−1 )2
i=2 (ˆ
DW = Pn 2
i=2 ˆi
Esta prueba se basa en la hipótesis de que los errores del modelo de regresión se
generan de un proceso autorregresivo de primer orden, que se da a intervalos de
tiempo igualmente espaciados, es decir, i = ρi−1 + ai .
Para esta prueba se tiene los siguientes supuestos:
> durbin.watson(mod1)
lag Autocorrelation D-W Statistic p-value
1 -0.1812819 2.325687 0.552
Alternative hypothesis: rho != 0
43
3.8.4. Prueba de Rachas
Definición: Una corrida es una subsecuencia de uno o más símbolos idénticos que
representan una propiedad común de los datos. por ejemplo en la secuencia de signos.
- + + - + + + - - +- -
Nótese que aparece primero una secuencia de un signo−, esto es una corrida, después
aparece una secuencia de signos +, esta es otra corrida, así se sigue y se llega a que se
tienen 7 corridas, puesto que hay 7 secuencias seguidas de signo de la misma especie.
Nótese que el número de corrida es una variable aleatoria, llámesele V , puesto que
depende de la forma como se obtuvo la muestra, en este caso la forma como se
obtuvieron los sinos + y −.
Según Walpole et al., (1982), para llevar a cabo una prueba de aleatoriedad o in-
dependencia de los errores, se puede aplicar la prueba de corridas siguiendo los
siguientes pasos:
1. Obténganse en el orden en que se obtuvieron los datos, los errores del modelo
2. Con los signos de los errores obtenidos obtenga el número de signos menos(−)
y el número de signos mas(+), llame n1 al número de signos asociados a la
categoría que ocurre menos y n2 a la categoría de signos que ocurren más, si
hay el mismo número de símbolos en cada categoría entonces es indiferente
quien es n1 y quien es n2 .
44
Para los errores del ejemplo de plátano, se observa que hay 6 signos positivos y 6
signos negativos, en este caso n1 = n2 = 6. Ahora el número de corridas es v = 7,
por lo tanto la probabilidad de rechazar la hipótesis nula de independencia de los
errores es:
P = 2 [1 − P (V ≤ 6 )] = 2 × [1 − 0, 608] = 0, 784 > α = 0, 05. Por lo tanto, la hipó-
tesis nula no es rechazada, al nivel de significancia del 5 % y se asume que los errores
son una muestra aleatoria, es decir, los datos fueron seleccionados aleatoriamente.
A medida que n1 y n2 se incrementan, la distribución de la variable aleatoria V se
aproxima a la distribución normal con media
2n1 n2
µv = +1 (3.24)
n1 + n2
y varianza
2n1 n2 (2n1 n2 − n1− n2 )
σv = . (3.25)
(n1 + n2 )2 (n1 + n2 − 1)
Generalmente cuando n1 y n2 están por encima de 10, se puede utilizar la estadística
de prueba:
V − µv
Z= (3.26)
σv
para llevar a cabo la prueba de corridas. El valor crítico para esta prueba se obtiene
con el percentil Z1−α/2 , utilizado en la forma usual cuando se utiliza la estadística
Z para una prueba de hipótesis.
Para implementar la prueba de rachas en R primero se deben extraer lo signos de
los residuales del modelo mediante la función sign(), luego estos signos lo debo
convertir en factor con la función as.factor(); por último la prueba de rachas se
implementa con la función runs.test()
> X=as.factor(sign(resid(mod1)))
> runs.test(X)
Runs Test
data: X
Standard Normal = -1.9437, p-value = 0.05194
alternative hypothesis: two.sided
45
3.9. Selección de variables y mejor modelo
SCError
Cp = + 2p
σ̂ 2
El criterio AIC, es de ámbito más general, y puede ser utilizado en cualquier verosi-
militud, sea o no normal la distribución generadora de la muestra. El valor de AIC
de una modelo se obtiene en R con la función AIC()
> AIC(mod1)
164.8472
46
3.9.4. Backward elimination
Para llevar a cabo este proceso de eliminación de variables se deben tener encuentra
los siguientes pasos.
En caso contrario, en cada paso la variable que se elimina del modelo es aquella
que satisface cualquiera de los siguientes requisitos equivalentes entre sí.
Aquella variable que tiene la correlación parcial (en valor absoluto) más peque-
ña con la variable de respuesta, tomando en cuenta las variables aún presentes
en el modelo.
Aquí se empieza con aquella variable predictora que tiene la más alta correla-
ción con la variable respuesta.
47
Aquí también está presente el efecto de anidamiento ya que toda variable que
es añadida al modelo ya no puede salir del mismo.
> step(mod1,direction="backward")
Start: AIC=111.77
Y ∼ X1 + X2
Df Sum of Sq RSS AIC
- X2 1 18.6 6432.6 109.82
<none> 6413.9 111.7
- X1 1 4419.0 10832.9 119.20
Step: AIC=109.82
Y ∼ X1
Df Sum of Sq RSS AIC
<none> 6432.6 109.8
- X1 1 5957 12389.6 119.62
Call:
lm(formula = Y ∼ X1)
Coefficients:
(Intercept) X1
59.259 1.843
48
3.10.1. Medidas de influencia
Los puntos con grandes valores de Di tienen gran influencia sobre el estimado de Ŷ.
La magnitud de Di se suele evaluar comparándola con Fα,p,n−p . Si Di = F0.5,p,n−p
entonces al eliminar el punto i se movería Ŷ(i) hacia la frontera de una región de
confianza aproximada de 50 % para Y, basándose en el conjunto completo de datos.
Es un desplazamiento grande e indica que el los predichos son sensibles al i-ésimo
punto de datos. Como Di = F0.5,p,n−p ' 1.
Si Di > 1 la i-ésima observación es influyente.
DFFITS:
Belsley et al. (1950) introdujeron otras dos medidas útiles para detectar la influencia
de la i−ésima observación sobre el vector de parámetros β. La primera es una
estadística que indica cuánto cambia el coeficiente de regresión β̂j , en unidades de
desviación estándar, si se omitiera la i-ésima observación. Esta estadística es
Ŷi − Ŷ(i)
DF F IT Si = q
s2(i) hii
49
La observación i es influyente si |DF F IT Si | > 2 np .
p
bj − bj(i)
DF BET ASj,i = q
s2(i) Cjj
0
Siendo Cjj el j-ésimo elemento diagonal de (X X)−1 , y βj(i) el j-ésimo coeficiente de
regresión, calculado sin usar la i-ésima observación. Un valor (de magnitud) grande
de DF BET ASj,i indica que la observación i tiene gran influencia sobre el j -ésimo
coeficiente de regresión. Obsérvese que DF BET ASj,i es una matriz de n × p que
contiene información parecida a la de la medida de distancia de Cook.
0 0
Se define la matriz de p × n, R = (X X)−1 X . Los n elementos del j-ésimo renglón
de R producen el balanceo que las n observaciones de la muestra tienen sobre β̂j . Si
0
se define a rj como el j-ésimo renglón de R.
rj,i i rj,i ti
DF BET ASj,i = √ =√ ,
rj rj S( i)(1 − hii ) rj rj (1 − hii )
COVRATIO:
Belsley, et al. (1980) sugieren que para determinar el papel de la observación i en la
precisión de la estimación, se define la estadística COV RAT IO como
|s2(i) (X(i)
t
X(i) )−1 |
COV RAT IOi = , i = 1, 2, . . . , n
|s2 (X t X)|
50
2. Si COV RAT IOi < 1, la inclusión de la observación disminuye la precisión de
la estimación. Para el cálculo se usa
(s2(i) )p
1
COV RAT IOi =
sp 1 − hii
h i
0 0
Nótese que 1
(1−hii )
es la relación de |(X(i) X(i) )−1 | entre |(X X−1 )|, por lo que un
punto de alto balanceo hará que COV RAT IOi sea grande. Esto es lógico, porque
un punto de alto balanceo mejorará la precisión, a menos que ese punto sea un valor
(s2(i) )p
atípico en el espacio de y. Si la i-ésima observación es atípica, sp
será mucho
menor que la unidad. No es fácil obtener valores de corte para COV RAT IO.
Para obtener las medidas de influencias antes mencionadas en R usamos la función
influence.measures() como se muestra a continuación.
> influence.measures(mod1)
Influence measures of
lm(formula = Y ∼ X1 + X2) :
dfb.1_ dfb.X1 dfb.X2 dffit cov.r cook.d hat inf
1 -0.02313 -0.06370 0.056008 0.0793 1.662 2.24e-03 0.2626 *
2 0.02291 -0.00802 -0.014387 0.0261 1.516 2.43e-04 0.1892
3 0.21049 -0.01103 -0.162158 0.2176 1.534 1.67e-02 0.2254
4 0.00734 -0.00901 -0.000852 0.0141 1.412 7.08e-05 0.1294
5 -0.26956 0.01965 0.196810 -0.2882 1.336 2.88e-02 0.1602
6 -0.38296 -0.52021 0.625561 0.7229 2.001 1.79e-01 0.4595 *
7 0.00638 -0.01768 0.014293 0.0520 1.303 9.65e-04 0.0641
8 0.22264 0.04508 -0.169326 0.2643 1.190 2.39e-02 0.0975
9 0.22025 0.08181 -0.188772 0.2554 1.270 2.25e-02 0.1226
10 0.42353 0.26170 -0.627784 -0.7886 0.748 1.78e-01 0.1523
11 -0.02349 -0.00285 0.013273 -0.0375 1.309 5.03e-04 0.0642
12 -0.00829 -0.07946 0.018215 -0.1085 1.391 4.18e-03 0.1302
13 0.06127 -0.32154 -0.027828 -0.5040 0.990 8.07e-02 0.1269
14 -0.01804 -0.07350 0.024885 -0.1030 1.367 3.77e-03 0.1155
15 0.06129 -0.07033 -0.057368 -0.1566 1.397 8.67e-03 0.1462
16 -0.07223 0.09948 -0.001021 -0.1565 1.331 8.62e-03 0.1131
51
17 -1.05700 1.51458 0.804128 2.6757 0.054 8.38e-01 0.1995 *
18 0.04326 -0.38435 0.042899 -0.4709 1.402 7.54e-02 0.2415
Distancias de Cook
Gráfica de Influencias
Realizando el análisis respectivo para cada una de estas medidas de influencia no-
tamos que la inclución de las observaciones 10 y 17 disminuyen la precisión en las
52
estimaciones de los parámetros del modelo, por tanto se ajustará un nuevo modelo
eliminando dichas observaciones.
> datos1=as.data.frame(datos[-c(10,17),])
> shapiro.test(resid(reg))
53
Shapiro-Wilk normality test
data: resid(reg)
W = 0.9558, p-value = 0.5864
> durbin.watson(reg)
lag Autocorrelation D-WStatistic p-value
1 0.153531 1.684519 0.394
Alternative hypothesis: rho != 0
Para tener una mejor visión de las observaciones influyentes en el modelo graficamos
todas estas medidas obteniendo asi que el mejor modelo se obtiene eliminando las ob-
servaciones 10 y 17, ya que eliminando estas observaciones se aumenta el coeficiente
de determinación R2 y el modelo cumple con todos los supuesto.
54
supuestos, estimamos la varianza del error con la cual se calculan intervalos de con-
fianza, se realizan pruebas de hipótesis etc. Para la predicción de valores observadas
se tiene lo siguiente. Sea Yˆ0 = X00 β̂ el valor estimado de un valor observado donde:
X00 es el vector fila formado por los valores observados de las variables explicati-
vas; además con el vector β̂ es una variable aleatoria normal, Yˆ0 será una variable
normal con E(Yˆ0 ) = E(X00 β̂) = X00 E(β̂) = X00 β, esto es, el valor teórico espera-
do para la variable Y (el predictor es insesgado). Por otro lado su varianza será:
V ar(X00 β̂) = X00 V ar(β̂)X0 = σ 2 X00 (X0 X)−1 X0 , Así, la distribución del predictor es:
Distribución que depende del parámetro desconocido σ .Este problema puede sol-
ventarse construyendo el estadístico
(Yˆ0 − X00 β̂)0 [X00 (X0 X)−1 X0 ]−1 (Yˆ0 − X00 β̂)
0
n−p
Que tendrá una distribución F , con 1 y n−p grados de libertad. Como X00 (X0 X)−1 X0 ,
X00 β̂ y el predictor son escalares podemos expresar este estadístico como:
55
lineal simple. Tras realizar las operaciones pertinentes acaba quedando un intervalo
para el valor futuro de Y (teórico según el modelo):
q 2
Sr 1 + (X0S−X)
2
Ŷ0 ± t α X
2
n−2
> predict(reg,interval="prediction")
56
3.11.2. Predicción para valores futuros (no observados)
> predict(reg,newdata=data.frame(X1=15.5,X2=49),interval="prediction")
fit lwr upr
84.0138 61.09816 106.9294
57
3.12. Modelos Polinomiales
En diversas ocasiones contamos con dos variables de las cuales se tiene definido
cual es la variable independiente y la dependiente, pero la relación que se observa
entre ellas es de tipo polinómico,aunque se creería que no se puede considerar este
comportamiento como lineal; si se puede considerar como un modelo de este tipo,
ya que existe linealidad en los parámetros del modelo. En los modelos polinomiales
se pueden observar los siguientes comportamientos.
V ar(β̂) = (X0 X)−1 X0 V ar(Y)X(X0 X)−1 = σ 2 (X0 X)−1 (X0 X)(X0 X)−1 = σ 2 (X0 X)−1
Luego V ar(β̂i ) = σ̂ 2 aii donde aii es el i-ésimo elemento de la diagonal de (X0 X)−1 .
Así un intervalo de confianza.
√ √
2 2
βi ∈ βi − Z 1− α
2
σ̂ aii , βi + Z 1− α
2
σ̂ aii
58
Ejemplo 3.2 Bajo la hipótesis que no existe ninguna relación entre el porcentaje (o
tasa) de crecimiento demográfico (X) y el porcentaje de producto interno bruto per-
capital (Y) se tomaron 14 ciudades de tamaño mediano, en un esfuerzo por comparar
ciudades de igual tamaño. Los resultados encontrados se muestran a continuación.
> X=c(3,2.4,1,0.7,0.8,1.1,3.5,0.9,2.5,2.1,1.1,2,1.3,2.3);X
> Y=c(1.6,-0.3,3.4,2,4,3.7,3.4,6.5,1.6,1.6,4.2,-0.3,3,-3.5);Y
> plot(X,Y)
Notamos que es posible que entre las variables X e Y no exista una relación de tipo
lineal ya que en su dispersión no se ve ese comportamiento. Por tanto realizaremos
una prueba formal de dependencia lineal entre dicha variables.
59
-0.4704583
> cor.test(X,Y,method="spearman")
Spearman’s rank correlation rho
data: X and Y
S = 712.9885, p-value = 0.03448
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-0.5670076
Para la prueba de dependencia tenemos que p − valor = 0.03 < 0.05, por lo que
se rechaza la hipótesis de Independencia, Así como en la dispersión notamos una
comportamiento de tipo polinómico entre estas variables, realizaremos ajustes de
este tipo empezando por un polinomio de grado 2.
Ajuste cuadrático o polinómica de orden 2:
60
-3.7212 -0.5428 0.3706 1.1361 2.5212
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.4154 2.5562 4.075 0.00184 **
X -8.9000 2.9971 -2.970 0.01276 *
I(X^2) 1.9425 0.7503 2.589 0.02518 *
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 1.848 on 11 degrees of freedom
Multiple R-squared: 0.5162, Adjusted R-squared: 0.4282
F-statistic: 5.867 on 2 and 11 DF, p-value: 0.01844
> AIC(mod)
61.54316
61
Ajuste de la curva.
Realizando el ajuste de la curva notamos que esta se ajusta casi perfecta a la nube
de puntos
> library(car)
> e=resid(mod);e
1 2 3 4 5
0.40211846 -0.54419478 -0.05790629 -3.13723023 -0.53860572
6 7 8 9 10
0.72416863 0.33900829 2.52116892 1.29398208 1.30817547
11 12 13 14
1.22416863 -0.68540084 0.87176889 -3.72122150
> shapiro.test(e)
Shapiro-Wilk normality test
data: e
W = 0.8934, p-value = 0.09039
62
> library(lmtest)
> durbin.watson(mod)
lag Autocorrelation D-W Statistic p-value
1 0.1137172 1.399492 0.166
Alternative hypothesis: rho != 0
Para esta prueba se tiene un p − valor superior al 0.05 por lo que no se rechaza la
hipótesis de independencia entre los residuales. Como tenemos un coeficiente de de-
terminación muy bajo y además no tenemos homogeneidad de varianzas probaremos
ajustando nuevos modelos aumentando el grado del polinomio.
> mod1=lm(Y∼X+I(X^2)+I(X^3));mod1
Call:
lm(formula = Y ∼ X + I(X^2) + I(X^3))
Coefficients:
(Intercept) X I(X^2) I(X^3)
0.2501 10.0243 -7.9989 1.5552
> res=summary(mod1);res
Call:
lm(formula = Y ∼ X + I(X^2) + I(X^3))
Residuals:
Min 1Q Median 3Q Max
63
-3.4147 -0.5804 -0.0015 1.0110 2.5733
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2501 7.2465 0.035 0.973
X 10.0243 13.0264 0.770 0.459
I(X^2) -7.9989 6.7158 -1.191 0.261
I(X^3) 1.5552 1.0447 1.489 0.167
Residual standard error: 1.753 on 10 degrees of freedom
Multiple R-squared: 0.6039, Adjusted R-squared: 0.4851
F-statistic: 5.083 on 3 and 10 DF, p-value: 0.02158
> AIC(mod1)
60.74073
> plot(X,Y,xlab="Tasa de Crecimiento",ylab="Porcentaje de
Producto",main="Dispersion")
> curve(coef(mod1)[1]+mod1$coef[2]*x+mod1$coef[3]*x^2+mod1$coef[4]*x^3,
add=T,col=“red”)
> e1=resid(mod1)
> shapiro.test(e1)
64
Shapiro-Wilk normality test
data: e1
W = 0.9695, p-value = 0.8693
> bptest(mod1,varformula= resid(mod1),studentize=F)
Breusch-Pagan test
data: mod1
BP = 1.2575, df = 1, p-value = 0.2621
> durbin.watson(mod1)
lag Autocorrelation D-W Statistic p-value
1 0.2384747 1.090819 0.018
Alternative hypothesis: rho != 0
65
stimate Std. Error t value Pr(>|t|)
(Intercept) -20.019 14.222 -1.408 0.1928
X 62.665 34.718 1.805 0.1046
I(X^2) -54.336 29.318 -1.853 0.0968 .
I(X^3) 18.041 10.238 1.762 0.1119
I(X^4) -2.025 1.252 -1.617 0.1402
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 1.627 on 9 degrees of freedom
Multiple R-squared: 0.6931, Adjusted R-squared: 0.5567
F-statistic: 5.082 on 4 and 9 DF, p-value: 0.02023
> AIC(mod2)
59.16838
> plot(X,Y,xlab="Tasa de Crecimiento",ylab="Porcentaje de
Producto",main="Dispersion")
> curve(coef(mod2)[1]+mod2$coef[2]*x+mod2$coef[3]*x^2+
mod2$coef[4]*x^3+mod2$coef[5]*x^4, add=T,col=“red”)
> e2=resid(mod2)
66
> shapiro.test(e2)
Shapiro-Wilk normality test
data: e2
W = 0.9109, p-value = 0.1626
> bptest(mod2,varformula= resid(mod2),studentize=F)
Breusch-Pagan test
data: mod2
BP = 0.0997, df = 1, p-value = 0.7522
> durbin.watson(mod2)
lag Autocorrelation D-W Statistic p-value
1 0.4013205 0.8103305 0.008
Alternative hypothesis: rho != 0
Comparación de modelos.
> anova(mod,mod1)
Analysis of Variance Table
Model 1: Y X + I(X^2)
Model 2: Y X + I(X^2) + I(X^3)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 11 37.551
2 10 30.739 1 6.8121 2.2161 0.1674
67
> anova(mod,mod2)
Analysis of Variance Table
Model 1: Y X + I(X^2)
Model 2: Y X + I(X^2) + I(X^3) + I(X^4)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 11 37.551
2 9 23.816 2 13.735 2.5952 0.1289
> anova(mod1,mod2)
Analysis of Variance Table
Model 1: Y X + I(X^2) + I(X^3)
Model 2: Y X + I(X^2) + I(X^3) + I(X^4)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 10 30.739
2 9 23.816 1 6.9228 2.6161 0.140
En ambas pruebas tenemos un p − valor superior a 0.05 por tanto se tiene que
el modelo cuadrático ajusta mejor que los otros, por lo que nos quedaremos con
el modelo cuadrático, pero realizaremos diagnósticos sobre las observaciones para
mejorarlo.
> influence.measures(mod)
Influence measures of
lm(formula = Y ∼ X + I(X^2)) :
> p=3
> n=length(Y)
> plot(mod, which=4,main=,lwd=3,col=“red”)
> abline(h=1,col="blue",lwd=3)
68
Tabla de observaciones influyentes
dfb.1 dfb.X dfb.I.X dffit cov.r cook.d hat inf
1 0.00239 -0.01227 0.03266 0.1307 1.705 6.22e-03 0.232
2 0.08187 -0.09255 0.08131 -0.1388 1.554 7.00e-03 0.168
3 -0.00673 0.00346 -0.00194 -0.0124 1.530 5.66e-05 0.131
4 -1.35758 1.09617 -0.93377 -1.5295 0.472 5.42e-01 0.287 *
5 -0.13306 0.09990 -0.08117 -0.1637 1.642 9.73e-03 0.213
6 0.04979 -0.00939 -0.00744 0.1436 1.432 7.44e-03 0.114
7 0.32741 -0.41490 0.50451 0.6896 5.680 1.72e-01 0.775 *
8 0.48975 -0.32520 0.24083 0.7002 0.807 1.43e-01 0.162
9 -0.17884 0.19677 -0.16412 0.3315 1.350 3.82e-02 0.163
10 -0.22677 0.27438 -0.26243 0.3573 1.365 4.42e-02 0.179
11 0.08545 -0.01611 -0.01277 0.2464 1.308 2.13e-02 0.114
12 0.11376 -0.14116 0.13766 -0.1827 1.546 1.20e-02 0.178
13 -0.00938 0.05689 -0.07228 0.1715 1.399 1.05e-02 0.112
14 0.80334 -0.92940 0.84627 -1.2953 0.274 3.41e-01 0.173
> par(mfrow=c(2,3))
> plot(hatvalues(mod),type="h",lwd=5) # Gráfico para los
hii
69
> abline(h=2*p/n,col=“red”,lwd=5)
> plot(dffits(mod),type=“h”,lwd=3,ylab="DFFITS")
> bline(h=c(-2*sqrt(p/n),2*sqrt(p/n)),col=“red”,lwd=3)
> plot(dfbetas(mod)[,1],type="h",lwd=3,ylab="DFBETAS para
el intercepto")
> abline(h=c(-2/sqrt(n),2/sqrt(n)),lwd=3,col=“red”)
> plot(dfbetas(mod)[,2],type="h",lwd=3,ylab="DFBETAS para
X")
> abline(h=c(-2/sqrt(n),2/sqrt(n)),lwd=3,col=“red”)
> plot(dfbetas(mod)[,3],type="h",lwd=3,ylab="DFBETAS para
X^2")
> abline(h=c(-2/sqrt(n),2/sqrt(n)),lwd=3,col=“red”)
> plot(covratio(mod),lwd=3,type="h",ylab=Çovratio")
> abline(h=1,col=“red”,lwd=3)
70
Eliminación de observaciones
De los gráficos anteriores se concluye que las observaciones que están disminuyendo
la precisión en la estimación son las 4 y 14. Por tanto ajustaremos nuevamente el
modelo cuadrático eliminando las observaciones 4 y 14
> Y1=Y[-c(4,14)]
> X1=X[-c(4,14)]
> reg=lm(Y1 ∼ X1 + I(X1^2));reg
Call:
lm(formula = Y1 ∼ X1 + I(X1^2))
Coefficients:
(Intercept) X1 I(X1^2)
11.554 -9.372 2.014
> res=summary(reg);res
Call:
lm(formula = Y1 ∼ X1 + I(X1^2))
Residuals:
Min 1Q Median 3Q Max
-1.34551 -0.83717 0.02841 0.60027 1.74934
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.5541 1.7106 6.754 8.32e-05 ***
X1 -9.3715 1.9446 -4.819 0.000948 ***
I(X1^2) 2.0135 0.4717 4.269 0.002085 **
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 1.034 on 9 degrees of freedom
Multiple R-squared: 0.7715, Adjusted R-squared: 0.7207
F-statistic: 15.19 on 2 and 9 DF, p-value: 0.001303
> AIC(reg)
39.39547
71
> plot(X1,Y1,xlab="Tasa de Crecimiento",ylab="Porcentaje
de Producto",main="Dispersion")
> curve(coef(mod)[1]+mod$coef[2]*x+mod$coef[3]*x^2,add=T
,col=“red”)
> library(car)
> e1=resid(reg)
72
Capítulo 4
Variables dicotómicas.
Definicion 4.1
La regresión con variables dicotómicas surgen por la necesidad que tiene el inves-
tigador de involucrar variables cualitativas (o de atributos o de categorías) en un
análisis de regresión sea este simple o múltiple; las variables dicotómicas reciben el
mismo tratamiento que las demás variables del modelo de regresión, por ejemplo
hay ocasiones en las que el investigador maneja variables como:
73
nivel de educación una persona de raza blanca tenga un nivel de ingresos mayor que
una persona de raza negra. Luego el nivel de ingresos depende de la raza (variable
cualitativa) y debería ser incluida en el modelo como regresora. La situación se re-
presenta en la siguiente gráfica:
Y = β0 + β1 X + δD (4.1)
74
4.1. Interpretación del modelo con variables dicotó-
micas
La interpretación de los modelos en los que se han incluido variables dicotómica es
simple. Calculemos el modelo en cada uno de los grupos
Por lo tanto, en el grupo de los negros el modelo se convierte en
Y = β0 + β1 X + δ(0) = β0 + β1
Y = β0 + β1 X + δ(1)+ = (β0 + δ) + βX
Cuando la variable cualitativa tiene más de dos grupos tenemos que introducir varias
variables dicotómicas.
75
de los grupos como base de comparación, por ejemplo, el grupo de los hispanos.
El modelo será ahora
Y = β0 + β1 X + δD1 + γD2
donde:
1 Si el individuo es negro
D1 =
0 en otro caso
1 Si el individuo es blanco
D2 =
0 en otro caso
76
efectos de la raza y del nivel de educación no son aditivos, existe lo que se denomina
interacción entre la raza y el nivel de educación. El concepto de interacción es clave
en la investigación aplicada, ya que implica que las relación de la variable depen-
diente con otra variable depende de los valores de una tercera. No debe confundirse
interacción con relación, en el ejemplo, raza y educación interactúan en el efecto que
manifiestan sobre el nivel de educación, pero no tienen porqué estar relacionadas
entre si. La interacción se traduce en que las pendientes de las rectas para ambos
grupos no son las misma. La situación se representa en la siguiente gráfica.
En este caso no es válido el modelo anterior con variables dicotómicas, ya que, allí
suponíamos que las pendientes de las rectas eran iguales y, por tanto, la diferencia
entre blancos y negros era constante.
Tomaremos ahora el modelo
Yi = β0 + β1 X + δD1 + γXD2
77
La interpretación del nuevo modelo es simple. Calculamos el modelo en cada uno de
los grupos. En el grupo de los negros (D = 0) el modelo se convierte en
Y = β0 + β1 X + δ(0) + γ(0) = β0 + β1 X,
Variables dicotómicas en R
Para crear variables cualitativas en R, debemos convertir los vectores numéricos
(variables cuantitativas) de un marco de datos, en factores (variables cualitativas).
Los datos para el siguiente ejemplo se tomaron usando el conjunto de datos
hsb2 <-
read.csv(“http://www.ats.ucla.edu/stat/data/hsb2.csv”,
header=T, sep=“,”)
Ejemplo 4.1 Modelo lineal con una variable dicotómica se ajustara un modelo de
la variable escritura en función del género (hombre o mujer).
78
> Base=read.csv2(file.choose())
> attach(Base)
> mod=lm( science female)
> summary(mod)
Call:
lm(formula = science female)
Residuals:
Min 1Q Median 3Q Max
-27.2308 -6.6972 0.3028 7.3028 20.7692
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.231 1.032 51.581 <2e-16 ***
female -2.534 1.398 -1.812 0.0714 .
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 9.845 on 198 degrees of freedom
Multiple R-squared: 0.01632, Adjusted R-squared: 0.01135
F-statistic: 3.285 on 1 and 198 DF, p-value: 0.07144
> e=resid(mod)
> library(car)
> library(lmtest)
> shapiro.test(e)
Shapiro-Wilk normality test
data: e
W = 0.9854, p-value = 0.0367
79
> bptest(mod,varformula= resid(mod),studentize=F)
Breusch-Pagan test
data: mod
BP = 6.6776, df = 1, p-value = 0.009763
> durbin.watson(mod)
lag Autocorrelation D-W Statistic p-value
1 0.1130674 1.771566 0.11
Alternative hypothesis: rho != 0
Notamos que el único supuesto que se cumple para este modelo es el de independen-
cia de los errores ya que es el único que arroja un valor p superior a 0.05. Siguiendo
con el ejemplo 1 adicionaremos la variable matemática al modelo.
80
Ambas variables son significativas en el modelo, además obtenemos un aumento
significativo en el coeficiente de determinación (R2 ). Ahora los supuestos:
> e1=resid(mod1)
> shapiro.test(e1)
Shapiro-Wilk normality test
data: e1
W = 0.9947, p-value = 0.7113
> bptest(mod,varformula= resid(mod1),studentize=F)
Breusch-Pagan test
data: mod
BP = 8.07, df = 1, p-value = 0.004501
> durbin.watson(mod1)
lag Autocorrelation D-W Statistic p-value
1 0.03911086 1.918343 0.476
Alternative hypothesis: rho != 0
Ejemplo 4.3 Modelo lineal con una variable cuantitativa y dos variables dicotómi-
cas.
81
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23.53845 3.28775 7.159 1.59e-11 ***
math 0.58430 0.05843 9.999 < 2e-16 ***
female -2.20955 1.04101 -2.123 0.0351 *
race -5.65704 1.31767 -4.293 2.77e-05 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 7.328 on 196 degrees of freedom
Multiple R-squared: 0.4605, Adjusted R-squared: 0.4522
F-statistic: 55.77 on 3 and 196 DF, p-value: < 2.2e-16
Notamos que todos los parámetros del modelo resultan ser significativos, ya que
obtenemos valores p inferiores a 0.05 lo cual lleva a rechazar la hipótesis de que
estos parámetros son estadísticamente nulos (iguales a cero), ahora los supuestos:
> e2=resid(mod2)
> shapiro.test(e2)
Shapiro-Wilk normality test
data: e2
W = 0.9949, p-value = 0.7281
> bptest(mod,varformula= resid(mod2),studentize=F)
Breusch-Pagan test
data: mod
BP = 5.7463, df = 1, p-value = 0.01652
> durbin.watson(mod2)
lag Autocorrelation D-W Statistic p-value
1 0.07712921 1.841937 0.208
Alternative hypothesis: rho != 0
Notamos que el único supuesto que no se satisface para este modelo es el de igualdad
de varianzas, puesto que se el test arroja un valor p inferior a 0.05 lo cual lleva a
rechazar la hipótesis de igualdad de varianzas.
82
Capítulo 5
y = f (x, β) + (5.1)
83
de confianza para los parámetros así como pruebas de bondad de ajuste.
Yi = β0 β1Xi
84
Teniendo como resultado el modelo lineal.
Ŷ ∗ = β̂0∗ + β̂1∗ X
Xi Yi∗ − n1
P P P ∗
∗ Xi (Yi )
β̂1 = P 2 1 P
Xi − n ( Xi )2
Xi ln(Yi ) − n1
P P P
Xi ln(Yi )
= P 2 1 P
X i − n ( Xi ) 2
Ahora β̂1 = exp(β̂1∗ )
β0∗ = Ȳ ∗ − X̄ β̂1∗
1X 1X
= (lnYi ) − Xi β̂1∗
n n
Entonces β̂0 = expβ0∗ Así los intervalos nos quedan:
σ̂ 2
V ar(βˆ1∗ ) = P 2 1
P 2
i Xi − n ( i Xi )
Pn 2 2
ˆ∗ i=1 Xi σ̂
V ar(β0 ) = P 2 1
P 2
i Xi − n ( i Xi )
Luego
q q
β1∗ ˆ∗ ∗ ˆ∗ ˆ∗
∈ β1 − Z1− α2 V ar(β̂1 ) , β1 + Z1− α2 V ar(β1 )
q q
ˆ∗ ∗ ˆ∗ ˆ∗
β1 ∈ exp β1 − Z1− α2 V ar(β̂1 ) , exp β1 + Z1− α2 V ar(β1 )
q q
β0∗ ˆ∗ ∗ ˆ∗ ∗
∈ β0 − Z1− α2 V ar(β̂0 ) , β0 + Z1− α2 V ar(β̂0 )
q q
ˆ∗ ∗ ˆ∗ ∗
β0 ∈ exp β0 − Z1− α2 V ar(β̂0 ) , exp β0 + Z1− α2 V ar(β̂0 )
Ejemplo 5.1 En este ejemplo se tiene un análisis de regresión que se realizo con
la información de los depósitos por persona(Y) y el ingreso per cápita(X) en el año
2002.
85
> Y=c(58.7, 322.3, 80.1, 949.4, 141.5, 171, 355.1, 28, 119,
453.2, 322.1, 466.4, 383.8, 4549.4, 232.8, 200.2, 1027,
239.5, 270.2, 178.8, 131.3, 923.6, 222.6, 275.4, 1697.5)
> X=c(195.37, 307.27, 137.49, 331.33, 167.91, 198.44,
259.75, 142.06, 191.82, 357.79, 253.06, 338.24, 343.2,
556.8, 265.28, 327.47, 412.72, 233.75, 209.18, 179.72,
220.57, 420.45, 311.84, 257.43, 352.93)
> plot(X,Y)
Gráfica de dispersión.
> cor.test(X,Y)
Pearson’s product-moment correlation
data: X and Y
t = 5.8423, df = 23, p-value = 5.928e-06
86
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5439193 0.8947868
sample estimates:
cor
0.7729322
>mod=lm(Y∼X)
> AIC(mod)
394.1943
> summary(mod)
Call:
lm(formula = Y ∼X)
Residuals:
Min 1Q Median 3Q Max
-699.24 -482.02 -3.75 216.60 2010.13
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1442.144 361.397 -3.990 0.000576 ***
X 7.151 1.224 5.842 5.93e-06 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 593.9 on 23 degrees of freedom
Multiple R-squared: 0.5974, Adjusted R-squared: 0.5799
F-statistic: 34.13 on 1 and 23 DF, p-value: 5.928e-06
87
Verificamos los supuestos del modelo.
> library(car)
> library(lmtest)
> shapiro.test(resid(mod))
Shapiro-Wilk normality test
data: resid(mod)
W = 0.8585, p-value = 0.002566
> durbin.watson(mod)
lag Autocorrelation D-W Statistic p-value
1 -0.08356645 2.119021 0.818
Alternative hypothesis: rho != 0
Se tiene que el modelo lineal solo cumple con el supuesto se independencia. por lo
que se procede a realizar un ajuste exponencial debido al comportamiento que se
observa en el diagrama de dispersión
> Y1=log(Y)
> mod1=lm(Y1∼X)
> summary(mod1)
Call:
lm(formula = Y1∼X)
Residuals:
Min 1Q Median 3Q Max
-1.00499 -0.22310 -0.03457 0.35835 1.04931
Coefficients:
88
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.955866 0.304989 9.692 1.38e-09 ***
X 0.00972 0.001033 9.414 2.36e-09 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 0.5012 on 23 degrees of freedom
Multiple R-squared: 0.7939, Adjusted R-squared: 0.785
F-statistic: 88.62 on 1 and 23 DF, p-value: 2.360e-09
>curve(exp(coef(mod)[1])*exp(mod$coef[2])^x,add=T
,col=“red”)
Ajuste de la curva exponencial.
> library(car)
> e=resid(mod1)
> qqPlot(e)
> shapiro.test(e)
Shapiro-Wilk normality test
data: e
W = 0.9854, p-value = 0.9676
89
> library(lmtest)
> bptest(mod1,varformula= resid(mod1),studentize=F)
Breusch-Pagan test
data: mod1
BP = 0.2468, df = 1, p-value = 0.6193
> durbin.watson(mod1)
lag Autocorrelation D-W Statistic p-value
1 0.1421689 1.418904 0.138
Alternative hypothesis: rho != 0
En las pruebas de los supuestos del modelo notamos p − valores superiores a 0.05
por lo que se concluye que este modelo satisface con los supuestos exigidos.
> plot(X,Y,main=“Ajuste”,xlab=“Ingreso”,ylab=“Deposito})
>curve(exp(coef(mod1)[1])∗exp(coef(mod1)[2])^x,add=T,col=“black”,type=“l”)
> abline(lm(Y∼X),lty=2)
> legend(150,4000,c(“Modelo Exponencial”,“Modelo lineal”) ,
pt.bg=“gray01”, lty=c(1,2), col =c(“black”,“black”))
En el gráfico anterior notamos que la curva del modelo exponencial se ajusta mejor
a nube de puntos que el modelo lineal.
90
Parámetros originales
> b0=exp(coef(mod1)[1]);b0
(Intercept)
19.21836
> b1=exp(coef(mod1)[2]);b1
X
1.009771
Intervalos de lo parámetros
> IC=exp(confint(mod1));IC
2.5 % 97.5 %
(Intercept) 10.226144 36.117742
X 1.007616 1.011931
Predichos
> Y1est=predict(mod1);Y1est
> Yest=exp(Y1est);Yest
Luego de ajustar el modelo exponencial notamos que este ajusta mejor que el lineal,
ya que, se nota una valor mucho menor en el AIC = 40.32, un mayor valor en
el coeficiente de determinación R2 = 0.79 y además los errores para este modelo
cumplen con todos los supuestos (Normalidad, Homogeneidad e Independencia)
Yi = β0 + β1 ln(Xi ) + i ,
91
el cual estimamos de la siguiente manera:
Yi = β0 + β1 Xi∗ + i .
ln(Xi )Yi − n1
P P P
ln(Xi ) Yi
= .
ln (Xi ) − n1 ( lnXi )2
P 2 P
βˆ0 = Ȳ − X̄ ∗ β̂1
1X 1X
= Yi − (lnXi )β̂1 .
n n
Las varianzas de estos estimadores están dadas por
σ̂ 2
V ar(βˆ1 ) = P 2 .
Xi∗ − n1 ( i Xi∗ )2
P
i
2
Xi∗ σ̂ 2
P
V ar(βˆ0 ) = P 2
i
.
Xi∗ − n1 ( i Xi∗ )2
P
i
Finalmente, los intervalos quedan en la forma:
q q
ˆ ˆ ˆ
β1 ∈ β1 − Z1− α2 V ar(β̂1 ) , β1 + Z1− α2 V ar(β1 ) .
q q
β0 ∈ βˆ0 − Z1− α2 V ar(β̂0 ) , βˆ0 + Z1− α2 V ar(β̂0 ) .
92
1260.531, 1273.514, 1288.339, 1327.543, 1353.863, 1414.509,
1425.208, 1421.384, 1442.962, 1464.35, 1468.705, 1447.894,
1457.628)
> Densidad=X = c(0.047, 0.051, 0.054, 0.054, 0.058, 0.061,
0.067, 0.067, 0.072, 0.084, 0.094, 0.098, 0.223, 0.232,
0.280, 0.298, 0.333, 0.351, 0.401, 0.490, 0.568, 0.580,
0.670, 0.734, 0.897, 0.902, 1.010, 1.126, 1.458, 2.203,
2.620, 2.735, 3.050 ,4.816, 6.303, 7.745, 9.025)
>plot(X,Y)
> cor.test(X,Y)
Pearson’s product-moment correlation
data: X and Y
t = 4.9354, df = 35, p-value = 1.949e-05
alternative hypothesis: true correlation is not equal to 0
93
95 percent confidence interval:
0.3994982 0.7988094
sample estimates:
cor
0.6405953
> mod=lm(Y∼X)
> summary(mod)
Call:
lm(formula = Y ∼ X)
Residuals:
Min 1Q Median 3Q Max
-586.92 -481.26 24.53 432.94 580.72
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 561.83 85.04 6.606 1.24e-07
***
X 164.29 33.29 4.935 1.95e-05
***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 439.5 on 35 degrees of freedom
Multiple R-squared: 0.4104, Adjusted R-squared: 0.3935
F-statistic: 24.36 on 1 and 35 DF, p-value: 1.949e-05
> AIC(mod)
559.2823
94
> library(car)
> library(lmtest)
> shapiro.test(resid(mod))
Shapiro-Wilk normality test
data: resid(mod)
W = 0.8388, p-value = 8.708e-05
> bptest(mod,varformula= resid(mod),studentize=F)
Breusch-Pagan test
data: mod
BP = 0.0014, df = 1, p-value = 0.9707
> durbin.watson(mod)
lag Autocorrelation D-W Statistic p-value
1 0.9270335 0.05961193 0
Alternative hypothesis: rho != 0
> X1=log(X)
> mod1=lm(Y ∼ X1)
> summary(mod1)
Call:
lm(formula = Y ∼ X1)
Residuals:
Min 1Q Median 3Q Max
-356.88 -95.45 -3.73 153.15 234.49
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1073.76 30.09 35.68 <2e-16 ***
X1 336.71 16.66 20.21 <2e-16 ***
95
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 160.8 on 35 degrees of freedom
Multiple R-squared: 0.9211, Adjusted R-squared: 0.9188
F-statistic: 408.4 on 1 and 35 DF, p-value: < 2.2e-16
> AIC(mod1)
484.8806
> shapiro.test(resid(mod1))
Shapiro-Wilk normality test
data: resid(mod1)
W = 0.9558, p-value = 0.1481
> bptest(mod1,varformula= resid(mod1),studentize=F)
Breusch-Pagan test
data: mod1
BP = 1.1742, df = 1, p-value = 0.2785
> durbin.watson(mod1)
lag Autocorrelation D-W Statistic p-value
1 0.8806276 0.09656477 0
Alternative hypothesis: rho != 0
Para el modelo Logarítmico se tiene que los parámetros son altamente significati-
vos y este cumple con todos los supuestos,a demás tenemos un R2 = 0.921 y una
minimización en el AIC.
> plot(X,Y,main=.Ajuste",xlab="Densidad",ylab="Movilidad")
>curve(coef(mod1)[1]+coef(mod1)[2]*log(x),add=T,col="black",type="l")
> abline(lm(Y∼X),lty=2)
> legend(5,1000,c("Modelo Lin-Log","Modelo lineal") ,
pt.bg="gray01", lty=c(1,2), col =c("black","black"))
96
En el gráfico anterior se observa que el modelo logarítmico ajusta mejor a la nube
de puntos que el lineal.
Yi = β0 Xiβ1 i
Ŷ = β̂0 X β̂1
Ŷ ∗ = β̂0∗ + β̂1 X ∗
97
Xi∗ Yi∗ − Xi∗ Yi∗
P P P
β̂1 =
n[ Xi∗2 − ( Xi∗ )2 ]
P P
1
P P P
i (lnXi )(lnYi ) − n i ln(Xi ) i lnYi
β̂1 = P 2 1
P 2
[ ln (Xi ) − n ( i lnXi ) ]
Ahora se tiene que:
β̂0∗ = Ȳ ∗ − X̄ ∗ β̂1
1X 1X
= ln(Yi ) − ln(Xi )βˆ1
n i n i
Entonces " #
1X 1X
β̂0 = exp β0∗ = exp ln(Yi ) − ln(Xi )βˆ1
n i n i
1X 1X
= exp ln(Yi ) exp − ln(Xi )βˆ1
n i n i
" # n1 " #− n1 β̂1
X X
= exp ln(Yi ) exp ln(Xi )
i i
" n
# n1 " n
#− n1 β̂1
Y Y
= Yi Xi
i=1 i=1
" Q # n1
n
i=1 Yi
β̂0 =
β̂
( ni=1 Xi ) 1
Q
Así los intervalos nos quedan:
σ̂ 2
V ar(βˆ1 ) = P 2
Xi∗ − n1 ( i Xi∗ )2
P
i
σ̂ 2
V ar(βˆ1 ) = P 2 1
P 2
i ln (Xi ) − n ( i lnXi )
P ∗2 2
ˆ X σ̂
V ar(β0 ) = P ∗2 i 1i P ∗ 2
∗
i Xi − n ( i Xi )
Luego.
q q
β1 ∈ βˆ1 − Z1− α2 V ar(β̂1 ) , βˆ1 + Z1− α2 V ar(β̂1 )
98
q q
β0∗ ˆ∗ ∗ ˆ∗ ∗
∈ β0 − Z1− α2 V ar(β̂0 ) , β0 + Z1− α2 V ar(β̂0 )
q q
ˆ∗ ∗ ˆ∗ ∗
β0 ∈ exp β0 − Z1− α2 V ar(β̂0 ) , exp β0 + Z1− α2 V ar(β̂0 )
> plot(X,Y)
Gráfica de dispersión.
99
> mod=lm(Y∼X);summary(mod)
Call:
lm(formula = Y ∼ X)
Residuals:
1 2 3 4 5 6
0.2997 -0.3792 -0.4306 -0.1778 0.1700 0.5179
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.3378 0.4014 8.316 0.00114 **
X -1.9015 0.4317 -4.405 0.01165 *
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 0.4324 on 4 degrees of freedom
Multiple R-squared: 0.8291, Adjusted R-squared: 0.7863
F-statistic: 19.4 on 1 and 4 DF, p-value: 0.01165
100
> library(car)
> library(lmtest)
> shapiro.test(resid(mod))
Shapiro-Wilk normality test
data: resid(mod)
W = 0.9238, p-value = 0.533
> durbin.watson(mod)
lag Autocorrelation D-W Statistic p-value
1 0.246106 1.02899 0.008
Alternative hypothesis: rho != 0
Tenemos que modelo no cumple con el supuesto de independencia entre los errores,
ya que esta prueba arroja un p − valor inferior a 0.05
> Y1=log(Y)
> X1=log(X)
> plot(X1,Y1,ylab="log(Presion)",xlab="log(Volumen)")
> mod1=lm(Y1∼X1);mod1
Call:
lm(formula = Y1 ∼ X1)
Coefficients:
(Intercept) X1
0.01190 -1.38300
> summary(mod1)
Call:
101
lm(formula = Y1 ∼ X1)
Residuals:
1 2 3 4 5 6
-0.012480 0.028977 -0.022864 -0.002365 0.026355 -0.017622
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.01190 0.01223 0.973 0.386
X1 -1.38300 0.02348 -58.895 4.98e-07 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 0.02514 on 4 degrees of freedom
Multiple R-squared: 0.9988, Adjusted R-squared: 0.9986
F-statistic: 3469 on 1 and 4 DF, p-value: 4.977e-07
> library(car)
> library(lmtest)
> shapiro.test(resid(mod1))
Shapiro-Wilk normality test
data: resid(mod1)
W = 0.8576, p-value = 0.1811
> durbin.watson(mod1)
lag Autocorrelation D-W Statistic p-value
1 -0.591901 2.999413 0.4
102
Alternative hypothesis: rho != 0
Tenemos que el modelo cumple con todos los supuestos, ya que, todas las pruebas
arrojan p − valores superiores a 0.05
Gráfica de ajuste.
Parámetros originales
> b0=exp(coef(mod)[1]);b0
(Intercept)
28.15602
> b1=coef(mod)[2];b1
X
-1.901510
103
Recuperando los parámetros originales tenemos que el modelo ajustándose: Y =
28.15X −1.9
Intervalos de lo parámetros
> IC=confint(mod1);IC
2.5 % 97.5 %
(Intercept) -0.02205160 0.04585684
X1 -1.44819265 -1.31779737
> Ib0=exp(IC[1,]);Ib0
2.5 % 97.5 %
0.9781898 1.0469245
> Ib1=IC[2,];Ib1
2.5 % 97.5 %
-1.448193 -1.317797
Predichos
> Y1est=predict(mod1);Y1est
> Yest=exp(Y1est);Yest
1
Y i = β0 + β1 + i
Xi
El cual podemos estimar de la siguiente manera.
1
Ŷi = βˆ0 + βˆ1 + ˆi
Xi
∗
Ŷi = βˆ0 + βˆ1 Xi∗ + ˆi
1
Con Xi∗ =
Xi
βˆ0 = Ŷ − X̄ ∗ βˆ1
104
1X 1X 1
= Yi − β̂1
n n X
Xi∗ Yi − n1
P P ∗P
X (Yi )
β̂1 = P ∗2 1 P i ∗ 2
Xi − n ( Xi )
1 1
P 1 P
Xi
Y i − n Xi
Yi
=P 1 2 1
P 1 2
( Xi ) − n [ ( Xi )]
P ∗2 2
X σ̂
V ar(β̂0 ) = P ∗ 2 i1 P
Xi − n ( Xi ) 2
σ̂ 2
V ar(β̂0 ) = P
Xi∗ 2 − n1 ( Xi )2
P
q q
ˆ ˆ ˆ
β1 ∈ β̂1 − Z1− α2 V ar(β1 ) , β1 + Z1− α2 V ar(β1 )
Ejemplo 5.4 Estos son datos de 64 países respecto a la mortalidad infantil (MI) Y
PIB per cápita (PIBPC). Ver anexo 1
105
> mortalidad<-read.csv2(file.choose())
> attach(mortalidad)
> Y=mortalidad[,1]
> X=mortalidad[,3]
> plot(X,Y)
Gráfica de dispersión.
> mod=lm(Y∼X);summary(mod)
Call:
lm(formula = Y ∼ X)
Residuals:
Min 1Q Median 3Q Max
-113.764 -53.111 -6.685 48.064 157.758
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 157.424441 9.845583 15.989 < 2e-16 ***
X -0.011364 0.003233 -3.516 0.000826 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 69.93 on 62 degrees of freedom
106
Multiple R-squared: 0.1662, Adjusted R-squared: 0.1528
F-statistic: 12.36 on 1 and 62 DF, p-value: 0.0008262
> library(car)
> library(lmtest)
> shapiro.test(resid(mod))
Shapiro-Wilk normality test
data: resid(mod)
W = 0.9689, p-value = 0.1063
> durbin.watson(mod)
lag Autocorrelation D-W Statistic p-value
1 0.03402544 1.931458 0.78
Alternative hypothesis: rho != 0
Tenemos que el modelo lineal satisface todos los supuestos, pero debido al coeficiente
de determinación pequeño y al comportamiento que se observa en el diagrama de
dispersión ajustaremos un modelo inverso
> mod1=lm(Y∼I(1/X))
summary(mod1)
Call:
lm(formula = Y ∼ I(1/X))
107
Residuals:
Min 1Q Median 3Q Max
-130.806 -36.410 2.871 31.686 132.801
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 81.79 10.83 7.551 2.38e-10 ***
I(1/X) 27273.17 3760.00 7.254 7.82e-10 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 56.33 on 62 degrees of freedom
Multiple R-squared: 0.4591, Adjusted R-squared: 0.4503
F-statistic: 52.61 on 1 and 62 DF, p-value: 7.821e-10
> shapiro.test(resid(mod1))
Shapiro-Wilk normality test
data: resid(mod1)
W = 0.9869, p-value = 0.734
> durbin.watson(mod1)
lag Autocorrelation D-W Statistic p-value
1 0.0174382 1.959368 0.876
Alternative hypothesis: rho != 0
Este modelo satisface todos los supuestos, ya que todas las pruebas arrojan p −
valores superiores a 0.05, ahora realizaremos diagnósticos para este modelo, con el
fin de lograr un aumento en el R2
108
> influence.measures(mod1)
> p=2
> n=length(Y) is
> par(mfrow=c(2,3))
> plot(mod1,which=4,main=,lwd=3,col="black")# Grafico de la
distancia de cooks
> abline(h=1,col="black",lwd=3)
> plot(hatvalues(mod1),type="h",lwd=5) # Grafico para los
hii
> abline(h=2*p/n,col="black",lwd=5)
> plot(dffits(mod1),type="h",lwd=3,ylab="DFFITS")
> abline(h=c(-2*sqrt(p/n),2*sqrt(p/n)),col="black",lwd=3)
> plot(dfbetas(mod1)[,1],type="h",lwd=3,ylab="DFBETAS para
el intercepto")
> abline(h=c(-2/sqrt(n),2/sqrt(n)),lwd=3,col="black")
> plot(dfbetas(mod1)[,2],type="h",lwd=3,ylab="DFBETAS para
X")
> abline(h=c(-2/sqrt(n),2/sqrt(n)),lwd=3,col="black")
> plot(covratio(mod1),lwd=3,type="h",ylab=Çovratio")
> abline(h=1,col="black",lwd=3)
109
Gráfica de influencias.
Eliminación de observaciones
Analizando todas las medidas de diagnóstico, eliminaremos las observaciones 2, 9, 10, 41, 52, 54.
> Y1=Y[-c(2,9,10,41,52,54)]
> X1=X[-c(2,9,10,41,52,54)]
> mod2=lm(Y1∼I(1/X1));mod2
Call:
lm(formula = Y1 ∼ I(1/X1))
Coefficients:
(Intercept) I(1/X1)
64.56 39851.12
> res=summary(mod2);res
Call:
lm(formula = Y1 ∼I(1/X1))
Residuals:
110
Min 1Q Median 3Q Max
-74.416 -30.713 -5.766 32.186 86.988
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 64.555 9.479 6.811 7.11e-09 ***
I(1/X1) 39851.123 4079.218 9.769 1.06e-13 ***
–-
Signif. codes: 0 ‘***’0.001‘**’0.01 ‘*’0.05 ‘.’0.1 ‘’1
Residual standard error: 44.43 on 56 degrees of freedom
Multiple R-squared: 0.6302, Adjusted R-squared: 0.6236
F-statistic: 95.44 on 1 and 56 DF, p-value: 1.058e-13
> shapiro.test(resid(mod2))
Shapiro-Wilk normality test
data: resid(mod2)
W = 0.9682, p-value = 0.1321
data: mod2
BP = 1.6191, df = 1, p-value = 0.2032
> durbin.watson(mod2)
lag Autocorrelation D-W Statistic p-value
1 -0.07464186 2.132870 0.614
Alternative hypothesis: rho != 0
> plot(X1,Y1,xlab="Mortalidad",ylab="Tasa de
alfabetismo",main=.Ajuste")
111
> curve(coef(mod2)[1]+mod2$coef[2]/x,add=T
+ ,col="black")
> abline(lm(Y1 X1),lty=2)
> legend(12000,300,c("Modelo Inverso","Modelo lineal") ,
pt.bg="gray01", lty=c(1,2), col =c("black","black")
Gráfica de ajuste.
Observando el gráfico anterior notamos que el modelo inverso ajusta mejor que el
lineal.
112
Apéndice A
Estadística descriptiva
Definicion A.1
113
A.1. Conceptos básicos
Damos, en primer lugar, algunas definiciones básicas de interés general y que nos
ayudarán a clasificar los tipos datos que se nos presenten.
114
Gráfico circular o de sectores.
Gráfico de dispersión.
115
Diagrama de barras: Se utiliza para variables cualitativas y cuantitativas
discretas, y se construyen de forma similar al histograma, pero las barras están
separadas entre s´(indicando que la variable no ocupa todo el eje de abscisas,
precisamente por ser discreta o cualitativa)
Diagrama de barras.
116
Diagramas de tallos y hoja
Gráfica de caja.
117
Diagrama de Pareto.
Mediana: Definimos la mediana como aquel valor que hace que el 50 % de las
observaciones sean menores o iguales a él y otro 50 % mayor o igual que él.
Si el número total de observaciones es n, y ordenamos los datos de menor a
mayor, la mediana será la que ocupe el lugar n+1
2
, si n es impar, o estará entre
los valores n
2
y n
2
+ 1 si n es par. En este caso la mediana se obtiene como la
semisuma de estos dos valores centrales
Cuartil n, Qn : Con (n = 1, 2, 3), es aquel valor que hace que las n cuartas
partes de las observaciones sean menores o iguales a él y el resto mayores o
iguales. El segundo cuartil coincide con la mediana.
118
decil n, Dn : Con (n = 1, 2, · · · , 9) es aquel valor que hace que las n décimas
partes de las observaciones sean menores o iguales a él y el resto mayores o
iguale
Media:La media se define como el cociente entre la suma de todos los valores
y el número total de elementos de la muestra.
Pn
xi
X = i=1
n
No obstante, si los datos están repetidos, hay n elementos en la muestra pero
sólo hay k elementos diferentes cada uno de los cuales aparece con una fre-
cuencia ni , se puede obtener también la media por medio de las expresiones
siguientes: Pk
n i ∗ xii=1
X=
n
Pk k
ni X
X = i=1 xi = f i ∗ xi
n i=1
Moda: Es el valor que presenta una mayor frecuencia. Para Variables conti-
nuas se tiene la siguiente formular
fi − fi−1
Mo = Li + ai ,
(fi − fi−1 ) + (fi − fi+1 )
donde Li es el límite inferior de la clase modal.
119
fi es la frecuencia absoluta de la clase modal.
ai es la amplitud de la clase.
Pretenden dar una idea sobre si los datos son muy parecidos entre sí o por el
contrario están dispersos, es decir, son bastante distintos unos de otros.
R = X(n) − X(1) = M ax − M in
varianza muestral: Esta medida cuantifica las distancias de los datos con
respecto al valor de la media muestral
Pn
2 (xi − x)2
S = i=1
n−1
120
A.5. Medidas de forma
permiten conocer que forma tiene la curva que representa la serie de datos de
la muestra. En concreto, podemos estudiar las siguientes características de la
curva:
121
Apéndice B
Estadística inferencial
B.1. Introducción
La Inferencia Estadística es la parte de la estadística que se encarga de deducir
características de la población a partir de los resultados obtenidos en muestras de
esta población. Las decisiones se basan en la información contenida en muestras ex-
traídas de ella. En muchas circunstancias hay que tomar decisiones basándose sólo
en la información contenida en una muestra: Un gerente de Marketing debe deter-
minar si una nueva estrategia de mercado aumentará las ventas. Para ello se basará
fundamentalmente en encuestas realizadas a unos cuantos clientes potenciales, etc.
Para adoptar estas decisiones se toma toda la información posible de la muestra
seleccionada y se estudia, en términos de probabilidad, el grado de fiabilidad de
las decisiones adoptadas. Podemos distinguir de modo general dos grandes métodos
dentro de la Inferencia Estadística.
Métodos Paramétricos: Se supone que los datos provienen de una familia de dis-
tribuciones conocida como Normal, Binomial, Poisson, entre otras y que lo único
que se desconoce es el valor exacto de alguno de los parámetros que la definen co-
mo lo son µ y σ para la Normal, λ para la Poisson, entre otras. Se pueden hacer
inferencias acerca de los parámetros poblacionales de dos maneras. Dando valores
aproximados para los parámetros (estimación) o tomando decisiones con respecto a
ellos (Contrastes de Hipótesis).
122
Métodos no Paramétricos: No suponen conocida la distribución, y solamente
suponen hipótesis muy generales respecto a las mismas. Estos métodos se aplican
en los tests de bondad de ajuste, que prueban la distinción de los datos a ciertos
modelos de distribuciones teóricas, los test de independencia, entre otros.
B.2. Estimación
La Estimación de parámetros de interés, se puede presentar de dos formas: estima-
ción puntual y estimación por intervalo. Estimación puntual. Se basa en la informa-
ción contenida en una muestra aleatoria tomada de la población objeto de estudio
para llegar a un valor o número que estima al parámetro en cuestión. La estima-
ción por intervalo utiliza la información contenida en la muestra para llegar a un
intervalo donde se tiene un límite inferior y un límite superior denominado interva-
lo de confianza (I.C.) calculado con un cierto nivel de confiabilidad que puede ser
del 90 %, 95 % o del 99 % que son los más usuales. Esta confiabilidad la decide el
investigador según sea el tipo de investigación o experimento que está realizando.
Así, la estimación por intervalo ofrece una mayor información sobre el parámetro en
estudio.
En realidad, cuando realizamos una estimación puntual, nos damos cuenta que es
muy difícil que esta estimación sea realmente el verdadero valor del parḿetro des-
conocido.
123
y calculamos de nuevo el valor del mismo estadístico, obtendremos, por lo general,
otro valor distinto. Tenemos por tanto que el estadístico es una variable aleatoria. La
distribución que seguirá dicha variable aleatoria dependerá de la distribución de la
variable X. En determinados casos podremos calcular la distribución del estadístico.
Un estimador de un parámetro poblacional es un estadístico que se utiliza para
obtener un valor aproximado de ese determinado parámetro de la población. Por
ejemplo, la media muestral es el estadístico que suele usarse más frecuentemente
para estimar la media poblacional. Entonces, la media muestral es un estimador de
la media poblacional. La mediana y la moda son también estimadores de la media
poblacional. Para indicar que T es un estimador del parámetro poblacional θ se
indicará como T = θ; El valor que toma este estimador en la muestra concreta que
estamos considerando es una estimación del parámetro desconocido.
E(T ) = θ
124
ple las siguientes condiciones,
µ̂ = X
Pn
− X)2
i=1 (Xi
σ̂ = Sn2 =
n−1
Es decir, la media muestral es un estimador insesgado de la media poblacional y la
cuasivarianza muestral es un estimador insesgado de la varianza poblacional.
Definicion B.1 Una muestra aleatoria es una sucesión finita de variables alea-
torias independientes e idénticamente distribuidas X1 , X2 , . . . , Xn . De manera más
general una sucesión de variables aleatorias X1 , X2 , . . . , independientes y con idénti-
ca distribución, también se denomina muestra aleatoria. En el caso de una sucesión
finita, el valor n recibe el nombre de tamaño de la muestra o tamaño muestral.
125
Definicion B.2 El modelo probabilístico que rige el comportamiento de una esta-
dística o de un estimador se denomina distribución muestral de la respectiva
estadística o del respectivo estimador.
126
B.6. Intervalos de confianza (I.C.)
Indudablemente que la construcción de tales intervalos implica que la probabilidad
que éste contenga el valor del parámetro de interés, digamos θ, debe ser alta, tal
probabilidad es conocida como nivel de confianza dado por 100(1 − α) %,donde 1 − α
es denominado coeficiente de confianza; los valores más usados de α son 0.1, 0.05,
0.01. donde α es el nivel de significancia o probabilidad del error tipo I.
Por la misma definición de lo que es un intervalo, se necesitan dos estadísticas k1 y
k2 tal que la condición de que P [k1 ≤ θ ≤ k2 ] = 1 − α sea cierta. Las estadísticas
k1 y k2 son estimadas a partir de una muestra aleatoria. El intervalo k1 ≤ θ ≤ k2
recibe el nombre de intervalo de confianza al 100(1 − α) % para el parámetro θ. Se
describirán ahora los casos más usuales para este tipo de estimación.
√ √
(B.2)
P Y − Z1− α2 σ/ n ≤ µ ≤ Y + Z1− α2 σ/ n = 1 − α.
√ √
Y − Z1− α2 σ/ n ≤ µ ≤ Y + Z1− α2 σ/ n. (B.3)
127
Despejando µ en ambas desigualdades, se obtiene:
h √ √ i
P Y −t (1− α
2
,n−1) S/ n ≤ µ ≤ Y + t(1− 2 ,n−1) S/ n = 1 − α.
α (B.5)
obtenemos
(n − 1)Sn2
2
P χ(n−1), α ≤ 2
≤ χ(n−1),1− α = 1 − α (B.9)
2 σ2 2
128
entonces,
Y 1 − Y 2 − (µ1 − µ2 )
P −t(1− α2 ,n1 +n2 −2) ≤ q ≤ t(1− α2 ,n1 +n2 −2) = 1 − α, (B.12)
Sp n11 + n12
osea que:
q
Y 1 − Y 2 − t(1− α2 ,n1 +n2 −2) Sp n11 + 1
n2
≤ µ1 − µ2 ≤
P = 1 − α.
q
Y 1 − Y 2 + t(1− α2 ,n1 +n2 −2) Sp n11 + 1
n2
donde 2
S12 S22
+
n1 n2
v = 2 2 2 2 .
S1 S2
n1 n2
+
n1 − 1 n2 − 1
En poblaciones pareadas el intervalo de confianza se consigue realizando inicialmente
las diferencias di = xi −yi y posteriormente se obtiene el intervalo para estas diferen-
cias tal como en el caso para la media de una población, quedando este finalmente
expresado por:
Sd Sd
d − t(1− α2 ,n−1) √ ≤ µd ≤ d + t(1− α2 ,n−1) √ .
n n
129
para juzgar a partir de una muestra sí la afirmación que se hace sobre el (los)
parámetro(s) de la población es factible. En toda prueba de hipótesis estadística se
distinguen dos tipos de hipótesis denominadas:
Hipótesis alternativa (H1 ): Es la hipótesis que puede ser aceptada como cierta
si la hipótesis planteada se rechaza por ser poco probable que resulte verdadera.
Para dos poblaciones se puede estar interesado en probar alguna de las siguientes:
H0 : µ1 = µ2 vs H1 : µ1 < µ2 ,
H0 : µ1 = µ2 vs H1 : µ1 > µ2 ,
H0 : µ1 = µ2 vs H1 : µ1 6= µ2 .
Las probabilidades de cometer uno de estos dos tipos de errores se simbolizan por:
P otencia = 1 − β,
130
no sabrá si se comete un error tipo I o tipo II, dado que no se conoce el verdadero
valor del parámetro. Lo que si existe es una baja medida de la incertidumbre de que
se este tomando una decisión errada.
131
B.7.1. Pruebas de hipótesis para una población normal
Supongamos que tenemos una población cuyos elementos están permitidos de tomar
dos caracteres cualitativos, por ejemplo, blanco y negro, u hombre y mujer, o si y
no cuando se hace una encuesta, entre otros.
Se desea contrastar la hipótesis H0 de que la proporción de elementos con una de
esas características es π = π0 contra la hipótesis alternativa de que π 6= π0 . Para
esto tomamos una muestra X1 , . . . , Xn donde la variable Xi toma el valor 1 si la
obsevación i-ésima tiene la característica de interés, y toma valor 0 si no. Entonces
Pb − π0
utilizamos el estadístico Z = q , donde Pb = X. Por el teorema central del
π0 (1−π0 )
n
límite, Z tiene aproximadamente una distribución N (0, 1). Por tanto se rechaza H0
si |Z| > z1−α/2 .
132
Estadísticos de prueba según el parámetro
Distribución Estadístico
Parámetro
probabilística de prueba
Media poblacional Y −µ
Normal Z= √
µ con σ 2 conocida σ/ n
Media poblacional Y −µ
t - student T = √
µ con σ 2 desconocida s/ n
Proporción, π Pb − π
Normal Z=q
poblacional π(1−π)
n
Varianza (n − 1) S 2
Ji - cuadrado χ2 =
poblacional σ 2 σ2
S12
F = ∼ F (n1 − 1, n2 − 1).
S22
El valor crítico para el caso < es: f(α, n1 −1, n2 −1) , para el caso > es: f(1−α, n1 −1, n2 −1)
Igual que en el caso de una sola población, se rechaza H0 sí el valor del esta-
dístico de prueba cae en la región de rechazo.
133
2. Prueba de Hipótesis para Comparar Medias:
µ1 < µ2 ,
H0 : µ1 = µ2 contra una de las alternativas H1 : µ1 > µ2 ,
µ1 6= µ2 .
donde: s
(n1 − 1) S12 + (n2 − 1) S22
Sp = , (B.16)
n1 + n2 − 2
Se rechaza H0 si T < t(α,n1 +n2 −2) , o T > t(1−α,n1 +n2 −2) , o |T | > t(1−α/2,n1 +n2 −2) ,
respectivamente.
donde 2
S12 S2
n1
+ n22
v= 2 2 2
2 . (B.18)
S1 S2
n1 n2
n1 −1
+ n2 −1
Se rechaza H0 si T < t(α,v) , o T > t(1−α,v) , o |T | > t(1−α/2,v) , resp.
134
B.7.4. Prueba de Hipótesis para Comparar Proporciones:
P1 < P2 ,
H0 : P1 = P2 contra una de las alternativas H1 : P1 > P2 ,
P1 6= P2 .
Para este caso el estadístico de prueba para muestras grandes viene dado por:
c1 − P
P c2
Z=r (B.19)
Pb(1−Pb) Pb(1−Pb)
n1
+ n2
con
n1 p1 + n2 p 2
Pb = (B.20)
n1 + n2
El criterio de rechazo es análogo.
135
Bibliografía
136
[ 17 ] Dalgaard, Peter (2002). Introductory Statistics with R. New York, Berlin,
Heidelberg: Springer-Verlag
[ 18 ] Conover (1980) Practical Nonparametric Statistics, 2nd ed, Wiley. [ 19 ] Re-
cuperado de http://www.uv.es/ceaces/molineal/modelolineal.htm
[ 20 ] Myles Hollander & Douglas A. Wolfe (1973), Nonparametric Statistical Met-
hods. New York: John Wiley & Sons.
[ 21 ] Kendall, M. G., & Gibbons, J. D. (1990). Rank Correlation Methods (5th ed.).
London: Edward Arnold.
137