U3 Estimadores

ESTADÍSTICA
UNIDAD III
ESTIMADORES, TEST DE
HIPÓTESIS
REGRESIÓN Y CORRELACIÓN
LINEAL
p. 1
Centro de e-Learning SCEU UTN - BA.
Medrano 951 2do piso (1179) // Tel. +54 11 4867 7589 / Fax +54 11 4032 0148
www.sceu.frba.utn.edu.ar/e-learning
UNIDAD III: ESTIMADORES, TEST DE HIPÓTESIS, REGRESION Y CORRRELACION LINEAL
PRESENTACIÓN
En esta unidad veremos: Estimación. Test de Hipótesis. Regresión y correlación lineal: El método de Mínimos
Cuadrados. Análisis de Regresión. Coeficiente de Correlación. Análisis de Residuos.
OBJETIVOS
QUE LOS PARTICIPANTES LOGREN:
Manejar distintas estimadores
Utilizar Test de Hipótesis
Reconocer el significado de la regresión.
Construir la recta de regresión lineal.
Interpretar el resultado del error en la regresión.
Analizar gráficos de residuos.
TEMARIO
1. Estimación.
2. Test de Hipótesis
3. Regresión y Correlación Lineal
4. Ajuste por mínimos cuadrados
5. Coeficiente de correlación y determinación
6. Análisis de residuos
p. 2
BIBLIOGRAFÍA RECOMENDADA
OBLIGATORIA
Richard Levin; David S Rubin. Estadística para Administración y Economía. 7ma Edición. 2004.
Pearson Educación.
COMPLEMENTARIA
Robert D. Mason; Douglas A. Lind. Estadística para Administración y Economía, 8ª edición.
Madrid, Alfaomega grupo editor,1999
David Levine y Mark L. Berenson. Estadística básica en administración: conceptos y
aplicaciones. Pearson,1992
Ronald M. Weiers. Introducción a la estadística par negocios, 5ta edición, México. CENGAGE
learning, 2008.
p. 3
1. ESTIMACION
Cuando queremos realizar un estudio de una población cualquiera de la que desconocemos sus parámetros,
como por ejemplo su media poblacional o la probabilidad de éxito si la población sigue una distribución
binomial, debemos tomar una muestra aleatoria de dicha población a través de la cual calcular una
aproximación a dichos parámetros que desconocemos y queremos estimar.
Esa aproximación se llama estimación.
La estimación puede ser Puntual, o mediante intervalos de confianza.
Estimación Puntual:
Una estimación puntual del valor de un parámetro poblacional desconocido (como puede ser la media µ, o
la desviación estándar σ), es un número que se utiliza para aproximar el verdadero valor de dicho parámetro
poblacional. A fin de realizar tal estimación, tomaremos una muestra de la población y calcularemos el
parámetro muestral asociado ( 𝑋̅ para la media, 𝑠 para la desviación estándar, p para la proporción, etc.). El
valor de este parámetro muestral será la estimación puntual del parámetro poblacional.
Un estimador puntual de un parámetro θ es un valor que puede ser considerado representativo de θ y se

indicará 𝜃̂. Se obtiene a partir de alguna función de la muestra.
Ejemplo1.1: Supongamos que la compañía Sony desea estimar la edad media de los compradores de equipos
de alta fidelidad. Seleccionan una muestra de 100 compradores y calculan la media de esta muestra, este
valor será un estimador puntual de la media de la población.
Ejemplo1.2: Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces en forma
independiente, obteniéndose 21 ases. ¿Qué valor podría utilizarse, en base a esa información, como
estimación de la probabilidad de as? Parece razonable utilizar la frecuencia relativa de ases. En este caso, si
llamamos p a la probabilidad que queremos estimar, entonces:
21
𝑝̂ = 100 = 0.21 será un estimador puntual de p.
p. 4
Sugerencia: para mayor información sobre estimación, leer capítulo 7 apartados 7.1, 7.2 de la bibliografía
obligatoria
Estimación por intervalos de confianza - Intervalo de confianza para µ con σ

conocida
Cuando se obtiene una estimación puntual de un parámetro, es conveniente acompañar dicha estimación
por una “medida” de la precisión de la estimación. Un modo de hacerlo es informar el estimador y su error
standard. Otro modo es reemplazar la estimación puntual por un intervalo de valores posibles para el
parámetro.
Una estimación por intervalos de confianza, denota un rango dentro del cual se puede encontrar el
parámetro y el nivel de confianza con el que el intervalo contiene al parámetro.
Ejemplo 1.3: Supongamos que tenemos una muestra aleatoria X1,X2,…Xn, de una distribución 𝑁(𝜇, 𝜎 2 ) con
varianza 𝜎2 conocida. Por ser los datos normales, sabemos que:
σ2 ̅
X−μ
̅~N(μ,
X ) ⇔ ~N(0,1)
n 2
√σ
n
𝑋̅−𝜇
y, por lo tanto, la probabilidad de que 2
se encuentre entre - 1.96 y 1.96 es 0.95.
√𝜎
𝑛
𝑋̅ − 𝜇
P −1.96 ≤ ≤ 1.96 = 0.95
2
√𝜎
( 𝑛 )
p. 5
A partir de esta expresión, despejando el parámetro poblacional 𝜇 que deseamos estimar obtenemos el
intervalo de confianza:
𝑋̅ − 𝜇
P −1.96 ≤ ≤ 1.96 = 0.95
2
√𝜎
( 𝑛 )
𝜎2 𝜎2
P (−1.96. √ ≤ 𝑋̅ − 𝜇 ≤ 1.96. √ ) = 0.95
𝑛 𝑛
𝜎2 𝜎2
P (𝑋̅ − 1.96. √ ≤ 𝜇 ≤ 𝑋̅ + 1.96. √ ) = 0.95
𝑛 𝑛
𝜎2 𝜎2
Es decir, que la probabilidad de que el intervalo [𝑋̅ − 1.96. √ 𝑛 , 𝑋̅ + 1.96. √ 𝑛 ] contenga al verdadero valor
del parámetro 𝜇 es 0.95.
Este intervalo se denomina intervalo de confianza para 𝝁 de nivel 0.95
p. 6
Para mayor claridad tomemos los siguientes datos, que corresponden a las edades de 10 personas escogidas
al azar de un pueblo determinado. Se sabe que el desvío estándar de la población es de 5 años
55
40
52
59
46
49
49
43
52
49
𝑥̅ = 49 (dato de la muestra) 𝜎 = 5 (dato de la población) entonces tenemos ….
52 52
P (49 − 1.96. √ ≤ 𝜇 ≤ 49 + 1.96. √ ) = 0.95
10 10
P(45,9 ≤ 𝜇 ≤ 52,1) = 0.95
O sea que con un 95 % de certeza podemos decir que la media de la población, que tiene un desvío estándar
conocido de 5, se encuentra entre 45,9 y 52,1.
Sugerencia: para mayor información sobre intervalos de confianza, leer capítulo 7 apartados 7.3, 7.4 de la
bibliografía obligatoria
p. 7
Ejemplo 1.4:
Un vendedor mayorista de partes automotrices necesita una estimación de la vida media que puede esperar
de los limpiaparabrisas en condiciones normales de manejo. La administración de la empresa ya ha
determinado que la desviación estándar de la vida útil de la población es de seis meses. Supongamos que se
selecciona una sola muestra aleatoria de 100 limpiaparabrisas, y obtenemos que la vida media de estos 100
limpiaparabrisas es de 21 meses. Se pide calcular un intervalo de confianza del 95% para la vida media de la
población de los limpiaparabrisas.
Datos: X: distribución de la vida útil en meses de la población de limpiaparabrisas, no sabemos qué

distribución tiene, al igual que desconocemos su media. En este caso sí conocemos la desviación estándar
poblacional σ=6 meses
X~(𝜇, σ = 6)
La media muestral 𝑋̅ por el teorema central del límite se va a aproximar a la distribución normal:
𝜎 2
𝑋̅~𝑁(𝜇, 𝑛 )
Por lo tanto, el intervalo de confianza del 95% para la vida media en meses de toda la población de
limpiaparabrisas, es decir para 𝜇 es:
𝜎2 𝜎2
[𝑋̅ − zα . √ , 𝑋̅ + zα . √ ]
2 𝑛 2 𝑛
Donde zα es el percentil de la distribución Normal que deja área 0.95 entre –z y z.

2
62 62
[21 − 1.96. √ , 21 − 1.96. √ ] = [19.824 , 22.176]
100 100
Con una confianza del 95%, la vida media de la población de limpiaparabrisas que vende este mayorista está
entre 19,824 meses y 22,176 meses.
Sugerencia: para mayor información sobre intervalos de confianza de este tipo, leer capítulo 7 apartado 7.5 de la
p. 8
Intervalo de confianza para µ con σ desconocida.
Para estimar la desviación estándar poblacional σ vamos a utilizar la desviación estándar muestral S.
Así el intervalo de confianza para 𝜇 sera:
𝑆 2 S2
[𝑋̅ − t n−1,α . √ 𝑛 , 𝑋̅ + t n−1,α . √ 𝑛 ]
2 2
Donde t n−1,α es el percentil de la distribución t-Student con n-1 grados de libertad.

2
La distribución de student (ver apartado 7.7 de capítulo 7 de la bibliografía obligatoria) es una distribución
de probabilidad cuyo parámetro son los grados de libertad (que están relacionados con el tamaño muestral).
Lo que nos importa saber es que la variable aleatoria t, que tiene incluidos los valores de la muestra en el
promedio y el desvío standard tiene esta distribución de probabilidad. Cuando n > 30, es tan grande la
similitud con la distribución normal que directamente se aproxima a dicha distribución
𝑥̅
𝑡=
2
√𝑆
𝑛
Ejemplo 1.5: El administrador de una planta industrial generadora de energía desea estimar, por intervalo,
la cantidad de carbón que se consumió por término medio semanalmente durante el año pasado. Para ello
toma una muestra de 10 semanas. El consumo medio fue de 11.400 toneladas, la desviación estándar
muestral 700 toneladas. ¿Cuál será el intervalo de confianza del 95% para el consumo medio semanal durante
el año pasado? (supongamos normalidad).
Tenemos X: distribución de toneladas de carbón consumidas cada semana del año pasado por la planta de
energía y su media y su desviación estándar desconocidas.
Para estimar la desviación estándar poblacional σ vamos a utilizar la desviación estándar muestral S que es
700 toneladas.
p. 9
Por lo tanto, el intervalo de confianza del 95% para el consumo promedio de toneladas de carbón en cada
semana del año pasado, es decir para µ, será:
𝑆2 S2
[𝑋̅ − t n−1,α . √ , 𝑋̅ + t n−1,α . √ ]
2 𝑛 2 𝑛
7002 7002
[11400 − t 9,0.025 . √ , 11400 + t 9,0.025 . √ ]
10 10
7002 7002
[11400 − 2.262√ , 11400 + 2.262. √ ]= [10.899 , 11.901]
10 10
Utilizamos la t-Student porque la desviación estándar poblacional σ es desconocida. En las tablas,

t (10−1,0.05)=2.262 , una t-Student con 10 – 1 = 9 grados de libertad que deja su derecha un área de 0,025. 𝛼 =
2
0.05 porque el nivel de confianza es de 1 − 𝛼 = 0.95
Con una confianza del 95%, el consumo promedio semanal de carbón durante el año pasado por esta planta
de energía estará entre 10.899 toneladas y 11.901 toneladas.
Sugerencia: para mayor información sobre intervalos de confianza de este tipo, leer capítulo 7 apartados 7.7 de la
p. 10
2. TESTS DE HIPOTESIS
Hasta ahora hemos visto como obtener, a partir de una muestra, un estimador puntual o un intervalo de
confianza para un parámetro θ. Frecuentemente el objetivo del estudio es decidir, en base a la información
que provee la muestra, entre dos hipótesis relativas a un parámetro.
La hipótesis nula se designa Ho: Esta hipótesis implica que no hay efecto, es la hipótesis del status quo, o sea
del no cambio respecto a la situación inicial.
La segunda hipótesis se denomina hipótesis alternativa y se designa H1: Se la suele llamar la hipótesis del
investigador.
Un test es una regla de decisión basada en un estadístico o función de la muestra, y en una zona de rechazo,
es decir un conjunto de valores para los cuáles se rechaza la hipótesis nula Ho.
¿Cómo se elige la zona de rechazo? Observemos que al tomar una decisión en base a una muestra, podemos
cometer dos tipos de error.
No se rechaza Ho Se rechaza Ho
Ho es Verdadera OK Error tipo I
Ho es Falsa Error tipo II OK
Debido a la variabilidad muestral, es imposible construir tests en los cuáles estemos absolutamente seguros
de tomar la decisión correcta. Lo que podemos hacer es tratar de mantener bajas las probabilidades de error.
Llamaremos nivel de significación del test, y lo designaremos α, a la probabilidad de error tipo I (en realidad
a la máxima probabilidad de error tipo I)
Como el estadístico se construye bajo la condición de que Ho es verdadera, lo que podemos controlar es la
probabilidad de error tipo I. Elegiremos la zona de rechazo del test de manera que la probabilidad de error
tipo I sea un valor α predeterminado.
p. 11
En este curso estudiaremos el test para comparación de la diferencia de promedios de dos muestras
independientes, que sin ser el único caso, es el más frecuente.
Diremos que dos muestras son independientes cuando no se establece ninguna relación previa al análisis
entre las unidades de una y otra muestra. Por ejemplo, sujetos de uno y otro curso, enfermos de dos
consultorios, hombres comparados con mujeres.
Sugerencia: para mayor información sobre test de hipótesis, leer capítulo 9 apartado 9.1 de la bibliografía
obligatoria.
Ejemplo 2.1:
Comparación de medias de dos muestras independientes (con varianzas

desconocidas y supuestas iguales)
El estadístico a utilizar será:
x̅1 − x̅2
t0 =
1 1
s p . √n + n
1 2
Donde:
𝑡0 tiene probabilidad de ocurrencia en la tabla de distribución t de Student con n1 + n2 − 2 grados de

libertad.
̅𝟏 : promedio de la muestra 1
𝒙
̅2 : promedio de la muestra 2
𝒙
S1 2 .(n1 −1)+S2 2 .(n2 −1)

𝒔𝒑 = √ : es la varianza común estimada.
n1 +n2 −2
Ejemplo 2.2: Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo humano
para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que cada medicamento
alcance un nivel específico en el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a doce
p. 12
personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar un nivel
específico en la sangre.
¿Se puede asegurar con un 95% de confianza que el tiempo promedio para alcanzar un nivel específico es
mayor para el medicamento B?
Medicamento A Medicamento B
nA = 12 nB = 12
SA2= 15.57 SB2 = 17.54
Primeramente debemos plantear las hipótesis:
H0: 𝜇𝐴 − 𝜇𝐵 = 0 vs H1: 𝜇𝐴 < 𝜇𝐵
Ho: el tiempo promedio requerido por el cuerpo humano para absorber dos medicamentos, A y B es el
mismo.
H1: El tiempo promedio requerido por el cuerpo humano para absorber el medicamento A es menor que
para el medicamento B.
Planteamos el estadístico de prueba:
̅𝟏 − 𝒙
𝒙 ̅𝟐
𝒕0 =
𝟏 𝟏
𝒔𝒑 . √𝒏 + 𝒏
𝟏 𝟐
̅𝐀 : 26.8
𝒙
̅B :32.6
𝒙
SA 2 . (nA − 1) + SB 2 . (nB − 1) 15.57. (12 − 1) + 17.54. (12 − 1)

𝒔𝒑 = √ =√ = 4.07
n1 + n2 − 2 12 + 12 − 2
p. 13
̅𝟏 − 𝒙
𝒙 ̅𝟐 26.08 − 32.6 −6.52
𝒕0 = = = = −3.93
𝟏 𝟏 𝟏 𝟏 1.66
𝒔𝒑 . √𝒏 + 𝒏 4.07. √12 + 12
𝟏 𝟐
Como el contraste es unilateral, buscamos en las tablas de la t de Student, con 22 grados de libertad, el valor
que deja por debajo de sí una probabilidad de 0,95 que resulta ser -1.717.
O sea que se rechaza la hipótesis nula para valores inferiores del valor crítico -1.717. Como nuestro
estadístico de prueba arrojo el valor -3.93, cae dentro de la zona de rechazo, por lo tanto se rechaza a
hipótesis nula.
Hay evidencia suficiente para asegurar con un 95% de confianza que el tiempo promedio requerido por el
cuerpo humano para absorber el medicamento A es menor que para el medicamento B.
Ahora a modo de ejemplo comparemos el medicamento A vs. C
Medicamento A Medicamento C
n 12 12
promedio 26,8 28,6
varianza 15,57 17,54
El valor de t = -1,52, que es mayor que el valor crítico de -1,717. Esto significa que, no hay evidencia
estadística que justifique un rechazo de la hipótesis nula y por lo tanto no podemos decir que un
medicamento se absorba más rápido o más lento que otro. Fijarse la importancia de como decimos las cosas:
NO estamos diciendo que se absorban a igual velocidad, sino que no podemos decir que uno sea más rápido
o lento en su velocidad de absorción, que no es lo mismo.
p. 14
Sugerencia: para mayor información sobre este test de hipótesis, leer capítulo 9 apartado 9.4 de la bibliografía
obligatoria.
p. 15
3. REGRESION Y CORRELACION LINEAL
Muy a menudo se presentan situaciones en las que es de gran interés estudiar la relación entre dos variables.
Lógicamente que los datos de estudio dejan de ser univariados (una única observación por cada unidad
elemental de la muestra), pasando nuestra población de estudio a ser bivariada (dos observaciones por cada
unidad elemental).
Por ejemplo podemos observar el peso y la edad de cada individuo, el gasto de una empresa y sus
ingresos,…etc.
El análisis de regresión involucra el estudio de la relación entre dos variables cuantitativas.
En general interesa:
Investigar si existe una asociación entre las dos variables testeando la hipótesis de independencia
estadística.
Estudiar la fuerza de la asociación, a través de una medida de asociación denominada coeficiente
de correlación.
Estudiar la forma de la relación.
Usando los datos propondremos un modelo para la relación y a partir de ella será posible predecir el
valor de una variable a partir de la otra.
Para ello proponemos un modelo que relaciona una variable dependiente (Y) con una variable
independiente (X).
Llamaremos modelo matemático a la función matemática que proponemos como forma de relación
entre la variable dependiente Y (variable de respuesta) y la variable independientes X (variable
regresora). La función más simple para la relación entre dos variables es la función lineal:
Y=a+bX
Esta expresión es una aproximación de la verdadera relación entre X e Y.
p. 16
Para un dado valor de X el modelo predice un cierto valor para Y.
Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.
Nuestro modelo será un modelo estadístico porque permite la incorporación de un componente aleatorio
en la relación.
En consecuencia, las predicciones obtenidas a través de modelos estadísticos tendrán asociado un error de
predicción.
Por ejemplo, la relación de la altura con la edad en niños. Niños de la misma edad seguramente no tendrán
la misma altura. Sin embargo, a través de un modelo estadístico es posible concluir que la altura aumenta
con la edad. Es más, podríamos predecir la altura de un niño de cierta edad y asociarle un error de predicción
que tiene en cuenta: errores de medición y variabilidad entre individuos.
En problemas biológicos, trabajando en “condiciones ideales” es posible evitar los errores de medición, pero
no la variabilidad individual, por eso es indispensable incluir el componente aleatorio en los modelos
estadísticos.
En este curso trataremos sobre Regresión Lineal. Haremos énfasis en este tipo de modelos porque son de
amplia aplicación y más simples de implementar.
Regresión Lineal simple:
Supongamos que el consumo (Y) y el ingreso (X) para los últimos 4 años (en millones de pesos) fueron los
siguientes:
Año Y X
1 3 5
2 4 6
3 5 8
4 8 9
N=4 𝑌̅ = 5 𝑋̅ = 7
p. 17
Se desea probar la hipótesis de que el consumo depende de las variaciones que experimenta el ingreso.
Los valores apareados de X e Y se pueden representar en un gráfico llamado diagrama de dispersión.
El objetivo de este diagrama es el de sugerir la forma funcional del modelo estadístico tal como se ve en la
siguiente figura:
8
7
6
Consumo
5
4
3
5 6 7 8 9
Ingresos
Se observa que el diagrama de dispersión de la figura anterior sugiere una relación lineal con pendiente
positiva.
También se puede observar que una línea recta no puede pasar por todos los puntos en el diagrama, esto
significa que, al no caer todos los puntos alineados sobre una misma recta, no toda la variación de Y puede
ser explicada por la variación de X.
Esto nos conduce naturalmente a la aplicación de métodos estadísticos. La predicción de Y para un valor dado
de X es un proceso inferencial y se requiere conocer las propiedades del error de la predicción.
Como dijimos, parece razonable pensar que la relación ingreso-consumo es aparentemente lineal.
Podemos proponer el modelo: 𝐶𝑜𝑛𝑠𝑢𝑚𝑜 = 𝛽0 + 𝛽1 ∗ 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 𝑒𝑟𝑟𝑜𝑟
p. 18
Es decir: 𝑌𝑖 = 𝛽0 + 𝛽1 ∗ 𝑋𝑖 + 𝜀𝑖
Podríamos intentar ajustar una recta “a ojo, tendríamos por ejemplo las rectas:
1 2
𝑦𝑖 = − + ∗ 𝑥𝑖
3 3
4
𝑦𝑖 = −4 + ∗ 𝑥𝑖
3
¿Cuál recta es “mejor”? ¿Cómo decidir? Veamos los gráficos.
y=2/3*x-1/3 y=4/3*x-4
8
8
7
7
6
6
Consumo
Consumo
5
5
4
4
3
5 6 7 8 9 5 6 7 8 9
Ingresos Ingresos
Para decidir cuál de las dos rectas ajusta mejor estos datos se considera una medida de cuán lejos está cada
dato de la recta propuesta o sea se analizan lo que llamamos RESIDUOS
Residuos = Y observado – Y ajustado
La mejor recta sería aquella que minimice la suma de las distancias al cuadrado de los puntos a la recta.
Afortunadamente no es necesario probar con diferentes rectas cuál de ellas es la que produce la menor suma
de cuadrados, ya que es posible encontrar analíticamente las expresiones para 𝛽̂0 𝑦 𝛽̂1 . Recordemos que 𝛽̂0
es la ordenada al origen de la recta de aproximación y 𝛽̂1 es la pendiente de dicha recta.
p. 19
El método para encontrar la recta que mejor ajuste a los datos se conoce como método de mínimos
cuadrados.
Sugerencia: para mayor información sobre correlación y regresión lineal simple, leer capítulo 12 apartados 12.1 de
la bibliografía obligatoria
p. 20
4. AJUSTE POR MÍNIMOS CUADRADOS
Como dijimos con este método obtendremos una recta que mejor se ajusta a los datos de la muestra, en el
sentido que hace mínima la suma de los cuadrados de las diferencias entre cada observación y su estimación
sobre la recta.
La recta de regresión será: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 ∗ 𝑋𝑖
Dijimos que los residuos 𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 ∑𝑛𝑖=1 𝑒𝑖 2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝛽̂0 −𝛽̂1 ∗ 𝑥𝑖 )2
El método consiste en que los valores de 𝛽̂0 𝑦 𝛽̂1 deben escogerse de tal forma que hagan a la ∑𝑛𝑖=1 𝑒𝑖 2 , lo
más chica posible. Una condición necesaria para esto es que las derivadas parciales de la suma con respecto
a 𝛽̂0 𝑦 𝛽̂1 deberán ser iguales a cero, con lo cual podemos escribir:
𝑛 𝑛
𝜕
(∑ 𝑒𝑖 2 ) = −2 ∑(𝑦𝑖 − 1 − 𝛽̂1 ∗ 𝑥𝑖 ) = 0
𝜕𝛽̂0
𝑖=1 𝑖=1
𝑛 𝑛
𝜕
(∑ 𝑒𝑖 2 ) = −2 ∑ 𝑥𝑖 ∗ (𝑦𝑖 − 𝛽̂0 − 𝑥𝑖 ) = 0
𝜕𝛽̂1
𝑖=1 𝑖=1
Simplificando estas dos ecuaciones se obtiene un sistema de ecuaciones llamadas normales para hallar la
recta.
𝑛
∑ (𝑋 −𝑋̅)∗(𝑌𝑖 −𝑌̅)
Así la pendiente se calcula como: 𝛽̂1 = 𝑖=1 𝑛 𝑖 ̅ 2
∑𝑖=1(𝑋𝑖 −𝑋)
y la ordenada : 𝛽̂0 = 𝑌̅ − 𝛽̂1 ∗ 𝑋̅
Para nuestro ejemplo Ingreso-consumo, los estimadores por mínimos cuadrados para 𝛽̂0 𝑦 𝛽̂1 serian:
∑4𝑖=1(𝑋𝑖 − 𝑋̅) ∗ (𝑌𝑖 − 𝑌̅) (5 − 7)(3 − 5) + (6 − 7)(4 − 5) + (8 − 7)(5 − 5) + (9 − 7)(8 − 5)

𝛽̂1 = 2 =
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅) (5 − 7)2 + (6 − 7)2 + (8 − 7)2 + (9 − 7)2
11
= = 1.1
10
𝛽̂0 = 𝑌̅ − 𝛽̂1 ∗ 𝑋̅ = 5 − 1.1 ∗ 7 = −2.7
p. 21
̂𝟎 + 𝜷
̂𝒊 = 𝜷
La recta ajustada para nuestros datos es: 𝒀 ̂ 𝟏 ∗ 𝑿𝒊 = −𝟐. 𝟕 + 𝟏. 𝟏 ∗ 𝑿𝒊
̂ 𝟏 tiene signo positivo, lo cual es bueno por que corrobora la teoría económica de que a
Obsérvese que 𝜷
medida que aumenta el ingreso (X) también aumenta el consumo (Y).
El grafico de esta recta en el diagrama de dispersión es:
y=-2.7+1.1*x
8
7
6
Consumo
5
4
3
5 6 7 8 9
Ingresos
El método de mínimos cuadrados permite estimar una recta a partir de un conjunto de datos.
Si estos datos son una muestra “adecuada” de una población, la recta nos permite extender resultados a
dicha población. Ciertas características de los datos podrían invalidar los resultados del método.
p. 22
Ejemplo 4.1:
Vamos a tomar el ejemplo expuesto y realizarlo con Excel.
Año Y X
1 3 5
2 4 6
3 5 8
4 8 9
N=4 𝑌̅ = 5 𝑋̅ = 7
Lo primero es ir MARCAR LOS VALORES DE X y de Y. Ir a INSERTAR/ GRAFICOS /DISPERSIÓN:
Automáticamente realizará el gráfico de dispersión. Ahora debemos buscar la línea de tendencia, la ecuación
y el R cuadrado. Para ello nos posicionamos sobre el gráfico marcándolo y buscamos dentro de AGREGAR
p. 23
ELEMENTO DE GRAFICO / LINEA DE TENDENCIA / LINEAL / MAS OPCIONES DE LINEA DE TENDENCIA / AL
FINAL MARCAMOS PRESENTAR ECUACION EN EL GRÁFICO Y PRESENTAR VALOR DE R CUADRADO EN EL
GRAFICO
p. 24
Aclaración: en el próximo capítulo veremos el significado del R2.
Sugerencia: para mayor información sobre el método de cuadrados mínimos, leer capítulo 12 apartado 12.2 de la
bibliografía obligatoria.
p. 25
5. COEFICIENTE DE CORRELACIÓN Y DETERMINACIÓN
Con alguna frecuencia el interés que hay en la relación entre dos variables X e Y se concentra en determinar
si están o no relacionadas, y en caso afirmativo, averiguar qué tan fuerte es la relación.
La técnica analítica apropiada que se emplea en esta situación es el análisis de correlación; es decir que se
utiliza cuando se quiere conocer el grado de asociación entre las variables.
Generalmente se utiliza el coeficiente r de Pearson, que es una medida de la dispersión de los datos alrededor
de la recta de regresión. Es una medida cuantitativa de la fuerza de la relación. Proporciona tres datos
principales:
La existencia o no de una relación entre las variables

La dirección de la relación, si es positiva o negativa
El grado de esa relación
Es un coeficiente que varía entre -1 y 1. Si su valor es cercano a cero, indica la inexistencia de correlación.
A medida que se va acercando a -1 o 1, la correlación será más fuerte.
La aplicación de este coeficiente supone el cumplimiento de determinadas condiciones:
La distribución conjunta de X e Y debe ser normal

La relación entre X e Y es en cierto sentido, lineal
Debe haber homogeneidad entre las varianzas correspondientes a X e Y
El coeficiente se calcula con la ecuación:
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅) ∗ (𝑌𝑖 − 𝑌̅)

𝑟=
𝑛. 𝑆𝑥 ∗ 𝑆𝑦
Donde 𝑆𝑥 𝑦 𝑆𝑦 son las desviaciones estándares de las X’s y de las Y’s respectivamente.
p. 26
∑𝑛𝑖=1 𝑋𝑖 2
𝑆𝑥 = √ − 𝑋̅ 2
𝑁
∑𝑛𝑖=1 𝑌𝑖 2
𝑆𝑦 = √ − 𝑌̅ 2
𝑁
Continuando con nuestro análisis inicial, el coeficiente de correlación de Pearson es:
∑4𝑖=1(𝑋𝑖 − 𝑋̅) ∗ (𝑌𝑖 − 𝑌̅) (5 − 7)(3 − 5) + (6 − 7)(4 − 5) + (8 − 7)(5 − 5) + (9 − 7)(8 − 5)

𝑟= = = 0.93
𝑛. 𝑆𝑥 ∗ 𝑆𝑦 4 ∗ 1.58 ∗ 1.87
∑𝑛𝑖=1 𝑌𝑖 2 32 + 42 + 52 +82
𝑆𝑦 = √ ̅
−𝑌 =√
2 − 52 = 1.87
𝑁 4
2
∑4𝑖=1 𝑋𝑖 52 + 62 + 82 +92
𝑆𝑥 = √ − 𝑋̅ 2 = √ − 72 = 1.58
𝑁 4
Por lo tanto podemos decir que existe una alta correlación de carácter positivo entre X e Y.
Ya sabíamos que iba a ser positiva porque la pendiente de la recta de regresión es positiva.
Con base en lo anterior: Se corrobora la teoría económica de que el ingreso determina el consumo.
Pero ¿En qué magnitud, que porcentaje de los cambios en Y son explicados por los cambios en la variable X?
La respuesta se obtiene calculando el coeficiente de determinación.
El mismo se denota con 𝑹𝟐 = 𝒓𝟐
En nuestro caso el coeficiente de determinación es R2 = 0.932 = 0.86
p. 27
Esto nos dice que el 86% de la variabilidad total en la variable Consumo puede ser explicada por la variable
ingresos, en consecuencia es una medida de la capacidad de predicción del modelo.
Sugerencia: para mayor información sobre análisis de correlación, leer capítulo 12 apartado 12.3 de la bibliografía
obligatoria.
p. 28
6. ANÁLISIS DE RESIDUOS
Una desventaja del método de cuadrados mínimos es que observaciones con X muy grande o muy pequeño
que caigan lejos de la tendencia del resto de los datos pueden modificar sustancialmente la estimación.
Una observación se denomina influyente si al excluirla la recta de regresión estimada cambia
notablemente.
Por ejemplo tenemos las variables:
X: Experiencia laboral (en años)
Y: Salario (miles de pesos)
80
70
60
50
Y
40
30
20
10
2 4 6 8 10 12 14
p. 29
cta estimada Coeficiente de Determinación r2
𝑦 = 29.5988 − 0.5393 ∗ 𝑋 0.01196 con dato influyente
𝑦 = 7.8215 − 1.3920 ∗ 𝑋 0.9777 sin dato influyente
Un dato influyente puede ser fácilmente detectado a través de métodos gráficos, aunque también existen
medidas indicadoras de cuán influyente es una observación.
Cuando detectamos un outlier tan severo, es importante investigarlo. Puede estar mal registrado. Si es
correcto, quizás sea diferente de las otras del modo como ocurre en el ejemplo anterior y hay que
preguntarse si interesa mantenerlo en el análisis. Si el dato es correcto y no hay razones para excluirlo del
análisis entonces la estimación de los parámetros debería hacerse con un método robusto.
DIAGNÓSTICO EN REGRESIÓN
¿Cómo sabemos si el modelo ajusta razonablemente bien a nuestros datos?
Recordemos nuevamente los supuestos de nuestro modelo lineal
• Linealidad.
• Distribución normal de la variable Y condicional a X.
• Homoscedasticidad.
• Independencia de los errores.
En la práctica es imposible verificar que los supuestos se cumplen. La idea es averiguar si existen
apartamientos groseros de alguno de ellos, si no observamos apartamientos groseros entonces el modelo
puede todavía ser útil.
Análisis de los residuos
La mayoría de los supuestos puede chequearse usando los residuos 𝑒𝑖 = 𝑌𝑖 − 𝑌̂. Ellos representan la
distancia de cada observación a la recta ajustada.
Normalidad. Si las observaciones provienen de distribuciones normales todas con la misma varianza σ,
entonces los residuos deberían mostrar una distribución aproximadamente normal. Para chequearlo
podemos usar métodos gráficos o el test de Shapiro-Wilk.
Linealidad y homoscedasticidad Para chequear que el modelo lineal es una buena aproximación a la
verdadera relación entre las variables y para chequear el supuesto de homogeneidad de varianzas usamos el
gráfico de residuos versus valores predichos. Si el gráfico muestra una nube de puntos alrededor de cero sin
p. 30
evidencia de estructura, tendencia o cambio de la dispersión, entonces no hay sospecha de que se violen
ninguno de estos dos supuestos.
No se detecta ningún problema

El ajuste lineal no es adecuado
Existencia de datos atípico Existe heterocedasticidad
Residuos estandarizados
En el método de mínimos cuadrados los valores de la variable explicativa alejados de su media tienden a
acercar la recta hacia ellos, esto se llama efecto palanca. Como consecuencia los residuos tienden a ser
menores para valores de X extremos, es decir que si la observación xi, está lejos de su promedio, la varianza
de los residuos será chica y el valor ajustado estará cerca del valor observado por efecto palanca.
Para eliminar esta tendencia se consideran los residuos estandarizados definidos por:
𝒆𝒊
𝒓𝒔𝒊 =
𝝈 ∗ √𝟏 − 𝒉𝒊𝒊
Donde:
𝟏 ̅ )𝟐
(𝑿𝒊 − 𝑿
𝒉𝒊𝒊 = +
𝒏 ∑𝒏𝒌=𝟏(𝒙𝒌 − 𝒙̅)𝟐
Es una medida del alejamiento del valor xi respecto a su media, llamada “leverage”
p. 31
Una observación con residuo grande se denominan dato atípico (outlier), normalmente se considera que una
observación es un dato atípico si tiene un residuo estandarizado mayor que 2 (|rsi | > 2), otras veces se pide
que |r |> 3. En cualquier caso es una elección subjetiva y cuanto mayor sea |ri| más atípica es la observación.
Sugerencia: para mayor información sobre análisis de residuos, leer capítulo 12 apartado 12.5 de la bibliografía
obligatoria.
p. 32

U3 Estimadores

Cargado por

Copyright:

Formatos disponibles

U3 Estimadores

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

U3 Estimadores

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

Utilizar Test de Hipótesis

Reconocer el significado de la regresión.

Construir la recta de regresión lineal.

Interpretar el resultado del error en la regresión.

Analizar gráficos de residuos.

3. Regresión y Correlación Lineal

4. Ajuste por mínimos cuadrados

5. Coeficiente de correlación y determinación

Esa aproximación se llama estimación.

La estimación puede ser Puntual, o mediante intervalos de confianza.

Un estimador puntual de un parámetro θ es un valor que puede ser considerado representativo de θ y se

Estimación por intervalos de confianza - Intervalo de confianza para µ con σ

del parámetro 𝜇 es 0.95.

Este intervalo se denomina intervalo de confianza para 𝝁 de nivel 0.95

𝑥̅ = 49 (dato de la muestra) 𝜎 = 5 (dato de la población) entonces tenemos ….

P(45,9 ≤ 𝜇 ≤ 52,1) = 0.95

Datos: X: distribución de la vida útil en meses de la población de limpiaparabrisas, no sabemos qué

Donde zα es el percentil de la distribución Normal que deja área 0.95 entre –z y z.

Así el intervalo de confianza para 𝜇 sera:

Donde t n−1,α es el percentil de la distribución t-Student con n-1 grados de libertad.

Utilizamos la t-Student porque la desviación estándar poblacional σ es desconocida. En las tablas,

0.05 porque el nivel de confianza es de 1 − 𝛼 = 0.95

Comparación de medias de dos muestras independientes (con varianzas

𝑡0 tiene probabilidad de ocurrencia en la tabla de distribución t de Student con n1 + n2 − 2 grados de

S1 2 .(n1 −1)+S2 2 .(n2 −1)

SA2= 15.57 SB2 = 17.54

Primeramente debemos plantear las hipótesis:

H0: 𝜇𝐴 − 𝜇𝐵 = 0 vs H1: 𝜇𝐴 < 𝜇𝐵

Planteamos el estadístico de prueba:

SA 2 . (nA − 1) + SB 2 . (nB − 1) 15.57. (12 − 1) + 17.54. (12 − 1)

Ahora a modo de ejemplo comparemos el medicamento A vs. C

El análisis de regresión involucra el estudio de la relación entre dos variables cuantitativas.

Esta expresión es una aproximación de la verdadera relación entre X e Y.

Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.

Regresión Lineal simple:

Los valores apareados de X e Y se pueden representar en un gráfico llamado diagrama de dispersión.

Podemos proponer el modelo: 𝐶𝑜𝑛𝑠𝑢𝑚𝑜 = 𝛽0 + 𝛽1 ∗ 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 𝑒𝑟𝑟𝑜𝑟

¿Cuál recta es “mejor”? ¿Cómo decidir? Veamos los gráficos.

Residuos = Y observado – Y ajustado

La recta de regresión será: 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 ∗ 𝑋𝑖

y la ordenada : 𝛽̂0 = 𝑌̅ − 𝛽̂1 ∗ 𝑋̅

∑4𝑖=1(𝑋𝑖 − 𝑋̅) ∗ (𝑌𝑖 − 𝑌̅) (5 − 7)(3 − 5) + (6 − 7)(4 − 5) + (8 − 7)(5 − 5) + (9 − 7)(8 − 5)

𝛽̂0 = 𝑌̅ − 𝛽̂1 ∗ 𝑋̅ = 5 − 1.1 ∗ 7 = −2.7

El grafico de esta recta en el diagrama de dispersión es:

Vamos a tomar el ejemplo expuesto y realizarlo con Excel.

Lo primero es ir MARCAR LOS VALORES DE X y de Y. Ir a INSERTAR/ GRAFICOS /DISPERSIÓN:

La existencia o no de una relación entre las variables

A medida que se va acercando a -1 o 1, la correlación será más fuerte.

La aplicación de este coeficiente supone el cumplimiento de determinadas condiciones:

La distribución conjunta de X e Y debe ser normal

El coeficiente se calcula con la ecuación:

∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅) ∗ (𝑌𝑖 − 𝑌̅)

Continuando con nuestro análisis inicial, el coeficiente de correlación de Pearson es:

∑4𝑖=1(𝑋𝑖 − 𝑋̅) ∗ (𝑌𝑖 − 𝑌̅) (5 − 7)(3 − 5) + (6 − 7)(4 − 5) + (8 − 7)(5 − 5) + (9 − 7)(8 − 5)

El mismo se denota con 𝑹𝟐 = 𝒓𝟐

En nuestro caso el coeficiente de determinación es R2 = 0.932 = 0.86

Por ejemplo tenemos las variables:

X: Experiencia laboral (en años)