Tarea Resumen Estadistica
Tarea Resumen Estadistica
Tarea Resumen Estadistica
SERDÁN
ING. INFORMÁTICA
MATERIA: PROBABILIDAD Y ESTADISTÍCA
RESUMEN “REGRESIÓN LINEAL”
DOCENTE: ING. SANDRA VELÉZ ARROYO
ALUMNA: JENNIFER GARCÍA ESTÉVEZ
NO. DE CONTROL: 16CS0034
GRUPO “0357”
FECHA DE ENTREGA: 27 DE SEPTIEMBRE DE 2017
TERCER SEMESTRE
El uso de la ecuación anterior debería aclarar la diferencia entre los residuales y los errores
del modelo conceptual . Mientras los no se observan, los no sólo se observan sino
que desempeñan un papel importante en el análisis total.
Al igualar a cero las derivadas parciales y reacomodar los términos, obtenemos las ecuaciones
siguientes (llamadas ecuaciones normales).
por hecho que son independientes de una corrida a otra del experimento, lo cual
proporciona la base para calcular las medias y varianzas de los estimadores de β 0 y β1.
Los valores de b0 y b1, basados en una muestra dada de n observaciones, sólo son estimaciones
de los parámetros verdaderos β0 y β1. Si el experimento se repitiera una y otra vez, usando en
cada ocasión los mismos valores fijos de x, los estimados resultantes de β 0 y β1 muy
probablemente diferirían de un experimento a otro. Estos estimados distintos podrían ser
considerados como valores adoptados por las variables aleatorias B 0 y B1; en tanto que b0 y b1
son ejecuciones específicas. Como los valores de x permanecen fijos, los valores de B 0 y B1
dependen de las variaciones en los valores de y o, con más precisión, en los valores de las
variables aleatorias Las suposiciones sobre la distribución implican que las Yi,
i = 1, 2,..., n también están distribuidas de manera independiente, con media
es de la forma
A partir de estos resultados es evidente que los estimadores de mínimos cuadrados tanto para
β0 como para β1 son insesgados.
11.5 INFERENCIAS SOBRE LOS COEFICIENTES DE REGRESIÓN
Además de tan sólo estimar la relación lineal entre x y Y para fines de predicción, el
experimentador podría estar interesado en hacer ciertas inferencias acerca de la pendiente y la
intersección. Para dar ocasión a la prueba de hipótesis y a la construcción de intervalos de
confianza para β0 y β1, debemos estar dispuestos a hacer la suposición adicional de que cada
, se distribuye de forma normal. Esta suposición implica que Y 1, Y2,..., Yn
también están distribuidas normalmente, cada una con una distribución de probabilidad
Se sabe que B1 tiene una distribución normal, y suponiendo normalidad, nos permite concluir
que es una variable chi cuadrada con n – 2 grados de libertad, independiente de
la variable aleatoria B1. Entonces, garantizamos que el estadístico
tenga una distribución t con n – 2 grados de libertad. Podemos utilizar el estadístico T para
construir un intervalo de confianza del 100(1 – α) % para el coeficiente β1.
Intervalo de confianza para β1
Un intervalo de confianza de 100(1 – α) % para el parámetro β1 en la recta de regresión
es
es
y varianza
y varianza
Logramos hacer una partición de la suma total de los cuadrados corregida de y en dos
componentes que deberían proporcionar un significado particular para el experimentador. Esta
partición se debería indicar en forma simbólica como STCC = SCR + SCE.
El primer componente de la derecha, SCR, se denomina suma de cuadrados de la regresión y
refleja la cantidad de variación de los valores y que se explica con el modelo, que en este caso
es la línea recta postulada. El segundo componente es la ya conocida suma de cuadrados del
error, que refleja la variación alrededor de la recta de regresión. Supongamos que nos interesa
probar la hipótesis
en comparación con
donde la hipótesis nula en esencia dice que el modelo es ; es decir, la variación en los
resultados Y debida a las fluctuaciones de probabilidad o aleatorias que son independientes de
los valores de x. En las condiciones de esta hipótesis nula se puede demostrar que ,y
son valores de variables chi cuadradas independientes con 1 y n – 2 grados de libertad,
respectivamente y, se sabe que también es un valor de una variable chi cuadrada con
n – 1 grados de libertad. Para probar la hipótesis anterior calculamos
Cuando se rechaza la hipótesis nula, es decir, cuando el estadístico F calculado excede al valor
crítico se concluye que hay una cantidad significativa de variación en la respuesta
justificada por el modelo postulado, que es la función de la línea recta. Si el estadístico F está
en la región de no rechazo, se concluye que los datos no reflejan evidencia suficiente para
apoyar el modelo que se postula.
Usamos el estadístico
contra
donde T sigue la distribución t con n – 2 grados de libertad. La hipótesis se rechaza si
para un nivel de significancia α. Es interesante observar que en el caso en que probamos
en comparación con
el valor del estadístico T se convierte en
que da como resultado un valor idéntico al valor f utilizado en el análisis de varianza. La relación
fundamental entre la distribución t con v grados de libertad y la distribución F con 1 y v grados
de libertad es
La prueba t permite probar en comparación con una alternativa unilateral, en tanto que la prueba
F está restringida a una prueba en comparación con una alternativa bilateral.
11.9 PRUEBA PARA LA LINEALIDAD DE LA REGRESIÓN: DATOS CON
OBSERVACIONES REPETIDAS
En ciertos tipos de situaciones experimentales el investigador tiene la capacidad de efectuar
observaciones repetidas de la respuesta para cada valor de x. Aunque no es necesario tener
dichas repeticiones para estimar β0 y β1, las repeticiones permiten al experimentador obtener
información cuantitativa acerca de lo apropiado que resulta el modelo. Si se generan
observaciones repetidas, el investigador puede efectuar una prueba de significancia para
determinar si el modelo es o no adecuado.
Seleccionemos una muestra aleatoria de n observaciones utilizando k valores distintos de x, por
ejemplo, x1, x2,..., xn, tales que la muestra contenga n1 valores observados de la variable
aleatoria Y1 correspondientes a los valores x1, con n2 valores observados de Y2
correspondientes a x2,..., nk valores observados de Yk correspondientes a xk. Necesariamente,
Definimos
el j-ésimo valor de la variable aleatoria
Entonces, si se realizaron n4 = 3 mediciones de Y que corresponden a x = x4, estas
observaciones se indicarían por medio de y41, y42 y y43. Por lo tanto,
para cada uno de los k valores distintos de x y, después, agrupando estas varianzas, tenemos
Esta suma de cuadrados tiene n – k grados de libertad asociados con ella, y el cuadrado medio
resultante es el estimador insesgado s2 de σ2.
2.- Restar la suma de los cuadrados del error puro de la suma de los cuadrados del error, SCE,
con lo que se obtiene la suma de los cuadrados debida a la falta de ajuste. Los grados de
libertad de la falta de ajuste también se obtienen simplemente restando (n−2) − (n−k) = k−2.
Los cálculos necesarios para probar hipótesis en un problema de regresión con mediciones
repetidas de la respuesta se pueden resumir como se muestra en la siguiente tabla
Las figuras 11.16 y 11.17 ilustran los puntos muestrales para las situaciones del “modelo
correcto” y del “modelo incorrecto”. En la figura 11.16, donde cae sobre una línea recta,
no hay falta de ajuste cuando se asume un modelo lineal, por lo que la variación muestral
alrededor de la recta de regresión es un error puro que resulta de la variación que ocurre entre
observaciones repetidas. En la figura 11.17, donde es evidente que no cae sobre una
línea recta, la responsable de la mayor parte de la variación alrededor de la recta de regresión,
además del error puro, es la falta de ajuste que resulta de seleccionar por error un modelo lineal.
11.10 GRÁFICAS DE DATOS Y TRANSFORMACIONES
En la construcción de modelos de regresión en los que hay una variable independiente o
regresora, se supone que durante la construcción del modelo tanto x como y entran en el modelo
en forma lineal. Frecuentemente es aconsejable trabajar con un modelo alternativo en el que x
o y (o ambas) intervengan en una forma no lineal, de igual manera una transformación de los
datos debido a consideraciones teóricas inherentes al estudio científico, o bien, una simple
graficación de los datos podría sugerir la necesidad de reexpresar las variables en el modelo.
La necesidad de llevar a cabo una transformación es muy fácil de ver en el caso de la regresión
lineal simple, ya que las gráficas en dos dimensiones brindan un panorama verdadero de la
manera en que las variables se comportan en el modelo. Un modelo en el que x o y se
transforman no debería considerarse como un modelo de regresión no lineal. Por lo general
denominamos a un modelo de regresión como lineal cuando es lineal en los parámetros.
Supongamos que el aspecto de los datos u otra información científica sugiere que debe hacerse
la regresión de y* en comparación con la de x*, donde cada una de ellas es una transformación
de las variables naturales x y y. Entonces, el modelo de la forma:
es lineal porque lo es en los parámetros β0 y β1
Las transformaciones susceptibles de mejorar el ajuste y la capacidad de predicción de un
modelo son muy numerosas. En la siguiente tabla se presentan varias funciones que describen
relaciones entre y y x que pueden producir una regresión lineal por medio de la transformación
indicada, además de sus gráficas:
11.11 ESTUDIO DE CASO DE REGRESIÓN LINEAL SIMPLE
En la fabricación de productos comerciales de madera es importante estimar la relación que
hay entre la densidad de un producto de madera y su rigidez. Se está considerando un tipo
relativamente nuevo de aglomerado que se puede formar con mucha mayor facilidad que el
producto comercial ya aceptado. Es necesario saber a qué densidad su rigidez es comparable
con la del producto comercial bien conocido y documentado. Terrance E. Conners realizó un
estudio titulado Investigation of Certain Mechanical Properties of a Wood-Foam Composite
(Tesis para el doctorado, Departamento de Bosques y Vida Silvestre, University of
Massachusetts). Se produjeron 30 tableros de aglomerado con densidades que variaban
aproximadamente de 8 a 26 libras por pie cúbico y se midió su rigidez en libras por pulgada
cuadrada. En la tabla 11.8 se presentan los datos. Es necesario que el analista de datos se
concentre en un ajuste apropiado para los datos y que utilice los métodos de inferencia que se
estudian en este capítulo. Tal vez lo más apropiado sea una prueba de hipótesis sobre la
pendiente de la regresión, así como la estimación de los intervalos de confianza o de predicción.
Se comenzará presentando un simple diagrama de dispersión de los datos brutos con una
regresión lineal simple sobrepuesta. En la figura 11.23 se observa dicha gráfica. El ajuste de
regresión lineal simple a los datos produce el modelo ajustado
y se calcularon los residuales. En la figura 11.24 se presentan los residuales graficados contra
las mediciones de la densidad. Difícilmente se trata de un conjunto de residuales ideal o
satisfactorio, pues no muestran una distribución aleatoria alrededor del valor de cero. En
realidad, los agrupamientos de valores positivos y negativos sugerirían que se debe investigar
una tendencia curvilínea en los datos.
Para darnos una idea respecto a la suposición de error normal se dibujó una gráfica de
probabilidad normal de los residuales. Es el tipo de gráfica donde el eje horizontal representa la
función de distribución normal empírica en una escala que produce una gráfica con línea recta
cuando se grafica contra los residuales. En la figura 11.25 se presenta la gráfica de probabilidad
normal de los residuales. Esta gráfica no refleja la apariencia de recta que a uno le gustaría ver,
lo cual es otro síntoma de una selección errónea, quizá sobresimplificada, de un modelo de
regresión.
Los dos tipos de gráficas de residuales y, de hecho, el propio diagrama de dispersión, sugieren
que sería adecuado un modelo algo más complicado. Una posibilidad es usar un modelo con
transformación de logaritmos naturales, es decir, hay que elegir hacer la regresión de ln y contra
x, lo cual produce la regresión:
Para darse una idea de si el modelo transformado es más apropiado debemos considerar las
figuras 11.26 y 11.27, que muestran las gráficas de los residuales de la rigidez [es decir,
]] en comparación con las de la densidad. La figura 11.26 parece más cercana a
un patrón aleatorio alrededor del cero, en tanto que la figura 11.27 con seguridad se acerca más
a una línea recta. Esto, además de un valor de R 2 más elevado, sugeriría que el modelo
transformado es más apropiado.
11.12 CORRELACIÓN
Hasta este momento se ha supuesto que la variable regresora independiente x es una variable
científica o física en lugar de una variable aleatoria. En este contexto es frecuente que x se
denomine variable matemática, la cual, en el proceso de muestreo, se mide con un error
despreciable. En muchas aplicaciones de las técnicas de regresión es más realista suponer que
tanto X como Y son variables aleatorias y que las mediciones {(xi,yi);i = 1,2,...,n} son
observaciones de una población que tiene la función de densidad conjunta f (x, y). Debemos
considerar el problema de medir la relación entre las dos variables X y Y. Por ejemplo, si X y Y
representaran la longitud y la circunferencia de una clase particular de hueso en el cuerpo de
un adulto, podríamos realizar un estudio antropológico para determinar si los valores grandes
de X se asocian con valores grandes de Y, y viceversa.
Por otro lado, si X representa la antigüedad de un automóvil usado y Y representa su precio de
lista al menudeo, se esperaría que los valores grandes de X correspondan a valores pequeños
de Y y que los valores pequeños de X correspondan a valores grandes de Y. El análisis de
correlación intenta medir la fuerza de tales relaciones entre dos variables por medio de un solo
número denominado coeficiente de correlación.
Con frecuencia se supone que la distribución condicional f(y|x) de Y, para valores fijos de X, es
normal con media y varianza , y que, de igual manera, X se
distribuye de forma normal con media μ y varianza σ2 x. Entonces, la densidad conjunta de X y
Y es
donde ahora X es una variable aleatoria independiente del error aleatorio . Como la media del
error aleatorio es cero, se deduce que
Al sustituir para α y σ2 en la expresión anterior para f (x, y), se obtiene la distribución normal
bivariada
Al dividir ambos lados de esta ecuación entre S yy y reemplazar Sxy con b1Sxx, se obtiene la
relación
Coeficiente de correlación
La medida ρ de la asociación lineal entre dos variables X y Y se estima por medio del coeficiente
de correlación muestral r, donde