Tema 5
Tema 5
Tema 5
PRÁCTICA 5.1
Todos los datos necesarios para realizar los ejercicios de esta práctica se pueden encontrar en el fichero REGRESION.sgd. Se
puede descargar desde el Aula Virtual, pinchando en el enlace datos-regresión.
1.- Se desea estudiar la pureza del oxígeno producido en un proceso de destilación química (Y) en función del % de hidrocarburos
presentes en el condensador principal de la unidad de destilación (X).
B.) Ajusta un modelo de regresión adecuado para estimar la pureza del oxígeno en función del % de hidrocarburos.
%var=87.74%. sR =1.0866.
D.) Supongamos que tenemos un 1% de hidrocarburos en el condensador. Calcula un IC del 94% para la pureza media del
oxígeno obtenido. Calcula un IP del 94% para dicha pureza. ¿Cómo debemos interpretar los resultados obtenidos?
IC=(88.5194 , 89.9422). La pureza media del oxígeno destilado con un 1% de hidrocarburos, está en este intervalo con una
confianza del 94%.
IP=(86.9369 , 91.5246). El 94% de las veces que destilemos oxígeno con un 1% de hidrocarburos, la pureza estará dentro de este
intervalo.
E.) Calcula el coef de correlación de Spearman entre estas dos variables. ¿Es significativo? ¿Cómo debemos interpretarlo? ¿Está
justificado utilizar este test?
rS=0.9237. Es significativo, ya que pv=0.0001, lo que indica que el coef de correlación entre las dos variables es distinto de cero
(luego existe relación lineal entre ellas). Viendo los coefs de asimetría y curtosis de ambas variables, parecen ser normales, luego
sería mejor trabajar con el coef de Pearson.
ANÁLISIS MULTIVARIADO!!
No sale significativo (pv=0.4988), luego hay modelos, basados exclusivamente en la falta de hidrocarburos, que mejoren
claramente al lineal.
G.) ¿Podríamos mejorar algo el modelo aplicando alguna transformación previa a las variables?
Nos vamos a Comparación de modelos alternos y nos fijamos que podríamos trabajar con la X cuadrada y raíz cuadrada de Y. De
este modo obtenemos un modelo que explica el 88.93% de la variabilidad.
H.) Aplica este modelo para predecir la pureza obtenida con un 1% de hidrocarburos.
I.) Volviendo al modelo lineal, ¿qué residuos atípicos se observan? ¿cómo debemos interpretar el correspondiente valor
estudentizado?
El de la fila 9: residuo=1.9681, residuo estud=2.3. La magnitud de este residuo es 2.3 veces la magnitud media (es decir, la desv
típica residual).
J.) ¿Se satisfacen las hipótesis del modelo?
2.- Un fabricante de cloro sabe que la cantidad disponible de cloro contenido en un producto decrece con el tiempo y
eventualmente se estabiliza en el 0.3%. El fabricante desea estimar la cantidad disponible de cloro en el producto para un
tiempo dado, con vistas a informar a los almacenistas y vendedores para retirar los productos caducados. Para ello, se recogen
datos sobre el % cloro disponible por unidad de producto restante (cloro) de 8 a 44 semanas (semanas) después de haber sido
fabricado.
A.) Ajusta un modelo de regresión lineal a los datos obtenidos. ¿Qué % de variabilidad explica este modelo?
B.) ¿Crees que este modelo se ajusta bien a los datos o podríamos utilizar otro modelo que se ajuste mejor?
Hay múltiples elementos que indican que el ajuste es mejorable. Tal vez el más claro es el pv de 0.0001 que arroja el test de falta
de ajuste. También resulta evidente si observamos los residuos.
C.) ¿Qué modelo elegirías en lugar del lineal? Da la ecuación del modelo ajustado.
D.) ¿Qué % de variabilidad explica este nuevo modelo? Los residuos obtenidos ahora ¿son completamente aleatorios?
E.) Queremos estimar el porcentaje medio de cloro al cabo de 20 semanas. Da una estimación puntual y un IC del 90%.
F.) ¿Cuál es el punto más influyente de nuestra muestra? ¿Cuál es su influencia? ¿Son influyentes o muy influyentes?
Los de las filas 1 y 2, ambos con influencia 0.1702. Son sólo influyentes porque su influencia es más de 3 veces la influencia media
pero no llega a 5 veces.
G.) Según este modelo, ¿cuál será a largo plazo el % de cloro en un producto?
3.- En el Hospital de Guadalajara se está realizando un experimento para buscar la dosis óptima de cierto medicamento
antidepresivo. Para ello se administraron distintas dosis (Ratio) a un grupo de 26 pacientes y se anotó el % de mejoría observado
al cabo de cierto tiempo (mejoria).
A.) Ajusta un modelo de regresión lineal a los datos obtenidos. ¿Qué % de variabilidad explica este modelo?
B.) Compara con otros modelos basados en el lineal. ¿Qué % de variabilidad se puede llegar a explicar?
D.) Prueba ahora con un modelo polinomial de orden 2 (parabólico). ¿Cuál es el mejor de los modelos considerados? ¿en qué
te basas para decirlo?
E.) Según el modelo que hemos elegido, ¿cuál sería la dosis óptima? Da un IC del 90% para la mejoría media si aplicamos esta
dosis.
F.) Calcula los coefs de correlación de Pearson y Spearman y realiza los correspondientes tests de hipótesis. ¿Qué pv’s se
obtienen? ¿Qué se desprende de estos resultados?
Los coefs son 0.289 y 0.3156. Los pvs 0.1522 y 0.1146. Debemos entender que no existe una relación lineal entre las variables; son
incorreladas (sin embargo, hemos visto que sí existe una relación “parabólica”).
Parece que no. Si subimos el grado a 3 y miramos las sumas de cuadrados condicionales, vemos que el último p-valor sale 0.6806,
lo que indica que el término de orden 3 no aporta nada al modelo. De hecho, si comparamos los R2 ajustados, vemos que hemos
bajado del 59.22% al 57.7%. (Cuidado: no debemos comparar las varianzas residuales porque están expresadas en unidades
distintas.)
PRÁCTICA 5.2
Con los datos del fichero robles.sf3, referidos a un estudio realizado sobre un robledal cercano a una planta industrial, visto
en la práctica del estudio estadístico unidimensional, respóndase justificando las respuestas, de forma concisa y
razonadamente a las siguientes cuestiones para la variable Y = Manganeso.
1.- Estúdiense las correlaciones entre las concentraciones de los ocho elementos químicos: hierro, manganeso y zinc (metales
pesados); calcio y magnesio (metales alcalinotérreos), potasio (metal alcalino), y fósforo y nitrógeno (no metales), mediante
los gráficos de dispersión bidimensionales y la matriz de correlaciones.
Describir: Datos numéricos: Análisis multivariado. En datos introducimos todas las variables anteriores (desde Hierro a Nitrógeno).
En primer ligar analizamos la matriz de dispersión donde podemos visualizar los gráficos de dispersión de todas las parejas que
pueden formarse con los datos. Puede apreciarse que, aunque hierro y manganeso tienen una correlación lineal fuerte hay dos
conjuntos de datos de comportamiento diferente. En otros gráficos se observan puntos raros. Magnesio y Calcio tienen una cierta
correlación positiva. Magnesio y Hierro no están correlacionados o que Potasio y Fósforo tienen una cierta correlación
exponencial.
Para cada par de variables, el primer número es el coeficiente de correlación, el segundo indica el número de datos, y el tercero
el p-valor correspondiente a la hipótesis.
Correlaciones significativas: Manganeso y Hierro, Manganeso y Zinc, Manganeso y Potasio, Hierro y Zinc, Hierro y Potasio, Zinc y
Calcio, Zinc y Magnesio, Calcio y Magnesio, Calcio y Fósforo, Magnesio y Potasio, Magnesio y Fósforo, Magnesio y Nitrógeno,
Potasio y Fósforo, Fósforo y Nitrógeno.
2.- Estímese un modelo lineal para predecir la variable Y de un árbol de dicho robledal en función de la concentración X más
correlacionada con ella, interpretando sus parámetros.
La variable más correlacionada con manganeso es: X= la correlación de Hierro (su coeficiente de correlación lineal es: 0,09910).
Para obtener la ecuación de regresión:
El valor de la pendiente es 0,488; es positiva, luego cuanto mayor es la concentración de Hierro mayor es la de Manganeso. El
valor de la ordenada en el origen es -0,000267823. El p-valor correspondiente al contraste sobre la linealidad es 0,0000 (se muestra
en la parte derecha de la pantalla, bajo “Análisis de la varianza”), lo que sugiere que el modelo lineal es muy significativo.
3- ¿Podría simplificarse el modelo anterior de forma significativa al 95% de confianza?
Sí podría simplificarse por ser el p valor de la constante no significativo. El modelo anterior responde a la forma general Y = a+bX.
El modelo puede simplificarse si se acepta que a=0 o bien si b=0. Como la hipótesis H0: a=0, H1: a≠0 es aceptada ya que el p-valor
que se obtiene para esa hipótesis es 0,5242, se acepta que se puede simplificar, y por lo tanto, el modelo puede simplificarse a Y
= b*X (b no puede aceptarse que sea cero).
4.- Calcule el error experimental en dicho modelo, indicando su interpretación y comparándolo con la desviación típica de la
variable Y.
Como en el ANOVA, el error experimental se estima a partir de la raíz cuadrada del cuadrado medio residual. La desviación típica
puede determinarse con la ruta habitual Describir -> Datos numéricos -> Análisis de una Variable.
Error experimental = 0,001575 = raíz (0,00000248064) Desviación típica del Manganeso= 0,0115951
El error experimental nos da una idea de la variabilidad de los residuos: si fuera muy grande sugeriría que el modelo es malo (ya
que proporcionaría predicciones que podrían estar muy alejadas de los valores reales). En nuestro caso, nos dice que la diferencia
entre los valores observados y los predichos tiene una variabilidad de 0,001575. Por otra parte, la desviación típica de Manganeso
es 0,0115951. Puesto que la desviación típica de Manganeso es mucho mayor que el error experimental, resulta claro que es
preferible estimar Y (Manganeso) conforme al modelo propuesto, frente a la predicción de Y a partir de su media. En otras
palabras, estimar Y a partir de su media (0,014) implica que se tendrían oscilaciones en el valor observado de Y, frente al predicho
de 0,014, de hasta 0,011; en cambio, estimar Y conforme al modelo implica que se tendrían oscilaciones en el valor observado de
Y, frente al predicho, de sólo 0,001575 (un orden de magnitud por debajo). De nuevo se confirma la idoneidad del modelo.
5.- Calcúlese el coeficiente de correlación entre las concentraciones X e Y, e interprétese su valor al cuadrado.
Obsérvese que el coeficiente de correlación al cuadrado, R2, multiplicado por 100 nos daría el porcentaje de variabilidad explicada
por el modelo. Si damos R2 y R2 ajustado en porcentaje, obtenemos 98,2048% y del 98,1549%, respectivamente. Estos mismos
valores aparecen debajo de la tabla de Análisis de la Varianza. El modelo escogido está explicando el 98% de la variabilidad
encontrada en los datos.
6.- Usando el modelo estimado, predecir para un roble cuya concentración de X se sitúa en la mediana, ¿qué concentración
de Y se le puede atribuir de forma puntual y por intervalo al 95% de confianza? Ídem para uno que se sitúe en el percentil 90.
- Para obtener el valor de la mediana del valor X: Descripción: datos numéricos: análisis unidimensional.
- Botón amarillo: predicciones: botón derecho: opciones de ventana: introducimos el valor X=0,0145.
Esta sería una estimación puntual para la contaminación por Manganeso. Puesto que los parámetros “a” y “b” del modelo podrían
variar (si se tomara otra muestra, por ejemplo), tiene sentido dar un intervalo de confianza donde cabe esperar que se encuentre
el valor estimado para Y, conocido X = 0,0145. Para un nivel de confianza del 95%, dicho intervalo es (0,0035; 0,01006) (los
extremos aparecen bajo “Límites de Predicción”, a la derecha de la estimación puntual).
El percentil 90 para Hierro es 0,062. Repitiendo el proceso anterior para X = 0,062, se tiene una estimación puntual de 0,0299, y
un intervalo de confianza (0,026, 0,033).
7.- Análogamente estímese al 95% de confianza la concentración media de los robles cuya concentración de X se sitúa en la
mediana.
8.- ¿Qué robles originan mayor residuo de efecto positivo y negativo? Calcúlense sus valores, sus residuos estudientizados y
sus valores de influencia. ¿Alguno de los residuos puede considerarse atípico?
Tanto el 23 como el 29 pueden considerarse residuos atípicos porque sus residuos studentizados están fuera del rango [-2,2].