3 Ejemplo Regresion Multiple

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 12

Prctica 5.3. Problemas propuestos de regresin lineal mltiple.

Problema 5.5. Se realiza un experimento para determinar la duracin de vida de ciertos circuitos electrnicos (Y ) en funcin de dos variables de fabricacin (X1) y (X2), con los siguientes resultados: Y X1 X2 11 -10 0 8 0 -5 73 10 5 21 -10 0 46 0 5 30 10 -5

1. Ajustar un modelo de regresin lineal. 2. Calcular el coeficiente de determinacin y la varianza residual. Es el ajuste adecuado? 3. Construir un intervalo de confianza al 90% para la prediccin en el punto (0,0). Problema 5.6. Los datos de la tabla adjunta indican la gravedad especfica , contenido de humedad y fuerza de diez vigas de madera. Encontrar el modelo de regresin que mejor se ajusta a estos datos. Y X1 X2 11'14 0.'99 11'1 12'74 0'558 8'9 13'13 0'604 8'8 11'51 0'441 8'9 12'38 0'550 8'8 12'60 0'528 9'9 11'13 0'418 10'7 11'70 0'480 10'5 11'02 0'406 10'5 11'41 0'467 10'7

Problema 5.7. En la tabla adjunta se presenta un indicador provincial global de consumo el nmero de automviles por mil habitantes y el nmero de telfonos por mil habitantes en ocho provincias espaolas. Estudiar un modelo explicativo que relaciones el indicador global con los dos indicadores de consumo (datos de 1974). Provinci Avila a Y X1 X2 64 58 111 Palencia Segovia Burgos 778 84 131 83 78 158 88 81 147 Soria 89 82 121 Valladoli Logroo Santand d er 99 102 165 101 85 174 102 102 169

Problema 5.8. La demanda de un tipo de impresoras ha cambiado debido a una rpida variacin en el precio. Se ha observado la demanda en una amplia regin geogrfica y el precio unitario (en unidades de diez mil pesetas). Los

resultados son los de la tabla adjunta. Ajustar un polinomio de regresin a estos datos que explique el comportamiento de la demanda. Y X Y X 360 8.8 121 13.2 305 9.7 83 14.8 230 9.9 122 15.8 242 10.3 91 17.4 180 11.0 105 18.2 172 12.5

Problema 5.9. En el fichero Problema-5-9 se presentan datos relativos a veinticuatro pases. El fichero consta de las siguientes variables referidas a cada pas: - Coches: Nmero de coches por persona. - Pob: Poblacin en millones de personas. - Den: Densidad de poblacin. - Ingresos: Ingresos per capita en dlares U.S.A. - Gasol: Precio de la gasolina en centavos U.S.A. por litro. - Consumo: Toneladas de gasolina consumida por coche al ao. - Pasaj: Miles de pasajeros-kilmetros por persona que usan bs o tren. - Pas: Pas al que se refieren los datos de la fila. Se quiere ajustar un modelo de regresin mltiple que explique la variable Coches en funcin de las variables explicativas: Pob, Den, Ingresos, Gasol, Consumo y Pasaj. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.10. En el fichero Problemas5-10 se encuentran datos relativos a partidos de la liga ACB de baloncesto. Se desea estudiar si existe alguna relacin lineal entre la variable, puntos por partido (PUNTPART) que es capaz de anotar un jugador de baloncesto respecto a las siguientes variables regresoras: - La altura del jugador (ALTURA). - Los minutos que juega por partido (MINPART). - Los balones que pierde por partido (BPPART).

- Las faltas personales cometidas por partido (FPPART). - El porcentaje en tiros de campo por partido (porcentaje obtenido de los tiros de dos y tres puntos conseguidos e intentados) (POR_TC). (Recogida de datos: Los datos para realizar la regresin se han obtenido a partir de la Gua Oficial Liga 1989-1990, de la ACB (Asociacin de Clubs de Baloncesto), para lo cual se han seleccionado 62 jugadores al azar de entre el total.) En base a estos datos, se pide: 1. Ajustar un modelo de regresin a estos datos, sin excluir ninguna variable e interpretar el resultado. Es el ajuste bueno? 2. Analizar la hiptesis de multicolinealidad para el modelo anterior. 3. Con el modelo anterior Cules son las observaciones atpicas y/o influyentes? 4. Existe un modelo de regresin lineal ms adecuado segn estos datos? Es aconsejable utilizar un ajuste no lineal? Justificar la respuesta. 5. Analizar los residuos del modelo que se considere ms adecuado. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.11. En el fichero Problema-5-11 se encuentran datos relativos a 60 observaciones de datos del Mercado Financiero Canadiense (de septiembre del 77 a diciembre del 80). Se han considerado las siguientes variables: - Bankcan: activos del Banco de Canad. - Trsbill: intereses de las Letras del Tesoro a 90 das. - CPI: ndice de precios al consumo. - Usspot: razn de cambio Canad/USA. - Usforw: razn de cambio a un mes Canad/USA. Ajustando un modelo de regresin lineal mltiple de la variable de inters Trsbill frente a las otras cuatro variables. Se pide: 1. 2. 3. 4. 5. Calular el modelo de regresin lineal mltiple. Estudio de la multicolinealidad del modelo. Estudio de las observaciones influyentes y atpicas. Anlisis de residuos. Se verifican las hiptesis del modelo? Estudiar la existencia de un modelo de regresin que mejore al obtenido.

Datos del problema [ASCII] [spss-10] [sgplus-5]

Problema 5.12. (Observaciones influyentes y datos atpicos) Con los datos de la tabla adjunta se van a construir tres conjuntos de datos. El primero se construye tomando los casos 1 a 9 repetidos tres veces cada uno y aadiendo el caso 28(A). El segundo, incluye tambin los casos de 1 a 9 repetidos tres veces y, adicionalmente, el caso 28(B). Finalmente, el tercero se construye de igual manera pero con la observacin adicional 28(C). Por tanto, estos tres conjuntos tienen 27 datos iguales y uno diferente. Estudiar las regresiones de los tres conjuntos y examinar las observaciones influyentes y atpicas. Caso x1 x2 y 1 -2 6.5 -1.5 2 0 7.3 0.5 3 2 8.3 1.6 4 -4 6.0 -3.9 5 3 8.8 3.5 6 1 8.0 0.8 7 -3 5.9 -2.7 8 -1 6.9 -1.3 9 4 9.5 4.1 A 0 7.2 5 B -3 9 -1.5 C -3 7.3 4

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.13. Se ha realizado un experimento para investigar como la resistencia del corcho al rozamiento se ve afectada por la dureza del corcho y la fuerza tensorial. Para ello se han testado treinta muestras de corcho de las que se ha calculado la dureza (en grados Shore, a mayor nmero mayor dureza) y la fuerza tensorial (medidos en Kgr por cm2). El corcho era sometido a un rozamiento continuo por un perodo de tiempo fijo y se meda la prdida de peso de corcho en gramos por hora. Los datos obtenidos en este experimento se encuentran en el fichero Problema-5-14. En base a ellos 1. Analizar la relacin de la variable de inters, peso de corcho perdido, con las dos variables explicativas utilizando regresin lineal mltiple. 2. Analizar las hiptesis del modelo . Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.14. En el fichero Problema-5-14 se presentan datos de contaminacin atmosfrica en 41 ciudades de EEUU relativos a los aos 1969-71 . La variable de inters es Y =contenido de SO2 en el aire en microgramos por metro cbico y se desea estudiar su relacin con seis variables regresoras, dos relativas a ecologa humana y cuatro al clima. Son la siguientes: X1=temperatura media anual en grados Farenheit. X2=nmero de fbricas con ms de 20 empleados X3=nmero de habitantes, en miles

X4=Velocidad media del viento al ao en millas por hora X5=precipitacin media anual en litros por pulgada X6=nmero medio de das con lluvia al ao El objetivo del estudio es encontrar un modelo de regresin mltiple que explique adecuadamente el comportamiento de la variable Y . Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.15. En el fichero Problema-5-15 contiene datos de seis variables de 22 aviones de combate de EEUU. Las variables estudiadas son las siguientes: FFD=first flight date, fecha del primer vuelo en meses despus de Enero de 1940 SPR=specific power, potencia especfica proporcional a la potencia por unidad de peso RGF=flight range factor, factor de rango de vuelo PLF=payload como una fraccin del peso bruto del avin SLF=factor de carga sostenido CAR=una variable binaria que vale 1 si el avin puede aterrizar en un portaviones y 0 en otro caso El objetivo del estudio es encontrar un modelo de regresin mltiple que explique el comportamiento de la variable de inters FFD (o una transformada de la misma, por ejemplo, tomar logaritmos) como una funcin del resto de variables. Tener en cuenta la presencia de la variable atributo CAR, interpretar el modelo resultante al introducir esta variable. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.16. Algunas veces es necesario bajar la presin sangunea de un paciente durante una intervencin quirrgica utilizando un frmaco hipotensivo. Los datos del fichero Problema-5-16 son relativos a los resultados de aplicar un determinado frmaco en 53 enfermos. En cada uno de ellos se ha medido el tiempo en minutos antes de que la presin sistlica sangunea del paciente vuelva a los 100 mm (TR, tiempo de recuperacin), el logaritmo de la dosis de frmaco en miligramos (LD) y la presin media sistlica sangunea del paciente

mientras el frmaco haca efecto (PM). Qu relacin existe entre la variable TR y las otras dos variables?. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.17. En el fichero problema-5-17 se presentan datos del fsforo encontrado en 18 muestras de aceite tomadas a 20o. La variable X1 es el fsforo inorgnico, X2 el fsforo orgnico e Y es el fsforo de maz en el aceite. Encontrar un modelo que explique la variable Y como funcin de las otras dos variables regresoras. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.18. Se est interesado en estudiar la temperatura mnima de una ciudad en relacin con su longitud y latitud geogrfica. Para ello se ha tomado una muestra de 56 ciudades de EEUU y se ha calculado la temperatura mnima (en grados Farenheit) en el mes de enero, el resultado obtenido es el promedio de 30 aos (de 1931 a 1960). En el fichero Problema-5-18 se presentan datos de esta variable y de las variables explicativas, longitud y latitud de la ciudad. En base a estos datos ajustar un modelo de regresin que explique el comportamiento de la variable de inters en funcin de las dos variables regresoras. En un estudio previo se propona ajustar la temperatura con una relacin lineal respecto a la variable latitud y un ajuste cbico respecto a la variable longitud. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.19. Se desea estudiar la relacin entre el Consumo de helados, medido en pintas per capita, y las variables regresoras Precio del helado, en dolres por pinta, el Ingreso familiar por semana y la Temperatura media medida en grados Farenheit. Para ello se obtuvieron datos de 30 meses, desde Marzo de 1951 a Julio de 1953. Estos datos se encuentran en el fichero Problema-5-19. Analizar estos datos y estudiar un modelo de regresin que se ajuste a los mismos. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.20. En el fichero Problema-5-20 se presentan datos sobre el nmero de muertes e intensidad de los terremotos ocurridos desde 1.900. Tambin se proporciona el ao en que ocurri el terremoto, en total, 40 datos. Se desea estudiar si existe una relacin entre el nmero de muertes y la intensidad del terremoto. Analizar las hiptesis bsicas del modelo ajustado. Datos del problema [ASCII] [spss-10] [sgplus-5]

Problema 5.21. En el fichero Problema-5-21 se presentan datos sobre 209 procesadores (CPU), de cada uno de ellos se han obtenido caractersticas, medidas de rendimiento relativo respecto a un procesador IBM 370/158-3. Las variables observadas las siguientes: -Cycle time(ns), nmero de ciclos por segundo. -Minimum memory (kb), memoria mnima en kb. -Maximum memory (kb), memoria mxima en kb. -Cache size (kb), tamao del cach. -Minimum channels, nmero mnimo de canales. -Maximum channels, nmero mximo de canales. -Relative performance, rendimiento relativo. -Estimated relative performance, rendimiento relativo estimado. El objetivo del estudio es conocer que variables influyen en el rendimiento relativo (en el Relative performance y en el Estimated relative performance). Ajustar el modelo de regresin en cada uno de los dos casos e indicar la bondad del ajuste. (Estos datos proceden del trabajo de Ein-Dor,P. y Feldmesser,J. (1987) Atributes of the performance of central processing units: a relative performance prediction model, Communitaions of the ACM, 30,308-317). Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.22. En el fichero Problema-5-22 se presentan los resultados de 35 carreras de montaa celebradas en Escocia en 1984. Se proporcionan datos sobre la distancia en millas de la carrera, tiempo del vencedor en minutos y la altura total ganada en pies. Se quiere estudiar un modelo de regresin que relacione el tiempo con las otras dos variables. Al analizar los datos parece razonable transformar la variable respuesta pero tambin se observa la aparicin de observaciones influyentes. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.23. En el fichero Problema-5-23 se presentan datos de tres variables relativas a las 48 ciudades ms grandes del mundo en 1991. Las variables consideradas son:

Horas de trabajo=promedio ponderado de 12 ocupaciones Nivel de precios=coste de una cesta de la compra de 112 productos bsicos, en base al nivel de Zurich=100 Nivel de salarios=nivel del salario de 12 ocupaciones diferentes ponderadas segn la distribucin ocupacional, excludas tasas a la seguridad social e impuestos, en base al nivel de Zurich=100 El objetivo del estudio es encontrar una relacin entre estas tres variables. En particular tiene inters estudiar los siguientes modelos de regresin: 1. Estudiar la variable respuesta Nivel de precios respecto a la regresora Nivel de salarios. 2. Estudiar la variable respuesta Nivel de precios respecto a las otras dos variables regresoras. 3. Estudiar la variable respuesta Nivel de salarios respecto a la regresora Horas de trabajo. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.24. Se est interesado en investigar la variable ndice de criminalidad en relacin con otras variables. Para ello se dispone de datos de 47 estados de EEUU relativos al ao 1960, estos datos se presentan en el el fichero Problema-5-24. Las variables estudiadas son las siguientes: R=ndice de criminalidad, nmero de delitos conocidos por la polica por cada milln de habitantes Age=distribucin de la edad, nmero de varones de edad 14-24 por cada mil de toda la poblacin del estado S=variable binaria que distingue entre estados del sur del resto

Ed=nivel educativo, nmero medio de aos de escolarizacin Ex1=gasto per cpita en proteccin policial relativa a 1960 Ex2=gasto per cpita en proteccin policial relativa a 1959 LF=proporcin en participacin en trabajos de fuerza por cada mil hombres con edad 14-24 M=Nmero de varones por mil mujeres

N=Tamao de la poblacin del estado en cin mil NW=El nmero de personas de raza no blanca por 1000 habitantes U1=Razn de desempleo entre hombres de edad 14-24, por cada mil U2=Razn de desempleo entre hombres de edad 35-39, por cada mil W=Riqueza medida por el ingreso familiar X=Desigualdad en ingresos, el nmero de familias por mil que ganan por debajo de la mitad de la mediana de ingresos El objetivo del estudio es encontrar la mejor relacin entre la variable de inters R con el resto de las variables explicativas o regresoras. Analizar la influencia de la variable atributo S. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.25. Los datos de este problema son clsicos en anlisis de regresin (fichero Problema-5-25), corresponden a la observacin de 21 das de trabajo en una planta qumica para la oxidacin del amonio como una etapa en la produccin del cido ntrico. Las variables regresoras observadas son: X1 =flujo de aire X2 =temperatura del ahua de refrigeracin (oC) X3 =concentracin de cido (%) Y =prdida acumulada, porcentage del amonio que escapa sin ser absorbido El objetivo del estudio es el de ajustar un modelo de regresin a estos datos que explique el comportamiento de la variable respuesta Y respecto a las otras tres variables regresoras. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.26. En la tabla adjunta se presentan cuatro indicadores del tamao medio de las empresas en 15 paises desarrolados. Estos indicadores son: ventas, activos, nmero de empleados y recursos propios. Estudiar un modelo de regresin que relacione la variable V con las restantes variables (se sugiere transformar los datos tomando logaritmos).

Pais V A N R Pais Espaa 249 454 3.358 166 Italia EE.UU. 3.334 2.612 15.230 1.209 Blgica Alemania 707 542 7.391 119 Noruega Inglaterra 511 352 7.307 243 Dinamarca Francia 477 535 6.306 91 Finlandia Suecia 142 137 2.075 34 Portugal Suiza 494 475 6.163 215 Irlanda Holanda 301 227 3.517 70 Datos del problema [ASCII] [spss-10] [sgplus-5]

V 109 167 100 84 119 35 237

A 100 124 81 67 100 46 283

N 874 1.267 894 978 1.350 1.302 3.668

R 16 37 14 20 15 16 80

Problema 5.27. En la tabla adjunta se indica la altura , longitudde las naves , anchura de la nave principal y nmero de naves de algunas iglesias romnicas espaolas. Estudiar la relacin entre la variable altura y el resto de las variables. H 6'15 11'60 22'00 10'20 8'90 9'50 12'20 11'40 L 20'00 19'40 85'00 24'00 14'30 11'90 20'00 19'30 A N H L A N H L A ' ' ' ' ' ' 6 18 1 9 20 17 00 8 20 1 9 00 20 50 7'00 5'20 3 9'10 20'60 9'50 1 13'00 26'50 6'40 8'10 3 7'75 12'20 5'40 1 11'45 21'75 7'45 5'50 3 8'85 17'90 6'50 1 8'50 10'00 6'70 6'50 1 10'00 28'20 5'45 1 6'70 14'60 6'20 6'40 1 10'50 26'78 8'80 3 11'60 13'60 7'60 6'10 3 19'00 35'00 7'70 3 10'15 11'60 4'10 7'50 1 8'20 16'00 9'00 1 N 3 3 3 1 3 1 3

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.28. En el fichero Problema-5-28 se presentan datos de tres variables observadas en cincuenta tipos de madera utilizados en la construccin. Las variables estudiadas son las siguientes: X =densidad de la madera en aire seco Y =mdulo de rigidez Z =mdulo de elasticidad. El objetivo del estudio es ajustar un mdelo de regresin que explique el comportamiento de la variable elasticidad en funcin de las otras dos variables. Los datos estn ordenados de forma creciente segn la variable X.

Y 1000 1112 1033 1087 1069 925 1306 1306 1323 1379 1332 1254 1587

Z 99 173 188 133 146 91 188 194 195 177 182 110 203

X 25'3 28'2 28'6 29'1 30'7 31'4 32'5 36'8 37'1 38'3 39'0 39'6 40'1

Y 1897 1822 2129 2053 1676 1621 1990 1764 1909 2086 1916 1889 1870

Z 240 248 261 245 186 188 252 222 244 274 276 254 238

X 50'3 51'3 51'7 52'8 53'8 53'9 54'9 55'1 55'2 55'3 56'9 57'3 58'3

Y 1145 1438 1281 1595 1129 1492 1605 1647 1539 1706 1728 1703

Z 193 167 188 238 130 189 213 165 210 224 228 209

X 40'3 40'3 40'6 42'3 42'4 42'5 43'0 43'0 46'7 49'0 50'2 50'3

Y Z 2036 264 2570 189 1474 223 2116 245 2054 272 1994 264 1746 196 2604 268 1767 205 2649 346 2159 246 2078 237.5

X 58'6 58'7 59'5 60'8 61'3 61'5 63'2 63'3 68'1 68'9 68'9 70'8

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.29. Se presentan dos problemas anlogos. En una primera parte en el fichero Problema-5-29A se recogen las distancias en metros de los saltos obtenidos por los ganadores de la medalla de oro en las Olimpadas en las siguientes pruebas: salto de altura, salto de prtiga, salto de longitud y triple salto, en las pruebas realizadas entre los aos 1896 y 1988. La segunda parte es anloga, en el fichero Problema-5-29B se presentan los tiempos en segundos de los ganadores de las carreras de hombres de 100, 200, 400, 800 y 1500 metros en los JJOO desde 1900 a 1988 (no hubo JJOO en 1916, 1940 y 1944). En ambos casos el objetivo del estudio es el mismo: 1. Ajustar un modelo de regresin razonable a la nube de datos que permita predecir futuros resultados. 2. Para una determinada variable (en ambos ficheros) ajustar un modelo de regresin simple donde la variable regresora es el tiempo (reescalado) o, dicho de otra forma, estimar la tendencia de la variable (serie de tiempo). 3. En ambos apartados estudiar la hiptesis de independencia. (Estas variables son series de tiempo y podra intentar modelizarse utilizando la metodologa propia de las mismas, como el ajuste de un modelo ARIMA). Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.30. En el fichero Problema-5-30 se presentan datos de tres variables relativas a 35 carreras de montaa que tuvieron lugar en Escocia durante el ao 1984. Las variables estudiadas son:

- Distancia: recorrida en la carrera medida en millas. - Altura: alcanzada en la montaa en el ascenso efectuado, medida en pies. - Tiempo: que tard el vencedor de la carrera. Se desea ajustar un modelo de regresin que explique el comportamiento de la variable respuesta, tiempo, respecto a las dos variables regresoras distancia y altura. En principio, puede ser razonable hacer una transformacin de la variable respuesta pero debe de estudiarse la existencia de datos influyentes. Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.31. En este problema se presenta una coleccin de datos obtenidos en pruebas simuladas de accidentes de motos. Se observaban dos variables: - X = tiempo transcurrido (en milisegundos) despus del impacto. - Y = aceleracin de la cabeza. Los datos se recogen en el fichero Problema-5-31. En base a ellos se pide: 1. Representar los datos y ajustar un modelo de regresin que explique el comportamiento de la variable respuesta Y a partir de la variable regresora. Se mejoran los resultados si se transforma alguna de las dos variables o ambas? 2. Utilizando mtodos de regresin no paramtrica se obtienen mejores resultados? Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 5.32. En el fichero Problema-5-32 se presentan datos de porcentajes de delitos de siete tipos (asesinato, violacin, atraco, agresin, robo, latrocinio y robo de vehculos) en cincuenta estados de USA en el ao 1986. Los datos que se presentan son el nmero de delitos por cada 100.000 residentes. Analizar analtica y grficamente estas variables y estudiar si se puede ajustar un modelo de regresin que explique el comportamiento de una de ellas en funcin de las otras. [Anterior] [Arriba]

También podría gustarte