MA145 - Cuaderno de Trabajo
MA145 - Cuaderno de Trabajo
MA145 - Cuaderno de Trabajo
DEPARTAMENTO DE CIENCIAS
CUADERNO DE TRABAJO
CÓDIGO : MA145
ÁREA : CIENCIAS
Contenido
Unidad 1: Inferencia estadística....................................................................................................................1
Tema: Intervalos de confianza..................................................................................................................1
Conceptos básicos (después de revisar la infografía).................................................................................3
Caso de aplicación......................................................................................................................................4
Lectura complementaria............................................................................................................................6
Tema: Prueba de hipótesis para una media y una proporción poblacional...............................................7
De la teoría a la práctica (después de revisar la infografía)........................................................................8
Casos de aplicación..................................................................................................................................10
Lectura complementaria..........................................................................................................................13
Tema: Prueba de hipótesis para el cociente de varianzas y diferencia de medias con muestras
independientes.......................................................................................................................................15
De la teoría a la práctica (después de revisar la infografía)......................................................................16
Casos de aplicación..................................................................................................................................17
Lectura complementaria..........................................................................................................................22
Tema: Prueba de hipótesis para diferencia de medias con muestras relacionadas y diferencia de
proporciones..........................................................................................................................................23
De la teoría a la práctica (después de revisar la infografía)......................................................................24
Casos de aplicación..................................................................................................................................25
Unidad 2: Diseño y Análisis de experimentos.............................................................................................28
Tema: ANOVA de un factor.....................................................................................................................28
Conceptos básicos (después de revisar la infografía)...............................................................................28
Casos de aplicación..................................................................................................................................31
Tema: ANOVA de dos factores................................................................................................................35
De la teoría a la práctica (después de revisar la infografía)......................................................................36
Casos de aplicación..................................................................................................................................38
Unidad 3: Modelos de pronósticos.............................................................................................................41
Tema: Análisis de regresión lineal simple...............................................................................................41
Conceptos básicos (después de revisar la infografía)...............................................................................41
Casos de aplicación..................................................................................................................................44
Tema: Análisis de regresión no lineal simple...........................................................................................49
Conceptos básicos (después de revisar la infografía)...............................................................................50
Casos de aplicación..................................................................................................................................52
Tema: Análisis de regresión lineal múltiple.............................................................................................56
Conceptos básicos (después de revisar la infografía)...............................................................................57
Casos de aplicación..................................................................................................................................59
Tema: Series de tiempo y suavización exponencial simple......................................................................64
Conceptos básicos (después de revisar la infografía)...............................................................................64
Casos de aplicación..................................................................................................................................67
Tema: Método de descomposición.........................................................................................................70
Conceptos básicos (después de revisar la infografía)...............................................................................70
Casos de aplicación..................................................................................................................................72
Unidad 1: Inferencia estadística
Tema: Intervalos de confianza
Bibliografía:
Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 7. Sección
7.1, 7.2 y 7.4
Montgomery, D. y Runger, G. (2005) Probabilidad y estadística aplicadas a la ingeniería. México,
D.F.: Limusa Wiley. Capítulo 8. Sección 8.3 y 8.5
Conocimientos previos
Actividad estudiante con profesor
https://forms.office.com/r/wuD7SHLBeF
Relaciona con una línea los conceptos de la fila superior con las notaciones de la parte inferior:
α µ x ^p 1-α σ2 S P S2
¿Cuál es la variable?
1
Utilizando las tablas estadísticas normal estándar Z, t-Student y F-Snedecor o MS Excel, halle los valores
siguientes:
Z0,95 =
Z0,025 =
Z0,99 =
Z0,01 =
T (0,025;15) =
T (0,975;15) =
T (0,05;12) =
F (0,025;3;5) =
F (0,975;3;5) =
F (0,01;5;4) =
2
Conceptos básicos (después de revisar la infografía)
Fórmulas para hallar el intervalo de confianza para una media y para una proporción, a partir de la
distribución de la media y la proporción muestral.
La variable aleatoria t sigue una distribución T con n-1 grados de libertad (Formulario pg. 5):
x−μ
t= T ( n−1 )
S
√n
Donde:
x : promedio muestral
μ :es el promedio poblacional
S: desviación estándar muestral
n: tamaño de la muestra
Esto significa que para una variable aleatoria x , con un tamaño de muestra n, se cumple:
( )
x−μ
P −t α / 2 ≤ ≤−t α / 2 =1−α
S
1-α
√n
α/2 α/2
-T 0
T
Finalmente, despejando el parámetro (µ) se obtiene la fórmula del Intervalo de confianza (IC) para la
media poblacional, cuando la varianza poblacional se desconoce:
(
P x - t α / 2; n-1 .
S
√n
≤ μ ≤ x + t α /2 ; n-1 .
S
√n ) =1- α
Intervalo de confianza de µ, cuando σ es desconocida
√ p^ ( 1 - p^ )
n
La fórmula del IC de la proporción se deduce a partir del requisito que la distribución de proporciones
muestrales que es aproximadamente normal, donde x sigue una distribución binomial (n,p)
(
P p^ - z1- α /2 .
√ p^ ( 1 - p^ )
n
≤ P ≤ p^ + z1-α / 2 .
√
^p (1 - p^ )
n )
=1–α
Intervalo de confianza de P
3
Caso de aplicación
Caso: Desafíos laborales y personales
Los últimos estudios destacan que los empresarios consideran que el éxito de asumir un rol
ejecutivo no solo depende de su desempeño sino principalmente con la forma de enfrentar la
labor diaria, efectivizando la administración del tiempo.
En el CADE 2021, se encuestó a una muestra al azar de 500 ejecutivos participantes del
CADE y se indagó sobre la principal competencia que tiene un ejecutivo actualmente, obteniéndose los
siguientes resultados:
Canti dad de ejecuti vos
225
60
100 95
20
Capacidad de re- Empatía y calidez Eficiencia en la Pasión y dedicación Otro
alizar tareas en administración
paralelo del tiempo
Principal competencia
La CEO de la empresa Potencial Global supone que “menos del 25% de los participantes del CADE consideran
que la eficiencia en la administración del tiempo es la principal competencia que tienen los ejecutivos de
hoy”. De confirmarse este supuesto, lanzará un diplomado sobre gestión del tiempo. Sobre la base de los
datos recolectados en la muestra, ¿es correcto lo que afirma la CEO? Para el cálculo de la estimación
considere un nivel de confianza del 95%.
¿Qué heramienta ¿Cuál es el resultado ¿Cómo interpretamos este ¿Cómo ayuda esta
estadística utilizaremos? obtenido? valor? respuesta a la CEO?
4
Caso: Resistencia al rompimiento
Los procesos de fabricación de tubos se clasifican en: con costura longitudinal,
con costura helicoidal, sin costura acabado en frío y sin costura acabado en
caliente. Los tubos sin costura cuando son estirados en frío poseen un
diámetro interior y exterior más uniformes entre sí y con tolerancias precisas,
y una mayor facilidad para el mecanizado, comparado con los tubos sin
costura que son acabados en caliente.
La empresa Forte S.A.C está evaluando la posibilidad de introducir el proceso de fabricación sin costura
estirado en frío y con esto esperaría mejorar la calidad del producto. En esta primera etapa de evaluación, se
debe validar si con este nuevo proceso de fabricación se logra producir tubos de tres pulgadas de diámetro,
conforme exige la norma técnica. Para esto, se toma una muestra simple aleatoria de 16 tubos fabricados
con este nuevo proceso y se les mide su diámetro (en pulgadas). Los resultados obtenidos son los siguientes:
2,97 3,12 3,05 3,14 3,03 2,99 3,12 3,07
3,01 3,05 3,09 3,12 3,01 2,99 3,14 3,12
Se conoce que el diámetro de los tubos de acero es una variable aleatoria que responde a una distribución
normal. Verifique con 98% de confianza si la norma técnica, en cuanto al diámetro medio, se cumple.
Sobre la rúbrica de la competencia Razonamiento cuantitativo
Definición: Resuelve situaciones problemáticas en contexto real utilizando datos numéricos a través de la
interpretación, representación, calculo, análisis y argumentación.
Dimensiones Estimación
Interpretación: Relaciona datos e
Da significado a información numérica
información pertinente en
numérica en diversos formatos,
diversos formatos para definir una
en situaciones de situación
contexto real. problemática en
un contexto real.
Representación: Describe la variable,
Describe mediante su distribución, el
expresiones (los) parámetro(s) y
matemáticas y/o estadísticos utilizando
estadísticas, correctamente las
situaciones de notaciones y
contexto real. representaciones
simbólicas
Cálculo: Utiliza Calcula la estimación Resúmenes
algoritmos y puntual, el margen de
procedimientos error, el límite inferior n =16 Promedio = 3.064 Desviación estándar = 0.059
estándar de la y superior del
matemática y/o intervalo de confianza
estadística en que permita resolver
situaciones de la situación
contexto real. problemática en un
contexto real
5
Lectura complementaria
6
Tema: Prueba de hipótesis para una media y una proporción poblacional
Bibliografía:
Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 8. Sección 8.1,
8.2, 8.3 y 8.5
El tipo de prueba que se usaría es: a. Unilateral izquierda b. Unilateral derecha c. Bilateral
La región crítica sería una gráfica del tipo: a. Cola derecha b. Cola izquierda c. Dos colas
7
De la teoría a la práctica (después de revisar la infografía)
c. En una prueba de hipótesis de una media, unilateral izquierda, la región crítica está determinada por:
a. Una gráfica con la región sombreada a la derecha (cola a la derecha)
b. Una gráfica con la región sombreada a la izquierda (cola a la izquierda)
c. Una gráfica con dos regiones sombreadas a la izquierda y a la derecha (dos colas)
d. En una prueba de hipótesis unilateral derecha para una media, cuando el tamaño de la muestra es 20 y
el T cal resulta 2,25, con un nivel de significancia del 1%, complete:
La decisión es:
8
e. Complete el siguiente resumen para la prueba de hipótesis de una media:
PRUEBA DE HIPÓTESIS
Caso A: Caso B: Caso C:
Unilateral Izquierda Bilateral Unilateral Derecha
Planteamiento:
Nivel de significación:
Supuestos:
Estadístico de prueba:
Decisión:
No se rechaza H0 cuando_____________________________________________________
Conclusión:
Si se rechaza H0, la conclusión es: “Con un nivel de significación del α%, ______________________________
__________________________________________________________________________________”
Si no se rechaza H0, la conclusión es: “Con un nivel de significación del α%, ___________________________
_________________________________________________________________________________”
9
Casos de aplicación
Caso: Samsung en la línea de fabricación de relojes inteligentes
10
Pregunta 4. Calcule el estadístico de prueba, tenga en cuenta las siguientes indicaciones:
x- μ
Tcal =
Si el parámetro es µ, el estadístico de prueba es Tcalculado: S
√n
p^ - P
Zcal =
Si el parámetro es P, el estadístico de prueba es Z calculado:
Borrador:
Pregunta 7. ¿Cuáles son los puntos críticos? Estime sus valores en las tablas correspondientes.
c. - T (0,025; 179)
d. T (0,025; 179)
e. - T (0,05; 179)
11
f. T (0,05; 179)
g. - Z (0,025) y Z (0,025)
h. - Z (0,05) y Z (0,05)
i. Z (0,025)
j. Z (0,975)
k. Z (0,05)
l. Z (0,95)
¿Por qué?
12
Lectura complementaria
Método tradicional:
Si el valor del estadístico de prueba cae dentro de la región crítica, se rechaza Ho.
Si el valor del estadístico de prueba no cae dentro de la región crítica, no se rechaza Ho.
Son las regiones extremas limitadas por los valores críticos. La determinación de los valores P y de los
valores críticos se ve afectada si una región crítica se encuentra en dos colas, en la cola derecha o en la
cola izquierda. Por lo tanto, es importante determinar de manera correcta si una prueba de hipótesis es
de dos colas, de cola izquierda o de cola derecha.
13
5. El valor P (o p valor o valor de probabilidad) es:
La probabilidad de obtener un valor del estadístico de prueba que sea al menos tan extremo como el
que representa a los datos muestrales, suponiendo que la hipótesis nula es verdadera. Los valores P se
pueden calcular después de encontrar el área que está más allá del estadístico de prueba. La siguiente
es una herramienta para la memoria que sirve para interpretar el valor P: Si P es un valor bajo, la
hipótesis nula se rechaza. Si P es un valor alto, la hipótesis nula se queda.
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 400
= 0.025
7. Redacción de la conclusión
14
Triola (2018, p.366)
15
5. ¿Cuáles son los requisitos que se debe cumplir para realizar esta prueba?
16
De la teoría a la práctica (después de revisar la infografía)
Problema 1: Suponga que se tiene las siguientes hipótesis sobre las varianzas de dos poblaciones:
2 2
H0: σ 1 = σ 2
2 2
H1: σ 1 ≠ σ2
respectivamente. Con los datos recopilados se obtiene un valor crítico para el estadístico igual a Fcal = 0,25.
Al nivel de significación de α = 0,05; complete los espacios en blanco
a. El tipo de prueba es: _____________________________________________________________________
Problema 2: Un equipo de consejeros de tutoría en estadística de la UPC sostiene que, los estudiantes que
llevan por primera vez el curso de Estadística obtienen mejores calificaciones en promedio que los
estudiantes que llevan por segunda vez el curso. Identifique cuál es la hipótesis alterna correcta:
a. H1: µ1 - µ2 < 0 b. H1: µ1 - µ2 ≠ 0 a. H1: µ1 - µ2 > 0
Si valor p ≤ α Se rechaza H0
Si valor p > α No se rechaza H0
Valores críticos para una prueba de hipótesis bilateral para el cociente de varianzas
Cálculo del valor crítico cola izquierda
Cálculo del valor crítico cola derecha
1
F1 =
Ftab [ α
2
;( n2 - 1); ( n1 - 1 ) ] F 2 = Ftab
[ α
2
; (n1- 1) ; (n2 - 1)
]
17
Casos de aplicación
Caso: Bicicletas BICORP S.A
La fábrica de bicicletas BICORP S.A. produce aros de aleación en dos plantas A y B. El ingeniero sospecha que
“hay diferencias en los tiempos de producción entre las plantas”, presunción que se explicaría porque en el
último trimestre se han implementado máquinas modernas para la producción de los aros en la planta A. De
ser cierta la sospecha, el ingeniero recomendará la compra de máquinas similares para la planta B. Para tal
fin, se registró el tiempo de producción (en minutos) de 10 aros de aleación seleccionados aleatoriamente
de cada una de las plantas. Los datos registrados son los siguientes:
Planta A (1) 85,0 35,0 95,0 82,5 68,0 63,5 59,5 63,0 67,0 64,0
Planta B (2) 100,0 94,0 112,0 47,0 39,0 58,0 89,0 78,5 64,0 77,0
A un nivel de significancia del 1%, ¿el ingeniero recomendará la compra de estas máquinas modernas para la
planta B? Considere que las muestras son independientes y que provienen de poblaciones normalmente
distribuidas.
A continuación, se muestran las salidas de las pruebas de hipótesis, obtenidas con los programas MS Excel y
Minitab, las cuales ayudarán a verificar la sospecha del ingeniero.
Salidas de Excel:
Prueba t para dos muestras suponiendo varianzas iguales
Planta A (1) Planta B (2)
Media 68.250 75.850
Varianza 272.347 561.114
Observaciones 10 10
Varianza agrupada 416.7306
Diferencia hipotética de las medias 0
Grados de libertad 18
Estadístico t -0.8325
P(T<=t) una cola 0.2080
Valor crítico de t (una cola) 2.5524
P(T<=t) das colas 0.4161
Valor crítico de t (dos colas) 2.8784
18
Prueba
Hipótesis nula H₀: σ₁² / σ₂² = 1
Estadísticas descriptivas
Muestra N Media Desv.Est. Error estándar de la media
lanta A 10 68.3 16.5 5.2
Planta B 10 75.8 23.7 7.5
Estimación de la diferencia
Diferencia Desv.Est. agrupada IC de 99% para la diferencia
-7.60 20.41 (-33.88, 18.68)
Prueba
Hipótesis nula H₀: μ₁ - µ₂ = 0
Hipótesis alterna H₁: μ₁ - µ₂ ≠ 0
Valor T GL Valor p
-0.832 18 0.416
19
20
21
Caso: Empresa MAUSA SAC
MAUSA SAC es una empresa que cuenta con más de 20 años de experiencia en todo lo relacionado a la
construcción de centros comerciales. Uno de sus objetivos es evaluar el medio ambiente para viabilizar los
proyectos de construcción. El ingeniero responsable del área de medio ambiente afirma que, el nivel
promedio de asbesto (desechos de construcción y otros) en el distrito de Santiago de Surco es inferior que
en el distrito de San Borja. Si esto se verifica, llevará a cabo la construcción de un Centro Comercial en el
distrito donde exista menor nivel promedio de asbesto. Le encargan a Ud. registrar aleatoriamente el nivel
de Asbesto de algunos proyectos en los distritos mencionados. Los resultados registrados fueron los
siguientes:
Según los resultados encontrados, ¿Qué recomendaría al responsable del área de medio ambiente? Use un
nivel de significación de 5%. Asuma que los datos del nivel de Asbesto fueron obtenidos a partir de muestras
independientes en cada distrito y que provienen de poblaciones normalmente distribuidas.
Prueba
Hipótesis nula H₀: σ₁² / σ₂² = 1
Nivel de α = 0.05
significancia
Método Estadística de prueba GL1 GL2 Valor p
F 0.26 11 13 0.031
Estadísticas descriptivas
Muestra N Media Desv.Est. Error estándar de la media
antiago de Surco (1) 12 10.42 1.38 0.40
San Borja (2) 14 11.86 2.71 0.73
Estimación de la diferencia
Diferencia IC de 95% para la diferencia
-1.440 (-3.172, 0.291)
Prueba
Hipótesis nula H₀: μ₁ - µ₂ = 0
Hipótesis alterna H₁: μ₁ - µ₂ ≠ 0
22
Valor T GL Valor p
-1.74 19 0.098
23
Lectura complementaria
2. Una empresa industrial debe decidir entre dos posibles proveedores (Proveedor A y Proveedor B) de
barriles de combustible requeridos para la producción. ¿Las muestras que se eligen de la producción
de cada proveedor son independientes? ¿Porqué?
Si, constituyen dos muestras independientes. Porque, los valores muestrales para la producción del
proveedor A no están relacionados/pareados con los valores muestrales para la producción del
Proveedor B.
3. En una prueba de hipótesis para comparar dos medias de muestras independientes, ¿cuáles son los
supuestos?
21 y 22 se desconocen (suponiendo que las 21 y 22 son iguales o no)
Las dos muestras son independientes.
Ambas muestras son aleatorias simples.
Cualquiera o ambas de estas condiciones se satisfacen: los dos tamaños de muestra son grandes
(con n1 > 30 y n2 > 30 o ambas muestras provienen de poblaciones que tienen distribuciones
normales. (Estos métodos son robustos frente a desviaciones respecto de la normalidad, de manera
que, para muestras pequeñas, el requisito de normalidad es menos estricto, en el sentido de que los
procedimientos se comportan bien siempre y cuando no existan valores atípicos ni desviaciones
demasiado pronunciadas respecto de la normalidad).
Triola, M. (2013) Estadística. 11va Edición Pearson, pp. 474, 480
24
Tema: Prueba de hipótesis para diferencia de medias con muestras relacionadas y
diferencia de proporciones
Bibliografía:
Triola, M. (2013) Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulos 9, pág. 462-
472,487-493.
Mendenhall W., Beaver R. y,Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va
Edición. Cengage Learning Editores, México, D.F. Capítulo 8. Pág. 307-310, 388-391
A partir de lo revisado en
el libro de Triola (2013,
p. 487-493) responde las
preguntas que aparece
en este enlace
25
De la teoría a la práctica (después de revisar la infografía)
Caso 1: Una empresa certificadora de la calidad del agua extrae 30 muestras del recorrido del rio Jeque para
analizar el oxígeno disuelto (OD). Se usaron 2 métodos para hacer estos análisis: el método de Winkler (MW)
y el método de electrodos (ME). Se desea probar si existen diferencias entre los métodos.
Revisa la bibliografía de la unidad, y a partir de ello, completa lo siguiente (Marque con una (X) Verdadero o
Falso):
Para validar la prueba de hipótesis para la diferencia de proporciones se utiliza la distribución normal.
Verdadero Falso
Para validar la prueba de hipótesis para la diferencia de medias para muestras dependientes se utiliza la
distribución t de Student. Verdadero Falso
Caso 2: Suponga que tenemos dos muestras aleatorias independientes de tamaños 60 y 70,
respectivamente. A partir de estas, muestras se obtienen las proporciones muestrales para cierta
21 25
característica de interés, cuyos valores son: ^p1 = y ^p2 = ; α = 0,05. A continuación, se formulan las
60 70
siguientes hipótesis y, con los datos recolectados en las muestras aleatorias, se obtiene el estadístico de
prueba cuyo valor resultado es Zcal= -1,91
H0: P1 = P2
H1: P1 ≠ P2
Con el objetivo de incrementar las ventas de una conocida marca de Filtros de aire para autos, se decide
realizar una gran campaña publicitaria. Luego se recopiló una muestra aleatoria sobre las ventas en miles de
soles registradas en 10 tiendas donde se comercializa dicho Filtro, antes y después de la campaña. Los datos
se muestran a continuación:
Asumiendo que el monto de ventas tiene una distribución normal, realice el análisis para responder a la
pregunta: ¿Fue efectiva la campaña? Use un nivel de significación del 5%.
Prueba
Hipótesis nula H₀: diferencia_μ = 0
Hipótesis alterna H₁: diferencia_μ ≠ 0
Valor T Valor p
-0.332 0.748
27
Dimensiones Prueba de hipótesis
28
Caso: Ensayo clínicos Lipitor
Un equipo de ingenieros químicos tiene conocimiento que el
Lipitor es un fármaco que se utiliza para controlar el colesterol. En
ensayos clínicos del Lipitor, 124 sujetos fueron tratados con el
medicamento y 270 sujetos recibieron un placebo. De los que
fueron tratados con Lipitor, 7 desarrollaron infecciones. De los
que recibieron un placebo, 27 desarrollaron infecciones. Utilice un
nivel de significancia de 0.05 para someter a prueba la afirmación
de que la tasa de infecciones para los individuos tratados con
Lipitor fue menor a los que recibieron un placebo. En caso de
que, la afirmación sea cierta, el equipo de químicos recomendará
usar el fármaco Lipitor.
29
Unidad 2: Diseño y Análisis de experimentos
Tema: ANOVA de un factor
Bibliografía:
Montgomery, D. y Runger, G. (2005) Probabilidad y estadística aplicadas a la ingeniería. México,
D.F.: Limusa Wiley. Capítulo 12. Sección 12.1 y 12.4
Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 12. Sección
12.1 y 12.2.
Método de prueba de igualdad de tres o más medias poblacionales, por medio del análisis de las
varianzas muestrales. El análisis de varianza de un factor se utiliza con datos clasificados con base en
un tratamiento (o factor), que es una característica que nos permite distinguir entre sí a las distintas
poblaciones. (Triola, 2013, p.629)
Planteamiento de hipótesis
En el análisis de varianza del modelo simple o de un factor, se supone que las observaciones siguen una
distribución normal e independiente con la misma varianza para cada tratamiento o nivel de factor.
Estos supuestos deberán verificarse examinando los residuales.
(Montgomery, 2003, p.576)
Estadístico de prueba
CM(Tr)
F calculado =
CME
30
Para obtener el valor del estadístico de prueba, se debe elaborar la tabla del ANOVA:
SCE CM ( Tr ) F
Error n. – k SCE = SCT - SC( Tr ) CME = F = ( α, k-1, n -k )
n. -k CME .
n. – 1 k n 2
y ..
SCT = ∑ ∑ y -
2
Total ij
donde ( n. = Σ i=1 n i )
k
i=1 j=1 n.
Punto crítico:
Comparación Múltiples:
Los métodos de comparación múltiple son los procedimientos usados para comparar las medias de
tratamientos individuales en el análisis de varianza.
(Montgomery, 2003, p.581)
, Ϭ͗ࣆ ൌ ࣆ
, ϭ͗ࣆ ് ࣆ Para todo i ≠ j
32
Casos de aplicación
Caso: Desaceleración en automóviles
En la siguiente tabla se presentan las mediciones de desaceleración (en fuerza de gravedad g) de tres
tamaños de automóviles. Los valores más grandes indican mayores cantidades de desaceleración ante un
choque frontal, las cuales suelen provocar lesiones graves en los conductores. Con dicha información calcule
la tabla de ANOVA:
Automóviles compactos 44 43 44 54 38 43 42 45 44 50
Automóviles medianos 41 49 43 41 47 42 37 43 44 34
Automóviles grandes 32 37 38 45 37 33 38 45 43 42
Tratamientos
Error
Total
Asumiendo que se cumplen los supuestos del experimento y utilizando un nivel de significación del 1%, se
quiere probar si existen diferencias en las mediciones de desaceleración (en g) en pruebas de choque de los
tres tipos de automóviles.
33
Caso: Resistencia a la tensión de una fibra sintética
Decisión: ___________________
Conclusión:
34
Recuerda:
INV.F.CD (probabilidad, grados de libertad1, grados de libertad2)
35
Hallando el peso porcentual sugerido usando Valor P (p-value):
36
Tema: ANOVA de dos factores
Bibliografía:
Montgomery, D. y Runger, G. (2005) Probabilidad y estadística aplicadas a la ingeniería. México,
D.F.: Limusa Wiley. Capítulo 13. Sección 13.1 y 13.4
Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 12. Sección
12.3 y 12.4.
La pregunta de investigación es: ¿Qué factores influyen en la mayor conservación del queso?
Discuta con sus compañeros de su sección e indique al menos dos factores que puede incluirse en la
hipótesis de investigación.
Factor A
Factor B
Niveles
Tratamientos
Número de tratamientos
Variable respuesta
Unidad experimental
Modelo matemático
Hipótesis estadística
H1:
37
De la teoría a la práctica (después de revisar la infografía)
Para cualesquiera de los métodos de aplicación que Para el método de aplicación T1 y T2 la pintura P2,
se use, el tipo de pintura P1 sería la que presenta obtiene la mayor duración; mientras para T3 la
mayor tiempo de duración. pintura P1 obtiene la mayor duración.
Si
Para obtener el valor del estadístico de prueba, se debe elaborar la tabla del ANOVA:
38
Fuente de Grados de Suma de Cuadrado
F cal
variación libertad cuadrados medio
CM(A)
A a-1 SC(A) CM(A)
CME
CM(B)
B b -1 SC(B) CM(B)
CME
CM(AB)
AB (a -1) (b -1) SC(AB) CM(AB)
CME
b 2
1 y… SC(B) CM(B)
Factor B b–1
an
∑ y - abn 2
.j.
b-1 CME
F [α, b-1, ab (n – 1)]
j=1
1
a b
y 2…
n
∑ ∑ y2ij. - abn SC(AB) CM(AB)
Interacción AxB (a – 1) (b – 1) i=1 j=1 F [α, (a-1) (b-1), ab (n – 1)]
(a - 1) (b - 1) CME
SC(Subtotales) – SCA - SCB
SCE
Error ab (n – 1) SCT – SC(A) – SC(B) – SC(AB)
ab (n - 1)
a b n 2
y…
Total abn – 1 ∑ ∑ ∑ y ijk - 2
abn
i=1 j=1 k=1
Casos de aplicación
Caso: Tecno Gas S.A.
39
Tecno Gas S. A. es una empresa que fabrica y comercializa termas a gas para uso doméstico e industrial. La
terma a gas es un artefacto calentador de agua que funciona de forma continua mediante la combustión de
gas. Su planta de producción está ubicada en la ciudad del Callao y sus productos se comercializan a través
de sus locales de venta y centros comerciales ubicados en Lima y Provincias. Constantemente está
mejorando su tecnología para producir termas a gas a un precio competitivo y de primerísima calidad,
reduciendo al mínimo las fallas y reclamos de los clientes. El jefe del departamento de ingeniería está
interesado en determinar si hay influencia del turno de producción y la capacidad de las termas en el
porcentaje de termas con defecto. Para esto diseña un experimento factorial con tres niveles del turno de
producción y tres niveles de la capacidad de las termas, obteniendo la siguiente información:
Turno de Capacidad
producción 10 L 14 L 18 L
3.8 5.5 4.5
Mañana 4.0 5.0 4.0
4.2 4.8 4.2
4.5 5.0 3.8
Tarde 4.2 5.3 4.0
4.8 5.8 3.5
5.0 6.0 3.8
Noche 4.5 5.8 4.0
5.2 5.5 4.1
¿Qué capacidad de terma y/o turno de producción debe elegir jefe de departamento de ingeniería, para
obtener menor porcentaje de termas con defectos? Realice el análisis correspondiente con un nivel de
significación del 5%.
Tratamientos
Unidad experimental
Número de réplicas por
tratamiento
Modelo Yijk = μ + τ i + β j + (τβ)ij + εijk
Hipótesis alterna
Capacidad 9,4289
Turno*Capacidad 4
Error 1,5333
Total 26 13,1867
Decisión: ____________
Conclusión:
¿Qué capacidad de terma y/o turno de producción debe elegir jefe de departamento de ingeniería, para
obtener menor porcentaje de termas con defectos?
Turno*Capacida
d N Media Agrupación
41
Noche 14 L 3 5.76667 A
Tarde 14 L 3 5.36667 A B
Mañana 14 L 3 5.10000 A B C
Noche 10 L 3 4.90000 B C D
Tarde 10 L 3 4.50000 C D E
Mañana 18 L 3 4.23333 D E
Mañana 10 L 3 4.00000 E
Noche 18 L 3 3.96667 E
Tarde 18 L 3 3.76667 E
Las medias que no comparten una letra son significativamente diferentes.
Si hubiera salido el siguiente reporte como resultado del caso anterior: ¿Qué capacidad de terma y/o turno
de producción debe elegir jefe de departamento de ingeniería, para obtener menor porcentaje de termas
con defectos?
Turno*Capacida
d N Media Agrupación
Noche 14 L 3 5.76667 A
Tarde 14 L 3 5.36667 A B
Mañana 14 L 3 5.10000 A B C
Noche 10 L 3 4.90000 B C D
Tarde 10 L 3 4.50000 C D
Mañana 18 L 3 4.23333 D
Mañana 10 L 3 4.00000 D
Noche 18 L 3 3.76667 E
Tarde 18 L 3 3.56667 E
Las medias que no comparten una letra son significativamente diferentes.
Bibliografía: 42
Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va
Edición. Cengage Learning Editores, México D. F. Capítulo 12
Conceptos básicos (después de revisar la infografía)
Sobre la relación entre las variables, se puede usar el diagrama de dispersión o el coeficiente de correlación
para identificar la relación entre dos variables dependiente (y) e independiente (x).
40 40
35 35
Y
30 30
25 25
20 r = 0.998 20 r = -0.998
10 12 14 16 18 20 22 24 10 12 14 16 18 20 22 24
X X
400
50
300
40
Y
200
30
100
0 r = 0.594 20 r = -0.078
0 5 10 15 20 10 15 20 25 30 35 40
X X
43
El análisis de varianza en la regresión lineal simple:
SCR
Regresión 1 SCR CMR =
1
SCE CMR
Error n-2 SCE CME = CME
n-2
Total n-1 SCT
2
R =
SCR
SCT
S=
SCE
n-2 √
= √CME
Heterocedasticidad
Autocorrelación de los errores
3. Sobre la validación del modelo, marque con una “X” la opción correcta.
a. En la prueba individual (coeficientes), la hipótesis alterna para evaluar la adecuación del modelo a la
población es:
44
. i. H1: β0 ≠ 0 ii. H0: β0 = 0 iii. H 1: β1 = 0 iv. H1: β1 ≠ 0
c. La validación del modelo de regresión lineal simple puede realizarce usando ANOVA o la prueba de
coeficientes.
45
Casos de aplicación
Caso: Ciudad Campo Verde
En la ciudad Campo Verde existe una flota considerable de combis antiguas que,
no solo congestionan el tráfico sino también, podrían estar emitiendo
cantidades alarmantes de monóxido de nitrógeno (NO).
La Gerencia Municipal de Campo Verde desea saber, si efectivamente la
antigüedad de los vehículos y la emisión de NO están relacionadas; de ser así,
estimar en cuánto se incrementa la emisión de NO por cada año de antigüedad
de los vehículos.
Para comprobar lo anterior, la gerencia municipal solicita al ingeniero Flores un estudio técnico al respecto,
a partir de una muestra seleccionada al azar de 30 combis. Si en este estudio comprueba que la emisión
media de NO, de una combi con una antigüedad de 15 años, supera los 11 mg/m 3; la Gerencia Municipal
solicitará el retiro de circulación de las unidades de 15 años a más de antigüedad.
1. ¿Cuál es la problemática que deberá resolver? Marque con una “X” la opción correcta.
a. ¿Cuál es la emisión de NO de una combi con una antigüedad de 15 años?
b. ¿La Gerencia Municipal solicitará el retiro de circulación de las unidades que tengan 15 años a más
de antigüedad?
c. ¿Existe relación lineal entre la emisión de NO y la antigüedad de las combis?
Y:
X:
3. A partir del caso, se obtuvo el siguiente diagrama de dispersión de las variables de estudio, ¿cuál es la
relación entre ellas?
46
4. Teniendo en cuenta el siguiente reporte: “Coeficientes”, modele la ecuación de regresión lineal simple
estimado e interprete el coeficiente de regresión.
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.358 0.770 0.47 0.645
X 1.0276 0.0907 11.33 0.000 1.00
5. Teniendo en cuenta el siguiente reporte: “Resumen del modelo”, indique la interpretación del coeficiente
de determinación y el error estándar.
R2 =
S=
Tener en cuenta:
El coeficiente de determinación R2 mide la proporción o el porcentaje de la
variación total en Y explicada por el modelo de regresión
El coeficiente de no determinación (1 - R2) mide la proporción o el porcentaje de la
variación total en Y no explicada por el modelo de regresión
El error estándar S mide la variabilidad, o dispersión, de los valores muestrales ( y i )
alrededor de la recta de regresión ( ^y i ), en las mismas unidades que la variable
47
6. Según la prueba de Anderson Darling, verifique si se cumple el supuesto de normalidad de los errores.
Usar nivel de significación del 5%.
Estadístico de Durbin-Watson
Estadístico de Durbin-Watson = 1.82889
Tener en cuenta:
Según Ángeles, C. (2002), si el estadístico Durbin Watson (d) está en el intervalo [1.5,
2.5], puede asumirse que el supuesto de independencia de errores se cumple.
Bajo el mismo criterio del estadístico Durbin Watson se puede asumir que se cumple el
supuesto de homocedasticidad
8. Teniendo en cuenta el siguiente reporte del programa MINITAB, verifique la validez del modelo, usando
la prueba global (ANOVA) o la prueba individual (coeficiente), con un nivel de significación del 5%. (para
la toma decisión utilice el criterio del valor – p)
48
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.358 0.770 0.47 0.645
X 1.0276 0.0907 11.33 0.000 1.00
Análisis de Varianza
Hipótesis:
Estadístico de
prueba:
Decisión:
Conclusión
estadística:
9. Con un nivel de confianza del 95%, la emisión media de NO de una combi con una antigüedad de 15
años es:
Formula del IC
√
2
1 (x0 - x)
Valor medio ^y0 ± t α * se * +
(2 ,n-2) n s xx
√
2
1 ( x0- x )
Valor individual ^y0 ± t α * se * 1+ +
(2 ,n-2) n s xx
SCR
se = √ CME S xx =
β^ 1
2
49
Estadísticas
Variable N Media Desv.Est.
X 30 7.5333 3.9804
50
Tema: Análisis de regresión no lineal simple
Bibliografía:
Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.:
Limusa Wiley. Capítulo 10. Página 471
Jay L. Devore (2008). Probabilidad y estadística para ingeniería y ciencias. México, D.F.: Cengage
Learning. Capítulo 13. Página 508
Triola, M. (2013). Estadística. 11va. Edición. Pearson Educación, México, D.F. Capítulo 10. Página 570
A partir de lo revisado en la bibliografía sugerida del tema de análisis de regresión no lineal simple responde
la siguiente evaluación.
Se obtuvo el siguiente modelo de regresión lineal del tiempo de demora (en minutos) de reparto, en función
del número de cajas a repartir: ^y = -141 + 85.1X . Además, se obtuvo el diagrama de dispersión y la tabla
de coeficientes.
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -141 114 -1.24 0.270
X 85.1 36.8 2.31 0.069 1.00
Con la información mostrada y a un nivel de significancia de 5%, ¿el modelo de regresión lineal es válido?
51
Conceptos básicos (después de revisar la infografía)
Regresión Exponencial
Regresión Potencia
H0: β1 = β2 = 0 H0: β2 = 0
Cuadrático
H1: Al menos un βi ≠ 0 H1: β2 ≠ 0
Tener en cuenta:
Para el modelo cuadrático, exponencial y potencia se verifican los mismos supuestos del
modelo lineal simple (normalidad de los errores, no autocorrelación de los errores y
varianza de los errores constante).
52
Sobre el pronóstico de la variable dependiente (y)
El intervalo de confianza para el valor medio o individual de la variable dependiente (y), de las funciones
intrínsicamente lineales
√ √
2 2
Exponencial
1 (x0 - x ) 1 ( x0 - x )
Ln ( y 0 ) ± t α S 1+ + Ln ( y 0 ) ± t α S +
(2 , n- 2 ) n s xx (2 , n- 2) n sxx
√ √
2 2
SCR
Donde : S = √CME Sxx =
β^ 21
Estas expresiones corresponden al IC del modelo linealizado. Para calcular los valores en la escala original de
“Y”, se debe elevar cada uno de los términos del intervalo a la “potencia e”.
a. ^y = β^ 0 + β^ 1 x + β^ 2 x
2
Modelo exponencial
b. ^y = β^ 0 + β^ 1 x Modelo potencia
^
c. ^y = β^ 0 x β
1
Modelo lineal
^
d. ^y = β^ 0 e β x1
Modelo cuadrático
53
Casos de aplicación
Caso: Security S.R.L.
1. ¿Cuál es la problemática que deberá resolver? Marque con una “X” la opción correcta.
a. ¿Cuál es el tiempo de vida útil de una cámara de video vigilancia, cuando la temperatura del medio
ambiente es de 25°C?
b. ¿El Gerente de la compañía adquirirá el lote de las 200 cámaras y las enviará a una zona geográfica
cuya temperatura ambiente es aproximadamente 25 °C?
c. ¿Existe relación no lineal entre la temperatura ambiente y el tiempo de vida útil de las cámaras?
3. Teniendo los reportes del MINITAB, escribir la ecuación de cada modelo y ordenarlos según el coeficiente
de determinación
Modelo lineal Modelo cuadrático
Resumen del modelo Resumen del modelo
R-cuad. R-cuad. R-cuad. R-cuad.
S R-cuad. (ajustado) (pred) S R-cuad. (ajustado) (pred)
2.79077 92.89% 92.00% 90.12% 2.57603 94.70% 93.18% 88.85%
Coeficientes Coeficientes
EE del EE del
Término Coef coef. Valor T Valor p FIV Término Coef coef. Valor T Valor p FIV
Constante 5.15 1.59 3.23 0.012 Constante 1.33 2.87 0.46 0.657
X 0.8687 0.0850 10.22 0.000 1.00 X 1.620 0.492 3.29 0.013 39.41
X^2 -0.0225 0.0146 -1.55 0.166 39.41
Modelo exponencial Modelo potencia
Resumen del modelo Resumen del modelo
R-cuad. R-cuad. R-cuad. R-cuad.
S R-cuad. (ajustado) (pred) S R-cuad. (ajustado) (pred)
0.241346 86.54% 84.86% 81.04% 0.154253 94.50% 93.82% 92.02%
Coeficientes Coeficientes
EE del EE del
Término Coef coef. Valor T Valor p FIV Término Coef coef. Valor T Valor p FIV
Constante 1.951 0.138 14.16 0.000 Constante 1.058 0.154 6.86 0.000
X 0.05272 0.00735 7.17 0.000 1.00 Ln(X) 0.6983 0.0595 11.73 0.000 1.00
54
Modelos Ecuación del modelo R2 Ranking (prioridad)
Lineal
Cuadrático
Exponencial
Potencia
4. Teniendo en cuenta del MINITAB, verifique la validez del mejor modelo según el ranking elaborado en el
paso anterior.
Fuente GL SC Ajust. MC Ajust. Valor F Valor p Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 813.79 813.793 104.49 0.000 Regresión 2 829.65 414.824 62.51 0.000
X 1 813.79 813.793 104.49 0.000 X 1 71.83 71.834 10.82 0.013
Error 8 62.31 7.788 X^2 1 15.86 15.856 2.39 0.166
Total 9 876.10 Error 7 46.45 6.636
Total 9 876.10
Fuente GL SC Ajust. MC Ajust. Valor F Valor p Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 2.9969 2.99690 51.45 0.000 Regresión 1 3.2725 3.27253 137.54 0.000
X 1 2.9969 2.99690 51.45 0.000 Ln(X) 1 3.2725 3.27253 137.54 0.000
Error 8 0.4660 0.05825 Error 8 0.1904 0.02379
Total 9 3.4629 Total 9 3.4629
55
5. Teniendo en cuenta los resultados obtenidos del MINITAB, verifique el cumplimiento de los supuestos
del mejor modelo válido.
6. Presente y realice la transformación, de ser necesario, de la ecuación del mejor modelo valido y que
cumplió todos los supuestos.
56
7. Con un nivel de confianza del 95%, el tiempo de vida útil de una cámara de video vigilancia, cuando la
temperatura del medio ambiente es de 25 °C es:
Modelo lineal Modelo cuadrático
Predicción Predicción
EE de EE de
Ajuste ajuste IC de 95% IP de 95% Ajuste ajuste IC de 95% IP de 95%
26.8657 1.19037 (24.1207; 29.6107) (19.8692; 33.8622) 27.7659 1.24356 (24.8253; 30.7064) (21.0019; 34.5299)
Modelo exponencial Modelo potencia
Predicción Predicción
Estimación puntual:
Intervalo de confianza:
57
Tema: Análisis de regresión lineal múltiple
Bibliografía:
Mendenhall W., Beaver R. y Beaver B. (2015). Introducción a la Probabilidad y Estadística. 14va
Edición. Cengage Learning Editores, México D. F. Capítulo 13. Página 528
Montgomery, D. y Runger G. (2005). Probabilidad y Estadística aplicada a la Ingeniería. México D. F.:
Limusa Wiley. Capítulo 11. Página 483
Jay L. Devore (2008). Probabilidad y estadística para ingeniería y ciencias. México, D.F.: Cengage
Learning. Capítulo 13. Página 560
A partir de lo revisado en la bibliografía sugerida del tema de análisis de regresión lineal múltiple responde
la siguiente evaluación
El gerente de una empresa desea obtener un modelo de regresión lineal que permita realizar los
pronósticos del monto de las ventas (en miles de soles) de su principal producto en función del gasto
mensual en publicidad (miles de soles), número medio de pedidos y el número de vendedores.
58
Conceptos básicos (después de revisar la infografía)
1. La estimación de un modelo de regresión lineal múltiple dio como resultado la siguiente ecuación:
^y = 10.5 + 2.5 X1 + 1.82 X2 - 0.94 X3, la interpretación de β^ 3 es:
59
Multicolinealidad
Cuando existen fuertes dependencias entre las variables regresoras (independientes), se dice que existe
multicolinealidad. La multicolinealidad puede tener efectos de consecuencias sobre las estimaciones de los
coeficientes de regresión y sobre la aplicabilidad general del modelo. Los factores de inflación de la varianza
(VIF) son medidas de multicolinealidad muy útiles. Entre mayor sea el factor de inflación de la varianza, más
marcada será la multicolinealidad. Algunos autores han sugerido que, si cualquiera de los factores de
inflación de la varianza excede 10, entonces la multicolinealidad constituye un problema.
(Montgomery y Runger, 2005)
Observaciones influyentes
Las observaciones poco comunes (también llamadas observaciones influyentes) son observaciones que
tienen un impacto desproporcionado en un modelo de regresión. Es importante identificar las observaciones
poco comunes porque pueden producir resultados engañosos. Por ejemplo, una observación poco común
puede ejercer una gran influencia al determinar R 2, las estimaciones de los coeficientes de regresión o la
magnitud del cuadrado medio de error.
60
Casos de aplicación
Caso: Adquisición de nueva maquinaria
El gerente de una empresa desea obtener un modelo de regresión lineal que permita realizar los pronósticos
del monto de las ventas (en miles de soles) de su principal producto en función del gasto mensual en
publicidad (miles de soles), número medio de pedidos y el número de vendedores. El gerente de la empresa
comprará una nueva maquinaria para aumentar la producción, si el monto de las ventas supera los 5500
soles, cuando el gasto en publicidad es de 800 soles, el número medio de pedidos es de 50 y el número de
vendedores es 18. Los datos son presentados a continuación.
Use un nivel de significación del 5% y un nivel de confianza del 95% (alfa a entrar 0.05 y un alfa a retirar
0.05).
a. ¿El gerente de la empresa debe comprar una nueva maquinaria para aumentar la producción?
b. ¿Estimar las ventas, cuando el gasto en publicidad es de 800 soles, el número medio de pedidos es
de 50 y el número de vendedores es 18?
c. Determinar un modelo de regresión lineal que permita realizar los pronósticos del monto de las
ventas
d. Determinar si el monto de las ventas supera los 5500 soles
2. Teniendo en cuenta el siguiente reporte del programa MINITAB, modele la ecuación de regresión lineal
múltiple estimado e interprete las medidas de bondad de ajuste.
61
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0.308456 93.19% 91.15% 86.85%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.369 0.681 0.54 0.600
X1 2.782 0.791 3.52 0.006 2.13
X2 0.0856 0.0179 4.78 0.001 2.33
X3 -0.0182 0.0215 -0.85 0.417 1.18
R2 =
S=
Tener en cuenta:
El coeficiente múltiple de determinación R 2 tiene una grave desventaja: a mayor
número de variables incluidas, se incrementa R 2. A causa de esta desventaja, la
comparación de diferentes ecuaciones de regresión múltiple se logra mejor con el
2
coeficiente ajustado de determinación, que es R Ajustada para el número de variables y
el tamaño de la muestra.
R 2Ajustada = R2 = 1 - ( 1 - R2 ) (nn -- 1p )
3. Teniendo en cuenta el siguiente reporte del programa MINITAB, realice la prueba global para el modelo
de regresión completo:
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 3 13.0257 4.34190 45.63 0.000
X1 1 1.1757 1.17567 12.36 0.006
X2 1 2.1784 2.17845 22.90 0.001
X3 1 0.0681 0.06809 0.72 0.417
Error 10 0.9514 0.09514
Total 13 13.9771
62
4. Teniendo en cuenta el siguiente reporte del programa MINITAB, realice la prueba individual para cada
coeficiente del modelo de regresión completo.
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 0.369 0.681 0.54 0.600
X1 2.782 0.791 3.52 0.006 2.13
X2 0.0856 0.0179 4.78 0.001 2.33
X3 -0.0182 0.0215 -0.85 0.417 1.18
Tener en cuenta:
Si en el modelo completo existen puntos influyentes deben eliminarse y luego aplicar la
regresión por pasos (método paso a paso)
5. Como el modelo de regresión lineal múltiple completo no resulta valido se aplica el método paso a paso,
para la selección del mejor modelo. Escriba la ecuación de regresión lineal múltiple estimado, interprete
los coeficientes del modelo e interprete las medidas de bondad de ajuste obtenido por el método paso a
paso, a partir del reporte del MINITAB, que se muestra a continuación:
63
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -0.015 0.501 -0.03 0.977
X1 2.594 0.750 3.46 0.005 1.96
X2 0.0916 0.0162 5.65 0.000 1.96
R2 modelo
R2 =
completo=91.15%
S modelo
S=
completo=0.308456
Modelo de regresión
lineal múltiple
estimado
β^ 1 =
β^ 2 =
6. Teniendo en cuenta el siguiente reporte del programa MINITAB, verifique el supuesto de normalidad de
los errores
60
50
40
30
20
10
5
1
-0.75 -0.50 -0.25 0.00 0.25 0.50
RESID
Estadístico de Durbin-Watson
64
Estadístico de Durbin-Watson 2.17108
=
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constant -0.015 0.501 -0.03 0.977
e
X1 2.594 0.750 3.46 0.005 1.96
X2 0.0916 0.016 5.65 0.000 1.96
2
9. Teniendo en cuenta el siguiente reporte del programa MINITAB, realice el análisis de la detección de
datos influyentes
Estadísticas
Mínim
Variable N o Máximo
10. Con un nivel de confianza del 95%, el monto de las ventas cuando el gasto en publicidad es de 800
soles y el número medio de pedidos es de 50 es:
Predicción
Intervalo:
65
Interpretación del intervalo:
Bibliografía:
Anderson David, Sweeney Dennis y Willians Thomas (2010). Estadística para la administración y
economía. 10ma Edición. Cengage Learning Ediores, México D.F. capítulo 18. Página 765
Gujarati Damodar N. y Porter Dawn C. (2010). Econometría. México Dc. Graw Hill. Capítulo 21 y 22
pag. 737
Render Barry y Slair Ralph. (2016). Métodos cuantitativos para los negocios. 12va Edición. Pearson
Prentice Hall. Capítulo 5. Pag 175
2. Características de:
Responda lo siguiente:
3. En suavización exponencial, si usted desea dar un peso significativo a las observaciones más recientes,
entonces la constante de suavización deberá ser:
4. ¿Cuál de las siguientes opciones se emplea para alertar al usuario acerca de un modelo de pronóstico
que tiene un error significativo en los últimos períodos?
La suavización exponencial, es un método de pronóstico que se basa en suavizar (promediar), los valores
pasados de una serie en forma exponencialmente creciente. Supone que los datos son estacionarios (sin
estacionalidad).
Las observaciones se ponderan asignando los pesos (α) más grandes a las más recientes.
Modelo matemático:
^ 2 3
Yt + 1 = α Yt + α ( 1 - α ) Y t - 1 + α ( 1 - α ) Y t - 2 + α ( 1 - α ) Yt - 3 + ...
Modelo matemático:
^
Yt = α Yt + (1 - α) ^
Yt
+ 1
Ŷt+1: Nuevo valor suavizado o valor de pronóstico para el siguiente periodo (t +1).
α: Constante de suavización (0 < α < 1)
Yt: Valor real de la serie en el periodo t
Ŷt: Valor suavizado en el periodo t
Porcentaje de Error Medio Absoluto PEMA O MAPE: Mide la exactitud de los valores
ajustados de las series de tiempo. PEMA expresa la 67
exactitud como un porcentaje.
Señal de rastreo o señal de control
La señal de rastreo mide cuan bien se ajustan los pronósticos a los datos reales. En el caso que la señal de
rastreo se encuentra fuera de los límites [-2; 2], esto nos indicará un cambio en el valor de la constante de
suavización (α), y se desecha el pronóstico. (Render B.)
Donde:
n ∑|Yt ^ t|
-Y
CEF = ∑ ( Yt ^ t)
-Y DAM =
t=1
n
t=1
A través de
Grafica de serie
No estacionaria Estacionaria
Modelo: , 0<α<1
Descartar el No
¿SR ɛ [-2, 2]?
pronóstico 68
Si
PEMA)
Casos de aplicación
Caso: Empresa Aceros S.A.
La empresa Aceros S.A., se dedica a la distribución de aceros, la cual corta hojas de acero de bobinas
suministradas por grandes fabricantes. Un pronóstico exacto de utilización de bobinas podría ser muy útil
para controlar los inventarios de materia prima y eso le permitirá al gerente de la empresa tomar la decisión
de abastecimiento oportuno. Si el pronóstico para la cantidad de acero utilizado para el siguiente periodo es
mayor que 250 kg., entonces decidirá hacer nuevo pedido.
Las cantidades utilizadas en los últimos 16 meses de utilización de acero (en kg) se proporcionan a
continuación:
¿Qué decisión deberá tomar el gerente de la empresa distribuidora de acero? Use un nivel de significación
de 0.05
1. ¿Cuál es la problemática que deberá resolver? Marca con “x” la opción correcta.
a. ¿Existe relación lineal entre la cantidad de acero usado y el tiempo?
b. ¿EL gerente decidirá hacer nuevo pedido de acero para controlar el inventario de materia prima?
c. ¿Cuánto es el pronóstico de cantidad de acero utilizado para el siguiente periodo?
d. ¿La cantidad de acero utilizado para el siguiente periodo es mayor que 250 kg?
69
2. Defina la variable dependiente e independiente del problema.
Y:
X:
70
α = 0.3
t Mes Cantidad de acero (Yt) zƚ et |e t| |e t|/Yt
1 Octubre 206.807 206.8070 0.0000 0.0000 0.0000
2 Noviembre 131.075 206.8070 -75.7320 75.7320 0.5778
3 Diciembre 124.357 184.0874 -59.7304 59.7304 0.4803
4 Enero 149.954 166.1683 -16.2143 16.2143 0.1081
5 Febrero 169.799 161.3040 8.4950 8.4950 0.0500
6 Marzo 216.843 163.8525 52.9905 52.9905 0.2444
7 Abril 288.965 179.7496 109.2154 109.2154 0.3780
8 Mayo 219.018 212.5143 6.5037 6.5037 0.0297
9 Junio 65.885 214.4654 -148.5804 148.5804 2.2551
10 Julio 179.739 169.8913 9.8477 9.8477 0.0548
11 Agosto 251.969 172.8456 79.1234 79.1234 0.3140
12 Setiembre 205.806 196.5826 9.2234 9.2234 0.0448
13 Octubre 304.58 199.3496 105.2304 105.2304 0.3455
14 Noviembre 293.434 230.9187 62.5153 62.5153 0.2130
15 Diciembre 273.725 249.6733 24.0517 24.0517 0.0879
16 Enero 210.629 256.8888 -46.2598 46.2598 0.2196
17 Febrero Pronóstico 243.0109 120.6796 50.8571 0.3377
CEF DAM PEMA
Tabla de resumen
Constante de suavización Pronósticos PEMA
α = 0,3 243,010 33,77%
α = 0,5
α = 0,7
5. A partir del cálculo de la señal de rastreo, evaluar la idoneidad del pronóstico calculado con cada
constante de suavización (α = 0,3; α = 0,5 y α = 0,7).
71
7. La respuesta de la problemática del caso es:
72
Tema: Método de descomposición
Bibliografía:
Anderson David, Sweeney Dennis y Willians Thomas (2010). Estadística para la administración y
economía. 10ma Edición. Cengage Learning Ediores, México D.F. capítulo 18. Página 780
Render Barry y Slair Ralph. (2016). Métodos cuantitativos para los negocios. 12va Edición. Pearson
Prentice Hall. Capítulo 5.3 Pag 151
2. Si por lo general las ventas de una empresa son más altas en los meses de verano que en los meses de
invierno. Esta variación se denomina Componente:
3. Un índice estacional puede ser menor que uno, igual a uno o mayor que uno. Explique qué significaría
cada uno de estos valores.
73
Modelo multiplicativo
El modelo multiplicativo permite descomponer una serie de tiempo no estacionaria como el producto de
cuatro componentes:
Y=TxExCxI
Donde:
Y: Valor real de la variable de interés.
T: Tendencia. Componente que representa el crecimiento o disminución en la serie sobre un periodo a largo
plazo.
E: Estacionalidad. Es un patrón de cambio que se repite de manera regular en periodos de corto plazo.
C: Ciclo/Cíclico. Es la fluctuación en forma de onda alrededor de la tendencia, muestran variaciones a
periodos de mediano plazo.
I: Componente irregular. Son variaciones aleatorias que ocurren en una serie por acontecimientos
inesperados.
Hay series de tiempo no estacionarios que solo contienen el componente de tendencia o solo el
componente estacional o ambos componentes, el de tendencia y estacional a la vez. En este último caso, el
modelo multiplicativo a considerar es:
^
Yt = ^Tt x E
^
t
Donde: ^
Yt : Pronóstico de la variable de interés en el periodo t
^T :Componente estimado de tendencia sin estacionalidad para el periodo t
t
^
E t : Componente estimado de estacionalidad para el periodo t
^ ).
Paso 1: Estimar y analizar el componente estacional ( E
Calcular los índices estacionales ajustados ( E
^ t = IEA )
(
Serie sin el componente estacional Y sin estacionalidad =
Y
^
E
=
Y
IEA )
74
Casos de aplicación
Caso. Rapid Pinturas S.A.
La fábrica Rapid Pinturas S.A. se dedica a la producción de pinturas desde hace 5 años. Con la finalidad de
incrementar la producción, el gerente de la fábrica decidirá crear una nueva planta de producción solo si, el
número operaciones a realizar en el primer trimestre del 2021, es mayor a 200 operaciones.
Para ello cuenta con datos desde el cuarto trimestre del 2016 hasta el cuarto trimestre del 2020. Analice la
serie histórica del número de operaciones y prepare un informe que ayude a tomar la decisión al gerente.
Use un nivel de significación del 5%.
1. ¿Cuál es la problemática que se deberá resolver? Marque con una “X” la opción correcta.
a. ¿Cuánto es el número de operaciones cuando la empresa tiene 5 años de funcionamiento?
b. ¿La fábrica Rapid Pinturas S.A. solicitará crear una nueva planta de producción?
c. ¿Existe relación lineal entre el número de operaciones y producción de pinturas?
Y:
X:
3. A partir del caso se obtuvo la siguiente gráfica de la serie, ¿qué conclusiones podría mencionar?
75
^ ).
Paso 1: Estimar y analizar el componente estacional ( E
Calcular los índices estacionales ajustados ( E
^ t = IEA )
Método Índices estacionales
Índice estacional
Trimestre Interpretación
ajustado (IEA)
En el I trimestre, el número de operaciones está por debajo en un
I 0.98464 1.536% con respecto al promedio del número de operaciones del
año.
II 0.98291
IV 1.00194
(
Serie sin el componente estacional Ysin estacionalidad =
Y
^
=
Y
E IEA )
5. Dividir cada valor de la serie (Y), entre su respectivo índice estacional ajustado (IEA), es decir:
Y
Y sin estacionalidad =
IEA
76
Paso 3: Estimar el mejor modelo para la tendencia ( T
^ t).
A partir de la serie sin estacionalidad ( Y
^ sin estac ionalidad ), utilizando regresión simple.
6. Se estima el mejor modelo de la tendencia usando regresión simple. Asuma que se cumplen los
supuestos de todos los modelos de regresión.
Fuente GL SC Ajust. MC Ajust. Valor F Valor p Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 0.73052 0.730516 190.51 0.000 Regresión 1 0.77296 0.772964 769.36 0.000
T 1 0.73052 0.730516 190.51 0.000 Ln(T) 1 0.77296 0.772964 769.36 0.000
Error 15 0.05752 0.003835 Error 15 0.01507 0.001005
Total 16 0.78803
77
Total 16 0.78803
78
MISCELÁNEA
1) La compañía JUGOS S.A. envasa limonada congelada en lastas cuyo peso medio es de 16 onzas.
Diariamente se controla que el estándar se cumpla, para esto se elige 8 latas y se registra su peso. La
tabla siguiente muestra los resultados obtenidos durante un día de la última semana.
15,5 16,0 15,7 15,9
16,1 16,0 15,2 15,9
Asuma que el peso de las latas tiene distribución normal. Estime con 98% de confianza el peso promedio
de las latas. ¿No se cumplió el estándar? Explique.
2) El personal de dos clínicas privadas que tienen las mismas especialidades, ha estudiado los tiempos de
espera de pacientes (en minutos) que llagan solicitando servicio de emergencia. Los siguientes fueron
reunidos en un período de un mes.
Clínica 1 Clínica 2
' '
k Tiempos N° pacientes xi k Tiempos N° pacientes xi
1 0 - 4 50 2 1 0 - 4 2 2
2 4 - 8 85 6 2 4 - 8 5 6
3 8 - 12 105 10 3 8 - 12 25 10
4 12 - 16 38 14 4 12 - 16 236 14
5 16 - 20 10 18 5 16 - 20 25 18
6 20 - 24 8 22 6 20 - 24 5 22
7 24 - 28 4 26 7 24 - 28 2 26
Total 300 Total 300
¿Existen diferencias significativas entre los tiempos promedio de atención de ambas clínicas? Utilice un
nivel de significación de 5%.
3) Al pesar un reactivo en un laboratorio aparecen diferencias debidas a las balanzas usadas y a la habilidad
del personal que realizan las mediciones. Se elige tres balanzas y tres técnicos de laboratorio, los
resultados de las mediciones, en gramos, se muestran a continuación:
Personal
Balanza 1 2 3
1.81 2.04 2.03
1 1.91 1.97 1.98
1.91 1.99 1.94
1.94 2.08 2.03
2 1.90 2.14 1.98
1.99 2.08 2.00
1.83 1.98 1.91
3 1.92 2.05 2.06
1.96 2.03 2.04
a) ¿Puede asegurarse al nivel de significación α=0,05 que hay habilidad homogénea de todos los
técnicos del laboratorio?, ¿Existe interacción entre los factores? Use α=0,05 .
b) Analice los supuestos del modelo. Use α=0,05 .
c) Encuentre el(los) mejor(es) procedimiento(s)
4) Responda brevemente.
Marque verdadero (V) o falso (F) según corresponda:
a. Una ventaja de la multicolinealidad es que los coeficientes de regresión fluctúan de ( )
79
manera notoria de una muestra a otra.
b. Son supuestos del análisis de regresión múltiple: los errores tienen distribución ( )
normal, con media igual a cero y varianza constante.
c. Si el coeficiente de Durbin Watson tiende a dos, existen problemas de ( )
multicolinealidad.
d. La significancia estadística de las variables independientes se verifica con la prueba ( )
conjunta.
5) Un ingeniero industrial de una gran cadena de supermercados le gustaría utilizar el espacio en el estante
para predecir las ventas de alimento para mascotas. Se selecciona una muestra aleatoria de 12 tiendas
de igual tamaño, obteniéndose los siguientes resultados:
Tienda Espacio en el estante (en pies) Ventas semanales (cientos de dólares)
1 5 1.60
2 5 1.88
3 5 1.40
4 10 1.90
5 10 2.26
6 10 2.35
7 15 2.50
8 15 2.70
9 15 2.80
10 20 2.60
11 20 2.90
12 20 3.10
80