MA175 Cuaderno 201302
MA175 Cuaderno 201302
MA175 Cuaderno 201302
PRE GRADO
CÓDIGO : MA175
ÁREA : CIENCIAS
CICLO : 2013 - 02
INDICE
Diseño Factorial 94
Tipos de modelos 95
Diseño factorial de dos factores 96
Pruebas de hipótesis 97
Descomposición de la suma de cuadrados 98
6. Análisis de Regresión
Análisis de regresión lineal simple y de Correlación 103
El diagrama de dispersión 103
EL método de mínimos cuadrados 104
La línea recta estimada 105
Descomposición de la varianza total 106
Coeficiente de determinación y de no determinación 107
Error estándar de la estimación 107
Coeficiente de correlación 108
Inferencia sobre los coeficientes de regresión 108
Inferencia sobre el coeficiente de correlación 109
Pronósticos 109
Regresión no lineal 112
Regresión Múltiple
Elección de las variables de predicción 122
El modelo de regresión múltiple 122
Supuestos del análisis de regresión múltiple 122
Ecuación de regresión muestral 122
Coeficiente de regresión 123
El error estándar de la estimación 124
Coeficiente de determinación múltiple 124
Pruebas de hipótesis 125
Pruebas individuales y Prueba conjunta 125
Intervalo de confianza para los coeficientes poblacionales 125
Multicolinelidad 126
7. Series de Tiempo
Modelo Multiplicativo 131
Tendencia 131
Componente Cíclica 131
Componente estacional 132
Componente irregular 132
Estudio de una serie de tiempo 132
Modelo de tendencia 132
Descomposición de una serie de tiempo 135
Método de Atenuación Exponencial 141
MISCELÁNEA 148
SÍLABO 189
PLAN CALENDARIO 194
Media
Población
N
x i
i 1
Muestra
Media de datos no Media de datos Media de datos
agrupados agrupados agrupados por intervalos
n k k
xi xi fi x f ´
i i
x i 1
x i 1
x i 1
n n n
donde:
xi : dato (datos no agrupados) o marca de clase (datos agrupados)
fi : frecuencia de cada clase
N : tamaño de la población
n : tamaño de la muestra
Características de la media
Se puede calcular para datos medidos en escala de intervalo o razón.
El valor de la media es sensible a los valores extremos (mínimo y máximo), por lo que la
presencia de valores inusuales la distorsionan.
El cálculo de la media es sencillo y fácil de entender e interpretar.
Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la media de los n valores yi es:
y ax b
Mediana
Es el percentil 50.
Características de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razón.
El valor de la mediana depende del número de datos observados.
La mediana es un estadístico robusto, es decir, no se ve afectada por el valor de los extremos
(mínimo y máximo). Por eso se le utiliza cuando hay datos inusuales o el polígono de
frecuencias no es simétrico.
Moda
La moda de un conjunto de datos observados de una variable es el valor que se presenta con mayor
frecuencia.
Moda de datos no agrupados
Agrupe los datos de acuerdo a sus frecuencias, el dato con mayor frecuencia es la moda.
Moda de datos agrupados en intervalos
Identifique la clase con mayor frecuencia (clase modal).
Obtenga el valor de la moda mediante la expresión:
d1
Mo Lmo w
d1 d 2
donde:
Lmo : límite inferior de la clase modal
d1 : diferencia entre las frecuencias de las clases modal y precedente
d2 : diferencia entre las frecuencias de las clases modal y siguiente
w : amplitud de clase
Características de la moda
La moda se puede calcular para cualquier escala de medición.
El valor de la moda no se ve afectada por valores extremos.
La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o
más modas (multimodal). Algunas series de datos no tienen moda.
La moda es menos importante que la mediana o la media debido a su ambigüedad.
La ojiva de los ingresos mensuales, en nuevos soles, de los trabajadores de una empresa se muestra
en la siguiente gráfica:
Ojiva de ingresos
1.00
0.90
0.80
0.70
0.60
Hi
0.50
0.40
0.30
0.20
0.10
0.00
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000
Ingresos
Media ponderada
También llamada media pesada. Permite calcular el valor medio considerando la importancia o peso
de cada valor sobre el total.
n
xw i i donde:
xw i 1
n xi: Observación individual
w
i 1
i wi: eso asignado a cada observación
Varianza
La varianza es el promedio de los cuadrados de la diferencia de cada dato con la media. Las
unidades de la varianza son las unidades de los datos al cuadrado.
Población
N
( x )
i
2
2 i 1
Muestra
Varianza de datos no Varianza de datos Varianza de datos agrupados
agrupados agrupados por intervalos
n k k
(x x )
i 1
i
2
f (x x )
i 1
i i
2
f (x x )
i 1
i
´
i
2
s2 s2 s2
n 1 n 1 n 1
Propiedades de la varianza
La varianza es un número real no negativo
Es expresada en unidades cuadráticas a las unidades de los datos.
Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la varianza de los n valores yi es:
S y2 a 2 S x2
Depende del valor de todos los datos y es sensible a la variación de cada uno de ellos.
La varianza puede ser calculada también con datos agrupados en intervalos, inclusive de
amplitud diferente, siempre que se puedan determinar las marcas de clase.
Desviación estándar
Coeficiente de variación
Población CV 100%
s
Muestra CV 100%
x
Es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas o
iguales unidades, pero difieren a tal punto que una comparación directa de las respectivas
desviaciones estándar no es muy útil, por ejemplo, cuando las medias están muy distantes.
Ejemplo 1
Los siguientes datos representan resúmenes del número de mediciones de resistencia de cierto
artículo que realizaron dos grupos de técnicos.
Grupo 1 Grupo 2
n1 10 Me 4 n2 15 Me 4
x1 3 Moda 3 s 1,10 x2 5 Moda 5 s 1,66
Rango
Rango intercuartil
n
x i x
3
As i 1
n 1n 2 s3
x x
3
i
As i 1
ns 3
x
n
3
´
i x fi
As i 1
ns 3
Ejemplo 2
El salario, en cientos de soles, de los trabajadores una empresa se presenta a continuación:
15 13 19 14 17 16 24 21 18 22 32 24 26 27 29 23 24 15 26 18
s
15 21.252 ... 18 21.252 5.38
20 1
As
20
15 21.25 ... 18 21.25 0.23
3 3
20 120 2 5.383
Coeficiente de Curtosis.
Ejercicio
A continuación se muestra la distribución de una muestra de 48 clientes morosos según el tiempo en días que
tardan en acercarse a la entidad bancaria a realizar su pago luego de ser contactados.
Tiempo Total
1 5
2 20
3 9
4 9
5 5
Total general 48
Nota. Puede utilizar la tabla para resumir y ordenar sus cálculos
Curva de Lorenz
http://www.eumed.net/cursecon/7/Lorenz-Gini.htm
Cada punto de la curva se lee como porcentaje acumulativo de los hogares o las personas. La curva
parte del origen (0,0) y termina en el punto (100,100). Si el ingreso estuviera distribuido de manera
perfectamente equitativa, la curva coincidiría con la línea de 45 grados que pasa por el origen (por
ejemplo el 30% de los hogares o de la población percibe el 30% del ingreso). Si existiera
desigualdad perfecta, o sea, si un hogar o persona poseyera todo el ingreso, la curva coincidiría con
el eje horizontal hasta el punto (100,0) donde saltaría el punto (100,100). En general la curva se
encuentra en una situación intermedia entre estos dos extremos.
Coeficiente de Gini
http://es.wikipedia.org/wiki/Coeficiente_de_Gini
El Coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado
Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, pero puede utilizarse para
medir cualquier forma de distribución desigual. El coeficiente de Gini es un número entre 0 y 1, en
donde 0 se corresponde con la perfecta igualdad (todos tienen los mismos ingresos) y 1 se
corresponde con la perfecta desigualdad (una persona tiene todos los ingresos y los demás ninguno).
El índice de Gini es el coeficiente de Gini expresado en porcentaje, y es igual al coeficiente de Gini
multiplicado por 100.
Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los ingresos,
también puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere que nadie
disponga de una riqueza neta negativa.
El coeficiente de Gini se calcula a menudo con la Fórmula de Brown, que es más práctica:
donde:
G: Coeficiente de Gini
X: Proporción acumulada de la variable población
Y: Proporción acumulada de la variable ingresos
Ejemplo 3
A continuación se presenta un ejemplo del cálculo del coeficiente de Gini usando los valores de la
mortalidad infantil de 5 países del área andina en 1997. Los datos para este ejemplo se presentan en
la tabla 1a y la tabla 1b. La curva de Lorenz se muestra en la Figura 2.
Los pasos a seguir para el cálculo del coeficiente de Gini son los siguientes:
Ordenar las unidades geográficas por la variable de salud de la peor situación a la mejor
Transformar la tasa en variable continua (calcular el número de muertes infantiles para cada
unidad geográfica)
Calcular las proporciones para las dos variables
Calcular las proporciones acumuladas para las dos variables
Graficar la curva de Lorenz representando en el eje “X” la proporción acumulada de la
población y en el eje “Y” la proporción acumulada del número de eventos de la variable de
salud.
Calcular el coeficiente de Gini utilizando la fórmula de Brown.
Interpretación:
o Coeficiente de Gini : El valor de 0,19 no es un valor alto por estar más próximo del
cero que del uno. No obstante este coeficiente debe analizarse en términos
comparativos. Habría que comparar este valor con el de otras unidades geográficas
para el mismo indicador.
o Curva de Lorenz: Se lee en la curva que 30% de las muertes en menores de un año
ocurrieron en 20% de la población de nacidos vivos.
Tabla 1a: País, PNB per capita, tasa de mortalidad infantil (TMI), número de nacidos vivos y
número de muertes infantiles, proporción de la población de nacidos vivos y proporción de las
muertes
PNB per TMI Nacidos vivos Proporción Proporción
Muertes
País capita (por 1,000 NV) (1,000) nacidos muertes
Infantiles
1996 1997 1997 vivos infantiles
Bolivia 2 860 59 250 14 750 0.09 0.17
Perú 4 410 43 621 26 703 0.24 0.31
Ecuador 4 730 39 308 12 012 0.12 0.14
Colombia 6 720 24 889 21 336 0.34 0.24
Venezuela 8 130 22 568 12 496 0.22 0.14
Total 33 2 636 87 297 1 1
Proporción
acumulada
de muertes
en
menores
de 1 año
Tema de investigación para el alumno. En base a datos reales propios de su especialidad, debe
presentar:
1. Aplicación e interpretación de la Curva de Lorenz
2. Aplicación e interpretación del Coeficiente de Gini
Logro de la unidad
Explica adecuadamente el concepto de vector aleatorio y modela
distribuciones de probabilidad y de densidad conjunta.
f ( x, y) 1
y x
f(x,y) = P(X = x, Y = y)
Ejercicio 1
La función de probabilidad conjunta de X e Y es
x y
f x, y x 0, 1, 2, 3 y 0, 1, 2 con a es constante
a
Calcule a y P(X > Y)
Ejercicio 2
Un inversionista posee 5 paquetes de acciones tipo A, 2 paquetes tipo B y 6 de tipo C. Se sacan al azar una muestra de
tres paquetes. Sea X el número de paquetes tipo A e Y el número de paquetes tipo B. Determine la función de
probabilidad conjunta de X e Y.
f X ( x1 ) f ( x, y )
y
fY ( y2 ) f ( x, y)
x
Ejercicio 4
Un camión de entregas especiales viaja del punto A al punto B y de regreso por la misma ruta cada día. Hay tres
semáforos en esta ruta. Sea:
X el número de semáforos en rojo que el camión encuentra en su camino al punto B
Y el número de semáforos en rojo que el camión encuentra de regreso al punto A.
Un ingeniero de tránsito ha determinado la distribución de probabilidad conjunta de X e Y que se muestra en la tabla.
Y 0 1 2 3
X
0 0,01 0,03 0,05 0,02
1 0,02 0,06 0,12 0,09
2 0,07 0,10 0,15 0,08
3 0,01 0,06 0,08 k
Calcule las distribuciones marginales f X ( x1 ) y fY ( y2 )
f ( x, y )
f ( x1 | y2 )
f ( y2 )
f ( x, y )
f ( y2 | x1 )
f ( x1 )
Ejercicio 5
El siguiente cuadro muestra la distribución de probabilidades conjunta de las variables:
Determine e interprete el valor esperado del costo de mantenimiento cuando el vehículo tiene 4 años de antigüedad.
d b
P(a x b , c y d ) f ( x, y)dxdy a, b, c, d constantes
c a
Ejercicio 6
Sea la siguiente función de probabilidad conjunta de X e Y:
x y si 1 x 2 : 0 y 1
f ( x, y )
0 en otros casos
Ejercicio 7
Sea la siguiente función de probabilidad conjunta de X e Y:
x y si 1 x 2 : 0 y 1
f ( x, y)
0 en otros casos
Determine las funciones de probabilidad marginales de X e Y respectivamente. Demuestre que dichas funciones son
funciones de densidad.
¿Cuál es la probabilidad de que la persona que llegue primero, espere a la otra menos de un cuarto de hora?
Ejercicio 10
Un fabricante de refrigeradoras somete sus productos terminados a una inspección integral. Hay dos tipos de defectos:
raspadura en la porcelana y defectos mecánicos. Suponga que el tiempo que le toma en detectar un defecto de raspadura
en la porcelana se considera como una variable aleatoria X, mientras que el tiempo requerido para detectar un defecto
mecánico se considera una variable aleatoria Y. Ambas variables tienen como función de probabilidad conjunta:
Kxy ; 0 x y, 0 y 1
f ( x, y )
0 ; en otros casos
X e Y medidas en decenas de horas.
Determine la probabilidad de que el tiempo en detectar un defecto de raspadura sea menor a 4 horas, sabiendo que el
tiempo en detectar un defecto mecánico fue de seis horas.
Sea c una constante y sea g(x, y) una función de X e Y, Ecg ( x, y) cEg ( x, y)
Sean g1(x, y), g2(x, y), …, gk(x, y), k funciones de las variables aleatorias X e Y. Entonces, el valor esperado de la
suma de estas funciones es
Eg1 x, y g 2 x, y ... g k x, y Eg1 x, y Eg 2 x, y ... Eg k x, y
Ejercicio 11
Sea la siguiente densidad de X e Y
x y si 1 x 2 ; 0 y 1
f ( x, y )
0 c.c
Calcule E(X), E(Y), E(X+Y) y E(XY)
Ejercicio 12
Sea f(x, y) la función de densidad conjunta para X e Y
kxx y ; 0 x 2 x y x
f ( x, y)
0; otrocaso
Halle k, E(X) y E(Y)
Independencia de variables
Sean X e Y variables aleatorias discretas con distribución de probabilidad conjunta f (x, y) y distribuciones de
probabilidad marginales fX(x) y fY(y). Entonces, se dice que X e Y son independientes si y sólo si
f ( x, y) f X ( x). fY ( y) , para todos los pares de valores x e y
Sean X e Y variables aleatorias continuas con función de densidad conjunta f(x, y) y funciones de densidad
marginales fX(x) y fY(y). Entonces, se dice que X e Y son independientes si y sólo si
f ( x, y) f X ( x). fY ( y)
Si X e Y son variables aleatorias independientes, entonces
E( XY ) E( X ).E(Y )
Ejercicio 13
Sea la siguiente función de probabilidad conjunta de X e Y:
x y si 1 x 2 : 0 y 1
f ( x, y )
0 en otros casos
Ejercicio 14
Los precios de dos máquinas empaquetadoras de última generación Y 1 y Y2 son variables aleatorias independientes
expresadas en miles de dólares.
Si un ingeniero decide comprar una de estas máquinas, calcule la probabilidad de que la suma de ambos precios sea
como máximo $15000.
Covarianza
La covarianza de dos variables aleatorias X e Y, se define como:
Cov( x, y) E[( x x )( y y )] E ( xy ) x . y
Si dos variables aleatorias son independientes, entonces:
Cov(X, Y) = 0
Coeficiente de correlación
El coeficiente de correlación r para dos variables aleatorias X e Y es
Cov( x, y )
x y
donde x y y son las desviaciones estándares de X e Y, respectivamente.
Ejercicio 15
Un administrador de inventarios ha acumulado registros de las cantidades demandadas de los productos de su compañía
durante los últimos días. Considere que X representa en número de pedidos recibidos e Y representa el número de
unidades demandadas por cada pedido.
La distribución de probabilidades conjunta está dada por:
X
Y 1 2 3
4 0.16 0.15 0.28
6 0.04 0.15 0.22
Ejercicio 16
Sean X, Y, Z variables aleatorias independientes y con varianzas iguales. Definamos las variables aleatorias U = X + Y y
W = Y + Z.
Calcule el coeficiente de correlación entre U y W.
Ejercicios Propuestos
1. El concreto experimenta un marcado incremento característico en la “plastodeformación” cuando se
calienta por primera vez bajo carga. Se efectuó un experimento con el fin de investigar el
comportamiento ante esfuerzos térmicos transitorios del concreto. Dos variables que se cree afectan el
esfuerzo térmico son x, la rapidez de calentamiento (grados centígrados por minuto) e y, el nivel de carga
(porcentaje de la resistencia inicial). Se preparan y prueban especimenes de concreto bajo diversas
combinaciones de rapidez de calentamiento y carga, y se determina el esfuerzo térmico para cada uno.
Suponga que la distribución de probabilidad conjunta de X e Y para los especimenes que produjeron
resultados aceptables es la que se da en la tabla. Suponga que se escoge al azar un espécimen de concreto
de entre los que se probaron en el experimento y tuvieron un comportamiento ante esfuerzo térmico
aceptable.
x (°C/minuto)
0,1 0,2 0,3 0,4 0,5
0 0,17 0,11 0,07 0,05 0,05
y 10 0,10 0,06 0,05 0,02 0,01
20 0,09 0,04 0,03 0,01 0,00
30 0,08 0,04 0,02 0,00 0,00
4 x 2 si 0 y x ; 0 x 1
f ( x, y )
0 c.c.
6. Conforme a la información que proporciona la ojiva de los ingresos mensuales, en nuevos soles,
de los trabajadores de una empresa que se muestra en la gráfica, determine el tipo de
distribución según su Asimetría y su Curtosis. ¿Qué comentarios puede realizar a partir de estos
resultados?
Ojiva de ingresos
1.00
0.90
0.80
0.70
0.60
Hi
0.50
0.40
0.30
0.20
0.10
0.00
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000
Ingresos
a. Y2 a 4 X2 , siendo Y a 2 X b
b. X2 E X 2 X2
32 kx para 65 x 75
f x
0 en otro caso
a. Determine el valor de k
b. Calcule la probabilidad que X se encuentre entre 70 y 75
c. Determine el Valor Esperado de X
d. Determine la Desviación estándar de X
k x x y para 0 x 2 ; x y x
f x; y
0 en otro caso
k x 2 y para 0 x 2 ; 1 y 2
f x , y
0 en otro caso
a. Determine el valor de k
b. Determine la probabilidad que X – Y sea menor que 1
3 2
f y1 , y2 2 1
y y2
2
para 0 y1 1 ; 0 y2 1
0 en otro caso
15. Sea f x; y la función de densidad conjunta para X e Y. (Aplicación para su Trabajo)
k x3 1 y para 0 x 2 ; x y x
f x; y
0 en otro caso
a. Calcule el valor de k
b. Determine E(X)
c. Determine E(XY)
d. Calcule el valor de la covarianza de X e Y
Logro de la unidad
Modela satisfactoriamente casos sencillos que conducen a verificar hipótesis de
información relacionada con su especialidad, reconociendo la importancia de ésta
herramienta en la toma de decisiones.
(euroXpress)
Estimación puntual
Es la estimación del valor del parámetro por medio de un único valor obtenido mediante el cálculo o evaluación de
un estimador para una muestra específica.
El estimador se expresa mediante una fórmula.
1 n
Por ejemplo, la media de la muestra X X i es un posible estimador puntual de la media poblacional .
n i 1
Los parámetros con sus correspondientes estimadores puntuales son:
x
2 S2
p p
1 2 x1 x 2
12 / 22 S12 / S22
p1 p2 p1 p2
Si x es la media de una muestra aleatoria de tamaño n de una población con varianza 2, conocida, el intervalo de
confianza de (1 - )x100% para está dado por:
x z1 / 2 x z1 / 2
n n
donde z1 / 2 es el valor que deja un área de 1- /2 a la izquierda.
Si el muestreo es sin reemplazo los límites de confianza son:
N n N n
x z1 / 2 x z1 / 2
n N 1 n N 1
Varianza poblacional desconocida
Si x y S son la media y la desviación estándar de una muestra aleatoria de tamaño n, desconocida, el intervalo de
confianza de ( 1 )x100% para está dado por:
S S
x t / 2 x t / 2
n n
donde t / 2 es el valor t con (n -1) grados de libertad, que deja un área de / 2 a la derecha.
Si el muestreo es sin reemplazo los límites de confianza son:
S N n S N n
x t / 2 x t / 2
n N 1 n N 1
Ejemplo 1
Una máquina produce piezas metálicas de forma cilíndrica, éstas son almacenadas en lotes de 1000 unidades. Se toma
una muestra de las piezas de uno de los lotes y los diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03
centímetros. Encuentre un intervalo de confianza de 99% para el diámetro medio de las piezas de esta máquina.
Suponga que los diámetros siguen una distribución aproximadamente normal con desviación estándar igual a 0.03
centímetros.
Ejemplo 2
Los siguientes datos corresponden al contenido medio de plomo (miligramos por litro) de muestras de agua
recolectadas diariamente durante 70 días de un sistema de agua.
Resúmenes:
x 0.0513 s 0.0272
Asumiendo normalidad en la cantidad de plomo, calcule:
a) Construya un intervalo de confianza de 95% para el contenido promedio de plomo.
Si X se usa como estimación de , podemos tener (1-)x100% de confianza de que el error no exceda una
cantidad específica e cuando el tamaño de la muestra es:
2
z
n 1 / 2
e
Si el valor del tamaño de muestra es decimal se debe redondear al siguiente número entero.
Si el muestreo es sin reemplazo, el tamaño de muestra se calcula con la siguiente fórmula:
n0
n
n
1 0
N
2
z
donde n0 1 / 2 y N es el tamaño de la población.
e
Ejemplo 1
¿De qué tamaño se necesita una muestra si se desea tener 96% de confianza y un margen de error de 0.04? Asuma que
la desviación estándar poblacional es 0.5 y que el tamaño poblacional es 5000
Ejemplo 2
¿Cuántas piezas deberá elegirse de un lote de 2000 piezas metálicas para estimar el diámetro medio, con un nivel de
confianza de 95% y un error no mayor de 0,02?, si de una muestra aleatoria anterior se registró las siguientes
mediciones (en centímetros): 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03. Suponga que los diámetros siguen una
distribución aproximadamente normal.
Ejercicios Propuestos
1. Se afirma que la resistencia del alambre A tiene distribución normal con desviación estándar iguala 0,05
ohmios. Los datos siguientes corresponden a una muestra de dichos alambres:
0,140 0,138 0,143 0,142 0,144 0,137 0,135 0,140 0,136 0,142 0,138 0,140
2. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el
supervisor de una empresa electrónica tomó el tiempo que 25 técnicos tardaban en ejecutar esta tarea,
obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos.
a) Con una confianza del 99%, calcule el error máximo de estimación del tiempo promedio que lleva ensamblar
el componente de la computadora.
b) Construya e interprete un intervalo de confianza de 95% para el tiempo medio real que lleva ensamblar el
componente de la computadora.
3. Una agencia de control ambiental ha reunido datos de mediciones de DL50 (dosis letal, es decir, mata al
50% de los animales de prueba en un determinado intervalo de tiempo) para determinadas sustancias
químicas que se encuentran probablemente en ríos y lagos de agua dulce. Para determinada especie de
pescado, las mediciones de DL50 para el DDT en 12 experimentos dieron los siguientes resultados (en
partes por millón):
16 5 21 19 10 5 8 2 7 2 4 9
Suponiendo que estas determinaciones de DL50 tiene una distribución aproximadamente normal, estime la DL50
promedio real para el DDT con un coeficiente de confianza igual a 0.90.
2,212 1,839 3,152 2,608 2,456 2,747 2,913 1,265 2,346 2,333 1,909 2,333
Tamaño de muestra para estimar una proporción sin usar información muestral
El valor de p1 p se hace máximo cuando p 0.5 , por lo tanto la fórmula para calcular el tamaño de muestra
queda de la siguiente manera:
z12 / 2
n
4e 2
Ejemplo 1
Se lleva a cabo un estudio para estimar el porcentaje de ciudadanos de una ciudad que están a favor de tener
agua fluorada. ¿Qué tan grande se necesita que sea la muestra si se desea tener una confianza de 95% de que
la estimación esté dentro del 1% del porcentaje real?
Ejemplo 2
Las distorsiones que ocurren en la pantalla de una terminal para gráficos por computadora con frecuencia se deben a
pérdida de datos en el proceso de enlace de comunicación entre la terminal y la computadora. El fabricante de un nuevo
controlador de errores de comunicación de datos asegura que la probabilidad de perder datos cuando el controlador está
operando es de 0,10. A fin de probar esta aseveración, se vigila el enlace de comunicación entre una terminal de
gráficos y una computadora con el controlador de errores funcionando. De una muestra de 120 elementos se observó los
siguientes resultados:
Sí Sí Sí No No Sí Sí Sí Sí Sí
No No No Sí Sí No No No No No
No Sí Sí Sí Sí No No Sí Sí Sí
No Sí No Sí Sí No No No No Sí
No Sí No Sí Sí No No Sí Sí Sí
No No No No Sí No No No No No
No Sí No Sí Sí No No Sí Sí No
No Sí No No No No No No Sí No
No Sí No Sí Sí No No Sí Sí No
Sí Sí No No Sí No No No Sí No
Sí Sí No Sí Sí No No Sí Sí No
No No No No No No No Sí Sí Sí
Con 95% de confianza, ¿la información recolectada refuta la aseveración del fabricante? Asuma normalidad.
Ejercicio
Un fabricante de baterías para automóviles quiere estimar la desviación estándar de la duración de sus baterías. Si seis
de estas baterías tienen duraciones, en años, de
Construya un intervalo de confianza del 95% para 2. Suponga que la población de duraciones de las baterías se
distribuye de forma normal.
Ejercicios Propuestos
1. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el
supervisor de una empresa electrónica tomó el tiempo que 20 técnicos tardaban en ejecutar esta tarea,
obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos. Asuma que los
tiempos tienen distribución normal.
a) Construya e interprete un intervalo de confianza de 95% para el promedio real del tiempo que lleva
ensamblar el componente de la computadora.
b) Construya e interprete un intervalo de confianza de 95% para la varianza real del tiempo que lleva
ensamblar el componente de la computadora.
2. Se desea estimar con 95% de confianza y con un error de estimación no mayor de 3.5% qué porcentaje
de todos los conductores exceden el límite de velocidad de 90 kilómetros por hora en cierto tramo del
camino. ¿De qué tamaño se necesita tomar la muestra?
3. Si se desea estimar la proporción real de unidades defectuosas en un embarque muy grande de ladrillos
de adobe, y se quiere estar al menos 98% seguros de que el error es a lo más 0,04. Cuan grande deberá
ser la muestra si:
a) No se tiene idea de cual es la proporción real
b) Si la proporción real es 0,12
4. Una empresa desea estimar la proporción de trabajadores de la línea de producción que están a favor de
que se corrija el programa de aseguramiento de la calidad. La estimación debe quedar a menos de 0.05 de
la proporción verdadera de los que favorecen el programa, con un coeficiente de confianza del 98%.
¿Cuántos trabajadores se deben muestrear, si la empresa cuenta en total con 2,000 trabajadores?
Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de confianza del 96%, realice
aplicaciones de:
1. Estimación de una media poblacional
2. Estimación de una desviación estándar poblacional
3. Estimación de una proporción poblacional
4. Realice ajustes del máximo error muestral y determine el nuevo tamaño de muestra
Ejercicio 1
Se comparan el rendimiento de la gasolina de dos automóviles, A y B, probando cinco marcas de gasolina con el
automóvil A y cuatro con B. Cada uno de los vehículos gasta un tanque de cada marca, y el resultado, en millas por
galón, es el siguiente.
Calcule un intervalo de confianza de 99% para el cociente de las varianzas de los rendimientos de gasolina con los
automóviles A y B.
Ejercicio 2
Los siguientes datos corresponden a la resistencia a la compresión a los 28 días (en kg/cm2) reportados por dos
laboratorios.
Laboratorio 1 Laboratorio 2
311,4 344,7
312,2 337,6
312,3 346,1
310,2 353,3
297,4 335,0
290,3 332,2
291,6 333,0
295,8 335,1
Con 95% de confianza, ¿podemos asumir que existe homogeneidad de las varianzas de los resultados de resistencia a la
compresión? Asuma poblaciones normales.
x1 x2 z1 / 2 1 2 12 22
2 2
1 2 x1 x2 z1 / 2
n1 n2 n1 n2
donde z1 / 2 es el valor que deja un área de 1-/2 a la izquierda.
S p2 S p2 S p2 S p2
x1 x2 t / 2 1 2 x1 x2 t / 2
n1 n2 n1 n2
(n1 1) S12 (n2 1) S 22
donde S p
n1 n2 2
y t / 2 es el valor t con v = n1 +n2 -2 grados de libertad, que deja un área de / 2 a la derecha.
S12 S 22 S2 S2
x1 x2 t / 2 1 2 x1 x2 t / 2 1 2
n1 n2 n1 n2
2
S12 S 22
donde t / 2 es el valor t con v 1
n n 2
grados de libertad, que deja un área de / 2 a la derecha.
S12 2 S 22 2
n n
1 1
n1 1 n2 1
Ejercicio 1
Una compañía tiene dos departamentos que producen el mismo producto. Se tiene la sensación de que las
producciones por hora son diferentes en los dos departamentos. Al tomar una muestra aleatoria de horas de
producción en cada departamento se obtuvieron los siguientes datos:
Departamento 1 Departamento 2
Tamaño de la muestra 64 49
Media muestral 100 unidades 90 unidades
Varianza muestral 256 225
Obtenga e interprete un intervalo del 95% para la verdadera diferencia de la producción media. Asuma poblaciones
normales.
Ejercicio 2
Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotilla de
taxis. Se lleva a cabo un experimento utilizando 12 de cada marca. Los neumáticos se utilizaron hasta que se
gastan. Los resultados son:
Calcule un intervalo de confianza de confianza de 90% para la diferencia de rendimiento promedio de ambas marcas de
neumáticos. Suponga que la diferencia de kilómetros de rendimiento se distribuye de forma normal.
Ejercicio 3
Para comparar dos métodos de la enseñanza de inglés se aplicaron a 350 alumnos elegidos al azar el método tradicional
y a otra muestra de 450 alumnos el método nuevo resultando las calificaciones promedios respectivos de 18 y 17. Las
varianzas poblacionales respectivas son 16 y 9. Calcule un intervalo de confianza de 98% para la diferencia de las
medias.
sd sd
d t ( n 1, / 2) 1 2 d t ( n 1, / 2)
n n
Ejemplo.
Se llevó a cabo una encuesta entre los ingenieros de una planta, para determinar si pasan más
tiempo en tareas de supervisión que en gestión de procesos. Suponga que en una muestra de 12
encuestados se obtuvieron las horas semanales que dedican a cada una de estas tareas. Con un
nivel de confianza del 95%, ¿se puede llegar a la conclusión de que los ingenieros de esta planta
pasan más tiempo, en promedio, supervisando que en gestión de procesos?
Encuestado 1 2 3 4 5 6 7 8 9 10 11 12
Supervisando, horas/semana 11 19 8 5 16 8 4 12 10 14 15 18
Gestión Proceso, horas/semana 6 10 3 10 5 8 7 14 14 8 10 10
Número de tareas supervisadas 12 20 9 4 15 7 5 10 12 16 12 17
sd 5.4682
IC ( D) d t 2.9167 (2.201) 0.5576 D 6.3910
n 12
Con 95% de confianza, se encontrará la diferencia de los tiempos promedio empleado en tareas de
supervisión y en gestión de procesos esta comprendido entre - 0.5576 y 6.3910 horas/semana. No se puede
llegar a la colusión que los ingenieros de esta planta pasan más tiempo, en promedio, supervisando que en
gestión de procesos.
p1 1 p1 p 2 1 p2 p 1 p1 p 2 1 p 2
p1 p2 z1 / 2 p1 p 2 p1 p2 z1 / 2 1 donde z / 2
n1 n2 n1 n2
es el valor z que deja un área de /2 a la derecha.
Ejemplo 1
Muestras de dos tipos de materiales A y B, sujetos a cambios extremos de temperatura, produjeron los resultados que se
muestran en la siguiente tabla
A un 98% de nivel de confianza, ¿la proporción de desintegrados del material A es la misma que para el material B?
Ejemplo 2
Una encuesta de 1000 estudiantes concluye que 274 eligen al equipo profesional de béisbol A como su equipo favorito.
En 1991, se realizó la misma encuesta con 760 estudiantes. Concluyó que 240 de ellos también eligieron al equipo A
como su favorito. Calcule un intervalo de confianza del 95% para la diferencia entre la proporción de estudiantes que
favorecen al equipo A entre las dos encuestas. ¿Hay una diferencia significativa?
Prueba de hipótesis
Conceptos generales.
La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la
población. A partir de la información proporcionada por la muestra se verificará la
suposición sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis
nula (Ho).
El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa
simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la
hipótesis nula.
Tipos de errores
Información muestral
La realidad
Aceptar H0 Rechazar H0
Error Tipo I
Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I
viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.
P(Error I)
El valor es fijado por la persona que realiza la investigación (por lo general varía entre 1-
10%)
Error Tipo II
Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la
probabilidad de aceptar H0 cuando ésta es falsa.
P(Error II)
Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.
Potencia de prueba 1
Como el valor de depende del valor del parámetro la potencia de prueba tampoco pude ser
fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno
de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como
CURVA DE POTENCIA.
Procedimiento general
3. Pruebas estadísticas
4. Supuestos
a) Supuestos para: (, 2 , 1 2 , 21 / 22 ) b) Supuestos para: p, p1 p 2
Poblacion(es) normalmente Muestra(s) tomada(s) al azar.
distribuida(s). Muestra(s) grande(s)
Muestra(s) tomada(s) al azar.
5. Regiones críticas
H1: < o
H1: > o
Prueba Bilateral
H1: ≠ o
7. Resultados y conclusiones.
Solución.
Sea X: Duración de los focos (horas)
X~ N(800 , 402)
1. Planteo de hipótesis.
H 0 : 800
H 1 : 800
2. Nivel de significación.
0.05
3. Prueba estadística
_
x
Zc ~ N(0.1)
/ n
4. Supuestos.
Población normal.
Muestra tomada al azar.
Áreas Criterios
0.025 0.025 Si -1.96 Zc 1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95
-1.96 1.96
6. Cálculos
784 800
Zc 2.12
40 / 28
7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, el tiempo
promedio de duración de los focos es diferente de 800 horas.
Solución.
Sea X: Resistencia al rompimiento de cierto tipo de cable
X~ N( , 2402)
1. Planteo de hipótesis.
H 0 : 2 240 2
H 1 : 240
2 2
2. Nivel de significación.
0.05
3. Prueba estadística
(n 1)s 2
c
2
~ (2n 1)
2
4. Supuestos.
Población normal.
Muestra tomada al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
Si c2 14.07 No se rechaza H0
Si c2 14.07 Se rechaza H0
0.05
0.95
6. Cálculos
(8 1)3002
c2 10.938
2402
7. Conclusiones.
Con 5% de nivel de significación y la información muestral es insuficiente para afirmar
que la variación de la resistencia al rompimiento ha aumentado.
Solución.
Sea p: Proporción de artículos defectuosos.
1. Planteo de hipótesis.
H 0 : p 0.02
H 1 : p 0.02
2. Nivel de significación.
0.05
3. Prueba estadística
p̂ p
Zc ~ N(0.1)
p(1 p)
n
4. Supuestos.
Muestra tomada al azar.
Muestra grande.
Áreas Criterios
0.025 0.025 Si -1.96 Zc 1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95
-1.96 1.96
6. Cálculos
0.05 0.02
Zc 3.712
0.02(1 0.98)
300
7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, la proporción de
defectuosos es diferente de 2%.
Ejercicios Propuestos
2. Un químico ha desarrollado un material plástico que, según él, tiene una resistencia
media a la ruptura de 29 onzas por pulgada cuadrada. Para comprobar la bondad del
método se tomaron 20 láminas de plástico en mención hallándose que en cada una de
éstas la resistencia a la ruptura es, respectivamente,
30,1 22,5 28,9 29,8 31,4 27,0 24,3 22,8 22,3 33,4
32,7 27,5 27,7 28,9 30,4 31,2 26,4 29,4 29,1 23,5
5. Una empresa afirma que los lotes de cierto producto contienen 2% de artículos
defectuosos. Si se elige una muestra de 100 artículos de dicho lote, y resulta que 8
son defectuosos, ¿es válida la afirmación de la empresa? Utilice un nivel de
significancia de 0.05.
6. Un fabricante sostiene que el 95% de los equipos que envió a una fábrica está acorde
con las especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló
que 18 eran defectuosas. Pruebe la afirmación del fabricante al nivel de significancia
a) 0.01
b) 0.05
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 22 )
1. Planteo de hipótesis.
H 0 : 1 2
2 2
H 1 : 12 22
2. Nivel de significación.
0.05
3. Prueba estadística
S2 1
Fc 12 2 ~ f ( n1 1, n 2 1)
S 2 1
22
4. Supuestos.
Poblaciones normales.
Muestras tomadas al azar.
0.226 4.43
6. Cálculos 7. Conclusiones.
(0.0042) Con 5% de nivel de significación la
Fc 1.75
(0.0024) información muestral es insuficiente para
rechazar que las varianzas de las resistencias
son iguales.
Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en la resistencia
promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.
Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N( 1 , 12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N( 2 , 22 )
1. Planteo de hipótesis.
H 0 : 1 2
H 1 : 1 2
2. Nivel de significación.
0.05
3. Prueba estadística
_ _
4. Supuestos.
Poblaciones normales.
Muestras tomadas al azar.
6. Cálculos
(1.2367 0.9778) (0)
tc 9.561
1 1
0.0033
9 9
7. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que
las resistencias promedios de los dos tipos de embalaje son iguales.
Muestras Relacionadas
Ejemplo
Un gimnasio afirma que un nuevo programa de ejercicio reducirá la medida de la cintura de
una persona en promedio dos centímetros en un período de cinco días. Las medidas de
cinturas de seis hombres que participaron en este programa de ejercicios se registraron antes
y después del período de cinco días en la siguiente tabla:
Hombres
1 2 3 4 5 6
Medida de cintura antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida de cintura después 91,7 93,9 97,4 112,8 101,3 84,0
¿La afirmación del gimnasio es válida al nivel de significación de 5%? Suponga que la
distribución de las diferencias de medidas de cintura antes y después del programa es
aproximadamente normal.
Solución.
Sean X1: Medida de cintura antes (cm.)
X2: Medida de cintura después (cm.)
1. Planteo de hipótesis.
H 0 : D 2
H 1 : D 2
2. Nivel de significación.
0.05
3. Prueba estadística
dD
tc ~ t n 1
Sd / n
4. Supuestos.
Las diferencias tienen distribución normal.
Áreas Criterios
0.025 0.025 Si -2.57 tc 2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
0.95
-2.57 2.57
6. Cálculos
1.5 2
tc 0.794
1.543 / 6
7. Conclusiones.
Con 5% de nivel de significación la información recogida resulta insuficiente para
contradecir lo que afirma el gimnasio.
Use 0.05 para probar la hipótesis que no hay diferencia en las proporciones que
recuerdan los dos comerciales.
Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.
1. Planteo de hipótesis.
H 0 : p1 p 2
H1 : p1 p 2
2. Nivel de significación.
0.05
3. Prueba estadística
p̂1 p̂ 2
Zc ~ N(0.1)
1 1
p (1 p )
1
n n 2
4. Supuestos.
Muestra tomada al azar.
Muestra grande.
-1.96 1.96
6. Cálculos 7. Conclusiones.
63 60 Con 5% de nivel de significación y a
150 200 partir de la información muestral,
Zc 2.328
1 1 hay diferencias significativas en las
(0.351)(0.649) proporciones que recuerdan los dos
150 200
comerciales.
Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de significación del 4%,
realice aplicaciones de Pruebas de Hipótesis para comparar:
1. Dos varianzas poblacionales de muestras independientes
2. Dos medias poblacionales de muestras independientes
3. Dos proporciones poblacionales de muestras independientes
4. Dos medias poblacionales de muestras relacionadas
Ejercicios Propuestos
1. Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de
mar como en el aire. Los resultados en miles fueron los siguientes:
x s
Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141
Aire 734 571 520 792 773 276 411 500 672 583,222 175,121
¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del
colapso? Asuma poblaciones normales. Use 0.05 .
Prueba de muestras independientes
Prueba de
Lev ene para la
igualdad de
v arianzas Prueba T para la igualdad de medias
95% Interv alo de
conf ianza para la
Dif erenci Error típ. dif erencia
Sig. a de de la
F Sig. t gl (bilateral) medias dif erencia Inf erior Superior
Se han asumido
,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515
v arianzas iguales
No se han asumido
-,333 14,54 ,744 -33,222 99,880 -246,700 180,256
v arianzas iguales
2. Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un
experimento sobre los alambres muestra los siguientes resultados (en ohmios):
x s
Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033
Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122
Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de
significación.
4. Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica
la exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los
sujetos se colocaron en cámaras de espiración, una de las cuales contenía una alta
concentración de CO. Se realizaron varias mediciones de respiración para cada sujeto en cada
cámara. Los sujetos se colocaron en las cámaras de respiración en una secuencia aleatoria.
Los siguientes datos dan la frecuencia respiratoria en número de respiraciones por minuto.
Sujeto 1 2 3 4 5 6 7 8 9
Con CO 30 45 26 25 34 51 46 32 30
Sin CO 30 40 25 23 30 49 41 35 28
Calcule un intervalo de confianza del 95%, se puede afirmar que un ambiente con CO influye
sobre la capacidad de respiración. Asuma normalidad.
5. El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa.
Un estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de
616 adultos trabajan utilizando con regularidad una computadora personal, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo.
a. ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que
utilizan con regularidad equipo de cómputo en su trabajo excede 25% Pruebe con
0.03 .
b. Se sabe que el número promedio de trabajadores por empresa es 720. Estime un intervalo
de confianza del 95% para el total de trabajadores, de las 15 empresas, que utilizan con
regularidad equipo de cómputo en su trabajo.
c. Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra
se obtuvo que 105 adultos utilizan con regularidad una computadora persona, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo
¿Existe diferencias significativas entre los porcentajes de adultos, de las empresas del
sector industrial y de salud, que utilizan algún equipo de cómputo en su trabajo? Use
nivel de significación 0,05.
1. Prueba de independencia.
2. Prueba de homogeneidad de subpoblaciones.
3. Pruebas de bondad de ajuste a una distribución de probabilidades.
La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la
forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula
en cuestión.
Prueba de Independencia.
Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera
variable permite clasificar a cada observación en una de r categorías y que la segunda variable
permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas
variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce
como tabla de contingencia r×c.
Variable 2
Columna 1 Columna 2 ... Columna c
Fila 1
Fila 2
.
Variable 1
.
.
Fila r
Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos
variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón,
existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de
coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de
correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas).
Ejemplo.
Para determinar si existe una relación entre la calificación de un empleado en el programa de
capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los
archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia 3×3.
Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada
con la calificación en el programa de capacitación?
Solución
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre
paréntesis)
3. Estadístico de prueba
k
(oi ei ) 2
c2 ~ 2 con v (r 1)(c 1) gl
i 1 ei
0,01
20,01 = 13,277
Criterio:
Si c2 > 13,277 se rechaza H0
Si c2 ≤ 13,277 no se rechaza H0.
5. Cálculos previos
(23 16,80) 2 (28 25,05) 2 (63 45,98) 2
c2 ... 20,18
16,80 25,05 45,98
6. Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay
evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un
empleado en el trabajo depende de la calificación en el programa de entrenamiento.
2
k o i ei 0,5
2
7. Salida SPSS:
Tabla de conti ngencia Rendimiento * Aprovechamiento
Rec uent o
Aprov ec hamiento
Debajo del Sobre el
Promedio Promedio Promedio Tot al
Rendimiento Def iciente 23 60 29 112
Muy Bueno 9 49 63 121
Promedio 28 79 60 167
Tot al 60 188 152 400
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 20. 179a 4 .000
Razón de v erosimilitudes 20. 892 4 .000
N de casos v álidos 400
a. 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mí nima esperada es 16. 80.
Ejemplo.
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los
resultados que se muestran en la siguiente tabla:
Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es la misma para los tres tipos de materiales.
3. Estadístico de prueba
k
(oi ei ) 2
c2 ~ 2 con v (r 1)(c 1) gl
i 1 ei
0,05
0,05
2
= 5,991
Criterios:
Si c2 > 5,991 se rechaza H0
Si c2 ≤ 5,991 no se rechaza H0
5. Cálculos previos
6. Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son
insuficientes para rechazar que la probabilidad de desintegración es la misma para los tres
tipos de materiales.
Salida SPSS:
Tabla de conti ngencia Estado * Material
Rec uent o
Mat erial
A B C Tot al
Estado Des integra 41 27 22 90
Intact o 79 53 78 210
Tot al 120 80 100 300
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 4. 575a 2 .101
Razón de v erosimilitudes 4. 727 2 .094
N de casos v álidos 300
a. 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mí nima esperada es 24. 00.
La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de
una variable. Se compara una distribución de frecuencias observadas con los valores
correspondientes de una distribución esperada o teórica.
Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de
un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47,
76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el
número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse
como una variable aleatoria que tiene distribución de Poisson con 4,6 . Use 0,05.
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría
(definidas por k). Para calcular las frecuencias esperadas debe calcular primero las
probabilidades correspondientes a cada categoría, en este caso utilizando la función de
distribución de probabilidades Poisson definida por:
e x
Pr X x
x!
Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última
categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la
probabilidad correspondiente es:
Pr X 13 1 Pr X 13
Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:
Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con
frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por
lo tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como
se muestra a continuación.
3) Estadístico de prueba
k
(oi ei ) 2
2
c ~ 2 con v k 1 m
i 1 ei
0,05
20,05 = 16,919
Criterios:
Si c2 > 16,919 se rechaza H0
Si c2 ≤ 16,919 no se rechaza H0
5) Cálculos previos
(18 22,4) 2 (47 42,8) 2 (8 8,0) 2
c2 ... 6,7492
22,4 42,8 8,0
6) 4,6
proporciona un buen ajuste.
Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el
lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección
total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334
cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían
2 bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos
defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos.
Se desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja
sigue una distribución binomial, utilizando un nivel de significación de 0.05.
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En
este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la
función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:
10
Pr X x p x 1 p
10 x
x
Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta
razón la categoría 7 corresponde a la probabilidad
Pr X 6 Pr X 6 Pr X 7 Pr X 8 Pr X 9 Pr X 10
Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas
menores a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este
caso, es necesario agrupar las últimas 3 categorías.
3) Estadístico de prueba
k
(oi ei ) 2
c2 ~ 2 con v k 1 m
i 1 ei
0,05
20,05 = 7.815
Criterios:
Si c2 > 7,815 se rechaza H0
Si c2 ≤ 7,815 no se rechaza H0
5) Cálculos previos
(334 297,4) 2 (369 383,4) 2 (43 20,3) 2
c2 ... 37,24
297,4 383,4 20,3
Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a
una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del
experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y
sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de
significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás?
Si no hubiera diferencias en cuanto a la preferencia por las tres galletas, sería de esperar que un
tercio de las personas consultadas escojan como mejor a cada una de las 3. Este supuesto define
las frecuencias esperadas como se muestra en la siguiente tabla.
Dado que todas las frecuencias esperadas son mayores a 5 no es necesario agrupar categorías en
este caso.
Note que las hipótesis nula y alterna en este caso podrían bien escribirse de la siguiente
manera, donde pA, pB y pC son las respectivas proporciones o probabilidades de preferencia
por los tipos de galleta A, B y C.
H0: pA = pB = pC
H1: Al menos un p es diferente.
3) Estadístico de prueba
k
(oi ei ) 2
c2 ~ 2 con v k 1 m
i 1 ei
0,05
20,05 = 5.991
Criterios:
Si c2 > 5,991 se rechaza H0
Si c2 ≤ 5,991 no se rechaza H0-
5) Cálculos previos
(26 20) 2 (21 20) 2 (13 20) 2
c
2
4,3
20 20 20
6) No se rechaza la hipótesis nula; se concluye que los datos no aportan suficiente evidencia
con un nivel de significación de 0,05 para indicar que alguna de las galletas es preferida por
sobre las demás.
Otras pruebas
Ejemplo.
Pruebe que la siguiente muestra proviene de una distribución normal. Use 0,01.
12 15 16 18 19 14 10 15 16 14
A continuación se presentan los resultados obtenidos para esta prueba con SPSS:
X
N 10
Parámet ros normales a,b Media 14.90
Desv iación t ípica
2.644
En este ejemplo se obtiene D = 0,167 < 0,490, lo cual conduce a no rechazar la hipótesis nula.
Alternativamente se puede concluir observando el valor de probabilidad, que en este caso, por ser
mayor al nivel de significación (p = 0.944 > α = 0.01) conduce al no rechazo de H0. En
conclusión, se puede aceptar que la distribución normal brinda un buen ajuste a estos datos.
Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de significación del 5%,
realice las siguientes aplicaciones de la distribución Ji cuadrado:
1. Prueba de Independencia entre dos variables
2. Prueba de Homogeneidad de proporciones
3. Prueba de Bondad de Ajuste
Ejercicios Propuestos
¿Se puede concluir a partir de estos datos con un nivel de significación de 0,01 que la
ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?
¿Se puede concluir con un nivel de significación de 0,05 que las proporciones de viudas y
viudos son iguales con respecto a los diferentes períodos que un cónyuge sobrevive a la
muerte de su compañero?
Intervalos Frecuencia f i ( xi x ) 2
[ 9,0 ; 13,0[ 10 664,225
[13,0 ; 17,0[ 14 241,115
[17,0 ; 21,0[ 28 0,630
[21,0 ; 25,0[ 19 281,628
[25,0 ; 29,0 9 554,603
4. Las calificaciones de un curso de estadística para un semestre regular fueron las siguientes:
Calificación A B C D F
Frecuencia 14 18 32 20 16
Pruebe la hipótesis, al nivel de significación de 0,05, de que todas las calificaciones son
igualmente probables.
5. Un vendedor hace cuatro llamadas diarias, cada una de las cuales puede resultar en la
concreción de una venta. Una muestra de 210 días da como resultado las frecuencias de
ventas que se muestran a continuación.
Se desea verificar cuál es la distribución teórica para el número de ventas que se realiza
diariamente a un nivel de significación del 5%.
6. Se supone que una máquina mezcla cacahuates, avellanas, anacardos y pecanas bajo las
proporciones 5:2:2:1. Se encuentra que una lata que contiene 500 de estas nueces mezcladas,
tiene 269 cacahuates, 112 avellanas, 74 anacardos y 45 pecanas. Al nivel de significación de
0,05, pruebe la hipótesis de que la máquina mezcla efectivamente las nueces a una razón de
5:2:2:1.
7. Una compañía de seguros basa sus primas de seguros para cosechas en el número de
incendios fuera de control en áreas de matorrales por año. ¿A que distribución de
probabilidad podría ajustarse la variable número de incendios por año? A continuación se
presenta información sobre el número de incendios en los últimos 60 años:
Número de Incendios 0 1 2 3 4
Frecuencia 8 10 16 14 12
¿Aporta esta información suficiente evidencia para rechazar su supuesto inicial? Use un
nivel de significación del 5%.
Donde.
ni k k ni k ni
y i. y ij , y . j y ij , y .. y i. y . j y ij
j1 i 1 i 1 j1 i 1 j1
Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales,
haremos varias suposiciones. Con más precisión, supondremos estar trabajando con poblaciones
normales que tienen varianzas iguales.
Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados,
se acostumbra reemplazar i por i , donde es la media de las i y i es el efecto del
k
i-ésimo tratamiento; de ahí que
i 1
i 0 . Con estos nuevos parámetros, podemos escribir la
donde:
yij : La j- ésima observación en la i-ésima muestra
: Parámetro de la media poblacional.
i : Efecto del i-ésimo tratamiento.
ij : Error aleatorio asociado a la observación yij, donde ij ~ N(0, 2 )
n. – 1 k n
y ..2
k
SST y ij2
Total
donde n ni i 1 j1 n
i 1
Ejemplo.
Las cifras siguientes son el número de errores cometidos, en cinco días consecutivos de trabajo,
por cuatro técnicos de un laboratorio fotográfico:
Pruebe con un nivel de significancia 0,05 si las diferencias entre las cuatro muestras
pueden atribuirse al azar.
Solución.
Los totales para las cuatro muestras son, respectivamente, 49, 59, 55, y 50, el gran total es 213,
y los cálculos con que se obtienen las sumas de cuadrados necesarias son los siguientes:
2
4 5
y ij
i 1 j 1 (213) 2268,45
2
n. (5)(4)
SST (6) (14) 2 (10) 2 . . . (11) 2 2268,45 114,55
2
Puesto que el valor obtenido para Fc es menor que 3,24, que corresponde al valor F 0,05 con 3 y
16 grados de libertad, la hipótesis nula no puede ser rechazada con un nivel de significación de
0,05; concluimos entonces que no se puede rechazar la hipótesis de que los técnicos están
logrando resultados iguales.
La salida del SPSS para el análisis de varianza para una vía se muestra a continuación:
15.00
12.50
Errores
10.00
7.50
I II III IV
Tecnico
Residuo
para Errores
N 20
Parámet ros normales a,b Media .0000
Desv iación t ípica
2.31244
a
Contraste de Levene sobre la i gualdad de las varianzas error
La prueba de rango múltiple de Duncan compara el rango entre cualquier par de medias con un
rango apropiadode mínima significación, Rp, dado por
R p SX .rp
CME
Sx
n
El valor de rp depende de del nivel deseado de significación y del número de grados de libertad
correspondiente al CME y puede obtenerse de las tablas N°8.1 y N°8.2 para 0,05 y
0,01 respectivamente, para p = 2, 3, . . ., 10 y para grados de libertad del error de 1 a 120.
Ejemplo
Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño de
discos por cuatro laboratorios diferentes.
Determine qué medias difieren de las otras. Use un nivel de significación 0.05 .
Solución:
Primero se ordena las cuatro medias en orden creciente de magnitud:
Laboratorio B C D A
Media 0,227 0,230 0,250 0,272
0.0017
SX 0.0119
12
Se obtiene (por interpolación lineal) en la tabla 8.1 los siguientes valores de rp para 0.05 y
44 grados de libertad:
p 2 3 4
rp 2,85 3,00 3,09
p 2 3 4
Rp 0,034 0,036 0,037
Entre A y D: 0,272 – 0,250 = 0,022 < 0,034, entonces no existen diferencias significativas
entre las dos medias (A y D)
Estos resultados puden resumirse un diagrama de líneas como el que se muestra a continuación.
La idea es que los tratamientos unidos por una línea no presentan diferencias significativas.
B C D A
0,227 0,230 0,250 0,272
Pesos de recubrimiento
Sum of Mean
Squares df Square F Sig.
Between Groups ,01556 3 ,00519 3.133 ,0349
Within Groups ,07283 44 ,00166
Total ,08839 47
Pesos de recubrimiento
a
Duncan
Subset f or alpha = . 05
Laboratorio N 1 2
B 12 .2267
C 12 .2300
D 12 .2500 .2500
A 12 .2717
Sig. .192 .199
Means f or groups in homogeneous subset s are display ed.
a. Uses Harmonic Mean Sample Size = 12.000.
2CME
Para la prueba de diferencia mínima significativa utilice: Sx
n
DMS t1 / 2 S x
Luego calcule las diferencias entre cada par de tratamientos o muestras. Si las diferencias
observadas entre un par de tratamientos son mayores que el valor DMS, entonces se concluye
que hay diferencias significativas entre dicho par de tratamientos.
Los bloques son completos porque todos los tratamientos aparecen en igual número, usualmente
una vez, dentro de cada bloque, y son al azar por que los tratamientos son asignados
aleatoriamente dentro de cada bloque.
Tratamientos
Totales
Bloques T1 T2 T3 ... Ti ... Ta
B1 y11 y21 y31 ... yi1 ... ya1 y .1
y12 y22 y32 ... yi2 ... ya2 y. 2
B2
y13 y23 y33 ... yi3 ... y. 3
B3 ya3
. . . . ... . ... . .
. . . . ... . ... . .
. . . . ... . ... . .
Bj Y1j y2j y3j ... yij ... yaj y. j
. . . . ... . ... .
Bb y1b y2b y3b ... yib ... Yab y. b
donde:
yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.
: Es la gran media
i : Es el efecto del i-ésimo tratamiento.
j : Es el efecto del j-ésimo bloque.
ij : Es el error aleatorio correspondiente a la observación yij.
También
a b
i 0
i 1
y j1
j 0
Suma de cuadrados
a b
y ..2
SST y
i 1 j 1
2
ij
ab
a
y i2. y ..2
SS (Tr)
i 1 b
ab
b y .2j y ..2
SSB j1 a
ab
SSE SST SS (Tr) SSB
Fuente de Grados de
Suma de cuadrados Cuadrado medio F
variación libertad
y i2. y2 SS(Tr) CM(Tr)
CM(Tr) FT
a
Tratamientos a-1 SS(Tr) .. a 1 CME
i 1 b ab
b y.2j y..2 SSB
Bloques b-1 SSB CMB
j1 a ab b 1
SSE
Error (a - 1)(b - 1) SSE SST SS(Tr) SSB CME
(a 1)(b 1)
a b
y..2
Total ab - 1 SST y ij2
i 1 j1 ab
Observe que en la tabla se puede obviar el valor de F para probar el efecto de los bloques, la
razón es que el experimento se diseñó para probar un solo factor. La formación de bloques se
hizo para eliminar tal variación del término CME. Pero, el estudio no se diseñó para detectar las
diferencias individuales para los niveles del bloque.
Ejemplo
Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas
tóxicas por cada una de las tres agencias siguientes: la EPA, la compañía propietaria de los
lugares de depósito y un asesor independiente dedicados a asuntos de ingeniería. Cada muestra
fue analizada buscando detectar la presencia de cierto contaminante por todos los métodos de
laboratorio que la agencia que recolectó la muestra suele emplear. Se consideraron los
siguientes resultados:
¿Existe alguna razón para creer que las agencias no son, en sus mediciones, consistentes entre
sí? Utilice un nivel de significación de 0,05.
Solución
1. Las hipótesis nula y alterna son.
H 0 : 1 2 3
H 1 : No todas las son iguales
3. Criterio:
Para tratamientos, se rechaza la hipótesis nula si F > 4,46, el valor de F0,95 para 2 y 8 grados
de libertad.
4. Cálculos.
a b
Sustituyendo a = 3, b. = 5 y1. = 81,6, y2. = 65,6, y3. = 70,9 y.. = 218,1, y y
i 1 j 1
2
ij 4336,97
2
3 5
y ij
i 1 j 1 (218,1) 3171,17
2
a.b (15)
SST 4336,97 3171,17 1165,80
(81,6) 2 (65,5) 2 (70,9) 2
SS (Tr ) 3171,17 26,57
5 5 5
(63,9) 2 (11,1) 2
SSB ... 3171,17 1117,26
3 3
SSE SCT SC (Tr ) SCB 21,96
5. Decisión.
Para tratamientos, como F > 4,46, concluimos que existen diferencias significativas entre las
agencias.
Pruebas de los efectos i nter-sujetos
Diseños Factoriales.
Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada de un proceso o sistema, de manera que sea posible
observar e identificar las causas de los cambios en la respuesta de salida.
Principios básicos.
Datos inconsistentes.
Por cambios debidos al tiempo, envejecimiento, reparaciones, etc. Esto provoca que los datos
recogidos no sean consistentes lo que obviamente traerá confusiones en la interpretación.
Confusión
Variable1
Variable3
Variable2
Relación no causal
Variable1 Variable2
Variable3
Experimentos factoriales.
Usualmente en los experimentos se desea estudiar el efecto de dos o más factores.
Por diseño factorial se entiende que en cada ensayo o réplica completa del experimento se
investigan todas las combinaciones posibles de los niveles de los factores.
Por ejemplo.
Factor A: “a” niveles
Factor B: “b” niveles
Tipos de modelos
En la práctica se suele trabajar con diseños de dos factores, A y B, donde cada factor tiene dos o
más niveles.
Hay “a” niveles del factor A y “b” niveles del factor B y cada una de las “n” réplicas del
experimento contiene ab combinaciones de los tratamientos
Ejemplo
Un ingeniero está diseñando una batería que se usará en un dispositivo el cuál se someterá a
variaciones de temperatura extrema. El único parámetro de diseño que puede seleccionar en este
punto es el material de la placa o ánodo de la batería y tiene tres elecciones posibles. Cuando el
dispositivo esté fabricado y se envíe al campo, el ingeniero no tendrá control sobre las
temperaturas extremas en las que operará el dispositivo, pero sabe por experiencia que la
temperatura probablemente afectará la vida efectiva de la batería.
El ingeniero decide probar los tres materiales de la placa con tres niveles de temperatura, 15, 70
y 125°F, ya que estos niveles de temperatura son consistentes con el medio ambiente donde se
usará finalmente el producto. Se prueban cuatro baterías con cada combinación del material de
la placa y la temperatura, y las 36 pruebas se corren de manera aleatoria. La tabla siguiente
muestra los resultados obtenidos.
En este modelo es el efecto promedio global, i es el efecto del nivel i-ésimo del factor A
(factor filas), j es el efecto del nivel j-ésimo del factor B (factor columna), ( )ij es el efecto
de la interacción entre i y j , y ijk es un componente del error aleatorio. Se supone que los
errores tienen distribución normal con media cero y varianza constante.
i 1
i 0
j1
j 0 () ()
i 1
ij
j1
ij 0
Pruebas de hipótesis
Asumiendo que ambos factores son fijos las hipótesis a probar están dadas por:
H 0 : ()ij 0 i, j
H1 : al menos un ()ij 0
H 0 : 1 2 ... a 0
H1 : al menos un i 0
H 0 : 1 2 ... b 0
H1 : al menos un j 0
yi.. y. j .
yi.. y. j .
bn an
n a b n
yij . yijk y... yijk
k 1 i 1 j 1 k 1
yij . y...
yij . y...
n abn
Sumas de cuadrados
a b n a b n 2
( y ijk y ... ) 2 ( y i.. y ... ) ( y . j. y ... ( y ij. y i.. y . j. y) ( y ijk y ij. )
i 1 j1 k i 1 j1 k
a b
bn ( y i .. y ... ) an ( y . j. y ... ) 2
2
i 1 j1
a b
n ( y ij . y i .. y . j. y ... ) 2
i 1 j1
a b n
( y ijk y ij. ) 2
i 1 j1 k
Suma de Suma de
cuadrados cuadrados
debida a las debida a la
filas interacción A y
B
La suma de cuadrados
SST SSA SSB SSAB SSE
anterior puede
simbolizarse de la
siguiente forma
Suma de
Suma de Suma de cuadrados
cuadrados cuadrados debida debida al error
total a las columnas
1 a b 2 y...2
SS subtotales yij. abn
n i 1 j1
SSAB SS subtotales SSA SSB
175,0
150,0
125,0
100,0 M1
75,0 M2
50,0 M3
25,0
0,0
15 °F 70 °F 125 °F
Tem peratura
F.V gl SS MS Fc valor p
Como la interacción es significativa, las comparaciones entre las medias de uno de los factores
(por ej. A) pueden ser empañadas por la interacción AB.
Variable dependiente: vi da
Suma de
Fuent e cuadrados tipo I gl Media cuadrática F Significación
Modelo corregido 59416,222 a 8 7427,028 11,000 ,0000
Intersección 400900,028 1 400900,028 593,739 ,0000
temperat 39118,722 2 19559,361 28,968 ,0000
materi al 10683,722 2 5341,861 7,911 ,0020
temperat *
9613,778 4 2403,444 3,560 ,0186
materi al
Error 18230,750 27 675,213
Total 478547,000 36
Total corregi da 77646,972 35
a. R cuadrado = ,765 (R cuadrado corregida = ,696)
material
160
Mat.1
Prueba de Kolmogorov-Smirnov para una muestra
Mat.2
Mat.3
Resi duo 140
para vida
Comparaciones múltiples
Variable dependiente: vi da
1. temperat * materi al
Variable dependiente: vi da
Intervalo de confianza al 95%.
temperat material Media Error típ. Lí mite inferior Lí mite superior
15°F Mat.1 134,750 12,992 108,092 161,408
Mat.2 155,750 12,992 129,092 182,408
Mat.3 144,000 12,992 117,342 170,658
70°F Mat.1 57,250 12,992 30,592 83,908
Mat.2 119,750 12,992 93,092 146,408
Mat.3 145,750 12,992 119,092 172,408
125°F Mat.1 57,500 12,992 30,842 84,158
Mat.2 49,500 12,992 22,842 76,158
Mat.3 85,500 12,992 58,842 112,158
Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de significación del 5%,
realice aplicaciones de los siguientes Diseños Experimentales:
1. Diseño Completamente al Azar
2. Diseño de Boques Completamente Aleatorio
3. Diseño de dos Factores
El análisis de regresión lineal simple da como resultado la ecuación de una línea recta que
describe la relación entre dos variables, usualmente denotadas por X y Y. La ecuación puede
usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen
conocidos los valores de la otra.
El análisis de correlación da como resultado un número que resume el grado de relación lineal
existente entre dos variables. Es útil en un trabajo exploratorio cuando el investigador desea
encontrar el grado o la fuerza de esa relación.
Ejemplos
¿Cuál será el gasto en que incurrirá una familia cuyo ingreso familiar mensual es de 4000
soles?
¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?
Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales
variables.
El diagrama de dispersión
El primer paso en el análisis de regresión es construir una gráfica de los datos muestrales en
un plano bidimensional. Esta gráfica se denomina diagrama de dispersión e indica el tipo de
tendencia de y con respecto a x, la cual puede ser lineal o no lineal. En el primer caso se
estimará una recta y en el segundo caso una curva.
Ejemplo
Se realiza un estudio sobre la cantidad de azúcar transformada en cierto proceso a varias
temperaturas. Los datos se recolectan y se registran como sigue:
Gráfico de dispersión
10.8
y
10.4
10
9.6
9.2
8.8
8.4
8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
x
La suma de las desviaciones verticales de los puntos con relación a la recta es cero.
La suma de los cuadrados de dichas desviaciones es mínima (es decir, ninguna otra recta
daría una menor suma de cuadrados de tales desviaciones).
Considere el siguiente modelo para describir la relación entre los valores de las variables X y
Y
y i 0 1 xi i
y sea yˆ ˆ ˆ x la recta de mejor ajuste para estos datos. Simbólicamente el valor que se
0 1
minimiza es
n
(y
i 1
i yˆ i ) 2
Los valores de 0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:
n
n
yi
i 1
n 0 1 xi
i 1
n
n
n 2
i 1
x y
i i 0 i
x
i 1
1 xi
i 1
n n n
n xi y i xi y i
ˆ1 i 1 i 1 i 1
2
y ˆ0 y ˆ1 x
n 2 n
n xi xi
i 1 i 1
La pendiente de la recta y
La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)
Ejemplo
Estime la ecuación de la recta del ejemplo anterior.
Nº x y xy x2 y2
1 1,0 8,1 8,10 1,00 65,61
2 1,1 7,8 8,58 1,21 60,84
3 1,2 8,5 10,20 1,44 72,25
4 1,3 8,2 10,66 1,69 67,24
5 1,4 9,5 13,30 1,96 90,25
6 1,5 8,9 13,35 2,25 79,21
7 1,6 9,0 14,40 2,56 81,00
8 1,7 10,2 17,34 2,89 104,04
9 1,8 9,3 16,74 3,24 86,49
10 1,9 9,9 18,81 3,61 98,01
11 2,0 10,5 21,00 4,00 110,25
Suma 16,5 99,9 152,48 25,85 915,19
Y yˆ i ˆ0 ˆ1 xi
(xi, yi)
yi
yi yˆ i
yi y
yˆ i y
y
x xi X
( yi y ) ( yˆ i y ) ( yi yˆ i )
( yi y ) 2 ( yˆ i y ) ( yi yˆ i )
n n
2
i 1 i 1
n n n
( yˆ i y ) 2 ( yi yˆ i ) 2 2 ( yˆ i y )( y i yˆ )
i 1 i 1 i 1
Operando algebraicamente se obtiene la siguiente relación:
n n n
(y
i 1
i y ) 2 ( yˆ i y ) 2 ( y i yˆ i ) 2
i 1 i 1
SCT SCR SCE
Sumas de Cuadrados
2
n
n n
y i
SCT ( yi y ) yi
2 2 i 1
i 1 i 1 n
n
2
xi
SCR ( yˆ i y ) ˆ 1 ( xi x ) ˆ 1 xi i 1
n n n
2 2 2 2 2
i 1 i 1 i 1 n
n
SCE ( yi yˆ i ) 2 SCT SCR
i 1
Supuestos de la Regresión
Los errores o residuos tienen distribución normal. Para realizar la verificación
de este supuesto hacemos uso de la prueba de bondad de ajuste de Kolmogorov –
Smirnov.
Los errores o residuos tienen media igual a cero y varianza igual a 2. Se
suele solicitar la gráfica del histograma de frecuencias de los residuos en el que se
muestra el valor de la media de los residuos y su varianza.
SCE SCE
Se CME
n p n2
Coeficiente de correlación
El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y. El coeficiente de correlación poblacional se denota por varía dentro del
intervalo de -1 y 1. Si 0 entonces no existe correlación o asociación lineal entre las
variables, conforme mas cercano a 1 ó a -1 sea, mayor será la asociación, y cuando es
exactamente 1 ó -1 la asociación es perfecta.
1 n
cov( X , Y ) ( xi x )( yi y )
n i 1
r
S X SY 1 n 1 n
n i 1
( xi x ) 2
.
n i 1
( yi y ) 2
n n n
n xi yi xi yi
i 1 i 1 i 1
n
2 n
n 2 n
2 2
n xi xi .n yi yi
i 1 i 1 i 1 i 1
ˆ0 t / 2 s
x 2
i
t
ˆ0 0*
~ t ( n2)
nS xx
s
xi2
nS xx
Inferencia para β1
s ˆ1 1*
ˆ1 t / 2 t ~ t ( n2)
S xx s
S xx
Pronósticos
Los pronósticos para la respuesta media y para un valor individual se calculan
utilizando las siguientes fórmulas:
Valor medio
1 ( x0 x ) 2
yˆ 0 t ( n 2, / 2) Se
n S xx
Valor individual
1 ( x0 x ) 2
yˆ 0 t ( n 2, / 2) Se 1
n S xx
x 2
x x x
2 i 2
Donde: S xx i i
n
Otra forma:
2
SCR S
S xx 2 e
ˆ1 S b1
Si bien es cierto, ambas relaciones ofrecen el mismo resultado, su cálculo es muy sensible a
la cantidad de decimales que se utilizan para su cálculo.
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 6.288 1 6.288 34.756 .000 a
Resi dual 1.628 9 .181
Total 7.916 10
a. Variables predictoras: (Constant e), TEMP ER_X
b. Variable dependiente: AZUCAR_Y
Coef icientesa
2,5 0,8
Prob acum esperada
Frecuencia
2,0
0,6
1,5
0,4
1,0
0,2
0,5
Mean = 2,54E-15
Std. Dev. = 0,949
0,0 N = 11 0,0
-2 -1 0 1 2 0,0 0,2 0,4 0,6 0,8 1,0
Regresión Residuo tipificado Prob acum observada
Gráfico de dispersión
Variable dependiente: azucar_y
2
-1
-2 -1 0 1 2
Pronósticos
Regresión no lineal
Función exponencial
Si un conjunto de datos apareados consistentes en n puntos (xi,yi) se “endereza” cuando se
gráfica lnyi versus xi, esto indica que la media de la distribución de y está dada por β0 e β1 x . Si se
toma logaritmos a la ecuación y 0 e 1 x esta se convierte en:
ln y ln 0 1 x
y * 0* 1 x .................. (1)
la cual puede interpretarse como una ecuación de regresión lineal simple, y por lo tanto ser
tratada bajo los mismos lineamientos presentados en la sección anterior.
Ejemplo
Los siguientes datos se refieren al porcentaje de neumáticos radiales de alto rendimiento hechos
por cierto fabricante que son usables (y) después de haber sido empleados el número de millas
(x):
Coeficientesa
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 4.600 .059 78.369 .000
X: Millas conducidas
-.04278 .003 -.989 -15.163 .000
(en miles)
a. Variable dependient e: LnY
de dónde se tiene que ˆ0 e 4.6 99.484 aproximadamente. Por lo tanto la ecuación estimada
para el modelo exponencial será:
yˆ 99,484 e 0,04278 x
Debajo se muestra el diagrama de dispersión que compara tanto el modelo lineal como el
modelo exponencial para el mismo conjunto de datos, así como los resultados de la estimación
con SPSS.
Diagrama de dispersión
% usable, y
100
80
60
40
Observada
20
Linea l
0 Exponencial
0 10 20 30 40 50
Millas conducidas, x
Lineal
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 5675.152 1 5675.152 69.795 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 406.557 5 81.311
.966 .933 .920 9.017 Total 6081.709 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-2.040 .244 -.966 -8.354 .000
(en miles)
(Constante) 91.660 5.080 18.042 .000
Cuadrático
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 5997.661 2 2998.830 142.721 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 84.048 4 21.012
.993 .986 .979 4.584 Total 6081.709 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-3.924 .497 -1.858 -7.900 .001
(en miles)
X: Millas conducidas
.048 .012 .922 3.918 .017
(en miles) ** 2
(Constante) 99.897 3.330 29.998 .000
Potencia
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 2.142 1 2.142 26.270 .004
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual .408 5 .082
.917 .840 .808 .286 Total 2.550 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(X: Millas conducidas
-.428 .084 -.917 -5.125 .004
(en miles))
(Constante) 126.278 25.995 4.858 .005
La v ariable dependient e es ln(Y: Porcentaje usable).
Exponencial
ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 2.496 1 2.496 229.924 .000
R R cuadrado corregida la estimación Residual .054 5 .011
.989 .979 .974 .104 Total 2.550 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-.043 .003 -.989 -15.163 .000
(en miles)
(Constante) 99.496 5.840 17.036 .000
La v ariable dependient e es ln(Y: Porcentaje usable).
Transformación
Forma funcional que relaciona y con x Función
apropiada
Exponencial y 0 e 1 x y* ln y y* f ( x)
y* ln y
Potencia y 0 x 1 y* f ( x*)
x* ln x
1 1
Recíproca y 0 1 x* y f (x*)
x x
1
y*
1 y
Función hiperbólica y y* f ( x*)
0 1 x 1
x*
x
Función exponencial
y y
0
1 0
1 0
0
x x
Función potencia
y 1 1 y
0 1 1
1 0
0
x x
Función recíproca
y y
0
1 0
1 0
0
x x
Ejercicios Propuestos
1. Un economista del Departamento de Recursos Humanos del Estado de Florida está preparando
un estudio sobre el comportamiento del consumidor. Él recolectó los datos que aparecen en
miles de dólares para determinar si existe una relación entre el ingreso del consumidor y los
niveles de consumo. Determine cuál es la variable dependiente.
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24,3 13,8 31,2 28 36,9 10,5 23,2 10 8,5 15,9 14,7 15
Consumo 9,5 6 12,2 10 12,5 4,8 10,1 5,5 4,2 7,2 6,5 7,1
Cuadrático
Resumen del modelo
ANOVA
Suma de
cuadrados gl Media cuadrática F Sig.
Total 87,167 11
Coeficientes
Coeficientes
Coeficientes no estandarizados estandarizados
Potencia
Resumen del modelo
ANOVA
Suma de
cuadrados gl Media cuadrática F Sig.
Total 1,431 11
Coeficientes
Coeficientes
Coeficientes no estandarizados estandarizados
Exponencial
Resumen del modelo
ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
Total 1,431 11
Coeficientes
Coeficientes
Coeficientes no estandarizados estandarizados
a. Determine e interprete el modelo de regresión. ¿Qué le dice este modelo sobre la relación
entre el consumo y el ingreso? Use un nivel de significación del 2,5%.
b. ¿Qué consumo pronosticaría el modelo con 95% de confianza para alguien que gana
US$27500?
a. Estime el mejor modelo y analice los datos considerando un nivel de significación del 2%.
b. Analice los supuestos del modelo. Use 0,05.
c. Con 98% de confianza, ¿cuál será el tiempo de secado cuando se añaden 6,5 gramos del producto
químico?
3. Los siguientes datos corresponden al cloro residual en una piscina en diversos momentos después de
haberse tratado con químicos.
a. Estime mediante el método de los mínimos cuadrados la ecuación de regresión para el tiempo
de reparación cuando el tipo de reparación es mecánica. Interprete la pendiente y el
coeficiente de determinación.
b. Estime mediante el método de los mínimos cuadrados la ecuación de regresión para el tiempo
de reparación cuando el tipo de reparación es eléctrica. Interprete la pendiente y el coeficiente
de determinación.
c. ¿Los modelos estimados anteriores ajustan bien a los datos? Use 0,05.
d. Calcule e interprete con 98% de confianza el tiempo estimado de reparación para una
solicitud cuyo sistema de filtración fue revisado hace un mes.
¿Qué es el éxito?
“Nuestra situación en la tierra es muy extraña”, decía Albert Einstein. “Cada quien ha venido por
poco tiempo, sin saber por qué, aunque a veces pareciera que adivinamos el propósito”.
Algunas personas quieren ser algo. Quieren un título –médico, abogado, dentista- que conceda
derechos de presunción al poseedor. Otros quieren hacer algo, quieren lograr algo con su vida.
Nosotros nos identificamos con los segundos. Admiramos a las personas como Ron Kovic que
quieren tener peso, dejar su huella en la arena del tiempo.
Independientemente de lo que sea el éxito, la mayoría de las personas quieren tenerlo. Una encuesta
de los estadounidenses opulentos, patrocinada recientemente por Ernst & Young and Yankelovich
Clancy Shulman, arrojó que dos terceras partes del grupo consideraban que era “muy importante”
tener éxito. Y estamos hablando de personas que ganan un promedio de $176 000 al año. (Sólo 14%
del grupo se consideró “muy rico”)
¿Qué es el éxito? Es aquello que uno quiere que sea: dinero, poder, posición, reconocimiento.
Podría ser una alcaldía o estar en el Carnegie Hall. Podría ser un puesto de director ejecutivo en
alguna empresa o en un gobierno.
El éxito no es una proposición mutuamente excluyente. Uno no tiene que limitarse a luchar por una
meta. Por lo general, el dinero, el poder, la posición, el reconocimiento, la felicidad y los amigos
van juntos.
Pero todo debe tomarse con moderación. No permita que el éxito se convierta en una droga que
alimenta su ego sobregirado. El adicto al éxito jamás se satisface con nada: dinero, posición,
posesiones. Siempre habrá un reloj Rolex más, o un BMW más y después será feliz.
Conserve la perspectiva de las cosas. De hecho, si piensa que el éxito es algo que los otros le
brindan a usted y no que se trata de algo que usted logra por sí mismo, entonces es menos probable
que padezca de inseguridad que produce perseguir el éxito.
También tendrá el estado de ánimo mental adecuado para usar los principios expuestos en este
libro. No estará atrapado en una filosofía del “puedo”. Ninguna persona puede brindarle el éxito,
sólo los demás pueden hacerlo. El Papa no se elige a sí mismo, tampoco lo hace el presidente de un
consejo.
Si piensa que se trata de una manera fría, tosca y tolerante de ver el juego de la vida, está en lo
cierto.
Fría, tosca, tolerante y efectiva.
Tomado de: Instituciones Ganadoras. La clave del éxito es encontrar el caballo que nos lleve al
triunfo. Al Ries y Jack Trout.
Regresión Múltiple
El objetivo del Análisis de Regresión Lineal Múltiple es relacionar una variable respuesta y con
un conjunto de variables predictoras x1, x2,…, xk, utilizando un modelo lineal. Lo que se desea es
poder estimar el valor medio de y y/o predecir valores particulares de y a observar en el futuro
cuando las variables predictoras toman valores específicos.
y 0 1 x1 2 x2 k xk
donde:
y : variable respuesta que se quiere predecir.
0, 1,…, k : coeficientes de regresión.
x1, x2,…, xk : variables predictoras independientes.
: error aleatorio.
Para estimar los parámetros del modelo de regresión lineal múltiple también se utiliza el método
de mínimos cuadrados. Considere una muestra de n observaciones:
0
y1 1 x11 x12 ... x1k 1
y 1 x 21 x 22 ... x 2 k 1
Y 2 X β 2 ε 2
yn 1 x n1 xn2 ... x nk
k n
donde Y Xβ ε .
Coeficiente de regresión
Los valores ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k se conocen como coeficientes de regresión estimados. Un
coeficiente de regresión estimado específico mide el cambio promedio en la variable
dependiente debido a un incremento de una unidad en la variable predictora correspondiente,
manteniendo constantes las otras variables de predicción.
Los errores estándar y la covarianza de los estimadores ˆ0 , ˆ1 , ˆ2 ,..., ˆk se determinan mediante
los elementos de la matriz ( X ' X) 1 de la siguiente manera:
Los errores estándar de los coeficientes estimados ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k son:
ˆ c00
0
ˆ c11
1
ˆ c 22
2
ˆ c kk
k
SCE
Se CME
n p
Pruebas de hipótesis
Una vez que se ha recogido una muestra aleatoria, se han medido las variables, y se ha
examinado la matriz de correlaciones para determinar aquellas combinaciones de variables que
son de interés, se analizan los modelos con el mejor potencial. El objetivo es encontrar la mejor
ecuación para predecir y después decidir si ésta ecuación satisface las necesidades de exactitud
del analista.
Pruebas individuales
Las hipótesis nula y alternante para las pruebas individuales son:
H0 : i 0
H1 : i 0
ˆi
tc ~ t (n p )
ˆ
I
donde ˆ s cii
i
Prueba Conjunta
Las hipótesis nula y alternante para la prueba conjunta son:
H 0 : 1 2 ... k 0
H1 : Al menos un i es diferente de cero
CMR
Fc ~ F( p 1, n p )
CME
Multicolinealidad
Cuando existe multicolinealidad es difícil distinguir qué cantidad del efecto observado se debe a
una variable de predicción individual. En otras palabras, si dos variables están altamente
correlacionadas, proporcionan casi la misma información en el pronóstico.
Cuando dos variables tienen una alta correlación, los coeficientes ˆ0 , ˆ1 ,..., ˆ k , estimadores de
0 , 1 ,... k no son confiables. La estimación ˆ k de k puede no ser siquiera cercana al valor
de su correspondiente parámetro e inclusive podría ser negativo cuando debiera ser positivo.
Una variable predictora debe tener una correlación fuerte con la variable dependiente.
Una variable predictora no debe tener una correlación demasiado alta con ninguna otra
variable predictora. (La correlación entre dos variables predictoras debe estar muy por
debajo de la menor de las dos correlaciones entre las variables predictoras y la variable
dependiente).
Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de una muestra
a otra (alta variabilidad).
Una variable independiente que tiene una relación positiva con la variable dependiente
puede producir un coeficiente de regresión negativo si la correlación con otra variable
independiente es alta.
Con frecuencia se usa la regresión múltiple como una herramienta interpretativa para
evaluar la importancia relativa de las distintas variables independientes. Cuando las
variables independientes se intercorrelacionan, explican la misma varianza en el pronóstico
de la variable dependiente. Por esto, es difícil separar la influencia individual de cada
variable independiente cuando la multicolinealidad está presente.
Ejemplo
Una empresa que vende por correo suministros para computadoras personales (software y
hardware) posee un almacén central para la distribución de los productos ordenados.
Actualmente, la administración se encuentra examinando el proceso de distribución desde el
almacén y está interesada en estudiar los factores que afectan los costos de distribución del
almacén. Un pequeño cargo por manejo se agrega a pedido, independiente de la cantidad por la
que se hizo. Se han recolectado datos correspondientes a los 24 meses anteriores y respecto a los
costos de distribución del almacén, las ventas y el número de pedidos recibidos.
Solución
El modelo que relaciona al costo de distribución con las ventas y el número de pedidos será el
siguiente:
yi 0 1 x1 2 x2 i i 1, 2, . . . , 24
donde:
y : Costo de distribución
x1 : Ventas (miles de $)
x2 : Número de pedidos
0 : Intercepto del modelo.
1 : Cambio promedio en el costo de distribución por cada cambio unitario en las ventas,
manteniendo constante x2.
2 : Cambio promedio en el costo de distribución por cada cambio unitario en el número de
pedidos, manteniendo constante x1.
: Error aleatorio asociado a Y.
A continuación se muestra las salidas del análisis de regresión múltiple obtenida con el paquete
SPSS.
Correl aciones
Costo de
distribución Ventas Número de
(miles de $) (miles de $) pedi dos
Correlación de Costo de distribución
1.000 .842 .919
Pearson (miles de $)
Ventas (mi les de $) .842 1.000 .800
Número de pedidos .919 .800 1.000
Sig. (unilateral) Costo de distribución
. .000 .000
(miles de $)
Ventas (mi les de $) .000 . .000
Número de pedidos .000 .000 .
N Costo de distribución
24 24 24
(miles de $)
Ventas (mi les de $) 24 24 24
Número de pedidos 24 24 24
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 3368.087 2 1684.044 74.134 .000 a
Resi dual 477.043 21 22.716
Total 3845.130 23
a. Variables predi ctoras: (Const ante), Número de pedidos, Ventas (miles de $)
b. Variable dependiente: Costo de di stri bución (mi les de $)
Coef icientesa
Con un nivel de significación del 5%, la prueba resulta significativa, es decir existe un modelo
de regresión lineal múltiple entre las variables analizadas, y está expresado por:
Del análisis de las pruebas individuales, se concluye que la regresión pasa por el origen.
Se procesa nuevamente los datos, pero indicando que la regresión pasa por el origen, y se
obtienen las siguientes tablas.
Coef icientesa,b
Ejemplo de estimación del costo de distribución y los errores para los cinco primeros valores:
Histograma de residuales
Se grafica el histograma de residuales para verificar si su distribución es normal.
Histogram
8
4
Frequency
Scatterplot
2
Regressi on Standardi zed Resi dual
-1
-2
-3
-2 -1 0 1 2
Y T.C.E.I
Donde:
Y = valor real de la variable de interés.
T = tendencia secular
C = componente cíclica
E = componente estacional
I = componente irregular
Tendencia
La tendencia secular de una serie de tiempo es la componente a largo plazo que representa el
crecimiento o disminución de la serie durante un período largo.
Años
Las fuerzas básicas responsables de la tendencia de una serie son población, crecimiento,
inflación de precios, cambios tecnológicos e incrementos de la productividad.
Componente Cíclica
Son llamados también ciclos económicos y muestran las variaciones en períodos de mediano
plazo.
Año
s
Componente estacional
Son fluctuaciones de una serie de tiempo en períodos relativamente cortos que se repiten de
manera casi irregular. Por lo general están asociados a los diferentes meses del año.
El estudio de la variación estacional permite encontrar índices mediante los cuales se puede
desestacionalizar la serie.
Componente irregular
Son variaciones aleatorias que ocurren en una serie por acontecimientos inesperados, por
ejemplo a causa de: Huelgas, imprevistos, corte de energía eléctrica, pero también con la misma
naturaleza aleatoria de la variable.
Modelo de tendencia
El modelo multiplicativo Y = T x C se usa para analizar los datos de la serie de tiempo.
Recta de Tendencia.
El procedimiento que se usa para encontrar la línea recta que mejor ajusta a los datos
observados de la serie de tiempo es el de mínimos cuadrados.
Ejemplo
El registro anual de nuevos automóviles en EEUU durante el período de 1975-2006 se
presenta en la tabla siguiente. Estimar la recta de tendencia.
Los resultados del estudio de tendencia, obtenidos con el paquete SPSS, se muestran a
continuación:
Y: Registros (millones)
Lineal
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de
Regresión 15.808 1 15.808 11.258 .002
R R cuadrado corregida la estimación Residual 42.124 30 1.404
.522 .273 .249 1.185 Total 57.932 31
La v ariable independient e esT. La v ariable independiente esT.
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
T .076 .023 .522 3.355 .002
(Constante) 7.902 .429 18.421 .000
Cuadrático
ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 28.416 2 14.208 13.959 .000
R R cuadrado corregida la estimación Residual 29.516 29 1.018
.700 .491 .455 1.009 Total 57.932 31
La v ariable independiente esT. La v ariable independiente esT.
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
T .348 .080 2.389 4.370 .000
T ** 2 -.008 .002 -1.924 -3.520 .001
(Constante) 6.360 .570 11.152 .000
Datos estacionales
Los datos de series de tiempo mensual o trimestral son de uso común en los negocios,
porque generalmente usan técnicas contables basados en meses o trimestres. Las
proyecciones a futuro de series de tiempo mensual y/o trimestral son actividades comunes
en las organizaciones.
Ejemplo
La administración de un albergue para esquiadores tiene los siguientes datos acerca de la
demanda trimestral de habitaciones, correspondiente a un período de cinco años. Para
mejorar su servicio, la administración, debe establecer un patrón por temporadas de la
demanda.
Trimestre
Año
I II III IV
2002 1765 2154 2304 1879
2003 2014 2456 2654 2135
2004 2212 2458 2578 1998
2005 2315 2450 2684 2245
2006 2456 2875 2654 2354
Deamanda de habitaciones
3000
2800
2600
2400
Y
2200
2000
1800
1600
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Tiempo
SERIE DE TIEMPO
Año Trimestre Y
1 1765
2 2154
2002
3 2304
4 1879
1 2014
2 2456
2003
3 2654
4 2135
1 2212
2 2458
2004
3 2578
4 1998
1 2315
2 2450
2005
3 2684
4 2245
1 2456
2 2875
2006
3 2654
4 2354
Solución
Paso 1
Calcule el total móvil de los cuatro trimestres para la serie temporal.
Total móvil
Año Trim. Ocupac.
de 4 trimes.
I 1765
II 2154
2002 8102
III 2304
8351
IV 1879
Paso 2
Calcule el promedio móvil de cuatro trimestres.
Total Prom.
Año Trim. Ocupac. móvil de móvil de
4 trimes. 4 trimes.
I 1765
II 2154
2002 8102 2025,50
III 2304
8351 2087,75
IV 1879
Paso 3
Centre el promedio móvil centrado.
II 2154
2002 8102 2025,50
III 2304 2056,63
8351 2087,75
IV 1879 2125,50
Paso 4
Calcule el porcentaje del valor real con respecto al valor del promedio móvil para cada
trimestre de la serie temporal.
Real 2304
x 100 x100
Promedio móvil 2056.63
112,0
II 2154
2002 8102 2025,50
III 2304 2056,63 112,0
8351 2087,75
IV 1879 2125,50 88,4
Paso 5
Para reunir todos los porcentajes de los valores reales con respecto a los valores de
promedio móvil que se encuentran en la última columna de la tabla, organizarlos por
trimestres.
Trimestre
Año
I II III IV
2002 - - 112,0 88,4
2003 91,3 107,4 113,4 90,3
2004 93,9 105,6 110,9 85,5
2005 98,6 102,4 109,9 89,4
2006 95,9 111,8 - -
Promedio 94,91 106,79 111,43 88,40 401,53
Paso 6
Ajuste los índices. La constante de ajuste se calcula de la siguiente manera:
400
Constante de ajuste 0,9962
401,53
Y sin
t Resumen del model o
estacionalidad
1 1866,75 Error típ.
2 2024,74 R R cuadrado de la
3 2075,55 Modelo R cuadrado corregi da estimación
1 ,870 a ,758 ,744 108,28453
4 2133,67
a. Variables predictoras: (Constante), t
5 2130,10
6 2308,61
ANOVA
7 2390,85
8 2424,37 Suma de Media
9 2339,52 cuadrados gl cuadrática F Sig.
1 Regresión 659300,783 1 659300,8 56,228 ,000
10 2310,49
Resi dual 211059,713 18 11725,540
11 2322,39
Total 870360,496 19
12 2268,80
13 2448,46
Coef icientes
14 2302,97
15 2417,87 Coefici entes
16 2549,28 Coefici entes no estandari zado
estandari zados s
17 2597,59
B Error típ. Beta t Sig.
18 2702,47 1 (Constante) 2003,306 50,302 39,826 ,000
19 2390,85 t 31,487 4,199 ,870 7,499 ,000
20 2673,05
TIPOS DE PRONÓSTICOS:
De acuerdo a Hanke y Reitsch (1996) los pronósticos se pueden clasificar en tres principales
criterios.
El primer criterio es el tiempo, es decir, existen pronósticos a corto y a largo plazo. Estos últimos
ayudan a establecer el curso general de la organización en un plazo largo de tiempo, mientras que
los primeros se utilizan para diseñar las estrategias que se utilizarán inmediatamente y serán
ejecutadas por niveles medios en la organización.
El siguiente tipo de criterio se relaciona directamente con la posición en cuanto al entorno micro
y macro, y cómo es que aquí se generan diferente tipos de detalles en una organización. Estos
tipos de detalles son el micro pronóstico y el macro pronóstico. Un ejemplo de micro pronóstico
es que el gerente de producción sepa cuanto se necesitará para la producción anual de un
producto determinado, mientras que un macro detalle sería conocer el incremento en la carga
tributaria (impuestos) que el gobierno aplicará en el siguiente año fiscal.
El pronóstico se basa en una suma ponderada de las observaciones pasadas. Los valores dependen
de los llamados parámetros de atenuación. Una vez que se han elegido tales parámetros, es fácil
calcular los pronósticos, el método se puede adaptar fácilmente para considerar los factores
estacionales y tendencias.
Una atenuación exponencial sobre una serie de tiempo ya atenuada con anterioridad es llamada
atenuación exponencial doble. En algunos casos seria necesario extender este proceso hasta una
atenuación exponencial triple.
Mientras que la atenuación exponencial simple requiere de la condición de inmovilidad
(estacionaria), la atenuación exponencial doble podría capturar tendencias lineales, y la atenuación
exponencial triple puede manejar casi todas las demás series de tiempo del negocio
• Las observaciones se ponderan asignando pesos mayores “alfa” a las más recientes, para la
siguiente α (1- α) y así sucesivamente
• El valor real de α determina el grado hasta el cual la observación más reciente puede influir en el
valor del pronóstico, es decir cuando α tiende a :
Señal de rastreo
• Señal de Rastreo: comprende alguna medición del error a través del tiempo y establece
límites, de modo que cuando el error rebase dichos límites, se alerte al pronosticador.
• Si las cosas van bien, la técnica de pronóstico debería subestimar y sobreestimar con casi la
misma frecuencia.
+1.5
+ 1.0
Señal de
Rastreo + 0.5
-0.5
-1.0
-1.5
5 10 15 20
25
Número de Observaciones
et Yt Yˆt
et : error de pronóstico en periodo t
Yt : valor real en el periodo t
Yˆt : valor del pronóstico en el periodo t
Y Yˆ t t
DAM t 1
n
La DAM resulta de gran utilidad cuando el analista desea medir el error de pronóstico en las
mismas unidades de la serie original
Y Yˆ
n
2
t t
EMC t 1
n
El EMC se usa para comparar métodos diferentes de pronóstico. Penaliza los errores grandes del
pronóstico.
n Yt Yˆt
t 1 Yt
PEMA
n
El PEMA se usa para comparar métodos diferentes de pronóstico. Indica que tan grande son los
errores del pronóstico. Contrasta con los valores reales de la serie
n
Y Yˆ
t t
t 1 Yt
PME
n
El PME indica cuán desviada está la técnica de pronóstico usada.
Si tiende a cero no hay sesgo
Si es negativo grande el pronóstico será sobreestimado
Si es positivo grande el pronóstico
Problemas
Use las constantes de suavización de 0,5 y 0,9. Compare los resultados y diga cual de los dos
anteriores es mejor justifique con DAM, y Señal de rastreo)
Utilice un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine el
mejor para preparar el pronóstico.
VALOR
Utilización de acero Error
Mes ATENUADO DAM
(lb) (Yt – pronóstico)
(Alfa = 0,1)
1 430 430,00
2 420 430,00 -10,00 10,00
3 436 421,00 15,00 15,00
4 452 434,50 17,50 17,50
5 477 450,25 26,75 26,75
6 400 474,33 -74,33 74,33
7 398 407,43 -9,43 9,43
8 510 398,94 111,06 111,06
9 550 498,89 51,11 51,11
10 580 544,89 35,11 35,11
11 600 576,49 23,51 23,51
12 300 597,65 -297,65 297,65
13 350 329,76 20,24 20,24
14 400 347,98 52,02 52,02
15 458 394,80 63,20 63,20
MISCELÁNEA
2. Una propiedad importante de los estimadores es que sean insesgados. Por definición un estimador es
insesgado si su valor esperado es igual al valor del parámetro. Suponga que X1, X2, … , Xn denota una
muestra aleatoria de una población con media y varianza 2. Considere como un estimador de .
1 X X n 1 1
Donde: X1 2 Xn
4 4 2n 4
Demuestre que es un estimador insesgado de
2 x y a ; para 0 x 2 ; 0 y 1
f x , y
0 ; en otro caso
3 y 3x y ; para 0 x 1 ; 0 y 2
f x , y
0 ; en otro caso
7. Sean X e Y dos variables aleatorias con distribución normal de media X y Ycon varianzas 2X y
2Y.respectivamente. Para dos muestras aleatorias de tamaños nX y nY demuestre que x y es un
estimador insesgado de x y
9. Sea Y1, Y2, …, Yn una muestra aleatoria con E[Yi] = y V[Yi] = 2. Demuestre que:
Y Y
n
2
i
i 1
S2 es un Estimador Insesgado de 2. Es decir que E[S2] =
n 1
10. Se define la función de densidad de probabilidad conjunta f (X; Y) para las variables aleatorias
continuas X y Y:
k x 3 y 1 ; si 0 x 2 ; 1 y 2
f ( x ; y) donde: k es una constante
0 ; en otro caso
Calcule P X Y 0,6
12. Sea la función de densidad conjunta f, para las variables aleatorias X e Y, definida por:
a 2 x y ; si 1 x 2 ; 0 y 1
f ( x ; y) Donde: "a " es una constante
0 ; en otro caso
14. Suponga que se eligen dos muestras aleatorias independientes de n1 y n2 observaciones de poblaciones
normales y que las poblaciones poseen una varianza común 2.
Y
ni
ij Yi 2
j 1
Sean: S i2 , para i = 1, 2 estimadores Insesgados de 2.
ni 1
(n1 1) S12 (n2 1) S 22
Se define el siguiente estimador ponderado de : S 2 2
n1 n2 2
p
4 x y ; si 0 x 1 ; 0 y 1
f ( x ; y)
0 ; en otro caso
a. Determine E(X)
b. Determine 2x
18. El equipo de ventas de tarjetas de crédito de una entidad bancaria, encarga a cada vendedor realice un
total de seis llamadas telefónicas a clientes del banco, en el lapso de tres horas, ofreciendo tarjetas de
crédito. En el cuadro se registra el número de llamadas que terminaron en aceptación de la tarjeta de
crédito de un total de 300 llamadas realizadas.
m3
Calcule e interprete los coeficientes de asimetría o sesgo (a3) y curtosis SESGO a3
m2
3
(a4) de la distribución del número de llamadas que terminan en 2
19. Calcule e interprete los coeficientes de asimetría o sesgo (a3) y curtosis (a4) de la distribución de horas
extras de los empleados de una empresa, a través del método de momentos.
20. Calcule los coeficientes de asimetría (As) y curtosis (g2) de la distribución de sueldos.
f x
Sueldos n
Número
(miles de Soles) 1
n i i x 3
m3 i 1
2,0 2,2 10 As a 3
m2 m2 S3
2,2 2,4 30
2,4 2,6 50 4
g2 3
2,6 2,8 40 4
2,8 3,0 20
3,0 3,2 15
Coeficiente Valor
3,2 3,4 10
Asimetría
3,4 3,6 5
3,6 3,8 4 Curtosis
3,8 4,0 2
Total 186
21. Responda con Verdadero o Falso según corresponda a las siguientes afirmaciones:
22. Responda con Verdadero o Falso según corresponda a las siguientes afirmaciones:
23. Determine una expresión, que incluya el tamaño de población, que permita calcular el tamaño de
muestra adecuado para estimar una proporción poblacional donde no se conoce la proporción histórica.
24. Determine paso a paso la media y varianza de la distribución muestral de la diferencia de proporciones
muestrales. Escriba todas las condiciones bajo las cuales se realiza el análisis.
25. Una empresa que fabrica polos de algodón cuenta con dos talleres. La producción es la misma en
ambos talleres pero el jefe de compras sospecha que se utiliza mayor cantidad de materia prima en el
taller 2. Para ello toma una muestra de algunas órdenes de pedido y se registra la cantidad de kilos de
las telas de algodón utilizadas en cada taller. Los datos en kilogramos, se muestran a continuación:
Taller 1 82,6 86,2 78,8 86,9 85,6 84,8 81,2 89,8 84,9 89,8 88,7 59,9 65,5
Taller 2 74,9 94,9 86,8 89,7 89,1 89,9 92,8 86,9 95,6 84,8
26. De 250 hombres y 230 mujeres, 37% y 25% respectivamente afirmaron que utilizaban tarjetas de
crédito para comprar regalos de navidad. Calcule el intervalo de confianza del 97% para la diferencia
entre la proporción de hombres y mujeres que optaron por el crédito. ¿Se puede afirmar que los
hombres utilizan más las tarjetas de crédito para comprar regalos de navidad que las mujeres?
27. En un estudio respecto a la rentabilidad diaria de paquetes de acciones Industriales y Mineras, se han
obtenido los registros de la rentabilidad del último trimestre del año 2010 y del primer trimestre del
presente año para 13 paquetes de acciones Industriales seleccionadas aleatoriamente. Así mismo, se
han obtenido los registros de la rentabilidad del primer trimestre del presente año para 11 paquetes de
acciones Mineras. Los datos se muestran en el siguiente cuadro:
Observación 1 2 3 4 5 6 7 8 9 10 11 12 13
Acciones
Industriales 2,7 5,5 2,8 1,3 3,1 6,7 5,4 4,3 7,8 2,9 3,7 5,7 4,3
Oct - Dic 2010
Acciones
Industriales 2,6 4,5 4,2 6,2 4,9 4,3 2,7 5,3 6,3 4,4 5,4 6,4 4,8
Ene - Mar 2011
Acciones Mineras
9,5 5,2 7,5 1,0 13,6 7,9 7,0 8,5 0,1 7,2 6,7
Ene - Mar 2011
Se sabe que los rendimientos diarios, en dólares, de cada paquete tienen distribución normal. A un
nivel de confianza del 95%, analice y responda las siguientes preguntas.
a. ¿Es correcto afirmar que los rendimientos en los paquetes de acciones Industriales se han
incrementado en más de $2,00 desde el último trimestre del año 2010 al primer trimestre del año
2011?
b. ¿Considera usted que la variabilidad de la rentabilidad de los paquetes de acciones Industriales y de
los paquetes de acciones Mineras son homogéneas?
c. Si en el presente año se desea invertir en los paquetes de acciones que ofrezca mayor rentabilidad,
¿cuál recomendaría Industriales o Mineras? Justifique su respuesta.
d. Si estamos frente a un inversionista prudente, cuya política es invertir en los paquetes de acciones
cuya rentabilidad tiene una variabilidad menor a $2,00. ¿Considera usted que este tipo de
inversionista debe elegir los paquetes de acciones Industriales para su inversión? Justifique su
respuesta.
28. Responda con Verdadero o Falso según corresponda a las siguientes afirmaciones:
a. A un nivel de significación del 5%, ¿se puede afirmar que la proporción de habitantes que en el
mes de setiembre de ninguna manera votarían por Susana Villarán supera el 30%?
b. ¿Cuál tendría que haber sido el tamaño de la muestra si se hubiera permitido un error muestral
máximo de 5%?
30. La empresa de servicio de Courier Prontito que opera en la ciudad asegura que tarda un promedio de
35 minutos en llevar un paquete, con una desviación estándar de 8 minutos. Suponga que durante el
día de hoy han repartido 15 paquetes, observándose los siguientes tiempos que demoró la entrega.
Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Tiempo de
49,3 61,0 56,0 27,9 46,5 52,5 46,5 39,1 40,4 55,8 59,6 29,4 19,9 47,9 45,6
entrega
A un nivel de significación del 5%, conteste las siguientes preguntas. En cada caso escriba las
condiciones o supuestos bajo los cuales se puede aplicar la herramienta estadística que ha de utilizar
a. Si somos una empresa que requiere contratar los servicios de un Courier, cuyo tiempo de demora
en realizar la entrega no exceda al que indica la empresa de servicio, ¿considera usted que
debemos contratar los servicio del Courier Prontito?
b. ¿Se puede asegurar que la variabilidad en el tiempo que demora las entregas del servicio de
Courier Prontito es superior a 8 minutos?
31. Determine el error estándar estimado para la diferencia de medias muestrales con tamaños de
población conocidos y varianzas homogéneas.
32. El Banco Central de Reserva, en su página Web http://www.bcrp.gob.pe/, pone a disposición los
registros de las exportaciones de productos Pesqueros como de Productos, en ambos casos expresados
en millones de dólares. Los registros se muestran en el cuadro siguiente:
Asumiendo que las exportaciones en ambos productos tienen distribución normal, a un nivel de
significación del 5%, responda a las siguientes preguntas:
a. ¿Será correcto afirmar que las exportaciones para ambos productos no son homogéneos?
b. Si una empresa exportadora establece como política exportar uno de estos productos, siempre que
la diferencia promedio a favor del productos elegido supere en exportaciones al otro en más de 20
millones de dólares, ¿considera usted que la empresa elegirá exportar productos Pesqueros?
33. De un total de 2000 productos pesqueros y 2000 productos agrícolas, se seleccionaron muestras
aleatorias de tamaño 200 y 350 respectivamente, encontrándose que 80 productos pesqueros y 70
productos agrícolas cumplen con las normas internacionales de exportación.
a. A un nivel de significación del 2,5%, ¿será correcto afirmar que el porcentaje de productos
pesqueros, que cumplen con las normas internacionales de exportación, superan al porcentaje
correspondiente de productos agrícolas en más de un 12%?
b. A un nivel de confianza del 95%, determine el máximo error muestral para la estimación de la
diferencia entre el porcentaje de productos pesqueros y el porcentaje de productos agrícolas, que
cumplen con las normas internacionales de exportación.
c. Si se desea tener un nivel de confianza del 95% de que el máximo error muestral no excede el 6%
cuando se estime la diferencia entre el porcentaje de productos pesqueros y el porcentaje de
productos agrícolas, que cumplen con las normas internacionales de exportación, ¿cuántas
observaciones se deben realizar de cada tipo de producto, si ambas muestras deben ser del mismo
tamaño?
34. Un fabricante de productos farmacéuticos compra un ingrediente de dos distintos proveedores. El nivel
medio de impurezas en la materia prima es aproximadamente el mismo en los ingredientes de los dos
proveedores, pero al fabricante le preocupa la variabilidad de las impurezas de un envío a otro. Si enl
nivel de impurezas de una fuente de suministro tendiera a variar en forma excesiva, esto podría afectar
la calidad del producto farmacéutico. Ante esto el productor elige aleatoriamente muestras de envíos
de cada proveedor y mide el porcentaje de impurezas en la materia prima de cada cargamento. Los
resultados se muestran en la tabla:
Observación 1 2 3 4 5 6 7 8 9 10
Proveedor A 1,73 1,22 2,02 2,56 2,52 2,80 0,75 1,77 2,46 1,32
Proveedor B 2,04 1,39 2,08 2,10 2,20 1,51 1,94 2,07 1,81
Asuma que el porcentaje de impurezas en la materia prima de cada cargamento tiene una distribución
Normal.
a. A un nivel de confianza del 90%, ¿se puede decir que tiene fundamento la preocupación del
fabricante respecto a la variabilidad de las impurezas de un envío a otro?
b. A un nivel de confianza del 90%, ¿es correcto suponer que el nivel medio de impurezas en la
materia prima es aproximadamente el mismo en los ingredientes de los dos proveedores?
c. A un nivel de significación del 5%, ¿se puede afirmar que la variabilidad del nivel de impurezas
en la materia prima del proveedor B es menor que 0,46%?
35. Una entidad financiera, propuso un estudio de rentabilidad de los Fondos de Inversión, dado que tiene
la sospecha que los Fondos de Inversión A tienen niveles de rentabilidad por encima del promedio en
mayor proporción que los Fondos de Inversión B. Para verificar esto, de un total de 500 y 400 registros
de las inversiones para los Fondos A y B respectivamente, se seleccionan muestras aleatorias de
tamaño 50 y 55 encontrándose que en 30 registros del Fondo A y 24 registros del Fondo B tuvieron
niveles de rentabilidad por encima del promedio. A un nivel de confianza del 95%, ¿se justifica la
sospecha de la entidad financiera?
36. Se ha realizado un seguimiento a una muestra aleatoria de 12 empresas exportadoras para analizar su
crecimiento, en millones de dólares al año, desde el año 2009 al 2010. Los resultados se muestran en el
cuadro.
Empresa 1 2 3 4 5 6 7 8 9 10 11 12
2009 1,23 1,29 1,23 1,28 1,20 1,26 1,23 1,24 1,26 1,24 1,25 1,24
2010 1,49 1,46 1,50 1,52 1,46 1,46 1,43 1,43 1,47 1,48 1,49 1,44
Asumiendo que las exportaciones tienen distribución normal, con un nivel de confianza del 95%, ¿se
puede afirmar que el crecimiento ha sido más de $200000 al año?
37. En los últimos meses, la empresa Agroexport que cuenta con 600 empleados, ha venido recibiendo
quejas por parte de sus empleados con respecto al salario que perciben. La dirección de la empresa
conversa con sus empleados y les informa que Agroexport es una de las pocas empresas que cuenta
con una planilla cuyo sueldo promedio supera los S/.2125, por lo que no entiende el malestar de los
empleados. Los empleados, por su parte, aseguran que menos del 57% de los empleados perciben
salarios que superan los S/.2200. Frente a esta situación la dirección de la empresa decide realizar un
estudio rápido para saber qué tan ciertas son estas afirmaciones. Por ello, se selecciona aleatoriamente
el salario de 120 empleados encontrándose un salario promedio de S/.2200 y una variabilidad de
S/.312. Además, pudo observarse que 62 empleados percibían salarios que superan los S/.2200.
Suponga que los salarios de los empleados de la empresa Agroexport tienen una distribución normal
con variabilidad de S/.500. Con un nivel de significación del 4%:
a. ¿Considera correcta la afirmación de la dirección de la empresa?
b. ¿Considera correcta la afirmación de los empleados?
38. El gerente de ventas de una inmobiliaria dedicada a la venta de apartamentos está interesado en
analizar el comportamiento de las ventas de apartamentos realizadas por los vendedores. Selecciona
una muestra aleatoria de vendedores, en la que están registradas las siguientes variables:
Género
Grado de instrucción
Tiempo transcurrido hasta que el vendedor logró vender el primer apartamento (en días)
El gerente de ventas especula que el tiempo transcurrido hasta que el vendedor logra vender el primer
apartamento es menor en el género masculino que en el femenino, con grado de instrucción superior.
Con un nivel de significación del 5% puede afirmar que es cierto lo que especula el gerente de ventas.
Asuma que el tiempo transcurrido hasta que el vendedor logra vender el primer apartamento tiene
distribución normal, con varianzas homogéneas.
39. El Banco Central de Reserva, en su página Web http://www.bcrp.gob.pe/, pone a disposición los
registros de las exportaciones no tradicionales tanto de Productos Agropecuarios como de Productos
Textiles, en ambos casos expresados en millones de dólares. Los registros se muestran en el cuadro
siguiente:
Mes/Año XNT Prod. Agropecuarios (mill. US$) XNT Prod. Textiles (mill. US$)
Ene10 177,65 96,16
Feb10 153,29 113,73
Mar10 139,65 122,29
Abr10 133,59 113,62
May10 127,85 106,01
Jun10 174,83 144,20
Jul10 183,43 138,16
Ago10 178,68 129,07
Sep10 190,32 140,20
Oct10 212,98 146,78
Nov10 250,08 162,21
Dic10 267,64 145,29
Ene11 223,15 115,73
40. Un grupo de amigos se reúnen con el ánimo de lanzar una empresa exportadora de productos no
tradicionales. Ante esta iniciativa, analizan los datos del cuadro de la pregunta 1 que se publicó en la
página Web del Banco Central de Reserva. Asumiendo normalidad en las exportaciones de cada tipo
de producto, conteste a las siguientes preguntas:
a. A un nivel de confianza del 95%, ¿se puede asegurar que la variabilidad de las exportaciones de
productos agropecuarios y textiles son homogéneos?
b. Si como política de lanzamiento el grupo de amigos establece que incursionarán en las
exportaciones no tradicionales de productos agropecuarios siempre que supere a las textiles en más
de 40 millones de US$. A un nivel de significación del 4%, ¿cuál considera usted que debe ser la
decisión del grupo de amigos?
c. Analistas altamente calificados señalan que los rubros de exportaciones que presenten una
variabilidad mayor a 40 millones de US$ son de alto riesgo. A un nivel de significación del 5%,
¿será correcto considerar las exportaciones de productos agropecuarios como de alto riesgo?
41. El Banco Central de Reserva, en su página Web http://www.bcrp.gob.pe/, pone a disposición los
registros de las Exportaciones e Importaciones totales, en millones de US$, para cada trimestre desde
el año 2008 al 2010
Asuma que tanto las exportaciones como las importaciones tienen una distribución normal. A un nivel
de confianza del 96%, ¿se puede afirmar que las exportaciones superan a las importaciones en más de
550 millones de US$?
42. El departamento de investigaciones de una compañía de seguros, investiga continuamente las causas
de los accidentes automovilísticos, características de conductores, etc. En una muestra de 400 pólizas
de seguros que adquieren personas que aprendieron a manejar antes de los 20 años, se encontró que
120 habían tenido por lo menos un accidente en los últimos tres años. De manera similar, en una
muestra de 600 pólizas de personas que aprendieron a manejar después de los 30 años, se encontró que
150 habían tenido al menos un accidente.
a. A un nivel de significación del 2%, ¿existe diferencia significativa entre las proporciones de
personas que manejan desde antes de los 20 años y después de los 30 años que tuvieron algún
accidente en los últimos tres años?
b. Si la muestra de 400 pólizas de seguros que adquieren personas que aprendieron a manejar antes
de los 20 años se extrae de una base de datos que tiene en total 2000 clientes registrados. Con un
nivel de confianza del 96%, ¿se puede afirmar que más del 20% de las personas que aprendieron a
manejar antes de los 20 años, habían tenido por lo menos un accidente en los últimos tres años?
43. La página Web de la Bolsa de Valores de Lima muestra las cotizaciones diarias de la COMPAÑÍA
MINERA ATACOCHA S.A.A que se observan en el cuadro. A un nivel de significación del 2,5%, ¿se
puede afirmar que para esta compañía la cotización al cierre de la BVL no ha cambiado respecto a la
apertura?
44. El departamento de investigaciones de una compañía de seguros, investiga continuamente las causas
de los accidentes automovilísticos, características de conductores, etc. En una muestra de 400 pólizas
de seguros que adquieren personas que aprendieron a manejar antes de los 20 años, se encontró que
120 habían tenido por lo menos un accidente en los últimos tres años. De manera similar, en una
muestra de 600 pólizas de personas que aprendieron a manejar después de los 30 años, se encontró que
150 habían tenido al menos un accidente.
a. A un nivel de significación del 2%, ¿existe diferencia significativa entre las proporciones de
personas que manejan desde antes de los 20 años y después de los 30 años que tuvieron algún
accidente en los últimos tres años?
b. Si la muestra de 400 pólizas de seguros que adquieren personas que aprendieron a manejar antes
de los 20 años se extrae de una base de datos que tiene en total 2000 clientes registrados. Con un
nivel de confianza del 96%, ¿se puede afirmar que más del 20% de las personas que aprendieron a
manejar antes de los 20 años, habían tenido por lo menos un accidente en los últimos tres años?
45. Para resolver el desabastecimiento de energía eléctrica de un país se ha sugerido invertir en un método
que consiste en construir una planta flotante de energía nuclear a unas cuantas millas de la playa. La
preocupación por la posibilidad de que las embarcaciones choquen contra la planta flotante, que hade
mantenerse anclada, hizo necesario estimar la densidad de tráfico de embarcaciones en el área. Se
acordó previamente que si la densidad promedio del tráfico de embarcaciones en la zona supera a
cinco o si la variabilidad de la densidad del tráfico es mayor a 2 embarcaciones, entonces no se
invertirá en este método. El número de embarcaciones que pasan diariamente a 10 millas a la redonda
del punto donde se localizaría la planta flotante, registrado en 20 días seleccionados aleatoriamente del
último semestre (considere 30 días por mes), se muestra en el siguiente cuadro:
Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número de
6 3 8 11 11 12 2 6 10 4 5 2 1 4 5 3 5 6 7 15
embarcaciones
Utilizando un nivel de confianza del 96%, expresando los supuestos que considere necesarios, estime:
a. La densidad promedio de embarcaciones que pasan diariamente a 10 millas a la redonda del punto
donde se localizaría la planta. Interprete.
b. La variabilidad en millas de la densidad del tráfico de embarcaciones que pasan diariamente a 10
millas a la redonda del punto donde se localizaría la planta.
c. En base a los resultados obtenidos en los ítems a) y b), ¿considera usted que se debe invertir en el
método de las plantas flotantes de energía nuclear? Explique.
d. Si bajo las mismas condiciones con las que se viene trabajando, se desea reducir el máximo error
muestral a 1,2 ¿cuál debe ser el nuevo tamaño de muestra?
46. En los últimos días, diferentes medios de comunicación han dado cuenta de una serie de hechos
violentos propiciados por estudiantes universitarios. Ante esto en un sondeo llevado a cabo entre
estudiantes universitarios, 285 de 500 miembros seleccionados de la asociación estudiantil no están a
favor de estas manifestaciones violentas, mientras que 68 de 100 estudiantes que no pertenecen la
asociación tampoco están de acuerdo. A un nivel de significación del 5%, ¿será correcto suponer que
la proporción de estudiantes no asociados que no está a favor de hechos violentos supera en más del
2% a la proporción de estudiantes asociados que son de la misma opinión?
47. Una entidad financiera solicita periódicamente a sus clientes evaluaciones sobre la asesoría financiera
y los servicios que presta. Puntuaciones más altas indican mejor servicio, 10 es la puntuación más alta.
A continuación se presentan las puntuaciones dadas a dos consultores financieros por los miembros de
dos muestras aleatorias. El consultor A tiene 10 años de experiencia, mientras que el consultor B tiene
un año de experiencia.
a. A un nivel de significación del 5%, ¿se puede concluir que el consultor con más años de
experiencia supera en más de 0,5 al puntaje del consultor con menos años de experiencia? Asuma
que los puntajes tienen una distribución normal.
Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Consultor A 7,7 8,1 6,8 7,3 7,7 7,5 7,3 7,2 6,5 6,3 8,1 7,5 7,6 8,1 7,2 7,6
Consultor B 6,5 7,2 5,0 6,3 6,9 7,2 6,4 5,2 7,6 6,3
b. Ante la sospecha de que los clientes calificaban a los consultores sin criterio válido, se solicitó a
los diez clientes que calificaron al consultor B, que tiene menos años de experiencia y los
resultados fueron los siguientes:
Consultor B 5,8 5,0 8,9 6,5 7,3 6,6 7,4 7,2 7,8 4,9
En base a las calificaciones otorgadas al consultor B por los diez clientes, utilizando un nivel de
confianza del 95%, ¿se puede afirmar que la sospecha es válida?
48. Una investigación se ha realizado respecto a la demanda mensual en docenas de bebidas gaseosas
oscuras y claras. Se tiene la sospecha que las bebidas gaseosas oscuras tienen mayor demanda que las
bebidas gaseosas claras. Las mediciones recogidas se muestra en la tabla.
Gaseosas oscuras 557 567 546 568 573 543 537 547 543 550
Gaseosas claras 527 553 524 599 541 583 579 590 530 530
Suponga que la demanda mensual en docenas de bebidas gaseosas oscuras y claras sigue una
distribución normal. Con un nivel de significación del 5%, ¿la información muestral valida la sospecha
que se tiene?
49. Ante la proximidad de las elecciones municipales, la intensidad de las campañas de diferentes
candidatos, se ve enviciada con la llamada guerra sucia. Se teme que todo este ambiente afecte las
inversiones que vienen del exterior del país. Un sondeo de opinión entre los tres estamentos de la
universidad: alumnos, docentes y personal administrativo se les consultó al respecto. Las respuestas
registradas se han consolidado en el cuadro siguiente:
Estamento
Opinión Total
Alumnos Docentes Administrativos
Si afecta 60 50 40 150
No afecta 50 75 50 175
No sabe/ No opina 15 5 10 30
Total 125 130 100 355
A un nivel de significación del 2,5%, ¿se puede afirmar que existe relación entre la opinión y el
estamento al cual pertenece el entrevistado?
50. El gerente de ventas de una firma desea determinar si la proporción de clientes profesionales es similar
para cada uno de sus cuatro productos líderes en el mercado. Para ello realiza una selección aleatoria
de clientes consumidores de cada tipo de producto y registra si son o no profesionales. Los resultados
se muestran en la tabla.
Producto
Grupo de clientes 1 2 3 4
Profesionales 70 45 90 60
No profesionales 75 25 55 65
51. Un analista de uso de Internet, interesado por establecer si existe relación entre el Buscador de Internet
preferido y el tema para el cual realiza la búsqueda. Una muestra aleatoria de usuarios le permitió
generar la tabla que se muestra. A un nivel de significación del 2,5%, ¿qué puede concluir respecto al
interés que tiene el analista?
Buscadores de Internet
Temas Google Yahoo Altavista
Agencias de viajes 40 50 25
Inmobiliarias 25 30 42
Venta de autos 15 20 35
52. El gerente de ventas de una empresa que cuenta con 150 vendedores nuevos, piensa que no existe
diferencia significativa entre la proporción de vendedores nuevos que logran su primera venta antes
de los 3 días y la proporción correspondiente a los vendedores antiguos. Con un nivel de significación
del 5% verifique si es correcto lo que piensa el gerente de ventas. La información recopilada de las
muestras se presentan a continuación:
Vendedores Nuevos 15 37
Vendedores antiguos 11 49
53. Se realiza un estudio para analizar si las empresas que se dedican a exportar productos pesqueros,
agrícolas o de artesanía, estarían dispuestos a cambiar de tipo de producto para sus exportaciones. Para
esto, por cada tipo de producto, se seleccionó una muestra aleatoria de empresas exportadoras y se les
hizo la consulta. Los resultados se encuentran en el siguiente cuadro:
Cambiaría de Producto
Total
producto Pesquero Agrícola Artesanía
Sí cambia 8 20 5 33
No cambia 15 30 15 60
No sabe 12 10 10 32
Total 35 60 30 125
A un nivel de significación del 10%, ¿se puede afirmar que la probabilidad que una empresa esté
dispuesta a cambiar de producto de exportación es diferente entre los tipos de productos analizados?
Paquete A B C D Total
Alza 35 55 50 35 175
Baja 20 15 15 18 68
Total 55 70 65 53 243
57. Se desea analizar el número de ingresos por hora de usuarios que consultan
cierta base de datos confidencial. Un total de 500 horas observadas permitió Ingresos Nº de horas
elaborar la siguiente tabla: 0 60
1 130
a. ¿Qué distribución considera usted que tiene el número de ingresos por hora
de usuarios que consultan cierta base de datos confidencial? Justifique su 2 138
respuesta. 3 100
b. Utilizando un nivel de significación del 5%, verifique si la distribución 4 a más 72
considerada en el inciso a) es correcta.
58. Durante 60 días se seleccionan 4 vendedores por día, se desea establecer la distribución que tiene el
número de vendedores que logran su primera venta en menos de tres días.
X Oi
0 8
1 10
2 16
3 14
4 12
Total 60
59. Se desea analizar el ingreso mensual, en miles de soles, de jóvenes profesionales que recién se insertan
en el mercado laboral. Se sospecha
que la institución educativa de donde Observación Institución 1 Institución 2 Institución 3
proceden influyen en sus ingresos 1 4,29 1,44 2,80
mensuales. Para realizar el estudio se 2 1,56 5,26 2,26
ha seleccionado aleatoriamente a seis 3 3,19 2,23 3,00
jóvenes profesionales de cada una de
4 1,33 1,36 1,14
las tres principales instituciones
educativas del medio. Los datos se 5 2,87 5,60 2,85
muestran en la tabla. 6 3,98 2,73 3,17
Tratamiento
Error
Total
60. Para realizar un estudio que permita establecer como las ventas mensuales, en miles de dólares, de una
empresa se ve afectada por la ubicación en distintos lugares de la ciudad de tres sucursales. Se elaboró
un diseño experimental que permitió bloquear la experiencia de seis de sus mejores vendedores. Los
resultados que se obtuvieron se muestran en la tabla.
Vendedor 5 ,545
Error 2,286
Total 24,244 17
61. Se desea analizar las utilidades mensuales, en miles de soles, por la venta de tres tipos de productos en
tres diferentes establecimientos. Para esto se diseñó un experimento factorial con cuatro réplicas por
cada combinación del tipo de producto y establecimiento.
Realice un análisis completo del estudio propuesto, verifique los supuestos, realice las pruebas
principales, establezca conclusiones utilizando un nivel de significación del 2,5%.
62. presa “Prisma S.A.” cuenta con 4 máquinas que sirven para empaquetar sus productos. El jefe de
planta sospecha que las máquinas no se encuentran empaquetando los productos al mismo tiempo, por
lo cual decide realizar un experimento que permita evitar el efecto de la pericia del operario en el
manejo de una determinada máquina. Los resultados de los tiempos (en minutos) que se demoran en
empaquetar el producto se presentan a continuación:
63. Se desea analizar la influencia sobre el número de computadoras personales ensambladas por día
según el tipo de PC y el grado de satisfacción de los equipos de trabajadores encargados de esta tarea.
Para realizar el estudio se conformaron equipos de trabajo para cada grado de satisfacción y se
realizaron tres observaciones por cada tipo de PC. Los datos se registraron en la siguiente tabla.
Asumiendo que todas las condiciones del estudio se cumplen, a un nivel de significación del 4% se
puede decir que el número de computadoras personales ensambladas por día se encuentra influenciada
por el tipo de PC, el grado de satisfacción o una combinación de ambos. De ser necesario analice qué
tipo de PC, grado de satisfacción o ambos permite alcanzar un mayor número de computadoras
ensambladas.
Tipo de PC
Grado de satisfacción
Pentium II Pentium III Pentium IV
7 8 3
Poco satisfecho 8 7 6
10 16 7
4 12 5
Satisfecho 10 8 9
7 9 5
4 4 3
Muy satisfecho 6 10 2
7 6 2
64. Una empresa financiera cuenta con 4 productos que ofrece a sus clientes más selectos. El gerente de la
empresa sospecha que los productos no desarrollan similares niveles de rendimiento, por lo cual
decide realizar un experimento. Los resultados de los rendimientos de cada producto, dólares
mensuales, se presentan a continuación:
A un nivel de significación del 5%, realice un análisis completo y pruebe si el gerente de la empresa
financiera está en lo correcto.
66. Un equipo de analistas económicos están interesados en establecer si las empresas importadoras de
productos para la industria textil afecta al volumen de las importaciones medida en miles de dólares.
Ante la sospecha que los trimestres en los que se realizan estas operaciones afectan a la variable en
estudio se ha decidido realizar un diseño experimental de bloques para anular el efecto del trimestre en
que se realiza la operación. En el cuadro se muestran los volúmenes de importaciones de cuatro
empresas y el trimestre en que se realizó la operación.
Empresa importadora
Trimestre
Águila Delfín Fénix Corcel
1 393 401 405 432
2 396 405 413 445
3 399 423 434 452
4 429 425 449 469
Asuma que se cumplen los supuestos del análisis. A un nivel de significación del 5%:
Importadora 1532,083
Error 333,250
Satisfacción
Error
Total
Total corregida
68. En cada proposición marque con (V) si es verdadera o con (F) si es falsa.
71. Se desea analizar el nivel de rendimiento de las acciones de una empresa, en base a la cantidad de
acciones que tiene en bolsa. Se tomó una muestra aleatoria de ocho empresas registrándose el
rendimiento de sus acciones y la cantidad de acciones que poseen. Los datos se registran en la tabla.
Observación 1 2 3 4 5 6 7 8
Nivel de rendimiento ($) 20,9 21,2 20,9 21,9 21,4 22,2 22,7 22,5
Cantidad de acciones (cientos) 89 93 87 90 89 95 100 98
Lineal
ANOVA
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Cantidad de
,134 ,029 ,883 4,612 ,004
acciones, en cientos
(Constante) 9,290 2,697 3,445 ,014
Cuadrático
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 2,772 2 1,386 8,917 ,022
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual ,777 5 ,155
,884 ,781 ,693 ,394 Total 3,549 7
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Cantidad de acciones,
-,141 1,761 -,931 -,080 ,939
en cientos
Cantidad de acciones,
,001 ,009 1,814 ,156 ,882
en cientos ** 2
(Constante) 22,143 82,186 ,269 ,798
Potencia
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión ,006 1 ,006 20,580 ,004
R R cuadrado corregida la estimación Residual ,002 6 ,000
,880 ,774 ,737 ,017 Total ,008 7
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Cant idad de
,574 ,127 ,880 4,536 ,004
acciones, en cient os)
(Constante) 1,615 ,925 1,746 ,131
Exponencial
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión ,006 1 ,006 20,699 ,004
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual ,002 6 ,000
,880 ,775 ,738 ,017 Total ,008 7
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Cantidad de
,006 ,001 ,880 4,550 ,004
acciones, en cientos
(Constante) 12,280 1,539 7,980 ,000
a. Determine y valide el modelo de regresión que permita estimar el rendimiento de una acción.
Utilice un nivel de significación del 1%.
b. A un nivel de significación del 2,5%, ¿se puede decir que por cada 100 acciones que se incremente
el número de acciones de la empresa, el nivel de rendimiento se incrementa en menos de medio
dólar?
c. Con un nivel de confianza del 5%, ¿será correcto pensar que el rendimiento de una acción y el
número de acciones que tiene la empresa en el mercado se correlacionan en más de 0,8?
d. Determine y valide el modelo de regresión potencia que permita estimar el rendimiento de una
acción. Utilice un nivel de significación del 2%.
e. Utilizando la ecuación de regresión potencia, estime e interprete con un nivel de confianza del
95% el rendimiento de una acción, cuando la empresa cuenta con 95 000 acciones en el mercado.
72. Estudios financieros han mostrado que el precio de una acción (Y) está en razón directa del nivel de
endeudamiento de la empresa emisora (X1) y con el dividendo (X2), pero en razón inversa del número
de acciones en circulación (X3). Los datos indicados en la tabla están en dólares para Y, en cientos de
dólares para X1, en dólares para X2 y en millares de acciones para X3.
Salidas de SPSS
Regresión: Y X1 X2 X3
Correlaciones
Niv el de Número de
Precio de endeudamien acciones en
una acción, to, en cientos Div idendo, circulación,
en dólares de dólares en dólares en millares
Correlación de Pearson Precio de una acción, en
1,000 ,982 -,188 -,839
dólares
Niv el de endeudamiento,
,982 1,000 -,122 -,742
en cientos de dólares
Div idendo, en dólares -,188 -,122 1,000 ,210
Número de acciones en
-,839 -,742 ,210 1,000
circulación, en millares
Sig. (unilateral) Precio de una acción, en
. ,000
ANOVA ,251 ,000
dólares
Niv el de endeudamiento,
Resumen del modelo en cientos de dólares ,000 Suma de . Media,333 ,001
Modelo cuadrados gl cuadrática F Sig.
Div idendo,
R cuadrado en de
Error típ. dólares
la 1 Regresión
,251 172,836 ,333 3 57,612 . 555,485 ,227,000
Modelo R R cuadrado Númeroestimación
corregida de acciones en Residual 1,141 11 ,104
,000 ,001 ,227 .
1 ,997 ,993 circulación, en,3220
,992 millares Total 173,977 14
N Precio de una acción, en
15 15 15 15
dólares
Niv el de endeudamiento,
15 15 15 15
en cientos de dólares
Div idendo, en dólares 15 15 15 15
Estadística para Economistas Número de acciones en
15 15 15 15
181
circulación, en millares
Universidad Peruana de Ciencias Aplicadas
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -12,407 2,943 -4,216 ,001
Niv el de endeudamiento,
6,045 ,274 ,804 22,036 ,000
en cientos de dólares
Div idendo, en dólares -1,464 ,881 -,042 -1,661 ,125
Número de acciones en
-3,449 ,547 -,233 -6,305 ,000
circulación, en millares
Regresión: Y X1 X2
ANOVA
Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 168,714 2 84,357 192,319 ,000
Modelo R R cuadrado corregida estimación Residual 5,264 12 ,439
1 ,985 ,970 ,965 ,6623 Total 173,977 14
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -24,561 4,573 -5,371 ,000
Niv el de endeudamiento,
7,322 ,380 ,974 19,250 ,000
en cientos de dólares
Div idendo, en dólares -2,459 1,783 -,070 -1,379 ,193
Regresión: Y X1 X3
ANOVA
Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 172,550 2 86,275 725,479 ,000
Modelo R R cuadrado corregida estimación Residual 1,427 12 ,119
1 ,996 ,992 ,990 ,3449 Total 173,977 14
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -15,023 2,662 -5,644 ,000
Niv el de endeudamiento,
6,022 ,293 ,801 20,527 ,000
en cientos de dólares
Número de acciones en
-3,612 ,576 -,244 -6,267 ,000
circulación, en millares
Regresión: Y X2 X3
ANOVA
Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 122,472 2 61,236 14,267 ,001
Modelo R R cuadrado corregida estimación Residual 51,505 12 4,292
1 ,839 ,704 ,655 2,0717 Total 173,977 14
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 38,166 11,850 3,221 ,007
Div idendo, en dólares -,467 5,663 -,013 -,083 ,936
Número de acciones en
-12,351 2,373 -,836 -5,205 ,000
circulación, en millares
Regresión: Y X1
ANOVA
Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 167,880 1 167,880 357,931 ,000
Modelo R R cuadrado corregida estimación Residual 6,097 13 ,469
1 ,982 ,965 ,962 ,6849 Total 173,977 14
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -30,094 2,266 -13,280 ,000
Niv el de endeudamiento,
7,386 ,390 ,982 18,919 ,000
en cientos de dólares
Regresión: Y X2
ANOVA
Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 6,178 1 6,178 ,479 ,501
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 167,799 13 12,908
1 ,188 ,036 -,039 3,5927 Total 173,977 14
Coefici entes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 26,597 20,185 1,318 ,210
Div idendo, en dólares -6,643 9,602 -,188 -,692 ,501
Regresión: Y X3
ANOVA
Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 122,443 1 122,443 30,887 ,000
Modelo R R cuadrado corregida estimación Residual 51,535 13 3,964
1 ,839 ,704 ,681 1,9910 Total 173,977 14
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 37,266 4,460 8,356 ,000
Número de acciones en
-12,392 2,230 -,839 -5,558 ,000
circulación, en millares
73. La página Web del Banco Central de Reserva (http://estadisticas.bcrp.gob.pe/) muestra datos
correspondiente a las Reservas Internacionales Netas (millones de dólares), el Flujo de emisión
primaria (millones de soles), Emisión primaria (saldo en millones de soles), Operaciones cambiarias
(millones de dólares), desde enero de 1994 hasta mayo del 2011. Una muestra aleatoria de los registros
correspondientes a 10 meses seleccionados aleatoriamente permitió obtener los siguientes datos:
a. Determine y valide el modelo de regresión simple que permita estimar las reservas
internacionales netas, en base a la emisión primaria. Utilice un nivel de significación del 1%.
b. A un nivel de significación del 5%, ¿se puede decir que por cada millón de soles que se
incremente la emisión primaria, las reservas internacionales netas se incrementan en más de un
millón de dólares?
c. Con un nivel de significación del 5%, ¿será correcto pensar que la emisión primaria y las Reservas
Internacionales Netas se correlacionan en más de 0,9?
d. Determine y valide el modelo de regresión no lineal que permita estimar las Reservas
Internacionales Netas en base a la emisión primaria. Utilice un nivel de significación del 2%.
Anexo 1
Salidas de SPSS
Regresión: Y X1 X2 X3
Regresión: Y X1 X2
Regresión: Y X1 X3
Regresión: Y X2 X3
Regresión: Y X1
Regresión: Y X2
Regresión: Y X3
Anexo 2
Lineal
Cuadrático
Potencia
Exponencial
74. El administrador desea saber cómo se relaciona el tiempo en días transcurridos hasta que el nuevo
vendedor logra vender el primer apartamento con sus años de experiencia en ventas (antes de llegar a
la empresa). Las salidas del SPSS para el análisis respectivo son las siguientes:
Lineal
Cuadrático
Potencia
Exponencial
a. Escriba, valide e interprete el modelo de regresión simple, con un nivel de significación del 5%.
b. ¿Se puede afirmar que por cada año de experiencia adicional en un vendedor, el tiempo que
transcurre hasta su primera venta se reduce en más de 0,2 días? Use un nivel de significación del
5%.
c. Utilizando el modelo de regresión Exponencial, estime e interprete con un nivel de confianza del
95% el tiempo trascurrido hasta vender el primer apartamento, para un vendedor que tiene 2,5
años de experiencia.
75. Respecto al modelo de regresión lineal simple que permita estimar el puntaje obtenido en forma
general en base a la capacidad de colaboración con sus compañeros.
76. El gerente de una tienda dedicada a la venta de postres esta evaluando a sus empleados con la finalidad
de determinar el perfil de un buen empleado. Para este propósito tomó una muestra de Dieciséis
empleados, en los que ha evaluado las siguientes características:
X1 _M: Capacidad comunicativa con el cliente en una escala de 0 a 60
X2 _M: Capacidad de colaboración con sus compañeros en una escala de 0 al 80
X3 _M: Capacidad para decidir acciones en ausencia de su jefe superior en una escala de 0 a 40
Y _M: Puntaje obtenido en forma general en una escala de 0 a 100:
Nº Y X1 X2 X3
1 76 45,0 61,20 20,10
2 71 45,9 62,90 21,05
3 80 37,8 67,15 23,90
4 58 37,8 60,35 19,15
5 88 53,1 72,25 26,75
6 71 40,5 62,05 19,15
7 59 43,2 63,75 18,20
8 65 35,1 62,05 21,05
9 64 36,0 60,35 22,00
10 83 49,5 68,00 31,50
11 88 43,2 70,55 34,35
12 78 40,5 68,00 22,00
13 70 40,5 63,75 20,10
14 65 38,0 62,00 23,50
15 76 54,9 63,75 22,00
16 58 53,1 59,50 17,25
Respecto al modelo de regresión simple que permita estimar el puntaje obtenido en forma general en
base a la capacidad para decidir acciones en ausencia de su jefe superior.
Lineal
Cuadrático
Potencia
Exponencial
77. Realice un análisis de regresión con los datos recopilados para todas las variables establecidas
inicialmente y conteste las preguntas:
Modelo: Y X1 X2 X3
Modelo: Y X1 X2
Modelo: Y X1 X3
Modelo: Y X2 X3
Modelo: Y X1
Modelo: Y X2
Modelo: Y X3
78. El gerente de la empresa está examinando los datos correspondientes a las ventas trimestrales (en
miles de $) de los apartamentos. Los datos son los siguientes:
a. Calcule é interprete los índices estacionales de estos datos, use un promedio móvil centrado de 3
trimestres.
b. Estime los ingresos del cuarto trimestre del año 2013. Para ello utilice el modelo estimado de
regresión lineal para los datos sin estacionalidad
Lineal
79. La empresa tiene interés en realizar un estudio del precio de los apartamentos. Por ello ha decidido
incluir en su análisis las siguientes variables: Y = Precio del apartamento (miles de dólares), X1 =
Área construida (metros cuadrados), X2 = Número de dormitorios y X3 = Número de baños
Regresión: Y; X1; X2
Regresión: Y; X1; X3
Regresión: Y; X2; X3
Regresión: Y; X1
Regresión: Y; X2
Regresión: Y; X3
a. Analice la presencia de Multicolinelidad en el modelo de regresión que incluye las tres variables
independientes.
b. A un nivel de significación del 5%, determine, escriba, e interprete el modelo de regresión.
80. En la página Web del Banco Central de Reserva (www.bcrp.gob.pe) se encuentra publicado el
volumen de Exportaciones trimestrales de productos no tradicionales, en millones de dólares, desde el
año 2004 hasta el año 2010. En los cuadros se muestran los valores publicados para cada trimestre y la
razón entre los valores observados de las exportaciones y el promedio móvil centrado para cada tres
trimestres.
Año I II III IV
2004 782,7087 790,6828 896,1583 1009,5722
2005 979,1288 1033,6672 1081,0258 1183,2247
2006 1119,3528 1236,6941 1343,0434 1579,4375
2007 1361,921 1466,632 1636,655 1847,954
2008 1792,67 1864,071 2011,551 1894,034
2009 1437,282 1401,461 1575,998 1770,906
2010 1605,705 1807,726 1922,766 2305,292
Año I II III IV
2004 0,96052 0,99706 1,04987
2005 0,97188 1,00232 0,98337 1,04908
2006 0,94880 1,00297 0,96873 1,10594
2007 0,92690 0,98537 0,99166 1,05052
2008 0,97699 0,98658 1,04593 1,06349
2009 0,91106 0,95235 0,99571 1,07271
2010 0,92917 1,01630 0,95568
a. Determine e interprete los índices estacionales ajustados para cada uno de los trimestres
b. Los cuadros que se muestran a continuación corresponden a las estimaciones de los modelos
simples de la serie sin estacionalidad. Determine, valide y escriba el modelo de pronóstico
correspondiente a un nivel de significación del 1%.
Ecuación Lineal
Ecuación Cuadrática
Ecuación Potencia
Ecuación Exponencial
81. Se desea analizar y predecir las importaciones trimestrales de bienes de capital en base a las
importaciones de insumos, bienes de consumo, otros bienes y de los principales alimentos. Una
muestra aleatoria de 12 observaciones seleccionada de la página Web del Banco Central de Reserva
(www.bcrp.gob.pe). Los datos se muestran en la siguiente tabla:
Y: Import. bienes X1: Import. X2: Import. bienes X3: Import. X4: Import.
N° de capital Insumos consumo otros bienes principales alimentos
(mill. US$) (mill. US$) (mill. US$) (mill. US$) (mill. US$)
1 560,866486 817,107288 343,606387 53,690855 108,415074
2 530,260243 976,557723 421,153549 29,525232 115,872593
3 464,200875 958,716839 416,017460 17,151339 129,709195
4 434,223986 966,205911 429,296631 17,650289 141,782568
5 505,603440 1087,487961 418,819682 17,193981 106,378897
6 482,927301 1137,243734 500,818787 10,487717 153,051702
7 614,257374 1394,044775 504,862718 27,328811 191,837141
8 748,275913 1665,191621 567,635145 25,350201 177,455845
9 931,301847 1840,245539 565,096679 43,842022 188,576217
10 1221,729517 2123,558981 790,876200 27,251988 250,589227
11 1572,164000 2868,301000 818,234000 30,137000 308,401741
12 2394,286000 4027,429000 1100,245000 30,992000 428,257873
Ecuación Y X1 X2 X3 X4
Ecuación Y X1 X3 X4
Ecuación Y X2 X3 X4
Ecuación Y X1 X3
Ecuación Y X2 X3
Ecuación Y XX2 X4
Ecuación Y X3 X4
82. Un analista propone que para lograr una rápida estimación de la importación de bienes de capital, se
debe utilizar la importación de bienes de consumo en una ecuación de regresión lineal. Por esto, se
obtuvieron los siguientes cuadros estadísticos:
a. A un nivel de significación del 2,5%, valide, escriba e interprete la ecuación de regresión lineal
que permita estimar las importaciones de bienes de capital.
b. Verifique los supuestos del modelo de regresión lineal.
c. A un nivel de significación del 2,5%, ¿se puede afirmar que por cada millón de dólares adicionales
en las importaciones de bienes de consumo, las importaciones de bienes de capital se incrementan
en menos de tres millones de dólares?
83. Se desea analizar si el tipo de paquete de acciones que corren en la BVL afecta al nivel de rendimiento
de los paquetes de acciones. Para realizar el estudio se seleccionó aleatoriamente observaciones
correspondientes a cuatro tipos de acciones diferentes y se registró el rendimiento de las mismas al
cierre de operaciones.
Paquete
Error 0,002
84. Se desea analizar el superávit semanal de una pequeña empresa y el ingreso semanal que obtiene,
ambos en miles de dólares. Para ello se recopila información de siete observaciones que se muestran a
continuación:
Lineal
ANOVA
Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la Durbin- Regresión ,570 1 ,570 156,739 ,000
Modelo R R cuadrado corregida estimación Watson Residual ,018 5 ,004
1 .984 .969 .963 .0603 2.234 Total ,589 6
Coefici entes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso semanal,
,185 ,015 ,984 12,520 ,000
miles de dólares
(Constante) ,287 ,055 5,206 ,003
Unstandardiz
ed Residual
N 7
Parámet ros normales a,b Media .0000000
Desv iación t ípica
.05506827
Cuadrático
ANOVA
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso semanal,
,149 ,097 ,795 1,530 ,201
miles de dólares
Ingreso semanal,
,006 ,016 ,192 ,370 ,730
miles de dólares ** 2
(Constante) ,325 ,121 2,695 ,054
Potencia
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión ,898 1 ,898 232,843 ,000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual ,019 5 ,004
,989 ,979 ,975 ,062 Total ,917 6
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Ingreso semanal,
,589 ,039 ,989 15,259 ,000
miles de dólares)
(Constante) ,458 ,022 21,034 ,000
Exponencial
ANOVA
Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión ,894 1 ,894 187,281 ,000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual ,024 5 ,005
,987 ,974 ,969 ,069 Total ,917 6
Coefici entes
Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso semanal,
,231 ,017 ,987 13,685 ,000
miles de dólares
(Constante) ,393 ,025 15,858 ,000
a. A un nivel de significación del 5%, evalúe los supuestos del modelo de regresión lineal.
b. ¿Será correcto afirmar, con un nivel de significación del 5%, que la correlación entre el Ingreso y
el Superávit es menor a 0,99 en un modelo de regresión lineal?
c. Determine y valide el mejor modelo de regresión simple, utilice un nivel de significación del
2,5%.
d. Con un nivel de confianza del 95%, utilizando el modelo determinado en c), estime e interprete
el superávit de la empresa para una semana en la cual su ingreso es de $3 500.
85. Un investigador financiero sospecha que el rubro de inversión en bolsa afecta al nivel de ingresos por
comisiones, en cientos de dólares, del agente de bolsa. Para realizar el estudio se observaron para cada
rubro u total de seis agentes, los cuales ante la sospecha que su experiencia en años pudiera afectar al
estudio se agentes que cuentan desde uno hasta seis años de experiencia. Los datos son los siguientes:
Experiencia Rubro
en años Industria Exportación Cómputo
1 50 63 65
2 51 19 58
3 59 42 64
4 49 66 53
5 86 73 45
6 68 88 85
Con la información disponible, realice un análisis completo al nivel de significación del 10%. Elabore
un breve informe para el investigador financiero, con las conclusiones a las que ha llegado.
86. Una empresa de servicio de mantenimiento de redes registra el número de quejas de sus clientes. La
dirección de la empresa ha registrado en los últimos años el número de quejas recibidas por cada
trimestre.
Trimestre Trimestre
Año I II III 1V Año I II III 1V
2009 7 3 4 10 2009 0,64286 0,70588 1,30435
2010 9 4 5 12 2010 1,17391 0,66667 0,71429 1,24138
2011 12 4 6 16 2011 1,28571 0,54545 0,69231 1,50000
2012 10 5 8 20 2012 0,96774 0,65217 0,72727
El cuadro de la derecha muestra los cocientes correspondientes al número de quejas entre el Promedio
Móvil Centrado de cada tres trimestres.
87. Preocupados por el incremento en las tarifas de servicios de agua potable, Enigma S.A desea
establecer un modelo que permita prever y explicar que variables determinan su nivel de consumo. A
continuación se dan los datos sobre el consumo mensual de agua (galones), su producción mensual
(toneladas), la media de la temperatura mensual (ºC) y el número de días de operación.
Correlaciones
Regresión: Y X1 X2 X3
ANOVA
Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1353703.8 3 451234.590 34.775 .003
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 51903.731 4 12975.933
1 .981 .963 .935 113.912 Total 1405607.5 7
Coefici entes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1134.751 931.671 1.218 .290
X1: Días de operación -9.449 47.545 -.020 -.199 .852
X2: Media de temperatura 2.241 5.403 .077 .415 .700
X3: Producción 11.126 2.225 .917 5.000 .007
Regresión: Y X1 X2
ANOVA
Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1029363.5 2 514681.743 6.840 .037
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 376244.014 5 75248.803
1 .856 .732 .625 274.315 Total 1405607.5 7
Coefici entes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1212.392 2243.275 .540 .612
X1: Días de operación -34.036 113.879 -.070 -.299 .777
X2: Media de temperatura 25.205 6.850 .866 3.680 .014
Regresión: Y X1 X3
ANOVA
Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1351470.7 2 675735.339 62.410 .000
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 54136.823 5 10827.365
1 .981 .961 .946 104.055 Total 1405607.5 7
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1136.468 851.041 1.335 .239
X1: Días de operación -5.840 42.697 -.012 -.137 .897
X3: Producción 11.910 1.070 .982 11.128 .000
Regresión: Y X2 X3
ANOVA
Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1353191.3 2 676595.641 64.541 .000
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 52416.218 5 10483.244
1 .981 .963 .948 102.388 Total 1405607.5 7
Coefici entes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 954.817 197.456 4.836 .005
X2: Media de temperatura 2.045 4.774 .070 .428 .686
X3: Producción 11.171 1.989 .921 5.615 .002
Regresión: Y X1
ANOVA
Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 10584.000 1 10584.000 .046 .838
Modelo R R cuadrado corregida estimación Residual 1395023.5 6 232503.917
1 .087 .008 -.158 482.187 Total 1405607.5 7
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1504.250 3940.726 .382 .716
X1: Días de operación 42.000 196.852 .087 .213 .838
Regresión: Y X2
ANOVA
Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 1022641.5 1 1022641.5 16.022 .007
Modelo R R cuadrado corregida estimación Residual 382965.964 6 63827.661
1 .853 .728 .682 252.641 Total 1405607.5 7
Coefici entes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 558.383 455.015 1.227 .266
X2: Media de temperatura 24.834 6.204 .853 4.003 .007
Regresión: Y X3
ANOVA
Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 1351268.1 1 1351268.1 149.203 .000
Modelo R R cuadrado corregida estimación Residual 54339.374 6 9056.562
1 .980 .961 .955 95.166 Total 1405607.5 7
Coeficientes
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1021.310 113.412 9.005 .000
X3: Producción 11.896 .974 .980 12.215 .000
Misión: Formar líderes íntegros e innovadores con visión global para que transformen el Perú.
Visión: Ser líder en la educación superior por su excelencia académica y su capacidad de innovación.
III. INTRODUCCIÓN
El curso de Estadística para Economistas comprende el estudio de los métodos básicos más utilizados de la
estadística inferencial, que constituyen herramientas muy útiles para la toma de decisiones y como base para
otras disciplinas para el mismo fin, que se estudiarán a lo largo de la carrera.
Al finalizar el curso, el alumno aplicará los conceptos y fundamentos de la estadística inferencial de manera
ordenada y con rigor matemático, analizando distintos problemas de incertidumbre en el ámbito de su profesión,
que conducen a una toma de decisiones correcta.
V. UNIDADES DE APRENDIZAJE
LOGRO
El alumno al término de la unidad 1, utiliza las medidas de resumen de datos para el análisis del
comportamiento de los datos.
TEMARIO
- Definición de simetría de una distribución de datos. Distribuciones asimétricas. Coeficiente de asimetría.
Cálculo e interpretación.
- Definición de curtosis. Coeficiente de curtosis. Clasificación de las distribuciones de datos según el valor
1
del coeficiente de curtosis.
- Formación de nuevas distribuciones de datos sumando, restando, multiplicando o dividiendo por una
constante.
- Curva de Lorenz. Índice de Ghini.
HORA(S) / SEMANA(S)
Semana 1
LOGRO
El alumno al término de la unidad 2, utiliza las herramientas estadísticas que le permite entender el
comportamiento conjunto de varias variables.
TEMARIO
Función de probabilidad conjunta de dos variables aleatorias.
Distribuciones marginales. Distribuciones condicionales.
Distribuciones n-dimensionales. Distribuciones marginales. Distribuciones condicionales. Independencia
estocástica. Esperanza matemática para una función de n variables aleatorias. Covariancia. Coeficiente de
correlación. Momentos. Asimetría y Curtosis. Distribución Normal bivariada.
HORA(S) / SEMANA(S)
Semana 1 y 2
LOGRO
El alumno al término de la unidad 3, modela casos sencillos que conducen a estimar parámetros y verificar
hipótesis de información relacionada con su especialidad, reconociendo la importancia de ésta herramienta
en la toma de decisiones.
TEMARIO
- Estimación puntual: Muestra aleatoria, propiedades de los estimadores, estimadores puntuales de la
media, de la proporción, de la varianza, del cociente de varianzas, de la diferencia de promedios y de la
diferencia de proporciones.
- Estimación por intervalos: Intervalos de confianza para la media, la varianza y proporción poblacional;
para la diferencia de medias, el cociente de varianzas y la diferencia de proporciones.
- Prueba de hipótesis: Conceptos generales. Tipos de errores. Pruebas de hipótesis de la media, la varianza
y la proporción poblacional. Uso del valor p, potencia de prueba. Prueba de hipótesis para dos varianzas,
dos medias poblacionales (muestras independientes y muestras relacionadas) y para dos proporciones
poblacionales.
HORA(S) / SEMANA(S)
Semanas 3 a 7
2
UNIDAD Nº: 4 Estadística no Paramétrica
LOGRO
El alumno al término de la unidad 4, comprende y utiliza la distribución Ji cuadrado para probar la
independencia de dos variables, así como, para verificar hipótesis referentes a la distribución de
probabilidad que dio origen a un conjunto de datos.
TEMARIO
Definición de estadística no paramétrica. Diferencias entre la Estadística. Paramétrica y la Estadística No
Paramétrica. Pruebas de hipótesis sobre frecuencias de k categorías. Pruebas de bondad de ajuste, Prueba
de Kolmogorov-Smirnov. Pruebas de independencia para tablas de contingencia. Pruebas de homogeneidad
de subpoblaciones respecto a las k categorías de una variable cualitativa. Prueba de Kruskal-Wallis Prueba
de homogeneidad Prueba de independencia.
HORA(S) / SEMANA(S)
Semanas 7 y 9
LOGRO
El alumno al término de la unidad 5, modela experimentos factoriales y realiza los análisis de
comprobación respectivos aplicando la técnica de análisis de varianza con el apoyo de algún software
estadístico.
TEMARIO
- Experimentos de un factor: Conceptos básicos. La estrategia del diseño experimental. Análisis de
varianza: Diseño completamente aleatorizado. Comparaciones múltiples. Prueba de rango múltiple de
Duncan. Diseño de bloques completamente aleatorizados.
- Experimentos de dos factores: Diseño 2x2
HORA(S) / SEMANA(S)
Semana 10 y 11
LOGRO
El alumno al término de la unidad 6, modela regresiones lineales y no lineales con información propia y
con el apoyo de algún software estadístico, reconociendo la importancia del uso de esta herramienta en su
campo de trabajo.
TEMARIO
- Regresión simple: Diagrama de dispersión. Estimación de los parámetros. Descomposición de la varianza
total. Coeficiente de determinación. Error estándar de la estimación. Coeficiente de correlación. Intervalos
de predicción para un valor medio y para un valor individual. Prueba de hipótesis de los coeficientes de
regresión.
- Análisis de regresión no lineal. Ajuste de una curva exponencial a una nube de puntos.
3
- Análisis de regresión múltiple. Objetivos del análisis de regresión múltiple. Modelo de regresión múltiple.
Interpretación de la matriz de correlaciones. Estimación de los coeficientes de regresión. Hipótesis
relacionadas. El coeficiente de determinación múltiple y el coeficiente de correlación múltiple. Intervalos
de predicción para un valor medio y para un valor individual. Prueba de hipótesis de los coeficientes de
regresión. Análisis de los supuestos.
HORA(S) / SEMANA(S)
Semana 12 a 13
LOGRO
El alumno al término de la unidad 7, modela problemas sobre el comportamiento de las series de tiempo y
pronostica de manera óptima.
TEMARIO
- Series de tiempo. Componentes. Métodos de suavización: Promedios móviles.
Proyecciones de la tendencia.
- Series de tiempo. Empleo de componentes de tendencia y estacionales en los pronósticos.
HORA(S) / SEMANA(S)
Semana 15
VI. METODOLOGÍA
El curso se desarrolla en una sesión semanal de teoría de tres horas y una sesión semanal de práctica de dos
horas. En cada caso son sesiones expositivas por parte del profesor con la participación constante de los
alumnos. Se analizan casos propios de su carrera. Se aplicaran cuatro prácticas calificadas, las cuales se
realizarán dentro de la clase, un examen final, presentación y exposición de un Trabajo de Aplicación que busca
promover el trabajo en equipo. Además, se cuenta con siete listas de ejercicios, las cuales permiten consolidar y
fortalecer lo trabajado en clase.
VII. EVALUACIÓN
FÓRMULA
12% (PC1) + 14% (PC2) + 14% (PC3) + 20% (TF1) + 15% (PC4) + 25% (EB1)
4
VIII. CRONOGRAMA
TIPO DE DESCRIPCIÓN NOTA NÚM. DE FECHA OBSERVACIÓN RECUPERABLE
PRUEBA PRUEBA
PC PRÁCTICAS PC 1 28.08.201 SÍ
3
PC PRÁCTICAS PC 2 20.09.201 SÍ
3
PC PRÁCTICAS PC 3 25.10.201 SÍ
3
TF TRABAJO FINAL 1 13.11.201 NO
3
PC PRÁCTICAS PC 4 15.11.201 SÍ
3
EB EVALUACIÓN FINAL 1 Semana SÍ
16
BÁSICA
WACKERLY, Dennis D. (2008) Mathematical statistics with applications. Belmont, California : Thomson
Brooks/Cole.
(519.5 WACK)
RECOMENDADA
(No necesariamente disponible en el Centro de Información)
DEVORE, Jay L. (2005) Probabilidad y estadística para ingeniería y ciencias. México, D.F. : Thomson.
(519.5 DEVO 2005)
EVANS, Michael y ROSENTHAL, Jeffrey (2005) Probabilidad y Estadística: La Ciencia de la
Incertidumbre.
FREUND, Jhon, MILLER, Irwin y MILLER, Marylees (2000) Estadística Matemática con
Aplicaciones.
GREEN H. Williams (1998) Análisis Econométrico.
MENDENHALL, William (1994) Estadística matemática con aplicaciones. México, D.F : Iberoamérica.
(519.5 MEND)
NOVALES, Alfonso (1996) Estadística y Econometría.
NOVALES CINCA, Alfonso (1993) Econometría. Madrid : McGraw-Hill.
(330.015195 NOVA)
RAMSEY, James Bernard. (2002) The elements of statistics : with applications to economics and the
social sciences. Belmont, CA : Duxbury/Thomson Learning.
(519.5 RAMS)
5
PLAN CALENDARIO CICLO 2013-2
CURSO : Estadística para Economistas
CÓDIGO : MA175
12-ago PROFESOR : Segundo Jaramillo
Sem. Fecha Sesión 1 (Teoría - 3 horas) Sesión 2 (Práctica-2 horas)
Definición de simetría de una distribución de datos. Distribuciones
asimétricas. Coeficiente de asimetría. Cálculo e interpretación.
Función de probabilidad conjunta de dos variables aleatorias.
1 12-ago 17-ago Trabajo: Definición de curtosis. Coeficiente de curtosis. Clasificación de las
Distribuciones marginales. Distribuciones condicionales.
distribuciones de datos según el valor del coeficiente de curtosis. Curva de
Lorenz. Índice de Ghini.
Esperanza matemática para una función de n variables aleatorias.
2 19-ago 24-ago Funcion generatriz de Momentos. Distribución Normal bivariada
Covariancia. Coeficiente de correlación.
Vie.30.Ago
Práctica Calificada 1 (12%) Estimación por intervalos. Intervalo de confianza para la media con
3 26-ago 31-ago (hasta distribución normal bivariada) varianza poblacional conocida y desconocida. Intervalo de confianza para
Estimación puntual. Propiedades. una proporción.
Retroalimentación de PC 1
Tamaño de muestra para estimar un promedio y una proporción
4 02-sep 07-sep Intervalo de confianza para dos varianzas. Intervalo de confianza para la
poblacional. Intervalo de confianza para una varianza.
diferencia de promedios: Muestras independientes.
Prueba de hipótesis: Definición. Errores. Prueba de hipótesis para una
Intervalo de confianza para la diferencia de promedios. Muestras
5 09-sep 14-sep media. Prueba de hipótesis para una varianza. Prueba de hipótesis para
relacionadas. Intervalo de confianza para dos proporciones.
una proporción poblacional.
Prueba de hipótesis para dos varianzas poblacionales. Prueba de hipótesis Práctica Calificada 2 (14%)
6 16-sep 21-sep
para dos promedios poblacionales:muestras independientes. (hasta prueba de hipótesis para una proporción)
Retroalimentación de PC 2
Prueba de hipótesis para la diferencia de promedios de muestras Distribución Chi- Cuadrado: Prueba de Independencia y prueba de
7 23-sep 28-sep
relacionadas. Prueba de hipótesis para dos proporciones poblacionales. homogeneidad de proporciones.
Presentación Primer Informe (5%)
8 30-sep 05-oct Retroalimentación del trabajo de la Tarea académica 1
Mar.08.Oct
Distribución Chi- Cuadrado. Prueba de bondad de ajuste utilizando el Distribución Chi- Cuadrado. Pruebas de Bondad de ajuste de Kolmogorov -
9 07-oct 12-oct
Método clásico. Smirnov.
Retroalimentación de PC 3
Regresión lineal simple. Gráfico de dispersión. Método de mínimos
12 28-oct 02-nov Inferencia sobre los parámetros del modelo. Predicción. Análisis de los
cuadrados. Coeficiente de determinación. Coeficiente de correlación.
residuales. Validación de los supuestos del modelo.
Regresión no lineal. Inferencia sobre los parámetros del modelo. Modelo de Regresión Múltiple. Ecuación estimada. Matriz de correlaciones.
13 04-nov 09-nov
Predicción. Análisis de los residuales. Coeficiente de correlación múltiple.
Presentación Informe Final (5%) Práctica calificada 4 (15%)
14 11-nov 16-nov
Exposición de Trabajo Final (10%) (hasta coeficiente de correlación múltiple)
Supuestos del modelo. Pruebas de significacincia F y t. Pronósticos para un Retroalimentación de PC 4
15 18-nov 23-nov
modelo de regresión múltiple. Aplicaciones de regresión lineal Múltiple
16 25-nov 30-nov Exámenes Finales (25%)