MA175 Cuaderno 201302

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 220

Estadística para Economistas (MA175), ciclo 2013-2

Item Type info:eu-repo/semantics/LearningObject

Authors Jaramillo Vega, Segundo Santiago

Publisher Universidad Peruana de Ciencias Aplicadas (UPC)

Download date 06/11/2020 01:04:32

Link to Item http://hdl.handle.net/10757/296207


Universidad Peruana de Ciencias Aplicadas

PRE GRADO

AUTORES : PROFESORES DEL CURSO

TÍTULO : GUÍA DEL ALUMNO

FECHA : AGOSTO 2013

CURSO : ESTADÍSTICA PARA ECONOMISTAS

CÓDIGO : MA175

ÁREA : CIENCIAS

CICLO : 2013 - 02

Separata de Estadística para Economistas


Universidad Peruana de Ciencias Aplicadas

Estadística para Economistas 1


Universidad Peruana de Ciencias Aplicadas

INDICE

1. Introducción. Medidas de Asimetría, Curtosis y Concentración. 04


Medidas de localización 04
Medidas de dispersión 07
Medidas de Asimetría 09
Medidas de Curtosis 10
Curva de Lorenz 12
Coeficiente de Gini 13
2. Distribuciones Multivariadas
Función de probabilidad discreta conjunta 16
Función de probabilidad marginal 18
Función de probabilidad condicional 19
Función de densidad de probabilidad conjunta 20
Función de densidad marginal 21
Función de densidad condicional 23
Esperado de funciones de dos variables aleatorias 25
Independencia de variables 27
Covarianza 29
Coeficiente de Correlación 29
3. Estimaciones puntuales e Intervalos de Confianza. Pruebas de Hipótesis
Estimación puntual 34
Intervalo de confianza para la media poblacional 35
Tamaño de muestra para estimar una media poblacional 37
Intervalo de confianza para la proporción poblacional 39
Tamaño de muestra para estimar una proporción poblacional 39
Intervalo de confianza para una varianza poblacional 41
Intervalo de confianza para el cociente de varianzas 43
Intervalo de confianza para la diferencia entre dos medias 45
Intervalo de confianza para la diferencia de proporciones 50
Prueba de hipótesis
Conceptos generales 52
Prueba de hipótesis para una media poblacional 54
Prueba de hipótesis para una varianza poblacional 55
Prueba de hipótesis para una proporción poblacional 57
Prueba de hipótesis para dos varianzas poblacionales 59
Prueba de hipótesis para dos medias poblacionales 60
Prueba de hipótesis para dos proporciones poblacionales 62
4. Estadística no paramétrica
Prueba de independencia 67
Prueba de homogeneidad de proporciones 70
Prueba de bondad de ajuste 72
Otras pruebas 78
5. Diseños Experimentales
Diseño completamente aleatorizado 82
Prueba para la diferencia de medias 85
Diseño con Bloques Completos Aleatorizados 90
Estadística para Economistas 2
Universidad Peruana de Ciencias Aplicadas

Diseño Factorial 94
Tipos de modelos 95
Diseño factorial de dos factores 96
Pruebas de hipótesis 97
Descomposición de la suma de cuadrados 98
6. Análisis de Regresión
Análisis de regresión lineal simple y de Correlación 103
El diagrama de dispersión 103
EL método de mínimos cuadrados 104
La línea recta estimada 105
Descomposición de la varianza total 106
Coeficiente de determinación y de no determinación 107
Error estándar de la estimación 107
Coeficiente de correlación 108
Inferencia sobre los coeficientes de regresión 108
Inferencia sobre el coeficiente de correlación 109
Pronósticos 109
Regresión no lineal 112
Regresión Múltiple
Elección de las variables de predicción 122
El modelo de regresión múltiple 122
Supuestos del análisis de regresión múltiple 122
Ecuación de regresión muestral 122
Coeficiente de regresión 123
El error estándar de la estimación 124
Coeficiente de determinación múltiple 124
Pruebas de hipótesis 125
Pruebas individuales y Prueba conjunta 125
Intervalo de confianza para los coeficientes poblacionales 125
Multicolinelidad 126
7. Series de Tiempo
Modelo Multiplicativo 131
Tendencia 131
Componente Cíclica 131
Componente estacional 132
Componente irregular 132
Estudio de una serie de tiempo 132
Modelo de tendencia 132
Descomposición de una serie de tiempo 135
Método de Atenuación Exponencial 141
MISCELÁNEA 148
SÍLABO 189
PLAN CALENDARIO 194

Estadística para Economistas 3


Universidad Peruana de Ciencias Aplicadas

UNIDAD 1. INTRODUCCIÓN. MEDIDAS DE ASIMETRÍA, CURTOSIS Y


CONCENTRACIÓN.

1.1. Medidas de localización


Las medidas de localización o de tendencia central se refieren al valor central que representa a los
datos de una determinada variable.

Media

La media aritmética (media o promedio) de un conjunto de valores de una variable es la suma de


dichos valores dividida entre el número de valores.

Población
N

x i
 i 1

Muestra
Media de datos no Media de datos Media de datos
agrupados agrupados agrupados por intervalos
n k k

 xi  xi fi x f ´
i i
x  i 1
x  i 1
x  i 1

n n n
donde:
xi : dato (datos no agrupados) o marca de clase (datos agrupados)
fi : frecuencia de cada clase
N : tamaño de la población
n : tamaño de la muestra

Características de la media
Se puede calcular para datos medidos en escala de intervalo o razón.
El valor de la media es sensible a los valores extremos (mínimo y máximo), por lo que la
presencia de valores inusuales la distorsionan.
El cálculo de la media es sencillo y fácil de entender e interpretar.
Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la media de los n valores yi es:
y  ax  b

Estadística para Economistas 4


Universidad Peruana de Ciencias Aplicadas

Mediana

Es el percentil 50.

Características de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razón.
El valor de la mediana depende del número de datos observados.
La mediana es un estadístico robusto, es decir, no se ve afectada por el valor de los extremos
(mínimo y máximo). Por eso se le utiliza cuando hay datos inusuales o el polígono de
frecuencias no es simétrico.

Moda

La moda de un conjunto de datos observados de una variable es el valor que se presenta con mayor
frecuencia.
Moda de datos no agrupados
Agrupe los datos de acuerdo a sus frecuencias, el dato con mayor frecuencia es la moda.
Moda de datos agrupados en intervalos
Identifique la clase con mayor frecuencia (clase modal).
Obtenga el valor de la moda mediante la expresión:
 d1 
Mo  Lmo    w
 d1  d 2 
donde:
Lmo : límite inferior de la clase modal
d1 : diferencia entre las frecuencias de las clases modal y precedente
d2 : diferencia entre las frecuencias de las clases modal y siguiente
w : amplitud de clase

Características de la moda
La moda se puede calcular para cualquier escala de medición.
El valor de la moda no se ve afectada por valores extremos.
La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o
más modas (multimodal). Algunas series de datos no tienen moda.
La moda es menos importante que la mediana o la media debido a su ambigüedad.

Estadística para Economistas 5


Universidad Peruana de Ciencias Aplicadas

La ojiva de los ingresos mensuales, en nuevos soles, de los trabajadores de una empresa se muestra
en la siguiente gráfica:

Ojiva de ingresos

1.00

0.90

0.80

0.70

0.60
Hi

0.50

0.40

0.30

0.20

0.10

0.00
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000

Ingresos

Calcule la media, mediana y moda de los ingresos

Estadística para Economistas 6


Universidad Peruana de Ciencias Aplicadas

Media ponderada

También llamada media pesada. Permite calcular el valor medio considerando la importancia o peso
de cada valor sobre el total.
n

xw i i donde:
xw  i 1
n xi: Observación individual
w
i 1
i wi: eso asignado a cada observación

1.2. Medidas de dispersión


Con las medidas de tendencia central es posible determinar el valor central de una distribución,
pero no indican qué tan cercanos o lejanos están los datos de dicho valor central.
Las medidas de variabilidad indican cuán alejados están los valores de una variable del valor
que los representa y por lo tanto permiten evaluar la confiabilidad de ese valor central.
Cuando la medida de dispersión tiene un valor pequeño, los datos están concentrados alrededor
de la medida de central, en cambio si la medida de dispersión tiene un valor grande, los datos no
están concentrados alrededor de la medida central.

Varianza

La varianza es el promedio de los cuadrados de la diferencia de cada dato con la media. Las
unidades de la varianza son las unidades de los datos al cuadrado.

Población
N

 ( x  )
i
2

2  i 1

Muestra
Varianza de datos no Varianza de datos Varianza de datos agrupados
agrupados agrupados por intervalos
n k k

 (x  x )
i 1
i
2
 f (x  x )
i 1
i i
2
 f (x  x )
i 1
i
´
i
2

s2  s2  s2 
n 1 n 1 n 1

Estadística para Economistas 7


Universidad Peruana de Ciencias Aplicadas

Propiedades de la varianza
La varianza es un número real no negativo
Es expresada en unidades cuadráticas a las unidades de los datos.
Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la varianza de los n valores yi es:
S y2  a 2 S x2
Depende del valor de todos los datos y es sensible a la variación de cada uno de ellos.
La varianza puede ser calculada también con datos agrupados en intervalos, inclusive de
amplitud diferente, siempre que se puedan determinar las marcas de clase.

Desviación estándar

Es la raíz cuadrada positiva de la varianza.


Las unidades de la desviación estándar son las mismas unidades de los datos.

Coeficiente de variación

El coeficiente de variación (CV) de un conjunto de datos indica lo grande que es la desviación


estándar en comparación con la media.


Población CV  100%

s
Muestra CV  100%
x
Es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas o
iguales unidades, pero difieren a tal punto que una comparación directa de las respectivas
desviaciones estándar no es muy útil, por ejemplo, cuando las medias están muy distantes.
Ejemplo 1
Los siguientes datos representan resúmenes del número de mediciones de resistencia de cierto
artículo que realizaron dos grupos de técnicos.

Grupo 1 Grupo 2
n1  10 Me  4 n2  15 Me  4
x1  3 Moda  3 s  1,10 x2  5 Moda  5 s  1,66

¿En cuál de los grupos el número de mediciones es más disperso?

Estadística para Economistas 8


Universidad Peruana de Ciencias Aplicadas

Rango

El rango (alcance, amplitud o recorrido) de un conjunto de datos observados es la diferencia entre


dato mayor y el dato menor.
R = Xmax - Xmin
donde:
Xmax : valor máximo observado de la variable
Xmin : valor mínimo observado de la variable

Rango intercuartil

Es la diferencia entre el primer y tercer cuartil.

Rango intercuartil = RIC = Q3 – Q1

1.3. Medidas de asimetría

Coeficiente de Asimetría de Fisher

Mide si los datos aparecen ubicados simétricamente o no respecto de la media.


Si el coeficiente de asimetría As es
igual a cero la distribución es simétrica alrededor de la media
positivo, indica sesgo a la derecha (cola derecha)
negativo indica sesgo a la izquierda (cola izquierda)

Coeficiente de Asimetría para datos simples


n

n
 x i  x
3

As  i 1

n  1n  2 s3

Si n es grande la expresión anterior se simplifica a:


n

 x  x
3
i
As  i 1

ns 3

Coeficiente de Asimetría para datos agrupados

 x 
n
3
´
i  x fi
As  i 1

ns 3

Estadística para Economistas 9


Universidad Peruana de Ciencias Aplicadas

Ejemplo 2
El salario, en cientos de soles, de los trabajadores una empresa se presenta a continuación:

15 13 19 14 17 16 24 21 18 22 32 24 26 27 29 23 24 15 26 18

Halle el coeficiente de Asimetría de Fisher


Solución
15  .13  19  ..  26  18
x  21.15
20

s
15  21.252  ...  18  21.252  5.38
20  1

As 
20 
15  21.25  ...  18  21.25  0.23
3 3

20  120  2 5.383

Por lo tanto la distribución de los datos es asimétrica positiva.

Coeficiente de Curtosis.

Tema de investigación para el alumno. Debe presentar:


1. Definición de Curtosis
2. Fórmulas de cálculo
3. Clasificación de las distribuciones de datos según el valor del coeficiente de Curtosis
4. Aplicación en datos reales propios de la carrera.

Ejercicio
A continuación se muestra la distribución de una muestra de 48 clientes morosos según el tiempo en días que
tardan en acercarse a la entidad bancaria a realizar su pago luego de ser contactados.

Tiempo Total
1 5
2 20
3 9
4 9
5 5
Total general 48
Nota. Puede utilizar la tabla para resumir y ordenar sus cálculos

a. Calcule el coeficiente de Asimetría y clasifique la distribución según su deformación horizontal.


Escriba la fórmula utilizada.
b. Calcule el coeficiente de Curtosis y clasifique la distribución según su deformación vertical
Escriba la fórmula utilizada.

Estadística para Economistas 10


Universidad Peruana de Ciencias Aplicadas

Medidas descriptivas para datos simples en una calculadora Casio


Apriete la tecla MODE , MODE y, luego, apriete SD (1)
Limpie la memoria siempre. Apriete SHIFT , CLR , SCL (1) y =.
Ingrese cada dato y pulse DT. La pantalla le mostrará el número de datos ingresados.
Para ver las medidas descriptivas, ingrese lo siguiente: (edu.casio.com)

o SHIFT , S-SUM , 1 para calcular  x , la suma de los cuadrados de los datos


2

o SHIFT , S-SUM , 2 para calcular  x , la suma de los datos

o SHIFT , S-SUM , 3 para calcular n, el número de datos


o SHIFT , S-VAR , 1 para calcular x , la media muestral
o SHIFT , S-VAR , 2 para calcular xn , la desviación estándar poblacional
o SHIFT , S-VAR , 3 para calcular xn  1 , la desviación estándar muestral

Medidas descriptivas para datos agrupados en una calculadora Casio


Apriete la tecla MODE , MODE y, luego, apriete SD (1)
Limpie la memoria siempre. Apriete SHIFT , CLR , SCL (1) y =.
Ingrese la <marca de clase> ;. <frecuencia de la clase> y pulse DT. La pantalla le mostrará el
número de datos ingresados.
Para ver las medidas descriptivas, se procede exactamente como en el caso anterior.

Estadística para Economistas 11


Universidad Peruana de Ciencias Aplicadas

Curva de Lorenz
http://www.eumed.net/cursecon/7/Lorenz-Gini.htm

La curva de Lorenz es una representación gráfica utilizada


frecuentemente para plasmar la distribución relativa de una
variable en un dominio determinado. El dominio puede ser el
conjunto de hogares o personas de una región o país, por ejemplo.
La variable cuya distribución se estudia puede ser el ingreso de los
hogares o las personas. Utilizando como ejemplo estas variables, la
curva se trazaría considerando en el eje horizontal el porcentaje
acumulado de personas u hogares del dominio en cuestión y en el
eje vertical el porcentaje acumulado del ingreso.

Cada punto de la curva se lee como porcentaje acumulativo de los hogares o las personas. La curva
parte del origen (0,0) y termina en el punto (100,100). Si el ingreso estuviera distribuido de manera
perfectamente equitativa, la curva coincidiría con la línea de 45 grados que pasa por el origen (por
ejemplo el 30% de los hogares o de la población percibe el 30% del ingreso). Si existiera
desigualdad perfecta, o sea, si un hogar o persona poseyera todo el ingreso, la curva coincidiría con
el eje horizontal hasta el punto (100,0) donde saltaría el punto (100,100). En general la curva se
encuentra en una situación intermedia entre estos dos extremos.

Si una curva de Lorenz se encuentra siempre por encima de


otra (y, por lo tanto, está más cerca de la línea de 45 grados)
podemos decir sin ambigüedad que la primera exhibe menor
desigualdad que la segunda. Esta comparación gráfica entre
distribuciones de distintos dominios geográficos o temporales
es el principal empleo de las curvas de Lorenz.

Estadística para Economistas 12


Universidad Peruana de Ciencias Aplicadas

Coeficiente de Gini
http://es.wikipedia.org/wiki/Coeficiente_de_Gini

El Coeficiente de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado
Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, pero puede utilizarse para
medir cualquier forma de distribución desigual. El coeficiente de Gini es un número entre 0 y 1, en
donde 0 se corresponde con la perfecta igualdad (todos tienen los mismos ingresos) y 1 se
corresponde con la perfecta desigualdad (una persona tiene todos los ingresos y los demás ninguno).
El índice de Gini es el coeficiente de Gini expresado en porcentaje, y es igual al coeficiente de Gini
multiplicado por 100.
Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los ingresos,
también puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere que nadie
disponga de una riqueza neta negativa.

El coeficiente de Gini se calcula como una razón de las áreas en el diagrama


de la curva de Lorenz. Si el área entre la línea de perfecta igualdad y la
curva de Lorenz es a, y el área por debajo de la curva de Lorenz es B,
entonces el coeficiente de Gini es a/(a+b). Esta ratio se expresa como
porcentaje o como equivalente numérico de ese porcentaje, que es siempre
un número entre 0 y 1.

El coeficiente de Gini se calcula a menudo con la Fórmula de Brown, que es más práctica:

donde:
 G: Coeficiente de Gini
 X: Proporción acumulada de la variable población
 Y: Proporción acumulada de la variable ingresos

De forma resumida, la Curva de Lorenz es una gráfica de


concentración acumulada de la distribución de la riqueza
superpuesta a la curva de la distribución de frecuencias de los
individuos que la poseen, y su expresión en porcentajes es el Índice
de Gini.

Estadística para Economistas 13


Universidad Peruana de Ciencias Aplicadas

Ejemplo 3
A continuación se presenta un ejemplo del cálculo del coeficiente de Gini usando los valores de la
mortalidad infantil de 5 países del área andina en 1997. Los datos para este ejemplo se presentan en
la tabla 1a y la tabla 1b. La curva de Lorenz se muestra en la Figura 2.
Los pasos a seguir para el cálculo del coeficiente de Gini son los siguientes:
 Ordenar las unidades geográficas por la variable de salud de la peor situación a la mejor
 Transformar la tasa en variable continua (calcular el número de muertes infantiles para cada
unidad geográfica)
 Calcular las proporciones para las dos variables
 Calcular las proporciones acumuladas para las dos variables
 Graficar la curva de Lorenz representando en el eje “X” la proporción acumulada de la
población y en el eje “Y” la proporción acumulada del número de eventos de la variable de
salud.
 Calcular el coeficiente de Gini utilizando la fórmula de Brown.
 Interpretación:
o Coeficiente de Gini : El valor de 0,19 no es un valor alto por estar más próximo del
cero que del uno. No obstante este coeficiente debe analizarse en términos
comparativos. Habría que comparar este valor con el de otras unidades geográficas
para el mismo indicador.
o Curva de Lorenz: Se lee en la curva que 30% de las muertes en menores de un año
ocurrieron en 20% de la población de nacidos vivos.

Tabla 1a: País, PNB per capita, tasa de mortalidad infantil (TMI), número de nacidos vivos y
número de muertes infantiles, proporción de la población de nacidos vivos y proporción de las
muertes
PNB per TMI Nacidos vivos Proporción Proporción
Muertes
País capita (por 1,000 NV) (1,000) nacidos muertes
Infantiles
1996 1997 1997 vivos infantiles
Bolivia 2 860 59 250 14 750 0.09 0.17
Perú 4 410 43 621 26 703 0.24 0.31
Ecuador 4 730 39 308 12 012 0.12 0.14
Colombia 6 720 24 889 21 336 0.34 0.24
Venezuela 8 130 22 568 12 496 0.22 0.14
Total 33 2 636 87 297 1 1

Estadística para Economistas 14


Universidad Peruana de Ciencias Aplicadas

Tabla 1b: Proporción acumulada de la población de nacidos vivos, proporción acumulada de


las muertes infantiles y etapas para el cálculo del coeficiente de Gini
X: Prop, acum, Y: Prop, acum, A B
País
nacidos vivos muertes infantiles Yi+1 + Yi Xi+1 - Xi A*B
Bolivia 0,09 0,17 0,17 0,09 0,02
Perú 0,33 0,47 0,64 0,24 0,15
Ecuador 0,45 0,61 1,09 0,12 0,13
Colombia 0,78 0,86 1,47 0,34 0,50
Venezuela 1,00 1,00 1,86 0,22 0,40
Total 1,19

Coeficiciente de Gini 0,19

Figura 2: Curva de Lorenz

Proporción
acumulada
de muertes
en
menores
de 1 año

Proporción acumulada de nacidos vivos

Tema de investigación para el alumno. En base a datos reales propios de su especialidad, debe
presentar:
1. Aplicación e interpretación de la Curva de Lorenz
2. Aplicación e interpretación del Coeficiente de Gini

Estadística para Economistas 15


Universidad Peruana de Ciencias Aplicadas

UNIDAD 2. Vector aleatorio

Logro de la unidad
Explica adecuadamente el concepto de vector aleatorio y modela
distribuciones de probabilidad y de densidad conjunta.

Distribuciones de probabilidad conjunta


(weibull.com)
Función de probabilidad discreta conjunta
La función de probabilidad conjunta f(x,y) para dos variables aleatorias discretas X e Y, llamada distribución
bivariable es una función que cumple:
 0 ≤ f(x,y) ≤ 1 para todos los valores de x e y.

  f ( x, y)  1
y x

 f(x,y) = P(X = x, Y = y)

Ejercicio 1
La función de probabilidad conjunta de X e Y es
x y
f x, y   x  0, 1, 2, 3 y  0, 1, 2 con a es constante
a
Calcule a y P(X > Y)

Estadística para Economistas 16


Universidad Peruana de Ciencias Aplicadas

Ejercicio 2
Un inversionista posee 5 paquetes de acciones tipo A, 2 paquetes tipo B y 6 de tipo C. Se sacan al azar una muestra de
tres paquetes. Sea X el número de paquetes tipo A e Y el número de paquetes tipo B. Determine la función de
probabilidad conjunta de X e Y.

Ejercicio 3 (Aplicación para su Trabajo)


Suponga que el valor (en dólares) en la Bolsa de Valores, de las acciones de 5 empresas es:

Empresa Alfa Beta Gamma Delta Ypsilon


Valor de la acción (en dólares) 6 10 9 8 6

Si se elige al azar y sin reemplazo dos empresas, y se define:


X:= Menor valor de las acciones de las empresas elegidas
Y:= Mayor valor de las acciones de las empresas elegidas
Halle la función de probabilidad conjunta de X e Y.

Estadística para Economistas 17


Universidad Peruana de Ciencias Aplicadas

Función de probabilidad marginal


Sean X e Y variables aleatorias discretas y sea f(x, y) su distribución de probabilidad conjunta. Entonces, las
distribuciones de probabilidad marginales de X e Y son:

 f X ( x1 )   f ( x, y )
y

 fY ( y2 )   f ( x, y)
x

Ejercicio 4
Un camión de entregas especiales viaja del punto A al punto B y de regreso por la misma ruta cada día. Hay tres
semáforos en esta ruta. Sea:
 X el número de semáforos en rojo que el camión encuentra en su camino al punto B
 Y el número de semáforos en rojo que el camión encuentra de regreso al punto A.
Un ingeniero de tránsito ha determinado la distribución de probabilidad conjunta de X e Y que se muestra en la tabla.

Y 0 1 2 3
X
0 0,01 0,03 0,05 0,02
1 0,02 0,06 0,12 0,09
2 0,07 0,10 0,15 0,08
3 0,01 0,06 0,08 k
Calcule las distribuciones marginales f X ( x1 ) y fY ( y2 )

Estadística para Economistas 18


Universidad Peruana de Ciencias Aplicadas

Función de probabilidad condicional


Sean X e Y variables aleatorias discretas y sea f(x, y) su distribución de probabilidad conjunta. Entonces, las
distribuciones de probabilidad condicionales de X e Y son respectivamente:

f ( x, y )
 f ( x1 | y2 ) 
f ( y2 )
f ( x, y )
 f ( y2 | x1 ) 
f ( x1 )
Ejercicio 5
El siguiente cuadro muestra la distribución de probabilidades conjunta de las variables:

X: antigüedad del vehículo de la persona encuestada, en años


Y: costo anual de mantenimiento.

Y 150 250 350 450


X
2 0,16 0,08 0,00 0,00
3 0,04 0,12 0,04 0,00
4 0,00 0,09 0,14 0,04
5 0,00 0,00 0,16 0,04
6 0,00 0,00 0,04 0,08

Determine e interprete el valor esperado del costo de mantenimiento cuando el vehículo tiene 4 años de antigüedad.

Estadística para Economistas 19


Universidad Peruana de Ciencias Aplicadas

Función de densidad de probabilidad conjunta


La función de densidad de probabilidad conjunta f(x, y) para dos variables aleatorias continuas X e Y es una función
que satisface las siguientes propiedades:
 f ( x, y)  0 para todos los valores de x e y
 
   f ( x, y)dxdy  1
  

d b
 P(a  x  b , c  y  d )    f ( x, y)dxdy  a, b, c, d constantes
c a

Ejercicio 6
Sea la siguiente función de probabilidad conjunta de X e Y:

 x  y si 1  x  2 : 0  y  1
f ( x, y )  
0 en otros casos

Calcule la probabilidad de X + Y sea mayor a 2.

Estadística para Economistas 20


Universidad Peruana de Ciencias Aplicadas

Función de densidad marginal


Sea f(x, y) la función de densidad conjunta para X e Y. Entonces, las funciones de densidad marginal para X e Y son
respectivamente:
 
f X ( x)  

f ( x, y )dy y fY ( y )   f ( x, y)dx


Ejercicio 7
Sea la siguiente función de probabilidad conjunta de X e Y:

 x  y si 1  x  2 : 0  y  1
f ( x, y)  
0 en otros casos

Determine las funciones de probabilidad marginales de X e Y respectivamente. Demuestre que dichas funciones son
funciones de densidad.

Estadística para Economistas 21


Universidad Peruana de Ciencias Aplicadas

Ejercicio 8 (Aplicación para su Trabajo)


Ana y Alba han acordado reunirse para almorzar entre el mediodía (12 horas) y la 1.00 PM. Sea X la hora de llegada de
Ana e Y la hora de llegada de Alba. Suponga que las horas de llegada son independientes con las siguientes funciones
de densidad marginales
3x 2 0  x 1
f1 x   
 0 en otro caso
2 y 0  y 1
f 2 y  
 0 en otro caso

¿Cuál es la probabilidad de que la persona que llegue primero, espere a la otra menos de un cuarto de hora?

Estadística para Economistas 22


Universidad Peruana de Ciencias Aplicadas

Función de densidad condicional


Sea f(x,y) la función de densidad conjunta para X e Y. Entonces, las funciones de densidad condicional para x e y
son respectivamente:
f ( x, y ) f ( x, y )
f ( x | y)  y f ( y | x) 
f ( y) f ( x)
Ejercicio 9
Sea la siguiente densidad de X e Y
 x  cy si 1  x  2 ; 0  y  1
f ( x, y )  
0 c.c
donde c es una constante.
 Encuentre el valor de c que convierte f (x, y) en una función de densidad de probabilidad.

 Obtenga la densidad marginal para Y, demuestre también que  f ( y)dy  1


 Calcule f (x | y), la densidad condicional de X dado Y = y.

Estadística para Economistas 23


Universidad Peruana de Ciencias Aplicadas

Ejercicio 10
Un fabricante de refrigeradoras somete sus productos terminados a una inspección integral. Hay dos tipos de defectos:
raspadura en la porcelana y defectos mecánicos. Suponga que el tiempo que le toma en detectar un defecto de raspadura
en la porcelana se considera como una variable aleatoria X, mientras que el tiempo requerido para detectar un defecto
mecánico se considera una variable aleatoria Y. Ambas variables tienen como función de probabilidad conjunta:

 Kxy ; 0  x  y, 0  y  1
f ( x, y )  
0 ; en otros casos
X e Y medidas en decenas de horas.

Determine la probabilidad de que el tiempo en detectar un defecto de raspadura sea menor a 4 horas, sabiendo que el
tiempo en detectar un defecto mecánico fue de seis horas.

Estadística para Economistas 24


Universidad Peruana de Ciencias Aplicadas

Esperado de funciones de dos variables aleatorias


Sea g(x,y) una función de las variables aleatorias X e Y. El esperado de g(x,y) se define como:
 g ( x, y ) p( x, y ) si x e y son discretas
 y x
Eg ( x, y )    
   g ( x, y ) f ( x, y )dxdy si x e y son continuas

Sea c una constante, E (c) = c

Sea c una constante y sea g(x, y) una función de X e Y, Ecg ( x, y)  cEg ( x, y)
Sean g1(x, y), g2(x, y), …, gk(x, y), k funciones de las variables aleatorias X e Y. Entonces, el valor esperado de la
suma de estas funciones es
Eg1 x, y   g 2 x, y   ...  g k x, y   Eg1 x, y   Eg 2 x, y   ...  Eg k x, y 
Ejercicio 11
Sea la siguiente densidad de X e Y
x  y si 1  x  2 ; 0  y  1
f ( x, y )  
0 c.c
Calcule E(X), E(Y), E(X+Y) y E(XY)

Estadística para Economistas 25


Universidad Peruana de Ciencias Aplicadas

Ejercicio 12
Sea f(x, y) la función de densidad conjunta para X e Y

kxx  y ; 0  x  2  x  y  x
f ( x, y)  
0; otrocaso
Halle k, E(X) y E(Y)

Estadística para Economistas 26


Universidad Peruana de Ciencias Aplicadas

Independencia de variables
Sean X e Y variables aleatorias discretas con distribución de probabilidad conjunta f (x, y) y distribuciones de
probabilidad marginales fX(x) y fY(y). Entonces, se dice que X e Y son independientes si y sólo si
f ( x, y)  f X ( x). fY ( y) , para todos los pares de valores x e y
Sean X e Y variables aleatorias continuas con función de densidad conjunta f(x, y) y funciones de densidad
marginales fX(x) y fY(y). Entonces, se dice que X e Y son independientes si y sólo si
f ( x, y)  f X ( x). fY ( y)
Si X e Y son variables aleatorias independientes, entonces
E( XY )  E( X ).E(Y )
Ejercicio 13
Sea la siguiente función de probabilidad conjunta de X e Y:

 x  y si 1  x  2 : 0  y  1
f ( x, y )  
0 en otros casos

Determine si las variables aleatorias X e Y son independientes.

Estadística para Economistas 27


Universidad Peruana de Ciencias Aplicadas

Ejercicio 14
Los precios de dos máquinas empaquetadoras de última generación Y 1 y Y2 son variables aleatorias independientes
expresadas en miles de dólares.

 Y1 tiene distribución uniforme entre 4 y 10


 Y2 tiene distribución uniforme entre 5 y 13.

Si un ingeniero decide comprar una de estas máquinas, calcule la probabilidad de que la suma de ambos precios sea
como máximo $15000.

Estadística para Economistas 28


Universidad Peruana de Ciencias Aplicadas

Covarianza
La covarianza de dos variables aleatorias X e Y, se define como:
Cov( x, y)  E[( x   x )( y   y )]  E ( xy )   x . y
Si dos variables aleatorias son independientes, entonces:
Cov(X, Y) = 0

Coeficiente de correlación
El coeficiente de correlación r para dos variables aleatorias X e Y es
Cov( x, y )

 x y
donde  x y  y son las desviaciones estándares de X e Y, respectivamente.
Ejercicio 15
Un administrador de inventarios ha acumulado registros de las cantidades demandadas de los productos de su compañía
durante los últimos días. Considere que X representa en número de pedidos recibidos e Y representa el número de
unidades demandadas por cada pedido.
La distribución de probabilidades conjunta está dada por:

X
Y 1 2 3
4 0.16 0.15 0.28
6 0.04 0.15 0.22

Calcule el coeficiente de correlación entre X e Y.

Estadística para Economistas 29


Universidad Peruana de Ciencias Aplicadas

Ejercicio 16
Sean X, Y, Z variables aleatorias independientes y con varianzas iguales. Definamos las variables aleatorias U = X + Y y
W = Y + Z.
Calcule el coeficiente de correlación entre U y W.

Estadística para Economistas 30


Universidad Peruana de Ciencias Aplicadas

Ejercicios Propuestos
1. El concreto experimenta un marcado incremento característico en la “plastodeformación” cuando se
calienta por primera vez bajo carga. Se efectuó un experimento con el fin de investigar el
comportamiento ante esfuerzos térmicos transitorios del concreto. Dos variables que se cree afectan el
esfuerzo térmico son x, la rapidez de calentamiento (grados centígrados por minuto) e y, el nivel de carga
(porcentaje de la resistencia inicial). Se preparan y prueban especimenes de concreto bajo diversas
combinaciones de rapidez de calentamiento y carga, y se determina el esfuerzo térmico para cada uno.
Suponga que la distribución de probabilidad conjunta de X e Y para los especimenes que produjeron
resultados aceptables es la que se da en la tabla. Suponga que se escoge al azar un espécimen de concreto
de entre los que se probaron en el experimento y tuvieron un comportamiento ante esfuerzo térmico
aceptable.

x (°C/minuto)
0,1 0,2 0,3 0,4 0,5
0 0,17 0,11 0,07 0,05 0,05
y 10 0,10 0,06 0,05 0,02 0,01
20 0,09 0,04 0,03 0,01 0,00
30 0,08 0,04 0,02 0,00 0,00

a) Calcule las distribuciones de probabilidad marginal, fX(x1) y fY(y2)


b) Obtenga la distribución de probabilidad condicional, f (x | y1)
c) Calcule la probabilidad de que el espécimen se haya calentado con una rapidez de 0,4 °C/minuto.
d) Dado que el espécimen de concreto se calentó a 0,5°C/minuto, calcule la probabilidad de que el espécimen
tuviera una carga de 10%.

2. Se almacena Kerosene industrial en un tanque a granel al principio de cada semana. A causa de lo


limitado del suministro, la proporción X de la capacidad del tanque que esta disponible para la venta y la
proporción Y de la capacidad del tanque que realmente se vende durante la semana son variables
aleatorias continuas cuya distribución conjunta está dada por:

4 x 2 si 0  y  x ; 0  x  1
f ( x, y )  
0 c.c.

a) Calcule los valores esperados de X e Y


b) Calcule el valor esperado de XY
c) Calcule la covarianza de X e Y.

3. Si cada uno de los n valores xi de una muestra aleatoria, es transformado en:


yi = a xi , siendo a constante, entonces, demuestre que la varianza de los n valores yi es:
S y2  a 2 S x2

Estadística para Economistas 31


Universidad Peruana de Ciencias Aplicadas

4. Si cada uno de los n valores xi de una muestra aleatoria es transformado en:


yi = xi + b, siendo b constantes, entonces, demuestre que la varianza de los n valores yi es:
S y2  S x2

5. Si cada uno de los n valores xi de una muestra aleatoria es transformado en:


yi = a xi + b, siendo a y b constantes, entonces, demuestre que la varianza de los n valores yi es:
S y2  a 2 S x2

6. Conforme a la información que proporciona la ojiva de los ingresos mensuales, en nuevos soles,
de los trabajadores de una empresa que se muestra en la gráfica, determine el tipo de
distribución según su Asimetría y su Curtosis. ¿Qué comentarios puede realizar a partir de estos
resultados?
Ojiva de ingresos

1.00

0.90

0.80

0.70

0.60
Hi

0.50

0.40

0.30

0.20

0.10

0.00
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000

Ingresos

7. Sea X una variable aleatoria discreta, con a y b constantes. Demuestre que:

a.  Y2  a 4 X2 , siendo Y  a 2 X  b

b.  X2  E X 2    X2

8. Sea X una variable aleatoria continua, con función de densidad de probabilidad:

 32  kx para 65  x  75
f x   
0 en otro caso

Estadística para Economistas 32


Universidad Peruana de Ciencias Aplicadas

a. Determine el valor de k
b. Calcule la probabilidad que X se encuentre entre 70 y 75
c. Determine el Valor Esperado de X
d. Determine la Desviación estándar de X

9. Sea f x; y  la función de densidad conjunta para X e Y.

k x x  y  para 0  x  2 ;  x  y  x
f x; y   
0 en otro caso

Determine e interprete el Coeficiente de Correlación de X e Y

10. Sea f x , y  la función de densidad conjunta para X e Y.

k x 2 y para 0  x  2 ; 1  y  2
f x , y   
0 en otro caso

a. Determine el valor de k
b. Determine la probabilidad que X – Y sea menor que 1

11. Sea f  y1 , y2  la función de densidad conjunta para Y1 e Y2.

3 2
f  y1 , y2    2 1

 y  y2
2
 para 0  y1  1 ; 0  y2  1

0 en otro caso

a. Determine la función de densidad de probabilidad marginal para la variable aleatoria Y.


b. Determine la función de densidad condicional Y1, dado que Y2 = y2
c. Determine el valor esperado de Y1
d. Determine el valor esperado de Y1 Y2
e. Determine la covarianza de las variables aleatorias Y1 é Y2

12. Sean X, Y y Z variables aleatorias discretas; a, b constantes. Si Y  a  X  Z   b . Demuestre que:


a. EY   a  x   z   b

b.  y2  a 2  x2   z2 
13. Sean X, Y y Z variables aleatorias discretas; k una constante. Si Y  k Z . Demuestre que:
cov X , Y   k cov X , Z 
14. Sean las variables aleatorias X é Y. Se definen las variables:
U=aX+c
V=bY+d
Siendo a, b, c y d números reales cualesquiera. Entonces demuestre que: Cov [ U, V ] = a b Cov [ X, Y ]

Estadística para Economistas 33


Universidad Peruana de Ciencias Aplicadas

15. Sea f x; y  la función de densidad conjunta para X e Y. (Aplicación para su Trabajo)

k x3 1  y  para 0  x  2 ;  x  y  x
f x; y   
0 en otro caso

a. Calcule el valor de k
b. Determine E(X)
c. Determine E(XY)
d. Calcule el valor de la covarianza de X e Y

Función Generadora de Momentos y Distribución Normal Bivariada


http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030011/lecciones/cap2/cap_2_pag_10.html

Tema de investigación para el alumno. En cada caso el alumno debe presentar:


1. Definición y propiedades
2. Fórmulas de cálculo e interpretación
3. Aplicación en datos reales propios de la carrera

Estadística para Economistas 34


Universidad Peruana de Ciencias Aplicadas

UNIDAD 3. Estimación y prueba de hipótesis

Logro de la unidad
Modela satisfactoriamente casos sencillos que conducen a verificar hipótesis de
información relacionada con su especialidad, reconociendo la importancia de ésta
herramienta en la toma de decisiones.

(euroXpress)
Estimación puntual

Es la estimación del valor del parámetro por medio de un único valor obtenido mediante el cálculo o evaluación de
un estimador para una muestra específica.
El estimador se expresa mediante una fórmula.

1 n
Por ejemplo, la media de la muestra X   X i es un posible estimador puntual de la media poblacional .
n i 1
Los parámetros con sus correspondientes estimadores puntuales son:

Parámetro Estimador puntual

 x

2 S2

p p

1   2 x1  x 2
12 /  22 S12 / S22

p1  p2 p1  p2

Estadística para Economistas 35


Universidad Peruana de Ciencias Aplicadas

Estimación por intervalos

Intervalo de confianza para la media


Varianza poblacional conocida

Si x es la media de una muestra aleatoria de tamaño n de una población con varianza 2, conocida, el intervalo de
confianza de (1 - )x100% para  está dado por:
 
x  z1 / 2    x  z1 / 2
n n
donde z1 / 2 es el valor que deja un área de 1- /2 a la izquierda.
Si el muestreo es sin reemplazo los límites de confianza son:
 N n  N n
x  z1 / 2    x  z1 / 2
n N 1 n N 1
Varianza poblacional desconocida

Si x y S son la media y la desviación estándar de una muestra aleatoria de tamaño n, desconocida, el intervalo de
confianza de ( 1   )x100% para  está dado por:
S S
x  t / 2    x  t / 2
n n
donde t / 2 es el valor t con (n -1) grados de libertad, que deja un área de  / 2 a la derecha.
Si el muestreo es sin reemplazo los límites de confianza son:
S N n S N n
x  t / 2    x  t / 2
n N 1 n N 1
Ejemplo 1
Una máquina produce piezas metálicas de forma cilíndrica, éstas son almacenadas en lotes de 1000 unidades. Se toma
una muestra de las piezas de uno de los lotes y los diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03
centímetros. Encuentre un intervalo de confianza de 99% para el diámetro medio de las piezas de esta máquina.
Suponga que los diámetros siguen una distribución aproximadamente normal con desviación estándar igual a 0.03
centímetros.

Estadística para Economistas 36


Universidad Peruana de Ciencias Aplicadas

Ejemplo 2
Los siguientes datos corresponden al contenido medio de plomo (miligramos por litro) de muestras de agua
recolectadas diariamente durante 70 días de un sistema de agua.

0,09678 0,07149 0,02216 0,02844 0,00509 0,02346 0,06387


0,03786 0,06458 0,07758 0,05297 0,03282 0,06952 0,08588
0,05720 0,00085 0,07407 0,02497 0,04557 0,03753 0,04897
0,03336 0,09612 0,09007 0,05633 0,07776 0,07836 0,07373
0,08864 0,04475 0,02384 0,02123 0,05981 0,03668 0,00019
0,08866 0,03658 0,05978 0,03543 0,03159 0,07735 0,06618
0,06675 0,01867 0,03198 0,07262 0,01231 0,04838 0,01650
0,08083 0,02441 0,05767 0,0797 0,06182 0,057 0,08941
0,05175 0,07922 0,00943 0,03686 0,01097 0,08949 0,00264
0,07271 0,07979 0,01333 0,02791 0,08812 0,06969 0,04160

Resúmenes:
x  0.0513 s  0.0272
Asumiendo normalidad en la cantidad de plomo, calcule:
a) Construya un intervalo de confianza de 95% para el contenido promedio de plomo.

b) Si la verdadera desviación estándar de la cantidad de plomo en el agua es 0.02, construya un intervalo de


confianza de 95% para el contenido promedio de plomo.

Estadística para Economistas 37


Universidad Peruana de Ciencias Aplicadas

Tamaño de muestra cuando la varianza poblacional es conocida

Si X se usa como estimación de , podemos tener (1-)x100% de confianza de que el error no exceda una
cantidad específica e cuando el tamaño de la muestra es:


2
z
n   1 / 2 
 e 
Si el valor del tamaño de muestra es decimal se debe redondear al siguiente número entero.
Si el muestreo es sin reemplazo, el tamaño de muestra se calcula con la siguiente fórmula:
n0
n
n
1 0
N

2
z
donde n0   1 / 2  y N es el tamaño de la población.
 e 
Ejemplo 1
¿De qué tamaño se necesita una muestra si se desea tener 96% de confianza y un margen de error de 0.04? Asuma que
la desviación estándar poblacional es 0.5 y que el tamaño poblacional es 5000

Ejemplo 2
¿Cuántas piezas deberá elegirse de un lote de 2000 piezas metálicas para estimar el diámetro medio, con un nivel de
confianza de 95% y un error no mayor de 0,02?, si de una muestra aleatoria anterior se registró las siguientes
mediciones (en centímetros): 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01 y 1.03. Suponga que los diámetros siguen una
distribución aproximadamente normal.

Estadística para Economistas 38


Universidad Peruana de Ciencias Aplicadas

Ejercicios Propuestos
1. Se afirma que la resistencia del alambre A tiene distribución normal con desviación estándar iguala 0,05
ohmios. Los datos siguientes corresponden a una muestra de dichos alambres:

0,140 0,138 0,143 0,142 0,144 0,137 0,135 0,140 0,136 0,142 0,138 0,140

Estime un intervalo de 98% de confianza para la resistencia promedio de los alambres.

2. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el
supervisor de una empresa electrónica tomó el tiempo que 25 técnicos tardaban en ejecutar esta tarea,
obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos.
a) Con una confianza del 99%, calcule el error máximo de estimación del tiempo promedio que lleva ensamblar
el componente de la computadora.
b) Construya e interprete un intervalo de confianza de 95% para el tiempo medio real que lleva ensamblar el
componente de la computadora.
3. Una agencia de control ambiental ha reunido datos de mediciones de DL50 (dosis letal, es decir, mata al
50% de los animales de prueba en un determinado intervalo de tiempo) para determinadas sustancias
químicas que se encuentran probablemente en ríos y lagos de agua dulce. Para determinada especie de
pescado, las mediciones de DL50 para el DDT en 12 experimentos dieron los siguientes resultados (en
partes por millón):

16 5 21 19 10 5 8 2 7 2 4 9

Suponiendo que estas determinaciones de DL50 tiene una distribución aproximadamente normal, estime la DL50
promedio real para el DDT con un coeficiente de confianza igual a 0.90.

4. En un estudio de contaminación del aire realizado en una estación experimental, de 12 muestras


diferentes de aire se obtuvieron los siguientes montos de materia orgánica suspendida soluble en benceno
(en microorganismos por metro cúbico):

2,212 1,839 3,152 2,608 2,456 2,747 2,913 1,265 2,346 2,333 1,909 2,333

Suponiendo que la población muestreada es normal:


a) Calcule e interprete un intervalo de confianza de 95% para la media real.
b) ¿De qué tamaño debe ser la muestra para estimar el monto promedio de materia orgánica con un error de 0.08
microorganismos por metro cúbico y con 95% de confianza?
5. ¿Qué tan grande se requiere que sea una muestra para que proporcione una estimación del 90% del
número promedio de graduados de las universidades de la nación con un error de 2,000 estudiantes si una
muestra piloto reporta que s = 8,659?
6. ¿Qué tan grande se requiere que sea una muestra para que proporcione una estimación del 95% de la
edad promedio de los estudiantes de ingeniería civil de cierta universidad con un error de 1,5 años si una
muestra piloto reporta que s = 5,23 años? El número total de estudiantes de esta carrera es 300.

Estadística para Economistas 39


Universidad Peruana de Ciencias Aplicadas

Intervalo de confianza para la proporción poblacional


Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, un intervalo de confianza de ( 1   ) x100%
para p está dado por:
p (1  p ) p (1  p )
p  z1 / 2  p  p  z1 / 2
n n
donde z1 / 2 es el valor z que deja un área de 1- /2 a la izquierda.
Si el muestreo es sin reemplazo, los límites de confianza son:
p (1  p) N n p (1  p ) N n
p  z1 / 2  p  p  z1 / 2
n N 1 n N 1

Tamaño de muestra para estimar una proporción


Si p es la proporción de éxitos en una muestra aleatoria de tamaño n, podemos tener una confianza del (1-)x100%
de que el error será menor de una cantidad específica e cuando el tamaño de la muestra es:
z12 / 2 p1  p 
n
e2
Si el muestreo es sin reemplazo, el tamaño de muestra se calcula con:
n0
n
n
1 0
N
z12 / 2 p1  p 
donde n0  y N es el tamaño de la población.
e2

Tamaño de muestra para estimar una proporción sin usar información muestral

El valor de p1  p  se hace máximo cuando p  0.5 , por lo tanto la fórmula para calcular el tamaño de muestra
queda de la siguiente manera:
z12 / 2
n
4e 2
Ejemplo 1
Se lleva a cabo un estudio para estimar el porcentaje de ciudadanos de una ciudad que están a favor de tener
agua fluorada. ¿Qué tan grande se necesita que sea la muestra si se desea tener una confianza de 95% de que
la estimación esté dentro del 1% del porcentaje real?

Estadística para Economistas 40


Universidad Peruana de Ciencias Aplicadas

Ejemplo 2
Las distorsiones que ocurren en la pantalla de una terminal para gráficos por computadora con frecuencia se deben a
pérdida de datos en el proceso de enlace de comunicación entre la terminal y la computadora. El fabricante de un nuevo
controlador de errores de comunicación de datos asegura que la probabilidad de perder datos cuando el controlador está
operando es de 0,10. A fin de probar esta aseveración, se vigila el enlace de comunicación entre una terminal de
gráficos y una computadora con el controlador de errores funcionando. De una muestra de 120 elementos se observó los
siguientes resultados:

Sí Sí Sí No No Sí Sí Sí Sí Sí
No No No Sí Sí No No No No No
No Sí Sí Sí Sí No No Sí Sí Sí
No Sí No Sí Sí No No No No Sí
No Sí No Sí Sí No No Sí Sí Sí
No No No No Sí No No No No No
No Sí No Sí Sí No No Sí Sí No
No Sí No No No No No No Sí No
No Sí No Sí Sí No No Sí Sí No
Sí Sí No No Sí No No No Sí No
Sí Sí No Sí Sí No No Sí Sí No
No No No No No No No Sí Sí Sí

Sí : sufrieron distorsiones a causa de errores de datos en el enlace de comunicación.


No : sufrieron distorsiones a causa de errores de datos en el enlace de comunicación.

Con 95% de confianza, ¿la información recolectada refuta la aseveración del fabricante? Asuma normalidad.

Estadística para Economistas 41


Universidad Peruana de Ciencias Aplicadas

Intervalo de confianza para la varianza poblacional


Si S2 es la varianza de una muestra aleatoria de tamaño n de una población normal, un intervalo de confianza de
(1 - )x100% para 2 es:
(n  1) S 2 (n  1) S 2
  2

X 2 / 2 X 12 / 2
donde X 2 / 2 y X 12 / 2 son valores X 2 con v = n - 1 grados de libertad, que dejan áreas de /2 y 1 - /2,
respectivamente, a la derecha.

Ejercicio
Un fabricante de baterías para automóviles quiere estimar la desviación estándar de la duración de sus baterías. Si seis
de estas baterías tienen duraciones, en años, de

1.9 2.4 3.0 3.5 3.1 4.2

Construya un intervalo de confianza del 95% para 2. Suponga que la población de duraciones de las baterías se
distribuye de forma normal.

Estadística para Economistas 42


Universidad Peruana de Ciencias Aplicadas

Ejercicios Propuestos
1. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una computadora, el
supervisor de una empresa electrónica tomó el tiempo que 20 técnicos tardaban en ejecutar esta tarea,
obteniéndose una media de 12.73 minutos y una desviación estándar de 2.06 minutos. Asuma que los
tiempos tienen distribución normal.
a) Construya e interprete un intervalo de confianza de 95% para el promedio real del tiempo que lleva
ensamblar el componente de la computadora.
b) Construya e interprete un intervalo de confianza de 95% para la varianza real del tiempo que lleva
ensamblar el componente de la computadora.
2. Se desea estimar con 95% de confianza y con un error de estimación no mayor de 3.5% qué porcentaje
de todos los conductores exceden el límite de velocidad de 90 kilómetros por hora en cierto tramo del
camino. ¿De qué tamaño se necesita tomar la muestra?
3. Si se desea estimar la proporción real de unidades defectuosas en un embarque muy grande de ladrillos
de adobe, y se quiere estar al menos 98% seguros de que el error es a lo más 0,04. Cuan grande deberá
ser la muestra si:
a) No se tiene idea de cual es la proporción real
b) Si la proporción real es 0,12
4. Una empresa desea estimar la proporción de trabajadores de la línea de producción que están a favor de
que se corrija el programa de aseguramiento de la calidad. La estimación debe quedar a menos de 0.05 de
la proporción verdadera de los que favorecen el programa, con un coeficiente de confianza del 98%.
¿Cuántos trabajadores se deben muestrear, si la empresa cuenta en total con 2,000 trabajadores?

Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de confianza del 96%, realice
aplicaciones de:
1. Estimación de una media poblacional
2. Estimación de una desviación estándar poblacional
3. Estimación de una proporción poblacional
4. Realice ajustes del máximo error muestral y determine el nuevo tamaño de muestra

Estadística para Economistas 43


Universidad Peruana de Ciencias Aplicadas

Intervalo de confianza para el cociente de varianzas


Si s21 y s22 son las varianzas de muestras independientes de tamaño n1 y n2, de poblaciones normales, entonces un
intervalo de confianza de (1 - )x100% para  12  22 es:
s12 1  12 s12
  f ( v ,v , / 2)
s 22 f ( v1 ,v2 , / 2)  22 s 22 2 1
donde f v1 ,v2  , es un valor f con v1 = n1 -1 y v2 = n2 – 1 grados de libertad que deja un área de /2 a la derecha
2

Ejercicio 1
Se comparan el rendimiento de la gasolina de dos automóviles, A y B, probando cinco marcas de gasolina con el
automóvil A y cuatro con B. Cada uno de los vehículos gasta un tanque de cada marca, y el resultado, en millas por
galón, es el siguiente.

Marca Automóvil A Automóvil B


1 28,3 29,2
2 27,4 28,4
3 29,1 28,2
4 28,7 28,0
5 29,4
Promedio 28,58 28,45
Varianza 0,607 0,277

Calcule un intervalo de confianza de 99% para el cociente de las varianzas de los rendimientos de gasolina con los
automóviles A y B.

Estadística para Economistas 44


Universidad Peruana de Ciencias Aplicadas

Ejercicio 2
Los siguientes datos corresponden a la resistencia a la compresión a los 28 días (en kg/cm2) reportados por dos
laboratorios.
Laboratorio 1 Laboratorio 2
311,4 344,7
312,2 337,6
312,3 346,1
310,2 353,3
297,4 335,0
290,3 332,2
291,6 333,0
295,8 335,1

Con 95% de confianza, ¿podemos asumir que existe homogeneidad de las varianzas de los resultados de resistencia a la
compresión? Asuma poblaciones normales.

Estadística para Economistas 45


Universidad Peruana de Ciencias Aplicadas

Intervalos de confianza para la diferencia entre dos medias


Cuando las varianzas poblacionales son conocidas

El intervalo de confianza de ( 1   ) x 100% para 1   2 está dado por:

x1  x2   z1 / 2  1   2  12  22
2 2
 1   2  x1  x2   z1 / 2 
n1 n2 n1 n2
donde z1 / 2 es el valor que deja un área de 1-/2 a la izquierda.

Cuando las varianzas poblacionales iguales pero desconocidas

El intervalo de confianza de ( 1   ) x 100% para 1   2 está dado por:

S p2 S p2 S p2 S p2
x1  x2   t / 2   1   2  x1  x2   t / 2 
n1 n2 n1 n2
(n1  1) S12  (n2  1) S 22
donde S p 
n1  n2  2
y t / 2 es el valor t con v = n1 +n2 -2 grados de libertad, que deja un área de  / 2 a la derecha.

Cuando las varianzas poblacionales son desconocidas y diferentes

El intervalo de confianza de ( 1   ) x 100% para 1   2 está dado por:

S12 S 22 S2 S2
x1  x2   t / 2   1   2  x1  x2   t / 2 1  2
n1 n2 n1 n2

2
 S12 S 22 
  
donde t / 2 es el valor t con v   1
n n 2 
grados de libertad, que deja un área de  / 2 a la derecha.
 S12 2  S 22 2
   
n  n 
 1   1 

n1  1 n2  1

Estadística para Economistas 46


Universidad Peruana de Ciencias Aplicadas

Ejercicio 1
Una compañía tiene dos departamentos que producen el mismo producto. Se tiene la sensación de que las
producciones por hora son diferentes en los dos departamentos. Al tomar una muestra aleatoria de horas de
producción en cada departamento se obtuvieron los siguientes datos:
Departamento 1 Departamento 2
Tamaño de la muestra 64 49
Media muestral 100 unidades 90 unidades
Varianza muestral 256 225

Obtenga e interprete un intervalo del 95% para la verdadera diferencia de la producción media. Asuma poblaciones
normales.

Estadística para Economistas 47


Universidad Peruana de Ciencias Aplicadas

Ejercicio 2
Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotilla de
taxis. Se lleva a cabo un experimento utilizando 12 de cada marca. Los neumáticos se utilizaron hasta que se
gastan. Los resultados son:

Marca A x1  36 300 kilómetros S12  5 000 kilométros


Marca B x 2  38 100 kilómetros S22  6 100 kilométros

Calcule un intervalo de confianza de confianza de 90% para la diferencia de rendimiento promedio de ambas marcas de
neumáticos. Suponga que la diferencia de kilómetros de rendimiento se distribuye de forma normal.

Estadística para Economistas 48


Universidad Peruana de Ciencias Aplicadas

Ejercicio 3
Para comparar dos métodos de la enseñanza de inglés se aplicaron a 350 alumnos elegidos al azar el método tradicional
y a otra muestra de 450 alumnos el método nuevo resultando las calificaciones promedios respectivos de 18 y 17. Las
varianzas poblacionales respectivas son 16 y 9. Calcule un intervalo de confianza de 98% para la diferencia de las
medias.

Estadística para Economistas 49


Universidad Peruana de Ciencias Aplicadas

Intervalos de confianza para la diferencia entre dos medias de Muestras


relacionadas
La prueba de dos medias puede llevarse a cabo cuando los datos están en forma de observaciones
pareadas.
Un intervalo de (1  )x100% de confianza para la diferencia de medias cuando las muestras están
relacionadas es:

sd sd
d  t ( n 1, / 2)  1   2  d  t ( n 1, / 2)
n n

donde t  / 2 es el valor t con (n – 1) grados de libertad, que deja un área de  / 2 a la derecha.

Ejemplo.
Se llevó a cabo una encuesta entre los ingenieros de una planta, para determinar si pasan más
tiempo en tareas de supervisión que en gestión de procesos. Suponga que en una muestra de 12
encuestados se obtuvieron las horas semanales que dedican a cada una de estas tareas. Con un
nivel de confianza del 95%, ¿se puede llegar a la conclusión de que los ingenieros de esta planta
pasan más tiempo, en promedio, supervisando que en gestión de procesos?

Encuestado 1 2 3 4 5 6 7 8 9 10 11 12
Supervisando, horas/semana 11 19 8 5 16 8 4 12 10 14 15 18
Gestión Proceso, horas/semana 6 10 3 10 5 8 7 14 14 8 10 10
Número de tareas supervisadas 12 20 9 4 15 7 5 10 12 16 12 17

X1: Tiempo empleado en tareas de supervisión.


X2: Tiempo en gestión de procesos.
Promedio = 2.9167
Sd = 5.4682
t = 2.201

sd  5.4682 
IC ( D)  d  t  2.9167  (2.201)    0.5576  D  6.3910
n  12 

Con 95% de confianza, se encontrará la diferencia de los tiempos promedio empleado en tareas de
supervisión y en gestión de procesos esta comprendido entre - 0.5576 y 6.3910 horas/semana. No se puede
llegar a la colusión que los ingenieros de esta planta pasan más tiempo, en promedio, supervisando que en
gestión de procesos.

Estadística para Economistas 50


Universidad Peruana de Ciencias Aplicadas

Intervalo de confianza para la diferencia de proporciones


Si p1 y p 2 son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2, respectivamente, un intervalo
de confianza de (1   )  100% para la diferencia de dos proporciones poblacionales p1 – p2, está dado por:

p1 1  p1  p 2 1  p2  p 1  p1  p 2 1  p 2 
 p1  p2   z1 / 2   p1  p 2   p1  p2   z1 / 2 1  donde z / 2
n1 n2 n1 n2
es el valor z que deja un área de /2 a la derecha.

Ejemplo 1
Muestras de dos tipos de materiales A y B, sujetos a cambios extremos de temperatura, produjeron los resultados que se
muestran en la siguiente tabla

Resultado Material A Material B Total


Desintegrados 45 32 77
Permanecieron intactos 155 68 223
Total 200 100 300

A un 98% de nivel de confianza, ¿la proporción de desintegrados del material A es la misma que para el material B?

Estadística para Economistas 51


Universidad Peruana de Ciencias Aplicadas

Ejemplo 2
Una encuesta de 1000 estudiantes concluye que 274 eligen al equipo profesional de béisbol A como su equipo favorito.
En 1991, se realizó la misma encuesta con 760 estudiantes. Concluyó que 240 de ellos también eligieron al equipo A
como su favorito. Calcule un intervalo de confianza del 95% para la diferencia entre la proporción de estudiantes que
favorecen al equipo A entre las dos encuestas. ¿Hay una diferencia significativa?

Estadística para Economistas 52


Universidad Peruana de Ciencias Aplicadas

Prueba de hipótesis

Conceptos generales.
La prueba de hipótesis involucra una suposición elaborada sobre algún parámetro de la
población. A partir de la información proporcionada por la muestra se verificará la
suposición sobre el parámetro estudiado. La hipótesis que se contrasta se llama hipótesis
nula (Ho).

Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hipótesis nula a


favor de la alternativa, o bien no rechazamos la hipótesis nula y suponemos que nuestra
estimación inicial del parámetro poblacional podría ser correcto.

El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa
simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la
hipótesis nula.

Contraste de Hipótesis. La hipótesis que se contrasta es rechazada o no en función de la


información muestral. La hipótesis alternativa se especifica como opción posible si se
rechaza la nula.

Tipos de errores

Información muestral
La realidad
Aceptar H0 Rechazar H0

H0 es cierta No hay error Error I

H0 es falsa Error II No hay error

Error Tipo I
Ocurre cuando se rechaza una hipótesis H0 que es verdadera. La probabilidad de error tipo I
viene a ser la probabilidad de rechazar H0 cuando ésta es cierta.

P(Error I)  
El valor  es fijado por la persona que realiza la investigación (por lo general varía entre 1-
10%)

Error Tipo II
Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de error tipo II es la
probabilidad de aceptar H0 cuando ésta es falsa.

P(Error II)  

Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.

Estadística para Economistas 53


Universidad Peruana de Ciencias Aplicadas

Potencia de prueba o Poder de Prueba


Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa.

Potencia de prueba  1  

Como el valor de  depende del valor del parámetro la potencia de prueba tampoco pude ser
fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno
de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como
CURVA DE POTENCIA.

Pasos a seguir en una Prueba de Hipótesis


 Paso 1: Planteo de hipótesis.
 Paso 2: Nivel de significación.
 Paso 3: Prueba estadística.
 Paso 4: Suposiciones.
 Paso 5: Regiones críticas. Criterios de decisión.
 Paso 6: Realización de la prueba.
 Paso 7: Resultados y conclusiones.

Procedimiento general

Sea  el parámetro que representa: ( ,  2 , p, 1   2 , p1  p2 ,  12 /  22 )

1. Planteo de las hipótesis.


H 0 :    0 H 0 :    0 H 0 :    0 H 0 :    0 H 0 :    0
    
H1 :    0 H1 :    0 H1 :    0 H1 :    0 H1 :    0

2. Fijar el nivel de significación


3. Pruebas estadísticas

Distribución simétrica (Z, t)


E
 Distribución asimétrica positiva (  , F )
2

4. Supuestos
a) Supuestos para: (, 2 , 1  2 , 21 / 22 ) b) Supuestos para: p, p1  p 2
 Poblacion(es) normalmente  Muestra(s) tomada(s) al azar.
distribuida(s).  Muestra(s) grande(s)
 Muestra(s) tomada(s) al azar.

Estadística para Economistas 54


Universidad Peruana de Ciencias Aplicadas

5. Regiones críticas

Prueba Unilateral de Extremo Inferior

H1:  < o

Prueba Unilateral de Extremo Superior

H1:  > o

Prueba Bilateral

H1:  ≠ o

6. Calculo del Estadístico de prueba

7. Resultados y conclusiones.

Prueba de hipótesis para una media poblacional.


Ejemplo
Una empresa eléctrica fabrica focos cuya duración se distribuye de forma aproximadamente
normal con media de 800 horas y desviación estándar de 40 horas. Pruebe la hipótesis de
que   800 horas contra la alternativa   800 horas si una muestra aleatoria de 28 focos
tiene una duración promedio de 784 horas. Utilice un nivel de significancia de 0,05.

Solución.
Sea X: Duración de los focos (horas)
X~ N(800 , 402)

Estadística para Economistas 55


Universidad Peruana de Ciencias Aplicadas

1. Planteo de hipótesis.
H 0 :   800

H 1 :   800

2. Nivel de significación.
  0.05

3. Prueba estadística
_
x 
Zc  ~ N(0.1)
/ n

4. Supuestos.
 Población normal.
 Muestra tomada al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos

784  800
Zc   2.12
40 / 28

7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, el tiempo
promedio de duración de los focos es diferente de 800 horas.

Pruebas de hipótesis para una varianza poblacional.


Ejemplo
Se reporta que la desviación estándar de la resistencia al rompimiento de ciertos cables
producidos por una compañía es 240 lb. Después de que se introdujo un cambio en el
proceso de producción de estos cables, la resistencia al rompimiento de una muestra de 8
cables mostró una desviación estándar de 300 lb. Investigue la significancia del aumento
aparente en la variación usando un nivel de significancia de 0,05. Asuma normalidad.

Estadística para Economistas 56


Universidad Peruana de Ciencias Aplicadas

Solución.
Sea X: Resistencia al rompimiento de cierto tipo de cable
X~ N(  , 2402)

1. Planteo de hipótesis.
H 0 :  2  240 2



H 1 :   240
2 2

2. Nivel de significación.
  0.05

3. Prueba estadística
(n  1)s 2
c 
2
~ (2n 1)
 2

4. Supuestos.
 Población normal.
 Muestra tomada al azar.
5. Regiones críticas. Criterios de decisión.
La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios

Si  c2  14.07 No se rechaza H0
Si  c2  14.07 Se rechaza H0
0.05
0.95

6. Cálculos
(8  1)3002
c2   10.938
2402

7. Conclusiones.
Con 5% de nivel de significación y la información muestral es insuficiente para afirmar
que la variación de la resistencia al rompimiento ha aumentado.

Estadística para Economistas 57


Universidad Peruana de Ciencias Aplicadas

Pruebas de hipótesis para una proporción poblacional.


Cierto fabricante afirma que el 2% de toda la producción son defectuosos, ¿esta afirmación
se confirma si 15 de 300 artículos elegidos al azar de la producción son defectuosos? Use
  0.05 .

Solución.
Sea p: Proporción de artículos defectuosos.

1. Planteo de hipótesis.
H 0 : p  0.02

H 1 : p  0.02

2. Nivel de significación.
  0.05

3. Prueba estadística
p̂  p
Zc  ~ N(0.1)
p(1  p)
n

4. Supuestos.
 Muestra tomada al azar.
 Muestra grande.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos

0.05  0.02
Zc   3.712
0.02(1  0.98)
300

7. Conclusiones.
Con 5% de nivel de significación y a partir de la información muestral, la proporción de
defectuosos es diferente de 2%.

Estadística para Economistas 58


Universidad Peruana de Ciencias Aplicadas

Ejercicios Propuestos

1. Debido al tiempo excesivo que demanda trasladarse hacia el sitio de trabajo, la


oficina en donde usted trabaja en el centro de la ciudad está considerando espaciar
las horas de trabajo para sus empleados. El gerente considera que los empleados
demoran en promedio 50 minutos para llegar al trabajo. Setenta empleados se toman
en promedio 47.2 minutos con una desviación estándar de 18.9 minutos. Fije  en
1% y pruebe la hipótesis.

2. Un químico ha desarrollado un material plástico que, según él, tiene una resistencia
media a la ruptura de 29 onzas por pulgada cuadrada. Para comprobar la bondad del
método se tomaron 20 láminas de plástico en mención hallándose que en cada una de
éstas la resistencia a la ruptura es, respectivamente,

30,1 22,5 28,9 29,8 31,4 27,0 24,3 22,8 22,3 33,4
32,7 27,5 27,7 28,9 30,4 31,2 26,4 29,4 29,1 23,5

Al nivel de significación   0.05 y suponiendo normalidad, ¿se admite la


hipótesis del químico?

3. El laboratorio PAE establece un límite de 5 pmm para la concentración de PCB (una


sustancia peligrosa) en el agua. Una empresa manufacturera importante produce
PCB como aislante eléctrico descarga pequeñas cantidades de su planta. La gerencia
de la compañía, en un intento por controlar la cantidad de PCB en sus descargas, ha
dado instrucciones de parar la producción si la cantidad media de PCB en el efluente
es mayor que 3 pmm. Un muestreo aleatorio de 50 especimenes de agua produjo las
siguientes estadísticas: y  3,1 ppm y s  0,5 ppm. ¿Proporcionan tales estadísticas
suficientes pruebas para detener el proceso? Utilice   0,01.

4. Una muestra aleatoria de 64 bolsas de palomitas de maíz con queso pesan, en


promedio, 5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis
de que   5.5 onzas contra la hipótesis alternativa,   5.5 onzas en el nivel de
significancia de 0.05

5. Una empresa afirma que los lotes de cierto producto contienen 2% de artículos
defectuosos. Si se elige una muestra de 100 artículos de dicho lote, y resulta que 8
son defectuosos, ¿es válida la afirmación de la empresa? Utilice un nivel de
significancia de 0.05.

6. Un fabricante sostiene que el 95% de los equipos que envió a una fábrica está acorde
con las especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló
que 18 eran defectuosas. Pruebe la afirmación del fabricante al nivel de significancia
a) 0.01
b) 0.05

Estadística para Economistas 59


Universidad Peruana de Ciencias Aplicadas

Pruebas de hipótesis para dos varianzas poblacionales.


Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en las varianzas de las
resistencias entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B


Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de


significación. Asuma poblaciones normales con varianzas iguales.

Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N(  1 ,  12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N(  2 ,  22 )

1. Planteo de hipótesis.
H 0 : 1   2
2 2


H 1 : 12   22

2. Nivel de significación.
  0.05

3. Prueba estadística
S2 1
Fc  12  2 ~ f ( n1 1, n 2 1)
S 2 1
 22

4. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025
0.025 Si 0.226  fc  4.43 No se rechaza H0
Si fc < 0.226 o fc > 4.43 Se rechaza H0

0.226 4.43

Estadística para Economistas 60


Universidad Peruana de Ciencias Aplicadas

6. Cálculos 7. Conclusiones.
(0.0042) Con 5% de nivel de significación la
Fc   1.75
(0.0024) información muestral es insuficiente para
rechazar que las varianzas de las resistencias
son iguales.

Pruebas de hipótesis para dos medias poblacionales.


Muestras independientes

Ejemplo.
Un investigador desea verificar si existe evidencia de una diferencia en la resistencia
promedio entre dos tipos de material para embalaje. La descripción de las lecturas en pie-
libra de la resistencia al impacto de los dos tipos de embalaje se muestra a continuación.

Características Embalaje A Embalaje B


Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9

A partir de los datos obtenidos compruebe la hipótesis y concluya con 5% de nivel de


significación. Asuma poblaciones normales con varianzas iguales.

Solución.
Sean X1: Resistencia al impacto (embalaje A) X1 ~ N(  1 ,  12 )
X2: Resistencia al impacto (embalaje B) X2 ~ N(  2 ,  22 )

1. Planteo de hipótesis.
H 0 :  1   2

H 1 :  1   2

2. Nivel de significación.
  0.05

3. Prueba estadística
_ _

donde: S2p  (n1  1)s1  (n 2  1)s 2


2 2
( x1  x 2 )  (1   2 )
tc  ~ t ( n1  n 2  2)
1 n1  n 2  2
1 
S2p   
 n1 n 2 

4. Supuestos.
 Poblaciones normales.
 Muestras tomadas al azar.

Estadística para Economistas 61


Universidad Peruana de Ciencias Aplicadas

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025 0.025 Si -2.120  tc  2.120 No se rechaza H0
Si tc < -2.120 o tc > 2.120 Se rechaza H0
0.95

-2.120 t(16, 0.025) = 2.120

6. Cálculos
(1.2367  0.9778)  (0)
tc   9.561
1 1
0.0033  
9 9

7. Conclusiones.
Con 5% de nivel de significación la información muestral es suficiente para rechazar que
las resistencias promedios de los dos tipos de embalaje son iguales.

Muestras Relacionadas

Ejemplo
Un gimnasio afirma que un nuevo programa de ejercicio reducirá la medida de la cintura de
una persona en promedio dos centímetros en un período de cinco días. Las medidas de
cinturas de seis hombres que participaron en este programa de ejercicios se registraron antes
y después del período de cinco días en la siguiente tabla:

Hombres
1 2 3 4 5 6
Medida de cintura antes 90,4 95,5 98,7 115,9 104,0 85,6
Medida de cintura después 91,7 93,9 97,4 112,8 101,3 84,0

¿La afirmación del gimnasio es válida al nivel de significación de 5%? Suponga que la
distribución de las diferencias de medidas de cintura antes y después del programa es
aproximadamente normal.

Solución.
Sean X1: Medida de cintura antes (cm.)
X2: Medida de cintura después (cm.)

1. Planteo de hipótesis.
H 0 : D  2

H 1 : D  2

Estadística para Economistas 62


Universidad Peruana de Ciencias Aplicadas

2. Nivel de significación.
  0.05

3. Prueba estadística
dD
tc  ~ t n 1
Sd / n

4. Supuestos.
 Las diferencias tienen distribución normal.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.

Áreas Criterios
0.025 0.025 Si -2.57  tc  2.57 No se rechaza H0
Si tc < -2.57 o tc > 2.57 Se rechaza H0
0.95

-2.57 2.57

6. Cálculos

1.5  2
tc   0.794
1.543 / 6

7. Conclusiones.
Con 5% de nivel de significación la información recogida resulta insuficiente para
contradecir lo que afirma el gimnasio.

Prueba de hipótesis para dos proporciones poblacionales.


En una prueba de calidad de dos comerciales de televisión se pasó cada uno en un área de
prueba seis veces, durante un período de una semana. La semana siguiente se llevó a cabo una
encuesta telefónica para identificar a quienes habían visto esos comerciales. A las personas
que los vieron se les pidió definieran el principal mensaje en ellos. Se obtuvieron los
siguientes resultados:

Personas que lo Personas que recordaron el


Comercial
vieron mensaje principal
A 150 63
B 200 60

Use   0.05 para probar la hipótesis que no hay diferencia en las proporciones que
recuerdan los dos comerciales.

Estadística para Economistas 63


Universidad Peruana de Ciencias Aplicadas

Solución.
Sea p1: Proporción de personas que recordaron el mensaje principal del comercial A.
Sea p2: Proporción de personas que recordaron el mensaje principal del comercial B.

1. Planteo de hipótesis.
H 0 : p1  p 2

H1 : p1  p 2

2. Nivel de significación.
  0.05
3. Prueba estadística
p̂1  p̂ 2
Zc  ~ N(0.1)
1 1 
p (1  p )  

 1
n n 2 

4. Supuestos.
 Muestra tomada al azar.
 Muestra grande.

5. Regiones críticas. Criterios de decisión.


La hipótesis alternante define la(s) zona(s) de rechazo.
Áreas Criterios
0.025 0.025 Si -1.96  Zc  1.96 No se rechaza H0
Si Zc < -1.96 o Zc > 1.96 Se rechaza H0
0.95

-1.96 1.96

6. Cálculos 7. Conclusiones.
63 60 Con 5% de nivel de significación y a

150 200 partir de la información muestral,
Zc   2.328
 1 1  hay diferencias significativas en las
(0.351)(0.649)   proporciones que recuerdan los dos
 150 200 
comerciales.

Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de significación del 4%,
realice aplicaciones de Pruebas de Hipótesis para comparar:
1. Dos varianzas poblacionales de muestras independientes
2. Dos medias poblacionales de muestras independientes
3. Dos proporciones poblacionales de muestras independientes
4. Dos medias poblacionales de muestras relacionadas

Estadística para Economistas 64


Universidad Peruana de Ciencias Aplicadas

Ejercicios Propuestos

1. Se midió el número de ciclos hasta el colapso en vigas de concreto armado, tanto en el agua de
mar como en el aire. Los resultados en miles fueron los siguientes:

x s
Agua de mar 774 633 477 268 407 576 659 963 193 550,000 243,141
Aire 734 571 520 792 773 276 411 500 672 583,222 175,121

¿En el agua de mar en comparación con el aire, disminuye el número de ciclos antes del
colapso? Asuma poblaciones normales. Use   0.05 .
Prueba de muestras independientes

Prueba de
Lev ene para la
igualdad de
v arianzas Prueba T para la igualdad de medias
95% Interv alo de
conf ianza para la
Dif erenci Error típ. dif erencia
Sig. a de de la
F Sig. t gl (bilateral) medias dif erencia Inf erior Superior
Se han asumido
,787 ,388 -,333 16 ,744 -33,222 99,880 -244,959 178,515
v arianzas iguales
No se han asumido
-,333 14,54 ,744 -33,222 99,880 -246,700 180,256
v arianzas iguales

2. Se afirma que la resistencia del alambre A es mayor que la resistencia del alambre B. Un
experimento sobre los alambres muestra los siguientes resultados (en ohmios):

x s
Alambre A 0,136 0,142 0,137 0,135 0,143 0,138 0,1385 0,0033
Alambre B 0,135 0,104 0,118 0,11 0,115 0,132 0,119 0,0122

Los datos recogidos apoyan la afirmación. Asuma poblaciones normales, use 5% de nivel de
significación.

3. En un estudio realizado por el Departamento de Nutrición Humana y Alimentos se


registraron los siguientes datos acerca de la comparación de residuos de ácido sórbico, en
partes por millón, en jamón inmediatamente después de sumergirlo en una solución de ácido
y después de 60 días de almacenamiento.

Estadística para Economistas 65


Universidad Peruana de Ciencias Aplicadas

Residuos de ácido sórbico en jamón


Rebanada di
Antes del almacenamiento Después del almacenamiento
1 224 116 108
2 270 96 174
3 400 239 161
4 444 329 115
5 590 437 153
6 660 597 63
7 1400 689 711
8 680 576 104

Se supone que las poblaciones se distribuyen normalmente, ¿hay suficiente evidencia, al


nivel de significancia de 0.05, para decir que la duración del almacenamiento influye en las
concentraciones residuales de ácido sórbico?
Prueba de muestras relacionadas
Diferencias relacionadas
95% Intervalo de
Error típ. confianza para la
Desviación de la diferencia Sig.
Media típ. media Inferior Superior t gl (bilateral)
198,625 210,165 74,305 22,922 374,328 2,673 7 ,032
antes - después

4. Se utilizaron nueve sujetos en un experimento para determinar si una atmósfera que implica
la exposición a monóxido de carbono tiene un impacto sobre la capacidad de respiración. Los
sujetos se colocaron en cámaras de espiración, una de las cuales contenía una alta
concentración de CO. Se realizaron varias mediciones de respiración para cada sujeto en cada
cámara. Los sujetos se colocaron en las cámaras de respiración en una secuencia aleatoria.
Los siguientes datos dan la frecuencia respiratoria en número de respiraciones por minuto.

Sujeto 1 2 3 4 5 6 7 8 9
Con CO 30 45 26 25 34 51 46 32 30
Sin CO 30 40 25 23 30 49 41 35 28

Calcule un intervalo de confianza del 95%, se puede afirmar que un ambiente con CO influye
sobre la capacidad de respiración. Asuma normalidad.

5. El empleo de equipo de cómputo en las empresas está creciendo con una rapidez vertiginosa.
Un estudio reciente, en la que participaron 15 empresas del sector industrial, reveló que 184 de
616 adultos trabajan utilizando con regularidad una computadora personal, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo.
a. ¿Son estas pruebas suficientes para llegar a la conclusión de que la porción de adultos que
utilizan con regularidad equipo de cómputo en su trabajo excede 25% Pruebe con
  0.03 .
b. Se sabe que el número promedio de trabajadores por empresa es 720. Estime un intervalo
de confianza del 95% para el total de trabajadores, de las 15 empresas, que utilizan con
regularidad equipo de cómputo en su trabajo.

Estadística para Economistas 66


Universidad Peruana de Ciencias Aplicadas

c. Se seleccionó otra muestra de 450 adultos, de 10 empresas del sector salud, en la muestra
se obtuvo que 105 adultos utilizan con regularidad una computadora persona, una
microcomputadora, un terminal de computadora o un procesador de texto en su trabajo
¿Existe diferencias significativas entre los porcentajes de adultos, de las empresas del
sector industrial y de salud, que utilizan algún equipo de cómputo en su trabajo? Use
nivel de significación 0,05.

6. Se considera cierto cambio en un proceso de fabricación partes componentes. Se toma muestras


de procedimiento existente y del nuevo para determinar si este tiene como resultado una
mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y
80 de 2000 artículos de procedimiento nuevo también lo son, al nivel de 5% de significación,
¿mejoró el proceso luego de los cambios?

Estadística para Economistas 67


Universidad Peruana de Ciencias Aplicadas

UNIDAD 4. Estadística no paramétrica


Una de las mayores utilidades de la distribución Ji-Cuadrado está en que permite comparar
frecuencias observadas (frecuencias obtenidas en un experimento o muestreo) con frecuencias
esperadas según un modelo supuesto (hipótesis nula). Esta característica de la distribución Ji-
cuadrado permite efectuar las siguientes pruebas:

1. Prueba de independencia.
2. Prueba de homogeneidad de subpoblaciones.
3. Pruebas de bondad de ajuste a una distribución de probabilidades.

La metodología en cada uno de los tres casos es muy similar. La diferencia principal está en la
forma en que se calculan las frecuencias esperadas, ya que estas dependerán de la hipótesis nula
en cuestión.

Prueba de Independencia.

Esta prueba permite evaluar si dos variables son independientes entre sí. Suponga que la primera
variable permite clasificar a cada observación en una de r categorías y que la segunda variable
permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas
variables y las frecuencias observadas en cada una de las r×c categorías resultantes se le conoce
como tabla de contingencia r×c.

Variable 2
Columna 1 Columna 2 ... Columna c
Fila 1
Fila 2
.
Variable 1
.
.
Fila r

Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos
variables en escala nominal. Cuando las variables están en escala ordinal, intervalo o razón,
existen otros procedimientos más adecuados, como por ejemplo mediante el cálculo de
coeficientes de correlación (en un capítulo posterior se verá el caso del coeficiente de
correlación de Pearson, útil para analizar asociación lineal entre dos variables cuantitativas).

Ejemplo.
Para determinar si existe una relación entre la calificación de un empleado en el programa de
capacitación y su rendimiento real en el trabajo, se tomó una muestra de 400 casos de los
archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia 3×3.

Estadística para Economistas 68


Universidad Peruana de Ciencias Aplicadas

Calificación en el programa de capacitación


Debajo del Sobre el Total
Promedio
promedio promedio
Rendimiento real en el Deficiente 23 60 29 112
trabajo (calificación del Promedio 28 79 60 167
empleador)
Muy bueno 9 49 63 121
Total 60 188 152 400

Con el nivel de significación 0,01, ¿La calificación del rendimiento del trabajador está asociada
con la calificación en el programa de capacitación?

Solución

Las variables que se muestran en la tabla son:

Variable 1: Calificación del rendimiento real en el trabajo, con 3 categorías: Deficiente,


promedio y muy bueno.
Variable 2: Calificación en el programa de entrenamiento, con 3 categorías: Debajo del
promedio, promedio o sobre el promedio.

La prueba de independencia compara las frecuencias observadas frente a las frecuencias


esperadas bajo el supuesto de que ambas variables sean independientes.

Para calcular las frecuencias esperadas se utiliza la siguiente fórmula:

(Total de la columna) x (Total de la fila)


Frecuencia esperada 
Total de la tablal

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre
paréntesis)

Calificación en el programa de capacitación


Debajo del Sobre el Total
Promedio
promedio promedio
Rendimiento real en el Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112
trabajo (calificación del Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167
empleador) Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121
Total 60 188 152 400

Pasos para realizar la prueba de independencia

1. Formulación de las hipótesis


H0: La calificación del rendimiento real de un empleado en el trabajo es independiente de la
calificación en el programa de capacitación.
H1: La calificación del rendimiento real de un empleado en el trabajo no es independiente
de la calificación en el programa de capacitación.

Estadística para Economistas 69


Universidad Peruana de Ciencias Aplicadas

2. Fijación del nivel de significación: 0,01.

3. Estadístico de prueba

k
(oi  ei ) 2
 c2   ~  2 con v  (r  1)(c  1) gl
i 1 ei

4. Áreas y criterio de decisión.


Los grados de libertad para el estadístico Ji-cuadrado son (3-1)(3-1) = 4.

0,01

 20,01 = 13,277

Criterio:
Si  c2 > 13,277 se rechaza H0
Si  c2 ≤ 13,277 no se rechaza H0.

5. Cálculos previos
(23  16,80) 2 (28  25,05) 2 (63  45,98) 2
 c2    ...   20,18
16,80 25,05 45,98

6. Conclusión: Con nivel de significación 0,01 se rechaza la hipótesis nula. Por lo tanto hay
evidencia estadística suficiente para aceptar que la calificación del rendimiento real de un
empleado en el trabajo depende de la calificación en el programa de entrenamiento.

Nota. (Corrección de Yates)


Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son menores que 5, o
cuando el grado de libertad del estadístico de prueba es igual a 1, es recomendable aplicar la
corrección de Yates; con esta corrección, el estadístico de prueba es el siguiente:

 
2
k o i  ei  0,5
2

 2 con v  (r  1)(c  1) gl


c
i 1 ei

Estadística para Economistas 70


Universidad Peruana de Ciencias Aplicadas

7. Salida SPSS:
Tabla de conti ngencia Rendimiento * Aprovechamiento

Rec uent o
Aprov ec hamiento
Debajo del Sobre el
Promedio Promedio Promedio Tot al
Rendimiento Def iciente 23 60 29 112
Muy Bueno 9 49 63 121
Promedio 28 79 60 167
Tot al 60 188 152 400

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 20. 179a 4 .000
Razón de v erosimilitudes 20. 892 4 .000
N de casos v álidos 400
a. 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mí nima esperada es 16. 80.

Prueba de Homogeneidad de Proporciones

Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la


misma en r poblaciones.

Ejemplo.
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura, produjeron los
resultados que se muestran en la siguiente tabla:

Material A Material B Material C Total


Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300

Use un nivel de significación de 0,05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es la misma para los tres tipos de materiales.

Pasos para realizar la prueba de homogeneidad de proporciones

1. Formulación de las hipótesis


H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegración con el material i.
H1: No todas las proporciones son iguales.

2. Fijación del nivel de significación: 0,05.

Estadística para Economistas 71


Universidad Peruana de Ciencias Aplicadas

3. Estadístico de prueba
k
(oi  ei ) 2
 c2   ~  2 con v  (r  1)(c  1) gl
i 1 ei

4. Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-cuadrado son (2-1)(3-1) = 2.

0,05

 0,05
2
= 5,991

Criterios:
Si  c2 > 5,991 se rechaza H0
Si  c2 ≤ 5,991 no se rechaza H0

5. Cálculos previos

Material A Material B Material C Total


Desintegrados 41 (36) 27 (24) 22 (30) 90
Permanecieron intactos 79 (84) 53 (56) 78 (70) 210
Total 120 80 100 300

(41  36) 2 (79  84) 2 (78  70) 2


 c2    ...   4,575
36 84 70

6. Con nivel de significación de 0,05 no se rechaza la hipótesis nula; los datos son
insuficientes para rechazar que la probabilidad de desintegración es la misma para los tres
tipos de materiales.

Salida SPSS:
Tabla de conti ngencia Estado * Material

Rec uent o
Mat erial
A B C Tot al
Estado Des integra 41 27 22 90
Intact o 79 53 78 210
Tot al 120 80 100 300

Estadística para Economistas 72


Universidad Peruana de Ciencias Aplicadas

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 4. 575a 2 .101
Razón de v erosimilitudes 4. 727 2 .094
N de casos v álidos 300
a. 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mí nima esperada es 24. 00.

Prueba de Bondad de Ajuste

La prueba de bondad de ajuste se utiliza para probar una hipótesis acerca de la distribución de
una variable. Se compara una distribución de frecuencias observadas con los valores
correspondientes de una distribución esperada o teórica.

Ejemplo 1: Bondad de ajuste a una distribución de Poisson.

Supóngase que durante 400 intervalos de cinco minutos cada uno el control de tráfico aéreo de
un aeropuerto recibió 0, 1, 2, ...ó 13 mensajes de radio con frecuencias respectivas de 3, 15, 47,
76, 68, 74, 46, 39, 15, 9, 5, 2, 0 y 1. Se desea verificar si esos datos apoyan el supuesto de que el
número de mensajes de radio recibidos durante un intervalo de 5 minutos puede considerarse
como una variable aleatoria que tiene distribución de Poisson con   4,6 . Use   0,05.
En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría
(definidas por k). Para calcular las frecuencias esperadas debe calcular primero las
probabilidades correspondientes a cada categoría, en este caso utilizando la función de
distribución de probabilidades Poisson definida por:

e   x
Pr  X  x  
x!
Tenga en cuenta que el rango de la distribución de Poisson va de 0 a . Por esta razón, la última
categoría de la tabla (correspondiente a k =14) corresponde a 13 o más mensajes de radio y la
probabilidad correspondiente es:
Pr  X  13  1  Pr  X  13
Luego de calcular las probabilidades de Poisson para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 400. Los resultados de estos cálculos se muestran en la siguiente tabla:

Estadística para Economistas 73


Universidad Peruana de Ciencias Aplicadas

N° mensajes por Frecuencias Probabilidades Frecuencias


k
radio observadas (oi) de Poisson esperadas (ei)
1 0 3 0,010 4,0
2 1 15 0,046 18,4
3 2 47 0,107 42,8
4 3 76 0,163 65,2
5 4 68 0,187 74,8
6 5 74 0,173 69,2
7 6 46 0,132 52,8
8 7 39 0,087 34,8
9 8 15 0,050 20,0
10 9 9 0,025 10,0
11 10 5 0,012 4,8
12 11 2 0,005 2,0
13 12 0 0,002 0,8
14 13 o más 1 0,001 0,4
Total 400 1,000 400,0

Note que en el cuadro anterior se obtienen varias frecuencias esperadas menores a 5. Categorías con
frecuencias esperadas menores a 5 pueden invalidar los resultados de esta prueba de hipótesis; por
lo tanto es recomendable agrupar estas categorías para obtener frecuencias esperadas mayores como
se muestra a continuación.

Frecuencias Frecuencias oi  ei 2


k
observadas (oi) esperadas (ei) ei
1 18 22,4 0,8643
2 47 42,8 0,4121
3 76 65,2 1,7890
4 68 74,8 0,6182
5 74 69,2 0,3329
6 46 52,8 0,8758
7 39 34,8 0,5069
8 15 20,0 1,2500
9 9 10,0 0,1000
10 8 8,0 0,0000
Total 400 400,0 6,7492

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: La variable aleatoria tiene distribución de Poisson con parámetro   4,6
H1: La variable aleatoria no tiene distribución de Poisson con parámetro   4,6 .

2) Fijación del nivel de significación: 0,05

Estadística para Economistas 74


Universidad Peruana de Ciencias Aplicadas

3) Estadístico de prueba

k
(oi  ei ) 2
 
2
c ~  2 con v  k  1  m
i 1 ei

En esta expresión, k es el número de categorías (10 en el ejemplo) y m es el número de


parámetros estimados (0 en el ejemplo). Si el valor de  no hubiese sido dado, hubiese sido
necesario estimarlo con los datos, y en ese caso, m hubiese sido igual a 1.

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 10-1-0 = 9.

0,05

 20,05 = 16,919

Criterios:
Si  c2 > 16,919 se rechaza H0
Si  c2 ≤ 16,919 no se rechaza H0

5) Cálculos previos
(18  22,4) 2 (47  42,8) 2 (8  8,0) 2
 c2    ...   6,7492
22,4 42,8 8,0

6)   4,6
proporciona un buen ajuste.

Ejemplo 2 : Bondad de ajuste a una distribución binomial.

Un empresario recibe un lote de 1000 cajas de bombillos eléctricos. Ante la sospecha de que el
lote puede contener varios bombillos defectuosos, el empresario decide realizar una inspección
total. Cada caja contiene 10 bombillos. Luego de la inspección el empresario encuentra que 334
cajas no tenían bombillos defectuosos, 369 cajas tenían 1 bombillo defectuoso, 191 cajas tenían
2 bombillos defectuosos, 63 cajas tenían 3 bombillos defectuosos, 22 cajas tenían 4 bombillos
defectuosos, 12 cajas tenían 5 bombillos defectuosos y 9 cajas tenían 6 bombillos defectuosos.
Se desea verificar si se puede asumir que la variable número de bombillos defectuosos por caja
sigue una distribución binomial, utilizando un nivel de significación de 0.05.

Dado que el parámetro p de la distribución binomial no es definido a priori, es necesario


estimarlo. Este parámetro, que corresponde a la probabilidad de que un bombillo seleccionado al
azar sea defectuoso puede estimarse de la siguiente manera:

Estadística para Economistas 75


Universidad Peruana de Ciencias Aplicadas

Total de bombillos defectuosos 1142


pˆ    0,1142
Total de bombillos en las 1000 cajas 10000

En la siguiente tabla se presentan las frecuencias observadas y esperadas para cada categoría. En
este caso, las probabilidades correspondientes a cada categoría deberán calcularse utilizando la
función de distribución de probabilidades binomial con p estimado por 0.1142 y n = 10, esto es:

10 
Pr X  x     p x 1  p 
10 x

x

Luego de calcular las probabilidades binomiales para cada categoría, las frecuencias esperadas
se calculan multiplicando la probabilidad correspondiente por el tamaño total de muestra, en
este caso 1000. Tenga en cuenta también que el rango de esta distribución va de 0 a 10; por esta
razón la categoría 7 corresponde a la probabilidad

Pr  X  6  Pr  X  6  Pr  X  7   Pr  X  8  Pr  X  9   Pr  X  10 

N° de bombillos Frecuencias Probabilidades Frecuencias


k
defectuosos observadas (oi) binomiales esperadas (ei)
1 0 334 0,2974 297,4
2 1 369 0,3834 383,4
3 2 191 0,2224 222,4
4 3 63 0,0765 76,5
5 4 22 0,0173 17,3
6 5 12 0,0027 2,7
7 6 o más 9 0,0003 0,3
Total 1000 1,000 1000

Al igual que en el ejemplo anterior se obtienen algunas categorías con frecuencias esperadas
menores a 5. Estas categorías deben agruparse para obtener frecuencias esperadas mayores; en este
caso, es necesario agrupar las últimas 3 categorías.

Frecuencias Frecuencias oi  ei 2


k
observadas (oi) esperadas (ei) ei
1 334 297,4 4,5042
2 369 383,4 0,5408
3 191 222,4 4,4332
4 63 76,5 2,3823
5 43 20,3 25,3837
Total 1000 1000 37,2445

Estadística para Economistas 76


Universidad Peruana de Ciencias Aplicadas

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: El número de bombillos defectuosos por caja sigue una distribución binomial.
H1: El número de bombillos defectuosos por caja no sigue una distribución binomial.

2) Fijación del nivel de significación: 0,05

3) Estadístico de prueba

k
(oi  ei ) 2
 c2   ~  2 con v  k  1  m
i 1 ei

En esta ejemplo k = 5 (número de categorías) y m = 1 (pues se ha estimado a p).

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 5-1-1 = 3.

0,05

 20,05 = 7.815

Criterios:
Si  c2 > 7,815 se rechaza H0
Si  c2 ≤ 7,815 no se rechaza H0

5) Cálculos previos
(334  297,4) 2 (369  383,4) 2 (43  20,3) 2
 c2    ...   37,24
297,4 383,4 20,3

6) Se rechaza la hipótesis nula; se concluye que la distribución binomial no proporciona un


buen ajuste para el número de bombillos defectuosos por caja.

Ejemplo 3: Bondad de ajuste a una distribución de frecuencias.

Se realizó una evaluación con tres tipos de galleta. Para ello se le dio una galleta de cada tipo a
una muestra de 60 personas para que las prueben y elijan la de mejor sabor. Como resultado del
experimento 26 personas respondieron que la galleta A era la mejor, 21 que la B era la mejor y
sólo 13 que la C era la mejor. ¿Presentan los datos evidencia suficiente con un nivel de
significación de 0,05 para indicar que alguna de las galletas es preferida por sobre las demás?

Estadística para Economistas 77


Universidad Peruana de Ciencias Aplicadas

Si no hubiera diferencias en cuanto a la preferencia por las tres galletas, sería de esperar que un
tercio de las personas consultadas escojan como mejor a cada una de las 3. Este supuesto define
las frecuencias esperadas como se muestra en la siguiente tabla.

Frecuencias Probabilidades Frecuencias


k Tipo de galleta
observadas (oi) teóricas esperadas (ei)
1 A 26 1/3 20
2 B 21 1/3 20
3 C 13 1/3 20
Total 60 1 60

Dado que todas las frecuencias esperadas son mayores a 5 no es necesario agrupar categorías en
este caso.

Pasos para realizar la prueba de bondad de ajuste

1) Formulación de las hipótesis


H0: No hay preferencias por ninguno de los tipos de galleta.
H1: Sí hay preferencias por al menos uno de los tipos de galleta.

Note que las hipótesis nula y alterna en este caso podrían bien escribirse de la siguiente
manera, donde pA, pB y pC son las respectivas proporciones o probabilidades de preferencia
por los tipos de galleta A, B y C.

H0: pA = pB = pC
H1: Al menos un p es diferente.

2) Fijación del nivel de significación: 0,05.

3) Estadístico de prueba

k
(oi  ei ) 2
 c2   ~  2 con v  k  1  m
i 1 ei

En este ejemplo k = 3 (número de categorías) y m = 0 (no se estima ningún parámetro).

4) Áreas y criterios de decisión.


Los grados de libertad para el estadístico Ji-Cuadrado son 2.

0,05

 20,05 = 5.991

Estadística para Economistas 78


Universidad Peruana de Ciencias Aplicadas

Criterios:
Si  c2 > 5,991 se rechaza H0
Si  c2 ≤ 5,991 no se rechaza H0-

5) Cálculos previos
(26  20) 2 (21  20) 2 (13  20) 2
c 
2
   4,3
20 20 20

6) No se rechaza la hipótesis nula; se concluye que los datos no aportan suficiente evidencia
con un nivel de significación de 0,05 para indicar que alguna de las galletas es preferida por
sobre las demás.

Otras pruebas

La prueba Ji-Cuadrado de bondad de ajuste es bastante útil cuando la variable aleatoria en


cuestión es discreta y el tamaño de muestra lo suficientemente grande como para asegurar
frecuencias altas en cada categoría. Para otros casos, como por ejemplo evaluar el ajuste a una
distribución normal, existen otras pruebas y métodos más adecuados como por ejemplo:

 Los métodos gráficos Q-Q y PP.


 Prueba de Kolmogorov-Smirnov.

En esta sección se revisará la prueba de Kolmogorov-Smirnov con la ayuda de software para


realizar los cálculos.

Ejemplo.
Pruebe que la siguiente muestra proviene de una distribución normal. Use   0,01.

12 15 16 18 19 14 10 15 16 14

Las hipótesis en este caso son las siguientes:

H0: La variable en estudio tiene una distribución normal.


H1: La variable en estudio no tiene una distribución normal.

A continuación se presentan los resultados obtenidos para esta prueba con SPSS:

Estadística para Economistas 79


Universidad Peruana de Ciencias Aplicadas

Prueba de Kolmogorov-Smirnov para una muestra

X
N 10
Parámet ros normales a,b Media 14.90
Desv iación t ípica
2.644

Dif erencias más Absoluta .167


extremas Positiv a .139
Negativ a -.167
Z de Kolmogorov -Smirnov .527
Sig. asintót. (bilateral) .944
a. La distribución de cont raste es la Normal.
b. Se han calculado a partir de los datos.

El estadístico de prueba en este procedimiento es el valor D definido como la máxima distancia


vertical entre la distribución de probabilidades acumulada empírica obtenida con los datos y la
distribución de probabilidades teórica establecida en H0 (en este caso la distribución normal).

El criterio de decisión queda definido por:


Si D > valor crítico de la tabla se rechaza H0
Si D ≤ valor crítico de la tabla no se rechaza H0.

En este ejemplo se obtiene D = 0,167 < 0,490, lo cual conduce a no rechazar la hipótesis nula.
Alternativamente se puede concluir observando el valor de probabilidad, que en este caso, por ser
mayor al nivel de significación (p = 0.944 > α = 0.01) conduce al no rechazo de H0. En
conclusión, se puede aceptar que la distribución normal brinda un buen ajuste a estos datos.

Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de significación del 5%,
realice las siguientes aplicaciones de la distribución Ji cuadrado:
1. Prueba de Independencia entre dos variables
2. Prueba de Homogeneidad de proporciones
3. Prueba de Bondad de Ajuste

Estadística para Economistas 80


Universidad Peruana de Ciencias Aplicadas

Ejercicios Propuestos

1. Un criminalista realizó una investigación para determinar si la incidencia de ciertos tipos de


crímenes varían de una parte a otra en una ciudad grande. Los crímenes particulares de
interés son asalto, robo, hurto y homicidio. La siguiente tabla muestra el número de delitos
cometidos en tres áreas de la ciudad durante el año pasado:

Frecuencias observadas Frecuencias esperadas


Tipo de Distrito Tipo de Distrito
delito I II III delito I II III
Asalto 162 310 258 Asalto 171,1 348,9 210,0
Robo 118 196 193 Robo 118,9 242,3 145,8
Hurto 451 996 458 Hurto 446,6 910,5 547,9
Homicidio 18 25 10 Homicidio 12,4 25,3 15,2

¿Se puede concluir a partir de estos datos con un nivel de significación de 0,01 que la
ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?

2. De acuerdo con un estudio de la Universidad Años vividos Viuda Viudo


Johns Hopkins publicado en el American Menos de 5 25 39
Journal of Public Health, las viudas viven De 5 a 10 42 40
más que los viudos. Considere los siguientes Más de 10 33 21
datos de sobrevivencia de 100 viudas y 100
viudos después de la muerte del cónyuge:

¿Se puede concluir con un nivel de significación de 0,05 que las proporciones de viudas y
viudos son iguales con respecto a los diferentes períodos que un cónyuge sobrevive a la
muerte de su compañero?

3. Se registraron las calificaciones de los empleados de una empresa luego de implementar un


programa de calidad. Estos datos fueron tabulados en la siguiente tabla de frecuencias

Intervalos Frecuencia f i ( xi  x ) 2
[ 9,0 ; 13,0[ 10 664,225
[13,0 ; 17,0[ 14 241,115
[17,0 ; 21,0[ 28 0,630
[21,0 ; 25,0[ 19 281,628
[25,0 ; 29,0 9 554,603

Grafique la tabla de frecuencias, estudie y compruebe el ajuste de los datos a una


distribución teórica. Use   0,05 .

Estadística para Economistas 81


Universidad Peruana de Ciencias Aplicadas

4. Las calificaciones de un curso de estadística para un semestre regular fueron las siguientes:

Calificación A B C D F
Frecuencia 14 18 32 20 16

Pruebe la hipótesis, al nivel de significación de 0,05, de que todas las calificaciones son
igualmente probables.

5. Un vendedor hace cuatro llamadas diarias, cada una de las cuales puede resultar en la
concreción de una venta. Una muestra de 210 días da como resultado las frecuencias de
ventas que se muestran a continuación.

Número de ventas Número de días


0 50
1 75
2 65
3 15
4 5

Se desea verificar cuál es la distribución teórica para el número de ventas que se realiza
diariamente a un nivel de significación del 5%.

6. Se supone que una máquina mezcla cacahuates, avellanas, anacardos y pecanas bajo las
proporciones 5:2:2:1. Se encuentra que una lata que contiene 500 de estas nueces mezcladas,
tiene 269 cacahuates, 112 avellanas, 74 anacardos y 45 pecanas. Al nivel de significación de
0,05, pruebe la hipótesis de que la máquina mezcla efectivamente las nueces a una razón de
5:2:2:1.

7. Una compañía de seguros basa sus primas de seguros para cosechas en el número de
incendios fuera de control en áreas de matorrales por año. ¿A que distribución de
probabilidad podría ajustarse la variable número de incendios por año? A continuación se
presenta información sobre el número de incendios en los últimos 60 años:

Número de Incendios 0 1 2 3 4
Frecuencia 8 10 16 14 12

¿Aporta esta información suficiente evidencia para rechazar su supuesto inicial? Use un
nivel de significación del 5%.

Estadística para Economistas 82


Universidad Peruana de Ciencias Aplicadas

UNIDAD 5. Diseños Experimentales

Diseño completamente aleatorizado

Supongamos que el experimentador cuenta con los resultados de k muestras aleatorias


independientes, cada una de tamaño n, de k diferentes poblaciones (esto es, datos relativos a k
tratamientos, k grupos, k métodos de producción, etc.) y le interesa probar la hipótesis de que
las medias de esas k poblaciones son todas iguales.

Tratam. Tratam.1 Tratam.2 ... Tratam.k Total


Muestra Y.j
1 y11 y21 ... yk1 y.1
2 y12 y22 ... yk2 y.2
3 y13 y23 ... yk3 y.3
. . . ... . .
. . . ... . .
. . . ... . .
ni y 1n1 y 1n 2 ... y 1n k y 1n 
Total Yi. y1. y2. ... yk. y..

Donde.
ni k k ni k ni
y i.   y ij , y . j   y ij , y ..   y i.   y . j   y ij
j1 i 1 i 1 j1 i 1 j1

Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales,
haremos varias suposiciones. Con más precisión, supondremos estar trabajando con poblaciones
normales que tienen varianzas iguales.

Si  i denota la media de las i-ésima población y  2 indica la varianza común de las k


poblaciones, podemos expresar cada observación yij como  i más el valor de un componente
aleatorio; es decir podemos escribir

y ij   i   ij para i  1, 2, . .., k ; j  1, 2, ..., n i

Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados,
se acostumbra reemplazar  i por    i , donde  es la media de las  i y  i es el efecto del
k
i-ésimo tratamiento; de ahí que 
i 1
i  0 . Con estos nuevos parámetros, podemos escribir la

ecuación modelo para el criterio de clasificación.

yij    i   ij para i  1, 2, . .., k ; j  1, 2, ..., ni

Estadística para Economistas 83


Universidad Peruana de Ciencias Aplicadas

donde:
yij : La j- ésima observación en la i-ésima muestra
 : Parámetro de la media poblacional.
i : Efecto del i-ésimo tratamiento.
 ij : Error aleatorio asociado a la observación yij, donde  ij ~ N(0,  2 )

Tabla del análisis de varianza


Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fc
variación
CM (Tr)
k–1 k
y2 y2
Tratamientos SS(Tr)   i.  .. SS (Tr ) CM E
i 1 n i n CM (Tr ) 
k 1
n. – k SSE
Error SSE  SST  SS(Tr) CME 
n  k

n. – 1 k n
y ..2
 k
 SST   y ij2 
Total
donde  n   ni  i 1 j1 n
 i 1 

Asumiendo el cumplimiento de los supuestos antes mencionados, y que en realidad no hay


diferencias entre los tratamientos, la cantidad Fc del cuadro de Análisis de Variancia seguiría
una distribución F de Fisher con los grados de libertad de tratamientos y del error. Entonces, se
puede utilizar esta distribución para evaluar la hipótesis nula de que no hay diferencias entre las
medias de los tratamientos.

Ejemplo.
Las cifras siguientes son el número de errores cometidos, en cinco días consecutivos de trabajo,
por cuatro técnicos de un laboratorio fotográfico:

Día Técnico I Técnico II Técnico III Técnico IV


1 6 14 10 9
2 14 9 12 12
3 10 12 7 8
4 8 10 15 10
5 11 14 11 11
Total Yi. 49 59 55 50 213 = Y..

Pruebe con un nivel de significancia   0,05 si las diferencias entre las cuatro muestras
pueden atribuirse al azar.

Solución.
Los totales para las cuatro muestras son, respectivamente, 49, 59, 55, y 50, el gran total es 213,
y los cálculos con que se obtienen las sumas de cuadrados necesarias son los siguientes:

Estadística para Economistas 84


Universidad Peruana de Ciencias Aplicadas

2
 4 5 
  y ij 
 
 i 1 j 1   (213)  2268,45
2

n. (5)(4)
SST  (6)  (14) 2  (10) 2  . . .  (11) 2  2268,45  114,55
2

(49) 2  (59) 2  (55) 2  (50) 2


SS (Tr )   2268,45  12,95
5

La tabla del análisis de varianza es:

Grados de Suma de Cuadrado


Fuente de variación Fc Ft
libertad cuadrados medio
Tratamientos 4–1=3 12,95 4,32 0,68 3,24

Error 20 - 4= 16 101,60 6,35

Total 5(4) – 1 = 19 114,55

Puesto que el valor obtenido para Fc es menor que 3,24, que corresponde al valor F 0,05 con 3 y
16 grados de libertad, la hipótesis nula no puede ser rechazada con un nivel de significación de
0,05; concluimos entonces que no se puede rechazar la hipótesis de que los técnicos están
logrando resultados iguales.

La salida del SPSS para el análisis de varianza para una vía se muestra a continuación:

15.00

12.50
Errores

10.00

7.50

I II III IV
Tecnico

Estadística para Economistas 85


Universidad Peruana de Ciencias Aplicadas

Prueba de Kolmogorov-Smirnov para una muestra

Residuo
para Errores
N 20
Parámet ros normales a,b Media .0000
Desv iación t ípica
2.31244

Dif erencias más Absoluta .100


extremas Positiv a .082
Negativ a -.100
Z de Kolmogorov -Smirnov .447
Sig. asintót. (bilateral) .988
a. La distribución de cont raste es la Normal.
b. Se han calculado a partir de los datos.

a
Contraste de Levene sobre la i gualdad de las varianzas error

Variable dependiente: Errores


F gl1 gl2 Signif icación
.489 3 16 .695
Contrasta la hipótesis nula de que la v arianza error de la
v ariable dependiente es igual a lo largo de todos los grupos.
a. Diseño: Intersección+Técnico

Pruebas de los efectos i nter-sujetos

Variable dependient e: Errores


Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Signif icación
Modelo corregido 12.950a 3 4.317 .680 .577
Intersección 2268.450 1 2268.450 357.236 .000
Técnico 12.950 3 4.317 .680 .577
Error 101.600 16 6.350
Total 2383.000 20
Total corregida 114.550 19
a. R cuadrado = .113 (R cuadrado corregida = -.053)

Prueba para la diferencia de medias

Se supone que el experimentador tiene a su disposición mediciones relativas a varios


tratamientos. El análisis de varianza indica si todas las medias son iguales. Cuando se rechaza la
hipótesis nula, el análisis de varianza no revela cuál(es) de las media(s) es (son) diferente(s) del
resto; en estos casos se deben utilizar otras pruebas estadísticas para tomar esta determinación.

Estadística para Economistas 86


Universidad Peruana de Ciencias Aplicadas

Prueba de Rango Múltiple de Duncan y Prueba de Diferencia Mínima Significativa


Se dice que un diseño es balanceado si todas las muestras tienen igual número de repeticiones u
observaciones. En esta sección se asumirá que todas las muestras n repeticiones.
Estas pruebas permiten evaluar si existen diferencias significativas entre las medias de cada par
de tratamientos.

La prueba de rango múltiple de Duncan compara el rango entre cualquier par de medias con un
rango apropiadode mínima significación, Rp, dado por

R p  SX .rp

En esta expresión p es el número de medias de tratamientos comprendidas, luego de ordernarlas


ascendentemente, entre las dos medias que se están comparando (incluidas las dos medias en
comparación). Aquí Sx es un estimador de la desviación estándar común a todos los tratamientos
y es dado por

CME
Sx 
n

El valor de rp depende de del nivel deseado de significación y del número de grados de libertad
correspondiente al CME y puede obtenerse de las tablas N°8.1 y N°8.2 para   0,05 y
  0,01 respectivamente, para p = 2, 3, . . ., 10 y para grados de libertad del error de 1 a 120.

Ejemplo
Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño de
discos por cuatro laboratorios diferentes.

Laboratorio A Laboratorio B Laboratorio C Laboratorio D Total


0,25 0,18 0,19 0,23
0,33 0,28 0,25 0,30
0,22 0,21 0,27 0,28
0,30 0,23 0,24 0,28
0,27 0,25 0,18 0,24
0,28 0,20 0,26 0,34
0,32 0,27 0,28 0,20
0,24 0,19 0,24 0,18
0,31 0,24 0,25 0,24
0,26 0,22 0,20 0,28
0,20 0,29 0,21 0,22
0,28 0,16 0,19 0,21
Total 11,740
3,26 2,72 2,76 3,00
Media 0,272 0,227 0,230 0,250

Estadística para Economistas 87


Universidad Peruana de Ciencias Aplicadas

La tabla del análisis de varianza es:

Fuente de Grados de Suma de Cuadrados Fc Ft


variación libertad cuadrados medios
Laboratorios 3 0,0156 0,0052 3,133 2,82
Error 44 0,0728 0,0017
Total 47 0,0884

Determine qué medias difieren de las otras. Use un nivel de significación   0.05 .

Solución:
Primero se ordena las cuatro medias en orden creciente de magnitud:

Laboratorio B C D A
Media 0,227 0,230 0,250 0,272

Luego, calcule el S x usando el cuadrado medio del error 0.0017.

0.0017
SX   0.0119
12

Se obtiene (por interpolación lineal) en la tabla 8.1 los siguientes valores de rp para   0.05 y
44 grados de libertad:

p 2 3 4
rp 2,85 3,00 3,09

Multiplicando cada valor de rp por S x se obtiene finalmente:

p 2 3 4
Rp 0,034 0,036 0,037

El rango de las 4 medias es:


Entre B y A: 0,272 - 0,227 = 0,045 > 0,037, entonces existen diferencias significativas entre
las medias de B y A.

Los rangos de 3 medias son:


Entre C y A: 0,272 - 0,230 = 0,042 > 0,036, entonces existen diferencias significativas entre
las medias de C y A.
Entre B y D: 0,250 - 0,227 = 0,023 < 0,036, entonces no existen diferencias significativas
entre las medias de B y D.

Los rangos de 2 medias son:


Entre B y C: 0,230 – 0,227 = 0,003 < 0,034, entonces no existen diferencias significativas
entre las dos medias (B y C)
Entre D y C: 0,250 – 0,230 = 0,02 < 0,034, entonces no existen diferencias significativas
entre las dos medias (D y C)

Estadística para Economistas 88


Universidad Peruana de Ciencias Aplicadas

Entre A y D: 0,272 – 0,250 = 0,022 < 0,034, entonces no existen diferencias significativas
entre las dos medias (A y D)

Estos resultados puden resumirse un diagrama de líneas como el que se muestra a continuación.
La idea es que los tratamientos unidos por una línea no presentan diferencias significativas.

B C D A
0,227 0,230 0,250 0,272

Desarrollando el ejemplo utilizando el SPSS se obtiene los siguientes resultados:


Test of Homogeneity of Variances

Pesos de recubrimiento ¿Cuáles son las hipótesis?


Lev ene Ho:
St at ist ic df 1 df 2 Sig. ………………………………………………
.360 3 44 .782 H1:
………………………………………………
ANOVA

Pesos de recubrimiento
Sum of Mean
Squares df Square F Sig.
Between Groups ,01556 3 ,00519 3.133 ,0349
Within Groups ,07283 44 ,00166
Total ,08839 47

Pesos de recubrimiento
a
Duncan
Subset f or alpha = . 05
Laboratorio N 1 2
B 12 .2267
C 12 .2300
D 12 .2500 .2500
A 12 .2717
Sig. .192 .199
Means f or groups in homogeneous subset s are display ed.
a. Uses Harmonic Mean Sample Size = 12.000.

2CME
Para la prueba de diferencia mínima significativa utilice: Sx 
n

y calcule la diferencia mínima significativa (DMS), para un nivel de significación , usando la


distribución t de Student con los grados de libertad del error como se muestra a continuación:

DMS  t1 / 2 S x

Estadística para Economistas 89


Universidad Peruana de Ciencias Aplicadas

Luego calcule las diferencias entre cada par de tratamientos o muestras. Si las diferencias
observadas entre un par de tratamientos son mayores que el valor DMS, entonces se concluye
que hay diferencias significativas entre dicho par de tratamientos.

A continuación se presentan los resultados de esta prueba usando SPSS:

Comparaci ones múl tiples

Variabl e depend iente: p esos

Diferen ci a d e In tervalo de con fianza al 9 5%


(I) labo ratorio (J) labo ratorio med ias (I-J) Erro r tí pico Si g. Límite in ferior Límite superi or
DMS Lab orato rio A Lab orato rio B ,045 00* ,016 61 ,010 ,011 5 ,078 5
Lab orato rio C ,041 67* ,016 61 ,016 ,008 2 ,075 1
Lab orato rio D ,021 67 ,016 61 ,199 -,01 18 ,055 1
Lab orato rio B Lab orato rio A -,04 500* ,016 61 ,010 -,07 85 -,01 15
Lab orato rio C -,00 333 ,016 61 ,842 -,03 68 ,030 1
Lab orato rio D -,02 333 ,016 61 ,167 -,05 68 ,010 1
Lab orato rio C Lab orato rio A -,04 167* ,016 61 ,016 -,07 51 -,00 82
Lab orato rio B ,003 33 ,016 61 ,842 -,03 01 ,036 8
Lab orato rio D -,02 000 ,016 61 ,235 -,05 35 ,013 5
Lab orato rio D Lab orato rio A -,02 167 ,016 61 ,199 -,05 51 ,011 8
Lab orato rio B ,023 33 ,016 61 ,167 -,01 01 ,056 8
Lab orato rio C ,020 00 ,016 61 ,235 -,01 35 ,053 5
*. La d iferencia entre las med ias es sign ificativ a al ni vel .05.

Estadística para Economistas 90


Universidad Peruana de Ciencias Aplicadas

Diseño con Bloques Completos Aleatorizados

Se supone que el experimentador tiene a su disposición mediciones relativas a a tratamientos


aplicados sobre b bloques. Los bloques son utilizados para controlar una fuente de variabilidad
adicional a los tratamientos, que aunque no es el objetivo fundamental de la investigación,
puede ser identificada de antemano. Esto puede ocurrir por ejemplo en experimentos en donde
los datos se toman por días, y en donde se sabe que los resultados pueden diferir entre los
distintos días, o cuando cada tratamiento es evaluado en un mismo individuo (una persona, una
máquina, etc), de modo se espera que existan diferencias en los resultados atribuibles a cada
individuo. En términos más generales, la idea es que las observaciones sean lo más homogéneas
dentro del bloque y heterogéneas entre bloques.

Los bloques son completos porque todos los tratamientos aparecen en igual número, usualmente
una vez, dentro de cada bloque, y son al azar por que los tratamientos son asignados
aleatoriamente dentro de cada bloque.

Tratamientos
Totales
Bloques T1 T2 T3 ... Ti ... Ta
B1 y11 y21 y31 ... yi1 ... ya1 y .1
y12 y22 y32 ... yi2 ... ya2 y. 2
B2
y13 y23 y33 ... yi3 ... y. 3
B3 ya3
. . . . ... . ... . .
. . . . ... . ... . .
. . . . ... . ... . .
Bj Y1j y2j y3j ... yij ... yaj y. j
. . . . ... . ... .
Bb y1b y2b y3b ... yib ... Yab y. b

Totales y1. y 2. y 3. ... y i. ... y a. y..

Cada observación puede ser expresada con el siguiente modelo lineal.

yij    i   j  ij para i  1,2,..., a ; j  1,2,..., b

donde:
yij : Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.
 : Es la gran media
i : Es el efecto del i-ésimo tratamiento.
j : Es el efecto del j-ésimo bloque.
 ij : Es el error aleatorio correspondiente a la observación yij.

Estadística para Economistas 91


Universidad Peruana de Ciencias Aplicadas

También

a b

 i  0
i 1
y  j1
j 0

Suma de cuadrados

a b
y ..2
SST  y
i 1 j 1
2
ij 
ab
a
y i2. y ..2
SS (Tr)  
i 1 b

ab
b y .2j y ..2
SSB  j1 a

ab
SSE  SST  SS (Tr)  SSB

Tabla del análisis de varianza

Fuente de Grados de
Suma de cuadrados Cuadrado medio F
variación libertad
y i2. y2 SS(Tr) CM(Tr)
CM(Tr)  FT 
a
Tratamientos a-1 SS(Tr)    .. a 1 CME
i 1 b ab
b y.2j y..2 SSB
Bloques b-1 SSB    CMB 
j1 a ab b 1
SSE
Error (a - 1)(b - 1) SSE  SST  SS(Tr)  SSB CME 
(a  1)(b  1)
a b
y..2
Total ab - 1 SST   y ij2 
i 1 j1 ab

Observe que en la tabla se puede obviar el valor de F para probar el efecto de los bloques, la
razón es que el experimento se diseñó para probar un solo factor. La formación de bloques se
hizo para eliminar tal variación del término CME. Pero, el estudio no se diseñó para detectar las
diferencias individuales para los niveles del bloque.

Estadística para Economistas 92


Universidad Peruana de Ciencias Aplicadas

Ejemplo
Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas
tóxicas por cada una de las tres agencias siguientes: la EPA, la compañía propietaria de los
lugares de depósito y un asesor independiente dedicados a asuntos de ingeniería. Cada muestra
fue analizada buscando detectar la presencia de cierto contaminante por todos los métodos de
laboratorio que la agencia que recolectó la muestra suele emplear. Se consideraron los
siguientes resultados:

Lugar A Lugar B Lugar C Lugar D Lugar E Suma


Agencia 1 23,8 7,6 15,4 30,6 4,2 81,6
Agencia 2 19,2 6,8 13,2 22,5 3,9 65,6
Agencia 3 20,9 5,9 14 27,1 3 70,9
Suma 63,9 20,3 42,6 80,2 11,1 218,1

¿Existe alguna razón para creer que las agencias no son, en sus mediciones, consistentes entre
sí? Utilice un nivel de significación de 0,05.

Solución
1. Las hipótesis nula y alterna son.

 H 0 : 1   2   3

H 1 : No todas las  son iguales

2. El nivel de significación:   0,05 .

3. Criterio:
Para tratamientos, se rechaza la hipótesis nula si F > 4,46, el valor de F0,95 para 2 y 8 grados
de libertad.

4. Cálculos.
a b
Sustituyendo a = 3, b. = 5 y1. = 81,6, y2. = 65,6, y3. = 70,9 y.. = 218,1, y  y
i 1 j 1
2
ij  4336,97

en las expresiones para calcular la suma de cuadrados, obtenemos.

2
 3 5 
  y ij 
 
 i 1 j 1   (218,1)  3171,17
2

a.b (15)
SST  4336,97  3171,17  1165,80
(81,6) 2 (65,5) 2 (70,9) 2
SS (Tr )     3171,17  26,57
5 5 5
(63,9) 2 (11,1) 2
SSB   ...   3171,17  1117,26
3 3
SSE  SCT  SC (Tr )  SCB  21,96

Estadística para Economistas 93


Universidad Peruana de Ciencias Aplicadas

El cuadro de análisis de varianza es.

Fuente de Suma de Cuadrado


Grados de libertad F Ftab
variación cuadrados medio
Tratamientos 3–1=2 26,57 13,29 4,84 4,46
Bloques 5–1=4 1117,26 279,32
Error (3-1)(5-1)=8 21,96 2,75

Total (3)(5) – 1 = 14 1165,80

5. Decisión.

Para tratamientos, como F > 4,46, concluimos que existen diferencias significativas entre las
agencias.
Pruebas de los efectos i nter-sujetos

Variable dependient e: Contaminante


Suma de
cuadrados Media
Fuente tipo I gl cuadrática F Signif icación
Modelo corregido 1143.835a 6 190.639 69.445 .000
Intersección 3171.174 1 3171.174 1155.185 .000
Agencia 26.572 2 13.286 4.840 .042
Lugar 1117.263 4 279.316 101.748 .000
Error 21.961 8 2.745
Total 4336.970 15
Total corregida 1165.796 14
a. R cuadrado = .981 (R cuadrado corregida = .967)

Estadística para Economistas 94


Universidad Peruana de Ciencias Aplicadas

Diseños Factoriales.

Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada de un proceso o sistema, de manera que sea posible
observar e identificar las causas de los cambios en la respuesta de salida.

Principios básicos.

Cualquier problema experimental involucra dos aspectos:


 El diseño del experimento y
 el análisis estadístico de los datos.
Estos dos temas están estrechamente ligados, ya que el método de análisis depende del diseño
empleado

Estadística para Economistas 95


Universidad Peruana de Ciencias Aplicadas

Riesgos de analizar datos cuya recogida no fue planificada

Datos inconsistentes.
Por cambios debidos al tiempo, envejecimiento, reparaciones, etc. Esto provoca que los datos
recogidos no sean consistentes lo que obviamente traerá confusiones en la interpretación.

Variables altamente correlacionadas.


Cuando dos variables del proceso están correlacionadas, se pueden producir dos tipos diferentes
de situación engañosa al analizar datos recogidos durante las operaciones habituales.
1. Confusión de los efectos.
2. Relación no causal. Variable oculta.

Confusión

Variable1
Variable3
Variable2

Relación no causal
Variable1 Variable2

Variable3

Experimentos factoriales.
Usualmente en los experimentos se desea estudiar el efecto de dos o más factores.
Por diseño factorial se entiende que en cada ensayo o réplica completa del experimento se
investigan todas las combinaciones posibles de los niveles de los factores.

Por ejemplo.
Factor A: “a” niveles
Factor B: “b” niveles

Entonces cada réplica puede contiener todas la ab combinaciones de los tratamientos.

Tipos de modelos

Modelo de efectos fijos


Cuando el investigador sólo está interesado en estudiar ciertos niveles de los factores
involucrados y por lo tanto la selección no es aleatoria. Los resultados sólo serán útiles para los
niveles considerados en el estudio. En este caso las hipótesis están referidas a las medias de los
niveles seleccionados.

Estadística para Economistas 96


Universidad Peruana de Ciencias Aplicadas

Modelo de efectos aleatorios


Cuando el investigador está interesado en un gran número de posibles niveles, y no es posible
estudiarlos todos, la mejor manera de estudiarlos, es seleccionar aleatoriamente una cantidad de
niveles de la población de niveles de cada factor en estudio. Los resultados podrán generalizarse
para toda población de niveles. En este caso las hipótesis están referidas a la variancia de los
factores.

Modelo de efectos mixtos


Cuando los niveles de algunos de los factores son elegidos aleatoriamente y los niveles de los
otros factores, también considerados en el estudio, son fijados por el investigador.

Diseño factorial de dos factores

En la práctica se suele trabajar con diseños de dos factores, A y B, donde cada factor tiene dos o
más niveles.
Hay “a” niveles del factor A y “b” niveles del factor B y cada una de las “n” réplicas del
experimento contiene ab combinaciones de los tratamientos

Ejemplo
Un ingeniero está diseñando una batería que se usará en un dispositivo el cuál se someterá a
variaciones de temperatura extrema. El único parámetro de diseño que puede seleccionar en este
punto es el material de la placa o ánodo de la batería y tiene tres elecciones posibles. Cuando el
dispositivo esté fabricado y se envíe al campo, el ingeniero no tendrá control sobre las
temperaturas extremas en las que operará el dispositivo, pero sabe por experiencia que la
temperatura probablemente afectará la vida efectiva de la batería.

El ingeniero decide probar los tres materiales de la placa con tres niveles de temperatura, 15, 70
y 125°F, ya que estos niveles de temperatura son consistentes con el medio ambiente donde se
usará finalmente el producto. Se prueban cuatro baterías con cada combinación del material de
la placa y la temperatura, y las 36 pruebas se corren de manera aleatoria. La tabla siguiente
muestra los resultados obtenidos.

Datos de la vida (en horas) de las baterías


Tipo Temperatura
de 15 °F 70 °F 125 °F
130 155 34 40 20 70
M1 74 180 80 75 82 58
150 188 136 122 25 70
M2 159 126 106 115 58 45
138 110 174 120 96 104
M3 168 160 150 139 82 60

¿Qué efectos tienen el tipo de material y la temperatura sobre la vida de la batería?

Estadística para Economistas 97


Universidad Peruana de Ciencias Aplicadas

Las observaciones de un experimento factorial pueden describirse con el siguiente modelo.

y ijk    i   j  () ij   ijk


donde :
i  1,2,..., a
j  1,2,..., b
k  1,2,..., n

En este modelo  es el efecto promedio global,  i es el efecto del nivel i-ésimo del factor A
(factor filas),  j es el efecto del nivel j-ésimo del factor B (factor columna), (  )ij es el efecto
de la interacción entre  i y  j , y  ijk es un componente del error aleatorio. Se supone que los
errores tienen distribución normal con media cero y varianza constante.

 Ambos factores son fijos.


 Los efectos de los tratamientos se definen como las desviaciones de la media global, por lo
que:
a b a b


i 1
i 0 
j1
j 0  ()   ()
i 1
ij
j1
ij 0

Pruebas de hipótesis

Asumiendo que ambos factores son fijos las hipótesis a probar están dadas por:

Efecto de la interacción fila columna (AB)

H 0 : ()ij  0  i, j
H1 : al menos un ()ij  0

Efecto de los tratamientos de las filas (A)

H 0 : 1   2  ...  a  0
H1 : al menos un i  0

Efecto de los tratamientos de las columnas (B)

H 0 : 1  2  ...  b  0
H1 : al menos un  j  0

Estadística para Economistas 98


Universidad Peruana de Ciencias Aplicadas

Análisis estadístico del modelo con efectos fijos


Notaciones:
b n a n
yi..   yijk y. j .   yijk
j 1 k 1 i 1 k 1

yi.. y. j .
yi..  y. j . 
bn an
n a b n
yij .   yijk y...   yijk
k 1 i 1 j 1 k 1

yij . y...
yij .  y... 
n abn

Sumas de cuadrados

 
a b n a b n 2

 ( y ijk  y ... ) 2   ( y i..  y ... )  ( y . j.  y ...  ( y ij.  y i..  y . j.  y)  ( y ijk  y ij. )
i 1 j1 k  i 1 j1 k 
a b
 bn  ( y i ..  y ... )  an  ( y . j.  y ... ) 2
2

i 1 j1
a b
 n  ( y ij .  y i ..  y . j.  y ... ) 2
i 1 j1
a b n
  ( y ijk  y ij. ) 2
i 1 j1 k 

Suma de Suma de
cuadrados cuadrados
debida a las debida a la
filas interacción A y
B
La suma de cuadrados
SST  SSA  SSB  SSAB  SSE
anterior puede
simbolizarse de la
siguiente forma
Suma de
Suma de Suma de cuadrados
cuadrados cuadrados debida debida al error
total a las columnas

Estadística para Economistas 99


Universidad Peruana de Ciencias Aplicadas

Fórmulas prácticas para el cálculo de la suma de cuadrados


a b n
y...2
SST   y 2ijk 
i 1 j1 k 1 abn
1 a 2 y...2
SSA  y 
bn i 1 i .. abn
1 b 2 y...2
SSB  y 
an j1 . j. abn

La suma de cuadrados de la interacción se obtiene de la siguiente forma:

1 a b 2 y...2
SS subtotales   yij.  abn
n i 1 j1
SSAB  SS subtotales  SSA  SSB

y la suma de cuadrados del error se obtiene por diferencia.

SSE  SST  SSAB  SSA  SSB


 SST  SS subtotales
Respuesta promedio para cada combinación de los tratamientos

Gráfica tipo de material-temperatura


Vida promedio

175,0
150,0
125,0
100,0 M1
75,0 M2

50,0 M3

25,0
0,0
15 °F 70 °F 125 °F
Tem peratura

Estadística para Economistas 100


Universidad Peruana de Ciencias Aplicadas

Tabla de ANOVA para la vida de la batería

F.V gl SS MS Fc valor p

Material 2 10683.72 5341.86 7.911 0.0020


Temperatura 2 39118.72 19559.36 28.968 0.0000
Interacción 4 9613.78 2403.44 3.560 0.0186

Error 27 18230.75 675.21


Total 35 77646.97

Como la interacción es significativa, las comparaciones entre las medias de uno de los factores
(por ej. A) pueden ser empañadas por la interacción AB.

Salidas del SPSS.


Pruebas de los efectos inter-sujetos

Variable dependiente: vi da
Suma de
Fuent e cuadrados tipo I gl Media cuadrática F Significación
Modelo corregido 59416,222 a 8 7427,028 11,000 ,0000
Intersección 400900,028 1 400900,028 593,739 ,0000
temperat 39118,722 2 19559,361 28,968 ,0000
materi al 10683,722 2 5341,861 7,911 ,0020
temperat *
9613,778 4 2403,444 3,560 ,0186
materi al
Error 18230,750 27 675,213
Total 478547,000 36
Total corregi da 77646,972 35
a. R cuadrado = ,765 (R cuadrado corregida = ,696)

Contraste de Levene sobre l a i gual dad de l as varianzas error

Variable dependiente: vida


F gl1 gl2 Significación
,902 8 27 ,529

Estadística para Economistas 101


Universidad Peruana de Ciencias Aplicadas

Medias marginales estimadas de vida

material
160
Mat.1
Prueba de Kolmogorov-Smirnov para una muestra
Mat.2
Mat.3
Resi duo 140

para vida

Medias marginales estimadas


N 36 120
Parámetros normalesa,b Media ,0000
Desviación típica
22,82276 100

Diferencias más extremas Absolut a ,106


80
Positiva ,068
Negativa -,106
60
Z de Kolmogorov-Smirnov ,636
Sig. asintót. (bilateral) ,814
40
a. La dist ribuci ón de contraste es la Normal.
15°F 70°F 125°F
b. Se han calcul ado a partir de l os dat os.
temperat

Comparaciones por pares

Variable dependiente: vida


Intervalo de confianza al 95 %
a
Diferencia entre para diferencia
a
(I) temperat (J) temperat medias (I-J) Error típ. Significación Lí mite inferior Lí mite superior
15°F 15°F
70°F 37,250* 10,608 ,002 15,484 59,016
125°F 80,667* 10,608 ,000 58,900 102,433
70°F 15°F -37,250* 10,608 ,002 -59,016 -15,484
70°F
125°F 43,417* 10,608 ,000 21,650 65,183
125°F 15°F -80,667* 10,608 ,000 -102,433 -58,900
70°F -43,417* 10,608 ,000 -65,183 -21,650
125°F
Basadas en las medias marginales estimadas.
*. La diferencivida
a de las medias es significativa al nivel ,05. vida
a. Subconjunto Subconjunto
temperat Ajust N
e para comparaciones
1 múltipl
2 es: Di ferencia
3 menos si gni fi cativa (equivalent e a la ausencia de ajuste).
material N 1 2
Duncan 125°F 12 64,17 Duncan Mat.1 12 83,17
70°F 12 107,58 Mat.2 12 108,33
15°F 12 144,83 Mat.3 12 125,08
Significación 1,000 1,000 1,000 Significación 1,000 ,126

Estadística para Economistas 102


Universidad Peruana de Ciencias Aplicadas

Comparaciones múltiples

Variable dependiente: vi da

Diferenci a ent re Intervalo de confianza al 95%.


(I) material (J) material medias (I-J) Error típ. Significación Lí mite inferior Lí mite superior
DMS Mat.1 Mat.1
Mat.2 -25,17 10,608 ,025 -46,93 -3,40
Mat.3 -41,92 10,608 ,001 -63,68 -20,15
Mat.2 Mat.1 25,17 10,608 ,025 3,40 46,93
Mat.2
Mat.3 -16,75 10,608 ,126 -38,52 5,02
Mat.3 Mat.1 41,92 10,608 ,001 20,15 63,68
Mat.2 16,75 10,608 ,126 -5,02 38,52
Mat.3

1. temperat * materi al

Variable dependiente: vi da
Intervalo de confianza al 95%.
temperat material Media Error típ. Lí mite inferior Lí mite superior
15°F Mat.1 134,750 12,992 108,092 161,408
Mat.2 155,750 12,992 129,092 182,408
Mat.3 144,000 12,992 117,342 170,658
70°F Mat.1 57,250 12,992 30,592 83,908
Mat.2 119,750 12,992 93,092 146,408
Mat.3 145,750 12,992 119,092 172,408
125°F Mat.1 57,500 12,992 30,842 84,158
Mat.2 49,500 12,992 22,842 76,158
Mat.3 85,500 12,992 58,842 112,158

Aplicaciones a su carrera
En base a una data real correspondiente a su carrera, con un nivel de significación del 5%,
realice aplicaciones de los siguientes Diseños Experimentales:
1. Diseño Completamente al Azar
2. Diseño de Boques Completamente Aleatorio
3. Diseño de dos Factores

Estadística para Economistas 103


Universidad Peruana de Ciencias Aplicadas

UNIDAD 6. Análisis de Regresión


Análisis de Regresión Lineal Simple y de Correlación
El análisis de regresión lineal simple y de correlación comprende el estudio de los datos
muestrales para saber si dos variables están relacionadas linealmente entre sí en una población.

El análisis de regresión lineal simple da como resultado la ecuación de una línea recta que
describe la relación entre dos variables, usualmente denotadas por X y Y. La ecuación puede
usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen
conocidos los valores de la otra.

El análisis de correlación da como resultado un número que resume el grado de relación lineal
existente entre dos variables. Es útil en un trabajo exploratorio cuando el investigador desea
encontrar el grado o la fuerza de esa relación.

Ejemplos
 ¿Cuál será el gasto en que incurrirá una familia cuyo ingreso familiar mensual es de 4000
soles?
 ¿Cuál será el monto de ventas de una empresa si invierte en publicidad 10000 dólares?

Usualmente tales predicciones requieren que se encuentre una fórmula que relacione tales
variables.

El diagrama de dispersión
El primer paso en el análisis de regresión es construir una gráfica de los datos muestrales en
un plano bidimensional. Esta gráfica se denomina diagrama de dispersión e indica el tipo de
tendencia de y con respecto a x, la cual puede ser lineal o no lineal. En el primer caso se
estimará una recta y en el segundo caso una curva.

Ejemplo
Se realiza un estudio sobre la cantidad de azúcar transformada en cierto proceso a varias
temperaturas. Los datos se recolectan y se registran como sigue:

Temperatura, x Azúcar transformada, y


1,0 8,1
1,1 7,8
1,2 8,5
1,3 8,2
1,4 9,5
1,5 8,9
1,6 9,0
1,7 10,2
1,8 9,3
1,9 9,9
2,0 10,5

Estadística para Economistas 104


Universidad Peruana de Ciencias Aplicadas

A continuación se presenta el diagrama de dispersión para estos datos, de donde resulta


evidente que a mayor temperatura, mayor será la cantidad de azúcar transformada. Además,
se aprecia que esta relación podría describirse bastante bien con una línea recta.

Gráfico de dispersión

10.8

y
10.4

10

9.6

9.2

8.8

8.4

8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
x

El método de los mínimos cuadrados


El método más empleado para ajustar una línea recta a un conjunto de puntos es conocido
como el método de mínimos cuadrados, cuya recta resultante tiene dos características
importantes:

La suma de las desviaciones verticales de los puntos con relación a la recta es cero.
La suma de los cuadrados de dichas desviaciones es mínima (es decir, ninguna otra recta
daría una menor suma de cuadrados de tales desviaciones).

Considere el siguiente modelo para describir la relación entre los valores de las variables X y
Y
y i   0   1 xi   i
y sea yˆ  ˆ  ˆ x la recta de mejor ajuste para estos datos. Simbólicamente el valor que se
0 1
minimiza es
n

(y
i 1
i  yˆ i ) 2

Los valores de  0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:

Estadística para Economistas 105


Universidad Peruana de Ciencias Aplicadas

n
 n 
 yi
i 1
 n 0  1   xi 
 i 1 
n
 n
  n 2

i 1
x y
i i   0  i
 x
 i 1 
   1   xi 
 i 1 

Resolviendo las ecuaciones simultáneas para  0 y 1 se tiene

 n   n  n 
n  xi y i     xi   y i 
ˆ1   i 1   i 1  i 1 
2
y ˆ0  y  ˆ1 x
 n 2  n 
n  xi     xi 
 i 1   i 1 

La línea recta estimada


La línea recta estimada tiene dos importantes componentes:

 La pendiente de la recta y
 La ordenada de la recta (el valor de y) en determinado punto (cuando x = 0)

La ecuación lineal es la siguiente:

Punto de corte Pendiente


yˆ i  ˆ0  ˆ1 xi

Ejemplo
Estime la ecuación de la recta del ejemplo anterior.

Nº x y xy x2 y2
1 1,0 8,1 8,10 1,00 65,61
2 1,1 7,8 8,58 1,21 60,84
3 1,2 8,5 10,20 1,44 72,25
4 1,3 8,2 10,66 1,69 67,24
5 1,4 9,5 13,30 1,96 90,25
6 1,5 8,9 13,35 2,25 79,21
7 1,6 9,0 14,40 2,56 81,00
8 1,7 10,2 17,34 2,89 104,04
9 1,8 9,3 16,74 3,24 86,49
10 1,9 9,9 18,81 3,61 98,01
11 2,0 10,5 21,00 4,00 110,25
Suma 16,5 99,9 152,48 25,85 915,19

Estadística para Economistas 106


Universidad Peruana de Ciencias Aplicadas

Descomposición de la varianza total

Y yˆ i  ˆ0  ˆ1 xi

(xi, yi)
yi
yi  yˆ i
yi  y
yˆ i  y
y

x xi X

La distancia ( yi  y ) se puede descomponer de la siguiente manera:

( yi  y )  ( yˆ i  y )  ( yi  yˆ i )

Elevando al cuadrado ambos miembros y aplicando sumatorias se tiene:

 ( yi  y ) 2   ( yˆ i  y )  ( yi  yˆ i )
n n
2

i 1 i 1
n n n
  ( yˆ i  y ) 2   ( yi  yˆ i ) 2  2 ( yˆ i  y )( y i  yˆ )
i 1 i 1 i 1
Operando algebraicamente se obtiene la siguiente relación:

n n n

(y
i 1
i  y ) 2   ( yˆ i  y ) 2   ( y i  yˆ i ) 2
i 1 i 1

    
SCT  SCR  SCE

Sumas de Cuadrados
2
 n 
n n


 y i 

SCT   ( yi  y )   yi 
2 2 i 1

i 1 i 1 n
  n 
2

   xi  
 
SCR   ( yˆ i  y )  ˆ 1  ( xi  x )  ˆ 1   xi   i 1 
n n n
2 2 2 2 2

i 1 i 1  i 1 n 
 
 
n
SCE   ( yi  yˆ i ) 2  SCT  SCR
i 1

Estadística para Economistas 107


Universidad Peruana de Ciencias Aplicadas

Supuestos de la Regresión
 Los errores o residuos tienen distribución normal. Para realizar la verificación
de este supuesto hacemos uso de la prueba de bondad de ajuste de Kolmogorov –
Smirnov.

 Los errores o residuos tienen media igual a cero y varianza igual a 2. Se
suele solicitar la gráfica del histograma de frecuencias de los residuos en el que se
muestra el valor de la media de los residuos y su varianza.

 Los errores o residuos aleatorios asociados a cualquier par de valores


asociados a la variable dependiente Y, no se encuentran autocorrelacionados.
Para realizar la verificación de esta prueba utilizamos la prueba de Durbin –
Watson cuyo estadístico toma valores desde Cero hasta cuatro.

Si D-W se aproxima a Cero, decimos que los residuos presentan


autocorrelación positiva.
Si D-W toma valores en el intervalo que va desde 1 a 3, decimos que no
existe autocorrelación entre los residuos.
Si D-W se aproxima a Cuatro, decimos que los residuos presentan
autocorrelación negativa.

Coeficiente de determinación y de no determinación


El coeficiente de determinación (r2) y de no determinación (1- r2) se calculan de la siguiente
manera:
SCR SCR
r2  y (1  r 2 )  1 
SCT SCT

El coeficiente de determinación (r2) expresa el porcentaje de la variabilidad total de y que es


explicada por la regresión.

Error estándar de la estimación


El error estándar de la estimación mide la variabilidad, o dispersión, de los valores
muestrales alrededor del plano de regresión. Es definido por:

SCE SCE
Se    CME
n p n2

donde p es el numero de parámetros a estimar (intercepto y pendiente).

Estadística para Economistas 108


Universidad Peruana de Ciencias Aplicadas

Coeficiente de correlación
El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y. El coeficiente de correlación poblacional se denota por  varía dentro del
intervalo de -1 y 1. Si   0 entonces no existe correlación o asociación lineal entre las
variables, conforme mas cercano a 1 ó a -1 sea, mayor será la asociación, y cuando  es
exactamente 1 ó -1 la asociación es perfecta.

 es r y se calcula mediante la siguiente fórmula:

1 n
cov( X , Y )  ( xi  x )( yi  y )
n i 1
r 
S X SY 1 n 1 n

n i 1
( xi  x ) 2
. 
n i 1
( yi  y ) 2

 n   n  n 
n  xi yi     xi   yi 
  i 1   i 1  i 1 
  n
2  n
   n 2  n  
2 2

n  xi     xi  .n  yi     yi  
  i 1   i 1     i 1   i 1  

Inferencia sobre los coeficientes del modelo de regresión


Inferencia para β0

El intervalo de confianza de ( 1   )x100% para  0 y el estadístico de prueba


para contrastar las hipótesis H 0 :  0   0* y H1 :  0   0* se calculan con las
siguientes fórmulas:

ˆ0  t / 2 s
x 2
i
t
ˆ0   0*
~ t ( n2)
nS xx
s
 xi2
nS xx

Inferencia para β1

El intervalo de confianza de ( 1   )x100% para  1 y el estadístico de prueba


para contrastar las hipótesis H 0 : 1  1* y H1 : 1  1* se calculan con las
siguientes fórmulas:

Estadística para Economistas 109


Universidad Peruana de Ciencias Aplicadas

s ˆ1  1*
ˆ1  t / 2 t ~ t ( n2)
S xx s
S xx

Inferencia sobre el coeficiente de correlación


Para probar las hipótesis:
H0 :   0
H1 :   0

El estadístico de prueba es:


r n2
t ~ t ( n2)
1 r2

Si se asume que X e Y siguen la distribución normal multivariada, es posible probar


las hipótesis más generales:
H0 :   0
H1 :    0
El estadístico de prueba es:
n  3  (1  r )(1   0 ) 
Z ln   ~ N (0,1)
2  (1  r )(1   0 ) 

Pronósticos
Los pronósticos para la respuesta media y para un valor individual se calculan
utilizando las siguientes fórmulas:

Valor medio
1 ( x0  x ) 2
yˆ 0  t ( n 2, / 2) Se 
n S xx

Valor individual
1 ( x0  x ) 2
yˆ 0  t ( n 2, / 2) Se 1  
n S xx
 x  2

 x    x  x
2 i 2
Donde: S xx i i
n

Otra forma:
2
SCR  S 
S xx  2  e
ˆ1  S b1 

Estadística para Economistas 110


Universidad Peruana de Ciencias Aplicadas

Si bien es cierto, ambas relaciones ofrecen el mismo resultado, su cálculo es muy sensible a
la cantidad de decimales que se utilizan para su cálculo.

Aplicación con el SPSS

Referente al ejercicio sobre la cantidad de azúcar, se calcula el coeficiente de correlación


lineal de las variables, la recta estimada, y se realizan las pruebas de hipótesis para los
coeficientes:
Correl aciones

AZUCAR_Y TEMP ER_X


Correlación de AZUCAR_Y 1.000 .891
Pearson TEMP ER_X .891 1.000
Sig. (unilateral) AZUCAR_Y . .000
TEMP ER_X .000 .
N AZUCAR_Y 11 11
TEMP ER_X 11 11

Resumen del modelo(b)


R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación Durbin-Watson
1 ,891(a) ,794 ,771 ,4253 3,147
a. Variables predictoras: (Constante), temper_x b Variable dependiente: azucar_y

ANOVAb

Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 6.288 1 6.288 34.756 .000 a
Resi dual 1.628 9 .181
Total 7.916 10
a. Variables predictoras: (Constant e), TEMP ER_X
b. Variable dependiente: AZUCAR_Y
Coef icientesa

Coefici entes no Coefici entes Intervalo de confianza para B al


estandari zados estandari zados 95%

Modelo B Error típ. Beta t Sig. Lí mite inferior Lí mite superior


1 (Constante) 5,495 ,622 8,839 ,000 4,089 6,902
temper_x 2,391 ,406 ,891 5,895 ,000 1,473 3,308
a. Variable dependiente: azucar_y

Análisis de los residuales


Histograma
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: azucar_y
Variable dependiente: azucar_y
1,0
3,0

2,5 0,8
Prob acum esperada
Frecuencia

2,0
0,6

1,5

0,4
1,0

0,2
0,5

Mean = 2,54E-15
Std. Dev. = 0,949
0,0 N = 11 0,0
-2 -1 0 1 2 0,0 0,2 0,4 0,6 0,8 1,0
Regresión Residuo tipificado Prob acum observada

Estadística para Economistas 111


Universidad Peruana de Ciencias Aplicadas

Gráfico de dispersión
Variable dependiente: azucar_y
2

Regresión Residuo tipificado


1

-1

-2 -1 0 1 2

Regresión Valor pronosticado tipificado

Prueba de Kolmogorov-Smirnov para una muestra


Unstandardized
Residual
N 11
Media ,000000
Parámetros normales(a,b)
Desviación típica ,4035186
Diferencias más extremas Absoluta ,179
Positiva ,179
Negativa -,125
Z de Kolmogorov-Smirnov ,595
Sig. asintót. (bilateral) ,871
a La distribución de contraste es la Normal.
b Se han calculado a partir de los datos.

Pronósticos

Estadística para Economistas 112


Universidad Peruana de Ciencias Aplicadas

Regresión no lineal
Función exponencial
Si un conjunto de datos apareados consistentes en n puntos (xi,yi) se “endereza” cuando se
gráfica lnyi versus xi, esto indica que la media de la distribución de y está dada por β0 e β1 x . Si se
toma logaritmos a la ecuación y   0 e 1 x esta se convierte en:
ln y  ln  0  1 x
y *   0*  1 x .................. (1)
la cual puede interpretarse como una ecuación de regresión lineal simple, y por lo tanto ser
tratada bajo los mismos lineamientos presentados en la sección anterior.

Ejemplo
Los siguientes datos se refieren al porcentaje de neumáticos radiales de alto rendimiento hechos
por cierto fabricante que son usables (y) después de haber sido empleados el número de millas
(x):

Millas conducidas (en miles) x Porcentaje usable y Lny


1 98,2 4,587
2 91,7 4,519
5 81,3 4,398
10 64,0 4,159
20 36,4 3,595
30 32,6 3,484
40 17,1 2,839

Estime la ecuación transformada (1), mediante el método de los mínimos cuadrados.

Debajo se muestra la salida que arroja el SPSS.

Coeficientesa

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 4.600 .059 78.369 .000
X: Millas conducidas
-.04278 .003 -.989 -15.163 .000
(en miles)
a. Variable dependient e: LnY

A partir de la salida que presenta el SPSS, la ecuación estimada es:

yˆ*  4,600  0,04278x

de dónde se tiene que ˆ0  e 4.6  99.484 aproximadamente. Por lo tanto la ecuación estimada
para el modelo exponencial será:

Estadística para Economistas 113


Universidad Peruana de Ciencias Aplicadas

yˆ  99,484 e  0,04278 x

Debajo se muestra el diagrama de dispersión que compara tanto el modelo lineal como el
modelo exponencial para el mismo conjunto de datos, así como los resultados de la estimación
con SPSS.

Diagrama de dispersión
% usable, y

100

80

60

40

Observada
20
Linea l

0 Exponencial
0 10 20 30 40 50

Millas conducidas, x

Resumen del modelo y estimaciones de l os parámetros

Variable dependient e: Y: Porcentaje usable


Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal .933 69.795 1 5 .000 91.660 -2.040
Cuadrático .986 142.721 2 4 .000 99.897 -3.924 .048
Potencia .840 26.270 1 5 .004 126.278 -.428
Exponencial .979 229.924 1 5 .000 99.496 -.043
La v ariable independiente esX: Millas conducidas (en miles).

Lineal
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 5675.152 1 5675.152 69.795 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 406.557 5 81.311
.966 .933 .920 9.017 Total 6081.709 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-2.040 .244 -.966 -8.354 .000
(en miles)
(Constante) 91.660 5.080 18.042 .000

Estadística para Economistas 114


Universidad Peruana de Ciencias Aplicadas

Cuadrático
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 5997.661 2 2998.830 142.721 .000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual 84.048 4 21.012
.993 .986 .979 4.584 Total 6081.709 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-3.924 .497 -1.858 -7.900 .001
(en miles)
X: Millas conducidas
.048 .012 .922 3.918 .017
(en miles) ** 2
(Constante) 99.897 3.330 29.998 .000

Potencia
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 2.142 1 2.142 26.270 .004
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual .408 5 .082
.917 .840 .808 .286 Total 2.550 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(X: Millas conducidas
-.428 .084 -.917 -5.125 .004
(en miles))
(Constante) 126.278 25.995 4.858 .005
La v ariable dependient e es ln(Y: Porcentaje usable).

Exponencial
ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 2.496 1 2.496 229.924 .000
R R cuadrado corregida la estimación Residual .054 5 .011
.989 .979 .974 .104 Total 2.550 6
La v ariable independiente esX: Millas conducidas (en miles). La v ariable independiente esX: Millas conducidas (en miles).

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
X: Millas conducidas
-.043 .003 -.989 -15.163 .000
(en miles)
(Constante) 99.496 5.840 17.036 .000
La v ariable dependient e es ln(Y: Porcentaje usable).

Estadística para Economistas 115


Universidad Peruana de Ciencias Aplicadas

Las transformaciones pueden mejorar el ajuste y la capacidad de predicción. A continuación se


muestran algunas transformaciones importantes:

Transformación
Forma funcional que relaciona y con x Función
apropiada
Exponencial y   0 e 1 x y*  ln y y*  f ( x)
y*  ln y
Potencia y   0 x 1 y*  f ( x*)
x*  ln x
1 1
Recíproca y   0  1   x*  y  f (x*)
 x x
1
y* 
1 y
Función hiperbólica y y*  f ( x*)
 0  1 x 1
x* 
x

Función exponencial
y y
0
1  0
1  0

0
x x

Función potencia

y 1  1 y

0  1  1
1  0

0
x x

Estadística para Economistas 116


Universidad Peruana de Ciencias Aplicadas

Función recíproca

y y

0
1  0
1  0

0

x x

Ejercicios Propuestos

1. Un economista del Departamento de Recursos Humanos del Estado de Florida está preparando
un estudio sobre el comportamiento del consumidor. Él recolectó los datos que aparecen en
miles de dólares para determinar si existe una relación entre el ingreso del consumidor y los
niveles de consumo. Determine cuál es la variable dependiente.

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24,3 13,8 31,2 28 36,9 10,5 23,2 10 8,5 15,9 14,7 15
Consumo 9,5 6 12,2 10 12,5 4,8 10,1 5,5 4,2 7,2 6,5 7,1

Estadística para Economistas 117


Universidad Peruana de Ciencias Aplicadas

Cuadrático
Resumen del modelo

R R cuadrado R cuadrado corregida Error típico de la estimación

,987 ,974 ,968 ,502

La variable independiente esIngreso en miles de dólares.

ANOVA

Suma de
cuadrados gl Media cuadrática F Sig.

Regresión 84,897 2 42,449 168,344 ,000

Residual 2,269 9 ,252

Total 87,167 11

La variable independiente esIngreso en miles de dólares.

Coeficientes

Coeficientes
Coeficientes no estandarizados estandarizados

B Error típico Beta t Sig.

Ingreso en miles de dólares ,488 ,096 1,593 5,104 ,001

Ingreso en miles de dólares ** 2 -,004 ,002 -,621 -1,990 ,078

(Constante) ,466 ,919 ,507 ,625

Potencia
Resumen del modelo

R cuadrado Error típico de


R R cuadrado corregida la estimación

,986 ,971 ,969 ,064

La variable independiente esIngreso en miles de dólares.

Estadística para Economistas 118


Universidad Peruana de Ciencias Aplicadas

ANOVA

Suma de
cuadrados gl Media cuadrática F Sig.

Regresión 1,391 1 1,391 340,841 ,000

Residual ,041 10 ,004

Total 1,431 11

La variable independiente esIngreso en miles de dólares.

Coeficientes

Coeficientes
Coeficientes no estandarizados estandarizados

B Error típico Beta t Sig.

ln(Ingreso en miles de dólares) ,744 ,040 ,986 18,462 ,000

(Constante) ,897 ,105 8,577 ,000

La variable dependiente es ln(Consumo en miles de dólares).

Exponencial
Resumen del modelo

R cuadrado Error típico de


R R cuadrado corregida la estimación

,959 ,919 ,911 ,108

La variable independiente esIngreso en miles de


dólares.

ANOVA

Suma de Media
cuadrados gl cuadrática F Sig.

Regresión 1,315 1 1,315 113,158 ,000

Residual ,116 10 ,012

Total 1,431 11

La variable independiente esIngreso en miles de dólares.

Estadística para Economistas 119


Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coeficientes
Coeficientes no estandarizados estandarizados

B Error típico Beta t Sig.

Ingreso en miles de dólares ,038 ,004 ,959 10,638 ,000

(Constante) 3,630 ,273 13,312 ,000

La variable dependiente es ln(Consumo en miles de dólares).

a. Determine e interprete el modelo de regresión. ¿Qué le dice este modelo sobre la relación
entre el consumo y el ingreso? Use un nivel de significación del 2,5%.

b. ¿Qué consumo pronosticaría el modelo con 95% de confianza para alguien que gana
US$27500?

2. Los siguientes datos corresponden al tiempo de secado de un barniz y la cantidad de cierto


producto químico que se le ha añadido:

Cantidad de aditivo(gramos) Tiempo de secado(horas)


1 7,5
2 7,0
3 6,5
4 6,1
5 6,0
6 5,5
7 5,4
8 4,9

a. Estime el mejor modelo y analice los datos considerando un nivel de significación del 2%.
b. Analice los supuestos del modelo. Use   0,05.
c. Con 98% de confianza, ¿cuál será el tiempo de secado cuando se añaden 6,5 gramos del producto
químico?

3. Los siguientes datos corresponden al cloro residual en una piscina en diversos momentos después de
haberse tratado con químicos.

Número de Cloro residual Además:


horas (partes por millón)
2 1,8 SST = 0,54
4 1,5 Sxx = 70,00
6 1,4
8 1,1
10 1,1
12 0,9

Estadística para Economistas 120


Universidad Peruana de Ciencias Aplicadas

a. Estime la recta por el método de mínimos cuadrados. Interprete sus coeficientes.


b. Calcule e interprete el coeficiente de determinación.
c. Verifique la existencia de la pendiente del modelo. Use   0,05 .
d. Utilice la ecuación para pronosticar con 95% de confianza la cantidad de cloro residual de
la piscina luego de 5 horas de haberse tratado con químicos.

4. La empresa Jonson Filtration, Inc., se dedica al servicio de mantenimiento de sistemas de


filtración de agua en el sur de Florida. Esta empresa está interesada en predecir el tiempo
necesario de reparación para cada solicitud de mantenimiento; para esto recogió la siguiente
información sobre 18 solicitudes.

Meses del último Tiempo de Tipo de reparación


servicio reparación (horas) (*)
3 0,7 0
6 3,1 0
3 0,9 0
9 5,2 0
8 4,2 0
8 4,8 0
10 7,0 0
12 8,8 0
2 2,2 1
2 3,1 1
4 3,8 1
5 3,9 1
2 2,8 1
6 4,5 1
7 5,1 1
8 6,1 1
7 5,7 1
9 6,8 1
(*) 0: Mecánica 1: Eléctrica

a. Estime mediante el método de los mínimos cuadrados la ecuación de regresión para el tiempo
de reparación cuando el tipo de reparación es mecánica. Interprete la pendiente y el
coeficiente de determinación.
b. Estime mediante el método de los mínimos cuadrados la ecuación de regresión para el tiempo
de reparación cuando el tipo de reparación es eléctrica. Interprete la pendiente y el coeficiente
de determinación.
c. ¿Los modelos estimados anteriores ajustan bien a los datos? Use   0,05.
d. Calcule e interprete con 98% de confianza el tiempo estimado de reparación para una
solicitud cuyo sistema de filtración fue revisado hace un mes.

Estadística para Economistas 121


Universidad Peruana de Ciencias Aplicadas

¿Qué es el éxito?
“Nuestra situación en la tierra es muy extraña”, decía Albert Einstein. “Cada quien ha venido por
poco tiempo, sin saber por qué, aunque a veces pareciera que adivinamos el propósito”.
Algunas personas quieren ser algo. Quieren un título –médico, abogado, dentista- que conceda
derechos de presunción al poseedor. Otros quieren hacer algo, quieren lograr algo con su vida.
Nosotros nos identificamos con los segundos. Admiramos a las personas como Ron Kovic que
quieren tener peso, dejar su huella en la arena del tiempo.
Independientemente de lo que sea el éxito, la mayoría de las personas quieren tenerlo. Una encuesta
de los estadounidenses opulentos, patrocinada recientemente por Ernst & Young and Yankelovich
Clancy Shulman, arrojó que dos terceras partes del grupo consideraban que era “muy importante”
tener éxito. Y estamos hablando de personas que ganan un promedio de $176 000 al año. (Sólo 14%
del grupo se consideró “muy rico”)
¿Qué es el éxito? Es aquello que uno quiere que sea: dinero, poder, posición, reconocimiento.
Podría ser una alcaldía o estar en el Carnegie Hall. Podría ser un puesto de director ejecutivo en
alguna empresa o en un gobierno.
El éxito no es una proposición mutuamente excluyente. Uno no tiene que limitarse a luchar por una
meta. Por lo general, el dinero, el poder, la posición, el reconocimiento, la felicidad y los amigos
van juntos.
Pero todo debe tomarse con moderación. No permita que el éxito se convierta en una droga que
alimenta su ego sobregirado. El adicto al éxito jamás se satisface con nada: dinero, posición,
posesiones. Siempre habrá un reloj Rolex más, o un BMW más y después será feliz.
Conserve la perspectiva de las cosas. De hecho, si piensa que el éxito es algo que los otros le
brindan a usted y no que se trata de algo que usted logra por sí mismo, entonces es menos probable
que padezca de inseguridad que produce perseguir el éxito.
También tendrá el estado de ánimo mental adecuado para usar los principios expuestos en este
libro. No estará atrapado en una filosofía del “puedo”. Ninguna persona puede brindarle el éxito,
sólo los demás pueden hacerlo. El Papa no se elige a sí mismo, tampoco lo hace el presidente de un
consejo.
Si piensa que se trata de una manera fría, tosca y tolerante de ver el juego de la vida, está en lo
cierto.
Fría, tosca, tolerante y efectiva.

Tomado de: Instituciones Ganadoras. La clave del éxito es encontrar el caballo que nos lleve al
triunfo. Al Ries y Jack Trout.

Estadística para Economistas 122


Universidad Peruana de Ciencias Aplicadas

Regresión Múltiple
El objetivo del Análisis de Regresión Lineal Múltiple es relacionar una variable respuesta y con
un conjunto de variables predictoras x1, x2,…, xk, utilizando un modelo lineal. Lo que se desea es
poder estimar el valor medio de y y/o predecir valores particulares de y a observar en el futuro
cuando las variables predictoras toman valores específicos.

Elección de las variables de predicción


Se debe tomar en cuenta los siguientes pasos para la selección de variables de un modelo de
regresión lineal múltiple:

Identificar la variable dependiente y las variables de predicción o predictoras que se van a


incluir en el modelo.
Seleccionar una muestra aleatoria, y registrar todas las variables para cada elemento de la
muestra.
Identificar las relaciones entre las variables de predicción y la dependiente, y entre las
propias variables de predicción (matriz de correlaciones).

El modelo de regresión lineal múltiple

y   0  1 x1   2 x2     k xk  
donde:
y : variable respuesta que se quiere predecir.
0, 1,…, k : coeficientes de regresión.
x1, x2,…, xk : variables predictoras independientes.
 : error aleatorio.

Supuestos del modelo de regresión lineal múltiple


 Los errores tienen distribución normal.
 Los errores tienen media igual a cero y varianza igual a  2.
 Los errores aleatorios, digamos i, j, asociados a cualquier par de valores de la variable
dependiente y, son independientes.

Ecuación de regresión muestral


A partir de los datos de la muestra, se encuentran las estimaciones de los parámetros:
yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk
donde:
ŷ : valor estimado de la variable dependiente.
ˆ , ˆ , ˆ ,..., ˆ : estimaciones puntuales de los parámetros poblacionales.
0 1 2 k
x1, x2,... , xk : son las variables predictoras .

Estadística para Economistas 123


Universidad Peruana de Ciencias Aplicadas

Estimación de los parámetros el modelo

Para estimar los parámetros del modelo de regresión lineal múltiple también se utiliza el método
de mínimos cuadrados. Considere una muestra de n observaciones:

y1   0  1 x11   2 x12   3 x13  ...   k x1k   1


y 2   0  1 x 21   2 x 22   3 x 23  ...   k x 2 k   2

y n   0  1 x n1   2 x n 2   3 x n 3  ...   k x nk   n

Esta muestra puede ser expresada en forma matricial de la siguiente manera:

 0 
 y1  1 x11 x12 ... x1k     1 
y  1 x 21 x 22 ... x 2 k   1  
Y   2 X β   2  ε   2
       
       
 yn  1 x n1 xn2 ... x nk 
 k   n 
 

donde Y  Xβ  ε .

El estimador de mínimos cuadrados para el vector β es:


βˆ  (X' X) 1 X' Y

Las propiedades estadísticas del estimador del vector de parámetros β son:


E(βˆ )  β
Cov(βˆ )   2 ( X ' X) 1

Coeficiente de regresión

Los valores ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k se conocen como coeficientes de regresión estimados. Un
coeficiente de regresión estimado específico mide el cambio promedio en la variable
dependiente debido a un incremento de una unidad en la variable predictora correspondiente,
manteniendo constantes las otras variables de predicción.

Los errores estándar y la covarianza de los estimadores ˆ0 , ˆ1 , ˆ2 ,..., ˆk se determinan mediante
los elementos de la matriz ( X ' X) 1 de la siguiente manera:

Estadística para Economistas 124


Universidad Peruana de Ciencias Aplicadas

c00 c01 c02 ... c0 k 


c c11 c12 ... c1k 
 10
X X
´ 1
 c 20 c 21 c 22 ... c 2 k 
 
 
c k 0 ... c kk 
 c k1 ck 2

Los errores estándar de los coeficientes estimados ˆ0 , ˆ1 , ˆ 2 ,..., ˆ k son:

 ˆ   c00
0

 ˆ   c11
1

 ˆ   c 22
2


 ˆ   c kk
k

El estimador de  2 , la varianza de los errores es:


SCE
S2 
n p
Donde p es el número de parámetros a estimar.

El error estándar de la estimación


El error estándar de la estimación mide la variabilidad, o dispersión, de los valores muestrales y
observados alrededor del plano de regresión.

SCE
Se   CME
n p

Coeficiente de determinación múltiple (r2)


El coeficiente de determinación múltiple mide el porcentaje de la variabilidad SCR
de y que se puede explicar mediante las variables de predicción. Un valor de r2 
r2 cercano a 1 significa que la ecuación es muy exacta porque explica una gran SCT
porción de la variabilidad de y. Se define como:

Por cada variable independiente adicional en el modelo, el


n 1
coeficiente de determinación incrementará su valor. Por tal razón 2
rcorregido  1 (1  r 2 )
se suele calcular el coeficiente de determinación corregido, útil n p
para comparar el poder predictivo de modelos alternativos con
diferente número de variables independientes:

Estadística para Economistas 125


Universidad Peruana de Ciencias Aplicadas

Pruebas de hipótesis
Una vez que se ha recogido una muestra aleatoria, se han medido las variables, y se ha
examinado la matriz de correlaciones para determinar aquellas combinaciones de variables que
son de interés, se analizan los modelos con el mejor potencial. El objetivo es encontrar la mejor
ecuación para predecir y después decidir si ésta ecuación satisface las necesidades de exactitud
del analista.

Pruebas individuales
Las hipótesis nula y alternante para las pruebas individuales son:

H0 : i  0
H1 :  i  0

y el estadístico de prueba es:

ˆi
tc  ~ t (n p )
 ˆ
I

donde  ˆ  s cii
i

Prueba Conjunta
Las hipótesis nula y alternante para la prueba conjunta son:

H 0 : 1   2  ...   k  0
H1 : Al menos un  i es diferente de cero

y el estadístico de prueba es:

CMR
Fc  ~ F( p 1, n  p )
CME

Intervalos de confianza para los coeficientes de regresión


Los intervalos de confianza para los coeficientes de regresión se construyen a partir de su
estimación puntual y el error estándar como se muestra a continuación:

LC( j )  ˆ j  t ( / 2,n p ) s cii

Estadística para Economistas 126


Universidad Peruana de Ciencias Aplicadas

Multicolinealidad
Cuando existe multicolinealidad es difícil distinguir qué cantidad del efecto observado se debe a
una variable de predicción individual. En otras palabras, si dos variables están altamente
correlacionadas, proporcionan casi la misma información en el pronóstico.

Cuando dos variables tienen una alta correlación, los coeficientes ˆ0 , ˆ1 ,..., ˆ k , estimadores de
 0 , 1 ,... k no son confiables. La estimación ˆ k de  k puede no ser siquiera cercana al valor
de su correspondiente parámetro e inclusive podría ser negativo cuando debiera ser positivo.

Regla práctica para seleccionar las variables predictoras en regresión múltiple.

 Una variable predictora debe tener una correlación fuerte con la variable dependiente.
 Una variable predictora no debe tener una correlación demasiado alta con ninguna otra
variable predictora. (La correlación entre dos variables predictoras debe estar muy por
debajo de la menor de las dos correlaciones entre las variables predictoras y la variable
dependiente).

Cuando se produce la multicolinealidad, si el analista sólo quiere usar el modelo de regresión


para hacer pronósticos, la multicolinealidad puede no causar ninguna dificultad seria.

Las consecuencias adversas son:

Las estimaciones de los coeficientes de regresión fluctúan de manera notoria de una muestra
a otra (alta variabilidad).
Una variable independiente que tiene una relación positiva con la variable dependiente
puede producir un coeficiente de regresión negativo si la correlación con otra variable
independiente es alta.
Con frecuencia se usa la regresión múltiple como una herramienta interpretativa para
evaluar la importancia relativa de las distintas variables independientes. Cuando las
variables independientes se intercorrelacionan, explican la misma varianza en el pronóstico
de la variable dependiente. Por esto, es difícil separar la influencia individual de cada
variable independiente cuando la multicolinealidad está presente.

Ejemplo
Una empresa que vende por correo suministros para computadoras personales (software y
hardware) posee un almacén central para la distribución de los productos ordenados.
Actualmente, la administración se encuentra examinando el proceso de distribución desde el
almacén y está interesada en estudiar los factores que afectan los costos de distribución del
almacén. Un pequeño cargo por manejo se agrega a pedido, independiente de la cantidad por la
que se hizo. Se han recolectado datos correspondientes a los 24 meses anteriores y respecto a los
costos de distribución del almacén, las ventas y el número de pedidos recibidos.

Estadística para Economistas 127


Universidad Peruana de Ciencias Aplicadas

 Costos de distribución (miles de $) (y)


 Ventas (miles de $) (x1)
 Número de pedidos (x2)

Los datos del estudio se muestran en la tabla siguiente:

Mes Ventas Nº pedidos Costo Mes Ventas Nº pedidos Costo


1 386 4015 52.95 13 372 3977 62.98
2 446 3806 71.66 14 328 4428 72.30
3 512 5309 85.58 15 408 3964 58.99
4 401 4262 63.69 16 491 4582 79.38
5 457 4296 72.81 17 527 5582 94.44
6 458 4097 68.44 18 444 3450 59.74
7 301 3213 52.46 19 623 5079 90.50
8 484 4809 70.77 20 596 5735 93.24
9 517 5237 82.03 21 463 4269 69.33
10 503 4732 74.39 22 389 3708 53.71
11 535 4413 70.84 23 547 5387 89.18
12 353 2921 54.08 24 415 4161 62.98

Solución
El modelo que relaciona al costo de distribución con las ventas y el número de pedidos será el
siguiente:
yi   0  1 x1   2 x2   i i  1, 2, . . . , 24
donde:
y : Costo de distribución
x1 : Ventas (miles de $)
x2 : Número de pedidos
 0 : Intercepto del modelo.
 1 : Cambio promedio en el costo de distribución por cada cambio unitario en las ventas,
manteniendo constante x2.
 2 : Cambio promedio en el costo de distribución por cada cambio unitario en el número de
pedidos, manteniendo constante x1.
 : Error aleatorio asociado a Y.

A continuación se muestra las salidas del análisis de regresión múltiple obtenida con el paquete
SPSS.

Estadística para Economistas 128


Universidad Peruana de Ciencias Aplicadas

Correl aciones

Costo de
distribución Ventas Número de
(miles de $) (miles de $) pedi dos
Correlación de Costo de distribución
1.000 .842 .919
Pearson (miles de $)
Ventas (mi les de $) .842 1.000 .800
Número de pedidos .919 .800 1.000
Sig. (unilateral) Costo de distribución
. .000 .000
(miles de $)
Ventas (mi les de $) .000 . .000
Número de pedidos .000 .000 .
N Costo de distribución
24 24 24
(miles de $)
Ventas (mi les de $) 24 24 24
Número de pedidos 24 24 24

Resumen del modelob

R cuadrado Error típ. de


Modelo R R cuadrado corregi da la estimaci ón Durbin-Watson
1 .936 a .876 .864 4.76617 2.258
a. Variables predi ctoras: (Constante), Número de pedidos, Ventas (miles de $)
b. Variable dependiente: Cost o de distribución (miles de $)

ANOVAb

Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 3368.087 2 1684.044 74.134 .000 a
Resi dual 477.043 21 22.716
Total 3845.130 23
a. Variables predi ctoras: (Const ante), Número de pedidos, Ventas (miles de $)
b. Variable dependiente: Costo de di stri bución (mi les de $)

Coef icientesa

Coefici entes no Coefici entes


estandari zados estandari zados
Modelo B Error típ. Beta t Sig.
1 (Constante) -2.728 6.158 -.443 .662
Ventas (mi les de $) 4.711E-02 .020 .297 2.318 .031
Número de pedidos 1.195E-02 .002 .681 5.313 .000
a. Variable dependiente: Cost o de distribución (miles de $)

Análisis de varianza para la prueba conjunta

Las hipótesis del análisis de varianza son:


H0 : 1   2  0 (No existe un modelo)
H1 : Al menos un coeficiente es diferente de cero (Sí existe modelo)

Con un nivel de significación del 5%, la prueba resulta significativa, es decir existe un modelo
de regresión lineal múltiple entre las variables analizadas, y está expresado por:

Costos = – 2.728 + 0.04711 Ventas + 0.01195 Número de pedidos

Del análisis de las pruebas individuales, se concluye que la regresión pasa por el origen.

Estadística para Economistas 129


Universidad Peruana de Ciencias Aplicadas

Regresión por el origen

Se procesa nuevamente los datos, pero indicando que la regresión pasa por el origen, y se
obtienen las siguientes tablas.

Resumen del modeloc,d

R cuadrado Error típ. de


a
Modelo R R cuadrado corregi da la estimaci ón Durbin-Watson
1 .998 b .996 .996 4.67830 2.264
a. Para l a regresión a través del ori gen (el modelo sin término de intersección), R
cuadrado mide la proporci ón de la variabi lidad de l a variabl e dependient e
explicado por la regresión a través del origen. NO SE PUEDE comparar lo
anteri or con la R cuadrado para los modelos que incl uyen una intersección.
b. Variables predi ctoras: Número de pedidos, Ventas (mi les de $)
c. Variable dependiente: Cost o de distribución (miles de $)
d. Regresión lineal a través del origen

Coef icientesa,b

Coefici entes no Coefici entes


estandari zados estandari zados
Modelo B Error típ. Beta t Sig.
1 Ventas (mi les de $) 4.510E-02 .019 .289 2.319 .030
Número de pedidos 1.155E-02 .002 .710 5.705 .000
a. Variable dependiente: Cost o de distribución (miles de $)
b. Regresión lineal a través del origen

Ejemplo de estimación del costo de distribución y los errores para los cinco primeros valores:

Mes Costo de Costo estimado ( ŷ ) Residual


distribución (y) yˆ  0.04511x1  0.01155x2 (y- ŷ )
1 52.95 ? ?
2 71.66 64.07657 7.58343
3 85.58 84.41350 1.16650
4 63.69 67.31385 -3.62385
5 72.81 70.23236 2.57764

Estadística para Economistas 130


Universidad Peruana de Ciencias Aplicadas

Histograma de residuales
Se grafica el histograma de residuales para verificar si su distribución es normal.

Histogram
8

4
Frequency

2 Std. Dev = .96


Mean = 0.00
0
N = 24.00
-2.00 -1.00 0.00 1.00
-1.50 -.50 .50 1.50

Regres sion Standardiz ed Res idual

Gráfico de dispersión de los residuales con los valores predichos


Este gráfico permite observar si se cumple el supuesto de homogeneidad de varianzas.

Scatterplot
2
Regressi on Standardi zed Resi dual

-1

-2

-3
-2 -1 0 1 2

Reg re ss io n S tand ard ize d P re di c te d V al ue

Estadística para Economistas 131


Universidad Peruana de Ciencias Aplicadas

UNIDAD 7. Series de Tiempo


Modelo Multiplicativo
El modelo que más se usa para la descomposición de las series de tiempo es el modelo
multiplicativo, en el que se analiza la serie como el producto de sus componentes:

Y  T.C.E.I
Donde:
Y = valor real de la variable de interés.
T = tendencia secular
C = componente cíclica
E = componente estacional
I = componente irregular

Tendencia
La tendencia secular de una serie de tiempo es la componente a largo plazo que representa el
crecimiento o disminución de la serie durante un período largo.

Años

Las fuerzas básicas responsables de la tendencia de una serie son población, crecimiento,
inflación de precios, cambios tecnológicos e incrementos de la productividad.

Componente Cíclica
Son llamados también ciclos económicos y muestran las variaciones en períodos de mediano
plazo.

Año
s

Estadística para Economistas 132


Universidad Peruana de Ciencias Aplicadas

Para estudiar los ciclos se requiere información de por lo menos 15 a 20 años.


El estudio de los ciclos ha sido descartado por ciertos autores que consideran que dicho
componente puede ser asimilado por el componente de tendencia.

Componente estacional
Son fluctuaciones de una serie de tiempo en períodos relativamente cortos que se repiten de
manera casi irregular. Por lo general están asociados a los diferentes meses del año.

El estudio de la variación estacional permite encontrar índices mediante los cuales se puede
desestacionalizar la serie.

Componente irregular
Son variaciones aleatorias que ocurren en una serie por acontecimientos inesperados, por
ejemplo a causa de: Huelgas, imprevistos, corte de energía eléctrica, pero también con la misma
naturaleza aleatoria de la variable.

Estudio de una serie de tiempo

Modelo de tendencia
El modelo multiplicativo Y = T x C se usa para analizar los datos de la serie de tiempo.
Recta de Tendencia.
El procedimiento que se usa para encontrar la línea recta que mejor ajusta a los datos
observados de la serie de tiempo es el de mínimos cuadrados.

Estadística para Economistas 133


Universidad Peruana de Ciencias Aplicadas

Para el análisis Y es la variable que se está analizando y X es un valor codificado que se


usa para representare el año, trimestre o mes.

Ejemplo
El registro anual de nuevos automóviles en EEUU durante el período de 1975-2006 se
presenta en la tabla siguiente. Estimar la recta de tendencia.

Año Registros (millones) Y T Ŷ


1975 6,577 1 6,700
1976 5,855 2 7,024
1977 6,939 3 7,331
1978 7,557 4 7,621
1979 8,065 5 7,895
1980 9,314 6 8,153
1981 9,009 7 8,394
1982 8,357 8 8,618
1983 9,404 9 8,826
1984 9,447 10 9,018
1985 8,388 11 9,193
1986 9,831 12 9,351
1987 10,409 13 9,493
1988 11,351 14 9,619
1989 8,701 15 9,728
1990 8,168 16 9,821
1991 9,752 17 9,897
1992 10,826 18 9,956
1993 10,946 19 10,000
1994 10,357 20 10,026
1995 8,761 21 10,036
1996 8,444 22 10,030
1997 7,754 23 10,007
1998 8,924 24 9,968
1999 10,118 25 9,912
2000 10,889 26 9,840
2001 11,14 27 9,751
2002 10,183 28 9,646
2003 10,398 29 9,524
2004 9,853 30 9,386
2005 9,103 31 9,231
2006 8,234 32 9,060
2007 33 8,872

Estadística para Economistas 134


Universidad Peruana de Ciencias Aplicadas

Los resultados del estudio de tendencia, obtenidos con el paquete SPSS, se muestran a
continuación:

Y: Registros (millones)

Lineal
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de
Regresión 15.808 1 15.808 11.258 .002
R R cuadrado corregida la estimación Residual 42.124 30 1.404
.522 .273 .249 1.185 Total 57.932 31
La v ariable independient e esT. La v ariable independiente esT.

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
T .076 .023 .522 3.355 .002
(Constante) 7.902 .429 18.421 .000

Estadística para Economistas 135


Universidad Peruana de Ciencias Aplicadas

Cuadrático
ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 28.416 2 14.208 13.959 .000
R R cuadrado corregida la estimación Residual 29.516 29 1.018
.700 .491 .455 1.009 Total 57.932 31
La v ariable independiente esT. La v ariable independiente esT.

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
T .348 .080 2.389 4.370 .000
T ** 2 -.008 .002 -1.924 -3.520 .001
(Constante) 6.360 .570 11.152 .000

Descomposición de una serie de tiempo

Datos estacionales
Los datos de series de tiempo mensual o trimestral son de uso común en los negocios,
porque generalmente usan técnicas contables basados en meses o trimestres. Las
proyecciones a futuro de series de tiempo mensual y/o trimestral son actividades comunes
en las organizaciones.

La descomposición de una serie de tiempo mensual o trimestral


puede revelar la componente estacional e irregular, además de
las componentes de tendencia y cíclica. Al examinar cada una de
estas cuatro componentes por separado se puede descubrir
información interesante y útil que permita al analista combinar
estos elementos para realizar un buen pronóstico.

Los pronósticos que usan series de tiempo mensual o trimestral


se hacen por lo general para 1 a 12 meses o para 1 a 4 trimestres
futuros.

El analista debe tener de 4 a 7 años de datos mensuales o


trimestrales para realizar cálculos necesarios para la
estacionalidad.

Estadística para Economistas 136


Universidad Peruana de Ciencias Aplicadas

Ejemplo
La administración de un albergue para esquiadores tiene los siguientes datos acerca de la
demanda trimestral de habitaciones, correspondiente a un período de cinco años. Para
mejorar su servicio, la administración, debe establecer un patrón por temporadas de la
demanda.

Trimestre
Año
I II III IV
2002 1765 2154 2304 1879
2003 2014 2456 2654 2135
2004 2212 2458 2578 1998
2005 2315 2450 2684 2245
2006 2456 2875 2654 2354

Analice la serie de tiempo y pronostique la demanda para el año 2007.

Deamanda de habitaciones

3000

2800

2600

2400
Y

2200

2000

1800

1600
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Tiempo

Estadística para Economistas 137


Universidad Peruana de Ciencias Aplicadas

SERIE DE TIEMPO
Año Trimestre Y
1 1765

2 2154
2002
3 2304

4 1879

1 2014

2 2456
2003
3 2654

4 2135

1 2212

2 2458
2004
3 2578

4 1998

1 2315

2 2450
2005
3 2684

4 2245

1 2456

2 2875
2006
3 2654

4 2354

Estadística para Economistas 138


Universidad Peruana de Ciencias Aplicadas

Solución

Paso 1
Calcule el total móvil de los cuatro trimestres para la serie temporal.

Total móvil
Año Trim. Ocupac.
de 4 trimes.
I 1765

II 2154
2002 8102
III 2304
8351
IV 1879

Paso 2
Calcule el promedio móvil de cuatro trimestres.

Total Prom.
Año Trim. Ocupac. móvil de móvil de
4 trimes. 4 trimes.
I 1765

II 2154
2002 8102 2025,50
III 2304
8351 2087,75
IV 1879

Paso 3
Centre el promedio móvil centrado.

Total Prom. Prom.


Año Trim. Ocupac. móvil de 4 móvil de 4 móvil
trim. trimes. centrado
I 1765

II 2154
2002 8102 2025,50
III 2304 2056,63
8351 2087,75
IV 1879 2125,50

Paso 4
Calcule el porcentaje del valor real con respecto al valor del promedio móvil para cada
trimestre de la serie temporal.

Estadística para Economistas 139


Universidad Peruana de Ciencias Aplicadas

Real 2304
x 100  x100
Promedio móvil 2056.63
 112,0

Prom. % valores reales


Total Prom.
Ocupac. móvil con respecto al
Año Trim. móvil de móvil de
(1) centrado prom. valores
4 trim. 4 trimes.
(2) móviles (1)/(2)
I 1765

II 2154
2002 8102 2025,50
III 2304 2056,63 112,0
8351 2087,75
IV 1879 2125,50 88,4

Paso 5
Para reunir todos los porcentajes de los valores reales con respecto a los valores de
promedio móvil que se encuentran en la última columna de la tabla, organizarlos por
trimestres.

Trimestre
Año
I II III IV
2002 - - 112,0 88,4
2003 91,3 107,4 113,4 90,3
2004 93,9 105,6 110,9 85,5
2005 98,6 102,4 109,9 89,4
2006 95,9 111,8 - -
Promedio 94,91 106,79 111,43 88,40   401,53
Paso 6
Ajuste los índices. La constante de ajuste se calcula de la siguiente manera:
400
Constante de ajuste   0,9962
401,53

Cálculo del índice temporal

Trimestres (Índices desajustados) x Índice


(constante de ajuste) estacional
I 94,91 x 0,9962 94,55
II 106,79 x 0,9962 106,38
III 111,43 x 0,9962 111,01
IV 88,40 x 0,9962 88,06
Total de índices estacional 400.0
Media de los índices estacional 100.0

Estadística para Economistas 140


Universidad Peruana de Ciencias Aplicadas

Finalmente la serie sin la componente de estacionalidad queda de la siguiente manera.

Índice Ocupación sin


Año Trim. Ocupac.
estacional estacionalidad
I 1765 94,55 1866,75

II 2154 106,38 2024,74


2002
III 2304 111,01 2075,55

IV 1879 88,1 2133,67

Y sin
t Resumen del model o
estacionalidad
1 1866,75 Error típ.
2 2024,74 R R cuadrado de la
3 2075,55 Modelo R cuadrado corregi da estimación
1 ,870 a ,758 ,744 108,28453
4 2133,67
a. Variables predictoras: (Constante), t
5 2130,10
6 2308,61
ANOVA
7 2390,85
8 2424,37 Suma de Media
9 2339,52 cuadrados gl cuadrática F Sig.
1 Regresión 659300,783 1 659300,8 56,228 ,000
10 2310,49
Resi dual 211059,713 18 11725,540
11 2322,39
Total 870360,496 19
12 2268,80
13 2448,46
Coef icientes
14 2302,97
15 2417,87 Coefici entes
16 2549,28 Coefici entes no estandari zado
estandari zados s
17 2597,59
B Error típ. Beta t Sig.
18 2702,47 1 (Constante) 2003,306 50,302 39,826 ,000
19 2390,85 t 31,487 4,199 ,870 7,499 ,000
20 2673,05

Estadística para Economistas 141


Universidad Peruana de Ciencias Aplicadas

Método de Atenuación Exponencial

TIPOS DE PRONÓSTICOS:
De acuerdo a Hanke y Reitsch (1996) los pronósticos se pueden clasificar en tres principales
criterios.

 El primer criterio es el tiempo, es decir, existen pronósticos a corto y a largo plazo. Estos últimos
ayudan a establecer el curso general de la organización en un plazo largo de tiempo, mientras que
los primeros se utilizan para diseñar las estrategias que se utilizarán inmediatamente y serán
ejecutadas por niveles medios en la organización.

 El siguiente tipo de criterio se relaciona directamente con la posición en cuanto al entorno micro
y macro, y cómo es que aquí se generan diferente tipos de detalles en una organización. Estos
tipos de detalles son el micro pronóstico y el macro pronóstico. Un ejemplo de micro pronóstico
es que el gerente de producción sepa cuanto se necesitará para la producción anual de un
producto determinado, mientras que un macro detalle sería conocer el incremento en la carga
tributaria (impuestos) que el gobierno aplicará en el siguiente año fiscal.

 El tercer tipo de criterio clasifica los pronósticos en cualitativos y cuantitativos, el primero se


aplica cuando se emite el juicio de una persona, mientras que los cuantitativos se refieren a
procesos mecánicos que dan como resultado datos matemáticos.

Definición de la atenuación exponencial

El pronóstico se basa en una suma ponderada de las observaciones pasadas. Los valores dependen
de los llamados parámetros de atenuación. Una vez que se han elegido tales parámetros, es fácil
calcular los pronósticos, el método se puede adaptar fácilmente para considerar los factores
estacionales y tendencias.

Una atenuación exponencial sobre una serie de tiempo ya atenuada con anterioridad es llamada
atenuación exponencial doble. En algunos casos seria necesario extender este proceso hasta una
atenuación exponencial triple.
Mientras que la atenuación exponencial simple requiere de la condición de inmovilidad
(estacionaria), la atenuación exponencial doble podría capturar tendencias lineales, y la atenuación
exponencial triple puede manejar casi todas las demás series de tiempo del negocio

Características de la atenuación exponencial con un parámetro (simple)

• La atenuación exponencial es un método utilizado para revisar constantemente una estimación a


la luz de experiencias más recientes. Se supone que los datos son estacionarios.

• Las observaciones se ponderan asignando pesos mayores “alfa” a las más recientes, para la
siguiente α (1- α) y así sucesivamente

Estadística para Economistas 142


Universidad Peruana de Ciencias Aplicadas

• El valor real de α determina el grado hasta el cual la observación más reciente puede influir en el
valor del pronóstico, es decir cuando α tiende a :

* 1 el nuevo pronóstico incluirá un ajuste sustancial de cualquier error ocurrido en el pronóstico


anterior.

* 0 el nuevo pronóstico es similar al anterior

Yˆt 1  Yt  1   Yˆt

Ŷ t+1 : Nuevo valor atenuado o valor de pronóstico para el siguiente periodo.


α : Constante de atenuación ( 0< α < 1)
Y t : Nueva observación o valor real de la serie en el periodo t
Ŷ t : Valor atenuado anterior o experiencia promedio de la serie atenuada al periodo t-1

Ŷ t = Y t para el primer valor

La atenuación exponencial es el pronóstico anterior más α veces el error (Y t - Ŷ t) en


el pronóstico anterior

Señal de rastreo

• Señal de Rastreo: comprende alguna medición del error a través del tiempo y establece
límites, de modo que cuando el error rebase dichos límites, se alerte al pronosticador.

• Un sistema de rastreo proporciona un método para monitorear la necesidad de cambio


(actualizar alfa) contiene un nivel de variaciones permisibles entre el pronóstico y los
valores reales.

• Si las cosas van bien, la técnica de pronóstico debería subestimar y sobreestimar con casi la
misma frecuencia.

Señal de Rastreo = CEF / DAM

CEF = Suma de los errores (valor observado menos valor pronosticado)


DAM = Es el promedio de los errores absolutos

Estadística para Economistas 143


Universidad Peruana de Ciencias Aplicadas

Gráfico de límites de señal de rastreo

+1.5

+ 1.0
Señal de
Rastreo + 0.5

-0.5

-1.0
-1.5

5 10 15 20
25
Número de Observaciones

Medición del error en el pronóstico

Para calcular el error o residual de cada periodo de pronóstico se utiliza:

et  Yt  Yˆt
et : error de pronóstico en periodo t
Yt : valor real en el periodo t
Yˆt : valor del pronóstico en el periodo t

 Desviación Absoluta de la Media


n

 Y  Yˆ t t
DAM  t 1
n
La DAM resulta de gran utilidad cuando el analista desea medir el error de pronóstico en las
mismas unidades de la serie original

 Error Medio Cuadrado

 Y  Yˆ 
n
2
t t
EMC  t 1
n

Estadística para Economistas 144


Universidad Peruana de Ciencias Aplicadas

El EMC se usa para comparar métodos diferentes de pronóstico. Penaliza los errores grandes del
pronóstico.

 Porcentaje de Error Medio Absoluto

n Yt  Yˆt
 t 1 Yt
PEMA 
n
El PEMA se usa para comparar métodos diferentes de pronóstico. Indica que tan grande son los
errores del pronóstico. Contrasta con los valores reales de la serie

 Porcentaje Medio de Error


n
Y  Yˆ 
t t

t 1 Yt
PME 
n
El PME indica cuán desviada está la técnica de pronóstico usada.
Si tiende a cero no hay sesgo
Si es negativo grande el pronóstico será sobreestimado
Si es positivo grande el pronóstico

Problemas

1. Un fabricante que se especializa en partes de reemplazos no cuenta con un sistema de


pronóstico y programa la cantidad de manufactura de productos con base en la ventas de los
últimos meses :
Mes ventas Mes ventas
Enero 430 Enero 350
Febrero 420 Febrero 400
Marzo 436 Marzo 458
Abril 452 Abril 472
Mayo 477 Mayo 463
Junio 400 Junio 431
Julio 398 Julio 350
Agosto 510 Agosto 380
Septiembre 550 Septiembre 400
Octubre 580 Octubre 450
Noviembre 600 Noviembre 480
Diciembre 300 Diciembre 350

Use las constantes de suavización de 0,5 y 0,9. Compare los resultados y diga cual de los dos
anteriores es mejor justifique con DAM, y Señal de rastreo)

Estadística para Economistas 145


Universidad Peruana de Ciencias Aplicadas

2. Un distribuidor de acero corta hojas de acero de bobinas suministradas por grandes


fabricantes. Un pronóstico exacto de utilización de bobinas podría ser muy útil para
controlar los inventarios de materia prima. Del precio de ventas, 80% es el costo de los
materiales adquiridos. Aunque la determinación de las cantidades de adquisición implica
muchas consideraciones, se ha establecido que un modelo de atenuación exponencial sería
de mucha utilidad para establecer un pronóstico para el siguiente mes. Las tasas actuales (de
los últimos 16 meses) de utilización de bobinas en libras se proporcionan a continuación.

Mes Utilización de acero Mes Utilización de acero


(lb) (lb)
Enero 206807 Septiembre 65885
Febrero 131075 Octubre 179739
Marzo 124357 Noviembre 251969
Abril 149454 Diciembre 205806
Mayo 169799 Enero 304580
Junio 216843 Febrero 293434
Julio 288965 Marzo 273725
Agosto 219018 Abril 210626

Utilice un modelo de atenuación exponencial simple con α = 0.1, 0.3, 0.5, 0.7, 0.9 y determine el
mejor para preparar el pronóstico.

Solución del problema 1

VALOR
Utilización de acero Error
Mes ATENUADO DAM
(lb) (Yt – pronóstico)
(Alfa = 0,1)

1 430 430,00
2 420 430,00 -10,00 10,00
3 436 421,00 15,00 15,00
4 452 434,50 17,50 17,50
5 477 450,25 26,75 26,75
6 400 474,33 -74,33 74,33
7 398 407,43 -9,43 9,43
8 510 398,94 111,06 111,06
9 550 498,89 51,11 51,11
10 580 544,89 35,11 35,11
11 600 576,49 23,51 23,51
12 300 597,65 -297,65 297,65
13 350 329,76 20,24 20,24
14 400 347,98 52,02 52,02
15 458 394,80 63,20 63,20

Estadística para Economistas 146


Universidad Peruana de Ciencias Aplicadas

16 472 451,68 20,32 20,32


17 463 469,97 -6,97 6,97
18 431 463,70 -32,70 32,70
19 350 434,27 -84,27 84,27
20 380 358,43 21,57 21,57
21 400 377,84 22,16 22,16
22 450 397,78 52,22 52,22
23 480 444,78 35,22 35,22
24 350 476,48 -126,48 126,48
362,65 -74,84 52,56
ALFA PRONÓSTICO DAM SEÑAL DE RASTREO
0,5 400,53 57,85 -1,02
0,9 362,65 52,56 -1,42

Los dos pronósticos están bajo control.


El mejor es 362,65 con alfa de 0,9 esta bajo control y tienen menor DAM

Solución del problema 2


Alfa= 0,5
Utilización VALOR
Error
Mes de acero ATENUADO DAM EMC PEMA PME
(Yt – pronóstico)
( lb ) (Alfa = 0,1)
Enero 206807 206807
Febrero 131075 206807 -75732 75732 5735335824 0,5778 -0,5778
Marzo 124357 168941 -44584 44584 1987733056 0,3585 -0,3585
Abril 149454 146649 2805 2805 7868025 0,0188 0,0188
Mayo 169799 148052 21748 21748 472953756 0,1281 0,1281
Junio 216843 158925 57918 57918 3354465765 0,2671 0,2671
Julio 288965 187884 101081 101081 10217343291 0,3498 0,3498
Agosto 219018 238425 -19407 19407 376614668 0,0886 -0,0886
Septiembre 65885 228721 -162836 162836 26515654491 2,4715 -2,4715
Octubre 179739 147303 32436 32436 1052084973 0,1805 0,1805
Noviembre 251969 163521 88448 88448 7823036266 0,3510 0,3510
Diciembre 205806 207745 -1939 1939 3759857 0,0094 -0,0094
Enero 304580 206776 97804 97804 9565716782 0,3211 0,3211
Febrero 293434 255678 37756 37756 1425533750 0,1287 0,1287
Marzo 273725 274556 -831 831 690361 0,0030 -0,0030
Abril 210626 274140 -63514 63514 4034084050 0,3016 -0,3016
242383 71152 53923 4838191661 0,3704 -0,1377
Señal de rastreo= 1,3195

Estadística para Economistas 147


Universidad Peruana de Ciencias Aplicadas

ALFA PRONOS SR DAM EMC PEMA PME

0,1 219227,4 2,192265 56655,54 4737545671 0,365714 -0,12816

0,3 243007,9 2,221919 54308,76 4711843541 0,360562 -0,12533

0,5 242383,22 1,319529 53922,59 4838191661 0,370363 -0,13769

0,7 230875,9 0,595829 57708,07 4956476176 0,393145 -0,14013

0,9 217134,64 0,194746 58923,84 5070989997 0,395708 -0,13326

Estadística para Economistas 148


Universidad Peruana de Ciencias Aplicadas

MISCELÁNEA

Estadística para Economistas 149


Universidad Peruana de Ciencias Aplicadas

1. Sea f x , y  la función de densidad conjunta para X e Y, tal que:

k y x  2 ; para 0  x  1 ; 0  y  2 ; k  constante real


f x , y   
0 ; en otro caso

a. Calcule el valor de la constante real k.


b. Determine la probabilidad que Y – X sea mayor que 1
(Sugerencia. Grafique en el plano XY la región del plano que satisface la condición dada)
c. ¿Se puede afirmar que X e Y son variables Independientes?
d. Determine el valor de la Covarianza de las variables aleatorias X e Y.

2. Una propiedad importante de los estimadores es que sean insesgados. Por definición un estimador es
insesgado si su valor esperado es igual al valor del parámetro. Suponga que X1, X2, … , Xn denota una
muestra aleatoria de una población con media  y varianza 2. Considere  como un estimador de .

1 X   X n 1 1
Donde:   X1  2  Xn
4 4  2n 4
Demuestre que  es un estimador insesgado de 

3. Sea f x , y  la función de densidad conjunta para X e Y, tal que:

2 x  y  a  ; para 0  x  2 ; 0  y  1
f x , y   
0 ; en otro caso

a. Determine la probabilidad que X supere a Y + 1


(Sugerencia. Grafique en el plano XY la región del plano que satisface la condición dada)
b.
f
Determine la función de densidad de probabilidad condicional X / Y
x / y 
c. Calcule el Valor Esperado de la variable aleatoria Y.
d. Calcule el Valor Esperado de XY.
e. Determine el valor de la Covarianza de las variables aleatorias X e Y.

4. Si Y1 y Y2 son variables aleatorias no correlacionadas, encuentre la Covarianza entre las variables:


U1 = Y1 + Y2 y U2 = Y1 – Y2 en términos de las varianzas de Y1 y Y2

5. Sea f x , y  la función de densidad conjunta para X e Y, tal que:

3 y 3x  y  ; para 0  x  1 ; 0  y  2
f x , y   
0 ; en otro caso

a. Determine la probabilidad que X + Y sea mayor que 1


b. (Sugerencia. Grafique en el plano XY la región del plano que satisface: X + Y > 1)
c. Determine la función de densidad de probabilidad marginal para la variable aleatoria Y

Estadística para Economistas 150


Universidad Peruana de Ciencias Aplicadas

d. Determine la función de densidad de probabilidad condicional X / Y


f x / y 
e. Calcule el Valor Esperado de la variable aleatoria X.
f. Calcule el Valor Esperado de XY.
g. Determine el valor de la Covarianza de las variables aleatorias X e Y.

6. Si Y1 y Y2 son variables aleatorias no correlacionadas, encuentre la Covarianza entre las variables:


U1 = Y1 + Y2 y U2 = Y1 – Y2 en términos de las varianzas de Y1 y Y2

7. Sean X e Y dos variables aleatorias con distribución normal de media X y Ycon varianzas 2X y
2Y.respectivamente. Para dos muestras aleatorias de tamaños nX y nY demuestre que x  y es un 

estimador insesgado de  x   y 

8. Sean las poblaciones X 1  Normal (1;  12 ) y X 2  Normal (2 ;  22 ) con varianzas


poblacionales conocidas. Deduzca una expresión que permita determinar, con un nivel de confianza de
(1 – ) %, el tamaño de muestra requerido para estimar 1  2  . Se desea que los tamaños de
muestra para cada grupo sean iguales.

9. Sea Y1, Y2, …, Yn una muestra aleatoria con E[Yi] =  y V[Yi] = 2. Demuestre que:

 Y  Y 
n
2
i
i 1
S2  es un Estimador Insesgado de 2. Es decir que E[S2] = 
n 1

Recuerde que: V [Y] = E [Y2] – 2  E [Y2] = V [Y] + 2

10. Se define la función de densidad de probabilidad conjunta f (X; Y) para las variables aleatorias
continuas X y Y:

k x 3  y 1 ; si 0  x  2 ; 1 y  2
f ( x ; y)   donde: k es una constante
0 ; en otro caso

a. Determine el valor de la constante k.


b. Calcule la probabilidad que la suma de variables aleatorias sea mayor que 2.
c. Demuestre que las variables aleatorias X y Y son Independientes.

11. Sea f x , y  la función de densidad conjunta para X e Y.


12 xy 1  y  0  x  1 ; 0  y  1
f x , y   
0 en otro caso

Calcule P X  Y  0,6

Estadística para Economistas 151


Universidad Peruana de Ciencias Aplicadas

12. Sea la función de densidad conjunta f, para las variables aleatorias X e Y, definida por:

a  2 x  y  ; si  1  x  2 ; 0  y 1
f ( x ; y)   Donde: "a " es una constante
0 ; en otro caso

a. Determine el valor de la constante "a "


b. Calcule la probabilidad: P[ X – Y < 1 ]

13. Sea la función de densidad conjunta:


1
 y x  1 , si 0  x  10 ; 1  y  2
f x, y    60

0 , en otro caso

Calcule la probabilidad que X – Y > 6

14. Suponga que se eligen dos muestras aleatorias independientes de n1 y n2 observaciones de poblaciones
normales y que las poblaciones poseen una varianza común 2.

 Y 
ni

ij  Yi 2

j 1
Sean: S i2  , para i = 1, 2 estimadores Insesgados de 2.
ni  1
(n1  1) S12  (n2  1) S 22
Se define el siguiente estimador ponderado de  : S  2 2

n1  n2  2
p

Demuestre que S p2 es un Estimador Insesgado.

15. Sea la función de densidad conjunta f definida por:

4 x y ; si 0  x 1 ; 0  y 1
f ( x ; y)  
0 ; en otro caso

a. Determine la función de densidad marginal de Y


b. Calcule la probabilidad condicional: P[ X < ½ / Y > ¾ ]

16. Sean las variables aleatorias: Y1 = a X + b y Y2 = cX + d, con a, b, c y d constantes y X una variable


aleatoria con media x y varianza 2x.

Demuestre que: Cov(Y1 , Y2) = a c 2x

Estadística para Economistas 152


Universidad Peruana de Ciencias Aplicadas

17. Sea la función de densidad conjunta:


x  y
 , si 0  x  3 ; 0  y  3
f x, y    27

0 , en otro caso

a. Determine E(X)
b. Determine 2x

18. El equipo de ventas de tarjetas de crédito de una entidad bancaria, encarga a cada vendedor realice un
total de seis llamadas telefónicas a clientes del banco, en el lapso de tres horas, ofreciendo tarjetas de
crédito. En el cuadro se registra el número de llamadas que terminaron en aceptación de la tarjeta de
crédito de un total de 300 llamadas realizadas.

N° de llamadas que terminan


0 1 2 3 4 5 6 Total
en aceptación
Frecuencia 40 95 95 53 12 4 1 300

Algunos cálculos previos ofrecieron los resultados siguientes:

 xi P(xi)  (xi - )2P(xi)  (xi - )3P(xi)  (xi - )4P(xi)


1,7267 1,2853 0,7610 5,4503

m3
Calcule e interprete los coeficientes de asimetría o sesgo (a3) y curtosis SESGO a3 
m2 
3
(a4) de la distribución del número de llamadas que terminan en 2

aceptación de la tarjeta de crédito, a través de las expresiones


m4
siguientes que nos ofrece el método de momentos. CURTOSIS a4 
m2 2

19. Calcule e interprete los coeficientes de asimetría o sesgo (a3) y curtosis (a4) de la distribución de horas
extras de los empleados de una empresa, a través del método de momentos.

Horas extras Número


m3
7,4 8,5 31 SESGO a3 
m2 
3
2
8,5 9,6 36
9,6 10,7 26 m4
CURTOSIS a4 
10,7 11,8 22 m2 2
11,8 12,9 20
12,9 14,0 10 Coeficiente Valor
14,0 15,1 4
Sesgo
15,1 16,2 1
Curtosis
Total 150

Estadística para Economistas 153


Universidad Peruana de Ciencias Aplicadas

20. Calcule los coeficientes de asimetría (As) y curtosis (g2) de la distribución de sueldos.

 f x 
Sueldos n
Número
(miles de Soles) 1
n i i x 3
m3 i 1
2,0 2,2 10 As  a 3  
m2 m2 S3
2,2 2,4 30
2,4 2,6 50 4
g2  3
2,6 2,8 40 4
2,8 3,0 20
3,0 3,2 15
Coeficiente Valor
3,2 3,4 10
Asimetría
3,4 3,6 5
3,6 3,8 4 Curtosis
3,8 4,0 2
Total 186

21. Responda con Verdadero o Falso según corresponda a las siguientes afirmaciones:

a. Si al calcular el tamaño de muestra se reduce el máximo error muestra a la mitad, el


tamaño de muestra se duplica.

b. Si se reduce el máximo error muestral en un 50%, la amplitud del intervalo de confianza


para estimar una media poblacional se reduce también en un 50%.

c. Si el tamaño de muestra para la estimación de una proporción poblacional se duplica, la


amplitud del intervalo se reduce en un 50%.

d. El error estándar de la diferencia de proporciones de muestras independientes, evalúa la


varianza que existe entre las diferencias de proporciones de todos los pares de muestras
que pueden extraerse de dos poblaciones.

22. Responda con Verdadero o Falso según corresponda a las siguientes afirmaciones:

a. Si la amplitud del intervalo de confianza al 95% para la diferencia de medias de muestras


relacionadas es de 2 unidades, para un tamaño de muestra de 12 elementos. Entonces, la
desviación estándar de las diferencias es 2,4771.
b. Muestras independientes son aquellas que proceden de poblaciones con diferentes
varianzas.
c. La distribución Ji cuadrado, requiere que los datos procedan de una población con
distribución normal.
d. El error estándar de la diferencia de medias de muestras independientes, evalúa la
varianza que existe entre las diferencias de medias de todos los pares de muestras que
pueden extraerse de dos poblaciones

Estadística para Economistas 154


Universidad Peruana de Ciencias Aplicadas

23. Determine una expresión, que incluya el tamaño de población, que permita calcular el tamaño de
muestra adecuado para estimar una proporción poblacional donde no se conoce la proporción histórica.

24. Determine paso a paso la media y varianza de la distribución muestral de la diferencia de proporciones
muestrales. Escriba todas las condiciones bajo las cuales se realiza el análisis.

25. Una empresa que fabrica polos de algodón cuenta con dos talleres. La producción es la misma en
ambos talleres pero el jefe de compras sospecha que se utiliza mayor cantidad de materia prima en el
taller 2. Para ello toma una muestra de algunas órdenes de pedido y se registra la cantidad de kilos de
las telas de algodón utilizadas en cada taller. Los datos en kilogramos, se muestran a continuación:

Taller 1 82,6 86,2 78,8 86,9 85,6 84,8 81,2 89,8 84,9 89,8 88,7 59,9 65,5
Taller 2 74,9 94,9 86,8 89,7 89,1 89,9 92,8 86,9 95,6 84,8

a. Calcule e interprete un intervalo de confianza de 95% para determinar si la variabilidad en la


cantidad de materia prima usada en ambos talleres son heterogéneas.
b. Utilice una estimación con un nivel de confianza del 95% para verificar si las sospechas del jefe
de compras tienen fundamento.

26. De 250 hombres y 230 mujeres, 37% y 25% respectivamente afirmaron que utilizaban tarjetas de
crédito para comprar regalos de navidad. Calcule el intervalo de confianza del 97% para la diferencia
entre la proporción de hombres y mujeres que optaron por el crédito. ¿Se puede afirmar que los
hombres utilizan más las tarjetas de crédito para comprar regalos de navidad que las mujeres?

27. En un estudio respecto a la rentabilidad diaria de paquetes de acciones Industriales y Mineras, se han
obtenido los registros de la rentabilidad del último trimestre del año 2010 y del primer trimestre del
presente año para 13 paquetes de acciones Industriales seleccionadas aleatoriamente. Así mismo, se
han obtenido los registros de la rentabilidad del primer trimestre del presente año para 11 paquetes de
acciones Mineras. Los datos se muestran en el siguiente cuadro:

Observación 1 2 3 4 5 6 7 8 9 10 11 12 13
Acciones
Industriales 2,7 5,5 2,8 1,3 3,1 6,7 5,4 4,3 7,8 2,9 3,7 5,7 4,3
Oct - Dic 2010
Acciones
Industriales 2,6 4,5 4,2 6,2 4,9 4,3 2,7 5,3 6,3 4,4 5,4 6,4 4,8
Ene - Mar 2011
Acciones Mineras
9,5 5,2 7,5 1,0 13,6 7,9 7,0 8,5 0,1 7,2 6,7
Ene - Mar 2011

Se sabe que los rendimientos diarios, en dólares, de cada paquete tienen distribución normal. A un
nivel de confianza del 95%, analice y responda las siguientes preguntas.
a. ¿Es correcto afirmar que los rendimientos en los paquetes de acciones Industriales se han
incrementado en más de $2,00 desde el último trimestre del año 2010 al primer trimestre del año
2011?
b. ¿Considera usted que la variabilidad de la rentabilidad de los paquetes de acciones Industriales y de
los paquetes de acciones Mineras son homogéneas?

Estadística para Economistas 155


Universidad Peruana de Ciencias Aplicadas

c. Si en el presente año se desea invertir en los paquetes de acciones que ofrezca mayor rentabilidad,
¿cuál recomendaría Industriales o Mineras? Justifique su respuesta.
d. Si estamos frente a un inversionista prudente, cuya política es invertir en los paquetes de acciones
cuya rentabilidad tiene una variabilidad menor a $2,00. ¿Considera usted que este tipo de
inversionista debe elegir los paquetes de acciones Industriales para su inversión? Justifique su
respuesta.

28. Responda con Verdadero o Falso según corresponda a las siguientes afirmaciones:

a. La distribución Chi-cuadrado requiere que la población de la que procede la muestra


tenga una distribución asimétrica
b. La distribución T de Student requiere que los datos procedan de una población con
distribución Normal
c. El intervalo de confianza para la proporción muestral tiene una amplitud igual a dos
veces el error muestral máximo
d. La distribución F de Fisher permite probar si dos muestras relacionadas proceden de
poblaciones con la misma variabilidad

29. FICHA TÉCNICA


Título del estudio: Encuesta de Opinión en Lima Metropolitana – Setiembre 2010
Objetivos del Estudio: Percepción, opinión e intención de voto de las elecciones municipales
limeñas.
Encuestadora: Pontificia Universidad Católica del Perú
Nº de registro: 0108-REE/JNE
Universo o población objetivo: Hombres y mujeres mayores de 18 años, habitantes de 36 distritos de
Lima Metropolitana.
Marco muestral: La selección de manzanas se hizo utilizando como marco muestral la cartografía
digital del INEI del 2007 para los 36 distritos de Lima Metropolitana. Los distritos que no forman
parte del marco muestral son Cieneguilla y los distritos balnearios del Sur y del Norte de la Ciudad.
Representatividad: En los 36 distritos que forman parte del universo y que están incluidos en el
marco muestral se encuentra el 99% de la población de 18 a más años de la provincia de Lima.
Tamaño de la muestra: 523 personas entrevistadas en Lima Metropolitana, que votan en uno de los
distritos de Lima.
Error y nivel de confianza estimados: ±4.3% con un nivel de confianza del 95%, asumiendo 50%-
50% de heterogeneidad, bajo el supuesto de muestreo aleatorio simple.
En cada estrato se seleccionó una muestra simple al azar de manzanas. Posteriormente se realizó un
muestreo sistemático de viviendas en cada manzana seleccionada y se aplicaron cuotas de sexo y edad
para la selección de personas al interior de las viviendas.
Ponderación: En Lima Metropolitana los datos se ponderaron en función del peso de los estratos en la
población total.
Técnica de recolección de datos: Mediante entrevistas directas en las viviendas seleccionadas.
Supervisión de campo: Se supervisó el 30% de las entrevistas realizadas.
Fechas de aplicación: Entre los días 3 y 5 de setiembre de 2010.
Financiamiento: Pontificia Universidad Católica del Perú.
Página web: http://www.pucp.edu.pe
Email: [email protected]

Estadística para Economistas 156


Universidad Peruana de Ciencias Aplicadas

¿Cuál es su actitud ante la candidatura de en las próximas elecciones municipales en Lima?

a. A un nivel de significación del 5%, ¿se puede afirmar que la proporción de habitantes que en el
mes de setiembre de ninguna manera votarían por Susana Villarán supera el 30%?
b. ¿Cuál tendría que haber sido el tamaño de la muestra si se hubiera permitido un error muestral
máximo de 5%?

30. La empresa de servicio de Courier Prontito que opera en la ciudad asegura que tarda un promedio de
35 minutos en llevar un paquete, con una desviación estándar de 8 minutos. Suponga que durante el
día de hoy han repartido 15 paquetes, observándose los siguientes tiempos que demoró la entrega.

Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Tiempo de
49,3 61,0 56,0 27,9 46,5 52,5 46,5 39,1 40,4 55,8 59,6 29,4 19,9 47,9 45,6
entrega

A un nivel de significación del 5%, conteste las siguientes preguntas. En cada caso escriba las
condiciones o supuestos bajo los cuales se puede aplicar la herramienta estadística que ha de utilizar
a. Si somos una empresa que requiere contratar los servicios de un Courier, cuyo tiempo de demora
en realizar la entrega no exceda al que indica la empresa de servicio, ¿considera usted que
debemos contratar los servicio del Courier Prontito?
b. ¿Se puede asegurar que la variabilidad en el tiempo que demora las entregas del servicio de
Courier Prontito es superior a 8 minutos?

31. Determine el error estándar estimado para la diferencia de medias muestrales con tamaños de
población conocidos y varianzas homogéneas.

Estadística para Economistas 157


Universidad Peruana de Ciencias Aplicadas

32. El Banco Central de Reserva, en su página Web http://www.bcrp.gob.pe/, pone a disposición los
registros de las exportaciones de productos Pesqueros como de Productos, en ambos casos expresados
en millones de dólares. Los registros se muestran en el cuadro siguiente:

Export. productos Pesqueros Export. productos Agrícolas


Obsc. Mes/Año
(mill. US$) (mill. US$)
1 Ago10 196,83 137,51
2 Sep10 223,16 140,26
3 Oct10 95,57 135,06
4 Nov10 36,65 133,26
5 Dic10 75,86 103,86
6 Ene11 79,39 49,34
7 Feb11 124,56 26,65
8 Mar11 122,59 21,86
9 Abr11 119,31 17,59
10 May11 331,83 72,35
11 Jun11 325,64 128,65
12 Jul11 345,24 190,18

Asumiendo que las exportaciones en ambos productos tienen distribución normal, a un nivel de
significación del 5%, responda a las siguientes preguntas:
a. ¿Será correcto afirmar que las exportaciones para ambos productos no son homogéneos?
b. Si una empresa exportadora establece como política exportar uno de estos productos, siempre que
la diferencia promedio a favor del productos elegido supere en exportaciones al otro en más de 20
millones de dólares, ¿considera usted que la empresa elegirá exportar productos Pesqueros?

33. De un total de 2000 productos pesqueros y 2000 productos agrícolas, se seleccionaron muestras
aleatorias de tamaño 200 y 350 respectivamente, encontrándose que 80 productos pesqueros y 70
productos agrícolas cumplen con las normas internacionales de exportación.
a. A un nivel de significación del 2,5%, ¿será correcto afirmar que el porcentaje de productos
pesqueros, que cumplen con las normas internacionales de exportación, superan al porcentaje
correspondiente de productos agrícolas en más de un 12%?
b. A un nivel de confianza del 95%, determine el máximo error muestral para la estimación de la
diferencia entre el porcentaje de productos pesqueros y el porcentaje de productos agrícolas, que
cumplen con las normas internacionales de exportación.
c. Si se desea tener un nivel de confianza del 95% de que el máximo error muestral no excede el 6%
cuando se estime la diferencia entre el porcentaje de productos pesqueros y el porcentaje de
productos agrícolas, que cumplen con las normas internacionales de exportación, ¿cuántas
observaciones se deben realizar de cada tipo de producto, si ambas muestras deben ser del mismo
tamaño?

34. Un fabricante de productos farmacéuticos compra un ingrediente de dos distintos proveedores. El nivel
medio de impurezas en la materia prima es aproximadamente el mismo en los ingredientes de los dos
proveedores, pero al fabricante le preocupa la variabilidad de las impurezas de un envío a otro. Si enl
nivel de impurezas de una fuente de suministro tendiera a variar en forma excesiva, esto podría afectar
la calidad del producto farmacéutico. Ante esto el productor elige aleatoriamente muestras de envíos
de cada proveedor y mide el porcentaje de impurezas en la materia prima de cada cargamento. Los
resultados se muestran en la tabla:

Estadística para Economistas 158


Universidad Peruana de Ciencias Aplicadas

Observación 1 2 3 4 5 6 7 8 9 10
Proveedor A 1,73 1,22 2,02 2,56 2,52 2,80 0,75 1,77 2,46 1,32
Proveedor B 2,04 1,39 2,08 2,10 2,20 1,51 1,94 2,07 1,81

Asuma que el porcentaje de impurezas en la materia prima de cada cargamento tiene una distribución
Normal.
a. A un nivel de confianza del 90%, ¿se puede decir que tiene fundamento la preocupación del
fabricante respecto a la variabilidad de las impurezas de un envío a otro?
b. A un nivel de confianza del 90%, ¿es correcto suponer que el nivel medio de impurezas en la
materia prima es aproximadamente el mismo en los ingredientes de los dos proveedores?
c. A un nivel de significación del 5%, ¿se puede afirmar que la variabilidad del nivel de impurezas
en la materia prima del proveedor B es menor que 0,46%?

35. Una entidad financiera, propuso un estudio de rentabilidad de los Fondos de Inversión, dado que tiene
la sospecha que los Fondos de Inversión A tienen niveles de rentabilidad por encima del promedio en
mayor proporción que los Fondos de Inversión B. Para verificar esto, de un total de 500 y 400 registros
de las inversiones para los Fondos A y B respectivamente, se seleccionan muestras aleatorias de
tamaño 50 y 55 encontrándose que en 30 registros del Fondo A y 24 registros del Fondo B tuvieron
niveles de rentabilidad por encima del promedio. A un nivel de confianza del 95%, ¿se justifica la
sospecha de la entidad financiera?

36. Se ha realizado un seguimiento a una muestra aleatoria de 12 empresas exportadoras para analizar su
crecimiento, en millones de dólares al año, desde el año 2009 al 2010. Los resultados se muestran en el
cuadro.

Empresa 1 2 3 4 5 6 7 8 9 10 11 12
2009 1,23 1,29 1,23 1,28 1,20 1,26 1,23 1,24 1,26 1,24 1,25 1,24
2010 1,49 1,46 1,50 1,52 1,46 1,46 1,43 1,43 1,47 1,48 1,49 1,44

Asumiendo que las exportaciones tienen distribución normal, con un nivel de confianza del 95%, ¿se
puede afirmar que el crecimiento ha sido más de $200000 al año?

37. En los últimos meses, la empresa Agroexport que cuenta con 600 empleados, ha venido recibiendo
quejas por parte de sus empleados con respecto al salario que perciben. La dirección de la empresa
conversa con sus empleados y les informa que Agroexport es una de las pocas empresas que cuenta
con una planilla cuyo sueldo promedio supera los S/.2125, por lo que no entiende el malestar de los
empleados. Los empleados, por su parte, aseguran que menos del 57% de los empleados perciben
salarios que superan los S/.2200. Frente a esta situación la dirección de la empresa decide realizar un
estudio rápido para saber qué tan ciertas son estas afirmaciones. Por ello, se selecciona aleatoriamente
el salario de 120 empleados encontrándose un salario promedio de S/.2200 y una variabilidad de
S/.312. Además, pudo observarse que 62 empleados percibían salarios que superan los S/.2200.
Suponga que los salarios de los empleados de la empresa Agroexport tienen una distribución normal
con variabilidad de S/.500. Con un nivel de significación del 4%:
a. ¿Considera correcta la afirmación de la dirección de la empresa?
b. ¿Considera correcta la afirmación de los empleados?

Estadística para Economistas 159


Universidad Peruana de Ciencias Aplicadas

38. El gerente de ventas de una inmobiliaria dedicada a la venta de apartamentos está interesado en
analizar el comportamiento de las ventas de apartamentos realizadas por los vendedores. Selecciona
una muestra aleatoria de vendedores, en la que están registradas las siguientes variables:
 Género
 Grado de instrucción
 Tiempo transcurrido hasta que el vendedor logró vender el primer apartamento (en días)

El gerente de ventas especula que el tiempo transcurrido hasta que el vendedor logra vender el primer
apartamento es menor en el género masculino que en el femenino, con grado de instrucción superior.
Con un nivel de significación del 5% puede afirmar que es cierto lo que especula el gerente de ventas.
Asuma que el tiempo transcurrido hasta que el vendedor logra vender el primer apartamento tiene
distribución normal, con varianzas homogéneas.

Tiempo transcurrido (días)


Femenino 9 11 2 4 7 9 10 9
Masculino 4 10 9 11 11 11 9 3 10

39. El Banco Central de Reserva, en su página Web http://www.bcrp.gob.pe/, pone a disposición los
registros de las exportaciones no tradicionales tanto de Productos Agropecuarios como de Productos
Textiles, en ambos casos expresados en millones de dólares. Los registros se muestran en el cuadro
siguiente:

Mes/Año XNT Prod. Agropecuarios (mill. US$) XNT Prod. Textiles (mill. US$)
Ene10 177,65 96,16
Feb10 153,29 113,73
Mar10 139,65 122,29
Abr10 133,59 113,62
May10 127,85 106,01
Jun10 174,83 144,20
Jul10 183,43 138,16
Ago10 178,68 129,07
Sep10 190,32 140,20
Oct10 212,98 146,78
Nov10 250,08 162,21
Dic10 267,64 145,29
Ene11 223,15 115,73

a. Calcule la covarianza entre las exportaciones no tradicionales de productos agropecuarios y


textiles.
b. Calcule el coeficiente de correlación entre las exportaciones no tradicionales de productos
agropecuarios y textiles.

40. Un grupo de amigos se reúnen con el ánimo de lanzar una empresa exportadora de productos no
tradicionales. Ante esta iniciativa, analizan los datos del cuadro de la pregunta 1 que se publicó en la
página Web del Banco Central de Reserva. Asumiendo normalidad en las exportaciones de cada tipo
de producto, conteste a las siguientes preguntas:

Estadística para Economistas 160


Universidad Peruana de Ciencias Aplicadas

a. A un nivel de confianza del 95%, ¿se puede asegurar que la variabilidad de las exportaciones de
productos agropecuarios y textiles son homogéneos?
b. Si como política de lanzamiento el grupo de amigos establece que incursionarán en las
exportaciones no tradicionales de productos agropecuarios siempre que supere a las textiles en más
de 40 millones de US$. A un nivel de significación del 4%, ¿cuál considera usted que debe ser la
decisión del grupo de amigos?
c. Analistas altamente calificados señalan que los rubros de exportaciones que presenten una
variabilidad mayor a 40 millones de US$ son de alto riesgo. A un nivel de significación del 5%,
¿será correcto considerar las exportaciones de productos agropecuarios como de alto riesgo?

41. El Banco Central de Reserva, en su página Web http://www.bcrp.gob.pe/, pone a disposición los
registros de las Exportaciones e Importaciones totales, en millones de US$, para cada trimestre desde
el año 2008 al 2010

Año/Trim. Export. totales (mill. US$) Importaciones totales (mill. US$)


08T1 7803,89 6266,43
08T2 8384,37 7552,95
08T3 8503,94 7977,49
08T4 6326,34 6652,31
09T1 5407,39 4883,42
09T2 6161,95 4826,65
09T3 7174,52 5330,21
09T4 8217,87 5970,40
10T1 7924,40 6335,81
10T2 8164,04 6610,15
10T3 9298,74 7815,26
10T4 10177,50 8054,10

Asuma que tanto las exportaciones como las importaciones tienen una distribución normal. A un nivel
de confianza del 96%, ¿se puede afirmar que las exportaciones superan a las importaciones en más de
550 millones de US$?

42. El departamento de investigaciones de una compañía de seguros, investiga continuamente las causas
de los accidentes automovilísticos, características de conductores, etc. En una muestra de 400 pólizas
de seguros que adquieren personas que aprendieron a manejar antes de los 20 años, se encontró que
120 habían tenido por lo menos un accidente en los últimos tres años. De manera similar, en una
muestra de 600 pólizas de personas que aprendieron a manejar después de los 30 años, se encontró que
150 habían tenido al menos un accidente.
a. A un nivel de significación del 2%, ¿existe diferencia significativa entre las proporciones de
personas que manejan desde antes de los 20 años y después de los 30 años que tuvieron algún
accidente en los últimos tres años?
b. Si la muestra de 400 pólizas de seguros que adquieren personas que aprendieron a manejar antes
de los 20 años se extrae de una base de datos que tiene en total 2000 clientes registrados. Con un
nivel de confianza del 96%, ¿se puede afirmar que más del 20% de las personas que aprendieron a
manejar antes de los 20 años, habían tenido por lo menos un accidente en los últimos tres años?

Estadística para Economistas 161


Universidad Peruana de Ciencias Aplicadas

43. La página Web de la Bolsa de Valores de Lima muestra las cotizaciones diarias de la COMPAÑÍA
MINERA ATACOCHA S.A.A que se observan en el cuadro. A un nivel de significación del 2,5%, ¿se
puede afirmar que para esta compañía la cotización al cierre de la BVL no ha cambiado respecto a la
apertura?

Fecha cotización Apertura Cierre

24/06/2011 1,05 1,08


23/06/2011 1,06 1,05
22/06/2011 1,09 1,09
21/06/2011 1,10 1,09
20/06/2011 1,11 1,12
17/06/2011 1,12 1,13
16/06/2011 1,12 1,11
15/06/2011 1,13 1,12
14/06/2011 1,13 1,13
13/06/2011 1,12 1,12
10/06/2011 1,10 1,12
09/06/2011 1,13 1,12
08/06/2011 1,09 1,12
07/06/2011 1,00 1,05
06/06/2011 0,97 0,97
03/06/2011 1,07 1,15
02/06/2011 1,20 1,15
01/06/2011 1,10 1,07
http://www.bvl.com.pe/inf_cotizaciones60800_ATACOBC1.html

44. El departamento de investigaciones de una compañía de seguros, investiga continuamente las causas
de los accidentes automovilísticos, características de conductores, etc. En una muestra de 400 pólizas
de seguros que adquieren personas que aprendieron a manejar antes de los 20 años, se encontró que
120 habían tenido por lo menos un accidente en los últimos tres años. De manera similar, en una
muestra de 600 pólizas de personas que aprendieron a manejar después de los 30 años, se encontró que
150 habían tenido al menos un accidente.
a. A un nivel de significación del 2%, ¿existe diferencia significativa entre las proporciones de
personas que manejan desde antes de los 20 años y después de los 30 años que tuvieron algún
accidente en los últimos tres años?
b. Si la muestra de 400 pólizas de seguros que adquieren personas que aprendieron a manejar antes
de los 20 años se extrae de una base de datos que tiene en total 2000 clientes registrados. Con un
nivel de confianza del 96%, ¿se puede afirmar que más del 20% de las personas que aprendieron a
manejar antes de los 20 años, habían tenido por lo menos un accidente en los últimos tres años?

45. Para resolver el desabastecimiento de energía eléctrica de un país se ha sugerido invertir en un método
que consiste en construir una planta flotante de energía nuclear a unas cuantas millas de la playa. La
preocupación por la posibilidad de que las embarcaciones choquen contra la planta flotante, que hade
mantenerse anclada, hizo necesario estimar la densidad de tráfico de embarcaciones en el área. Se
acordó previamente que si la densidad promedio del tráfico de embarcaciones en la zona supera a
cinco o si la variabilidad de la densidad del tráfico es mayor a 2 embarcaciones, entonces no se
invertirá en este método. El número de embarcaciones que pasan diariamente a 10 millas a la redonda
del punto donde se localizaría la planta flotante, registrado en 20 días seleccionados aleatoriamente del
último semestre (considere 30 días por mes), se muestra en el siguiente cuadro:

Estadística para Economistas 162


Universidad Peruana de Ciencias Aplicadas

Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número de
6 3 8 11 11 12 2 6 10 4 5 2 1 4 5 3 5 6 7 15
embarcaciones

Utilizando un nivel de confianza del 96%, expresando los supuestos que considere necesarios, estime:
a. La densidad promedio de embarcaciones que pasan diariamente a 10 millas a la redonda del punto
donde se localizaría la planta. Interprete.
b. La variabilidad en millas de la densidad del tráfico de embarcaciones que pasan diariamente a 10
millas a la redonda del punto donde se localizaría la planta.
c. En base a los resultados obtenidos en los ítems a) y b), ¿considera usted que se debe invertir en el
método de las plantas flotantes de energía nuclear? Explique.
d. Si bajo las mismas condiciones con las que se viene trabajando, se desea reducir el máximo error
muestral a 1,2 ¿cuál debe ser el nuevo tamaño de muestra?

46. En los últimos días, diferentes medios de comunicación han dado cuenta de una serie de hechos
violentos propiciados por estudiantes universitarios. Ante esto en un sondeo llevado a cabo entre
estudiantes universitarios, 285 de 500 miembros seleccionados de la asociación estudiantil no están a
favor de estas manifestaciones violentas, mientras que 68 de 100 estudiantes que no pertenecen la
asociación tampoco están de acuerdo. A un nivel de significación del 5%, ¿será correcto suponer que
la proporción de estudiantes no asociados que no está a favor de hechos violentos supera en más del
2% a la proporción de estudiantes asociados que son de la misma opinión?

47. Una entidad financiera solicita periódicamente a sus clientes evaluaciones sobre la asesoría financiera
y los servicios que presta. Puntuaciones más altas indican mejor servicio, 10 es la puntuación más alta.
A continuación se presentan las puntuaciones dadas a dos consultores financieros por los miembros de
dos muestras aleatorias. El consultor A tiene 10 años de experiencia, mientras que el consultor B tiene
un año de experiencia.
a. A un nivel de significación del 5%, ¿se puede concluir que el consultor con más años de
experiencia supera en más de 0,5 al puntaje del consultor con menos años de experiencia? Asuma
que los puntajes tienen una distribución normal.

Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Consultor A 7,7 8,1 6,8 7,3 7,7 7,5 7,3 7,2 6,5 6,3 8,1 7,5 7,6 8,1 7,2 7,6
Consultor B 6,5 7,2 5,0 6,3 6,9 7,2 6,4 5,2 7,6 6,3

b. Ante la sospecha de que los clientes calificaban a los consultores sin criterio válido, se solicitó a
los diez clientes que calificaron al consultor B, que tiene menos años de experiencia y los
resultados fueron los siguientes:

Consultor B 5,8 5,0 8,9 6,5 7,3 6,6 7,4 7,2 7,8 4,9

En base a las calificaciones otorgadas al consultor B por los diez clientes, utilizando un nivel de
confianza del 95%, ¿se puede afirmar que la sospecha es válida?

Estadística para Economistas 163


Universidad Peruana de Ciencias Aplicadas

48. Una investigación se ha realizado respecto a la demanda mensual en docenas de bebidas gaseosas
oscuras y claras. Se tiene la sospecha que las bebidas gaseosas oscuras tienen mayor demanda que las
bebidas gaseosas claras. Las mediciones recogidas se muestra en la tabla.

Gaseosas oscuras 557 567 546 568 573 543 537 547 543 550
Gaseosas claras 527 553 524 599 541 583 579 590 530 530

Prueba T para la igualdad de medias


95% Interv alo de
conf ianza para la
Dif erencia Error típ. de dif erencia
t gl Sig. (bilateral) de medias la dif erencia Inf erior Superior
Demanda mensual de Se han asumido
,249 18 ,806 2,500 10,055 -18,625 23,625
bebidas gaseosas, en v arianzas iguales
docenas No se han asumido
,249 12,135 ,808 2,500 10,055 -19,381 24,381
v arianzas iguales

Suponga que la demanda mensual en docenas de bebidas gaseosas oscuras y claras sigue una
distribución normal. Con un nivel de significación del 5%, ¿la información muestral valida la sospecha
que se tiene?

49. Ante la proximidad de las elecciones municipales, la intensidad de las campañas de diferentes
candidatos, se ve enviciada con la llamada guerra sucia. Se teme que todo este ambiente afecte las
inversiones que vienen del exterior del país. Un sondeo de opinión entre los tres estamentos de la
universidad: alumnos, docentes y personal administrativo se les consultó al respecto. Las respuestas
registradas se han consolidado en el cuadro siguiente:

Estamento
Opinión Total
Alumnos Docentes Administrativos
Si afecta 60 50 40 150

No afecta 50 75 50 175

No sabe/ No opina 15 5 10 30
Total 125 130 100 355

A un nivel de significación del 2,5%, ¿se puede afirmar que existe relación entre la opinión y el
estamento al cual pertenece el entrevistado?

50. El gerente de ventas de una firma desea determinar si la proporción de clientes profesionales es similar
para cada uno de sus cuatro productos líderes en el mercado. Para ello realiza una selección aleatoria
de clientes consumidores de cada tipo de producto y registra si son o no profesionales. Los resultados
se muestran en la tabla.

Producto
Grupo de clientes 1 2 3 4
Profesionales 70 45 90 60
No profesionales 75 25 55 65

A un nivel de significación del 5%, ¿a qué conclusión llega?

Estadística para Economistas 164


Universidad Peruana de Ciencias Aplicadas

51. Un analista de uso de Internet, interesado por establecer si existe relación entre el Buscador de Internet
preferido y el tema para el cual realiza la búsqueda. Una muestra aleatoria de usuarios le permitió
generar la tabla que se muestra. A un nivel de significación del 2,5%, ¿qué puede concluir respecto al
interés que tiene el analista?

Buscadores de Internet
Temas Google Yahoo Altavista
Agencias de viajes 40 50 25
Inmobiliarias 25 30 42
Venta de autos 15 20 35

52. El gerente de ventas de una empresa que cuenta con 150 vendedores nuevos, piensa que no existe
diferencia significativa entre la proporción de vendedores nuevos que logran su primera venta antes
de los 3 días y la proporción correspondiente a los vendedores antiguos. Con un nivel de significación
del 5% verifique si es correcto lo que piensa el gerente de ventas. La información recopilada de las
muestras se presentan a continuación:

Antes de los 3 días De 3 a más días

Vendedores Nuevos 15 37

Vendedores antiguos 11 49

53. Se realiza un estudio para analizar si las empresas que se dedican a exportar productos pesqueros,
agrícolas o de artesanía, estarían dispuestos a cambiar de tipo de producto para sus exportaciones. Para
esto, por cada tipo de producto, se seleccionó una muestra aleatoria de empresas exportadoras y se les
hizo la consulta. Los resultados se encuentran en el siguiente cuadro:

Cambiaría de Producto
Total
producto Pesquero Agrícola Artesanía
Sí cambia 8 20 5 33
No cambia 15 30 15 60
No sabe 12 10 10 32
Total 35 60 30 125

A un nivel de significación del 10%, ¿se puede afirmar que la probabilidad que una empresa esté
dispuesta a cambiar de producto de exportación es diferente entre los tipos de productos analizados?

54. Se seleccionan muestras aleatorias correspondientes a cuatro paquetes de acciones de diferentes


rubros. Se desea analizar si la proporción de registros que terminan en alza, al cierre de operaciones de
la BVL, es similar en los diferentes paquetes. En el cuadro siguiente se muestra los resultados de cada
muestra:

Paquete A B C D Total
Alza 35 55 50 35 175
Baja 20 15 15 18 68
Total 55 70 65 53 243

A un nivel de significación del 5%, ¿cuál es su conclusión?

Estadística para Economistas 165


Universidad Peruana de Ciencias Aplicadas

55. Responda brevemente.


a. En una prueba de hipótesis de bondad de ajuste con la distribución normal como distribución
hipotética, sin parámetros conocidos, con 9 categorías para la variable y dos frecuencias esperadas
menores a cinco. A un nivel de significación del 2,5% ¿cuál es valor crítico de la prueba?
b. Elabore una tabla con dos condiciones de las que se establecen para un Análisis de Varianza e
indique la prueba estadística que le permite verificar si se cumple la condición.

Condición Prueba Estadística

56. El reclutamiento a través de Internet.


http://peru21.pe/noticia/1323971/reclutamiento-traves-internet Los Perfiles que
cumplen con los N° de días
profesionales de Recursos Humanos cada vez más usan las redes
requerimientos
sociales para buscar perfiles de contenido técnico específico o
0 15
mandos intermedios, pero sobre todo, lo hacen para atraer a
jóvenes. Encontrar un buen talento es la misión más importante y 1 50
difícil de cualquier empresa, una tarea que cada vez más está siendo 2 70
reorientada hacia Internet. Es así que surge el reclutamiento 2.0, el 3 35
cual permite evaluar de mejor manera el perfil profesional y personal
4 a más 30
del candidato en cuestión. Bajo el supuesto que durante 200 días, se
ha seleccionado aleatoriamente a 10 profesionales por día, cuyo perfil Total 200
se encuentra publicado en las redes sociales y se analizó el número de perfiles que cumplen con los
requerimientos que se exigen para un puesto de trabajo. Los resultados obtenidos son los que se
muestran en la tabla.
a. ¿Qué distribución considera usted que tiene el número de perfiles que cumplen con los
requerimientos? Justifique su respuesta.
b. Utilizando un nivel de significación del 2,5%, verifique si la distribución considerada en el inciso
a) es correcta.

57. Se desea analizar el número de ingresos por hora de usuarios que consultan
cierta base de datos confidencial. Un total de 500 horas observadas permitió Ingresos Nº de horas
elaborar la siguiente tabla: 0 60
1 130
a. ¿Qué distribución considera usted que tiene el número de ingresos por hora
de usuarios que consultan cierta base de datos confidencial? Justifique su 2 138
respuesta. 3 100
b. Utilizando un nivel de significación del 5%, verifique si la distribución 4 a más 72
considerada en el inciso a) es correcta.

Estadística para Economistas 166


Universidad Peruana de Ciencias Aplicadas

58. Durante 60 días se seleccionan 4 vendedores por día, se desea establecer la distribución que tiene el
número de vendedores que logran su primera venta en menos de tres días.

X Oi
0 8
1 10
2 16
3 14
4 12
Total 60

a. Justifique la distribución teórica que puede tener la variable en estudio.


b. A un nivel de significación del 5%, verifique si su sospecha planteada en a) es correcta.

59. Se desea analizar el ingreso mensual, en miles de soles, de jóvenes profesionales que recién se insertan
en el mercado laboral. Se sospecha
que la institución educativa de donde Observación Institución 1 Institución 2 Institución 3
proceden influyen en sus ingresos 1 4,29 1,44 2,80
mensuales. Para realizar el estudio se 2 1,56 5,26 2,26
ha seleccionado aleatoriamente a seis 3 3,19 2,23 3,00
jóvenes profesionales de cada una de
4 1,33 1,36 1,14
las tres principales instituciones
educativas del medio. Los datos se 5 2,87 5,60 2,85
muestran en la tabla. 6 3,98 2,73 3,17

Algunos resultados obtenidos con SPSS son presentados a continuación:

Pruebas de los efectos inter-sujetos


Variable dependiente:Ingreso

Origen Suma de cuadrados tipo III gl Media cuadrática F calculado F crítico

Tratamiento

Error

Total

Estadística para Economistas 167


Universidad Peruana de Ciencias Aplicadas

a. Verifique dos de los supuestos del análisis. Use =0,05.


b. Realice las pruebas principales a un nivel de significación de 0,05 si encuentra diferencias
significativas entre los ingresos. Elabore un informe detallado con sus principales conclusiones.

60. Para realizar un estudio que permita establecer como las ventas mensuales, en miles de dólares, de una
empresa se ve afectada por la ubicación en distintos lugares de la ciudad de tres sucursales. Se elaboró
un diseño experimental que permitió bloquear la experiencia de seis de sus mejores vendedores. Los
resultados que se obtuvieron se muestran en la tabla.

Vendedor Sucursal 1 Sucursal 2 Sucursal 3 Total


1 2,60 5,40 4,80 12,80
2 2,80 5,70 4,80 13,30
3 2,80 5,00 4,40 12,20
4 3,10 5,70 4,00 12,80
5 3,60 4,90 3,70 12,20
6 1,40 4,70 3,60 9,70
Total 16,30 31,40 25,30 73,00

Algunos resultados obtenidos con SPSS son presentados a continuación:

Pruebas de los efectos inter-sujetos


Variable dependiente:Ventas mensuales

Origen Suma de cuadrados tipo III gl Media cuadrática F calculado F crítico

Sucursal 19,234 9,617

Vendedor 5 ,545

Error 2,286

Total 24,244 17

Estadística para Economistas 168


Universidad Peruana de Ciencias Aplicadas

a. Verifique dos de los supuestos del análisis. Use =0,05.


b. Realice las pruebas principales a un nivel de significación de 0,05 para establecer si existen
diferencias significativas entre las ventas medias de cada sucursal. Elabore un informe detallado
con sus principales conclusiones.

61. Se desea analizar las utilidades mensuales, en miles de soles, por la venta de tres tipos de productos en
tres diferentes establecimientos. Para esto se diseñó un experimento factorial con cuatro réplicas por
cada combinación del tipo de producto y establecimiento.

Establecimiento Producto A Producto B Producto C


2,60 5,40 4,80
2,80 5,70 4,80
Aries
2,80 5,00 4,40
3,10 5,70 4,00
1,60 4,90 3,70
1,40 4,70 3,60
Piscis
1,44 4,29 2,80
1,56 5,26 2,26
3,19 4,23 3,00
2,33 3,36 2,14
Acuario
2,87 4,60 2,85
3,98 2,73 3,17

Algunos resultados obtenidos con SPSS son presentados a continuación:

Estadística para Economistas 169


Universidad Peruana de Ciencias Aplicadas

Estadística para Economistas 170


Universidad Peruana de Ciencias Aplicadas

Realice un análisis completo del estudio propuesto, verifique los supuestos, realice las pruebas
principales, establezca conclusiones utilizando un nivel de significación del 2,5%.

62. presa “Prisma S.A.” cuenta con 4 máquinas que sirven para empaquetar sus productos. El jefe de
planta sospecha que las máquinas no se encuentran empaquetando los productos al mismo tiempo, por
lo cual decide realizar un experimento que permita evitar el efecto de la pericia del operario en el
manejo de una determinada máquina. Los resultados de los tiempos (en minutos) que se demoran en
empaquetar el producto se presentan a continuación:

Operario Máquina 1 Máquina 2 Máquina 3 Máquina 4 Total


1 5,1 7,3 6,3 6,9 25,6
2 5,3 7,0 6,1 6,8 25,2
3 5,5 6,9 6,5 7,0 25,9
4 5,8 7,0 6,4 7,1 26,3
5 5,4 7,1 6,2 7,0 25,7
Total 27,1 35,3 31,5 34,8 128,7

Algunos resultados obtenidos con SPSS son presentados a continuación:

Estadística para Economistas 171


Universidad Peruana de Ciencias Aplicadas

a. Verifique dos de los supuestos del análisis. Use =0,05.


b. Realice las pruebas principales a un nivel de significación de 0,05 si existen diferencias
significativas entre los tiempos medios de empaquetado del producto. Elabore un informe
detallado con sus principales conclusiones.

63. Se desea analizar la influencia sobre el número de computadoras personales ensambladas por día
según el tipo de PC y el grado de satisfacción de los equipos de trabajadores encargados de esta tarea.
Para realizar el estudio se conformaron equipos de trabajo para cada grado de satisfacción y se
realizaron tres observaciones por cada tipo de PC. Los datos se registraron en la siguiente tabla.
Asumiendo que todas las condiciones del estudio se cumplen, a un nivel de significación del 4% se
puede decir que el número de computadoras personales ensambladas por día se encuentra influenciada
por el tipo de PC, el grado de satisfacción o una combinación de ambos. De ser necesario analice qué
tipo de PC, grado de satisfacción o ambos permite alcanzar un mayor número de computadoras
ensambladas.

Tipo de PC
Grado de satisfacción
Pentium II Pentium III Pentium IV
7 8 3
Poco satisfecho 8 7 6
10 16 7
4 12 5
Satisfecho 10 8 9
7 9 5
4 4 3
Muy satisfecho 6 10 2
7 6 2

Estadística para Economistas 172


Universidad Peruana de Ciencias Aplicadas

Algunos resultados obtenidos con SPSS son presentados a continuación:

Pruebas de los efectos inter-sujetos


Suma de cuadrados Media
Origen gl F Sig.
tipo III cuadrática
Tipo_PC 80,519 2 40,259 ,011
Satisfacción 52,519 26,259 ,041
Tipo_PC * Satisfacción 4 ,257 ,902
Error 123,333 6,852
Total corregida 263,407 26

Estadística para Economistas 173


Universidad Peruana de Ciencias Aplicadas

64. Una empresa financiera cuenta con 4 productos que ofrece a sus clientes más selectos. El gerente de la
empresa sospecha que los productos no desarrollan similares niveles de rendimiento, por lo cual
decide realizar un experimento. Los resultados de los rendimientos de cada producto, dólares
mensuales, se presentan a continuación:

Observación Producto 1 Producto 2 Producto 3 Producto 4


1 6,5 7,0 5,5 6,9
2 6,4 7,1 5,8 7,0
3 6,2 7,0 5,4 7,1
4 6,3 6,9 5,1 7,3
5 6,1 6,8 5,3 7,0
Total 27,1 35,3 31,5 34,8

A un nivel de significación del 5%, realice un análisis completo y pruebe si el gerente de la empresa
financiera está en lo correcto.

Estadística para Economistas 174


Universidad Peruana de Ciencias Aplicadas

65. Una institución académica desea evaluar las Modalidad


bondades de sus diferentes programas Carrera
Presencial Semipresencial Online
académicos que ofrece en la modalidad
8,6 10,4 13,8
Presencial, Semipresencial y Online. Se sospecha
Administración 10,2 11,0 14,2
que para alguna carrera puede ser de mayor
beneficio una de las modalidades ofrecidas. Por 10,4 11,8 12,4
ello decide realizar un estudio que permite 10,0 12,6 10,4
evaluar los rendimientos obtenidos por Ingeniería 8,6 14,2 10,6
estudiantes de cada combinación que se puede 9,4 19,2 11,4
establecer entre las modalidades y la carrera que 13,4 12,2 10,0
estudia el alumno. Los datos recopilados para el Medicina 14,6 12,0 12,2
análisis se muestra en la tabla. 15,0 11,8 8,2

Pruebas de los efectos inter-sujetos


Variable dependiente:Rendimiento
Origen Suma de cuadrados
tipo III gl Media cuadrática F Sig.
Modalidad 14,000 ,065
Carrera 2,427 ,584
Modalidad * Carrera ,000
Error 39,467
Total corregida 148,640
a. R cuadrado = .734 (R cuadrado corregida = .616)

Estadística para Economistas 175


Universidad Peruana de Ciencias Aplicadas

a. Valide los supuestos del estudio.


b. Pruebe a un nivel de significación del 2,5% si existe algún efecto importante en el rendimiento de
los alumnos, debido a la Modalidad, la Carrera o a la Interacción. Calcule los valores de F para
cada prueba principal en la tabla de Análisis de Varianza.
c. Escriba sus principales conclusiones.

66. Un equipo de analistas económicos están interesados en establecer si las empresas importadoras de
productos para la industria textil afecta al volumen de las importaciones medida en miles de dólares.
Ante la sospecha que los trimestres en los que se realizan estas operaciones afectan a la variable en
estudio se ha decidido realizar un diseño experimental de bloques para anular el efecto del trimestre en
que se realiza la operación. En el cuadro se muestran los volúmenes de importaciones de cuatro
empresas y el trimestre en que se realizó la operación.

Empresa importadora
Trimestre
Águila Delfín Fénix Corcel
1 393 401 405 432
2 396 405 413 445
3 399 423 434 452
4 429 425 449 469

Asuma que se cumplen los supuestos del análisis. A un nivel de significación del 5%:

Estadística para Economistas 176


Universidad Peruana de Ciencias Aplicadas

a. Determine si existe diferencias significativas entre los volúmenes promedio de importaciones de


las empresas.

Pruebas de los efectos inter-sujetos


Variable dependiente:Volumen
Suma de cuadrados
Origen gl Media cuadrática F cal F crítico
tipo III

Importadora 1532,083

Trimestre 2866,250 955,417

Error 333,250

Total corregida 7795,750 15

a. R cuadrado = .957 (R cuadrado corregida = .929)

b. Elabore un informe con sus principales conclusiones.

67. Se desea si el grado de satisfacción de los empleados de Grado de satisfacción


una empresa afecta su nivel de rendimiento. Para esto se Poco satisfecho Satisfecho Muy satisfecho
ha medido el rendimiento de cada empleado en base a una 7 8 10
escala que va desde cero a diez, donde cero indica un 8 7 16
rendimiento mínimo y diez el más alto rendimiento. En
3 6 7
base a la información que se muestra a continuación y con
4 10 7
un nivel de significación del 5% realice el estudio y
12 8 9
exprese sus conclusiones.
9 5
6

Estadística para Economistas 177


Universidad Peruana de Ciencias Aplicadas

Pruebas de los efectos inter-sujetos


Variable dependiente:Ventas

Origen Suma de cuadrados tipo III gl Media cuadrática Fcal Fcrítico

Satisfacción

Error

Total

Total corregida

a. R cuadrado = .089 (R cuadrado corregida = -.032)

68. En cada proposición marque con (V) si es verdadera o con (F) si es falsa.

a. El cuadrado medio del error es un estimador de la desviación estándar de los errores


b. El error estándar del coeficiente de correlación mide la variabilidad de las observaciones
respecto al modelo de regresión
c. Los intervalos de confianza al 95% para el pronóstico de Y como para el valor medio de
Y, de una misma muestra, tienen igual precisión
d. El residuo de una estimación es negativo siempre que se sobrestime el valor observado
de Y

69. Responda brevemente.


Marque verdadero (V) o falso (F) según corresponda:

a. El coeficiente de determinación corregido aumenta siempre que se agrega una variable


independiente al modelo estimado

b. El error estándar de la estimación es la raíz del cuadrado medio del error


c. El error estándar del coeficiente de regresión mide la desviación estándar de la
estimación del coeficiente de regresión
d. La prueba conjunta de los coeficientes de regresión permiten validar un modelo potencia

Estadística para Economistas 178


Universidad Peruana de Ciencias Aplicadas

70. Responda brevemente.


Marque verdadero (V) o falso (F) según corresponda:

a. Un modelo de regresión con mayor coeficiente de determinación es más preciso en sus


estimaciones.
b. Si el coeficiente de Durbin Watson tiende a dos, hay problemas de autocorrelación entre
las variables.
c. La validez de un modelo Exponencial no se realiza con la prueba conjunta.

d. El error estándar de la estimación es la raíz de la suma de cuadrados del error.

71. Se desea analizar el nivel de rendimiento de las acciones de una empresa, en base a la cantidad de
acciones que tiene en bolsa. Se tomó una muestra aleatoria de ocho empresas registrándose el
rendimiento de sus acciones y la cantidad de acciones que poseen. Los datos se registran en la tabla.

Observación 1 2 3 4 5 6 7 8
Nivel de rendimiento ($) 20,9 21,2 20,9 21,9 21,4 22,2 22,7 22,5
Cantidad de acciones (cientos) 89 93 87 90 89 95 100 98

El SPSS reportó la información siguiente:

Resumen del modelo y estimaciones de los parámetros


Resumen del modelo Estimaciones de los parámetros
Ecuación
R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal ,780 21,267 1 6 ,004 9,290 ,134
Cuadrático ,781 8,917 2 5 ,022 22,143 -,141 ,001
Potencia ,774 20,580 1 6 ,004 1,615 ,574
Exponencial ,775 20,699 1 6 ,004 12,280 ,006

Lineal
ANOVA

Resumen del modelo Suma de Media


cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión 2,768 1 2,768 21,267 ,004
R R cuadrado corregida la estimación Residual ,781 6 ,130
,883 ,780 ,743 ,361 Total 3,549 7

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Cantidad de
,134 ,029 ,883 4,612 ,004
acciones, en cientos
(Constante) 9,290 2,697 3,445 ,014

Estadística para Economistas 179


Universidad Peruana de Ciencias Aplicadas

Cuadrático
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión 2,772 2 1,386 8,917 ,022
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual ,777 5 ,155
,884 ,781 ,693 ,394 Total 3,549 7

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Cantidad de acciones,
-,141 1,761 -,931 -,080 ,939
en cientos
Cantidad de acciones,
,001 ,009 1,814 ,156 ,882
en cientos ** 2
(Constante) 22,143 82,186 ,269 ,798

Potencia
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión ,006 1 ,006 20,580 ,004
R R cuadrado corregida la estimación Residual ,002 6 ,000
,880 ,774 ,737 ,017 Total ,008 7

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Cant idad de
,574 ,127 ,880 4,536 ,004
acciones, en cient os)
(Constante) 1,615 ,925 1,746 ,131

Exponencial
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión ,006 1 ,006 20,699 ,004
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual ,002 6 ,000
,880 ,775 ,738 ,017 Total ,008 7

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Cantidad de
,006 ,001 ,880 4,550 ,004
acciones, en cientos
(Constante) 12,280 1,539 7,980 ,000

a. Determine y valide el modelo de regresión que permita estimar el rendimiento de una acción.
Utilice un nivel de significación del 1%.
b. A un nivel de significación del 2,5%, ¿se puede decir que por cada 100 acciones que se incremente
el número de acciones de la empresa, el nivel de rendimiento se incrementa en menos de medio
dólar?

Estadística para Economistas 180


Universidad Peruana de Ciencias Aplicadas

c. Con un nivel de confianza del 5%, ¿será correcto pensar que el rendimiento de una acción y el
número de acciones que tiene la empresa en el mercado se correlacionan en más de 0,8?
d. Determine y valide el modelo de regresión potencia que permita estimar el rendimiento de una
acción. Utilice un nivel de significación del 2%.
e. Utilizando la ecuación de regresión potencia, estime e interprete con un nivel de confianza del
95% el rendimiento de una acción, cuando la empresa cuenta con 95 000 acciones en el mercado.

72. Estudios financieros han mostrado que el precio de una acción (Y) está en razón directa del nivel de
endeudamiento de la empresa emisora (X1) y con el dividendo (X2), pero en razón inversa del número
de acciones en circulación (X3). Los datos indicados en la tabla están en dólares para Y, en cientos de
dólares para X1, en dólares para X2 y en millares de acciones para X3.

Precio de una Nivel de Número de acciones en


N° Dividendo
acción endeudamiento circulación
1 7,3 5,0 2,1 2,1
2 13,4 6,0 2,1 2,1
3 8,2 5,2 2,1 2,3
4 13,7 6,0 2,0 2,1
5 9,2 5,4 2,1 2,4
6 15,6 6,2 2,2 1,8
7 14,5 6,0 2,3 1,9
8 15,6 6,2 2,1 1,8
9 8,7 5,2 2,2 2,1
10 12,0 5,8 2,2 2,0
11 14,0 6,0 2,0 2,0
12 19,0 6,4 1,9 1,4
13 8,9 5,2 2,0 2,1
14 17,0 6,4 2,1 1,8
15 12,6 5,8 2,1 1,9

Salidas de SPSS

Regresión: Y X1 X2 X3
Correlaciones

Niv el de Número de
Precio de endeudamien acciones en
una acción, to, en cientos Div idendo, circulación,
en dólares de dólares en dólares en millares
Correlación de Pearson Precio de una acción, en
1,000 ,982 -,188 -,839
dólares
Niv el de endeudamiento,
,982 1,000 -,122 -,742
en cientos de dólares
Div idendo, en dólares -,188 -,122 1,000 ,210
Número de acciones en
-,839 -,742 ,210 1,000
circulación, en millares
Sig. (unilateral) Precio de una acción, en
. ,000
ANOVA ,251 ,000
dólares
Niv el de endeudamiento,
Resumen del modelo en cientos de dólares ,000 Suma de . Media,333 ,001
Modelo cuadrados gl cuadrática F Sig.
Div idendo,
R cuadrado en de
Error típ. dólares
la 1 Regresión
,251 172,836 ,333 3 57,612 . 555,485 ,227,000
Modelo R R cuadrado Númeroestimación
corregida de acciones en Residual 1,141 11 ,104
,000 ,001 ,227 .
1 ,997 ,993 circulación, en,3220
,992 millares Total 173,977 14
N Precio de una acción, en
15 15 15 15
dólares
Niv el de endeudamiento,
15 15 15 15
en cientos de dólares
Div idendo, en dólares 15 15 15 15
Estadística para Economistas Número de acciones en
15 15 15 15
181
circulación, en millares
Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -12,407 2,943 -4,216 ,001
Niv el de endeudamiento,
6,045 ,274 ,804 22,036 ,000
en cientos de dólares
Div idendo, en dólares -1,464 ,881 -,042 -1,661 ,125
Número de acciones en
-3,449 ,547 -,233 -6,305 ,000
circulación, en millares

Regresión: Y X1 X2
ANOVA

Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 168,714 2 84,357 192,319 ,000
Modelo R R cuadrado corregida estimación Residual 5,264 12 ,439
1 ,985 ,970 ,965 ,6623 Total 173,977 14

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -24,561 4,573 -5,371 ,000
Niv el de endeudamiento,
7,322 ,380 ,974 19,250 ,000
en cientos de dólares
Div idendo, en dólares -2,459 1,783 -,070 -1,379 ,193

Regresión: Y X1 X3
ANOVA

Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 172,550 2 86,275 725,479 ,000
Modelo R R cuadrado corregida estimación Residual 1,427 12 ,119
1 ,996 ,992 ,990 ,3449 Total 173,977 14

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -15,023 2,662 -5,644 ,000
Niv el de endeudamiento,
6,022 ,293 ,801 20,527 ,000
en cientos de dólares
Número de acciones en
-3,612 ,576 -,244 -6,267 ,000
circulación, en millares

Regresión: Y X2 X3
ANOVA

Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 122,472 2 61,236 14,267 ,001
Modelo R R cuadrado corregida estimación Residual 51,505 12 4,292
1 ,839 ,704 ,655 2,0717 Total 173,977 14

Estadística para Economistas 182


Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 38,166 11,850 3,221 ,007
Div idendo, en dólares -,467 5,663 -,013 -,083 ,936
Número de acciones en
-12,351 2,373 -,836 -5,205 ,000
circulación, en millares

Regresión: Y X1
ANOVA

Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 167,880 1 167,880 357,931 ,000
Modelo R R cuadrado corregida estimación Residual 6,097 13 ,469
1 ,982 ,965 ,962 ,6849 Total 173,977 14

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -30,094 2,266 -13,280 ,000
Niv el de endeudamiento,
7,386 ,390 ,982 18,919 ,000
en cientos de dólares

Regresión: Y X2
ANOVA

Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 6,178 1 6,178 ,479 ,501
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 167,799 13 12,908
1 ,188 ,036 -,039 3,5927 Total 173,977 14

Coefici entes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 26,597 20,185 1,318 ,210
Div idendo, en dólares -6,643 9,602 -,188 -,692 ,501

Regresión: Y X3
ANOVA

Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 122,443 1 122,443 30,887 ,000
Modelo R R cuadrado corregida estimación Residual 51,535 13 3,964
1 ,839 ,704 ,681 1,9910 Total 173,977 14

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 37,266 4,460 8,356 ,000
Número de acciones en
-12,392 2,230 -,839 -5,558 ,000
circulación, en millares

Estadística para Economistas 183


Universidad Peruana de Ciencias Aplicadas

a. Analice la existencia de multicolinealidad.


b. A un nivel de significación del 5% valide, escriba el modelo e interprete los coeficientes del
modelo de regresión seleccionado.
c. Estime el residual para el precio de una acción, con los datos correspondientes a la sétima
empresa.
d. ¿Será correcto afirmar que la correlación en el modelo es mayor que 0,9? Utilice un nivel de
significación del 5%.

73. La página Web del Banco Central de Reserva (http://estadisticas.bcrp.gob.pe/) muestra datos
correspondiente a las Reservas Internacionales Netas (millones de dólares), el Flujo de emisión
primaria (millones de soles), Emisión primaria (saldo en millones de soles), Operaciones cambiarias
(millones de dólares), desde enero de 1994 hasta mayo del 2011. Una muestra aleatoria de los registros
correspondientes a 10 meses seleccionados aleatoriamente permitió obtener los siguientes datos:

Y: Reservas X1: Flujo de X2: Emisión X3: Operaciones


N° Internacionales Netas emisión primaria primaria (saldo en cambiarias
(mill. US$) (mill. S/.) mill. S/.) (mill. US$)
1 5587,4 -9 2266 50,4
2 8372,7 -211 3585 10,1
3 10310,8 -66 4434 -3,5
4 8783,7 -309 4770 -1,8
5 8767,7 -43 5320 90,1
6 9739,1 -223 6570 -31,4
7 14016,2 74 9402 150,6
8 18135,8 193 13120 141,2
9 30970,2 -858 19962 -916,1
10 40204,2 -376 25651 1757.0

En base a los cuadros proporcionados en el Anexo 1, se solicita:

a. Analice la existencia de multicolinealidad en el modelo completo Y X1 X2 X3.


b. A un nivel de significación del 5% valide, escriba el modelo e interprete los coeficientes del
modelo de regresión seleccionado.
c. Estime el residual para las Reservas Internacionales Netas, con los datos correspondientes a la
quinta observación.
d. ¿Será correcto afirmar que la correlación en el modelo es menor que 0,6? Utilice un nivel de
significación del 5%.

En base a los cuadros proporcionados en el Anexo 2, se solicita:

a. Determine y valide el modelo de regresión simple que permita estimar las reservas
internacionales netas, en base a la emisión primaria. Utilice un nivel de significación del 1%.
b. A un nivel de significación del 5%, ¿se puede decir que por cada millón de soles que se
incremente la emisión primaria, las reservas internacionales netas se incrementan en más de un
millón de dólares?
c. Con un nivel de significación del 5%, ¿será correcto pensar que la emisión primaria y las Reservas
Internacionales Netas se correlacionan en más de 0,9?
d. Determine y valide el modelo de regresión no lineal que permita estimar las Reservas
Internacionales Netas en base a la emisión primaria. Utilice un nivel de significación del 2%.

Estadística para Economistas 184


Universidad Peruana de Ciencias Aplicadas

e. Utilizando la ecuación de regresión no lineal que ha determinado en el acápite h), estime e


interprete con un nivel de confianza del 95% las Reservas Internacionales Netas promedio, cuando
la emisión primaria es de 6570 millones de soles.

Anexo 1
Salidas de SPSS

Regresión: Y X1 X2 X3

Regresión: Y X1 X2

Regresión: Y X1 X3

Estadística para Economistas 185


Universidad Peruana de Ciencias Aplicadas

Regresión: Y X2 X3

Regresión: Y X1

Regresión: Y X2

Estadística para Economistas 186


Universidad Peruana de Ciencias Aplicadas

Regresión: Y X3

Anexo 2

El SPSS reportó la información siguiente:

Lineal

Cuadrático

Estadística para Economistas 187


Universidad Peruana de Ciencias Aplicadas

Potencia

Exponencial

74. El administrador desea saber cómo se relaciona el tiempo en días transcurridos hasta que el nuevo
vendedor logra vender el primer apartamento con sus años de experiencia en ventas (antes de llegar a
la empresa). Las salidas del SPSS para el análisis respectivo son las siguientes:

Estadística para Economistas 188


Universidad Peruana de Ciencias Aplicadas

Lineal

Cuadrático

Potencia

Estadística para Economistas 189


Universidad Peruana de Ciencias Aplicadas

Exponencial

a. Escriba, valide e interprete el modelo de regresión simple, con un nivel de significación del 5%.
b. ¿Se puede afirmar que por cada año de experiencia adicional en un vendedor, el tiempo que
transcurre hasta su primera venta se reduce en más de 0,2 días? Use un nivel de significación del
5%.
c. Utilizando el modelo de regresión Exponencial, estime e interprete con un nivel de confianza del
95% el tiempo trascurrido hasta vender el primer apartamento, para un vendedor que tiene 2,5
años de experiencia.

75. Respecto al modelo de regresión lineal simple que permita estimar el puntaje obtenido en forma
general en base a la capacidad de colaboración con sus compañeros.

Estadística para Economistas 190


Universidad Peruana de Ciencias Aplicadas

a. Valide el modelo con un nivel de significación del 2,5%.


b. Verifique dos supuestos del análisis de regresión.
c. ¿Será correcto afirmar que por cada punto adicional en la capacidad de colaboración con sus
compañeros, el puntaje obtenido en forma general se incrementa en menos de 3 puntos? Use un
nivel de significación del 2,5%.
d. A un nivel de significación del 5%, ¿se puede afirmar que la correlación entre el puntaje obtenido
en forma general y la capacidad de colaboración con sus compañeros es mayor que 0,8?

76. El gerente de una tienda dedicada a la venta de postres esta evaluando a sus empleados con la finalidad
de determinar el perfil de un buen empleado. Para este propósito tomó una muestra de Dieciséis
empleados, en los que ha evaluado las siguientes características:
X1 _M: Capacidad comunicativa con el cliente en una escala de 0 a 60
X2 _M: Capacidad de colaboración con sus compañeros en una escala de 0 al 80
X3 _M: Capacidad para decidir acciones en ausencia de su jefe superior en una escala de 0 a 40
Y _M: Puntaje obtenido en forma general en una escala de 0 a 100:

Nº Y X1 X2 X3
1 76 45,0 61,20 20,10
2 71 45,9 62,90 21,05
3 80 37,8 67,15 23,90
4 58 37,8 60,35 19,15
5 88 53,1 72,25 26,75
6 71 40,5 62,05 19,15
7 59 43,2 63,75 18,20
8 65 35,1 62,05 21,05
9 64 36,0 60,35 22,00
10 83 49,5 68,00 31,50
11 88 43,2 70,55 34,35
12 78 40,5 68,00 22,00
13 70 40,5 63,75 20,10
14 65 38,0 62,00 23,50
15 76 54,9 63,75 22,00
16 58 53,1 59,50 17,25

Estadística para Economistas 191


Universidad Peruana de Ciencias Aplicadas

Respecto al modelo de regresión simple que permita estimar el puntaje obtenido en forma general en
base a la capacidad para decidir acciones en ausencia de su jefe superior.

Lineal

Cuadrático

Potencia

Estadística para Economistas 192


Universidad Peruana de Ciencias Aplicadas

Exponencial

a. Valide el modelo con un nivel de significación del 2,5%.


b. Estime con un nivel de confianza del 95% el puntaje promedio obtenido en forma general, si la
capacidad para decidir acciones en ausencia de su jefe superior es de 22.

77. Realice un análisis de regresión con los datos recopilados para todas las variables establecidas
inicialmente y conteste las preguntas:

Modelo: Y X1 X2 X3

Estadística para Economistas 193


Universidad Peruana de Ciencias Aplicadas

Modelo: Y X1 X2

Modelo: Y X1 X3

Modelo: Y X2 X3

Estadística para Economistas 194


Universidad Peruana de Ciencias Aplicadas

Modelo: Y X1

Modelo: Y X2

Modelo: Y X3

a. Analice la presencia de multicolinealidad.


b. A un nivel de significación del 5%, determine e interprete el modelo de regresión.

78. El gerente de la empresa está examinando los datos correspondientes a las ventas trimestrales (en
miles de $) de los apartamentos. Los datos son los siguientes:

Año Trimestre I Trimestre II Trimestre III Trimestre IV


2010 38 43 51 57
2011 39 45 52 58
2012 40 47 54 60

Estadística para Economistas 195


Universidad Peruana de Ciencias Aplicadas

a. Calcule é interprete los índices estacionales de estos datos, use un promedio móvil centrado de 3
trimestres.

Año Trimestre Ingresos PMC


I 38
II 43 44,0000
2010
III 51 50,3333
IV 57 49,0000
I 39 47,0000
II 45 45,3333
2011
III 52 51,6667
IV 58 50,0000
I 40 48,3333
II 47 47,0000
2012
III 54 53,6667
IV 60

Año Trimestre I Trimestre II Trimestre III Trimestre IV


2010
2011
2012
IE
IEA

b. Estime los ingresos del cuarto trimestre del año 2013. Para ello utilice el modelo estimado de
regresión lineal para los datos sin estacionalidad

Lineal

Estadística para Economistas 196


Universidad Peruana de Ciencias Aplicadas

79. La empresa tiene interés en realizar un estudio del precio de los apartamentos. Por ello ha decidido
incluir en su análisis las siguientes variables: Y = Precio del apartamento (miles de dólares), X1 =
Área construida (metros cuadrados), X2 = Número de dormitorios y X3 = Número de baños

Regresión: Y; X1; X2; X3

Regresión: Y; X1; X2

Estadística para Economistas 197


Universidad Peruana de Ciencias Aplicadas

Regresión: Y; X1; X3

Regresión: Y; X2; X3

Regresión: Y; X1

Estadística para Economistas 198


Universidad Peruana de Ciencias Aplicadas

Regresión: Y; X2

Regresión: Y; X3

a. Analice la presencia de Multicolinelidad en el modelo de regresión que incluye las tres variables
independientes.
b. A un nivel de significación del 5%, determine, escriba, e interprete el modelo de regresión.

80. En la página Web del Banco Central de Reserva (www.bcrp.gob.pe) se encuentra publicado el
volumen de Exportaciones trimestrales de productos no tradicionales, en millones de dólares, desde el
año 2004 hasta el año 2010. En los cuadros se muestran los valores publicados para cada trimestre y la
razón entre los valores observados de las exportaciones y el promedio móvil centrado para cada tres
trimestres.

Año I II III IV
2004 782,7087 790,6828 896,1583 1009,5722
2005 979,1288 1033,6672 1081,0258 1183,2247
2006 1119,3528 1236,6941 1343,0434 1579,4375
2007 1361,921 1466,632 1636,655 1847,954
2008 1792,67 1864,071 2011,551 1894,034
2009 1437,282 1401,461 1575,998 1770,906
2010 1605,705 1807,726 1922,766 2305,292

Estadística para Economistas 199


Universidad Peruana de Ciencias Aplicadas

Año I II III IV
2004 0,96052 0,99706 1,04987
2005 0,97188 1,00232 0,98337 1,04908
2006 0,94880 1,00297 0,96873 1,10594
2007 0,92690 0,98537 0,99166 1,05052
2008 0,97699 0,98658 1,04593 1,06349
2009 0,91106 0,95235 0,99571 1,07271
2010 0,92917 1,01630 0,95568

a. Determine e interprete los índices estacionales ajustados para cada uno de los trimestres
b. Los cuadros que se muestran a continuación corresponden a las estimaciones de los modelos
simples de la serie sin estacionalidad. Determine, valide y escriba el modelo de pronóstico
correspondiente a un nivel de significación del 1%.

Ecuación Lineal

Ecuación Cuadrática

Estadística para Economistas 200


Universidad Peruana de Ciencias Aplicadas

Ecuación Potencia

Ecuación Exponencial

c. A un nivel de confianza del 95%, estime e interprete el volumen de exportaciones de productos no


tradicionales para el segundo trimestre del año 2011.

81. Se desea analizar y predecir las importaciones trimestrales de bienes de capital en base a las
importaciones de insumos, bienes de consumo, otros bienes y de los principales alimentos. Una
muestra aleatoria de 12 observaciones seleccionada de la página Web del Banco Central de Reserva
(www.bcrp.gob.pe). Los datos se muestran en la siguiente tabla:

Estadística para Economistas 201


Universidad Peruana de Ciencias Aplicadas

Y: Import. bienes X1: Import. X2: Import. bienes X3: Import. X4: Import.
N° de capital Insumos consumo otros bienes principales alimentos
(mill. US$) (mill. US$) (mill. US$) (mill. US$) (mill. US$)
1 560,866486 817,107288 343,606387 53,690855 108,415074
2 530,260243 976,557723 421,153549 29,525232 115,872593
3 464,200875 958,716839 416,017460 17,151339 129,709195
4 434,223986 966,205911 429,296631 17,650289 141,782568
5 505,603440 1087,487961 418,819682 17,193981 106,378897
6 482,927301 1137,243734 500,818787 10,487717 153,051702
7 614,257374 1394,044775 504,862718 27,328811 191,837141
8 748,275913 1665,191621 567,635145 25,350201 177,455845
9 931,301847 1840,245539 565,096679 43,842022 188,576217
10 1221,729517 2123,558981 790,876200 27,251988 250,589227
11 1572,164000 2868,301000 818,234000 30,137000 308,401741
12 2394,286000 4027,429000 1100,245000 30,992000 428,257873

Ecuación Y X1 X2 X3 X4

Estadística para Economistas 202


Universidad Peruana de Ciencias Aplicadas

Ecuación Y X1 X3 X4

Ecuación Y X2 X3 X4

Ecuación Y X1 X3

Estadística para Economistas 203


Universidad Peruana de Ciencias Aplicadas

Ecuación Y X2 X3

Ecuación Y XX2 X4

Ecuación Y X3 X4

a. Analice la presencia de multicolinealidad del modelo completo Y X1 X2 X3 X4.


b. En base a los cuadros obtenidos en SPSS, a un nivel de significación del 2,5% determine e
interprete la ecuación de regresión que permita estimar las importaciones de bienes de capital.

Estadística para Economistas 204


Universidad Peruana de Ciencias Aplicadas

82. Un analista propone que para lograr una rápida estimación de la importación de bienes de capital, se
debe utilizar la importación de bienes de consumo en una ecuación de regresión lineal. Por esto, se
obtuvieron los siguientes cuadros estadísticos:

a. A un nivel de significación del 2,5%, valide, escriba e interprete la ecuación de regresión lineal
que permita estimar las importaciones de bienes de capital.
b. Verifique los supuestos del modelo de regresión lineal.
c. A un nivel de significación del 2,5%, ¿se puede afirmar que por cada millón de dólares adicionales
en las importaciones de bienes de consumo, las importaciones de bienes de capital se incrementan
en menos de tres millones de dólares?

83. Se desea analizar si el tipo de paquete de acciones que corren en la BVL afecta al nivel de rendimiento
de los paquetes de acciones. Para realizar el estudio se seleccionó aleatoriamente observaciones
correspondientes a cuatro tipos de acciones diferentes y se registró el rendimiento de las mismas al
cierre de operaciones.

Observación Paquete A Paquete B Paquete C Paquete D Total


1 1,28 1,83 1,58 1,73 6,4
2 1,33 1,75 1,53 1,70 6,3
3 1,38 1,73 1,63 1,75 6,5
4 1,45 1,75 1,60 1,78 6,6
5 1,35 1,78 1,55 1,75 6,4
Total 6,8 8,8 7,9 8,7 32,2

Estadística para Economistas 205


Universidad Peruana de Ciencias Aplicadas

Pruebas de los efectos inter-sujetos


Variable dependiente: Rendimiento del paquete de acciones
Suma de
Origen gl Media cuadrática Fcal Fcrítico
cuadrados tipo III

Paquete

Error 0,002

Total corregida 0,566 19

a. Verifique dos de los supuestos del análisis. Use =0,025.


b. Realice las pruebas principales a un nivel de significación de 2,5% si existen diferencias
significativas entre los rendimientos medios de cada paquete de acción. Elabore un informe
detallado con sus principales conclusiones.

84. Se desea analizar el superávit semanal de una pequeña empresa y el ingreso semanal que obtiene,
ambos en miles de dólares. Para ello se recopila información de siete observaciones que se muestran a
continuación:

Ingreso 1,1 1,2 3,2 4,8 4,5 3,8 5,2


Superávit 0,5 0,5 0,9 1,2 1,0 1,0 1,3

Estadística para Economistas 206


Universidad Peruana de Ciencias Aplicadas

Resumen del modelo y estimaciones de los parámetros


Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal ,969 156,739 1 5 ,000 ,287 ,185
Cuadrático ,970 64,910 2 4 ,001 ,325 ,149 ,006
Potencia ,979 232,843 1 5 ,000 ,458 ,589
Exponencia
,974 187,281 1 5 ,000 ,393 ,231
l

Lineal
ANOVA

Suma de Media
Resumen del modelo
cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la Durbin- Regresión ,570 1 ,570 156,739 ,000
Modelo R R cuadrado corregida estimación Watson Residual ,018 5 ,004
1 .984 .969 .963 .0603 2.234 Total ,589 6

Coefici entes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso semanal,
,185 ,015 ,984 12,520 ,000
miles de dólares
(Constante) ,287 ,055 5,206 ,003

Prueba de Kolmogorov-Smirnov para una muestra

Unstandardiz
ed Residual
N 7
Parámet ros normales a,b Media .0000000
Desv iación t ípica
.05506827

Dif erencias más Absoluta .298


extremas Positiv a .167
Negativ a -.298
Z de Kolmogorov -Smirnov .788
Sig. asintót. (bilateral) .563
a. La distribución de cont raste es la Normal.
b. Se han calculado a partir de los datos.

Cuadrático
ANOVA

Resumen del modelo Suma de Media


cuadrados gl cuadrática F Sig.
R cuadrado Error típico de Regresión ,571 2 ,285 64,910 ,001
R R cuadrado corregida la estimación Residual ,018 4 ,004
,985 ,970 ,955 ,066 Total ,589 6

Estadística para Economistas 207


Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso semanal,
,149 ,097 ,795 1,530 ,201
miles de dólares
Ingreso semanal,
,006 ,016 ,192 ,370 ,730
miles de dólares ** 2
(Constante) ,325 ,121 2,695 ,054

Potencia
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión ,898 1 ,898 232,843 ,000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual ,019 5 ,004
,989 ,979 ,975 ,062 Total ,917 6

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
ln(Ingreso semanal,
,589 ,039 ,989 15,259 ,000
miles de dólares)
(Constante) ,458 ,022 21,034 ,000

Exponencial
ANOVA

Suma de Media
Resumen del modelo cuadrados gl cuadrática F Sig.
Regresión ,894 1 ,894 187,281 ,000
R cuadrado Error típico de
R R cuadrado corregida la estimación Residual ,024 5 ,005
,987 ,974 ,969 ,069 Total ,917 6

Coefici entes

Coef icientes
Coef icientes no estandarizad
estandarizados os
B Error típico Beta t Sig.
Ingreso semanal,
,231 ,017 ,987 13,685 ,000
miles de dólares
(Constante) ,393 ,025 15,858 ,000

a. A un nivel de significación del 5%, evalúe los supuestos del modelo de regresión lineal.
b. ¿Será correcto afirmar, con un nivel de significación del 5%, que la correlación entre el Ingreso y
el Superávit es menor a 0,99 en un modelo de regresión lineal?
c. Determine y valide el mejor modelo de regresión simple, utilice un nivel de significación del
2,5%.
d. Con un nivel de confianza del 95%, utilizando el modelo determinado en c), estime e interprete
el superávit de la empresa para una semana en la cual su ingreso es de $3 500.

Estadística para Economistas 208


Universidad Peruana de Ciencias Aplicadas

85. Un investigador financiero sospecha que el rubro de inversión en bolsa afecta al nivel de ingresos por
comisiones, en cientos de dólares, del agente de bolsa. Para realizar el estudio se observaron para cada
rubro u total de seis agentes, los cuales ante la sospecha que su experiencia en años pudiera afectar al
estudio se agentes que cuentan desde uno hasta seis años de experiencia. Los datos son los siguientes:

Experiencia Rubro
en años Industria Exportación Cómputo
1 50 63 65
2 51 19 58
3 59 42 64
4 49 66 53
5 86 73 45
6 68 88 85

Con la información disponible, realice un análisis completo al nivel de significación del 10%. Elabore
un breve informe para el investigador financiero, con las conclusiones a las que ha llegado.

86. Una empresa de servicio de mantenimiento de redes registra el número de quejas de sus clientes. La
dirección de la empresa ha registrado en los últimos años el número de quejas recibidas por cada
trimestre.

Trimestre Trimestre
Año I II III 1V Año I II III 1V
2009 7 3 4 10 2009 0,64286 0,70588 1,30435
2010 9 4 5 12 2010 1,17391 0,66667 0,71429 1,24138
2011 12 4 6 16 2011 1,28571 0,54545 0,69231 1,50000
2012 10 5 8 20 2012 0,96774 0,65217 0,72727

El cuadro de la derecha muestra los cocientes correspondientes al número de quejas entre el Promedio
Móvil Centrado de cada tres trimestres.

El modelo con la componente estacional eliminada es: yˆ  4,551  0,4088 t


a. Determine e interprete los Índices Estacionales y ajústelos de ser necesario.
b. Estime el número de quejas para el año 2013.

87. Preocupados por el incremento en las tarifas de servicios de agua potable, Enigma S.A desea
establecer un modelo que permita prever y explicar que variables determinan su nivel de consumo. A
continuación se dan los datos sobre el consumo mensual de agua (galones), su producción mensual
(toneladas), la media de la temperatura mensual (ºC) y el número de días de operación.

Consumo de agua Días de operación Media de temperatura Producción


3088 21 92.1 179.6
2378 21 69.2 101.0
2031 20 58.1 84.4
2228 19 57.4 98.5
2609 20 95.3 128.2
1980 19 64.5 83.3
1717 21 58.7 70.0
2723 19 80.0 144.7

Estadística para Economistas 209


Universidad Peruana de Ciencias Aplicadas

Correlaciones

Y: Consumo X1: Días de X2: Media de X3:


de agua operación temperatura Producción
Correlación de Pearson Y: Consumo de agua 1.000 .087 .853 .980
X1: Días de operación .087 1.000 .181 .101
X2: Media de temperatura .853 .181 1.000 .850
X3: Producción .980 .101 .850 1.000
Sig. (unilateral) Y: Consumo de agua . .419 .004 .000
X1: Días de operación .419 . .334 .406
X2: Media de temperatura .004 .334 . .004
X3: Producción .000 .406 .004 .
N Y: Consumo de agua 8 8 8 8
X1: Días de operación 8 8 8 8
X2: Media de temperatura 8 8 8 8
X3: Producción 8 8 8 8

Regresión: Y X1 X2 X3
ANOVA

Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1353703.8 3 451234.590 34.775 .003
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 51903.731 4 12975.933
1 .981 .963 .935 113.912 Total 1405607.5 7

Coefici entes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1134.751 931.671 1.218 .290
X1: Días de operación -9.449 47.545 -.020 -.199 .852
X2: Media de temperatura 2.241 5.403 .077 .415 .700
X3: Producción 11.126 2.225 .917 5.000 .007

Regresión: Y X1 X2
ANOVA

Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1029363.5 2 514681.743 6.840 .037
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 376244.014 5 75248.803
1 .856 .732 .625 274.315 Total 1405607.5 7

Coefici entes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1212.392 2243.275 .540 .612
X1: Días de operación -34.036 113.879 -.070 -.299 .777
X2: Media de temperatura 25.205 6.850 .866 3.680 .014

Regresión: Y X1 X3
ANOVA

Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1351470.7 2 675735.339 62.410 .000
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 54136.823 5 10827.365
1 .981 .961 .946 104.055 Total 1405607.5 7

Estadística para Economistas 210


Universidad Peruana de Ciencias Aplicadas

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1136.468 851.041 1.335 .239
X1: Días de operación -5.840 42.697 -.012 -.137 .897
X3: Producción 11.910 1.070 .982 11.128 .000

Regresión: Y X2 X3

ANOVA

Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1353191.3 2 676595.641 64.541 .000
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Residual 52416.218 5 10483.244
1 .981 .963 .948 102.388 Total 1405607.5 7

Coefici entes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 954.817 197.456 4.836 .005
X2: Media de temperatura 2.045 4.774 .070 .428 .686
X3: Producción 11.171 1.989 .921 5.615 .002

Regresión: Y X1
ANOVA

Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 10584.000 1 10584.000 .046 .838
Modelo R R cuadrado corregida estimación Residual 1395023.5 6 232503.917
1 .087 .008 -.158 482.187 Total 1405607.5 7

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1504.250 3940.726 .382 .716
X1: Días de operación 42.000 196.852 .087 .213 .838

Regresión: Y X2
ANOVA

Suma de Media
Resumen del modelo Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 1022641.5 1 1022641.5 16.022 .007
Modelo R R cuadrado corregida estimación Residual 382965.964 6 63827.661
1 .853 .728 .682 252.641 Total 1405607.5 7

Estadística para Economistas 211


Universidad Peruana de Ciencias Aplicadas

Coefici entes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 558.383 455.015 1.227 .266
X2: Media de temperatura 24.834 6.204 .853 4.003 .007

Regresión: Y X3
ANOVA

Suma de Media
Resumen del modelo
Modelo cuadrados gl cuadrática F Sig.
R cuadrado Error típ. de la 1 Regresión 1351268.1 1 1351268.1 149.203 .000
Modelo R R cuadrado corregida estimación Residual 54339.374 6 9056.562
1 .980 .961 .955 95.166 Total 1405607.5 7

Coeficientes

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 1021.310 113.412 9.005 .000
X3: Producción 11.896 .974 .980 12.215 .000

a. Analice la multicolinealidad en el modelo completo.


b. Con un nivel de significación del 5%, determine el modelo de regresión. Interprete los coeficientes
de regresión.

Estadística para Economistas 212


I. INFORMACIÓN GENERAL
CURSO : Estadística para Economistas
CÓDIGO : MA175
CICLO : 201302
PROFESOR (ES) : Jaramillo Vega, Segundo Santiago
CRÉDITOS : 4
SEMANAS : 15
HORAS : 2 H (Práctica) Semanal /3 H (Teoría) Semanal
HORAS TOTALES : 70
ÁREA O CARRERA : Ciencias

II. MISIÓN Y VISIÓN DE LA UPC

Misión: Formar líderes íntegros e innovadores con visión global para que transformen el Perú.

Visión: Ser líder en la educación superior por su excelencia académica y su capacidad de innovación.

III. INTRODUCCIÓN

El curso de Estadística para Economistas comprende el estudio de los métodos básicos más utilizados de la
estadística inferencial, que constituyen herramientas muy útiles para la toma de decisiones y como base para
otras disciplinas para el mismo fin, que se estudiarán a lo largo de la carrera.

IV. LOGRO (S) DEL CURSO

Al finalizar el curso, el alumno aplicará los conceptos y fundamentos de la estadística inferencial de manera
ordenada y con rigor matemático, analizando distintos problemas de incertidumbre en el ámbito de su profesión,
que conducen a una toma de decisiones correcta.

V. UNIDADES DE APRENDIZAJE

UNIDAD Nº: 1 Introducción. Medidas de Asimetría, Curtosis y Concentración

LOGRO
El alumno al término de la unidad 1, utiliza las medidas de resumen de datos para el análisis del
comportamiento de los datos.

TEMARIO
- Definición de simetría de una distribución de datos. Distribuciones asimétricas. Coeficiente de asimetría.
Cálculo e interpretación.
- Definición de curtosis. Coeficiente de curtosis. Clasificación de las distribuciones de datos según el valor

1
del coeficiente de curtosis.
- Formación de nuevas distribuciones de datos sumando, restando, multiplicando o dividiendo por una
constante.
- Curva de Lorenz. Índice de Ghini.

HORA(S) / SEMANA(S)
Semana 1

UNIDAD Nº: 2 Distribuciones Multivariadas

LOGRO
El alumno al término de la unidad 2, utiliza las herramientas estadísticas que le permite entender el
comportamiento conjunto de varias variables.

TEMARIO
Función de probabilidad conjunta de dos variables aleatorias.
Distribuciones marginales. Distribuciones condicionales.
Distribuciones n-dimensionales. Distribuciones marginales. Distribuciones condicionales. Independencia
estocástica. Esperanza matemática para una función de n variables aleatorias. Covariancia. Coeficiente de
correlación. Momentos. Asimetría y Curtosis. Distribución Normal bivariada.

HORA(S) / SEMANA(S)
Semana 1 y 2

UNIDAD Nº: 3 Estimaciones Puntuales e Intervalos de Confianza. Pruebas de Hipótesis

LOGRO
El alumno al término de la unidad 3, modela casos sencillos que conducen a estimar parámetros y verificar
hipótesis de información relacionada con su especialidad, reconociendo la importancia de ésta herramienta
en la toma de decisiones.

TEMARIO
- Estimación puntual: Muestra aleatoria, propiedades de los estimadores, estimadores puntuales de la
media, de la proporción, de la varianza, del cociente de varianzas, de la diferencia de promedios y de la
diferencia de proporciones.
- Estimación por intervalos: Intervalos de confianza para la media, la varianza y proporción poblacional;
para la diferencia de medias, el cociente de varianzas y la diferencia de proporciones.
- Prueba de hipótesis: Conceptos generales. Tipos de errores. Pruebas de hipótesis de la media, la varianza
y la proporción poblacional. Uso del valor p, potencia de prueba. Prueba de hipótesis para dos varianzas,
dos medias poblacionales (muestras independientes y muestras relacionadas) y para dos proporciones
poblacionales.

HORA(S) / SEMANA(S)
Semanas 3 a 7

2
UNIDAD Nº: 4 Estadística no Paramétrica

LOGRO
El alumno al término de la unidad 4, comprende y utiliza la distribución Ji cuadrado para probar la
independencia de dos variables, así como, para verificar hipótesis referentes a la distribución de
probabilidad que dio origen a un conjunto de datos.

TEMARIO
Definición de estadística no paramétrica. Diferencias entre la Estadística. Paramétrica y la Estadística No
Paramétrica. Pruebas de hipótesis sobre frecuencias de k categorías. Pruebas de bondad de ajuste, Prueba
de Kolmogorov-Smirnov. Pruebas de independencia para tablas de contingencia. Pruebas de homogeneidad
de subpoblaciones respecto a las k categorías de una variable cualitativa. Prueba de Kruskal-Wallis Prueba
de homogeneidad Prueba de independencia.

HORA(S) / SEMANA(S)
Semanas 7 y 9

UNIDAD Nº: 5 Diseños Experimentales

LOGRO
El alumno al término de la unidad 5, modela experimentos factoriales y realiza los análisis de
comprobación respectivos aplicando la técnica de análisis de varianza con el apoyo de algún software
estadístico.

TEMARIO
- Experimentos de un factor: Conceptos básicos. La estrategia del diseño experimental. Análisis de
varianza: Diseño completamente aleatorizado. Comparaciones múltiples. Prueba de rango múltiple de
Duncan. Diseño de bloques completamente aleatorizados.
- Experimentos de dos factores: Diseño 2x2

HORA(S) / SEMANA(S)
Semana 10 y 11

UNIDAD Nº: 6 Análisis de Regresión y Correlación

LOGRO
El alumno al término de la unidad 6, modela regresiones lineales y no lineales con información propia y
con el apoyo de algún software estadístico, reconociendo la importancia del uso de esta herramienta en su
campo de trabajo.

TEMARIO
- Regresión simple: Diagrama de dispersión. Estimación de los parámetros. Descomposición de la varianza
total. Coeficiente de determinación. Error estándar de la estimación. Coeficiente de correlación. Intervalos
de predicción para un valor medio y para un valor individual. Prueba de hipótesis de los coeficientes de
regresión.
- Análisis de regresión no lineal. Ajuste de una curva exponencial a una nube de puntos.

3
- Análisis de regresión múltiple. Objetivos del análisis de regresión múltiple. Modelo de regresión múltiple.
Interpretación de la matriz de correlaciones. Estimación de los coeficientes de regresión. Hipótesis
relacionadas. El coeficiente de determinación múltiple y el coeficiente de correlación múltiple. Intervalos
de predicción para un valor medio y para un valor individual. Prueba de hipótesis de los coeficientes de
regresión. Análisis de los supuestos.

HORA(S) / SEMANA(S)
Semana 12 a 13

UNIDAD Nº: 7 Series de Tiempo

LOGRO
El alumno al término de la unidad 7, modela problemas sobre el comportamiento de las series de tiempo y
pronostica de manera óptima.

TEMARIO
- Series de tiempo. Componentes. Métodos de suavización: Promedios móviles.
Proyecciones de la tendencia.
- Series de tiempo. Empleo de componentes de tendencia y estacionales en los pronósticos.

HORA(S) / SEMANA(S)
Semana 15

VI. METODOLOGÍA

El curso se desarrolla en una sesión semanal de teoría de tres horas y una sesión semanal de práctica de dos
horas. En cada caso son sesiones expositivas por parte del profesor con la participación constante de los
alumnos. Se analizan casos propios de su carrera. Se aplicaran cuatro prácticas calificadas, las cuales se
realizarán dentro de la clase, un examen final, presentación y exposición de un Trabajo de Aplicación que busca
promover el trabajo en equipo. Además, se cuenta con siete listas de ejercicios, las cuales permiten consolidar y
fortalecer lo trabajado en clase.

VII. EVALUACIÓN

FÓRMULA
12% (PC1) + 14% (PC2) + 14% (PC3) + 20% (TF1) + 15% (PC4) + 25% (EB1)

TIPO DE NOTA PESO %


PC - PRÁCTICAS PC 12
PC - PRÁCTICAS PC 14
PC - PRÁCTICAS PC 14
TF - TRABAJO FINAL 20
PC - PRÁCTICAS PC 15
EB - EVALUACIÓN FINAL 25

4
VIII. CRONOGRAMA
TIPO DE DESCRIPCIÓN NOTA NÚM. DE FECHA OBSERVACIÓN RECUPERABLE
PRUEBA PRUEBA
PC PRÁCTICAS PC 1 28.08.201 SÍ
3
PC PRÁCTICAS PC 2 20.09.201 SÍ
3
PC PRÁCTICAS PC 3 25.10.201 SÍ
3
TF TRABAJO FINAL 1 13.11.201 NO
3
PC PRÁCTICAS PC 4 15.11.201 SÍ
3
EB EVALUACIÓN FINAL 1 Semana SÍ
16

IX. BIBLIOGRAFÍA DEL CURSO

BÁSICA
WACKERLY, Dennis D. (2008) Mathematical statistics with applications. Belmont, California : Thomson
Brooks/Cole.
(519.5 WACK)

RECOMENDADA
(No necesariamente disponible en el Centro de Información)

DEVORE, Jay L. (2005) Probabilidad y estadística para ingeniería y ciencias. México, D.F. : Thomson.
(519.5 DEVO 2005)
EVANS, Michael y ROSENTHAL, Jeffrey (2005) Probabilidad y Estadística: La Ciencia de la
Incertidumbre.
FREUND, Jhon, MILLER, Irwin y MILLER, Marylees (2000) Estadística Matemática con
Aplicaciones.
GREEN H. Williams (1998) Análisis Econométrico.
MENDENHALL, William (1994) Estadística matemática con aplicaciones. México, D.F : Iberoamérica.
(519.5 MEND)
NOVALES, Alfonso (1996) Estadística y Econometría.
NOVALES CINCA, Alfonso (1993) Econometría. Madrid : McGraw-Hill.
(330.015195 NOVA)
RAMSEY, James Bernard. (2002) The elements of statistics : with applications to economics and the
social sciences. Belmont, CA : Duxbury/Thomson Learning.
(519.5 RAMS)

5
PLAN CALENDARIO CICLO 2013-2
CURSO : Estadística para Economistas
CÓDIGO : MA175
12-ago PROFESOR : Segundo Jaramillo
Sem. Fecha Sesión 1 (Teoría - 3 horas) Sesión 2 (Práctica-2 horas)
Definición de simetría de una distribución de datos. Distribuciones
asimétricas. Coeficiente de asimetría. Cálculo e interpretación.
Función de probabilidad conjunta de dos variables aleatorias.
1 12-ago 17-ago Trabajo: Definición de curtosis. Coeficiente de curtosis. Clasificación de las
Distribuciones marginales. Distribuciones condicionales.
distribuciones de datos según el valor del coeficiente de curtosis. Curva de
Lorenz. Índice de Ghini.
Esperanza matemática para una función de n variables aleatorias.
2 19-ago 24-ago Funcion generatriz de Momentos. Distribución Normal bivariada
Covariancia. Coeficiente de correlación.
Vie.30.Ago

Práctica Calificada 1 (12%) Estimación por intervalos. Intervalo de confianza para la media con
3 26-ago 31-ago (hasta distribución normal bivariada) varianza poblacional conocida y desconocida. Intervalo de confianza para
Estimación puntual. Propiedades. una proporción.
Retroalimentación de PC 1
Tamaño de muestra para estimar un promedio y una proporción
4 02-sep 07-sep Intervalo de confianza para dos varianzas. Intervalo de confianza para la
poblacional. Intervalo de confianza para una varianza.
diferencia de promedios: Muestras independientes.
Prueba de hipótesis: Definición. Errores. Prueba de hipótesis para una
Intervalo de confianza para la diferencia de promedios. Muestras
5 09-sep 14-sep media. Prueba de hipótesis para una varianza. Prueba de hipótesis para
relacionadas. Intervalo de confianza para dos proporciones.
una proporción poblacional.

Prueba de hipótesis para dos varianzas poblacionales. Prueba de hipótesis Práctica Calificada 2 (14%)
6 16-sep 21-sep
para dos promedios poblacionales:muestras independientes. (hasta prueba de hipótesis para una proporción)

Retroalimentación de PC 2
Prueba de hipótesis para la diferencia de promedios de muestras Distribución Chi- Cuadrado: Prueba de Independencia y prueba de
7 23-sep 28-sep
relacionadas. Prueba de hipótesis para dos proporciones poblacionales. homogeneidad de proporciones.
Presentación Primer Informe (5%)
8 30-sep 05-oct Retroalimentación del trabajo de la Tarea académica 1
Mar.08.Oct

Distribución Chi- Cuadrado. Prueba de bondad de ajuste utilizando el Distribución Chi- Cuadrado. Pruebas de Bondad de ajuste de Kolmogorov -
9 07-oct 12-oct
Método clásico. Smirnov.

Experimento de un factor. ANOVA de una vía. Pruebas de comparaciones


10 14-oct 19-oct Diseño de bloques aleatorios.
múltiples. Experimento de un factor.

Práctica Calificada 3 (14%)


11 21-oct 26-oct ANOVA de dos factores.
(hasta ANOVA de bloques)
Vie.01.Nov

Retroalimentación de PC 3
Regresión lineal simple. Gráfico de dispersión. Método de mínimos
12 28-oct 02-nov Inferencia sobre los parámetros del modelo. Predicción. Análisis de los
cuadrados. Coeficiente de determinación. Coeficiente de correlación.
residuales. Validación de los supuestos del modelo.

Regresión no lineal. Inferencia sobre los parámetros del modelo. Modelo de Regresión Múltiple. Ecuación estimada. Matriz de correlaciones.
13 04-nov 09-nov
Predicción. Análisis de los residuales. Coeficiente de correlación múltiple.
Presentación Informe Final (5%) Práctica calificada 4 (15%)
14 11-nov 16-nov
Exposición de Trabajo Final (10%) (hasta coeficiente de correlación múltiple)
Supuestos del modelo. Pruebas de significacincia F y t. Pronósticos para un Retroalimentación de PC 4
15 18-nov 23-nov
modelo de regresión múltiple. Aplicaciones de regresión lineal Múltiple
16 25-nov 30-nov Exámenes Finales (25%)

También podría gustarte