EPD101 Apunte Semana 7 2022
EPD101 Apunte Semana 7 2022
EPD101 Apunte Semana 7 2022
EL ANÁLISIS DE DATOS
Unidad 3
Inferencia estadística
ESCUELA DE NEGOCIOS
ELABORACIÓN
VALIDACIÓN
EQUIPO DE DESARROLLO
Didactic
AÑO
2022
Tabla de contenidos
Aprendizaje esperado ................................................................................................. 5
Referencias bibliográficas.......................................................................................... 33
6
1. Pruebas de hipótesis
Para el desarrollo de los contenidos, será necesario comprender algunos conceptos e
información de estadística básica, como: muestreo, probabilidad y distintas funciones de
distribución, pues la veracidad de las conclusiones derivadas de la realización de una
prueba de hipótesis dependerá del correcto dominio y aplicación de estos conceptos.
1.1. Definición
Cada hipótesis contrasta dos opciones, una es la afirmación para comprobar y la otra
representa la situación opuesta, es decir, que no se cumpla dicha afirmación. Estas
opciones reciben el nombre de: hipótesis nula e hipótesis alternativa.
En el planteamiento, siempre se deben incluir las dos hipótesis (nula y alternativa).
7
Hipótesis nula (H0). Es aquella hipótesis que asume un valor asociado a un parámetro
(indicador de la población), con el fin de ser probado.
Hipótesis alternativa (Ha). (Hipótesis de investigación). Es aquella hipótesis cuyo enunciado
se plantea opuesta a la hipótesis nula. Ejemplo: si la hipótesis nula plantea verificar que
un parámetro toma un valor determinado, es decir, es igual “=”, la hipótesis alternativa
deberá plantear que el parámetro no toma ese valor, es decir, es distinto “≠”.
Ejemplo 1:
Se piensa que el ingreso promedio de las familias es de $x. Para comprobar el supuesto
se tomará una muestra.
Formalmente:
H0: El ingreso promedio de las familias ES $x
v/s
Ha: El ingreso promedio de las familias NO es $x.
Simbólicamente:
H0: µ=$x v/s Ha: µ≠$x
Ejemplo 2:
Se piensa que el ingreso promedio de las familias es mayor de $x. Para comprobar el
supuesto se tomará una muestra.
Formalmente:
H0: El ingreso promedio de las familias es mayor de $x.
8
v/s
Ha: El ingreso promedio de las familias es menor de $x.
Simbólicamente:
H0: µ≥$x v/s Ha: µ<$x
(Nótese que la hipótesis nula se plantea con ≥ y no con >, esto es básicamente porque la
igualdad nunca puede ser utilizada en la hipótesis alternativa).
El planteamiento de la hipótesis nula (Ha) entregará los límites de las zonas de aceptación
o rechazo, dependiendo si el símbolo del enunciado es “=”, “<” o “>”, ya que estos
criterios determinarán si la prueba será de una o dos colas.
Estas consideraciones son importantes, pues además definen el valor del estadístico
asociado a la probabilidad, según el nivel de significancia.
Prueba de 1 cola. Válido para una hipótesis alternativa (Ha) que plantea que el parámetro
es “>” o “<” que un valor dado.
Prueba de 2 colas. Válido para una hipótesis alternativa (Ha) que plantea que el
parámetro es “≠” que un valor dado.
9
Figura 2. Representación visual de una prueba de 2 colas. Indica la zona de rechazo
ubicada a la derecha o a la izquierda de la zona de aceptación.
Es aquel valor que define el límite entre la zona de aceptación y la zona de rechazo. Para
su cálculo se deberá tener en cuenta: la distribución asociada, el nivel de significancia y si
la prueba es de 1 o 2 colas.
Ejemplo:
Si la distribución asociada a la investigación es la distribución normal, el valor crítico
estará dado por z, y si además suponemos un nivel de significancia del 5%, los valores
críticos para una prueba de 1 o 2 colas serán: (Utilizando Excel)
a) Valor crítico cola izquierda:
Valor de z= -1,644853627.
b) Valor crítico cola derecha:
Valor de z= 1,644853627.
c) Valor crítico dos colas:
10
Valor de z= 1,959963985.
Visualmente quedará:
El estadístico de prueba es aquel valor que se obtiene de la muestra y que está asociado a
la distribución utilizada. Es el valor que se compara con el valor crítico para aceptar o
rechazar la hipótesis planteada.
Ejemplo:
✓ Si la prueba de hipótesis está planteada sobre la base de una distribución normal,
su estadístico de prueba será el estadístico z.
✓ Si la prueba de hipótesis está planteada sobre la base de una distribución t, su
estadístico de prueba será el estadístico t.
✓ Si la prueba de hipótesis es un análisis de varianzas (ANOVA), su estadístico de
prueba será el estadístico F.
11
✓ Si la prueba de hipótesis está planteada sobre la base de una distribución chi-
cuadrada, su estadístico de prueba será el estadístico chi-cuadrado.
Si bien no existe un consenso entre el número de etapas que deberá tener una prueba de
hipótesis, a continuación se enumeran los más importantes a considerar:
1. Elegir el tipo de prueba (si es para medias, proporciones, etc.).
2. Plantear hipótesis (implica plantear H0 y Ha y si será de una o dos colas).
3. Definir el nivel de significancia y calcular el valor crítico (el valor crítico
dependerá de: la distribución a utilizar, si la prueba es de una o dos colas y del
valor de α (nivel de significancia)).
4. Definir el estadístico de prueba (este estadístico dependerá de la distribución
utilizada. Incluye el cálculo).
5. Definir la zona de aceptación y rechazo (estará directamente relacionado con la
definición de una prueba de una o dos colas, el nivel de significancia y el tipo
de distribución utilizada. Ver figura 3).
6. Decisión (se aceptará o se rechazará la hipótesis nula planteada).
7. Conclusión (se entregará una respuesta a partir de los resultados obtenidos).
12
Sin embargo, sabemos que un problema que implique predecir tiene como consecuencia
la probabilidad de cometer un error en la estimación. Es así que, al concluir una prueba
de hipótesis, se pueden cometer dos tipos de errores.
Ejemplo:
Una empresa quiere comparar la efectividad que han tenido dos campañas publicitarias
en las ventas. Para ello, plantea la siguiente situación:
13
Ha: Existe diferencia entre las campañas en el aumento de las ventas
El error tipo II, estaría en aceptar la hipótesis nula (no existe diferencia entre las
campañas), concluyendo que no existe diferencia, cuando en realidad sí la hay.
¿Cómo disminuir el error tipo II?
Para disminuir este tipo de error se podría:
✓ Aumentar el tamaño de la muestra.
✓ Verificar si el estadístico de prueba es el adecuado.
✓ Aumentar el nivel de significancia.
✓ Privilegiar un test paramétrico por uno no paramétrico.
14
3.1. Pruebas de hipótesis paramétricas
15
4. Contrastes de hipótesis. Aplicación de los
contenidos
A continuación, se desarrollarán distintas pruebas de hipótesis paramétricas y no
paramétricas, aplicando los contenidos de la semana 6 y 7.
16
Desarrollo:
Utilizaremos las 7 etapas definidas en el apartado 1.2.5:
1. Prueba de hipótesis para la media.
2. H0: µ=$12.500.000 v/s Ha: µ≠$12.500.000 (Ha implica una prueba de hipótesis de
dos colas)
3. Valor crítico → z= 1,959963985
4. Estadístico de prueba:
17
Con un nivel de significancia del 5%, ¿existe evidencia para contradecir la afirmación
inicial?
Solución:
Organizaremos la información en una planilla de Excel con el fin de facilitar el cálculo.
INFORMACIÓN
Población Muestra
Media aritmética: $225.000 $198.500
Varianza: $930.250.000
Desviación estándar: $30.500
Tamaño de la muestra: 20
Desarrollo:
1. Prueba de hipótesis para la media.
2. H0: µ≥$225.000 v/s Ha: µ<$225.000 (Ha implica una prueba de hipótesis de cola
izquierda).
3. Valor crítico → t= -1,729132812
4. Estadístico de prueba
18
6. Decisión. Se rechaza H0.
7. Conclusión. Existe evidencia suficiente para concluir que las comisiones de las mujeres
no superan a la de los hombres en $225.000.
Solución:
Organizaremos la información en una planilla de Excel con el fin de facilitar el cálculo.
INFORMACIÓN
Población Muestra
Proporción: 20% 21% (315/1500)
79% (q = 1-p)
Tamaño de la muestra: 1500
• Prueba de proporciones.
• Tamaño de la muestra 1500.
• Prueba asociada --> Distribución normal.
• Nivel de confianza 5%.
19
Desarrollo:
1. Prueba de hipótesis para la proporción.
2. H0: π≥20% v/s Ha: π<20% (Ha implica una prueba de hipótesis de cola izquierda)
3. Valor crítico → z= -1,644853627
4. Estadístico de prueba:
20
TURNOS
Mañana Tarde Noche
2,5 3,8 6,2
2,1 2,6 3,1
2,8 4,3 2,4
4,6 4,1 2,8
4,7 3,2 2,7
3,8 1,9 3,9
2,7 2,2
5,1
3,3
A partir de la información, se pide verificar si existe información significativa que permita
asegurar que existe diferencias entre las facturaciones promedio según la jornada. Utilizar
5% de significancia.
Solución:
Esta prueba, en la que se quiere verificar la igualdad de medias o no, se resuelve por
análisis de varianza (ANOVA).
Criterio que justifica ANOVA: cuando se quiere verificar si existe diferencia en los
promedios de al menos tres grupos independientes.
Por la complejidad y cantidad de cálculos, utilizaremos Excel, por lo que se deberá
habilitar un nuevo menú.
Dentro de las pruebas que puede realizar Excel, está el análisis de varianzas (ANOVA), sin
embargo, no siempre está habilitada.
Para habilitarla, deberán seguir los siguientes pasos:
1. Al ingresar a Excel, seleccionar la pestaña “Archivo” → inicio →más→opciones.
2. Hacer clic en “complementos” (menú a la izquierda)→complementos de Excel ir
(opciones a la derecha, al final de listado).
3. Seleccionar “habilitar herramientas para análisis” y aceptar.
Si tienen dudas, pueden ver el procedimiento en la videoclase tutorial de la semana 7.
21
Si se observa el menú de inicio, en la pestaña de datos, aparecerá una nueva opción de
menú, como se muestra a continuación:
Esta opción que hemos habilitado nos permitirá realizar varias tareas que antes no se
podían. Si se selecciona “análisis de datos”, la primera opción que aparece es la que se
utilizará para desarrollar el ejercicio.
Desarrollo:
1. Prueba de hipótesis para análisis de varianza (ANOVA).
2. H0: Los promedios de los grupos son iguales v/s Ha: promedios de los grupos no son
iguales.
Para los pasos 3 y 4, utilizaremos la opción que acabamos de habilitar “análisis de datos”
y seleccionaremos la primera opción “análisis de varianza de un factor”.
22
Figura 7. Paso 1: para encontrar el valor crítico y el estadístico de prueba F.
23
Figura 9. Paso 3: final para que Excel nos entregue los resultados solicitados.
24
5. Zona de aceptación y rechazo
Se rechazará H0 si valor crítico < que estadístico de prueba.
6. Decisión. Se acepta H0.
7. Conclusión. Existe evidencia suficiente para concluir que no existe diferencia entre los
promedios de ventas según la jornada.
Tipo de licencia
Enfermedad Trabajo Trayecto Totales
Diurno 8 15 28 51
Turno
Tarde 13 16 14 43
Totales 21 31 42 94
Solución:
Este problema se resuelve mediante una prueba de hipótesis no paramétrica,
específicamente, la prueba Chi-cuadrado (ji-cuadrado) cuyos supuestos son:
✓ Aplica cuando las variables son cualitativas.
✓ Se quiere verificar independencia de las variables.
25
Desarrollo:
1. Prueba de hipótesis para verificar independencia de las variables.
2. H0: Existe independencia de las variables v/s Ha: Las variables se relacionan.
3. Valor crítico → χ2= ?
Utilizando la función =PRUEBA.CHI.INV de Excel se tiene:
χ2= 5,991464547
4. Estadístico de prueba
Donde:
Χ2: Símbolo que identifica a la chi-cuadrado (ji-cuadrado).
oi: es la frecuencia observada.
ei: es la frecuencia esperada.
Para hallar el valor del estadístico de prueba Χ2, primero se deben calcular las
frecuencias esperadas, siguiendo el proceso que se muestra a continuación:
26
Figura 11. Cuadro que muestra cómo calcular las frecuencias esperadas a partir de la
frecuencia observada.
27
5. Zona de aceptación y rechazo
Figura 13. Zona de aceptación y rechazo (Los valores chi-cuadrados siempre son
positivos, por lo tanto, siempre será de cola derecha).
6. Decisión. Se acepta H0. (La regla dice que, para aceptar la hipótesis nula, el 80% de
las frecuencias esperadas debe ser superior a 5, lo que se cumple).
7. Conclusión. Existe evidencia suficiente para concluir que las variables son
independientes.
28
Cierre.
Para repasar los contenidos de la semana, los invitamos a revisar el siguiente esquema:
Figura 14. Esquema que resume los contenidos de estimación de parámetros vistos en la
semana.
29
Anexo de fórmulas para pruebas de hipótesis.
30
2. Prueba de hipótesis para la diferencia de medias. Dos muestras.
con
donde
31
d) Muestras dependientes (pareadas) con varianzas poblacionales
desconocidas para muestras grandes. ( ). Estadístico de prueba.
32
Referencias bibliográficas
Bibliografía de consulta
33