Guia de Estadística General 2023
Guia de Estadística General 2023
Guia de Estadística General 2023
General
Diseño y Diagramación
Universidad Científica del Sur
Panamericana Sur km 19 - Lima 42
Lima-Perú 610-6400
2
CONTENIDO
UNIDAD 1
UNIDAD 2
UNIDAD 3
UNIDAD 4
3
Elaboración propia
4
CONCEPTOS ESTADÍSTICOS
ESTADÍSTICA
Es una ciencia que nos ofrece un conjunto de métodos y técnicas para: recolectar, clasificar, procesar,
presentar, analizar e interpretar un conjunto de datos, con la finalidad de conocer el problema, obtener
algunas conclusiones y finalmente tomar decisiones.
Es una herramienta fundamental para realizar investigación científica.
ESTADÍSTICA DESCRIPTIVA.
Es un conjunto de métodos que nos permiten describir y resumir los datos observados mediante gráficos
o cuadros y realizando algunos cálculos de indicadores.
ESTADÍSTICA INFERENCIAL
Es un conjunto de métodos que nos permiten hacer generalizaciones o inferencias acerca de una
población a partir de lo observado en una muestra.
POBLACIÓN
Es la totalidad de individuos o de elementos (empresas, personas, objetos etc.) que cumplen o satisfacen
la o las características en estudio.
Por el número de elementos que la componen la población se clasifica en finita e infinita. La población
es finita si tiene un número determinado de elementos en caso contrario es infinita. En la práctica una
población finita con un gran número de elementos se considera como una población infinita; por otro
lado, el tamaño de una población va a depender del objetivo trazado por el investigador.
MUESTRA
Está constituida por una parte de los individuos o elementos que componen la población, seleccionada
de acuerdo a cierta técnica con el fin de obtener información acerca de la población, de la cual proviene.
La muestra debe ser seleccionada de manera que sea representativa, es decir tenga características
similares a las de su población.
PARÁMETRO
Es una medida descriptiva que resume una característica de la población, es decir constituye el valor
real, verdadero; su cálculo implica utilizar toda la información contenida en la población; entre los más
conocidos tenemos:
La media poblacional ( 𝜇 )
La varianza poblacional ( 𝜎 2 )
La desviación estándar poblacional (σ)
La proporción poblacional ( 𝜋 )
ESTADÍSTICO
Es una medida que describe una característica de la muestra, se calcula a partir de los datos observados
en la muestra; es decir constituyen los estimadores de cada uno de sus respectivos parámetros; entre
estos tenemos:
La media muestral ( 𝑥̅ )
La varianza muestral (𝑠 2 )
La desviación estándar muestral(s)
La proporción muestral ( 𝑝 )
VARIABLE
Es una característica definida en la población de acuerdo a cierto interés en una investigación estadística,
que puede tomar dos o más valores (cualidades o números). Puede ser una característica medible (peso,
precio, ingresos, temperatura etc.) o una cualidad no medible (estado civil, calidad, color, sexo etc.). Se
representa con las letras mayúsculas X, Y, Z.
5
CLASIFICACIÓN DE LAS VARIABLES
VARIABLES NOMINALES. - Son aquellas en donde no existe un orden preestablecido entre las
categorías de las variables. Ejemplos:
VARIABLE CATEGORIAS
Color Azul, rojo, blanco, verde, negro, amarillo etc.
Estado Civil Soltero, casado, conviviente, viudo, divorciado.
Distrito Lima, La Victoria, Breña, Miraflores, San Isidro, Lince etc
Género Masculino, femenino
Calidad Buena, mala.
Morosidad No Moroso, moroso
Banco donde le depositan Interbank, Pichincha, Scotiabank
su sueldo:
VARIABLES ORDINALES. Son aquellas en donde existe un orden preestablecido entre las
categorías de la variable.
Ejemplos:
VARIABLE CATEGORÏAS
Grado de Instrucción Primaria, Secundaria, Superior
Orden de Mérito Primero, Segundo, Tercero etc.
Nivel Socioeconómico Bajo, Medio, Alto
También podemos considerar como variables ordinales por ejemplo el grado de satisfacción de un
servicio (1 = Muy insatisfecho; 2 = Insatisfecho; 3 = Ni satisfecho ni insatisfecho; 4 = Satisfecho; 5
= Muy satisfecho) o también el grado de depresión, etc.
b) VARIABLES CUANTITATIVAS
Son aquellas que se obtienen como resultado de mediciones o conteos; estas a su vez se clasifican
en:
VARIABLES DISCRETAS
Son aquellas cuyos valores resultan como consecuencia de conteos, y por lo tanto solo pueden
asumir valores enteros positivos, incluido el cero. Ejemplos
Número de empresas, número de hospitales, número de trabajadores, número de comprobantes de
pago, número de máquinas, número de conservas etc.
VARIABLES CONTINUAS
Son aquellas cuyos valores se obtienen por medición, pueden asumir valores decimales. Ejemplos:
El sueldo, el precio, la temperatura, el volumen, el tiempo, el peso, la estatura, la presión etc.
6
SEGÚN LA MEDICIÓN DE LA VARIABLE
a) ESCALA NOMINAL Se tiene una escala nominal si dos o más valores de una variable
sólo permiten percibir las diferencias o semejanzas de las unidades estadísticas que se midan tales
valores son como etiquetas que identifican a las unidades estadísticas y las hacen iguales o diferentes
entre sí. Ejemplo: Color de ojos, género, Especialidad de los estudiantes.
b) ESCALA ORDINAL Cuando los datos pueden acomodarse en algún orden, las diferencias entre los
datos carecen de significado: A es más alto que B, pero no se puede restar A menos B.
Ejemplo: Grado de Instrucción, grado de satisfacción de los clientes.
c) ESCALA DE INTERVALO La escala de intervalo es una escala para la cual el 0 no indica ausencia
de la propiedad que se estudia. Ejemplo: Temperatura.
d) ESCALA DE RAZON Se parece al nivel intervalo con la diferencia que el cero implica ausencia de
la propiedad que se estudia. Ejemplo: Peso, precio, número de hijos
a) VARIABLE DEPENDIENTE
La variable dependiente es aquella determinada por el investigador para estudiarla en función de otras
variables denominadas independientes. Generalmente se simboliza esta variable con la letra Y.
b) VARIABLE INDEPENDIENTE
- El costo de producción de un artículo, determina su precio de venta. En este caso las variables son:
Costo de producción = X Precio de venta = Y
Podemos notar que el rol que asuma una determinada variable como dependiente o independiente en
una investigación, va a depender con qué variable se le asocie.
Ejemplo:
Para tener conocimiento de la riqueza de nuestra gastronomía se realizó una encuesta a los asistentes a
la feria gastronómica “Invita Perú” en el año 2022, para ello se tomó una muestra aleatoria de 4000
personas, obteniéndose lo siguiente:
a) El 57% cree que el pisco sour es nuestra bebida de bandera.
b) El 65% es la segunda vez que asiste a la feria.
c) El 40% son del género masculino.
d) El gasto promedio de los asistentes asciendo a 50 soles.
Resolución:
De acuerdo con lo presentado identifique: la población, la muestra, las variables y los tipos de variables
7
Población Todos los asistentes a la feria gastronómica Invita Perú 2022
Muestra 4000 asistentes a la feria gastronómica Invita Perú 2022
Variable Clasificación Escala de medición
Bebida bandera Cualitativa Nominal
Número de veces que
Cuantitativa discreta Razón
asistió a la feria
Genero del asistente Cualitativa Nominal
Gasto de los asistentes Cuantitativa continua Razón
Ejemplo:
Determinar, en cada caso el tipo de variable, de acuerdo a su naturaleza:
a. Carreras que quieren seguir los alumnos de un centro educativo al terminar la educación
secundaria.
b. Horas que dedican a ver televisión los estudiantes de Primaria en Arequipa.
c. Número de televisores LCD vendidos durante el mes de diciembre del año pasado.
d. Número de pacientes atendidos por emergencia durante el mes pasado.
e. Tiempo utilizado en atender un cliente en la ventanilla de un banco.
Resolución:
a. Carreras que quieren seguir los alumnos de un centro Cualitativa -Nominal
educativo al terminar la Educación Secundaria
b. Horas que dedican a ver televisión los estudiantes de Primaria Cuantitativa continua-Razón
en Arequipa.
8
EJERCICIOS PROPUESTOS
2. Clasificar cada una de las afirmaciones siguientes ya sea como inferencias o métodos descriptivos.
a. El año pasado en la UCSUR el puntaje promedio del examen de admisión fue 85.
b. El Dr. García, un ecólogo, informó que, en cierto río del oriente peruano, la carne de los peces
contiene un promedio de 300 unidades de mercurio.
c. La compañía “RM” predijo quién sería el ganador en una elección presidencial después de
conocer los resultados de las votaciones de 25 mesas de sufragio de las 2 800 mesas que hubo
en total.
Unidad de estudio:
Variable de estudio: Tipo:
Población:
Muestra:
9
4. Indique el tipo de variable usando la clasificación según su medición:
a. Tiempo de servicio de los empleados de una empresa.
b. Número de cheques girados por una empresa diariamente en un mes.
c. Número de acciones vendidas cada día en la Bolsa de Valores de Lima.
d. Lugar de nacimiento de las personas que viven en el distrito de Independencia.
e. Nivel de educación de los Limeños.
f. Temperatura y humedad diaria de los Olivos.
6. Utilice los términos que aparecen en la siguiente tabla, para asociarlos a las definiciones que
aparecen a continuación:
10
7. En el mes de diciembre del 2021 del octavo ciclo de la carrera de Medicina estaba constituido por
984 estudiantes de la UCSUR, distribuido en 10 secciones, la edad promedio es de 23 años, el 43%
es de sexo masculino, se tomó una muestra representativa de 100 estudiantes determinándose que
el 89% trabajaban y pagaban sus pensiones de estudios, además estos tienen un sueldo promedio de
s/2000.
Determinar:
Población:
Muestra:
Unidad de análisis:
Variables:
Dato:
8. Se realizó un estudio para conocer los salarios en soles de los trabajadores de la empresa “Aron
S.A” dedicada a la elaboración de productos químicos y se tomó una muestra de 30 obreros en el
presente mes, se obtuvieron los siguientes datos:
1800, 1750, 1100, 2225, 1990, 1000, 1180, 1378, 1204, 1024, 1002, 1980, 1566, 1400, 1258
Determinar:
Población:
Muestra:
Unidad de análisis:
Variables:
Estadígrafo
11
V
11. Clasifique las variables de acuerdo a su naturaleza y de acuerdo a su escala de medición
12. Indicar el valor de verdad, Verdadero (V) o Falso (F), de cada proposición
13. Lea atentamente e indique el valor de verdad de cada tipo de variable que se enuncia:
12
PRESENTACIÓN DE DATOS
En todo trabajo de investigación se requiere la recolección de datos para posteriormente realizar el
procesamiento del mismo. Estos datos pueden haber sido recogidos de fuentes primarias o secundarias.
Luego de la recolección de información se debe clasificar u organizar los datos para realizar el análisis
y la interpretación de los resultados. Para facilitar este procedimiento se deberá agrupar la información
en categorías o clases.
Una forma sencilla de agrupar los datos es construyendo tablas de distribución de frecuencias.
Presentación de tablas:
Todo gráfico debe presentar la siguiente
estructura:
1. Numeración
2. Título
3. Contenido
4. Fuente
13
TABLAS Y GRÁFICOS ESTADÍSTICOS DE DATOS PARA VARIABLES CUALITATIVAS
Ejemplo:
El restaurante “Don Tito” busca evaluar el grado de satisfacción de sus clientes: donde B es Bueno, R
es Regular, D es Deficiente. Se tienen los resultados en el siguiente cuadro:
R R R R B B D D B R R
R R R D D R R B R R D
R R R R R R R R D D B
60%
50%
40%
30%
30%
20%
10% 4%
0%
Deficiente Regular Bueno
Interpretación: De los 23 comensales encuestados del restaurante “Don Tito” más de la mitad (65%)
manifestaron estar regularmente satisfechos con los servicios y otro porcentaje menor (4%) dijeron estar
bien satisfechos.
14
TABLAS Y GRÁFICOS ESTADÍSTICOS DE DATOS PARA VARIABLES CUANTITATIVAS
a) Tabla de frecuencias para Datos No Agrupados. - Es apropiada para datos cuyos valores
distintos no son muy numerosos.
Ejemplo:
20 22 21 19 18 18 20 22 20 19 20 19
23 19 18 20 21 22 19 20 18 23 20 21
19 22 23 20 21 19 22 18 19 20 21 24
21 20 21 20 24 23 20 21 19 20 22 21
21 22
Resolución:
En este caso notamos que la variable edad, apenas está tomando solamente siete valores distintos
que van desde 18 hasta 24.
18 5 5 10% 10%
19 9 14 18% 28%
20 13 27 26% 54%
21 10 37 20% 74%
22 7 44 14% 88%
23 4 48 8% 96%
24 2 50 4% 100%
Total 50 100%
Interpretación: Se observa que el 26% de los estudiantes tienen 20 años de edad mientras que solo un
4% tienen 24 años. También podemos observar que el 54% de los estudiantes tiene una edad máxima
de 20 años.
15
f1=5
Interpretación: Hay 5 estudiantes de los 50 que tienen 18 años.
F4=37
Interpretación: Hay 37 estudiantes de los 50 que tienen como máximo 21 años.
h3%=26%
Interpretación: El 26% de los estudiantes tienen una edad de 20 años.
H2%=28%
Interpretación: El 28% de los estudiantes tienen como máximo 19 años
b) Tabla de frecuencias para datos agrupados. - Es apropiada cuando los valores distintos que
toma la variable son muy numerosos. Se siguen los siguientes pasos:
1) Calcular el rango de la variable: R = Valor máximo – Valor mínimo
2) Elegir el número de intervalos de clases: K se sugiere entre 5 y 10 inclusive
3) Calcular la amplitud de los intervalos de clases: C
C= R cuyo cociente en lo posible deberá ser exacto, caso contrario deberá
K trabajarse con los llamados “excesos”
Ejemplo 1:
Como control de la ética publicitaria, se requiere que el rendimiento en millas/galón, de gasolina esté
basado en un buen número de pruebas efectuadas en diversas condiciones. Al tomar una muestra de 50
automóviles se registraron las siguientes observaciones en millas por galón
35,6 27,9 29,3 31,8 22,5 34,2 32,7 26,5 26,4 31 31,6 28,0 33,7
32 28,5 27,5 29,8 34,2 31,2 28,7 30 28,7 33,2 30,5 27,9 31,2
29,5 28,7 23 30,1 30,5 31,3 24,9 26,8 29,9 28,7 30,4 31,3 32,7
30,3 33,5 30,5 30,6 35,1 28,6 30,1 30,3 29,6 31,4 32,4
Resolución:
Rango: R
16
Rendimiento
Xi fi Fi hi Hi
(millas/galón)
22,5 - 24,4 23,45 2 2 0,04 0,04
24,4 - 26,3 25,35 1 3 0,02 0,06
26,3 - 28,2 27,25 7 10 0,14 0,20
28,2 - 30,1 29,15 12 22 0,24 0,44
30,1 - 32 31,05 17 39 0,34 0,78
32 - 33,9 32,95 7 46 0,14 0,92
33,9 - 35,8 34,85 4 50 0.08 1
Ejemplo 2
Los siguientes son los puntajes logrados en un examen de cierta asignatura por 50 estudiantes:
61 50 65 70 45 60 80 65 60 65 64 54 65
67 48 64 56 60 61 62 62 57 75 53 58 59
56 54 67 68 60 63 56 53 61 62 69 70 44
47 65 56 57 58 55 51 43 79 72 48
Resolución
R = 80 – 43 = 37
Puntaje Xi fi Fi hi H,i
42 – 48 45 4 4 0,08 0,08
48 – 54 51 6 10 0,12 0,2
54 – 60 57 12 22 0,24 0,44
60 – 66 63 18 40 0,36 0,80
66 – 72 69 6 46 0,12 0,92
72 – 78 75 2 48 0,04 0,96
78 – 84 81 2 50 0,04 1
Total 50 1
Poco menos de la mitad de los estudiantes (44%) han obtenido entre 54 y 60 puntos.
17
TABLAS Y GRÁFICOS ESTADÍSTICOS DE DATOS PARA VARIABLES CUALITATIVAS O
CATEGÓRICAS
Ejemplo 1.- Se realizó un estudio para determinar la cantidad de personas que obtienen un empleo. La
siguiente tabla incluye datos de 400 sujetos seleccionados al azar:
18
Diagrama de Pareto (MINITAB)
Fuentes de Empleo
100 100
80 80
Porcentaje
Porcentaje
60 60
40 40
20 20
0 0
. . sq
f sif ivo
Fuentes de Empleo
ro bú as
sp c la
cto s de m
a cio as r re
o
nt un es
Co An pr Co
Em
Porcentaje 70 14 11 5
Porcentaje 70.0 14.0 11.0 5.0
% acumulado 70.0 84.0 95.0 100.0
19
Ejemplo 3
De una muestra de 20 pacientes de la clínica San Camilo del distrito de San Juan de Lurigancho según
sus gastos en hospitalización:
5000 4500 6000 4200 5500 6700 5000 6900 5500 5800
6500 8000 4800 3000 6500 7000 7500 7800 4900 6600
20
EJERCICIOS PROPUESTOS
1.- Al contar el número de materias reprobadas por los alumnos de cierta Universidad, se han obtenido
los siguientes datos:
1, 1, 2, 3, 2, 6, 0, 0, 1, 0, 4, 5, 0, 0, 0, 3, 2, 1, 3, 1, 1, 1, 0, 1, 2, 0,
0, 5, 4, 2.
2.- En un colegio “X” se piensa en la posibilidad de cambiar el timbre por unos acordes de música rock.
Se ha preguntado a 20 alumnos cuál es su opinión acerca de estos acordes, según la escala: No me gusta
nada ( 1 ), Me gusta poco ( 2 ), Me es indiferente ( 3 ), Me gusta bastante ( 4 )
Me gusta muchísimo ( 5 ). Estos han opinado de la siguiente manera (codificada):
5, 4, 1, 2, 2, 4, 2, 5, 3 , 5, 3, 5, 1, 1, 3, 1, 2, 5, 3, 3
Construir la tabla de distribución de frecuencias adecuada para responder las siguientes preguntas:
a) ¿A qué porcentaje de alumnos les gusta poco estos acordes?
b) ¿A cuántos alumnos les gusta bastante los acordes?
c) ¿Cuál es la proporción de alumnos a los que les es indiferente los acordes?
d) ¿Cuál es la proporción de alumnos a los que les gusta poco o no les gusta nada los acordes?
e) ¿Cuál es la proporción de alumnos a los que a lo más les gusta bastante los acordes?
3.- El gerente de una tienda comercial está interesado en el número de veces que 52 clientes han ido a
comprar en su almacén durante un período de dos semanas. Los datos que se registraron fueron:
5 3 3 1 4 4 5 6 4 2 6 6 1
1 14 1 2 4 4 5 6 3 5 3 6 8
4 7 6 5 9 11 3 12 4 7 14 1 1
10 8 9 2 12 5 7 6 4 5 6 5 6
4.- Los siguientes datos proporcionan los ingresos anuales en miles de dólares de 50 personas:
21
18 24,9 20 28 28,5 36,4 39,5 5 9 5 6,9 7
12,0 8,3
a) Presentar dichos datos en una tabla de distribución de frecuencias, usando 6 intervalos de clase.
b) Estime la proporción de ingresos que están entre 12,500 dólares y 52,500 dólares.
c) Estimar la proporción de ingresos que están debajo de 50,000 dólares.
5.- Los siguientes datos son calificaciones en la prueba de Miller de personalidad de 82 estudiantes.
22 22 20 27 30 23 29 21 26 31 21 23 25
29 18 22 31 30 28 16 28 33 25 23 31 23
18 24 26 25 17 22 25 28 19 24 20 23 26
21 31 25 24 33 29 20 27 21 25 28 24 23
25 30 27 23 26 22 24 17 33 26 24 19 18
33 25 28 31 29 27 28 24 26 24 22 26 24
18 21 29 22
6.- Cierto investigador especialista en salud pública afirma que el nivel de plomo en sangre en niños en
edad escolar de una cierta región, se ha incrementado. Para verificar este supuesto se toma una muestra
de 120 niños en edad escolar, obteniendo los siguientes resultados:
27,88 28,42 45,81 6,55 6,4 6,14 3,73 26,88 31,93 14,85 26,88 38,35
34,26 38,97 7,22 5,24 15,4 3,73 31,93 28,34 10,79 26,88 6,32 33,09
28,24 4,67 6,07 9,77 5,35 28,34 33,43 14,85 28,84 3,27 4,88 47
6,56 49,24 6,82 35,49 33,43 27,38 11,33 5,44 9,28 4,36 35,6 9,17
34,26 28,84 26,53 7,92 27,96 6,28 38,62 6,55 4,4 10,79 33,09 28,42
27,38 34,47 5,91 33,1 12,04 34,26 4,24 7,22 45,16 5,91 34,94 5,04
27,6 28,42 33,09 13,38 37,47 38,41 4,67 36,23 33,09 6,67 36,71 33,83
5,04 34,98 6,56 36,56 8,85 29,33 4,88 34,26 34,99 4,82 17,96 7,92
4,68 25,21 4,68 35 9,17 25,17 4,82 28,84 34,13 6,28 4,88 8,7
51,24 5,84 34,72 33,83 35,09 28,42 30,83 4,79 5,44 7,17 29,29 32,29
22
7.- En una compañía, el sueldo mínimo y máximo de 200 empleados
es de $ 150 y $300 respectivamente. Tales sueldos se tabulan en una
distribución de frecuencias de 5 intervalos de igual amplitud. Si se
sabe que 20 empleados ganan al menos $150 pero menos de $180; 60
ganan menos de $210; 110 ganan menos de $240; 180 ganan menos
de $270 y el 10% restante de los empleados gana a los más $300,
reconstruir la distribución.
8.- Los siguientes datos corresponde a una muestra de 20 clientes del Banco de Crédito de la ciudad de
Chimbote según sus inversiones mensuales en dólares en el programa Credifondo:
5500 4000 3000 3100 2000 3600 1000 3900 2500 3500
6000 4500 4800 3300 3400 3700 1500 3800 2900 3600
La información fue obtenida mediante una encuesta realizada por la empresa Aries S.A. en enero de
2004. Se pide
a) Identificar la unidad de análisis y la variable de estudio.
b) Construir una distribución de frecuencia. Utilice la regla de Sturges para determinar el número de
intervalos.
c)Interpretar f2, F2, h2%, H2%.
d)Determine qué porcentaje de clientes invierten mensualmente $4000 o más pero menos de $6000.
e) Determinar qué porcentaje de clientes invierten $3500 mensualmente.
9.- Una tienda comercial, ubicada en Lima Metropolitana, vende ropa de moda para damas y caballeros
además de una amplia gama de productos domésticos. A continuación, se presentan las ventas netas
observadas durante los años del 2002 al 2006. Represente gráficamente dicha información.
Año Ventas netas (millones de S/.)
2002 500
2003 519,2
2004 535,8
2005 560,9
2006 544,1
10.- Se ha hecho una encuesta para saber con qué regularidad se lee el periódico en Lima, y los resultados
fueron estos:
RESPUESTAS %
Todos los días 37,5
Una vez por semana 29
Una vez al mes 10,5
Alguna vez al año 12
Nunca
No contesta 0,4
11. La siguiente distribución muestra el peso en gramos. De 3000 paquetes de un determinado producto.
23
Peso en gr. [10-15[ [15-20[ [20-25[ [25-30[ [30-35]
hi k/2 0,17 2k k 0,13
LI - LS fi Fi hi% Hi%
[ - 8,8[ 12,50%
[ - [ 5
[ - [ 25% 50%
[ - 12,4 [ 32
[ - [ 95,50%
[ - [
Total 40
80,6 65,8 49,6 79,1 84,4 66,2 79,3 59,4 72,9 73,6
53,2 60,2 91,2 74,8 78,6 81,4 58,6 68,2 67,4 55,6
76,9 77,4 67,9 63,7 49,9 46,4 68,8 67,3 72,3 75,8
88,3 94,6 57,3 87,3 74,3 73,2 90,4 76,3 52,7 71,7
75,6 41,8 73,6 71,4 83,2 67,4 99,3 62,3 89,2 86,8
65,2 62,1 44,8 82,9 81,7 70,4 74,6 76,9 85,7 40,9
54,2 75,3 50,1 61,1 42,3 68,6 56,2 70,8 47,3 66,9
80,2 60,2 71,6 77,1 94,9 61,4 82,1 78,3 51,2 79,3
Se pide:
a) Elaborar una distribución de frecuencias
b) ¿Cuántos empleados tiene pesos entre 45 y 60 kg?
c) ¿Qué porcentaje de empleados tienen pesos mayores a 75 kg?
d)La empresa promotora obsequia uniformes de trabajo a los empleados voluntarios. Suponiendo que
los pesos de los empleados voluntarios es menor igual a 80 kg. ¿Cuántos uniformes deben ser
devueltos?
24
14. La fábrica de chocolates “Glamour S.A.” produce una gran gama de chocolates. Desea determinar
si realmente el tipo de Choconut es el que presenta el mayor porcentaje de defectuosos con la finalidad
de capacitar al personal en la elaboración de este producto. Para ello el gerente de control de calidad
les pregunta a los trabajadores su opinión acerca del tipo de chocolate que presenta el mayor número
de defectuosos. En la siguiente tabla se presentan las respuestas de los trabajadores:
16. Los tiempos de vida útil (en días) de un tipo de batería, se tabulo
en una distribución de frecuencias de 5 intervalos de igual amplitud con frecuencias relativas
acumuladas: 0,10, 0,25, 0,55, 0,80, 1,00. Determine la distribución de frecuencias absolutas si la tercera
frecuencia absoluta es 12, si la segunda marca de clase es 6, y si el límite inferior del cuarto intervalo es
12.
17. Un grupo de personas valora la gestión del departamento de servicio al cliente de un supermercado
catalogándolo como: Excelente (E), Bueno (B), Regular (R) o Malo (M). Los resultados obtenidos son:
E B B R E M B E
B R R R M B B E
M E R R B B E R
R B B E R M E E
B E B B R M R E
25
18. Una compañía de 20 programadores desea obtener información de los gastos diarios que realizan en
mantenimiento de las computadoras Los datos obtenidos (nuevos soles) son:
19. La siguiente tabla muestra la distribución de frecuencias del número de horas dedicadas a la semana
enviando mensajes por WhatsApp en un teléfono celular por 60 vendedores de la tienda virtual
"Encantadora" la cual se dedica a la venta de productos de higiene y cuidado personal.
Interprete: h3% y F2
20. El gerente de una compañía registra el número de unidades vendidas de cierto producto completado
por 28 empleados que laboran en la institución en un día de trabajo.
Unidades
vendidas fi
[15 22[ 2
[22 29[ 3
[29 36[ 6
[36 43[ 4
[43 50[ 5
[50 57[ 8
Interprete: h3% y F2
26
MEDIDAS DE TENDENCIA CENTRAL, MEDIDAS DE
POSICIÓN,
MEDIDAS DE DISPERSIÓN, ASIMETRÍA Y CURTOSIS
27
MEDIDAS DE TENDENCIA CENTRAL
Media Aritmética ( X ): Es el promedio de los datos, y su objetivo principal es encontrar el valor que
debería estar al centro.
Datos No Agrupados: Se utiliza cuando hay datos sueltos y se halla la suma de dichos valores dividida
entre el número de datos, así como se expresa en la fórmula:
Media Aritmética: Datos no agrupados
∑𝑥 ∑ 𝑥𝑖
𝑋̅ = 𝑖 (Muestral) µ= (Poblacional)
𝑛 𝑁
Datos Agrupados: Se utiliza cuando agrupamos datos en una tabla de frecuencias por intervalos o sin
intervalos, se halla multiplicando la marca de clase por la frecuencia absoluta de cada categoría (cuando
se encuentran en intervalos de clase) y sin intervalos se multiplica el valor de la variable por la frecuencia
absoluta, después se debe sumar todos los resultados y dividirlos entre el número total de datos, así como
se expresa en la fórmula:
Media Aritmética: Datos Agrupados
∑𝑥 𝑓 ∑ 𝑥𝑖 𝑓 𝑖
𝑋̄ = 𝑛𝑖 𝑖 (Muestral) µ= 𝑁
(Poblacional)
Ejemplo 1. Calcular la media aritmética de las notas obtenidas en un examen por una muestra de 8
estudiantes.
12 15 10 13 10 11 16 09
Interpretación: La nota promedio obtenida por los alumnos en dicho examen ha sido igual a 12
Ejemplo 2. Calcular la media aritmética del número de artículos defectuosos observado en 200 lotes.
28
Ejemplo 3. Hallar el peso promedio de 144 conservas de pescado “La Caserita”, cuyos pesos se
encuentran presentados en la siguiente tabla de frecuencias.
∑𝑘𝑖=1 𝑓𝑖 𝑥𝑖 23030
𝑋̄ = = = 160 𝑔𝑟𝑎𝑚𝑜𝑠 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒
𝑛 144
Mediana (Me): Es la medida de tendencia central, que supera a no más del 50% de los datos y es
superado por el otro 50% restante.
• Datos No Agrupados:
Primero ordenamos los datos de menor a mayor
Mediana: Datos no agrupados
Si el número de datos es impar: Si el número de datos es par:
La mediana es el valor central. La mediana es la semisuma de los dos valores
centrales.
Interpretación: Esto significa que el 50% de estas familias tienen un gasto mensual máximo de 580
soles y el 50% restante tienen un gasto mensual superior a 580 soles.
Interpretación: El 50% de los gastos mensuales de estas familias son como máximo 590 soles y el otro
50% son mayores a 590 soles.
Datos agrupados por frecuencias: La mediana se halla aplicando el mismo procedimiento que para
datos no agrupados.
29
Ejemplo La siguiente información corresponde al precio de cierto artículo observado en 20 tiendas
comerciales
Precio (soles) 𝒇𝒊 𝑭𝒊
11 4 4
12 6 10
13 5 15
14 3 18
15 2 20
Total 20
Por tratarse de un número par de datos, la mediana será el valor central; es decir el promedio de los
términos centrales.
𝑥10 + 𝑥11 12 + 13
𝑀𝑒 = = = 12,5
2 2
Interpretación: El precio máximo de dicho artículo observado en el 50% de estas tiendas comerciales
ha sido de 12,5 soles y en el 50% restante de estas tiendas se observó un precio mayor a 12,5 soles.
𝑛
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + 𝑐 [ 2 ]
𝑓𝑖
Ejemplo. La siguiente tabla nos muestra los sueldos en dólares de 68 trabajadores de una fábrica.
Calcular la mediana
Sueldos ( $ ) Nº de trabajadores Fi
500 – 700 13 13
700 – 1000 25 38
1000 – 1500 15 53
1500 – 2000 10 63
2000 – 3000 05 68
Total 68
Resolución
Primeramente, hallamos los Fi y como sabemos que n = 68 entonces se tiene que n/2 = 34; luego
34 − 13
𝑀𝑒 = 700 + 300 ( ) = 952
25
Moda (Mo): Es el valor más frecuente de la variable, el que se observa mayor número de veces.
Datos No Agrupados o agrupados por frecuencias: Se ubica el dato que más se repite.
30
Ejemplo 2 Hallar la moda en la siguiente distribución
Nº de hijos Nº de familias
0 80
1 120
2 210
3 380
4 180
5 60
6 ó más 40
Total 1070
La moda en este caso es 3; esto significa que estas familias tienen generalmente tres hijos.
Ejemplo La siguiente tabla nos muestra los sueldos en dólares de 68 trabajadores de una
fábrica. Calcular la mediana
Sueldos ( $ ) Nº de trabajadores
500 – 700 13
700 – 900 25
900 –1100 15
1100 –1300 10
1300 –1500 05
Total 68
12
𝑀𝑜 = 700 + ( ) 200 = 𝟖𝟎𝟗, 𝟎𝟗
12 + 10
Esto significa que el sueldo que comúnmente se ha registrado entre los trabajadores ha sido de 809.09
dólares.
Ejemplo. En una encuesta de consumidores de bebidas gaseosas se obtuvo los siguientes resultados:
Marcas de Nº de
gaseosa consumidores
Coca Cola 140
Inca Kola 160
Pepsi Cola 90
Sprite 100
Total 490
En este caso la moda es Inca Kola, ya que es la bebida gaseosa que ha tenido mayor preferencia entre
los consumidores.
31
EJERCICIOS DE MEDIDAS DE TENDENCIA CENTRAL
0,25𝑛1 = 𝑛2
2.- En una Compañía que maneja cuatro productos; los márgenes de utilidad y las totales de ventas
observados durante el año pasado aparecen en la siguiente tabla.
Resolución:
Considerando que las ventas totales no son las mismas para cada producto, utilizaremos un promedio
ponderado
32
Resolución:
Resolución: Consideremos:
n1 x̄ 1 + n2 x̄ 2
Ingreso per cápita: X̄ p = = $315 → Ingreso total = 315n
n
∑ 𝑥1
𝑥̄ 1 = → ∑ 𝑥1 = 𝑛1 𝑥̄ 1 𝐼ngreso total del Sector Público → ∑ 𝑥1 = 0,18(315𝑛) = 56,7𝑛
𝑛1
∑ x1 56,7n
luego x̄ 1 = = = 103,09 dólares (Ingreso promedio del Sector Público)
n1 0,55n
𝑛1 𝑥̄ 1 + 𝑛2 𝑥̄ 2 56,7𝑛 + 0,45𝑛(𝑥̄ 2 )
315 = = → 315 − 56,7 = 0,45𝑥̄ 2 → 𝑥̄ 2 = 574 𝑑ó𝑙𝑎𝑟𝑒𝑠
𝑛 𝑛
5.- Un grupo de 200 estudiantes, cuya estatura media es de 60,96
pulgadas se divide en dos grupos, uno con estatura media de 63,4
pulgadas y otro con una estatura de 57,3 pulgadas. ¿Cuántos
estudiantes hay en cada grupo?
6.- Una estación de servicio automotriz gasta $500 en la compra de latas de aceite que cuestan $10 la
docena; $500 en latas que cuestan $12,5 la docena; otros $500 en latas que cuestan $20 la docena y $500
en otras que cuestan $25 la docena.
Determinar el costo promedio por docena de las latas de aceite
33
Resolución:
2000 dólares
X= = 14,8 dólares/docena
135 docenas
34
EJERCICIOS PROPUESTOS
1. La siguiente tabla de frecuencias absolutas representa el número de facturas erradas por cada uno de
las 15 distribuidoras de una empresa durante un año.
N° de errores 1 3 5 6 7 10
Frecuencia absoluta 2 2 6 7 10 5
2. Una zapatería ha vendido en una semana los pares de calzado que se reflejan en la tabla:
Talla de
37 38 39 40 41 42 43 44 45
calzado
N° de pares 9 16 21 20 25 25 28 30 45
3. La empresa Luz del Sur está llevando a cabo un estudio minucioso acerca de los salarios que perciben
los obreros de esta institución, con la finalidad de realizar mejoras económicas entre su personal. La
siguiente tabla muestra los salarios que perciben una muestra de 30 de estos obreros:
Salarios Cantidad de
(soles) obreros
900-1050 6
1050-1200 5
1200-1350 8
1350-1500 3
1500-1650 5
1650-1800 3
Total 30
4. En una ciudad, se tomó una muestra aleatoria de 1059 personas y se les preguntó por su ingreso
mensual, en dólares, obteniéndose los siguientes resultados.
35
a. El ingreso promedio mensual de las 1058 personas
b. La cantidad de ingreso en dólares del 50% de las personas entrevistadas
c. La cantidad de ingreso en dólares modal de las personas entrevistadas
d. Calcule el coeficiente de asimetría
5. A continuación, se presentan los egresos económicos por día (en soles) de un grupo de familias para
cubrir su alimentación (desayuno, almuerzo, cena). Esta información ha originado el siguiente cuadro
de distribución de frecuencias:
EGRESOS fi
[60 – 63) 3
[63 – 66) 5
[66 – 69) 10
[69 – 72) 6
[72 – 75) 2
[75 – 78) 6
TOTAL 32
6. El área de recursos humanos del hospital realizó un análisis descriptivo sobre el tiempo de antigüedad
en meses que llevan los empleados en el hospital. Los resultados se muestran en el siguiente gráfico:
36
MEDIDAS DE POSICIÓN NO CENTRAL
Este tipo de medidas llamadas a veces medidas de posición no central, simplemente dividen a todo un
conjunto de datos en partes iguales. Los Cuantiles más comunes son los: Cuartiles, Deciles y Percentiles.
El Cuartil es el número que divide al conjunto de datos en 4 partes iguales, y se representa con la
letra Q. Entonces en un conjunto de datos existen tres cuartiles: Q1, Q2, y Q3, los que dividirán en
cuatro partes iguales a toda la muestra de datos.
La forma más sencilla de trabajar con cuartiles implica ordenar todos los datos (de menor a mayor), y
enseguida proceder a determinar:
Primer cuartil (Q1) que viene a ser el valor máximo del 25% inferior.
Segundo cuartil (Q2) que viene a ser el valor máximo del 50% de los datos previamente ordenados de
menor a mayor y es equivalente a la mediana
Tercer cuartil (Q3) que corresponde al valor máximo del 75% de los datos o también el valor mínimo
del 25% superior.
(𝑛+1)
Si es un entero, entonces Q1 es igual a la observación correspondiente al punto de posición.
4
Ordenando: 4 5 7 7 9 10 11 12 18 21 33
(𝑛+1)
Si 4
no es un entero entonces hacemos una interpolación lineal entre los dos valores
correspondiente a las dos observaciones entre las cuales se encuentra la fracción.
Ejemplo:
2210, 2255, 2350, 2380, 2380, 2390, 2420, 2440, 2450, 2550, 2630 2825
(𝑛+1) (12+1)
Como n = 12, entonces 4
= 4
= 3,25
En general para un número de “n” observaciones en el que los datos no están presentados en clases, una
vez ordenados los datos, la posición de los cuartiles se pueden localizar de la siguiente forma.
37
𝑘(𝑛+1)
k = 1,2,3
4
N° de hijos fi Fi
0 5 5
1 8 13
2 11 24
3 9 33
4 5 38
5 2 40
Total 40
𝑥20 +𝑥21 2+2
Me = 2
= 2
= 2 (es el promedio de los términos centrales)
Sueldos ( $ ) Nº de trabajadores Fi
500 – 700 13 13
700 – 1000 25 38
1000 – 1500 15 53
1500 – 2000 10 63
2000 – 3000 05 68
Total 68
68
− 13
𝑄1 = 700 + 300 [ 4 ] = 748
25
Esto nos indica que el 25 % de los trabajadores ganan menos de 748 dólares y que el 75 % restante de
los trabajadores ganan más de 748 dólares.
El Decil es el número que divide al conjunto de datos en 10 partes iguales, y se representa con la
letra D. Entonces en un conjunto de datos existen nueve deciles: D1, D2,……,D9, los que dividirán en
diez partes iguales a toda la muestra de datos.
38
El Percentil es el número que divide al conjunto de datos en 100 partes iguales, y se representa con la
letra P. Entonces en un conjunto de datos existen noventa y nueve percentiles: P1, P2, P3,….,P99 los
que dividirán en cien partes iguales a toda la muestra de datos.
La forma más sencilla de trabajar con cuartiles implica ordenar todos los datos (de menor a mayor), y
enseguida proceder a determinar:
Percentil 50 (P50) que corresponde al 50% del total de datos y es equivalente a la mediana, cuartil 2 y
decil 5.
NOTA. - A través del cálculo de los percentiles podemos hallar también deciles y cuartiles.
Para un número de “n” observaciones en el que los datos no son presentados en clases, una vez ordenados
los datos, la posición de los percentiles se pueden localizar de la siguiente forma.
𝑘(𝑛+1)
100
k = 1,2,3, … . ,99
Ejemplo. Los siguientes datos son los gastos realizados por la compra de medicamentos observado en
una muestra de 16 pacientes atendidos en una farmacia:
30 70 25 90 14 25 62 35 40 28 50 24
41 25 80 60
14 24 25 25 25 28 30 35 40 41 50 60 62
1 2 3 4 5 6 7 8 9 10 11 12 13
70 80 90
14 15 16
39
El gasto mínimo del 20% superior de los gastos, estará dado por el percentil 80 o decil 8
N° de hijos fi Fi
0 5 5
1 8 13
2 11 24
3 9 33
4 5 38
5 2 40
Total 40
Percentil 50 = Mediana = D5
Percentil 90 = D9
a) ¿Cuál es la cantidad mínima de colesterol del 25% de las personas de más alto dosaje?
40
Primeramente, hallamos el 0,75(80) = 60
60 − 58
𝑃75 = 270 + 45 [ ] = 279
10
Interpretación
La cantidad mínima de colesterol del 25% de las personas de más alto dosaje es 279 mg/100mL
b) Calcule el percentil 90 = D9
Hallaremos 0.90(80) = 72
72 − 68
𝑃90 = 315 + 45 [ ] = 337,5
8
Interpretación
La cantidad máxima de colesterol del 90% de las personas es de 337,5 mg/100mL y que el 10 %
restante de las personas tienen más de 337,5 mg/100mL.
41
EJERCICIOS PROPUESTOS
1. Suponga que Juan obtiene 86 en la calificación de un examen de inglés. Si esta puntuación
corresponde al percentil 90, entonces 90% de los estudiantes obtuvieron una puntuación menor que la
de Juan y 10% de los estudiantes obtuvieron una puntuación mayor.
2. Sobre las equivalencias que se presentan a continuación, indique cuales son VERDADERAS y
cuáles son FALSAS. Marque con un aspa la opción correcta.
AFIRMACIONES V F
Q1=P25
El segundo cuartil es la mediana
El noveno decil es igual al percentil 9
D7 = P70
El tercer cuartil equivale al percentil 75
El segundo cuartil es menor que el percentil 48
El séptimo decil es menor que el tercer cuartil
El 80% central de los datos se encuentra comprendido entre el decil 2 y el decil
6
El 90% central de los datos se encuentra comprendido entre el percentil 5 y el
percentil 95
Q3 = P3
Egresado 1 2 3 4 5 6 7 8 9 10 11 12
Sueldo
Mensual 3450 3550 3650 3480 3355 3310 3490 3730 3540 3925 3520 3480
inicial
4. Los datos de la tabla muestran información sobre la variable X que representa el número de años de
consumo de estupefacientes en una muestra de pacientes del Hospital Nacional del Centro. Completar
los datos que faltan en la siguiente tabla estadística:
Xi fi hi Fi
1 4 0,08
2 4
3 0,16 16
4 7 0,14
5 5 28
6 38
7 7 45
8
Total
42
CUANTIL VALOR INTERPRETACIÓN
D9
P20
Q3
5.Se realiza una estadística en la Institución Educativa “Fe y Alegría”, referente a la nota global de cada
uno de los estudiantes que van a acudir a los exámenes de selectividad. Las distribuciones de frecuencias
son las siguientes:
Nota global de
Frecuencias
cada alumno
5,5 10
6,5 15
7,5 20
8,5 30
6. En la tabla siguiente se muestra la distancia recorrida por 65 automóviles en un día. Calcular el cuartil
1, el decil 6 de los datos agrupados
7. Millones de estadounidenses trabajan para sus empresas desde sus hogares. A continuación, se
presenta una muestra de datos que dan las edades de estas personas que trabajan desde sus hogares.
18 54 20 46 25 48 53 27 26 37
40 36 42 25 27 33 28 40 45 25
¿Calcule la edad máxima del 30% de las personas más jóvenes que trabajan desde sus hogares?
8.Se analizan los salarios en una de las áreas de una compañía y se obtiene información de 7 salarios
en nuevos soles: 850.000, 740.000, 1350.000, 5565.000, 750.000, 650,000, 680.000.
Calcular el salario mínimo del 30% de los salarios más altos.
43
10.Se analizó el impuesto que se aplica, en diversos países de Asia, a la compra de instrumentos
musicales. Los resultados obtenidos fueron los siguientes:
11.La siguiente tabla, incompleta, muestra la distribución de los años de servicios del personal de una
empresa. La tabla tiene intervalos de igual amplitud.
Intervalos Punto medio fi Fi
3 8
20
50
90
24 - 110
120
Total 120
12. La siguiente distribución muestra las edades de los trabajadores de una empresa.
Edad N° de trabajadores
18 – 23 8
23 – 28 15
28 – 33 20
33 – 38 25
38 – 43 18
43 – 48 8
48 - 53 6
Por política de la empresa, la gerencia decide despedir al 20% de trabajadores más jóvenes y el 30%
de los trabajadores de mayor edad; después de esta reducción.
a) Encuentre los límites para ser despedido.
b) ¿Cuál es la edad mediana de los trabajadores de la empresa?
44
13. La distribución de las puntuaciones en una escala de hostilidad, de 160 sujetos de una muestra, ha
sido la siguiente:
Puntuación fi
0 - 10 10
10 – 20 22
20 – 30 32
30 – 40 44
40 – 50 28
50 – 60 20
60 – 70 4
15. A continuación, se muestra las calificaciones de 120 estudiantes en un examen de inglés del
BRITÁNICO.
Calificación N° de estudiantes
30 - 40 3
40 – 50 3
50 – 60 10
60 – 70 22
70 – 80 43
80 – 90 32
90 – 100 7
Determinar:
a) La calificación más baja lograda por el 25% superior de la clase.
b) La calificación más alta lograda por el 10% inferior de la clase.
45
MEDIDAS DE DISPERSIÓN
Una medida de variabilidad es un número que nos indica el grado de dispersión en un conjunto de datos.
Si el valor es pequeño (respecto a un valor central) entonces hay una gran uniformidad entre los datos
(homogénea).
Por el contrario, un gran valor nos indica poca uniformidad (heterogénea). Cuando es cero quiere decir
que todos los datos son iguales.
DATOS NO AGRUPADOS
∑(𝑥𝑖 − 𝜇)2
∑(𝑥𝑖 − 𝑥)2 𝜎2 =
𝑆2 = 𝑁
𝑛−1
DATOS AGRUPADOS
∑(𝑥𝑖 − 𝜇)2 . 𝑓𝑖
∑(𝑥𝑖 − 𝑥)2 . 𝑓𝑖 𝜎2 =
𝑆2 = 𝑁
𝑛−1
Desviación estándar:
Para eliminar el problema de la elevación al cuadrado de los datos en la varianza, se realiza una
transformación que consiste en calcular la raíz cuadrada de la varianza con lo que obtendríamos la
desviación estándar o típica.
DATOS NO AGRUPADOS
S=√S 2 σ=√𝜎 2
DATOS AGRUPADOS
S=√S 2 σ=√𝜎 2
Con lo que la desviación estándar o típica vendrá dada en las mismas unidades que los valores de la
variable.
La desviación estándar o típica siempre es positiva porque la varianza también lo es.
La desviación estándar o típica es la medida de dispersión óptima, más exacta, más estable y más
utilizada, sirviendo de base para las medidas de asimetría y correlación.
Ejemplo 1. Los siguientes datos son los pesos en onzas obtenidos a partir de una muestra de 7 frascos:
4 2 5 4 5 2 6
Resolución
Aplicamos la fórmula:
46
𝑛 2
∑𝑛
𝑖=1(𝑋𝑖 − ̄ )2 ∑𝑛𝑖=1 𝑋𝑖2 − (∑𝑖=1 𝑋𝑖 ) ⁄𝑛
𝑋
𝑆2 = =
𝑛−1 𝑛−1
X = 4 + 2 + 5 + ……………….+ 6 = 28
(28)2
126−
2
𝑆 = 7−1
7
= 2,33 𝑜𝑧 2
Dado que las unidades obtenidas están elevadas al cuadrado, es necesario expresarlo en sus unidades
respectivas, por lo que sacaremos su raíz cuadrada.
(∑ fixi)2
∑ fixi2 −
S2 = n
n−1
(566)2
11488 −
𝑆2 = 27
28
= 1,73 𝑎ñ𝑜𝑠 2
Lo cual significa que la edad promedio de estas personas es de 20,2 años con una desviación media de
1,3 años.
47
Ejemplo 3. Un laboratorio de análisis clínico proporciona la siguiente información sobre la distribución
de los contenidos de colesterol en la sangre de 80 personas adultas.
Colesterol Nº de
Xi Xifi Xi2fi
(mg/100mL) personas
45 – 90 4 67,5 270 18225
90 – 135 6 112,5 675 75937,5
135 – 180 11 157,5 1732,5 272868,75
180 – 225 16 202,5 3240 656100
225 – 270 21 247,5 5197,5 1286381,25
270 – 315 10 292,5 2925 855562,5
315 – 360 8 337,5 2700 911250
360 - 405 4 382,5 1530 585225
Total 80 18270 4661550
(∑ fixi)2
∑ fixi2 −
S2 = n
n−1
(18270)2
4661550 −
2 80
S = 79
4661550−4172411.25
S2 = = 6191,63 (mg/100ml)2
79
S = 78,7 mg/100ml
Propiedades de la Varianza:
2. Var(𝑥) = 0, si x=constante. La varianza de una constante es cero (todos los datos son iguales)
3. Var(𝑎𝑥) = a 2 Var(𝑥), si se tiene la varianza de un conjunto de datos y a cada observación se multiplica
por una constante, entonces la nueva varianza de los datos se obtiene multiplicando a la varianza de los
datos por a 2 .
4. Var (𝑥 + 𝑏) = Var(𝑥). Si a todos los valores de la variable se les suma un mismo número, la varianza
no varía.
5. 𝑉𝑎𝑟(𝑎𝑥 + 𝑏) = a 2 𝑉𝑎𝑟(𝑥)
Si todos los valores de la variable se multiplican por un mismo número y luego se le suma otro número,
la varianza queda multiplicada por el cuadrado de la constante a.
6. Las unidades de medida de la varianza son las unidades de los datos al cuadrado.
Rango o amplitud: Es la medida de variabilidad más sencilla entre todas las mencionadas.
El rango de un conjunto de datos es la diferencia entre dato mayor y el dato menor:
𝑅 = 𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
48
Donde:
Xmax: Valor máximo observado de la variable
Xmín: Valor mínimo observado de la variable
Coeficiente de Variación: Es una medida de dispersión relativa que se usa para comparar la variación
en diferentes conjuntos de datos que no vienen dadas en las mismas unidades o que las medias no son
iguales, el cual mide la magnitud de la desviación estándar en relación a la media aritmética, expresada
como porcentaje:
𝑆
𝐶𝑉 =
𝑥
Ejemplo 1. Supongamos que un grupo de niños de 7 años tenga una talla media de 45 pulgadas con
σ = 2,5 y un peso medio de 50 libras con σ = 6 libras. ¿En cuál de las dos características es más variable
este grupo?
Otros ejemplos:
1.- El coeficiente de variación de los ingresos mensuales de 100
empleados de una compañía es 0,6. Después de un aumento general
de S/. 90 mensuales para cada uno de los trabajadores de la compañía,
el coeficiente de variación es ahora de 0,55. Determinar la cantidad de
dinero que necesitará mensualmente la compañía para pagar los
sueldos después de hacer efectivos los aumentos.
Antes Después
𝑆 𝑆
𝐶. 𝑉 = = 0,6 𝐶. 𝑉 = = 0,55
𝑋̅ 𝑋̅ + 90
Luego: Dinero total para pagar los sueldos será 100(1080) = 108,000 𝑠𝑜𝑙𝑒𝑠
49
2.- Una muestra de 70 datos da una media de 120 y una desviación
estándar de 6; otra muestra de 30 datos da una estándar de 5. Se reúnen
las dos muestras formando una sola muestra de 100 datos. Calcule el
coeficiente de variación de esta muestra de 100 datos.
Solución: Se tiene que:
𝑛1 = 70 𝑛2 = 30
𝑋̅1 = 120 𝑋̅2 = 125
𝑆1 = 6 𝑆2 = 5
𝑆
Hallaremos: 𝐶. 𝑉 =
𝑋̅
𝒏 𝑿 +𝒏 𝑿 ̄ ̄
𝟕𝟎(𝟏𝟐𝟎)+𝟑𝟎(𝟏𝟐𝟓)
en este caso 𝑿̄ = 𝟏 𝟏 𝟐 𝟐 = = 𝟏𝟐𝟏, 𝟓
𝒏𝟏 +𝒏𝟐 𝟕𝟎+𝟑𝟎
(∑ 𝑿)𝟐⁄
2 ∑ 𝑿𝟐 − 𝒏
Sabemos que: 𝑆 = 𝒏−𝟏
(∑ 𝑿𝟏 +∑ 𝑿𝟐 )𝟐⁄
(∑ 𝑿𝟐𝟏 +∑ 𝑿𝟐𝟐 )− 𝒏
en este caso por tratarse de dos grupos 𝑺𝟐 =
𝒏−𝟏
(∑ X1 )2⁄ 2
∑ X12 − n1 ∑ X12 − (8400) ⁄70
S12 = → 36 = → ∑ X12 = 1010484
n1 − 1 69
(∑ X 2 )2⁄ 2
∑ X 22 − n2 ∑ X 22 − (3750) ⁄30
S22 = → 25 = → ∑ X 22 = 469475
n−2 29
(12150)2⁄
1479959− 100
Luego, 𝑆 2 = = 37,72 𝑢2 → 𝑆 = 6,14𝑢
99
6,14
Por lo tanto C. V = x100% = 5,05%
121,5
50
EJERCICIOS PROPUESTOS
1. La cadena de gimnasios Millenium Fit Spa ha evaluado el pago por concepto de membresía (en
dólares), de sus clientes de tres tipos: Estándar, Ejecutiva y Premium, encontrando la siguiente
información para una muestra de 200 clientes de cada tipo de membresía
51
Banda salarial (miles de dólares) N° de controladores encuestados
36-40 80
40-44 96
44-48 50
48-52 46
52-56 28
VARIABLE
TIPO
ESCALA
c) El ministro ha señalado que, dado que el gobierno plantea el incremento del salario de los
controladores aéreos en 4000 dólares al año, esto permitirá que los salarios sean más
homogéneos. Señale como afectaría este incremento a las medidas de dispersión (tanto absolutas
como relativas) de la variable en estudio.
3. De las mediciones biométricas efectuadas con cierto número de estudiantes se han extraído los
siguientes datos:
Los varones de 17 años tienen un peso medio de 60,8 kg. con una desviación estándar de 6,69 kg.
Los varones de 10 años tienen un peso medio de 30,5 kg y una desviación estándar de 5,37 kg
A partir de los datos anteriores se puede afirmar que el peso es más variable a los 10 años que a los 17
años. Rpta. Efectivamente el peso es más variable a los 10 años.
52
5.Cierta fábrica tiene un departamento de producción y otro de ventas. Las tablas que se muestran a
continuación muestran los salarios percibidos hasta fines de mayo de este año (expresado en miles de
soles):
6. Dos países son igual de ricos, porque tienen la misma renta per cápita (o renta media), de 8000 dólares
al año. Pero en el país A la desviación típica es de 1000 dólares y en el país B es de 4000 dólares. ¿Qué
podemos decir sobre la distribución de la riqueza de ambos países gracias a este dato?
7. Determinar la varianza del conjunto de observaciones x1, x2, x3, x4, x5, a los cuales se les ha restado
4, obteniéndose el siguiente conjunto: 3, 0, 2, 4, 1.
8. La empresa Atención SAC, se preocupa por brindar un servicio adecuado a sus clientes y brinda
especial interés a los reclamos que presentan sus clientes, así como el tiempo que les toma atender dichos
reclamos. El servicio de atención a los clientes se brinda en dos turnos, mañana y tarde, por dos grupos
distintos de analistas. El jefe de calidad ha considerado importante analizar los resultados de la atención
en cada uno de estos turnos, a fin de determinar si existe variación, por lo que obtuvo información del
tiempo que demoró la atención a los clientes:
Turno Mañana
12 12 13 13 14 14 14 14 14 15
15 16 16 16 18 18 18 19 19 19
20 20 20 20 20 21 22 22 22 23
23 23 24 24 24 24 24 24 24 24
Turno Tarde
8 8 9 9 10 10 10 10 10 12
12 13 13 13 15 15 15 16 16 16
17 17 17 17 17 18 19 19 19 20
20 20 21 21 21 24 24 25 26 26
a) ¿En qué rango se encuentra el tiempo de atención a los clientes en cada turno?
b) Calcule la varianza en los turnos mañana y tarde.
53
b. Construya una gráfica de caja que muestre los valores atípicos y comente sobre cualquier
característica interesante.
10. Se obtuvieron observaciones de resistencia al estallamiento (lb/ pulg2) mediante pruebas con
soldaduras de cierre de tobera, así como con soldaduras para tobera de envases de producción
Prueba 7200 6100 7300 7300 8000 7400 7300 7300 8000 6700 8300
Envase 5250 5625 5900 5900 5700 6050 5800 6000 5875 6100 5850 6600
Construya una gráfica de caja comparativa y comente sobre las características interesantes.
54
ASIMETRÍA Y CURTOSIS
ASIMETRÍA
Si:
𝟑(𝐱̅ − 𝐌𝐞)
As < 0 Distribución Asimetría negativa 𝐀𝐬 =
As = 0 Distribución Simétrica
𝐬
As > 0 Distribución Asimetría positiva
c) Medida de Fisher
Datos sin agrupar:
∑(𝑥𝑖 − 𝑥̅ )2
𝐴𝑠 =
𝑛𝜎 2
Cálculo en el SPSS:
55
CURTOSIS
K<0 Platicurtica
K = 0 Mesocurtica
K>0 Leptocurtica
Cálculo en SPSS
56
EJERCICIOS PROPUESTOS
2 5 3 4 1 2 0 3 4 2
3.Se evalúo a una sección de estudiantes que llevaron el curso de Estadística en el Ciclo Verano de una
universidad peruana. Determine la asimetría y curtosis que presentan los siguientes datos.
Notas fi
0–5 3
5 – 10 5
10 – 15 12
15 – 20 10
Total
57
5. Se evaluó a un grupo de estudiantes de la carrera de Estomatología
para establecer la cantidad de piezas dentales que extraen por día.
2 1 3 3 4 5 7 2
6.Un grupo de jóvenes de la Facultad de Ingeniería han sido encuestados en relación a su estatura. Los
datos se han procesado mediante el IBM SPSS. Los resultados se muestran en la tabla adjunta. Calcule
los coeficientes de asimetría de Pearson e indique si la distribución de estaturas es simétrica o asimétrica.
8. Dadas las siguientes mediciones de la emisión diaria (en toneladas) de óxido de azufre en una planta
industrial: Construya una distribución de frecuencias y luego calcule los coeficientes de asimetría y
curtosis:
58
PROBABILIDADES DISTRIBUCIONES: BINOMIAL,
POISSON, NORMAL, MUESTRAL
59
PROBABILIDADES
CONCEPTOS BÁSICOS:
Experimento aleatorio: Es un proceso cuyo resultado no puede ser predicho de anterioridad con
seguridad.
Ejemplo:
a) lanzamiento de una moneda
b) lanzamiento de un dado
Ejemplo:
a) A = {obtener un número impar al lanzar un dado}
A = {1, 3, 5}
Notación de probabilidades:
P: denota una probabilidad.
A, B, y C. denotan eventos específicos.
P(A): denota la probabilidad de que ocurra el evento A.
Probabilidad de un evento
La probabilidad del evento A es el cociente entre el número de resultados favorable a la ocurrencia del
evento A y el número de resultados posibles.
Características
Sea un espacio muestral y sean A y B dos eventos cualesquiera de este:
• P(Ω) = 1 P(Փ) = 0
• 0 ≤ P(A) ≤ 1
• Si A y B son eventos no disjuntos de Ω, se cumple que: P(A ∪ B) = P(A) + P(B) - P(A∩B)
• Si A y B son eventos disjuntos de Ω, se cumple que: P(A ∪ B) = P(A) + P(B)
60
EJERCICIOS DE PROBABILIDADES
1.- En una compañía hay 6 varones y 4 damas que aspiran a ser
miembros de un comité. Si se debe escoger dos al azar. ¿Cuál es la
probabilidad de que:
a) Los dos sean hombres
b) Sean un hombre y una mujer o dos mujeres.
Resolución:
a) Sea el evento A = {Los dos sean hombres}
6
( ) 1
𝑃(𝐴) = 2 =
10
( ) 3
2
6 4 4
( ) ( ) + ( ) 24 + 6 2
𝑃(𝐵 ∪ 𝐶) = 𝑃(𝐵) + 𝑃(𝐶) → 𝑃(𝐵 ∪ 𝐶) = 1 1 2 = =
10 45 3
( )
2
2.- Un lote contiene 100 artículos de los cuales 20 son defectuosos.
Se inspecciona del siguiente modo. Se sacan 5 artículos del lote: si los
5 son buenos se acepta el lote; en otro caso se rechaza. ¿Cuál es la
probabilidad de rechazar el lote?
P(Rechazar el lote) = P ( X = 1 ) + P ( X = 2 ) + P ( X = 3 ) + P ( X = 4 ) + P ( X = 5 )
61
Hallaremos 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝑆𝑒𝑎 𝑐𝑜𝑛𝑡𝑟𝑎𝑡𝑎𝑑𝑜 𝑒𝑛 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑐𝑜𝑚𝑝𝑎ñ𝑖𝑎𝑠)
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
Por otro lado 𝑃(𝐴′ ∪ 𝐵′) = 𝑃(𝐴 ∩ 𝐵)′ = 1 − 𝑃(𝐴 ∩ 𝐵) = 0,6 → 𝑃(𝐴 ∩ 𝐵) = 0,4
Luego, 𝑃(𝐴 ∪ 𝐵) = 0,7 + 0,5 − 0,4 = 0,8
15 1 14
40 40 40
15+14 29
Luego 𝑃(𝐴𝐵′ ∪ 𝐵𝐴′ ) = = = 0,725
40 40
62
4
( ) 4
𝑃(𝑋 = 3) = 3 = = 0,033
10 120
( )
3
𝑏)𝑃(𝑋 ≥ 2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) X: Nº de pacientes no expuestos a contraer
6 4 6
( )( ) 60 ( ) 20
𝑃(𝑋 = 2) = 2 1 = 𝑃(𝑋 = 3) = 3 =
10 120 10
( ) ( ) 120
3 3
60+20
Luego 𝑃(𝑋 ≥ 2) = 120
= 0,667
PROBABILIDAD CONDICIONAL
Se trata de dos eventos A y B definidos en un mismo espacio muestral, en donde uno de ellos
(evento B) ya ocurrió, es decir se conoce su resultado.
𝑷(𝑨 ∩ 𝑩)
𝑷(𝑨/𝑩) =
𝑷(𝑩)
63
OTRO MÉTODO: DIAGRAMA DEL ÁRBOL
D
P(D/A) = 0,08
A P(D’/A) = 0,92
P(A) = 0,40
D’
P(B)=0,35 P(D/B) = 0,09
B D
P(D’/B) = 0,91
P(C) = 0,25
D’
C P(D/C) = 0,10
D
P(D’/C) = 0,9
D’
b) Ahora hallaremos la probabilidad que un artículo sea proveniente del proveedor A, sabiendo
que el artículo seleccionado salió defectuoso.
D
P(A ∩ D) P(A)P (A) 0,40x0,08
P(A/D) = = = = 0,36
P(D) P(D) 0,0885
Ejemplo 2.- Una cierta prueba médica tiene una efectividad de 99%
para descubrir la presencia o no de una enfermedad (resultado positivo
cuando realmente lo tiene o negativo cuando realmente no lo tiene).
Se aplica masivamente la prueba a una población en la cual hay 1%
de individuos con la enfermedad; se desea saber qué porcentaje de los
individuos con resultados positivos tendrán efectivamente la
enfermedad.
Resolución: Sean los eventos
𝑃 = {𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑠𝑒𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜}
𝐸 = {𝑃𝑒𝑟𝑠𝑜𝑛𝑎 𝑡𝑒𝑛𝑔𝑎 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑} → 𝑃(𝐸) = 0,01
𝐸
Se pide hallar 𝑃 ( )
𝑃
𝑃 𝑃(𝐸∩𝑃)
Se sabe que: 𝑃 (𝐸 ) = 0,99 = 𝑃(𝐸)
→ 𝑃(𝐸 ∩ 𝑃) = 0,99𝑥0,01 = 0,0099
64
𝑃′ 𝑃(𝐸′ ∩ 𝑃′)
𝑃 ( ) = 0,99 = → 𝑃(𝐸′ ∩ 𝑃′) = 0,99𝑥0,99 = 0,9801
𝐸′ 𝑃(𝐸′)
𝑬 𝑷(𝑬∩𝑷) 𝟎,𝟎𝟎𝟗𝟗
Luego 𝑷 (𝑷) = 𝑷(𝑷)
= 𝟎,𝟎𝟏𝟗𝟖 = 𝟎, 𝟓
P
P ( P/E ) = 0,99
E P ( P’/E ) = 0,01
P ( E ) = 0,01
P’
P
P ( E’) = 0,99 P ( P/E’ ) = 0,01
E’
P ( P’/E’) = 0,99
P’
Ahora hallaremos la probabilidad que un resultado sea positivo, sabiendo que realmente tiene la
enfermedad.
P (E P ) P (E ) P (P / E ) 0.01 x 0.99
P (E / P ) = = = = 0.50
P(P) P (P ) 0.0198
65
EVENTOS INDEPENDIENTES
Dos eventos A y B son independientes si la ocurrencia de uno no afecta la ocurrencia del otro
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∩ 𝑃(𝐵)
Ejemplo 1.- La proporción general de artículos defectuosos en un
proceso continuo es 0.10. Cuál es la probabilidad de que elegidos dos
al azar:
a) Ninguno sea defectuoso
b) Cuando menos uno no tenga defectos
66
EJERCICIOS PROPUESTOS
4.- Se estima que el 30% de los habitantes de EEUU son obesos y que el 3% sufre de diabetes. El 2%
son obesos y sufren de diabetes. Calcular la probabilidad de que una persona elegida al azar.
a) Sea obesa o sufra de diabetes. Rpta. 0,31
b) Sea obesa pero no sufra de diabetes. Rpta 0,28
5.- De todos los pacientes con cáncer, el 52% son mujeres. El 40% de todos los pacientes sobrevive al
menos 5 años desde el momento del diagnóstico. No obstante, esta tasa de sobrevivencia es válida
solamente para el 35% de las mujeres. ¿Cuál es la probabilidad de que un paciente con cáncer
seleccionado aleatoriamente sea mujer y sobreviva al menos 5 años? Rpta. 0,182
67
6.- Una empresa constructora del programa MI VIVIENDA descubrió
que sólo el 20% de todos los trabajos se terminaban a tiempo; mientras
que el 30% sufrían sobrecostos. Además, los sobrecostos se
presentaban el 75% de las veces en las que se terminaban el trabajo a
tiempo. El propietario de la empresa desea conocer la probabilidad de
que un trabajo:
a) Tenga sobrecostos y se termine a tiempo Rpta. 0,15
b) Tenga sobrecostos o se termine a tiempo. Rpta. 0,35
c) Se termine a tiempo, dado que no tiene sobrecostos. Rpta. 0,0714
7.- La distribución de los tipos de sangre en EEUU entre los individuos de raza blanca es
aproximadamente la siguiente: A: 40% B = 11% AB = 4% O = 45%
Tras un accidente automovilístico, un individuo de raza blanca es conducido a una clínica de
emergencia. Se le hace un análisis de sangre para establecer el grupo al que pertenece. ¿Cuál es la
probabilidad de que sea del tipo A o del B? Rpta. 0,51
9.- De 1000 jóvenes de 18 años, 600 tienen empleo y 800 son bachilleres. De los 800 bachilleres, 500
tienen trabajo. ¿Cuál es la probabilidad de que un joven de 18 años tomado aleatoriamente sea:
a) Un bachiller empleado
b) Empleado pero no bachiller
c) Desempleado o un bachiller
d) Desempleado o no bachiller
10.- El Sr. Conti, propietario de un restaurante, ha mejorado la infraestructura para una buena
presentación. Observa que el 25% de todos los autos que pasan por allí, se detienen para consumir algún
alimento.
a) ¿Cuál es la probabilidad de que los próximos cuatro carros se detengan?
b) ¿Cuál es la probabilidad de que el primer auto pare, que el segundo y tercero no lo hagan y el cuarto
pare?
12.- Con base en su experiencia un médico ha recabado la siguiente información, relativa a las
enfermedades de sus pacientes: 5 % creen tener cáncer y lo tienen; 45 % creen tener cáncer y no lo
tienen; 10 % no creen tener, pero sí lo tienen; y finalmente 40 % creen no tenerlo, lo cual es cierto. De
entre los pacientes del doctor se seleccionó uno al azar
a) Cuál es la probabilidad que el paciente tenga cáncer? Rpta. 0,15
b) Cuál es la probabilidad de que el paciente tenga cáncer, si cree no tenerlo? Rpta. 0,2
68
13.- Se estima que el 15 % de la población adulta padece de
hipertensión, además se sabe que el 75% de todos los adultos creen
no tener este problema. Se estima también que el 6 % de la población
tiene hipertensión, pero no es consciente de padecer dicha
enfermedad.
a) Si un paciente adulto cree que no tener hipertensión. ¿Cuál es la
probabilidad de que la enfermedad, de hecho, exista? Rpta. 0,08
b) Si la enfermedad existe. ¿Cuál es la probabilidad de que el paciente
lo sospeche? Rpta. 0,60
14.- Sólo el 60% de los estudiantes de la clase de matemática del Profesor X pasaron la primera prueba.
De quienes pasaron el 80% estudiaron, el 20% de quienes no pasaron si estudiaron.
a) ¿Cuál es la probabilidad de que un estudiante pase o estudie?
b) ¿Cuál es la probabilidad de que un estudiante pase, pero no estudie?
15.- El 5% de las unidades producidas en una fábrica se encuentran defectuosas cuando el proceso de
fabricación se encuentra bajo control. Si el proceso se encuentra fuera de control, se produce un 30% de
unidades defectuosas. La probabilidad marginal de que el proceso se encuentre bajo control es de 0,92.
Si se escoge aleatoriamente una unidad y se encuentra que es defectuosa, ¿Cuál es la probabilidad de
que el proceso se encuentre bajo control?
17.- Se estima que la probabilidad de que una compañía B tenga éxito al comercializar un producto es
de 0,95 si su competidora la compañía A no interviene en el mercado; y es de 0,15 si la compañía A
interviene en el mercado. Si se estima que A intervendría en el mercado con probabilidad de 0,7
a) ¿Cuál es la probabilidad de que la compañía B tenga éxito? Rpta. 0,39
b) Si la compañía B no tuviera éxito ¿En cuánto se estima la probabilidad de que A intervenga en el
mercado? Rpta. 0,975
18.- Contratistas S.A. está negociando dos contratos. La Gerencia piensa que la probabilidad de ganar
el primer contrato es de 60% y que el ganador tendrá ventaja definitiva en la negociación del segundo
contrato. La Gerencia cree que si Contratistas S.A gana el primer contrato va a tener un 70% de
probabilidad de ganar el segundo contrato, en caso contrario disminuirá a 0,10.
a) ¿Cuál es la probabilidad de que Contratistas S.A. pierda ambos contratos? Rpta. 0,36
b) ¿Cuál es la probabilidad que gane el segundo contrato? Rpta. 0,46
69
20.- En un cajón hay 80 artículos buenos y 20 malos; en un segundo
cajón el 30% son malos y en un tercer cajón el 25% son malos. Se sabe
que el número de artículos del tercer cajón es el triple de los que hay
en el segundo y que en total hay 260 artículos. Se mezclan los artículos
de las cajas.
a) Si se extrae al azar un artículo. Calcule la probabilidad de que sea
malo si se sabe que pertenece al 2𝑑𝑜 cajón. Rpta. 0,3
b) Si se extraen al azar dos artículos. Calcule la probabilidad de que el
primero y el segundo sean malos. Rpta. 0,056
21.- Se ha determinado que el porcentaje de televidentes que ven los programas A, B y C son
respectivamente 0,4. 0,5 y 0,3. Cada televidente ve los programas independientemente uno del otro. Si
se elige al azar a uno de tales televidentes. ¿Qué probabilidad hay de que vea:
a) Dos de los tres programas. Rpta. 0,29
b) Al menos uno de los tres programas. Rpta. 0,79
22.- En cierta región la probabilidad de que llueva en cualquier día del año es 0,1. Suponiendo la
independencia de un día con otro. ¿Cuál es la probabilidad de que la primera lluvia ocurra después de
14 días sin lluvia? Rpta. 0,023
70
c)Si se seleccionan al azar tres resistencias de la caja, ¿cuál es la probabilidad que dos sean de 5 ohmios
y una de 8 ohmios?
26.- En un estudio de 420000 usuarios de teléfono celular de
Movistar, se encontró que 135 desarrollaron cáncer cerebral o del
sistema nervioso. Estime la probabilidad de que un usuario de
teléfono celular que se seleccionó al azar desarrolle un cáncer de este
tipo. ¿Qué sugiere el resultado acerca de los teléfonos celulares como
causantes de cáncer de este tipo?
27.- En la fabricación de un cierto tipo de clavos, aparecen un cierto número de ellos defectuosos. Se
han estudiado 200 lotes de 500 clavos cada uno obteniendo:
Clavos defectuosos 1 2 3 4 5 6 7 8
Nº de lotes 5 15 38 42 49 32 17 2
29.- Suponga que la empresa TEC adquiere sus productos de tres proveedores: A, B y C. El proveedor
A suministra el 60% de sus productos, el proveedor B el 30% y el proveedor C el 10%. La calidad de
sus productos varía entre los proveedores, siendo las tasas defectuosas del proveedor A 0,25%, del
proveedor B 1% y del proveedor C 2%. Se selecciona un producto al azar:
a) ¿Cuál es la probabilidad de que el producto sea defectuoso?
b) Cuando se encuentre un producto defectuoso. ¿Cuál será el proveedor más probable?
71
a)¿Cuál es la probabilidad de que se encuentre defectuosamente envasado?
b)¿Cuál es la probabilidad de que se encuentre bueno?
32. -En un laboratorio hay tres jaulas. En la jaula I hay 4 conejos negros y 2 blancos, la jaula II tiene 4
conejos negros y 4 blancos y la jaula III contiene 5 conejos negros y 6 blancos. Se selecciona al azar
una de las jaulas y se saca un conejo al azar de esa jaula. ¿Cuál es la probabilidad que el conejo escogido
sea blanco?
33.- El 70% del ganado es inyectado con una vacuna para combatir
una enfermedad grave. La probabilidad de recuperarse de la
enfermedad es 1 en 20 si no ha habido tratamiento y de 1 en 5 si hubo
tratamiento. Si un animal infectado se recupera, ¿Cuál es la
probabilidad de que haya recibido la vacuna preventiva?
34.-Una unidad de producción de enlatados de atún marca “Campomar” produce 9000 envases diarios.
La máquina A produce 3000 de estos envases, de los cuales 2% son defectuosos y la maquina B
produce el resto, se sabe que de la maquina B, el 4% son defectuosos. Calcular:
a) La probabilidad de que un envase elegido al azar este defectuoso.
b) La probabilidad de que proceda de la maquina B, si el envase tiene defectos.
c) La probabilidad de que proceda de la maquina A, si el envase tiene defectos.
72
DISTRIBUCIÓN DISCRETA
DISTRIBUCIÓN BINOMIAL
Una distribución de probabilidad binomial resulta de un procedimiento que cumple con todos los
siguientes requisitos:
1. El procedimiento tiene un número fijo de ensayos.
2. Los ensayos deben ser independientes. (El resultado de cualquier ensayo individual no afecta las
probabilidades de los demás ensayos).
3. Todos los resultados de cada ensayo deben estar clasificados en dos categorías (generalmente
llamadas éxito y fracaso).
𝒏
𝑷(𝑿 = 𝒙) = ( ) 𝒑𝒙 𝒒𝒏−𝒙 , 𝒙 = 𝟎, 𝟏, 𝟐, 𝟑, . . . . . . . . . . . . . . . . . , , 𝒏
𝒙
𝟐𝟎
𝑷(𝑿 = 𝟎) = ( ) (𝟎, 𝟎𝟓)𝟎 (𝟎, 𝟗𝟓)𝟐𝟎 = 𝟎, 𝟑𝟔
𝟎
73
Ejemplo 2.- El 20% de todas las mujeres que reciben a un vendedor
de aspiradoras en sus hogares terminan por comprar una. ¿Cuál es la
probabilidad de que entre 6 mujeres que admiten la demostración del
vendedor en sus casas:
a) Exactamente dos compren una aspiradora.
b) Al menos una acabe por comprar la aspiradora.
c) A lo más una no compre una aspiradora.
Resolución:
a) Exactamente dos compren una aspiradora
luego hallaremos P(X=2) en donde X: Número de mujeres que compran aspiradoras.
𝟔
𝑷(𝑿 = 𝟐) = ( ) (𝟎, 𝟐)𝟐 (𝟎, 𝟖)𝟒 = 𝟎, 𝟐𝟒𝟓𝟕𝟔
𝟐
Interpretación: Aproximadamente el 25% de las veces que 6 mujeres admitan al vendedor hacer
demostraciones en sus casas; 2 de ellas terminarán comprando una aspiradora.
Interpretación: El 74 % de las veces que 6 mujeres admitan al vendedor hacer demostraciones en sus
casas; al menos una de ellas acabará comprando una aspiradora.
Ejemplo 3.- En una empresa donde los empleados son 80% hombres
y 20% mujeres; están aptos para jubilarse el 10% de las mujeres y el
15% de los hombres. De 5 solicitudes para jubilarse ¿Cuál es la
probabilidad de que al menos dos estén aptos para jubilarse?
Resolución:
Sea X: N° de empleados aptos para jubilarse
74
Por lo tanto 𝑷(𝑿 ≥ 𝟐) = 𝟏 − 𝟎, 𝟖𝟓𝟑𝟑 = 𝟎, 𝟏𝟒𝟔𝟕
Interpretación: El 14,67% de las veces que 5 personas presentan sus solicitudes para jubilarse; por lo
menos dos de ellas estarán aptos para jubilarse.
Resolución:
Resolución:
𝑛
𝑃[𝑋 = 𝑥] = ( ) 𝑝 𝑥 𝑞 𝑛−𝑥 𝑥 = 0,1,2,3, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 𝑛
𝑥
5
𝑃(𝑋 = 4) = ( ) (0,3)4 (0,7)1 = 0,02835
4
5
𝑃(𝑋 = 5) = ( ) (0,3)5 (0,7)0 = 0,00243
5
Interpretación: Aproximadamente el 3,1% de las veces que cinco pacientes se traten con este
medicamento, al menos cuatro se curarán
75
Ejemplo 6.- Se somete a un estudiante a un examen del tipo verdadero
– falso que contiene 10 preguntas; para que apruebe debe responder
correctamente a 8 preguntas o más. Si el estudiante está adivinando.
¿Cuál es la probabilidad de que apruebe el examen?
𝟏𝟎
𝑷(𝑿 = 𝟖) = ( ) (𝟎, 𝟓)𝟖 (𝟎, 𝟓)𝟐 = 𝟎, 𝟎𝟒𝟑𝟗𝟒𝟓
𝟖
𝟏𝟎
𝑷(𝑿 = 𝟗) = ( ) (𝟎, 𝟓)𝟗 (𝟎, 𝟓)𝟏 = 𝟎, 𝟎𝟎𝟗𝟕𝟔𝟓
𝟗
𝟏𝟎
𝑷(𝑿 = 𝟏𝟎) = ( ) (𝟎, 𝟓)𝟏𝟎 (𝟎, 𝟓)𝟎 = 𝟎, 𝟎𝟎𝟎𝟗𝟕𝟔
𝟏𝟎
Interpretación: Si se le planteara 10 preguntas del tipo verdadero-falso y esto se repitiera varias veces;
en el 5,5% de estas veces el responderá al menos ocho preguntas correctamente.
76
DISTRIBUCIÓN DE POISSON
Una distribución de probabilidad Poisson resulta de un procedimiento que cumple con todos los
siguientes requisitos:
1. El experimento consiste en contar el número “x” de veces que ocurre un evento en particular durante
una unidad de tiempo dada, o en un área o volumen dado.
2. La probabilidad de que un evento ocurra en una unidad dada de tiempo, área o volumen es la misma
para todas las unidades.
3. El número de eventos que ocurren en una unidad de tiempo, área o volumen es independiente del
número de los que ocurren en otras unidades.
4. El número medio (o esperado) de eventos en cada unidad se denota por la letra griega µ (“mu”)
Estudia a los eventos independientes que suceden con muy poca frecuencia y que ocurren en un
determinado espacio, volumen o tiempo.
𝑒 −𝜇 . 𝜇 𝑥
𝑃[𝑋 = 𝑥] =
𝑥!
X= 0, 1, 2, 3, 4 ……………….
a) Hallaremos P (X = 2)
X: Nº de llamadas en una hora µ=3
𝑒 −𝜇 . 𝜇 𝑥
𝑃[𝑋 = 𝑥] =
𝑥!
𝑒 −3 32
Luego 𝑃(𝑋 = 2) = = 0,224
2!
77
𝑒 −4.5 (4,5)1
𝑃(𝑋 = 1) = = 4,5𝑒 −4,5
1!
Luego 𝑃(𝑋 ≥ 2) = 1 − 5.5𝑒 −4,5 = 1 − 0,0611 = 0,9389
Resolución:
a) Este es un problema de tipo binomial, pero dado que np ≤ 1 puede ser resuelto también a través
de Poisson; con el cual hallaremos un resultado bastante aproximado
𝑒 −1 10
𝑃(𝑋 = 0) = = 𝑒 −1
0!
𝑒 −1 11
𝑃(𝑋 = 1) = = 𝑒 −1
1!
𝑒 −1 12 𝑒 −1
𝑃(𝑋 = 2) = =
2! 2
Luego 𝑃(𝑋 < 3) = 2,5𝑒 −1 = 0,92
Resolución:
𝑒 −𝜇 . 𝜇 𝑥
𝑃[𝑋 = 𝑥] =
𝑥!
Donde:
µ= Promedio de bacterias en 1/3 de cc = 1
𝑒 −1 10
Luego 𝑃(𝑋 = 0) = = 𝑒 −1 = 0,368
0!
Respuesta: La probabilidad de que no contenga bacteria alguna una muestra de 1/3 de cc es 36,8%.
78
b) 𝑃(𝑋 ≥ 1) = 1 − 𝑃(𝑋 = 0)
X: N° de bacterias en una muestra de 2cc
µ: Número promedio de bacterias en 2 de cc µ= 6
𝑒 −6 60
𝑃(𝑋 = 0) = = 𝑒 −6
0!
Luego: 1 − 𝑒 −6 = 0,9975
Respuesta: La probabilidad de que contenga por lo menos una bacteria una muestra de 2 cc es 99.75%.
Resolución:
Interpretación: El número promedio de niños que no queden inmunizados contra la polio en un grupo
de 10, 000 niños vacunados es 1.
𝑒 −1 10
𝑃(𝑋 = 0) = = 𝑒 −1
0!
𝑒 −1 11
𝑃(𝑋 = 1) = = 𝑒 −1
1!
Luego: 𝑃(𝑋 < 2) = 2𝑒 −1 = 0,7358
Interpretación: Si se aplicara esta vacuna a 10000 niños varias veces, en el 73,58% de estas veces
menos de dos niños no quedarán inmunizados.
79
DISTRIBUCIÓN CONTINUA
DISTRIBUCIÓN NORMAL
Es una distribución de probabilidad que se diferencia de las anteriores por ser de variable aleatoria
continua. Es una de las más importantes ya que la mayoría de los trabajos de investigación están basados
en muestras aleatorias provenientes de poblaciones que se distribuyen normalmente.
•Tiene forma de campana y posee una sola cima en el centro de la distribución. La media aritmética,
la mediana y la moda son iguales, y se localizan en el centro de la distribución.
Estandarización
Si la variable aleatoria X tiene una distribución X∼N(µ, 𝜎) , entonces la variable aleatoria
𝑥−𝜇
𝑧=
𝜎
Tiene distribución normal estándar.
Distribución Normal Estándar: Una variable aleatoria X tiene una distribución normal estándar, si
sus parámetros son µ = 0 y 𝜎 2 = 1.
80
Ejemplo1.- Una máquina expendedora de refrescos se regula de
manera que descargue un promedio de 196 g por vaso. La cantidad
descargada tiene aproximadamente distribución normal con una
desviación estándar de 14 gramos.
a) ¿Cuál es la probabilidad de obtener un vaso con más de 218,4
gramos?
Resolución:
Consideremos a X: Cantidad descargada por la máquina vendedora de refrescos, la cual se distribuye
normalmente con µ = 196 gr y σ = 14 g
Hallaremos:
Interpretación: El 5,48% de los vasos tendrán una cantidad mayor de 218,4 gramos.
b) Si los vasos pueden contener solo 224 gramos sin que haya derrame. ¿En cuántos vasos de 200
vendidos es probable que el líquido se derrame?
Resolución:
224 − 196
𝐏(X > 224) → Z = = 2 luego P(Z > 2) = 0,0228
14
Resolución:
Consideremos a X: La puntuación de un examen final de una asignatura, la cual se distribuye
normalmente con µ = 72 y σ = 9
𝒂−𝝁 𝒂 − 𝟕𝟐
𝑷(𝑿 ≤ 𝒂) → 𝒁 = → 𝟏, 𝟐𝟖 = → 𝒂 = 𝟖𝟑, 𝟓
𝝈 𝟗
81
Respuesta: La puntuación mínima que un estudiante debe tener para recibir una calificación A es
83,5.
Ejemplo 3.- Una variable aleatoria tiene una distribución normal con σ = 21.5. Hallar su media si la
probabilidad de que la variable aleatoria tome un valor menor que 120,5 es de 0,8849
Resolución:
Se sabe que 𝑷(𝑿 < 𝟏𝟐𝟎, 𝟓) = 𝟎, 𝟖𝟖𝟒𝟗
𝑿−𝝁 𝟏𝟐𝟎, 𝟓 − 𝝁
𝒁= → 𝟏, 𝟐 = → 𝝁 = 𝟗𝟒, 𝟕
𝝈 𝟐𝟏, 𝟓
Respuesta: La media tendrá que ser 94,7 para que la variable aleatoria tome un valor menor que 120,5
con una probabilidad de 0,8849.
𝑿−𝝁 𝟗𝟗, 𝟔 − 𝟖𝟎
𝒁= → 𝟏, 𝟗𝟔 = → 𝝈 = 𝟏𝟎
𝝈 𝝈
Calculando:
55 − 80 98 − 80
𝑍1 = = −2,5 𝑍2 = = 1,8
10 10
82
Ejemplo 5.- Los puntajes del coeficiente de inteligencia tomados a
un grupo de personas adultas, en un proceso de selección de personal
están distribuidos normalmente con una media de 105 y una
desviación estándar de 12.
a) Si el puntaje mínimo para aprobar es 90. ¿Cuál es el porcentaje de
no aprobados?
b) Si han aprobado el 80% de las personas. ¿Cuál es el puntaje
mínimo aprobatorio?
Resolución:
a) Consideremos a X: Puntaje del coeficiente de inteligencia, la cual se distribuye normalmente
con µ = 105 y σ = 12
Hallaremos:
𝑋−𝜇 90 − 105
𝑍= →𝑍= = −1,25
𝜎 12
80%
𝑿−𝟏𝟎𝟓
−𝟎, 𝟖𝟒 = 𝟏𝟐
→ 𝑿 = 𝟗𝟒, 𝟗𝟐 aproximadamente 95 puntos
Resolución
83
47 − 𝜇 70 − 𝜇
−0,08 = 0,58 =
𝜎 𝜎
𝜇 − 0,08𝜎 = 47 𝜇 + 0,58𝜎 = 70
57−49,79 86−49,79
Ahora 𝑍1 = = 0,21 𝑍2 = = 1,04
34,85 34,85
𝑃(0,21 < 𝑍 < 1,04) = 𝑃(0 < 𝑍 < 1,04) − 𝑃(0 < 𝑍 < 0,21)
= 0,3508 − 0,0832 = 0,2676 → 26,76%
Respuesta: La proporción de valores entre 57 y 86 es 26,76%.
84
EJERCICIOS PROPUESTOS
2.- Se determina que un 25% de los niños expuestos a un determinado agente infeccioso contraerán la
enfermedad producida por dicho agente. Entre un grupo de 4 niños igualmente expuestos al agente
infeccioso. ¿Cuál es la probabilidad de que:
a) Exactamente 2 niños se enfermen Rpta. 0,211
b) Por lo menos un niño se enferme Rpta. 0,684
3.- En cierto país en desarrollo el 30% de los niños están desnutridos; en una muestra aleatoria de 25
niños de esa área. ¿Cuál es la probabilidad de que el número de niños desnutridos sea:
a) Menos de cinco Rpta. 0,0905
b) Menos de 7 pero más de 4? Rpta. 0,2502
4.- La probabilidad de que un paciente se recupere de una rara enfermedad sanguínea es 0,8. Si se sabe
que 15 personas contraen esta enfermedad. ¿Cuál es la probabilidad:
a) Que sobrevivan de 4 a 7
b) No sobrevivan exactamente 5
5.-Se tiene información que, en la comisaria de Chorrillos, el 25% de los detenidos se encuentran allí
por delitos menores. Se selecciona una muestra aleatoria de 24. ¿Cuál es la probabilidad de que el
número de detenidos por delitos menores en esa muestra sea 10?
8.- La encargada de los préstamos del banco “INTERBANK” estima, con base en sus años de
experiencia, que la probabilidad de que un solicitante no sea capaz de pagar su préstamo es 0,035. El
mes pasado realizó 45 préstamos. ¿Cuál es la probabilidad de que 3 préstamos no sean pagados
oportunamente?
85
9.- En “MoneyGram” se evalúa el número de envíos de dinero al
extranjero que se realizó en un mes determinado. Suponga que 55%
de todas sus transacciones fueron envíos de dinero al extranjero y
considere una muestra de 10 transacciones. ¿Cuál es la probabilidad
de que:
a) Cuando mucho 8 de las transacciones sean envíos de dinero al
extranjero?
b) Por lo menos 6 de las transacciones sean envíos de dinero al
extranjero?
c) Más de 6 de las transacciones sean envíos de dinero al extranjero?
10.- “CAJA RURAL APU” informó que el 30% de los préstamos garantizados con joyería vencieron.
Si se toma una muestra aleatoria de 10 préstamos
a) ¿Cuál es la probabilidad de que ninguno esté vencido?
b) ¿Cuál es la probabilidad de que 2 estén vencidos?
11.- El 28% de los tornillos de la última producción para la empresa “MAESTRO” están defectuosos.
Determinar la probabilidad de que de 8 tornillos seleccionados aleatoriamente por lo menos 3 estén
defectuosos.
12.- Un prominente médico afirma que 70% de las personas con cáncer de pulmón son fumadores
empedernidos. Si su afirmación es correcta:
Encuentre la probabilidad que, de 10 de tales pacientes admitidos recientemente en un hospital, menos
de 3 sean fumadores empedernidos.
13.- Si la probabilidad de que un individuo sufra una reacción desfavorable por una inyección de cierto
suero es de 0,001. Determinar la probabilidad de que de 200 personas:
a) Exactamente 3 sufran la reacción Rpta. 0,0011
b) Dos o más sufran la reacción Rpta. 0,0175
15.- En Caja Sullana se analiza la cantidad de clientes que se atiende en las ventanillas, se obtuvo que
la cantidad de clientes promedio que se atiende en esta institución financiera en un lapso de 50 minutos
es de 20 clientes.
a) ¿Cuál es la probabilidad de que se atiendan a 10 clientes en 25 minutos?
b) ¿Cuál es la probabilidad de que se atiendan a 7 clientes en 10 minutos?
16.- En una investigación realizada en la calle Miramar, se ha determinado que el número de muertes
debido a accidentes de tránsito ha sido en promedio 10 en dos meses. Suponiendo que el número de
muertes sigue una distribución de Poisson.
a) Hallar la probabilidad de que en un determinado mes mueran 3 personas
b) Hallar la probabilidad de que en un determinado mes no mueran 4 personas
86
17. En la oficina de ventas de “PARALELO” se analiza el número
de ventas al día, se tiene la información que tiene un promedio de
9,5 ventas al día. Suponiendo que los pedidos siguen una
distribución de Poisson.
a) ¿Cuál es la probabilidad de que se realicen menos de 5 ventas en
un día determinado?
b) ¿Cuál es la probabilidad de que se realicen al menos 3 ventas en
un día determinado?
c) ¿Cuál es la probabilidad de que se realicen al menos 12 ventas en
4 días?
20.-Una población normal tiene una media de 12,2 y una desviación estándar de 2,5.
a) Calcule el valor de z asociado con 14,3.
b) ¿Qué proporción de la población se encuentra entre 12,2 y 14,3?
c) ¿Qué proporción de la población es menor que 10?
21.- Supóngase que se sabe que los pesos de 300 individuos están distribuidos en forma normal con
media de 68 Kg y una desviación estándar de 11,5 Kg.
a) Cuál es la probabilidad de que una persona seleccionada al azar pese 70 Kg o menos?
b) Cuántas personas se espera encontrar que pesen 70 Kg o menos?
87
23.-El precio medio de las acciones de las empresas que forman el M&H es $30, y la desviación estándar
es $8,20. Suponga que los precios de las acciones se distribuyen normalmente.
a) ¿Cuál es la probabilidad de que las acciones de una empresa tengan un precio mínimo de $40?
b) ¿Cuál es la probabilidad de que el precio de las acciones no supere $20?
c) ¿Qué tan alto debe ser el precio de las acciones de una firma para situarla en el 10% de las principales
empresas?
25.-Entre las ciudades de Estados Unidos con una población de más de 250 000 habitantes, la media del
tiempo de viaje de ida al trabajo es de 24,3 minutos. El tiempo de viaje más largo pertenece a la ciudad
de Nueva York, donde el tiempo medio es de 38,3 minutos. Suponga que la distribución de los tiempos
de viaje en la ciudad de Nueva York tiene una distribución de probabilidad normal y la desviación
estándar es de 7,5 minutos.
a) ¿Qué porcentaje de viajes en la ciudad de Nueva York consumen menos de 30 minutos?
b) ¿Qué porcentaje de viajes consumen entre 30 y 35 minutos?
c) ¿Qué porcentaje de viajes consumen entre 30 y 40 minutos?
27.- Supóngase que se sabe que los niveles de glucosa en sangre extraída a 150 niños en ayunas están
distribuidos normalmente con una media de 66 y una varianza de 42.
a) Cuál es la probabilidad de un niño seleccionado al azar presente un nivel de glucosa en sangre mayor
o igual a 71?
b) Cuántos niños presentan un nivel de glucosa en sangre menor o igual a 61?
c) Determinar la mediana y la moda de la distribución
88
29.- El nivel de colesterol en los trabajadores administrativos tiene distribución normal. Por otro lado se
sabe que el 5% superior de los trabajadores su colesterol está por encima de 280 y que el 10% inferior
de los trabajadores su colesterol está por debajo de 170. Se pide determinar los valores de la media y
varianza de la distribución normal. Si de esta población seleccionamos un trabajador al azar, cuál es la
probabilidad de que su colesterol sea mayor a 250.
31.- De una variable normal N (µ; σ) se sabe que P (X ≤ 7) = 0,9772 y P (X ≤ 6,5) = 0,8413.
Calcular:
a) µ y σ.
b) P (5,65 ≤ X ≤ 6,25)
c) El número k tal que P (X > k) = 0,3
33.- Las calificaciones de una prueba final de una cierta signatura tienen distribución normal con media
de 12. Si el 95,44% de los examinados obtuvieron calificaciones entre 8 y 16.
a) Calcule la desviación estándar Rpta. 2
b) Si la nota aprobatoria es 11 ¿Qué porcentaje de alumnos aprobaron el curso? Rpta. 69,15%
c) ¿Qué nota mínima deberá tener un alumno para estar ubicado en el quinto superior? Rpta. 13,7
34.-. El número promedio de personas que comen en un restaurante es aproximadamente normal, con
una media de 250 y una desviación estándar de 20 por día.
a) Si el consumo promedio por cliente es de $4 ¿Cuál es el consumo diario esperado? Rpta. $1000
b) ¿Cuál es la probabilidad de que el consumo exceda a $1100? Rpta. 0,1056
35.- Suponga que la demanda mensual de un bien de consumo se distribuye normalmente con una
media de 650 kg y una desviación estándar de 100 kg.
a) ¿Qué probabilidad hay de que la demanda no supere los 500 kg? Rpta. 0,0668
b) ¿Qué cantidad del bien debe haber mensualmente a fin de satisfacer la demanda máxima en un
89,8 %? Rpta. 777 kg
37.- En base a pruebas y la experiencia, un fabricante de lavadoras mecánicas modelo 101XE, decide
que la vida media con uso familiar normal es de 5,8 años, con desviación estándar de 2 años. Si la vida
de este modelo presenta distribución normal:
a) ¿Qué garantía debe ofrecer si está dispuesto a reparar únicamente al 1% de las lavadoras vendidas?
89
b) Si da una garantía de dos años ¿Qué porcentaje de las máquinas necesitarán reparación antes que
expire el período de garantía?
38.- Una máquina automática que expende café llena los vasos con 6 onzas de café, con desviación
estándar de 0,40 onzas. Si se usan vasos de 7 onzas ¿Qué porcentaje de ellas se derramarán?
39.- Suponga que el ingreso familiar mensual en una comunidad tiene distribución normal con media
de $400 y desviación estándar $50.
a) Si el 10% de las familias debe pagar un impuesto. ¿A partir de qué ingreso familiar se debe pagar el
impuesto? Rpta. $464
b) Si el ahorro familiar está dado por la relación Y = X - 50
4
¿Cuál es la probabilidad de que el ahorro sea superior a $75? Rpta. 0,0228
DISTRIBUCIONES MUESTRALES
Se denomina distribución muestral de una estadística a su distribución de probabilidad.
Por ejemplo, a la distribución de probabilidad de la estadística media 𝑥 , se le denomina distribución
muestral de la media.
Para determinar la distribución muestral de un estadístico es necesario conocer:
a) La población y el parámetro
b) Todas las muestras posibles y todos los valores posibles
La distribución de la media muestral es la distribución de todos los valores que toma el estadístico
(media muestral), valores que se obtienen a partir de todas las posibles muestras de tamaño n tomadas
de la población.
A continuación, se presentan dos resultados importantes:
• Si la variable aleatoria X sigue una distribución Normal, la distribución de la variable aleatoria x es
Normal, es decir:
𝜎2
• Si X ~ 𝑁(𝜇, 𝜎 2 ) entonces 𝑋~ 𝑁(𝜇, ) Si la variable aleatoria X no sigue una distribución Normal,
𝑛
entonces por el teorema del límite central, para n suficientemente grande (n > 30), la distribución de la
variable aleatoria x es aproximadamente Normal, es decir:
𝜎2
𝑋 ≅ 𝑁(𝜇, )
𝑛
La media de la media muestral y la varianza de la media muestral se representa como 𝜇𝑋 y σ2 X
respectivamente, además:
𝜇𝑋 = 𝜇
𝜎2
𝜎2𝑋 =
𝑛
TEOREMA: Si la variable aleatoria X sigue una distribución N(μ, 𝜎 2 ), la variable aleatoria:
𝑥−𝜇
𝑧= 𝜎
√𝑛
90
Donde:
𝑥: media muestral
𝜇: media poblacional
𝜎: desviación estándar poblacional
n: tamaño de la muestra
Ejemplo 1.- La distribución de la cantidad de cereal que una máquina vierte en cajas de tamaño
económico, tiene un peso X que se distribuye normalmente con media 0,999 kg y desviación estándar
0,05 kg. Si se eligen 4 cajas al azar. ¿Cuál es la probabilidad de que el promedio de los pesos netos de
las 4 cajas esté entre 0,999 y 1,049 kg?
Resolución
𝑥−𝜇
Sabemos que 𝑧= 𝜎
√𝑛
0,999−0,999 1,049−0,999
Hallaremos 𝑃 = (0,999 ≤ 𝑋̅ ≤ 1,049) = 𝑃 ( 0,05/ 4 ≤ 𝑍 ≤ 0,05/ 4 )
√ √
,
𝑃 = (0 ≤ 𝑍 ≤ 2) = 0,4772
Ejemplo 2. Si la distribución del peso de los caballeros que viajan por avión entre dos ciudades tiene
una media de 163 libras y una desviación estándar de 18 libras. ¿Cuál es la probabilidad de que el peso
total combinado de 36 de esos pasajeros sea mayor de 6000 libras?
∑𝑛
𝑖=1 𝑋𝑖 −𝑛𝜇 𝑋̅−𝜇 6000
Otro método: 𝑍 = = 𝜎 en donde 𝑋̅ = 36 = 166,67
√𝑛𝜎 2
√𝑛
𝑥−𝜇
Enseguida aplicamos la fórmula: 𝑧 = 𝜎
√𝑛
166,67 − 163
𝑧= = 1,22
18
√36
Ejemplo 3. La calificación en una prueba de aptitud es una variable aleatoria X que tiene distribución
normal con media igual a 100.
Si se supone que la desviación estándar de todas las calificaciones es = 15, ¿cuántas calificaciones
se deben escoger para que la media muestral esté en el intervalo de 90,2 a 109,8 con probabilidad 0,95?
Resolución
91
Se sabe que µ = 100 σ = 15 Hallaremos:
Por lo tanto
109,8 − 100 15
1,96 = → 1,96 ( ) = 9,8
15 √𝑛
√𝑛
29,4
= 9,8 → √𝑛 = 3 → 𝑛 = 9
√𝑛
Ejemplo 4. Los tiempos de espera para los clientes que pasan por una caja registradora a la salida de
una tienda de menudeo son variables aleatorias independientes con una media de 1,5 minutos y una
varianza de 1. Estime la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas.
Resolución:
Sea la variable X: Tiempo de espera que pasan por una caja registradora a la salida de una tienda de
menudeo
Calcularemos 𝑃 = (∑100
𝑖=1 𝑋𝑖 < 120)
120
Otro método: Se sabe que 𝑋̅ = 100 = 1,2
1,2−1,5
Hallaremos 𝑃(𝑋̅ < 1,2) → 𝑍= 1 = −3
√100
Sea 𝑋1 , 𝑋2 , 𝑋3 ,….,𝑋𝑛 una muestra aleatoria de tamaño n, con distribución Bernoulli con parámetro
π, donde:
π: Proporción de éxitos en la población
Si la proporción de éxitos en la muestra (p), sigue una distribución Binomial entonces, la media y la
varianza de p se obtienen de la siguiente manera:
𝜇𝑝 = 𝜋
92
𝜋(1 − 𝜋)
𝜎 2𝑝 =
𝑛
OBSERVACIÓN
𝑝−𝜋
𝑧=
√𝜋(1 − 𝜋)
𝑛
Donde:
p: proporción muestral
𝜋: proporción poblacional
n: tamaño de la muestra.
Ejemplo 1. La persona encargada de recibir los pedidos de cierto artículo tiene la siguiente política:
selecciona una muestra de 400 artículos; si 3 % o más de los artículos son defectuosos rechaza el pedido,
en caso contrario, lo acepta. Hallar la probabilidad de rechazar un pedido si en toda la población el 2 %
de artículos son defectuosos.
Resolución
Ejemplo 2. El gerente de ventas de “TV cable” estima en 20% las conexiones domiciliarias clandestinas.
¿Cuál es la probabilidad de que una muestra de 100 conexiones domiciliarias seleccionada de una
población de 1000 domicilios que tienen “TV cable” más del 30% resulten clandestinas.
𝑝̂ − 𝑝
𝑍=
√𝑝𝑞 (𝑁 − 𝑛)
𝑛 𝑁−1
0,30 − 0,20
𝑍= = 2,63
√0,2 𝑥 0,8 (1000 − 100)
100 999
93
EJERCICIOS PROPUESTOS
2. La distribución de los ingresos anuales de todos los administrativos de una determinada institución
educativa y con cinco años de experiencia sigue una distribución normal con una media de $19000 y
una desviación estándar de $2000. Si extraemos una muestra aleatoria de 30 administrativos ¿cuál es la
probabilidad de que sus ingresos promedios sean más de $19750 anualmente?
3. En una muestra de 25 observaciones a partir de una distribución normal con media 98,6 y
desviación estándar 17,2.
a) ¿Cuánto vale P(92 < x < 102)?
b) Encuentre la probabilidad correspondiente dada una muestra de 36
4. Para una muestra de 19 observaciones de una distribución normal con media 18 y desviación estándar
4.8, calcule
a) P(16 < 𝑥 < 20)
𝑥 > 21)
b) P ( ̅
c) Suponga un tamaño de muestra de 40. ¿Cuál es la nueva probabilidad en el inciso a)?
5. A partir de una población de 125 artículos con media de 105 y desviación estándar de 17, se eligieron
64 artículos.
a) ¿Cuál es el error estándar de la muestra?
b) ¿Cuál es la P(107,5 < 𝑥 < 109)?
94
7. De una población de 75 elementos con media de 364 y varianza de 18, se seleccionaron 32 elementos
al azar sin reemplazo.
a) ¿Cuál es el error estándar de la media?
b) ¿Cuál es la P(363 < 𝑥< 366)?
9. Reportajes en periódicos nos dicen que el estadounidense tiene sobrepeso. Muchos de nosotros hemos
tratado de bajar de peso cuando terminamos la preparatoria o la universidad. Y en efecto, sólo 19% de
adultos dicen que no sufren de problemas de pérdida de peso. Suponga que la cifra de 19% es correcta
y que se selecciona una muestra aleatoria de n= 100 adultos.
a. La distribución de p, es decir, la proporción muestral de adultos que no sufren de excesos de peso,
tiene una distribución normal aproximada ¿cuál es su media y desviación estándar?
b. ¿Cuál es la probabilidad de que la proporción muestral p exceda a 0,25?
12.Se estima que el 60% de los votos de los electores de la ciudad favorecen al candidato Sr. Noel
Tasilla Ramírez. Si se selecciona una muestra aleatoria de 600 electores de la ciudad, ¿qué
probabilidad hay de que la proporción muestral de votos a favor del Sr. Noel Tasilla Ramírez esté
entre 47% y 55%?
14. Por datos obtenidos con anterioridad, se sabe que el 70% de las familias que tienen teléfono no se
encuentran en las horas de la tarde del día domingo. Se toma una muestra aleatoria de 36 familias del
directorio telefónico y se les llama. ¿Cuál es la probabilidad de que el 50% o más estén ausentes?
95
15. Se toma una muestra aleatoria de 200 unidades producidas en una hora por una máquina. Se sabe
que el 10% de las unidades producidas son defectuosas. ¿Cuál es la probabilidad de que, en la muestra
tomada, 16 o más artículos resulten defectuosos?
17. Se tiene establecido que las facturas de los clientes tienen una desviación estándar de S/ 45. Si se
toma una muestra de 225 facturas. ¿Cuál es la probabilidad de que el valor medio de la muestra se desvíe
de la media de todas las 2000 facturas por S/ 7,5 soles o más? Rpta. 0,008
18. Una investigadora de una empresa cafetalera sabe que el consumo mensual de café por casa está
normalmente distribuido, con una media desconocida y una desviación estándar de 0,3 kg.
Si se toma una muestra aleatoria de 36 casas y se registra su consumo de café durante un mes. ¿Cuál es
la probabilidad de que la media de la muestra difiera de la verdadera media en menos de 100 gramos?
Rpta. 0,9544
19. Las cuentas de gastos en gasolina por día de los vendedores de una empresa de cigarros tiene una
media de 65 pesos y una desviación estándar de σ = 7 pesos. Si se selecciona una muestra aleatoria de
25 cuentas, y considerando que estos gastos tienen una distribución normal, ¿cuál es la probabilidad de
que la muestra revele una media:
a) Al menos de 68 pesos?
b) Entre 64 pesos y 66 pesos?
c) ¿Cuál es el gasto máximo reportado del 20% de los vendedores que gastan menos en este rubro?
20. De las 420 empresas manufactureras en cierta zona de Gamarra, 20% de ellas se dedican a la
producción de calzado. Si se toma una muestra aleatoria de 80 empresas, ¿cuál es la probabilidad de
que, de esa muestra, 18% o más se dediquen a la producción de calzado?
21. Se sabe que el 7% de los focos que llegan a las tiendas distribuidoras Promart presentan algún tipo
de defecto. Si de un pedido de 5 000 focos se extrae una muestra aleatoria de tamaño 100, sin reemplazo.
a) Determina el valor esperado de la distribución muestral de proporciones.
b) Determina el error estándar de la distribución muestral de proporciones.
c) ¿Cuál es la probabilidad de que 10 focos o más de la muestra estén defectuosos?
d) ¿Cuál es la probabilidad de que la proporción de focos defectuosos este entre 8 y 9%?
22. Los registros que lleva el departamento de servicios de una agencia automotriz “Ramírez” indican
que 18% de todos los automóviles nuevos de la marca Polka han requerido cierto tipo de reparación
durante el periodo de su garantía. Si se toma una muestra de 64 automóviles nuevos de esta marca, ¿cuál
es la probabilidad de que:
a) El porcentaje de autos que necesiten reparación este entre 12 y 16%?
b) A lo sumo 20% necesiten reparación?
c) Si se toma una muestra al azar de 80 automóviles nuevos, 8 o más necesiten algún tipo de
reparación
96
INTERVALOS DE CONFIANZA
TAMAÑO DE LA MUESTRA Y MUESTREO,PRUEBA DE
HIPÓTESIS, ANÁLISIS DE VARIANZA, REGRESIÓN Y
CORRELACIÓN LINEAL, PRUEBA DE CHI CUADRADO
97
INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL
Sea X1, X2, X3, …………..,Xn una muestra aleatoria extraída de una población normal donde
2 es conocida, entonces el intervalo de confianza para la media poblacional está dado por:
𝜎 𝜎
𝑋̅ − 𝑍𝛼⁄2 ≤ 𝜇 ≤ 𝑋̅ + 𝑍𝛼⁄2
√𝑛 √𝑛
Nota
- Cuando la población es finita de tamaño N y el tamaño de la muestra es mayor del 5 % con
respecto a N, se debe usar el factor de corrección para población finita.
Ejemplo 1.- Un director de producción sabe que la cantidad de impurezas contenida en los envases de
cierta sustancia química sigue una distribución normal con una desviación estándar de 3.8 g.
Se extrae una muestra aleatoria de 9 envases cuyos contenidos de impurezas son los siguientes:
18,2 16,6 13,7 12,3 15,9 18 17,4 16,2 y 21,8
Determinar un intervalo de confianza del 95% para a media
Solución: Dado que σ es conocida utilizaremos la variable Z para dicha estimación
𝜎 𝜎
𝑋̄ − 𝑍𝛼⁄2 ≤ 𝜇 ≤ 𝑋̄ + 𝑍𝛼⁄2
√𝑛 √𝑛
Luego los límites de confianza estarán dados por 𝑋̄ ± 𝑍𝛼/2 𝜎𝑥̄
3,8
16,67 ± 1,96 ( ) = 16,67 ± 2,48 → 14,2 ≤ 𝜇 ≤ 19,2
√9
Con un 95% de confiabilidad podemos afirmar que la cantidad promedio de impurezas en los envases
está entre 14,2 y 19,2
98
También podemos afirmar con un 95% de confiabilidad de que la cantidad media de impurezas
contenida en los envases es de 16,7 con un margen de error de 2,48
Ejemplo 2.- Supongamos que un investigador está interesado en estimar el nivel medio de alguna
enzima en cierta población, toma una muestra de 10 individuos, determina el nivel de la enzima de cada
uno y obtiene una media igual a 22. Suponga además que la variable de interés está distribuida
normalmente con varianza de 45. Encuentre un intervalo de confianza del 98% para la media
poblacional.
Resolución: Dado que σ es conocida utilizaremos la variable Z para dicha estimación
𝜎 𝜎
𝑋̄ − 𝑍𝛼⁄2 ≤ 𝜇 ≤ 𝑋̄ + 𝑍𝛼⁄2
√𝑛 √𝑛
𝜎
Luego los límites de confianza estarán dados por 𝑋̄ ± 𝑍𝛼/2
√𝑛
6,7082
22 ± 2,33 ( ) = 22 ± 4,94 → 17,06 ≤ 𝜇 ≤ 26,94
√10
Dado que no se conoce 2 ésta deberá ser estimada por la varianza muestral y la variable
estadística a usarse será la T de Student:
𝑋̅−𝜇
𝑇=𝑆 cuya distribución de t de Student con n-1 grados de libertad
⁄
√𝑛
𝑆 𝑆
𝑋̅ − 𝑡𝛼⁄2 ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝛼⁄2
√𝑛 √𝑛
Ejemplo 1.- En el departamento de personal de una compañía grande se requiere estimar los gastos
familiares en odontología de sus empleados para determinar la factibilidad de proporcionarles un plan
de seguro dental. Una muestra aleatoria de 10 empleados reveló los siguientes gastos (en dólares)
durante el año anterior:
110 362 246 85 510 208 173 425 316 179
Establezca un intervalo de confianza del 90% para el gasto promedio familiar en odontología
99
Cálculos
Para 𝒏 = 𝟏𝟎 se tiene que 𝑿̄ = 𝟐𝟔𝟏, 𝟒 𝑺 = 𝟏𝟑𝟖, 𝟖
𝑠
Luego los límites de confianza estarán dados por 𝑋̄ ± 𝑡𝛼/2
√𝑛
138,8
261,4 ± 1.8331 ( ) = 261,4 ± 80,46 → 180,9 ≤ 𝜇 ≤ 341,9
√10
Podemos concluir con un 90% de confiabilidad que el gasto promedio familiar en odontología en dicha
empresa es de 261,4 dólares con un margen de error de 80,46 dólares.
También podemos concluir con un 90% de confiabilidad de que el gasto promedio familiar en
odontología en dicha empresa estaría entre 181 y 342 dólares.
Ejemplo 2.- Una compañía emplea 200 agentes de ventas; en una muestra aleatoria de 25 los auditores
encontraron un gasto promedio de $220 con una desviación estándar de $20 en sus cuentas de gasto de
representación en una semana. Establezca un intervalo de confianza del 98% para el gasto promedio
semanal.
𝑛
Resolución: En este caso dado que N es conocido y 𝑁
> 5% usaremos el factor de corrección para
𝑁−𝑛
poblaciones finitas (√ ) por lo tanto:
𝑁−1
𝑠 𝑁−𝑛
Los límites de confianza estarán dados por 𝑋̄ ± 𝑡𝛼/2 𝑛
(√ 𝑁−1 )
√
20 200 − 25
220 ± 2,4922 ( )√ = 220 ± 9,3 → 210,7 ≤ 𝜇 ≤ 229,3
√25 200 − 1
Ejemplo 3.- Se desea determinar el peso total de una partida de 10000 naranjas. Como solo se tiene una
balanza pequeña y además no se dispone de tiempo; se selecciona una muestra aleatoria de 16 naranjas,
la cual da una media de 175 gramos y una desviación estándar de 25 gr. Determinar un intervalo de
confianza del 98% para el peso total de la partida de naranjas.
Resolución:
El peso total estimado estará dado por: 𝑁𝑋̄ = 10000(175) = 1750000𝑔, 𝑒𝑠 𝑑𝑒𝑐𝑖𝑟 1750𝑘𝑔.
Ahora estimaremos un intervalo de confianza para el peso total de las naranjas; para lo cual
primeramente estimaremos un intervalo de confianza para el peso promedio por naranja.
𝑠 𝑁−𝑛
Los límites de confianza estarán dados por 𝑋̄ ± 𝑡𝛼/2 (√ 𝑁−1 )
√𝑛
25 10000 − 16
175 ± 2,6025 ( )√ = 175 ± 16,2526 → 158,7474 ≤ 𝜇 ≤ 191,2526
√16 10000 − 1
100
Ejemplo 4.- Un sondeo efectuado en 400 familias de cierta clase social de una ciudad encontró un gasto
mensual promedio de S/74 en productos de tocador con desviación estándar de S/ 40.
¿Con qué nivel de confianza se puede afirmar que el gasto promedio mensual en artículos de tocador
está entre 71 y 77?
Resolución: En este caso utilizaremos la variable Z por ser una muestra muy grande
Sabemos que el margen de error (e) está dado por 𝑍𝛼/2 𝜎𝑥̄
𝑺
̂ 𝒙̄ = 𝒆 → 𝒁𝜶/𝟐
En este caso 𝒁𝜶/𝟐 𝝈 =𝒆
√𝒏
𝟒𝟎
𝒁𝜶/𝟐 = ±𝟑 → 𝒁𝜶/𝟐 (𝟐) = ±𝟑 → 𝒁𝜶/𝟐 = ±𝟏, 𝟓
√𝟒𝟎𝟎
101
INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
POBLACIONAL
Sea X1, X2, X3,………………………,Xn una muestra aleatoria de tamaño n escogida de una
población de Bernoulli B(1,p) cuyo parámetro p es la proporción de éxitos en la población.
El estimador puntual de p es:
Sabemos que:
𝐸(𝑝̂ ) = 𝑝
𝑝𝑞 𝑝(1 − 𝑝)
𝑉(𝑝̂ ) = =
𝑛 𝑛
𝑝̂ −𝑝
𝑍= tiene distribución aproximadamente 𝑁(0, 1)
𝑝(1−𝑝)
√
𝑛
̂𝒒
𝒑 ̂ 𝒑̂𝒒
̂
̂ − 𝒁𝜶⁄ √ ≤ 𝒑 ≤ 𝒑
𝒑 ̂ + 𝒁𝜶⁄ √
𝟐 𝒏 𝟐 𝒏
𝑛
Nota. - Si el muestreo es sin reemplazo en una población finita de tamaño N y > 5%
𝑁
entonces resulta adecuado usar el factor de corrección por población finita.
Ejemplo 1.- En cierta ciudad, se entrevistó a una muestra de 500 bebedores de cerveza, hallándose que
114 de ellos preferían la marca X a la de Y. Hállese el intervalo de confianza del 98% para la fracción
de bebedores de cerveza de esa ciudad que prefieren la marca X.
Resolución:
𝒙
Sea p̂: proporción muestral → 𝑝̂ =
𝒏
𝑵º 𝒅𝒆 𝒃𝒆𝒃𝒆𝒅𝒐𝒓𝒆𝒔 𝒅𝒆 𝒄𝒆𝒓𝒗𝒆𝒛𝒂 𝒒𝒖𝒆 𝒑𝒓𝒆𝒇𝒊𝒆𝒓𝒆𝒏 𝒍𝒂 𝒎𝒂𝒓𝒄𝒂 𝑿
̂=
𝒑
𝑻𝒂𝒎𝒂ñ𝒐 𝒅𝒆 𝒎𝒖𝒆𝒔𝒕𝒓𝒂
114
p̂ = = 0,228
500
𝒑̂ (𝟏 − 𝒑
̂) 𝒑̂ (𝟏 − 𝒑
̂)
̂ − 𝒁𝜶⁄ √
𝒑 ̂ + 𝒁𝜶⁄ √
≤𝒑≤𝒑
𝟐 𝒏 𝟐 𝒏
102
𝑝̂ (1 − 𝑝̂ ) 0,228𝑥0,772
𝑝̂ ± 𝑍𝛼⁄2 √ → 0,228 ± 2,33√
𝑛 500
Ejemplo 2.- De una lista de opinión pública, se invita a 100 personas de un total de 1000 a expresar su
preferencia por los productos A y B; 30 personas prefirieron A, de esto se concluye que entre 210 y 390
de la población prefieren el producto A. ¿Qué nivel de significación se usa en este informe?
Resolución:
𝑛
En este caso dado que N es conocido y > 5% usaremos el factor de corrección para poblaciones
𝑁
finitas.
𝟑𝟎
Se tiene que: 𝒏 = 𝟏𝟎𝟎 𝑵 = 𝟏𝟎𝟎𝟎 → ̂=
𝒑 = 𝟎, 𝟑𝟎
𝟏𝟎𝟎
EJERCICIOS PROPUESTOS
1. Una encuesta efectuada a una muestra aleatoria de 150 familias en cierta comunidad urbana reveló
que, en el 87 por ciento de los casos, por lo menos uno de los miembros de la familia tenía alguna forma
de seguro relacionado con la salud. Construir un intervalo de confianza del 99 por ciento para la
proporción real (P) de familias en la comunidad con las características de interés.
2. Una muestra de 100 hombres adultos aparentemente sanos, de 25 años de edad, muestran una presión
sistólica sanguínea media de 125. Si se supone que la desviación estándar de la población es de 15,
calcular el intervalo de confianza del 90 por ciento para 𝜇.
3. En un estudio diseñado para establecer la relación entre un medicamento y cierta anomalía en los
embriones de pollo, se inyectaron con el medicamento 50 huevos fecundados al cuarto día de
incubación. En el vigésimo día de incubación se examinaron los embriones y se observó la presencia de
la anomalía en 12 de ellos. Encontrar un intervalo de confianza del 90 por ciento para P.
103
4. En una muestra de 60 pacientes la cantidad mínima requerida para que un anestésico surta efecto en
una intervención quirúrgica fue por término medio de 50 mg, con una desviación típica de 10,2 mg,
Obtener un intervalo de confianza para la media al 95%, suponiendo que la muestra fue extraída
mediante muestreo aleatorio simple sobre una población normal
5. Un psicólogo advierte que el tiempo medio de reacción de 36 ratas a un choque eléctrico de 18 voltios
es de 0,45 segundos, con desviación estándar de 0,06 segundos. Encuentre un intervalo de confianza del
90% para el tiempo medio de reacción de todas las ratas de la misma cepa a un choque de 18 voltios?
6. Un estudio de 50 hogares de cuatro personas cada uno, tomados aleatoriamente, que viven en cierta
ciudad, mostró un gasto promedio de 76 dólares por semana en alimentos, con desviación estándar de 3
dólares. Encuentre el gasto semanal promedio en alimentos en todos los hogares de cuatro personas en
dicha ciudad, con una confianza de un 98%.
7. Una muestra aleatoria de 49 personas que habitan en apartamentos de dos piezas en cierta ciudad,
mostró que pagaban un alquiler mensual promedio de $129,5 con desviación estándar de $18,75
Construya un intervalo de confianza del 99% para el alquiler promedio mensual pagado por
apartamentos de dos piezas en dicha ciudad. Rpta [122,3; 136,7]
8. Un analista de investigación de mercados escoge una muestra aleatoria de 100 clientes de un conjunto
de 500 clientes de una gran tienda que declaran sus ingresos mayores a $800.
El encuentra que los clientes de la muestra gastaron en la tienda un promedio de $2500 por año. Si con
este valor de la muestra se estima que el gasto promedio de la población varía entre 2446 a 2554. ¿Qué
nivel de confianza se utilizó? Suponga que la desviación estándar de la población es de $300.
Rpta. 0,9556
9. Para determinar el rendimiento anual de ciertos valores, un grupo de inversionistas tomó una muestra
aleatoria de 49 de tales valores encontrando una media de 8,71% y una desviación estándar de 2,1%.
a) Estime el verdadero rendimiento anual promedio de tales valores mediante un intervalo de
confianza del 96%. Rpta. [8,1%; 9,3%]
b) Calcule el nivel de significancia si el rendimiento anual promedio de todos los valores se estima
entre 7,96% y 9,46%. Rpta. 0,0124
10. El Gerente de ventas de la tienda “CREDITOS” quiere determinar el porcentaje de clientes morosos
por más de $100. Una muestra aleatoria de 200 de tales clientes de la tienda reveló que 50 de ellos eran
morosos.
a) Halle un intervalo de confianza del 98% para la proporción de clientes morosos por más de $100?
b) Si la estimación de la proporción de clientes morosos está en el intervalo [0,183 ; 0,317]. ¿Con qué
grado de confianza se realizó esta investigación? Rpta. 0,9714
11. El consumo regular de cereales preendulzados contribuye a la caída de los dientes, enfermedades
del corazón y otros procesos degenerativos. En una muestra aleatoria de 20 porciones sencillas de un
cereal el contenido promedio de azúcar fue de 11,3 gr con desviación estándar de 2,45 gr. Suponiendo
que los contenidos de azúcar están distribuidos normalmente. Determine un intervalo de confianza del
95% para el contenido promedio de azúcar en porciones sencillas de dicho cereal.
Rpta 10,15 ≤ µ ≤ 12,45
12. Algunos investigadores creen que la vitamina C puede ser útil para reducir el colesterol en las
paredes internas de las arterias. Se observa el nivel de colesterol de 50 personas (con niveles de colesterol
mayores que lo normal) antes y después de un tratamiento de un mes bajo un régimen de 500 mg de
vitamina C por día, obteniéndose una media de 64,3 mg/100ml y desviación estándar de 18,9 mg en la
104
disminución del nivel de colesterol. Estime la disminución promedio por persona del nivel de colesterol,
usando un intervalo de confianza del 90%. Rpta 59,8 ≤ µ ≤ 68,8
13. Se determinaron los niveles del PH de la saliva en una muestra aleatoria de niños de escuela primaria,
los cuales presentaban una alta incidencia de caries. Los resultados fueron los siguientes:
7,36 7,04 7,19 7,41 7,10 7,15 7,36 7,57 7,64 7,00 7,25 7,19
Halle un intervalo de confianza para la media con un 98% de confiabilidad.
14. Ciertos investigadores se interesan por la calidad del aire; uno de estos indicadores es el número de
microorganismos de partículas de suspensión por m3. Para controlar la situación se hace una lectura cada
6 días extrayendo 1m3 de aire a través de un filtro y determinando el número de µg de partículas
concentradas en él. Los datos observados para un período de 30 días fueron:
58 70 57 61 59
Supóngase que por experiencias anteriores se sabe que la variable número de microorganismos de
partículas está distribuida normalmente con varianza de 9. Halle un intervalo de confianza para la media
con α = 0.01 Rpta 58 ≤ µ ≤ 64 aproximadamente
15. Se pretende estimar el número promedio de latidos por minuto para cierta población. Se encontró
que el número promedio de latidos por minuto para 49 personas era de 90. Considere que esos 49
pacientes constituyen una muestra aleatoria y que la población sigue una distribución normal, con una
desviación estándar de 10. Use α = 0,02 Rpta 87 ≤ µ ≤ 93
16. Entre 100 peces capturados en cierto lago 18 no eran comestibles debido a la contaminación del
medio ambiente. ¿Con qué confianza se puede asegurar que el error de estimación es a lo mucho de
0,065? Rpta. 0,909
17. En una muestra al azar de 127 niños de guarderías infantiles se han diagnosticado 7 niños con
sintomatología autista y 12 niños con enuresis nocturna. Utilizando α = 0,05.
a) Determine un intervalo de confianza para la proporción de niños autistas que hay en la población,
origen de la muestra. Rpta. 0,015 ≤ p ≤ 0,095
b) Determine un intervalo de confianza para la proporción de niños con enuresis nocturna que hay en la
población, origen de la muestra. Rpta. 0,043 ≤ p ≤ 0,14
105
MUESTREO Y TAMAÑO DE LA MUESTRA
MUESTREO: Técnica estadística que permite seleccionar los elementos que se analizarán o
evaluarán de la población.
Se pueden realizar diferentes tipos de muestreo, que quedan clasificados en dos grandes grupos:
probabilísticos y no probabilísticos. En el muestreo probabilístico, todos los individuos o elementos de
la población tienen la misma probabilidad de ser incluidos en la muestra extraída, asegurándonos la
representatividad de la misma. En el muestreo no probabilístico, por su parte, los elementos de la
muestra se seleccionan siguiendo criterios determinados.
MUESTREO PROBABILISTICO
Muestreo aleatorio simple, cuando todos los elementos de la población tienen la misma probabilidad
de ser seleccionados en la muestra y esta probabilidad es conocida. Este tipo de muestreo es más
recomendable, cuando las unidades de análisis son relativamente homogéneas. Para seleccionar una
muestra de este tipo se requiere tener en forma un listado de todos los elementos que integran la
población investigada y utilizar tablas de números aleatorios o un software estadístico.
Muestreo aleatorio sistemático, el cual es susceptible de ser más preciso que el muestreo aleatorio
simple. Se elige un primer elemento luego se van escogiendo los demás elementos a intervalos
constantes a partir del primero hasta completar el tamaño de la muestra.
Muestreo aleatorio estratificado, se usa para estimar parámetros de poblaciones muy heterogéneas,
consistes en la separación de las unidades de la población en grupos o estratos, de tal manera que entre
estratos haya cierta heterogeneidad, pero además exista cierta homogeneidad dentro de cada estrato. De
cada estrato se extrae una muestra aleatoria simple.
Muestreo aleatorio conglomerado, no se necesita un marco muy específico como en el caso del
muestreo aleatorio simple en el que era necesario disponer de un listado de unidades de la población, o
como en el muestreo estratificado, donde era necesario disponer de listados de unidades por estratos. Se
divide previamente a la población en conglomerados o áreas convenientes, de los cuales se seleccionará
algunos de ellos para la muestra, con lo que sólo es necesario un marco de conglomerados que será más
fácil de conseguir y más barato. Se pueden utilizar como marco divisiones territoriales ya establecidas
por necesidades administrativas para las cuales existe ya información. También se pueden utilizar como
marco áreas geográficas cuyas características están ya muy delimitadas.
Tamaño de muestra(n)
N ES 𝑧𝛼2⁄ . 𝜎 2 𝑧𝛼2⁄ . 𝑝. 𝑞
2 2
INFINITA 𝑛= 𝑛=
𝑒2 𝑒2
𝑧𝛼2⁄ . 𝑁. 𝜎 2 𝑧𝛼2⁄ . 𝑁. 𝑝𝑞
2 2
N ES FINITA 𝑛= 𝑛=
𝜎 2 𝑧𝛼2⁄ + (𝑁 − 1)𝑒 2 𝑝𝑞𝑧𝛼2⁄ + (𝑁 − 1)𝑒 2
2 2
106
Donde:
Precisión de estimación (e) llamado también margen de error o error de muestreo y viene a ser la
diferencia máxima que existirá entre el valor del estadístico y el parámetro.
𝑧𝛼⁄2 es llamado coeficiente de confiabilidad cuyo valor se encuentra en la tabla de la distribución normal
estándar y va depender del nivel de confianza.
N corresponde al tamaño de la población
𝜎 2 es la varianza poblacional
p es la proporción que posee la característica que se estudia
q es la proporción que no posee la característica que se estudia. (q =1- p)
EJERCICIOS DESARROLLADOS
Datos
n = 100 Se sabe que: 904 ≤ ≤ 1060 luego e = $ 60
N = 500
𝑋̅ = $1000 𝑍𝛼⁄2 𝜎 𝑁 − 𝑛
√ =𝑒
√𝑛 𝑁−1
107
300 500 − 100
𝑍𝛼⁄2 √ = 60
√100 500 − 1
b) De qué tamaño tendrá que ser la muestra para que se tenga una confianza del 97 % de que, al
estimar la media de la población, el error de estimación no sea mayor a $ 50.
Ejemplo 4. En una determinada región se tomó una muestra aleatoria de 125 individuos, de los
cuales 12 padecían afecciones pulmonares.
a) Estímese la proporción de individuos con afecciones pulmonares en dicha región; con un
95% de confiabilidad.
b) Si queremos estimar dicha proporción con un error máximo del 4%, con una confianza del 95%,
¿qué tamaño de muestra debemos tomar?
𝟏𝟐
̂=
luego 𝒑 = 𝟎, 𝟎𝟗𝟔
𝟏𝟐𝟓
𝑝̂ 𝑞̂ 𝑝̂ 𝑞̂
𝑝̂ − 𝑍𝛼 √ £ 𝑝 £ 𝑝̂ + 𝑍𝛼/2 √
2 𝑛 𝑛
𝑝̂𝑞̂
En consecuencia, los límites serán 𝑝̂ ± 𝑍𝛼/2 √
𝑛
108
0,096𝑥0,904
0,096 ± 1,96√ , 𝑙𝑢𝑒𝑔𝑜 0,096 ± 0,052
125
Conclusiones:
- Podemos afirmar con un 95% de confiabilidad que la proporción de personas que padecen de
afecciones pulmonares en dicha región estaría entre el 4% y 15%
- También podemos afirmar con un 95% de confiabilidad que la proporción de personas que
padecen de afecciones pulmonares en dicha región es del 9,6%, con un margen de error de 5,2%
b) Si queremos estimar dicha proporción con un error máximo del 3%, para una confianza
del 95%, ¿qué tamaño de muestra debemos tomar?
𝑝̂𝑞̂
Sabemos que 𝑍𝛼/2 √ 𝑛 = 𝑒 (𝑚𝑎𝑟𝑔𝑒𝑛 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟)
2
𝑍𝛼/2 𝑝̂𝑞̂
luego 𝑛 = 𝑐𝑢𝑎𝑛𝑑𝑜 𝑛𝑜 𝑠𝑒 𝑐𝑜𝑛𝑜𝑐𝑒 𝑁
𝑒2
(1,96)2 (0,096)(0,904)
𝑛= = 370,4 → 𝑛 = 371𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠
(0,03)2
Con una muestra de 371 personas estaremos 95% seguro, que a partir de dicha muestra obtendremos
una proporción muestral cuyo valor diferirá de la verdadera proporción en a lo más 0,03.
EJERCICIOS PROPUESTOS
2. Si un gerente de control de calidad quisiera estimar la vida promedio de un producto en una escala
± 20 horas con una confianza del 95% y también supone que la desviación estándar del proceso
permanece en 100 horas ¿qué tamaño de muestra se necesita?
3. Si una cadena de supermercados quisiera estimar el importe promedio de ventas en una escala de ±
$100 con una confianza del 99% y si se supone que la desviación estándar de la población es $200
¿qué tamaño de muestra se necesita?
4. Si una compañía de gas quisiera estimar el tiempo de espera promedio en días, dentro de ±5 días con
una confianza del 95% y si se supone que la desviación estándar de la población es de 20 días ¿qué
tamaño de muestra se necesita?
109
5. Un analista político quisiera estimar la proporción de votantes
que elegirán al candidato demócrata en una campaña presidencial.
El analista quisiera tener una confianza del 90% de que su
predicción esté correcta en una escala de ±0,04 de la proporción
real. ¿Qué tamaño de muestra se necesita?
6. El gerente de un banco quiere tener una confianza del 90% de estar en lo correcto en una escala de
± 0,05 de la proporción real de depositantes, que tienen al mismo tiempo cuentas de ahorro y de
cheques. ¿Qué tamaño de muestra se necesita?
8. Un equipo de investigación médica está seguro sobre un suero que han desarrollado, el cual curará
cerca del 75% de los pacientes que sufren de ciertas enfermedades. ¿Qué tamaño debe ser la muestra
para que el grupo pueda estar seguro en un 98% que la proporción muestral de los que se curan esté
dentro de ± 0,04 de la proporción de todos los casos que el suero curará? Rpta. n = 637
110
Nº de unidades defectuosas 0 1 2 3 4 5 10 12
Nº de cajas examinadas 27 15 12 12 6 4 2 2
13. Se desea estimar el promedio de pH de las lluvias en un área que experimenta una gran
contaminación por parte de la descarga del humo de una planta de energía eléctrica. Si se sabe que la
desviación estándar tiene un valor de 0,5 pH y se desea que la estimación difiera a lo más en 0,1 de la
media verdadera con una probabilidad de 0,95. ¿Cuántas lluvias deben incluirse aproximadamente en la
muestra (una lectura de pH por lluvia)? Rpta. n = 97 aprox.
111
PRUEBAS DE HIPÓTESIS
1° Caso: Cuando la muestra proviene de una población normal con varianza σ2 conocida
Sea X la media de una muestra aleatoria de tamaño n seleccionada de una población con media y
varianza 2 supuestamente conocida.
Si la población es normal, entonces la distribución de la estadística X es exactamente normal
N (, 2/ n)
𝑋̅−𝜇
𝑍=𝜎 N (0, 1)
⁄ 𝑛
√
1.- Diez análisis repetidos de la concentración de mercurio en una muestra de condensado de gas
comercial proporcionaron los siguientes resultados en ng/mL
23,3 22,5 21,9 21,5 19,9 21,3 21,7 23,8 22,6 24,7
Suponiendo que la concentración de mercurio se distribuye normalmente con una desviación estándar
igual a 1,5 y teniendo en cuenta que a partir de una media igual a 24 existe una alta toxicidad.
Con α = 0,05 ¿Evidencian los datos la existencia de una alta toxicidad?
Resolución A partir de los datos obtenemos 𝑋̅ = 22,32 luego plantearemos las hipótesis:
𝑋̅−𝜇 22,32−24
3) Estadístico de prueba: 𝑍𝑐 = 𝜎 = 1,5 = −3,54
⁄ 𝑛
√ √10
5) Conclusión: Los datos no evidencian la existencia de una alta toxicidad con un nivel de significancia
de 0,05.
Ejemplo 2. La estatura media de los alumnos de cierta universidad es de 1,68 m con desviación
estándar de 5 cm. ¿Hay razón para creer, que se ha producido un cambio en la estatura promedio, si una
muestra de 25 estudiantes dio una estatura promedio de 1,70 m?
Suponiendo que la estatura de los alumnos de cierta universidad se distribuye normalmente utilice un
nivel de significación de 0,05.
Resolución
1) Hipótesis 𝐻0 : 𝜇 = 1,68 𝑚 La estatura promedio de los alumnos es de 1,68
(No hay un cambio en la estatura)
𝐻1 : 𝜇 ≠ 1,68 𝑚 La estatura promedio de los alumnos es diferente de 1,68
(Hay un cambio en la estatura)
112
2) Nivel de significación: 𝛼 = 0,05
𝑋̅−𝜇 1,70−1,68
3) Estadístico de prueba: 𝑍𝑐 = 𝜎 → 𝑍𝑐 = 0,05 =2
⁄ 𝑛
√ √25
4) Regla de decisión: Rechazaremos 𝑯𝟎 si 𝑍𝑐 < −𝑍𝛼/2 𝑜 𝑍𝑐 > 𝑍1−𝛼/2 en donde 𝑍𝛼/2 = −1,96 y
𝑍1−𝛼/2 = 1,96 (Valor hallado en la tabla normal estandarizada)
Por lo tanto, la decisión será rechazar la hipótesis 𝐻0
5) Conclusión: La muestra está evidenciando que la estatura promedio ha cambiado con un nivel de
significancia de 0,05.
2° Caso: Cuando la muestra proviene de una población normal con varianza σ2 desconocida
Cuando el muestreo se realiza a partir de una población que sigue una distribución normal con una
varianza poblacional desconocida, entonces la distribución de la media muestral sigue una distribución
T. La estadística de prueba es:
𝑋̅ − 𝜇
𝑇𝑐 =
𝑆⁄
√𝑛
Ejemplo 1.- Una máquina vendedora de refrescos se ajusta para servir 6 onzas por vaso. La máquina se
pone en funcionamiento y se analiza una muestra de 9 vasos obteniendo un llenado medio de 6,4 onzas
con desviación estándar de 0,5 onzas. A un nivel de significancia de 0,05. ¿Esto evidencia de que la
máquina está llenando demasiado los vasos? Suponiendo que el contenido de llenado de maquina se
distribuye normalmente.
Resolución
Sea X la variable aleatoria que denota la cantidad servida por la máquina. Se supone que la variable X
se distribuye normalmente con media µ y varianza σ2 desconocida.
1) 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝐻0 : 𝜇 = 6 𝑜𝑛𝑧𝑎𝑠 La cantidad de llenado promedio de la maquina no es superior a 6 onzas
𝐻1 : 𝜇 > 6 𝑜𝑛𝑧𝑎𝑠 La cantidad de llenado promedio de la maquina es superior a 6 onzas
2) 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛: 𝛼 = 0,05
𝑋̄ − 𝜇 6,4 − 6
3) Estadístico de prueba ∶ 𝑇𝑐 = → 𝑇𝑐 = = 2,4
𝑆⁄ 0,5
√𝑛 ⁄
√9
4) 𝐑𝐞𝐠𝐥𝐚 𝐝𝐞 𝐝𝐞𝐜𝐢𝐬𝐢ó𝐧: 𝑅𝑒ℎ𝑎𝑧𝑎𝑟𝑒𝑚𝑜𝑠 𝐻0 𝑠𝑖 𝑇𝑐 > 𝑡(1 − 𝛼; 𝑛 − 1)
𝑒𝑛 𝑑𝑜𝑛𝑑𝑒 𝑡(1 − 𝛼; 𝑛 − 1) = 1,86(Valor hallado en la tabla t de Student) con n-1 grados de libertad
Por lo tanto rechazaremos la hipótesis H0
5) 𝐂𝐨𝐧𝐜𝐥𝐮𝐬𝐢ó𝐧: Efectivamente, los resultados evidencian que la máquina está llenando
demasiado los vasos con un nivel de significancia de 0, 05.
Ejemplo 2.- En su calidad de comprador comercial para una marca privada de un supermercado,
suponga que se toma una muestra aleatoria de 12 sobres de café de una empacadora. Se encuentra que
el peso promedio de café de cada sobre es de 15,97 gramos con desviación estándar de 0,15 gr.
Los empacadores afirman que el peso neto promedio mínimo de café es de 16 gr por sobre. ¿Puede
rechazarse esta afirmación con un nivel de significación del 5%? Suponiendo que el peso de los sobres
de café de una empacadora se distribuye normalmente.
Solución
113
1) 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝐻0 : 𝜇 ≥ 16𝑜𝑛𝑧𝑎𝑠 El peso promedio un sobre de café no es menor a 16 onzas
𝐻1 : 𝜇 < 16𝑜𝑛𝑧𝑎𝑠 El peso promedio un sobre de café es menor a 16 onzas
2) 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛: 𝛼 = 0,05
𝑋̄ − 𝜇 15,97 − 16
3) Estadístico de prueba ∶ 𝑇𝑐 = → 𝑇𝑐 = = −0,69
𝑆⁄ 0,15
√𝑛 ⁄
√12
4)Regla de decisión: 𝐑𝐞𝐜𝐡𝐚𝐳𝐚𝐫𝐞𝐦𝐨𝐬 𝑯𝟎 𝑠𝑖 𝑇𝑐 < 𝑡(𝛼; 𝑛 − 1)
en donde 𝑡(𝛼; 𝑛 − 1) = −1,80 (Valor hallado en la tabla t de Student) con n − 1
grados de libertad)
Por lo tanto la decisión será 𝐧𝐨 𝐫𝐞𝐜𝐡𝐚𝐳𝐚𝐫 𝐥𝐚 𝐡𝐢𝐩ó𝐭𝐞𝐬𝐢𝐬 𝐇𝟎
5) 𝐂𝐨𝐧𝐜𝐥𝐮𝐬𝐢ó𝐧: No tenemos razones suficientes como para rechazar tal afirmación es decir,
el peso promedio un sobre de café por lo menos 16 onzas con un nivel de significancia de
0,05.
Ejemplo 3.- Cuando funciona correctamente; un proceso produce frascos de mermelada, cuyo contenido
pesa en promedio 200 gramos. Una muestra aleatoria de 9 frascos de una remesa presentó los siguientes
pesos (en gramos) para el contenido:
214 197 197 206 208 201 197 203 209
Contrastar la hipótesis nula, de que el proceso está funcionando correctamente, al nivel del 5%.
Suponiendo que el peso de los frascos de mermelada se distribuye normalmente.
Solución
1) 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠
H0 : μ = 200 gramos El peso promedio de un frasco de mermelada es de 200 gramos
H1 : μ ≠ 200 gramos El peso promedio de un frasco de mermelada es diferente de 200 gramos
2) 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛: 𝛼 = 0,05
𝑋̄ − 𝜇 203,56 − 200
3) Estadístico de prueba ∶ 𝑇𝑐 = → 𝑇𝑐 = = 1,74
𝑆⁄ 6,13
⁄
√𝑛 √9
4)𝑅𝑒𝑔𝑙𝑎 𝑑𝑒 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛: 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟𝑒𝑚𝑜𝑠 𝐻0 𝑠𝑖 𝑇 < 𝑡(𝛼/2; 𝑛 − 1) 𝑜 𝑇 > 𝑡(1 − 𝛼/2; 𝑛 − 1)
𝛼 𝛼
𝑒𝑛 𝑑𝑜𝑛𝑑𝑒 𝑡(1 − 2 ; 𝑛 − 1) = 2,306 𝑡 ( 2 ; 𝑛 − 1) = −2,306
𝑋̄ = 1060𝑘𝑔/𝑑í𝑎 S = 340kg
114
Se desea saber si el promedio de producción diaria ha bajado significativamente durante el
año pasado. Suponiendo que el peso de la producción diaria de cierto compuesto se distribuye
normalmente utilice α = 0,05.
1) 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠
H0 : μ = 1100kg La producción promedio de un compuesto por día es 1110 kg
H1 : μ < 1100kg La producción promedio de un compuesto por día es menor de 1110 kg
2) 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛: 𝛼 = 0,05
𝑋̄−𝜇 1060−1100
3) Estadístico de prueba: 𝑍𝑐 = 𝜎̂ → 𝑍𝑐 = 340⁄ = −1,897
⁄
√𝑛 √260
𝑋̄ − 𝜇 1,1 − 0,9
3)Estadístico de prueba ∶ 𝑇𝑐 = → 𝑇𝑐 = = 3,08
𝑆⁄ 0,4
⁄
√𝑛 √38
4)𝐑𝐞𝐠𝐥𝐚 𝐝𝐞 𝐝𝐞𝐜𝐢𝐬𝐢ó𝐧: 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟𝑒𝑚𝑜𝑠 𝐻0 𝑠𝑖 𝑇𝑐 > 𝑡(1−𝛼;𝑛−1)
𝑒𝑛 𝑑𝑜𝑛𝑑𝑒 𝑡(1−𝛼;𝑛−1) = 1.69 (𝑉𝑎𝑙𝑜𝑟 ℎ𝑎𝑙𝑙𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑡 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡) 𝑐𝑜𝑛 𝑛 − 1 𝑔𝑟𝑎𝑑𝑜𝑠
𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑.
𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜 𝑙𝑎 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛 𝑠𝑒𝑟á 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝑙𝑎 ℎ𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝐻0
5) 𝐂𝐨𝐧𝐜𝐥𝐮𝐬𝐢ó𝐧: 𝐸𝑥𝑖𝑠𝑡𝑒 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑠𝑢𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑐𝑜𝑚𝑜 𝑝𝑎𝑟𝑎 𝑐𝑜𝑛𝑐𝑙𝑢𝑖𝑟 𝑞𝑢𝑒 𝑒𝑙 𝑐𝑜𝑛𝑠𝑢𝑚𝑜 𝑑𝑒 𝑡𝑎𝑏𝑎𝑐𝑜
𝑎𝑢𝑚𝑒𝑛𝑡𝑎 𝑒𝑙 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑡𝑖𝑜𝑐𝑖𝑎𝑛𝑎𝑡𝑜 𝑒𝑛 𝑒𝑙 𝑝𝑙𝑎𝑠𝑚𝑎 𝑐𝑜𝑛 𝑢𝑛 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑛𝑐𝑖𝑎 𝑑𝑒 0,05.
115
Ejemplo 6.- Las especificaciones de determinado medicamento exigen 30% de aspirina en cada
comprimido. Se toman aleatoriamente y analizan 16 comprimidos; la concentración media de aspirina
es 30,4% con desviación estándar de 0,8%. ¿El fármaco, cumple las especificaciones a nivel de
significación de 0,01? Nota: La concentración de aspirina de cada comprimido se distribuye
normalmente.
Resolución:
1) 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠
𝐻0 : 𝜇 = 30 La concentración media de aspirina en cada comprimido de cierto medicamento es 30%
𝐻1 : 𝜇 ≠ 30 La concentración media de aspirina en cada comprimido de cierto medicamento es del 30%
2) 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛: 𝛼 = 0,01
𝑋̄ − 𝜇 30,4 − 30
3) Estadístico de prueba ∶ 𝑇𝑐 = → 𝑇𝑐 = =2
𝑆⁄ 0,8
⁄
√𝑛 √16
4)𝑅𝑒𝑔𝑙𝑎 𝑑𝑒 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛: 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟𝑒𝑚𝑜𝑠 𝐻0 𝑠𝑖 𝑇𝑐 < 𝑡(𝛼/2;𝑛−1) 𝑜 𝑇𝑐 > 𝑡(1−𝛼/2;𝑛−1)
𝑒𝑛 𝑑𝑜𝑛𝑑𝑒 𝑡(𝛼/2;𝑛−1) = −2,9467 𝑦 𝑡(1−𝛼;𝑛−1) = 2,9467
2
(𝑉𝑎𝑙𝑜𝑟 ℎ𝑎𝑙𝑙𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑡 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡) 𝑐𝑜𝑛 𝑛 − 1 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑.
Por lo tanto, la decisión será no rechazar la hipótesis Ho
5) 𝐂𝐨𝐧𝐜𝐥𝐮𝐬𝐢ó𝐧: Tenemos razones sufucientes como para concluir que el fármaco si cumple
En muchos problemas prácticos, queremos contrastar hipótesis sobre la proporción de elementos de una
población que poseen cierto atributo. La inferencia sobre la proporción poblacional se basa en la
proporción de individuos de una muestra aleatoria que poseen el atributo de interés.
Para evaluar la magnitud de la diferencia entre la proporción muestral ( p̂ ) y la proporción poblacional
(p) supuesta, es necesario que la muestra aleatoria sea lo suficientemente grande (np o nq ≥ 5) es decir
n ≥ 100 aproximadamente.
116
𝑝̂ − 𝑝 0,6 − 0,7
3) Estadístico de prueba: 𝑍𝑐 = → 𝑍𝑐 = = −3,08
𝑝𝑞
√ √0,7𝑥0,3
𝑛 200
4) 𝑅𝑒𝑔𝑙𝑎 𝑑𝑒 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛: 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟𝑒𝑚𝑜𝑠 𝐻0 𝑠𝑖 𝑍𝑐 < 𝑍𝛼
5) 𝐂𝐨𝐧𝐜𝐥𝐮𝐬𝐢ó𝐧: No tenemos suficiente razón como para sugerir se haga el cambio de envase
con un nivel de significancia de 0,05.
Ejemplo 2.- Un fabricante de lavadoras automáticas produce un modelo particular en tres colores A, B
y C. De las primeras 1000 lavadoras vendidas, se nota que 400 eran del color A. ¿Concluiría que los
clientes tienen una preferencia por el color A? Use α = 0,01
Resolución:
1) 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠
𝐻0 : 𝑝 ≤ 0,33 El porcentaje de personas que prefieren la lavadora de color blanco no es superior al 33%
𝐻1 : 𝑝 > 0,33 El porcentaje de personas que prefieren la lavadora de color blanco es superior al 33%
2) 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛: 𝛼 = 0,01
𝑝̂ − 𝑝 0,40 − 0,33
3) Estadístico de prueba: 𝑍𝑐 = → 𝑍𝑐 = = 4,707
𝑝𝑞
√ √0,33𝑥0,67
𝑛 1000
4) 𝑅𝑒𝑔𝑙𝑎 𝑑𝑒 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛: 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟𝑒𝑚𝑜𝑠 𝐻0 𝑠𝑖 𝑍𝑐 > 𝑍1−𝛼
5) 𝐂𝐨𝐧𝐜𝐥𝐮𝐬𝐢ó𝐧: Los datos muestran evidencia mas que suficiente como para concluir que los
clientes tienen mayor preferencia por la lavadora de color A con un nivel de significancia de 0,01
.
Ejemplo 3.- De una lista de 2000 clientes de un banco comercial se seleccionó una muestra aleatoria
para obtener opinión acerca del servicio. En la muestra se halló que 215 no tenían quejas del servicio,
25 tenían quejas y 10 no opinan al respecto. Tradicionalmente el 5% tenían quejas del servicio, sin
embargo, se cree que ahora este porcentaje aumentó. ¿Cuál es la situación actual si se quiere una
probabilidad de 0,008 de cometer error de tipo I?
Resolución:
1) 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝐻0 : 𝑝 = 0,05 El porcentaje de quejas respecto a un servicio es 5%
𝐻1 : 𝑝 > 0,05 El porcentaje de quejas respecto a un servicio es superior al 5%
117
𝑝̂ − 𝑝 25
3) Estadístico de prueba: 𝑍𝑐 = 𝑒𝑛 𝑑𝑜𝑛𝑑𝑒 𝑝̂ = = 0,10
250
√𝑝𝑞 (𝑁 − 𝑛)
𝑛 𝑁−1
0,10 − 0,05
→ 𝑍𝑐 = = 3,88
√0,05𝑥0,95 (2000 − 250)
250 2000 − 1
4) 𝐑𝐞𝐠𝐥𝐚 𝐝𝐞 𝐝𝐞𝐜𝐢𝐬𝐢ó𝐧: Rechazaremos 𝐻0 𝑠𝑖 𝑍𝑐 > 𝑍1−𝛼
Ejemplo 4.- Una compañía farmacéutica afirma que un fármaco que elabora alivia los síntomas del
resfriado común durante un período de 10 horas en el 90% de quienes lo ingieren. En una muestra
aleatoria de 400 personas que ingirieron el fármaco, 350 aliviaron durante 10 horas. Al nivel de
significación de 0,05 la afirmación del fabricante es exacta?
Solución:
1) 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠
𝐻0 : 𝑝 = 0,9 El porcentaje de personas aliviadas de los síntomas de un resfriado es 90%
𝐻1 : 𝑝 ≠ 0,9 El porcentaje de personas aliviadas de los síntomas de un resfriado es diferente del 90%
118
EJERCICIOS PROPUESTOS
1.- El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la UNAC
manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este supuesto se
controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se considera el nivel de
significancia de 0,05
Datos:
2.- Los siguientes valores son las presiones sistólicas sanguíneas (en mm de Hg) de 12 pacientes que
experimentan terapia con drogas debido a que padecen de hipertensión.
183, 152, 178, 157, 194, 163, 144, 114, 178, 152, 118, 158
¿Puede concluirse a base de estos datos que la media de la población es menor que 165?
Utilice = 0,05.
119
3.- Caso: Nivel de hemoglobina de la gestante
INTRODUCCIÓN
El nivel bajo de hemoglobina en gestantes durante el embarazo es previsible por las modificaciones
fisiológicas que suceden en el sistema circulatorio materno al final del embarazo, modificaciones a las
que se tiene que adaptar el cuerpo de la gestante. El nivel bajo de hemoglobina en la sangre de la gestante
puede conllevar a muchas patologías durante el embarazo, parto y puerperio, entre ellas el parto
pretérmino.
En el Hospital Santa Rosa se observa que la mayoría de las gestantes que acuden en el tercer trimestre
presentan un nivel de hemoglobina por debajo de lo normal, así como también se reportan con frecuencia
casos de amenaza de parto pretérmino; por lo cual se desea realizar un estudio para evaluar la relación
que existe entre el nivel de hemoglobina y el parto pretérmino.
ANTECEDENTES:
La Encuesta Demográfica de Salud Familiar 2000 (ENDES 2000) reporta un 38.6% de la prevalencia
de anemia (hemoglobina < 11g/dl.) en la mujer gestante. La OMS considera a la anemia como un factor
que aumenta el riesgo de parto pretérmino en la gestante.
Por ello el Ministerio de Salud en coordinación con el Centro Latinoamericano de Perinatología (CLAP),
establecen pautas para el control pre natal, una de ellas es la suplementación de hierro a todas las
gestantes que acuden al control, pero esto aún no se logra inclusive en un hospital de referencia.
El jefe del Servicio de Gineco-Obstetricia del Hospital Santa Rosa desea saber si el nivel de hemoglobina
en promedio, de las gestantes en el tercer trimestre con diagnóstico de parto pre-término es menor a 11 mg/
dl; para lo cual toma una muestra al azar de 30 gestantes con dicho de diagnóstico, con un nivel de
significancia del 5%. Nota: Asumir que el nivel de hemoglobina de las gestantes en el tercer trimestre
presenta distribución normal.
10,9 11,2 9,8 11,6 9,9 10 11,2 10,2 10,8 9,5 10 10,9 11,5 10,4 10,9
10,3 11,7 11,2 9,8 10,4 11,4 11,3 10,5 10,2 11,1 10,6 9,9 8,9 10,8 9,5
4.- Un fabricante de cereales afirma que el peso promedio de cada caja de cereal es de 500 gramos. ¿Los
datos que a continuación se le dan apoyan la afirmación del fabricante? Pruebe con un nivel de
significancia α = 0,10
5.- Los siguientes datos corresponden a los pesos en Kg de 15 hombres escogidos al azar: 72, 68, 63,
75, 84, 91, 66, 75, 86, 90, 62, 87, 77, 70, 69.
Pruebe la Ho: 𝜇 ≥ 74 con un nivel de significancia de 0,05. Nota: Asumir que el peso de los hombres
presenta distribución normal.
120
6.-Los húmeros de animales de la misma especie tienden a tener aproximadamente las mismas razones
longitud/anchura. Cuando se descubren húmeros fósiles, los arqueólogos con frecuencia pueden
determinar la especie a la que pertenece el animal examinando las razones longitud/anchura de los
huesos. Se sabe que la especie A tiene una razón media de 8,5. Suponga que se desenterraron 41 húmeros
fósiles en una excavación del África Oriental, donde se cree que habitó la especie A. Se midieron las
razones longitud/anchura de los huesos y se presentan en la siguiente tabla:
7.- Las especificaciones de construcción en cierta ciudad requieren que las tuberías de desagüe
empleadas en áreas residenciales tengan una resistencia media a la ruptura de más de 2500 libras por pie
lineal. Un fabricante que quisiera proveer a la ciudad de tubos para desagüe ha presentado una licitación
junto con la siguiente información adicional: un contratista independiente seleccionó al azar siete
secciones de los tubos del fabricante y determinó su resistencia a la ruptura. Los resultados (libras por
pie lineal) son los siguientes:
¿Hay suficientes pruebas para llegar a la conclusión de que los tubos de desagüe del fabricante cumplen
con las especificaciones requeridas? Utilice un nivel de significación de un 10%.
Nota: Asuma que los datos presentan distribución normal
8.- Un fabricante de cigarrillos afirma que sus cigarrillos no contienen más de 25 mg de nicotina. Una
muestra de 16 cigarrillos tiene una media de 26,4 y una desviación estándar igual a 2. ¿Proporcionan
estos datos suficiente evidencia para no estar de acuerdo con la afirmación del fabricante?
Nota: Supongamos que la cantidad de nicotina de los cigarrillos presentan distribución normal use
un nivel de significancia α = 0,05.
9.- Al investigar prácticas comerciales pretendidamente desleales, una comisión estatal toma una
muestra aleatoria de 49 barras de chocolate de “9 onzas” de un gran despacho. La media de los pesos
muestrales fue de 8,94 oz y la desviación estándar 0,12. Mostrar que a un nivel de significación de 0,05,
la comisión tiene fundamentos para proceder contra el fabricante.
Nota: Asuma que el peso de las barras de chocolate presenta distribución normal.
10.- Se encuentra que el gasto promedio mensual en alimentación de empleados para una muestra de 50
empresas de una industria específica es de 420,4 con una desviación estándar de 55,7 Existe un total de
380 empresas en ese ramo industrial. Antes de recolectar los datos, se planteó la hipótesis de que el gasto
promedio mensual en alimentación de empleados por empresa en esa industria no era superior a 408.
Pruebe esa hipótesis con un nivel de significación de 0.05 además supongamos que el gasto mensual en
alimentación de los empleados de una industria específica presenta distribución normal.
11.- Al gerente del departamento de crédito de una compañía petrolera le gustaría determinar si el
saldo promedio mensual en contra de los tarjetahabientes es igual a $75. Un auditor selecciona una
muestra aleatoria de 100 cuentas y encuentra que la deuda promedio es de $83,4 con desviación
121
estándar de la muestra de $23,65. Utilizando el nivel de significación de 0,05 ¿Debería el auditor llegar
a la conclusión de que existe evidencia de que el saldo promedio es diferente de $75?
Nota: El saldo mensual en contra de los tarjetahabientes presenta distribución normal.
12.- Las cajas de un cereal producidas en una fábrica deben tener un contenido de 16 onzas. Un
inspector tomó una muestra que arrojó los siguientes pesos en onzas:
15,7 15,7 16,3 15,8 16,1 15,9 16,2 15,9 15,8 15,6
Indicar si es razonable que el inspector, usando un nivel de significación del 5 % ordene se multe al
fabricante. Nota: El contenido de las cajas de cereal presenta distribución normal
13.- En una oficina gubernamental se investiga a un empacador de pescado congelado. Los empaquetes
que utiliza indican que contiene 12 onzas de pescado, en tanto que se han recibido quejas de que ello
no es cierto. La oficina adquiere 100 paquetes de pescado procesado por esta compañía y encuentra
que:
100 100
Con base a esta muestra y con un nivel de significancia = 0,01. ¿Cuál es su conclusión?
Nota: El peso de los empaques de pescado presenta distribución normal.
14.- Ante un reclamo sobre el tiempo de realización de una tarea, los empleados de una compañía
sostienen que en promedio ellos completan la tarea en a lo más 13 minutos. Si Ud. Es el gerente de la
compañía.
¿Qué conclusión obtiene si para una muestra de 400 tareas se obtiene un promedio de tiempo de
terminación de 14 minutos? Se sabe que, por información de trabajos similares, que los tiempos de
ejecución de la tarea tiene una distribución normal, con desviación estándar de 10 min. Use = 0.05
15.- Un vendedor de seguros de vida dice que en promedio un trabajador en la ciudad de Lima
metropolitana tiene no más de S/ 25000 de seguro de vida personal. Para probar esto, muestrea
aleatoriamente 100 trabajadores en Lima metropolitana y encuentra que esta muestra de trabajadores
promedia S/ 26650 de seguro de vida personal y que la desviación estándar es S/ 12000.
Determine si la prueba muestra suficiente evidencia para rechazar la hipótesis nula planteada por el
vendedor. Nota: Las cantidades de dinero en los seguros de vida personal presenta distribución
normal use un nivel de significancia = 0,05
16.- Al estudiar si conviene o no una sucursal en la ciudad de Tarapoto, la gerencia de una gran tienda
comercial de Lima, establece el siguiente criterio para tomar una decisión. Abrir la sucursal solo si el
ingreso promedio familiar mensual en dicha ciudad es no menos de $500 y no abrirla en caso contrario.
Si una muestra aleatoria de 100 ingresos familiares de esa ciudad ha dado una media de $480. ¿Cuál
es la decisión a tomar al nivel de significación del 5 %?
Nota: El ingreso familiar mensual en dicha ciudad presenta distribución normal
17.- Los sacos de café que recibe un exportador de cierto proveedor deben tener un peso promedio de
100 kilos. Un inspector tomó una muestra de 50 sacos de un lote de 500 sacos de café encontrando una
media de 99 kilos y una desviación estándar de 3 kilos.
Con un nivel de significancia = 0,01 ¿Es razonable que el exportador rechace el lote de sacos de
café?
Nota: Suponga que el peso de los sacos que recibe un exportador de cierto proveedor de café presenta
distribución normal.
122
18.- Un investigador está realizando una prueba para determinar si una nueva medicina tiene el efecto
colateral de elevar la temperatura del cuerpo. Se entiende que la temperatura del cuerpo humano se
distribuye normalmente con una media de 98,6 ºF. Se administra la nueva medicina a 9 pacientes, se
toman las temperaturas y se obtiene una media de 99 ºF y una desviación estándar de 0,36 ºF. ¿Debería
permitirse a la compañía poner a la venta la nueva medicina, si el nivel de significación se especifica en
0,01?
19.- Cinco hipertensos reciben un nuevo fármaco que disminuye la presión arterial en:
14 25 13 18 20 puntos respectivamente.
¿El nuevo fármaco disminuye la presión arterial en por lo menos 20 puntos?
Nota: Suponga que los datos de la presión arterial presentan distribución normal.
21.- Se llevó a cabo un estudio sobre nutrición en un país en desarrollo. Una muestra de 500 campesinos
adultos reportó un consumo promedio diario de 1985 calorías con una desviación estándar de 210.
¿Puede concluirse a partir de estos datos que la media de la población es menor que 2000?
Nota: Suponga que la cantidad de calorías presenta distribución normal use α = 0,05.
22.- Antes el número medio de ataques de angina de pecho por semana entre los pacientes era de 1,03.
Se está probando un nuevo medicamento y se espera que reduzca esta cifra. Los datos se obtienen
mediante la observación de una muestra de 20 pacientes que están utilizando el nuevo fármaco.
1 3 0 1 1 1 0 2 2 0 0 1 0
0 0 1 1 1 1 0
Supongamos que la cantidad de ataques de angina de pecho distribución normal ¿Puede rechazarse
la hipótesis de investigación al nivel 0,01?
23.- Un productor de cápsulas de uña de gato envía al mercado en promedio 1000 por semana. La
demanda tiene distribución normal; sin embargo, en un estudio reciente, una muestra de 36 semanas
dio una demanda promedio de 850 cápsulas y una desviación estándar de 360 cápsulas.
En el nivel de significación de 0,05. ¿Es posible concluir que la media de la demanda semanal está
bajando?
24.- El gerente de un laboratorio farmacéutico quiere determinar si cierto somnífero aumenta las horas
de sueño en las personas. Para este fin, selecciona una muestra aleatoria de 10 pacientes y registra el
número de horas de sueño ganadas al aplicar el somnífero a cada paciente; los resultados fueron:
Paciente: 1 2 3 4 5 6 7 8 9 10
Nº de horas: 1,2 -1,3 1,7 0,9 2,4 0,8 -1,0 1,8 2 2,1
Suponiendo que las horas de sueño ganadas con el somnífero en cada paciente es una variable aleatoria
con distribución normal. Al nivel de significancia del 5%. ¿Hay prueba de que el somnífero aumenta
las horas de sueño?
25.- Se sospecha que una nueva medicina es eficaz en menos del 90% para curar cierta enfermedad,
pero el laboratorio que la fábrica cree que es efectiva por lo menos en un 90%. En una muestra de 400
personas que tenían la enfermedad, 320 se curaron con la aplicación de la medicina. ¿Se ha de concluir
que la medicina es eficaz por lo menos en un 90%? Use un nivel de significancia α = 0,05
123
26.- Un fabricante de televisores afirma que su póliza de garantía que en el pasado no más de 10% de
sus aparatos de televisión necesitaron reparación durante sus primeros dos años de operación. Con el
fin de probar la validez de esta afirmación, una agencia de pruebas del gobierno selecciona una muestra
de 100 aparatos de televisión y encuentra que 14 de ellos requirieron alguna reparación dentro de los
dos primeros años de operación. Utilizando un nivel de significación de 0.01 ¿Es válida la afirmación
del fabricante o existe evidencia de que ésta no es válida?
27.- Una cadena de tiendas de ropa está considerando la propuesta de un fabricante sobre la venta de
un gran lote de camisas, a precios de liquidación. El fabricante afirma que no más del 2 % de las
camisas tienen defectos de fabricación. Los representantes de la cadena inspeccionan una muestra de
400 camisas del lote y encuentran 15 camisas con defectos de fabricación.
¿Deberá la cadena rechazar la propuesta del fabricante, si ha decidido comprar el lote, a condición de
que lo afirmado por el fabricante sea cierto con una probabilidad de 1 en 10?
124
PRUEBAS DE HIPÓTESIS ACERCA DE LA DIFERENCIA DE DOS
MEDIAS POBLACIONALES
El objetivo del análisis es el de contrastar la hipótesis de que las medias poblacionales son iguales:
𝝁𝟏 = 𝝁𝟐 o lo que es lo mismo 𝝁𝟏 − 𝝁𝟐 = 0
Nota. - En caso de existir duda sobre la igualdad de las varianzas debe llevarse a cabo la prueba de
igualdad de varianzas.
La prueba T de Student para muestras independientes es una técnica de análisis frecuentemente utilizada
para analizar datos. Sirve para averiguar si dos grupos difieren en alguna variable cuantitativa de interés;
así `por ejemplo, para comparar en una variable cuantitativa: un grupo experimental y un grupo control,
o dos grupos distintos. (hombres y mujeres: fumadores y no fumadores; etc.). Muestras independientes
es sinónimo de grupos aleatorios; esto implica que se está trabajando con dos grupos de sujetos distintos,
aleatoriamente seleccionados de sus respectivas poblaciones
Ejemplo 1.- Un fabricante de cigarrillos anuncia que el contenido de alquitrán de los cigarrillos marca
B es menor que los de la marca A. Para probarlo se anotan los contenidos de alquitrán:
Marca A ( mg ) : 12 9 13 11 14
Marca B ( mg ) : 8 10 7
Solución
125
(𝑋̄𝐵 − 𝑋̄𝐴 ) − (𝜇𝐴 − 𝜇𝐵 )
3) 𝐸𝑠𝑡𝑎𝑑𝑖𝑠𝑡𝑖𝑐𝑜 𝑑𝑒 𝑝𝑟𝑢𝑒𝑏𝑎 ∶ 𝑇𝑐 =
(𝑛𝐴 − 1)𝑆𝐴2 + (𝑛𝐵 − 1)𝑆𝐵2 1 1
√ (𝑛 + 𝑛 )
𝑛𝐴 + 𝑛𝐵 − 2 𝐴 𝐵
8,33 − 11,8
→ 𝑇𝑐 = = −2,64
√4(3,7) + 2(2,33) (1 + 1)
5+3−2 5 3
5) 𝐂𝐨𝐧𝐜𝐥𝐮𝐬𝐢ó𝐧: El anuncio es válido es decir que el contenido de alquitrán de los cigarrillos marca B
no es menor que el contenido de alquitrán de los cigarrillos marca A con un nivel de significancia de
0,05.
Ejemplo 2.- Se aplicó un mismo test a dos grupos de personas con el objeto de analizar si existe o no
diferencia entre las puntuaciones medias; elija α = 0,05
Grupo I: 26 24 18 17 18 20 18
Grupo II: 38 26 24 24 30 22
Nota: Suponga que las puntuaciones del test en ambos grupos presentan distribución normal y que las
varianzas poblacionales desconocidas pero iguales.
Solución
20,14 − 27,33
→ 𝑇𝑐 = = −2,73
√6(12,143) + 5(34,667) (1 + 1)
7+6−2 7 6
126
𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜 𝑙𝑎 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛 𝑠𝑒𝑟á 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝑙𝑎 ℎ𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝐻0
Ejemplo 3. La directora de presupuesto de una cierta compañía desea comparar los gastos diarios (en
dólares) respecto al transporte del equipo de ventas y del personal de cobranza. Recopiló la siguiente
información muestral:
Al nivel de significancia de 0,05 ¿Puede concluirse que los gastos medios diarios del equipo de ventas
son mayores?
Nota: Suponga que los gastos diarios del personal de ventas y de cobranza presentan distribución
normal y que las varianzas poblacionales desconocidas pero iguales.
H0: µ1 ≤ µ2 Los gastos medios diarios del equipo de ventas no son mayores que los gastos medios
gastos del equipo de cobranza
H1: µ1 > µ2 Los gastos medios diarios del equipo de ventas son mayores que los gastos medios gastos
del equipo de cobranza
α = 0,05
Cálculos
𝑥̄ 1 = 142,5 𝑥̄ 2 = 130,3
𝑠12 = 149,9 𝑠22 = 249,24
Según la tabla T de Student con 11 grados de libertad y para α= 0,05 se tiene un valor
𝑡(1−α ;𝑛1+2−2) = 1,80
Conclusión. - Los datos de la muestra evidencian los gastos medios diarios del equipo de ventas
no son mayores que los gastos medios gastos del equipo de cobranza con un nivel de significancia de
0,05.
En este caso se supone que las muestras aleatorias no son independientes y se tomaron
aleatoriamente de poblaciones normales. En realidad; no se trata de dos grupos aleatorios, sino
de un solo grupo de sujetos al que se toman dos medidas o una medida en dos momentos
distintos. No hay necesidad de probar la igualdad de varianzas ya que es una sola la población;
así, por ejemplo:
127
• Dos conjuntos de mediciones de las mismas personas; de mediciones tomados a
hermanos, mellizos o gemelos.
𝑑̄ ∑𝑛𝑖=1 𝑑𝑖
𝑇𝑐 = 𝑒𝑛 𝑑𝑜𝑛𝑑𝑒 𝑑̄ =
𝑆𝑑 𝑛
⁄
√𝑛
𝑛 2 (∑𝑛𝑖=1 𝑑𝑖 )2⁄
∑ 𝑑
𝑖=1 𝑖 − 𝑛
𝑆𝑑2 =
𝑛−1
Ejemplo 1.- Un fabricante de productos alimenticios hace una prueba previa con cierto tipo de salsa
envasada, que puede preparar en una forma más espesa (A) o en otra forma menos espesa (B). Para
medir la preferencia por uno y otro tipo de salsa, utiliza una muestra de diez amas de casa, quienes
manifiestan sus preferencias por dichos tipos de salsa, con los siguientes resultados en puntajes
Salsa A ( ptos): 3 1 5 2 0 4 3 3 2 5
Salsa B ( ptos): 2 4 4 7 3 4 6 5 5 8
Al nivel de significación del 5% ¿Se puede concluir que el tipo de salsa menos espesa (B) tiene
mayores oportunidades de funcionar en el mercado, que el tipo más espeso (A)?.
Nota: Suponga que la diferencia de las puntuaciones presenta distribución normal.
Solución
𝑑
𝑇𝑐 =
𝑆𝑑
√𝑛
Salsa A ( ptos ): 3 1 5 2 0 4 3 3 2 5
Salsa B ( ptos ): 2 4 4 7 3 4 6 5 5 8
Diferencias: 1 -3 1 -5 -3 0 -3 -2 -3 -3
Cálculos
10 10
∑ 𝑑𝑖 = −20 ∑ 𝑑𝑖2 = 76
𝑖=1 𝑖=1
(−20)2⁄
76 − 10 = 4 → 𝑑̄ = −20 = −2
𝑆𝑑2 = 𝑆𝑑 = 2
9 10
128
d̄ −2
Luego T = = = −3,16
Sd 2⁄
⁄ √10
√n
5) 𝐶𝑜𝑛𝑐𝑙𝑢𝑠𝑖ó𝑛: 𝐿𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖𝑜𝑛𝑎𝑛 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑠𝑢𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑐𝑜𝑚𝑜 𝑝𝑎𝑟𝑎 𝑐𝑜𝑛𝑐𝑙𝑢𝑖𝑟 𝑞𝑢𝑒
𝑙𝑎 𝑠𝑎𝑙𝑠𝑎 𝐵 𝑡𝑖𝑒𝑛𝑒 𝑚𝑎𝑦𝑜𝑟 𝑜𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑣𝑒𝑛𝑡𝑎 𝑐𝑜𝑛 𝑢𝑛 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑛𝑐𝑖𝑎 𝑑𝑒 0,05.
Ejemplo 2.- Se desea analizar el efecto de una droga sobre la presión de la sangre (presión sanguínea
disminuye) para lo cual se utiliza una muestra de 10 personas, obteniendo los siguientes datos (presión
codificada). Utilice α = 0,05
Antes de la droga 14 15 12 9 14 12 10 9 13 12
Después de la droga 10 12 12 7 15 10 7 8 11 11
Nota: Suponga que la diferencia de las presiones sanguíneas después y antes de aplicar la droga
presenta distribución normal.
Solución
3) Estadístico de prueba:
𝑑
𝑇= 𝑆𝑑
√𝑛
Antes: 14 15 12 9 14 12 10 9 13 12
Después: 10 12 12 7 15 10 7 8 11 11
Diferencias: 4 3 0 2 -1 2 3 1 2 1
Cálculos
10 10
∑ 𝑑𝑖 = 17 ∑ 𝑑𝑖2 = 49
𝑖=1 𝑖=1
(17)2⁄
49 − 10 = 2,233 → 𝑑̄ = 17 = 1,7
𝑆𝑑2 = 𝑆𝑑 = 1,494
9 10
129
𝑑̅ 1,7
Luego 𝑇𝑐 = 𝑆𝑑 = 1,494 = 3,6
√𝑛 √10
130
EJERCICIOS PROPUESTOS
1.- En un estudio sobre cáncer pulmonar se dispone del contenido de nicotina de varios cigarrillos
tomados de dos marcas diferentes:
Utilizando el nivel de significación de 0,05, ¿puede concluirse que el contenido nicotínico de ambas
marcas de cigarrillos no es el mismo?
Nota: Suponga que el contenido de nicotina en ambos grupos presenta distribución normal y que las
varianzas poblacionales son desconocidas pero iguales.
2.- Dos empresas dedicadas a servir comidas rápidas a domicilio han alcanzado una notable popularidad
en cierta ciudad. Se pide a siete clientes habituales de cada empresa que informen sobre los tiempos (en
minutos) que ha tardado su pedido, obteniéndose los siguientes resultados:
Empresa A: 15 23 30 22 22 29 25
Empresa B: 12 21 25 22 15 21 15
Con esta información y con un nivel de significación del 1%. ¿Se puede considerar que los tiempos de
entrega de los pedidos son iguales en ambas empresas?
Nota: Suponga que los tiempos de los pedidos en ambas empresas presenta distribución normal y que
las varianzas poblacionales son desconocidas pero iguales.
3.- Se desea comparar la calidad de dos nuevas clases de trigo. Para ello se toman 10 fincas al azar,
plantando en cada una de ellas y en dos partes distintas ambas clases. Los datos sobre la producción en
las 10 fincas son los siguientes:
Clase A: 57 49 60 55 57 48 50 61 52 56
Clase B: 55 48 58 56 54 48 52 56 50 58
¿Podemos aceptar que la producción es la misma para ambas clases de trigo con un nivel de confianza
del 95%, suponiendo que las distribuciones son normales?
Nota: Suponga que la cantidad producida en las dos clases de trigo presentan distribución normal y
que las varianzas poblacionales son desconocidas pero iguales.
4.- Los datos que siguen corresponden a 10 hombres entre 45 y 55 años. Se trata de lecturas del colesterol
tomadas tras 12 horas de ayuno y repetidas una hora después de comer.
Sujeto 1 2 3 4 5 6 7 8 9 10
Ayuno 180 210 195 220 210 190 225 260 200 210
Después 185 225 200 225 200 180 235 265 195 220
5.- Se dividieron 30 pacientes de epilepsia en dos muestras aleatorias iguales. Al grupo A se les dio un
tratamiento que incluía dosis diarias de vitamina D. Al grupo B se le dio el mismo tratamiento excepto
que no recibió vitamina D sino un placebo en su lugar. Las medias del número de ataques
experimentados durante el tratamiento por los dos grupos fueron:
131
𝑋̄𝐴 = 15 𝑋̄𝐵 = 24 𝑆𝐴2 = 8 𝑆𝐵2 = 12
¿Hay suficiente evidencia que indique que la vitamina D reduce el número de ataques epilépticos?
Use α = 0,05 Rpta. La vitamina D sí reduce el Nº de ataques epilépticos
Nota: Suponga que la cantidad de ataques experimentados durante el tratamiento por los dos grupos
presentan distribución normal y que las varianzas poblacionales son desconocidas pero iguales.
6.- Los siguientes datos fueron recabados en un experimento que fue diseñado para verificar si existe
una diferencia sistemática en los pesos en gramos obtenidos con dos diferentes balanzas:
Balanza I: 11,23 14,36 8,33 10,50 23,42 9,15 13,47 6,47 12,40 19,38
Balanza II: 11,27 14,41 8,35 10,52 23,41 9,17 13,52 6,46 12,45 19,35
¿Existe diferencia significativa entre los pesos obtenidos con las dos balanzas? Use un nivel de
significancia = 0,05
Nota: Suponga que los pesos obtenidos con las dos balanzas presentan distribución normal y que las
varianzas poblacionales son desconocidas pero iguales.
7.- Se lleva a cabo un estudio para comparar el tiempo que tardan hombres y mujeres para realizar
determinada tarea. Una muestra aleatoria de 9 hombres y 8 mujeres han dado los siguientes tiempos en
minutos:
Hombres: 12 28 10 25 24 19 22 33 17
Mujeres: 16 20 16 20 16 17 15 21
¿Se puede concluir que los hombres emplean mayor tiempo que las mujeres para hacer la tarea?
Use un nivel de significancia = 0,05
Nota: Suponga que los tiempos que utilizan para realizar una tarea en ambos grupos presentan
distribución normal y que las varianzas poblacionales son desconocidas pero iguales.
8.- Se desea determinar el contenido de grasa en la carne para poder fijar su precio de venta al
consumidor. Una compañía empacadora de carne está considerando el uso de dos métodos diferentes
para determinar el porcentaje de grasa. Ambos métodos fueron usados para evaluar el contenido de grasa
en doce diferentes muestras de carne. Los resultados se muestran en la siguiente tabla:
¿Sugieren estos datos que los dos métodos difieren en su medición del contenido de grasa en la carne?
Use un nivel de significancia = 0,05
Nota: Suponga que los contenidos de grasa que hay en la carne con ambos métodos presentan
distribución normal y que las varianzas poblacionales son desconocidas pero iguales.
9.- Un gerente de publicidad de una compañía de cereales para el desayuno desea determinar si un nuevo
envase podría aumentar las ventas del producto. Para probar la factibilidad de la nueva forma del envase
se seleccionó una muestra de 40 tiendas similares y se asignaron en forma aleatoria, 20 de ellas como
mercado de prueba de la nueva forma del envase, en tanto que las otras 20 continuarían recibiendo el
envase antiguo. Las ventas semanales durante el tiempo del estudio fueron las siguientes:
Nuevo Antiguo
Media = 130 cajas Media = 117 cajas
Desv. estándar = 10 cajas Desv. estándar = 12 cajas
132
Con un nivel de significancia α = 0,05. ¿La nueva forma del envase dio como resultado mayores ventas?
Nota: Suponga que las ventas con ambos envases presentan distribución normal y que las varianzas
poblacionales son desconocidas pero iguales.
10.- Un investigador cree tener razón para creer que cierto medicamento aumentará el contenido de
hemoglobina en gr/100 ml para ello mide el contenido de hemoglobina de 8 sujetos antes y después de
la administración del medicamento.
Antes 10 9 11 12 8 7 12 10
Después 12 11 13 14 9 10 12 14
Analice los datos y determine el efecto del medicamento además utilice un nivel de significancia
α = 0,01
Nota: Suponga que la diferencia de la hemoglobina del colesterol después y antes de administrar el
medicamento presenta distribución normal. Rpta. El medicamento sí es efectivo
11.- Los siguientes datos son porcentajes de grasa encontrados en dos tipos de carne:
Carne A: 30 26 30 19 25 37 27 38 26 31
Carne B: 40 34 28 29 26 36 28 37 35 42
¿Tienen las carnes diferente contenido de grasa? Use un nivel de significancia = 0,05
Nota: Suponga que el porcentaje de grasa en ambas carnes presenta distribución normal y que las
varianzas poblacionales son desconocidas pero iguales.
12.- Un psicólogo desea verificar que cierto fármaco aumenta el tiempo de reacción a un estímulo dado.
Para una muestra de 4 individuos se obtuvieron los siguientes tiempos de reacción en décimos de
segundo, antes y después de inyectarse el fármaco:
Tiempo de reacción
Individuo Antes Después
1 7 13
2 2 3
3 12 18
4 12 13
Con un nivel de significación del 5 % realice una prueba para determinar si el fármaco aumenta
significativamente el tiempo de reacción.
Nota: Suponga que la diferencia de los tiempos de reacción después y antes de aplicar el fármaco
presenta distribución normal.
13.- Se desea comparar dos dietas. Se seleccionaron 80 individuos al azar en una población de músicos
excedidos de peso; 45 integrantes de este grupo recibieron la dieta A, los otros 35 la dieta B. Las pérdidas
de peso en libras durante un período de una semana resultaron ser los siguientes:
Usando un nivel de significancia α = 0,01. ¿Cuál dieta fue mejor en la reducción de peso?
Nota: Suponga que la pérdida de peso con ambas dietas presenta distribución normal y que las
varianzas poblacionales son desconocidas pero iguales.
133
14.- Se administran dos nuevos medicamentos a pacientes con un padecimiento cardíaco. El primer
medicamento bajó la presión sanguínea de 16 pacientes en un promedio de 11 puntos con una desviación
estándar de 6. El segundo medicamento bajó la presión sanguínea de otros 20 pacientes en un promedio
de 12 puntos con una desviación estándar de 8.
¿Existe diferencia significativa entre los efectos de ambos medicamentos? Use un nivel de significancia
α = 0,05. Nota: Suponga que la presión sanguínea con ambos medicamentos presenta distribución
normal y que las varianzas poblacionales son desconocidas pero iguales.
15.- Veinticuatro animales de laboratorio con deficiencia de vitamina D, se dividieron en dos grupos
iguales: El grupo I recibió un tratamiento consistente en una dieta que proporcionaba la vitamina D.
El grupo II no fue tratado. Al término del período experimental se hicieron las determinaciones del
calcio en el suero, obteniéndose los siguientes resultados:
Suponiendo que las poblaciones son normales y que las varianzas poblacionales son desconocidas pero
iguales. ¿Existe diferencia significativa? Rpta. Sí
16.- El tiempo de recuperación fue observado para pacientes al azar y sometidos a dos tipos distintos
de procedimientos quirúrgicos. Los datos son los siguientes:
PROCEDIMIENTO 1 PROCEDIMIENTO 2
𝑛1 =21 𝑛2 =23
𝑥1 = 7,3
̅̅̅ 𝑥2 = 8,9
̅̅̅
𝑠12 = 1,23 𝑠22 = 1,49
¿Presentan los datos suficiente evidencia para concluir que hay diferencia entre los tiempos medios de
recuperación de los dos procedimientos quirúrgicos? Use un nivel de significancia α = 0,05.
Nota: Suponiendo que las poblaciones son normales y que las varianzas poblacionales son
desconocidas pero iguales.
17.- Once estudiantes de medicina midieron la presión sanguínea del mismo paciente y repitieron la
medición al día siguiente. A continuación, se listan las lecturas sistólicas en mmHg.
Día 1: 138 130 135 140 120 125 120 130 130 144 143
Día 2: 116 120 125 110 120 135 124 118 120 130 140
Con un nivel de significancia α = 0,05 ¿Existe diferencia significativa entre ambas mediciones?
Nota: Suponiendo que las mediciones de ambos grupos son normales y que las varianzas
poblacionales son desconocidas pero iguales.
134
ANÁLISIS DE VARIANZA (ANOVA)
TÉRMINOS BÁSICOS
Unidad experimental
Es el sujeto u objeto, intervalo de espacio o tiempo, sobre el que se experimenta o se aplica el
tratamiento.
Ejemplo:
En el campo industrial: el trabajador, una máquina, un lote de material.
Factor
Es una variable independiente de interés del experimentador, en la cual se desea estudiar su efecto
sobre la variable respuesta. En la gran mayoría de las investigaciones de tipo cualitativo o cuantitativo,
se trabaja con más de una variable independiente.
• Factor cualitativo:
• Factor cuantitativo:
Niveles de un factor
Son los diferentes tipos o grados específicos del factor que se tendrán en cuenta en la realización del
experimento. Los niveles de un factor reciben el nombre de “tratamientos”.
Ejemplo:
Tratamientos
Un tratamiento es un efecto que se desea estudiar. Implica el nivel particular de
un factor que deben imponerse a una unidad experimental dentro del marco del
diseño seleccionado.
Ejemplo:
• Utilizar en el cultivo de trigo la variedad Buck Ponch.
• Utilizar el Droperidol como fármaco para la relajación muscular.
135
El modelo de clasificación de un solo factor completamente aleatorizado es:
Donde:
Ti◼: es la suma de datos de la muestra i.
Ti◼◼: es la suma total de datos de las k muestras
n: es el total observado en las k muestras
i◼: es la media de la muestra i
◼◼: es media total muestral
Donde:
𝑘 𝑛𝑖 𝑘 𝑛𝑖
2 𝑇 2 ∎∎
𝑆𝐶𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅∎∎ ) = ∑ ∑ 𝑥 2 𝑖𝑗 −
𝑛
𝑖=1 𝑗=1 𝑖=1 𝑗=1
136
SCTR: es la suma de cuadrados entre los tratamientos
𝑘 𝑘
𝑇 2 𝑖∎ 𝑇 2 ∎∎
𝑆𝐶𝑇𝑅 = ∑ 𝑛𝑖 (𝑥𝑖∎ − 𝑥̅∎∎ )2 =∑ −
𝑛𝑖 𝑛
𝑖=1 𝑖=1
𝑘 𝑛𝑖
2
𝑆𝐶𝐸 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑖∎ ) = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅
𝑖=1 𝑗=1
Resolución
26,42
𝑆𝐶𝑇 = 2, 32 + 2, 22 + 2,252 +. . . . +2,252 − 12
= 0,035
𝑘 2 2
𝑇𝑖∎ 𝑇∎∎
SCTR= ∑ − =
𝑛𝑖 𝑛
𝑖=1
137
SCE = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅 =
1.Planteamiento de Hipótesis
Ho: µ1 = µ2 = µ3 = µ4 (la resistencia del concreto en los distintos tipos de mezclas es la misma).
H1: La resistencia del concreto en al menos uno de los cuatro tipos de mezclas es diferente.
2. Nivel de significancia
α = 0,05
3. Estadígrafo o estadístico
Total 0,035 11
4. Regla de Decisión
Región Crítica
5. Conclusión
Finalmente hay suficiente evidencia estadística para decir que no hay diferencias entre las resistencias
del concreto en los distintos tipos de mezclas con un nivel de significancia de 0,05.
Ejemplo 2:
La fábrica de pantalones A&M tiene cuatro trabajadores que se dedican exclusivamente a coser
pantalones previamente cortados. El gerente de A&M sospecha que los trabajadores no están trabajando
a un mismo nivel. Para probar su sospecha, el gerente decide registrar en forma aleatoria el tiempo (en
minutos) que demora cada trabajador en coser un pantalón. Cinco observaciones fueron registradas para
cada trabajador, obteniéndose la siguiente información:
138
Resolución
1.Planteamiento de Hipótesis
Ho: µ1 = µ2 = µ3 = µ4 (Los tiempos promedios que demoran los trabajadores en coser un pantalón
es el mismo).
H1: Al menos unos de los tiempos promedios que demoran los trabajadores en coser un pantalón es
diferente).
2. Nivel de significancia
α = 0,05
3. Estadígrafo o estadístico
Total 596,95 19
4. Regla de Decisión
Región Crítica
139
Primero se encuentra el valor crítico que es F(1-α, k-1, n-k) = F(0,95 , 3, 16) =3,24.
La región critica es: (3,24, +∞).
El valor de 24,15 si pertenece a la región critica por lo tanto se debe rechazar Ho.
5. Conclusión
Finalmente hay suficiente evidencia estadística para decir que hay diferencias entre los tiempos
promedios que demoran los trabajadores en coser un pantalón con un nivel de significancia de 0,05.
Ejemplo 3:
Los datos de la siguiente tabla representan el número de horas de alivio que proporcionan cinco marcas
diferentes de tabletas contra el dolor de cabeza que se administran a 25 sujetos que sufren de fiebres de
38ºC o más.
Realice el análisis de varianza y pruebe la hipótesis, en el nivel de
significancia de 0,05 que el número promedio de horas de alivio que proporcionan las tabletas es el
mismo para las cinco marcas.
Tabletas
A B C D E
5,2 9,1 3,2 2,4 7,1
4,7 7,1 5,8 3,4 6,6
8,1 8,2 2,2 4,1 9,3
6,2 6,0 3,1 1,0 4,2
3,0 9,1 7,2 4,0 7,6
Solución
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 (𝐸𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 ℎ𝑜𝑟𝑎𝑠 𝑑𝑒 𝑎𝑙𝑖𝑣𝑖𝑜 𝑒𝑠 𝑒𝑙 𝑚𝑖𝑠𝑚𝑜 𝑝𝑎𝑟𝑎 𝑙𝑎𝑠
𝑐𝑖𝑛𝑐𝑜 𝑚𝑎𝑟𝑐𝑎𝑠 𝑑𝑒 𝑡𝑎𝑏𝑙𝑒𝑡𝑎𝑠).
𝐻1 : 𝐸𝑛 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑎𝑟𝑐𝑎𝑠 𝑑𝑒 𝑡𝑎𝑏𝑙𝑒𝑡𝑎𝑠 𝑒𝑙 𝑡𝑖𝑒𝑚𝑝𝑜 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑎𝑙𝑖𝑣𝑖𝑜𝑛 𝑜 𝑒𝑠 𝑒𝑙
𝑚𝑖𝑠𝑚𝑜.
α = 0,01
(137,9)2
𝑆𝐶𝑇 = (5,2)2 + (4,7)2 +. . . . . . . . . . . . . . . . . . . . . +(7,6)2 − 25
SCT= 898,61-760,66 = 137,95
Total 137,95 24
4. Regla de Decisión
Primero se encuentra el valor crítico que es F(1-α, k-1, n-k) = F(0,95 , 4, 20) =2,87.
La región critica es: (2,87, +∞).
El valor de 6,59 si pertenece a la región critica por lo tanto se debe rechazar Ho.
140
5. Conclusión Hay suficiente evidencia estadística para concluir que existe diferencia significativa
entre los efectos de las tabletas con respecto al tiempo promedio de alivio con un nivel de significancia
de 0,01.
7
Horas promedio de alivio
A B C D E
Tabletas
EJERCICIOS PROPUESTOS
1.- Cinco laboratorios participan en un estudio para la determinación de la concentración de plomo en
muestras de agua. Los resultados, obtenidos para réplicas de cada muestra analizada en los laboratorios,
se expresan en ppm y se presentan en la siguiente tabla:
¿La determinación de los niveles de concentración de plomo en muestras de agua es la misma en dichos
laboratorios? Use un nivel de significancia α = 0,05
2) Un fabricante está interesado en estudiar la resistencia a la tensión de una fibra sintética, y sospecha
que puede estar relacionada con el porcentaje de algodón en su composición. Con este fin, estudia la
resistencia de la fibra considerando 5 niveles de porcentaje de algodón en su composición. Los datos
observados se muestran en la siguiente tabla.
Porcentaje de algodón
15 20 25 30 35
Tensión de ruptura
7 12 14 19 7
7 17 18 25 10
15 12 18 22 11
11 18 19 19 15
9 18 19 23 11
141
Contrastar al 5 % de significación si el fabricante está acertado en su sospecha.
3.- Se recolectaron muestras de agua en 4 lugares distintos de un río, para determinar si la cantidad de
oxígeno disuelto, varía de un lugar a otro. Los lugares 1 y 2 se escogieron arriba de una planta industrial,
una cerca de la orilla y la otra a mitad del río; el lugar 3 se tomó adyacente a la descarga del agua
industrial de la planta y el lugar 4 se tomó río abajo a mitad del río. Los datos se presentan en la siguiente
tabla (a mayor contaminación, menor es la lectura de oxígeno):
Al nivel de significación de 0,01 ¿Proporcionan los datos evidencia suficiente para indicar una diferencia
entre las cantidades medias de oxígeno disuelto para los 4 lugares?
4.- La siguiente tabla muestra las concentraciones arteriales de epinefrina en plasma sanguíneo (en 10-8
gramos por mililitro) que se encontró en 15 pacientes sometidos a cirugía durante un período en el que
estuvieron anestesiados, usando 3 tipos diferentes de anestesia, aplicando cada tipo de anestesia a cada
uno de los 5 pacientes elegidos al azar de los 15:
Anestesia Pacientes
Tipo 1 9 12 10 8 15
Tipo 2 20 21 23 17 30
Tipo 3 6 5 8 16 7
Tomando un nivel de significancia de α = 0,01 ¿Se puede decir que si se observan diferencias en la
concentración de epinefrina según el tipo de anestesia usada?
5) Tres profesores dan clases teóricas en una misma autoescuela. Se desea contrastar, si existen
diferencias significativas en la forma de enseñanza de los tres profesores. Para ello se seleccionan tres
muestras de alumnos y se anota el número de preguntas correctas en el examen.
6.- Se realizó un estudio para determinar la proliferación de hongos debido al exceso de residuos
alimenticios de los peces. Se observaron estas condiciones con peces en estadios, de alevines, juveniles
y adultos. Los peces alevines, juveniles y adultos fueron alimentados con cantidades de alimento que
variaban entre 3, 6 y 9 gramos al día respectivamente. Los datos a continuación representan el número
de colonias de hongos presentes en cada acuario.
142
3 gramos 6 gramos 9 gramos
18 22 41
14 26 32
7 13 47
9 33 51
19 55
20
29
48 162 226
Total = 436
7) Un fabricante de cereales tiene que elegir entre tres colores para las cajas de cereales: rojo, amarillo
y azul. Para averiguar si el color influye en las ventas, se eligen 16 tiendas de tamaño parecido. Se envían
cajas rojas a 6 de estas tiendas, cajas amarillas a 5 y cajas azules a las 5 restantes. Después de unos días,
se comprueba el número de cajas vendidas en cada tienda. La tabla adjunta muestra los resultados (en
decenas de cajas) obtenidos.
Complete la tabla del análisis de la varianza y contraste la hipótesis nula de que las medias poblacionales
de los niveles de ventas de las cajas de los tres colores son iguales.
8) Un profesor tiene una c1ase de 23 estudiantes. Al comienzo de cada cuatrimestre asigna a cada
estudiante aleatoriamente a uno de los cuatro profesores ayudantes que tiene: Sánchez, Hervás, Alarcos
o Blázquez. Anima a los estudiantes a reunirse con su profesor ayudante para que les explique la materia
difícil del curso. AI final del cuatrimestre, se hace un examen. La tabla adjunta muestra las calificaciones
obtenidas por los estudiantes que trabajan con estos profesores ayudantes.
Complete la tabla del análisis de la varianza y contraste la hipótesis nula de la igualdad de las medias
poblacionales de las calificaciones de estos profesores ayudantes.
143
9) Tres proveedores suministran piezas en envíos de 500 unidades. Se han comprobado minuciosamente
muestras aleatorias de seis envíos de cada uno de los tres proveedores y se ha anotado el número de
piezas que no se ajustan a las normas. La tabla muestra este número.
Contraste la hipótesis nula de que la igualdad de las medias poblacionales del número de piezas por
envío de los tres proveedores no se ajusta a las normas.
144
CORRELACIÓN LINEAL Y REGRESIÓN LINEAL SIMPLE
En diversos problemas vinculados con el análisis de la información es importante estudiar las relaciones
que pueden existir entre dos o más variables. Preguntas como: ¿las personas con mayor poder adquisitivo
tienen mayor grado de educación? están referidas a las relaciones que podrían existir entre las variables
“poder adquisitivo” y “educación”. Las relaciones entre variables pueden explorarse algunas veces
usando gráficos adecuados, pero también existen medidas que indican no solo la existencia de la relación
sino también la fuerza de esta. A estas medidas se les llama medidas de correlación cuando las variables
en estudio son numéricas u ordinales y medidas de asociación si las variables son nominales.
El coeficiente de correlación de Pearson Es un número que indica el grado de asociación entre dos
variables cuantitativas (numéricas) y se define del siguiente modo:
𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
𝑟=
√[𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋)2 ][𝑛 ∑ 𝑌𝑖2 − (∑ 𝑌)2 ]
Diagrama de dispersión Se utiliza para graficar la relación entre dos variables X e Y, consiste en una
nube de puntos que nos mostrará visualmente si existe o no correlación dependiendo de la tendencia de
los puntos.
Regresión Lineal El modelo de regresión lineal se usa para expresar la relación lineal que puede existir
entre los valores de una variable “Y” y los valores de una variable “X”.
X: Variable independiente.
Y: Variable dependiente.
Modelo de regresión lineal simple Los modelos de regresión que relacionan valores x de una
variable independiente X con valores y de una variable dependiente Y, cuya forma es
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
La expresión 𝛽0 + 𝛽1 𝑋 es la parte estructural lineal, mientras que 𝜀 resume la parte aleatoria que
influye débilmente en la variable dependiente Y. A la ecuación 𝑦 = 𝛽0 + 𝛽1 𝑋, que expresa la
estructura lineal, se llama la ecuación de regresión lineal. A los coeficientes 𝛽0 y 𝛽1 se les llama
coeficiente de regresión.
Se considera de este modo que los puntos (x,y) no necesariamente esta sobre la recta
𝑦 = 𝛽0 + 𝛽1 𝑋 sino que fluctúan aleatoriamente a su alrededor.
Se asume que 𝜀 es una variable aleatoria cuya distribución es normal de media 0 varianza
constante.
145
La estimación de los valores 𝛽0 y 𝛽1 se realiza usando el método de mínimos cuadrados y los
valores obtenidos de la muestra (𝑥1 , 𝑦1 ), . . . . . , (𝑥𝑛 , 𝑦𝑛 )
𝛽̂0 = 𝑦̅ − 𝛽̂1 𝑥̅
2
Coeficiente de Determinación ( R ) Medida de Bondad de Ajuste: Mide la proporción de la
variabilidad total de Y que es explicada por X a través del modelo de regresión lineal simple.
𝑹𝟐 = 𝒓𝟐
146
EJERCICIOS DE REGRESIÓN Y CORRELACIÓN LINEAL
Ejemplo 1.- El costo de fabricar un lote de cierto producto depende del tamaño del lote, como se
aprecia en el siguiente conjunto de datos:
Costo ($10): 30 70 140 270 530 1010 2500 5020
Tamaño del lote: 1 5 10 25 50 100 250 500
(100 unidades)
Resolución
a) Diagrama de Dispersión
5000
4000
Costo ( 10 dólares ): Y
3000
2000
1000
147
8(3271030)−(941)(9570)
𝑏= 8(325751)−(941)2
= 9,975
Interpretación: Al aumentar el tamaño del lote en 100 unidades, el costo aumentará en 9,975
decenas de dólar o sea aproximadamente en 100 dólares.
4000
Costo ( Y )
3000
2000
1000
0
0 100 200 300 400 500
Tamaño del lote ( X )
∑ 𝑌 2 − 𝑎 ∑ 𝑌 − 𝑏 ∑ 𝑋𝑌
𝑆𝑦/𝑥 = √
𝑛−2
148
𝟖(𝟑𝟐𝟕𝟏𝟎𝟑𝟎) − (𝟗𝟒𝟏)(𝟗𝟓𝟕𝟎)
𝒓= =𝟏
√[𝟖(𝟑𝟐𝟓𝟕𝟓𝟏) − (𝟗𝟒𝟏)𝟐 ][𝟖(𝟑𝟐𝟖𝟒𝟗𝟕𝟎𝟎) − (𝟗𝟓𝟕𝟎)𝟐 ]
Interpretación: Existe una correlación lineal positiva perfecta; a medida que el tamaño del lote se
incrementa, el costo también crecerá.
g) Cálculo del Coeficiente de Determinación: r2 = 1
Interpretación: Las variaciones que se observa en el costo, se debe únicamente a la variación del
tamaño del lote.
Ejemplo 2.- Se llevó a cabo un experimento para estudiar el efecto de cierto medicamento para
disminuir la frecuencia cardíaca en adultos. La variable independiente es la dosis en miligramos del
medicamento y la variable dependiente es la diferencia entre la frecuencia cardíaca más baja después
de la administración del medicamento y un control antes de administrarlo. Se reunieron los siguientes
datos:
149
Resolución:
a) Diagrama de Dispersión
20
18
16
14
12
10
63,375(198)−26(442,5)
Luego 𝑎 = = 7,055
13(63,375)−(26)2
13(442,5)−(26)(198)
𝑏= 13(63,375)−(26)2
= 4,088
̂ = 7,055 + 4,088X
Por lo tanto la ecuación de regresión lineal será: Y
Interpretación: Al aumentar la dosis del medicamento en 1 mg. la reducción de los latidos del
corazón, se incrementan en 4 lat/min aproximadamente; es decir por cada mg de la dosis, los
latidos del corazón se reducen en 4 aproximadamente.
c) Gráfica de la línea de regresión lineal
150
Gráfica de línea ajustada
Y = 7.055 + 4.088 X
22 S 1.35579
18
16
14
12
10
∑ 𝑌 2 − 𝑎 ∑ 𝑌 − 𝑏 ∑ 𝑋𝑌
𝑆𝑦/𝑥 = √
𝑛−2
𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
𝑟=
√[𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋)2 ][𝑛 ∑ 𝑌𝑖2 − (∑ 𝑌)2 ]
𝟏𝟑(𝟒𝟒𝟐, 𝟓) − (𝟐𝟔)(𝟏𝟗𝟖)
𝒓= = 𝟎, 𝟗𝟓𝟎𝟕
√[𝟏𝟑(𝟔𝟑, 𝟑𝟕𝟓) − (𝟐𝟔)𝟐 ][𝟏𝟑(𝟑𝟐𝟐𝟔) − (𝟏𝟗𝟖)𝟐 ]
Interpretación: Existe una correlación lineal positiva entre la dosis del medicamento y la reducción
de la frecuencia cardíaca; a medida que se aumenta la dosis del medicamento entonces la reducción
de la frecuencia también aumentará.
g) Cálculo del coeficiente de determinación: r2 = 0,904
Interpretación: El 90,4% de las variaciones que se observa en la reducción de la frecuencia cardíaca,
se debe a la variación de la dosis del medicamento; el 9,6% restante se debe a la influencia o efecto
de alguna otra variable no tomada en cuenta en el presente estudio.
151
EJERCICIOS PROPUESTOS
1.- Una muestra aleatoria de cinco familias da la siguiente información en relación al ingreso familiar
mensual y los gastos mensuales en gastos en seguros de salud.
Horas-hombre por mes de instrucción 200 500 450 800 900 150 300 600
Accidentes por millón de Horas-hombre 7 6,4 5,2 4 3,1 8 6,5 4,4
152
d) Calcule e interprete el coeficiente de correlación
e) Calcule e interprete el coeficiente de determinación
f) Calcule el error estándar de la estimación.
4.- Se ha medido la variación de creatinina en pacientes tratados con Captopril (droga antihipertensión)
tras la suspensión del tratamiento con diálisis, resultando la siguiente tabla:
Días tras la diálisis: X 1 5 10 15 20 25 35
Creatinina (mg/dl): Y 5,7 5,2 4,8 4,5 4,2 4 3,8
5.- En un grupo de 8 pacientes se registran las medidas antropométricas peso (kg) y edad (años)
obteniendo el modelo de regresión:
𝑌̂ = 20,61 + 2,83𝑋
a) Interprete la recta de regresión lineal
b) ¿Cómo cree Ud. que será el diagrama de dispersión?
6.- Una cadena de restaurantes de comida rápida decide llevar a cabo un experimento para medir la
influencia del gasto en publicidad sobre las ventas. En 8 regiones del país, se realizaron diferentes
variaciones relativas en el gasto de publicidad, comparado con el año anterior y se observaron las
variaciones en los niveles de ventas resultantes. La tabla muestra los resultados:
7.- Los siguientes datos se refieren al número de horas de estudio invertidas por
los estudiantes fuera de clase durante un período de tres semanas para cierto
curso, junto con las calificaciones que obtuvieron en un examen aplicado al
final de ese período.
Calificaciones 64 61 84 70 88 92 72 77
Horas de estudio 20 16 34 23 27 32 18 22
153
8.- Un editor tomó una muestra de 7 libros anotando el precio y el número de páginas respectivo,
obteniendo los siguientes datos.
Temperatura 10 28 12 31 30 19 24 15
Pedidos 21 65 19 72 75 36 67 24
10.- Se efectúa un experimento médico para determinar el efecto de la droga efedrina en las pulsaciones
del corazón. Un paciente recibe diversas dosis diarias de la droga durante seis días. La tabla
que sigue resume los resultados del experimento.
Dosis diaria total Nº de pulsaciones
de efedrina (granos) por minuto
3 70
2 60
1 50
3 80
5 100
4 90
Nota: 1 grano = 0,06 gramos
a) Grafique un diagrama de dispersión
b) Determine la ecuación de regresión lineal. Interprete los coeficientes de regresión lineal. Grafique
sobre el diagrama de dispersión, la línea de regresión.
c) Estímese el número de pulsaciones para una dosis diaria de 4 granos de efedrina.
d) Calcule el error estándar de la estimación del modelo
e) Calcule e interprete el coeficiente de correlación.
f) Calcule e interprete el coeficiente de determinación
154
11.- La siguiente tabla ilustra los valores del consumo de metil mercurio y la cantidad total de mercurio
en la sangre de 12 individuos expuestos a la primera sustancia por haber consumido peces contaminados.
12.- Se quiere determinar la relación entre la experiencia en ventas y el volumen de ventas para cada
vendedor basado en un grupo de 10 vendedores de una compañía de seguros. Los años de experiencia
en ventas y los volúmenes de ventas son:
13.- En una muestra de 8 pacientes se miden las cantidades antropométricas peso y edad obteniéndose
los siguientes resultados
Edad (años) 12 8 10 11 7 7 10 14
Peso (kg) 56 42 51 54 40 39 49 58
155
c) Estime el peso para un paciente de 10 años de edad
d) Determine e interprete el coeficiente de determinación
14.- Consideremos los siguientes datos respecto al precio de venta ($1000) de una muestra de viviendas
y sus áreas (100 pies2) correspondientes a cada una de ellas, en cierta ciudad.
Precio de venta: 41 32 24 44 42 36 35 40 29 26
Área de la vivienda: 13 10 08 14 14 12 10 12 10 08
156
CHI CUADRADO
PRUEBA DE INDEPENDENCIA
Es una prueba de hipótesis que tiene por objeto probar si dos variables cualitativas nominales son
independientes entre sí.
Hipótesis:
Estadístico de prueba:
𝑟 𝑐 2
2
(𝑂𝑖𝑗 − 𝑒𝑖𝑗 ) 𝑛𝑖∎ 𝑛∎𝑗
𝜒𝑐 = ∑∑ ∼ 𝜒 2 (𝑟−1)(𝑐−1) 𝑒𝑖𝑗 =
𝑒𝑖𝑗 𝑛∎∎
𝑖=1 𝑗=1
Criterio de rechazo:
𝜒𝑐 2 > 𝜒 2 𝛼 ,(𝑟−1)(𝑐−1)
Conclusión:
Ejemplo 1.- Se tiene la siguiente información obtenida de una muestra de 5,000 fallecidos.
DIAGNÓSTICO
Muerte por cáncer Muerte por otras Total
de pulmón causas
Se desea probar la hipótesis de que el fumar y la muerte por cáncer pulmonar son independientes con
α = 0,01
Solución
𝐻0 : No existe relación entre el hábito de fumar y la muerte por cáncer pulmonar.
𝐻1 : Sí existe relación entre el hábito de fumar y la muerte por cáncer pulmonar.
Nivel de significancia 𝛼 = 0,01
DIAGNÓSTICO
Muerte por cáncer de pulmón Muerte por otras causas Total
157
(348 − 301)2 (3,152 − 3199)2 (82 − 129)2 (1418 − 1371)2
𝜒𝑐2 = + + + = 26,764
301 3199 129 1371
2
𝑅𝑒𝑔𝑙𝑎 𝑑𝑒 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛: 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝑠𝑖 𝜒𝑐2 > 𝜒(1−α;gl) (𝑉𝑎𝑙𝑜𝑟 ℎ𝑎𝑙𝑙𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝜒 2 𝑐𝑜𝑛 1 𝑔. 𝑙
2
𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝜒(1−α;gl) = 6,635. 𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟𝑒𝑚𝑜𝑠 𝐻0
Conclusión: Los resultados muestrales proporcionan evidencia suficiente como para concluir que
ambos factores están relacionados con nivel de significación de 0,01.
158
CHI CUADRADO
PRUEBA DE HOMOGENEIDAD
Se caracteriza porque tiene como objetivo probar la igualdad de proporciones (probar si los datos de
cierta muestra provienen de la misma población).
Además, los totales ya sea de filas o columnas son determinados o fijados de antemano por el
investigador.
Hipótesis:
Estadístico de prueba:
𝑟 𝑐 2
2
(𝑂𝑖𝑗 − 𝑒𝑖𝑗 ) 𝑛𝑖∎ 𝑛∎𝑗
𝜒𝑐 = ∑∑ ∼ 𝜒 2 (𝑟−1)(𝑐−1) 𝑒𝑖𝑗 =
𝑒𝑖𝑗 𝑛∎∎
𝑖=1 𝑗=1
Criterio de rechazo:
𝜒𝑐 2 > 𝜒 2 𝛼 ,(𝑟−1)(𝑐−1)
MÁQUINAS
A B C D Total
Defectuosos 21 12 15 18 66
Buenos 129 138 135 132 534
Total 150 150 150 150 600
Solución
𝐻0 : 𝑝𝐴 = 𝑝𝐵 = 𝑝𝐶 = 𝑝𝐷 (La proporción de defectuosos son las mismas en cada una de las máquinas).
𝐻1 : Al menos en una de las máquinas la proporción de defectuosos no es la misma.
Nivel de significancia 𝛼 = 0,05
MÁQUINAS
CALIDAD A B C D Total
Defectuosos 21 16,5 12 16,5 15 16,5 18 16,5 66
Buenos 129 133,5 138 133,5 135 133,5 132 133,5 534
Total 150 150 150 150 600
159
(21 − 16,5)2 (129 − 133,5)2 (132 − 133,5)2
𝜒𝑐 2 = + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . + = 3,064
16,5 133,5 133,5
2
𝑅𝑒𝑔𝑙𝑎 𝑑𝑒 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛: 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝑠𝑖 𝜒𝑐 2 > 𝜒(1−α;gl) (𝑉𝑎𝑙𝑜𝑟 ℎ𝑎𝑙𝑙𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝜒 2 𝑐𝑜𝑛 3𝑔. 𝑙)
2
𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝜒(1−α;gl) = 7,815. 𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜 𝑛𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟𝑒𝑚𝑜𝑠 𝐻0
Conclusión: La proporción de piezas defectuosas en las cuatro máquinas es la misma con un nivel de
significancia de 0,05.
Ejemplo 2.- Se sostiene que una droga determinada es efectiva para la curación del catarro común. En
un experimento con 164 personas con catarro, a la mitad de ellas se le suministró la droga y a la otra
mitad se le suministró píldoras azucaradas. Las reacciones de los pacientes aparecen anotadas en la
siguiente tabla:
REACCIONES
Mejorados Empeorados Efecto Nulo Total
Droga 52 10 20 82
Azúcar 44 12 26 82
Total 96 22 46 164
Solución
H0 : La droga y las píldoras tienen igual efecto.
H1 : La droga y las píldoras no tienen igual efecto.
Nivel de significancia α = 0,05
REACCIONES
Mejorados Empeorados Efecto Nulo Total
Droga 52 48 10 11 20 23 82
Azúcar 44 48 12 11 26 23 82
Total 96 22 46 164
2 2 2
2
(52 − 48) (10 − 11) (26 − 23)
𝜒𝑐 = + +. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . + = 1,631
48 11 23
2
𝑅𝑒𝑔𝑙𝑎 𝑑𝑒 𝑑𝑒𝑐𝑖𝑠𝑖ó𝑛: 𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝑠𝑖 𝜒𝑐 2 > 𝜒(1−α;gl) (𝑉𝑎𝑙𝑜𝑟 ℎ𝑎𝑙𝑙𝑎𝑑𝑜 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝜒 2 𝑐𝑜𝑛 2𝑔. 𝑙)
2
𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝜒(1−α;gl) = 5,991. Por lo tanto se rechaza H0
160
EJERCICIOS PROPUESTOS
1.- Una encuesta realizada en 378 hospitales por el Colegio de
Cirujanos Americanos produjo los datos de la tabla siguiente:
¿Proporcionan los datos evidencia suficiente para indicar una dependencia entre el tipo de tumor y el
uso de anticonceptivos orales? Use un nivel de significancia α = 0,05 Rpta. Sí existe dependencia
entre el tipo de tumor y el uso de anticonceptivos orales
2.- Sobre una muestra de 500 niños de cierta escuela primaria se hizo un estudio acerca de su estado de
nutrición y el desempeño académico, obteniéndose los siguientes resultados:
Existe relación entre el desempeño académico y el estado de nutrición. Use un nivel de significancia
α = 0,01 Rpta. Sí existe relación entre el desempeño académico y el estado de nutrición
3.- Se llevó a cabo una encuesta con respecto a la preferencia del consumidor para determinar si existía
alguna predilección entre las tres marcas competitivas (A, B y C) dependiendo de la región geográfica
en la que habita el consumidor. La información obtenida es la siguiente:
4.- Se tomó una muestra de 400, 500 y 400 compradores de las ciudades de Piura, Trujillo y Chiclayo
respectivamente con la finalidad de determinar si la proporción verdadera de compradores que se
inclinan por el producto A en lugar del B, es la misma en las tres ciudades. Use un nivel de significancia
α = 0,05
161
Producto A Producto B Total
Piura 232 168 400
Trujillo 260 240 500
Chiclayo 197 203 400
Total 689 611 1300
5.- Se examinó una muestra de 2,000 registros médicos los cuales dieron los siguientes resultados:
Probar la hipótesis que las dos clasificaciones son independientes con un nivel de significancia α = 0,05
CAUSA EDAD
Menos de 30 30 - 50 Más de 50
Enfermedad 40 28 52
Otras 20 36 24
SEXO MODELO
I II III
Masculino 350 270 380
Femenino 340 400 260
Contrastar la hipótesis de que el sexo no tiene relación con la preferencia hacia un determinado modelo
para un nivel de significancia α = 0,01
8.- Se desea determinar si existe algún tipo de relación entre la concentración de procaína usada en
operaciones del molar mandibular y el porcentaje de casos satisfactorios (efectividad clínica de la
anestesia). Se tuvo la siguiente información:
162
9.- Un investigador estudia el nivel de efectividad de tres remedios
R1, R2 y R3 para aliviar cierta enfermedad. Para esto escogió tres
muestras aleatorias de tamaños 50, 70 y 60 pacientes con la
enfermedad, suministrando a la primera el remedio R1, a la segunda
muestra el remedio R2 y a la tercera el remedio R3; y midiendo la
efectividad de los remedios en tres niveles: Sin alivio, cierto alivio y
alivio total. Los resultados del experimento se dan en la tabla que
sigue:
¿Puede inferir que los tres remedios para la alergia son igualmente efectivos?
10.- El ingeniero quiere saber si hay diferencias en la calidad de los productos procesados en los tres
turnos operativos de una fábrica. Para esto se tomó una muestra aleatoria de tamaño 100 de cada turno
del día anterior y las clasificó según el turno de su producción: mañana, tarde y noche; y según su
calidad: defectuoso o no defectuoso. Los resultados se dan en la siguiente tabla:
Pruebe al nivel de significación del 5% la hipótesis de la igualdad de las tres proporciones reales de
producción defectuosa.
163