Solucionario de La PD1-Introducción A La Estadística
Solucionario de La PD1-Introducción A La Estadística
Solucionario de La PD1-Introducción A La Estadística
GENERALES
LETRAS
Los problemas marcados con un asterisco serán tratados durante la práctica. El resto es para el
trabajo personal del alumno.
Ejercicio 1*
Determine en cada caso la Población de elementos estudiada, la variable registrada, la escala de medición
más apropiada y el tipo de variable generada. Señale el nombre que considere adecuado para la variable.
Justifique.
a) Se toma una muestra de alumnos de primer año de la Facultad de Ciencias Sociales de la PUCP y
se pregunta a cada uno la carrera que están siguiendo, asignando código 1 los que son de
Antropología, 2 a los de Ciencia Política y Gobierno, 3 a los de Economía y 4 a los de Economía.
b) En enero de un cierto año, se toma una muestra de colegios de Lima y se registra en cada uno, el
porcentaje de estudiantes que ha abandonado los estudios en el colegio, para calcular la deserción
escolar en ese año.
c) En un estudio sobre las diferentes dimensiones de los departamentos de la ciudad de Lima, se toman
como muestra tres proyectos aprobados en los diferentes estratos sociales.
d) Se pregunta a una muestra de electores de Lima si cree que el actual municipio está cumpliendo la
propuesta que presentó en las elecciones municipales y se registra su respuesta en una escala de 3
puntos, donde 1=Nada, 2=Parcialmente y 3=Totalmente.
1
Ejercicio 2*
A continuación, presentamos una muestra de ventas anuales, en millones de dólares, de 21 empresas del
sector farmacéutico
2
No hay simetría en la distribución y es asimétrica a la derecha. Esto también se puede
corroborar porque 𝑀𝑜𝑑𝑎 < 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 < 𝑀𝑒𝑑𝑖𝑎
3
b) Use la distribución de frecuencias y calcule los valores aproximados de 𝑀𝑒 y 𝑋 ¿Coinciden con los
valores obtenidos usando los “datos sueltos”? ¿Alguna medida de tendencia central sería “más
representativa” de los datos? Justifique.
4
𝒙(𝟏) 𝒙(𝟐) 𝒙(𝟑) 𝒙(𝟒) 𝒙(𝟓) 𝒙(𝟔) 𝒙(𝟕) 𝒙(𝟖) 𝒙(𝟗) 𝒙(𝟏𝟎)
608 739 1356 1850 1872 2127 2459 2818 3653 4019
𝒙(𝟏𝟏) 𝒙(𝟏𝟐) 𝒙(𝟏𝟑) 𝒙(𝟏𝟒) 𝒙(𝟏𝟓) 𝒙(𝟏𝟔) 𝒙(𝟏𝟕) 𝒙(𝟏𝟖) 𝒙(𝟏𝟗) 𝒙(𝟐𝟎)
4341 5794 6452 7478 8305 8408 8879 10498 11413 13747
𝒙(𝟐𝟏)
14138
𝒏 = 𝟐𝟏
𝑴𝒆 = 𝒙(𝟏𝟏) = 𝟒𝟑𝟒𝟏
𝒙 = 𝟓𝟕𝟓𝟗. 𝟕𝟏𝟒
𝑗 Ventas 𝑋 𝑓 𝐹 % % Acum
1 [608 , 3314[ 1961 8 8 38.1% 38.1%
2 [3314 , 6020[ 4667 4 12 19.0% 57.1%
3 [6020 , 8726[ 7373 4 16 19.0% 76.2%
4 [8726 , 11432[ 10079 3 19 14.3% 90.5%
5 [11432 , 14138] 12785 2 21 9.5% 100.0%
𝑐 𝑛
𝑀𝑒 = 𝑙 + −𝐹
𝑓 2
𝑀𝑒 = 𝑙 + −𝐹 , 𝐹 > → 𝐹 > 10.5
𝑀𝑒 = 3314 + (10.5 − 8) = 5005.25
∑
𝑋≅ = = 5697.86
Las medidas no coinciden con las obtenidas con los datos sueltos, más la media está un poco más
próxima. Esto se debe a la presencia de algunos valores extremos. Dado que la mediana no se ve
afectada por los valores extremos y por tanto está más cerca de la tendencia central, la usaremos como
más representativa de los datos.
c) ¿Qué porcentaje de ventas anuales están por encima del promedio (usando los datos sueltos)?
𝒙(𝟏) 𝒙(𝟐) 𝒙(𝟑) 𝒙(𝟒) 𝒙(𝟓) 𝒙(𝟔) 𝒙(𝟕) 𝒙(𝟖) 𝒙(𝟗) 𝒙(𝟏𝟎)
608 739 1356 1850 1872 2127 2459 2818 3653 4019
𝒙(𝟏𝟏) 𝒙(𝟏𝟐) 𝒙(𝟏𝟑) 𝒙(𝟏𝟒) 𝒙(𝟏𝟓) 𝒙(𝟏𝟔) 𝒙(𝟏𝟕) 𝒙(𝟏𝟖) 𝒙(𝟏𝟗) 𝒙(𝟐𝟎)
4341 5794 6452 7478 8305 8408 8879 10498 11413 13747
𝒙(𝟐𝟏)
14138
Son 10 valores por encima del promedio que son el 47.62% de las ventas anuales.
Ejercicio 3*
Un psicólogo y un gestor tienen una empresa dedicada a hacer selección de personal para corporaciones y
tienen un “Test de empleabilidad” que, tomando en cuenta aspectos como escolaridad, experiencia laboral y
competencias laborales de la persona, genera una puntuación X que mide su empleabilidad en escala de
intervalo y de menos a más. Los dos socios reúnen las puntuaciones de las 96 últimas personas que han
evaluado para tener una distribución de frecuencias que les sirva de referencia para futuras evaluaciones de
personal.
5
𝑗 Puntuaciones 𝑓 𝑋 𝐹
1 [3 , 6[ 12 4.5 12
2 [6 , 9[ 18 7.5 30
3 [9 , 12[ 36 10.5 66
4 [12 , 15[ 18 13.5 84
5 [15 , 18] 12 16.5 96
Total 96
a) Se dice que una distribución de frecuencias es simétrica si la media y mediana coinciden. ¿Es
simétrica la distribución de X? Grafique el polígono de frecuencias absolutas e interprete gráficamente
la simetría.
∑
𝑋≅ = = 10.5
𝑐 𝑛
𝑀𝑒 = 𝑙 + −𝐹
𝑓 2
𝑀𝑒 = 𝑙 + −𝐹 , 𝐹 > → 𝐹 > 48 → 𝑗 = 3
𝑀𝑒 = 9 + (48 − 30) = 10.5
Podemos apreciar que la media y la mediana coinciden por lo tanto la distribución es simétrica
El polígono tiene alturas (frecuencias) iguales a la derecha y a la izquierda del punto de tendencia central,
que en este caso es el punto donde coinciden la mediana y la media.
6
b) Halle el percentil 80 de la distribución. Interprete 𝑃
𝑐 𝑘𝑛
𝑃 =𝑙 + −𝐹
𝑓 100
𝑘𝑛
𝐹 > → 𝐹 > 76.8 → 𝑗 = 4
100
𝑐 𝑘𝑛
𝑃 =𝑙 + −𝐹
𝑓 100
3 80 × 96
𝑃 = 12 + − 66 = 13.8
18 100
El 20% de puntuaciones “más altas” son aquellas que tienen el 80% debajo o a la
izquierda, eso es, ese 20% de puntuaciones más altas están a la derecha o arriba
del percentil 80. En el ítem anterior atribuimos que el 𝑃 = 13.8. Por lo tanto, para
ser seleccionado se debe tener más de 13.8 puntos en empleabilidad y cómo la
persona tiene 13 puntos, no sería seleccionable para esta corporación
𝑃 = 16
𝑐 𝑘×𝑛
16 = 𝑙 + −𝐹
𝑓 100
3 𝑘 × 96
16 = 15 + − 84
12 100
8 × 100
𝑘= = 91.7
96
7
Ejercicio 4*
Los datos siguientes corresponden al tiempo X, en minutos, que cuatro trabajadores de un “call center” han
tenido que usar durante la llamada en que lograron colocar su primera venta por teléfono del día, en seis
días consecutivos de una semana normal:
Tiempo 𝑋 Estadísticas
Trabajador Lunes Martes Miércoles Jueves Viernes Sábado 𝑀𝑒 𝑋 𝑆 𝑆
A 2 4 3 2 3 4 3.0 0.8 0.89
B 4 4 7 3 6 3 4.5
C 4 4 5 6 6 5 0.8
D 2 2 5 5 2 2
a) Se considera que un trabajador es más eficiente si coloca rápido su venta. En este contexto y
considerando sólo medidas de tendencia central ¿Cuál trabajador considera usted que sería el más
eficiente? Justifique.
Para ello es necesario calcular la media y la mediana. Para comparar los resultados debemos tener
en cuenta que las medidas de tendencia central de menor valor indican eficiencia, debido a que menos
valor denota rapidez a la hora de colocar la venta
Para encontrar la mediana es necesario ordenar los valores de menor a mayor. Como el conjunto de
de datos de cada trabajador es par, la mediana será el promedio de los valores centrales
A → 2, 2, 3, 3, 4, 4 → 𝑀𝑒 = 3
B → 3, 3, 4, 4, 6, 7 → 𝑀𝑒 = 4
C → 4, 4, 5, 5, 6, 6 → 𝑀𝑒 = 5
D → 2, 2, 2, 2, 5, 5 → 𝑀𝑒 = 2
∑ 𝐴
2+2+3+3+4+4
𝐴̅ = = = 3.0
6 6
∑ 𝐵 3+3+4+4+6+7
𝐵= = = 4.5
6 6
∑ 𝐶 4+4+5+5+6+6
𝐶̅ = = = 5.0
6 6
∑ 𝐷 2+2+2+2+5+5
𝐷= = = 3.0
6 6
Examinando las medidas de tendencia central aquellos que tienen menor media y mediana y por lo
tanto tienen mayor rapidez para colocar sus ventas son los trabajadores A y D. Ambos tienen igual
media pero el que tiene menor mediana es D, dado que esta medida no se ve afectada por valores
extremos, podríamos considerar que D es más eficiente
b) Si ahora la eficiencia se considera lograda si el trabajador coloca rápido su venta pero sin variar
demasiado de una ocasión a otra ¿Alguno de los cuatro sería más eficiente? ¿Por qué?
8
Para examinar aquel trabajador que tiene mayor eficiencia al colocar sus ventas y además de ello
varia poco de una ocasión a otra necesitamos encontrar la desviación estándar de cada trabajador
∑ × ̅ × .
𝑆 = = = 0.80
∑ × × .
𝑆 = = =2.70
∑ × ̅ × .
𝑆 = = =0.80
∑ × × .
𝑆 = = =2.40
Vemos que D puede tener menor mediana pero su desviación estándar es casi el doble que la
desviación estándar de A. Por lo tanto podemos considerar que A es el más eficiente porque su
mediana es mayor que la de D en una unidad y su desviación estándar es mucho menor mostrando
menor variabilidad en el tiempo que le toma colocar una venta.
Aparentemente a A y C les fue igual el día martes. Pero si comparamos el dá martes en relación al
resto de la semana es necesario usar las puntuaciones Z
̅
“arriba del promedio”, Para A fue un mal día porque demoró más
̅
“debajo del promedio”, Para C fue un buen día porque demoró