GENERALIDADES y ESTADÍSTICA DESCRIPTIVA
GENERALIDADES y ESTADÍSTICA DESCRIPTIVA
GENERALIDADES y ESTADÍSTICA DESCRIPTIVA
UNIDAD 1 Página 1
Índice
....................................................................................................................................................................... 1
Introducción ............................................................................................................................................ 3
CONCEPTOS FUNDAMENTALES ................................................................................................................ 4
Clasificación de variables ......................................................................................................................... 7
Ejercicios I ...........................................................................................................................................12
Estadística Descriptiva Univariada...........................................................................................................14
Descripción estadística de una variable cualitativa ..............................................................................14
Descripción estadística de una variable cuantitativa ............................................................................18
CONSTRUCCIÓN DE TABLAS DE FRECUENCIAS Y GRÁFICOS ..................................................................19
TABLAS DE FRECUENCIAS Y GRÁFICOS .............................................................................................21
Formas de histogramas ...................................................................................................................25
OTROS GRÁFICOS ................................................................................................................................26
Ejercicios II ..........................................................................................................................................27
Estadística Descriptiva Bivariada ............................................................................................................28
Ejercicios 1 .........................................................................................................................................33
Medidas de Resumen .............................................................................................................................35
Tendencia Central: ..............................................................................................................................35
Moda (Mo): Es el valor de la variable que ocurre más frecuentemente ................................................35
Promedio Aritmético (o media Aritmética) ..........................................................................................36
Mediana (Me) ......................................................................................................................................39
Comparación entre Promedio, Mediana y Moda ....................................................................................40
Ejercicios III .........................................................................................................................................41
Cuartiles – Quintiles – Deciles - PERCENTILES ..........................................................................................43
MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD)........................................................................................48
Ejercicios IV.........................................................................................................................................54
Descripción conjunta de dos variables cuantitativas................................................................................59
Significado de la correlación....................................................................................................................61
Ejercicios V (varios) ............................................................................................................................63
UNIDAD 1 Página 2
Introducción
Qué es la Estadística:
Actualmente la Estadística es una ciencia que:
proporciona procedimientos precisos para obtener información* (recogida
y descripción de datos).
proporciona métodos para el análisis de la información y posteriores
inferencias.
¿Por qué hay que estudiar Estadística en Ingeniería o en carreras de
Ciencias?
La principal razón es que el rol más destacado de la Estadística es la
recopilación, presentación, análisis e interpretación de un conjunto de datos, a
partir de los cuales se obtienen conclusiones y se toman decisiones.
Saber Estadística es de gran utilidad en cualquier área del conocimiento y en
particular en Ingeniería o en Ciencia.
Ejemplos:
- Estudios de fatiga de metales.
- Fiabilidad de máquinas herramientas.
- Estudios de corrosión.
- Diseño y desarrollo y mejora en los proceso productivos como control de
calidad, control de la variabilidad del proceso, …
UNIDAD 1 Página 3
La Estadística posee un conjunto de técnicas que se emplean para la recopilación,
organización, presentación, análisis e interpretación de los datos para tomar decisiones y
resolver problemas, la estadística se puede clasificar como:
Tiene como objetivo, describir, representar y extraer
Estadística
conclusiones sobre una muestra de datos o de la población
descriptiva de interés (Población≡ conjunto de todos los elementos de interés) .
Mide la incertidumbre, deduce las leyes que rigen a los
Probabilidad fenómenos que se investigan.
Es la herramienta a partir de la que se desarrolla la
inferencia estadística
La inferencia estadística es un conjunto de procedimientos, que
Estadística consisten en utilizar los resultados de una muestra (subconjunto
representativo de la población) para llegar a conclusiones acerca
Inferencial de las características de la población (requiere cálculo de
probabilidades)
CONCEPTOS FUNDAMENTALES
Población: Conjunto total de objetos u unidades que son de interés para un
problema dado. Los objetos pueden ser personas, animales, productos fabricados,
etc. Cada uno de ellos recibe el nombre de ELEMENTO O INDIVIDUO O UNIDAD
DE OBSERVACIÓN.
Tamaño población: N unidades (si es finita)
- Todos los estudiantes de nuestra universidad
- Todas las personas activa en Chile (población activa)
- Todos los libros en una biblioteca
UNIDAD 1 Página 4
Censo: estudio que considera la población de interés
Población Estadística: es el conjunto de todas las mediciones correspondientes
a cada unidad de la población, acerca de la cual se busca información.
A las medidas de resúmenes poblacionales como la media poblacional μ,
desviación estándar poblacional σ, …, se les denominan parámetros.
Un PARÁMETRO es cualquier medida de resumen de una población.
Ejemplo: El ingreso medio (o ingreso promedio) de todos los trabajadores de la fábrica
AB es $800.000,0.
µX = 800.000 $ (X = ingreso)
UNIDAD 1 Página 5
Ejemplo: En la población de estudiantes de Ingeniería de una universidad,
son variables: Género, Especialidad, Edad (años) ….
Distinguiremos:
Datos primarios
Son aquellos que el investigador obtiene directamente de la realidad, recolectándolos
con sus propios instrumentos.
Datos secundarios
Son registros escritos que proceden también de un contacto con la práctica,
pero que ya han sido elegidos y procesados por otros investigadores.
Las fuentes son información de datos secundarios deben ser fidedignas.
Los datos primarios y secundarios no son dos clases esencialmente diferentes
de información, sino partes de una misma secuencia: todo dato secundario ha
sido primario en sus orígenes, y todo dato primario, a partir del momento en
que el investigador concluye su trabajo, se convierte en dato secundario para
los demás.
UNIDAD 1 Página 6
Clasificación de variables
Para realizar un análisis de datos, es indispensable saber cómo es la variable
que consideramos, pues ello determina el tipo de método estadístico que se
debe utilizar. Las variables se clasifican:
Según su naturaleza
UNIDAD 1 Página 7
Según el nivel de medición
La medición es el proceso mediante el cual se les asignan valores numéricos
o categóricos a objetos siguiendo unas determinadas reglas. Los instrumentos
que se utilizan para llevar a cabo tal medición se les denominan escalas de
medición. El criterio utilizado convencionalmente para clasificar las escalas de
medida es el propuesto por Stevens (1946), quien establece cuatro tipos de
escala: nominal, ordinal, de intervalo y de razón.
Ejemplos
Factor RH
Únicamente permiten
establecer relaciones de Positivo (1)
igualdad/desigualdad Negativo (2)
entre los objetos que se
PROFESIÓN:
están midiendo.
Ingeniero (1)
NO INDICA ORDEN O Profesor (2)
JERARQUÍA Médico (3)
RAZÓN
INTERVALAR
ORDINAL
UNIDAD 1 Página 8
Ejemplo
Además de permitir relaciones
NIVEL EDUCACIONAL:
de igualdad /desigualdad,
permite establecer relaciones Univ. con doctorado (5)
de orden (mayor o menor que) Univ. con Magister (4)
Superior (3)
entre los objetos que se están
Media (2)
midiendo.
Básica (1)
EXISTE UN ORDEN O
JERARQUÍA
RAZÓN
INTERVALAR
NOMINAL
RAZÓN
ORDINAL
NOMINAL
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala permite
establecer relaciones de igualdad /desigualdad y de orden entre los objetos que se miden.
Los intervalos entre los números de la escala son iguales, por lo tanto se puede realizar las
operaciones suma y resta. Este tipo de escala carece de un cero absoluto, por lo que no
están permitidas ni la multiplicación ni la división entre los números de la escala. Una
escala de intervalo es, por ejemplo, la utilizada para medir la temperatura en °C. Como los
intervalos de la escala son iguales, se puede afirmar que la diferencia de temperatura que
existe entre 25 y 28 grados es la misma que existe entre 30 y 33 grados. Sin embargo,
dado que el punto 0 de la escala es arbitrario -no existe ausencia de temperatura- no se
puede afirmar, por ejemplo, que 20 grados es exactamente la mitad de 40 grados.
UNIDAD 1 Página 9
INTERVALAR
ORDINAL
NOMINAL
VI VD
Independiente Dependiente
Introduce o manipula el Se observa y se miden los
investigador cambios
Interviniente
Es la que puede mediar en la
relación entre VI y VD y que
puede influir en los resultados
Ejemplo: Los hábitos de estudios influyen en el rendimiento académico de los
Estudiantes
VD = Rendimiento académico VI = hábitos de estudio
V interv. = Aptitud personal, Nivel nutricional, …
UNIDAD 1 Página 10
Esquema: clasificación de variables según criterios de escala de medición
(S.E.M) y tamaño de recorrido (S.T.R.).
Es importante tener claro la clasificación de variables según estos dos criterios,
¿Podemos calcular promedio, o sólo la moda?, para responder esta pregunta
debemos analizar la variable según criterio de escala de medición. ¿Qué gráfico
construir?, la respuesta la tendremos en la clasificación de la(s) variable(s) según
tamaño de recorrido.
Nominal
Ordinal
SEM
Escala de
intervalos
Clasificación De razón
de Variables
Binaria o
dicotómica
STR Discreta
Continua
UNIDAD 1 Página 11
Ejercicios I
Ejercicio I-1. Se quiere analizar el número de horas de estudio semanal que dedican los o
las estudiantes de postgrado del área Ingeniería de esta Universidad. Para ello se
selecciona a 50 alumnos que están participando en postgrado.
Indique cual es la:
Unidad de observación, población, población estadística y la muestra:
Ejercicio I-2. El coeficiente intelectual (CI) promedio en la población adulta chilena es 100
puntos. Un investigador educacional está interesado en probar que las personas adultas
que hablan más de un idioma tienen un CI superior a la media poblacional.
En una muestra de 250 personas que hablan más de un idioma se obtuvo un promedio
(CI medio) de 102.
Complete:
Clasificación de la variable
Variable de interés (X = ) Naturaleza Recorrido N_Medición
Ejercicio I-3. ¿Qué situaciones se representan estadísticamente con una variable discreta
y cuáles con una variable continua?
a) El Número diario de defectuosos en la fabricación de cierto producto.
b) Los Tipos de defectos encontrados mensualmente en la fabricación de cierto producto
c) El Tiempo de vida de las unidades que se fabrican
d) El Costo de fabricación de cierto producto
e) El Nivel de satisfacción de clientes de un banco
f) El Tiempo que transcurre desde que llega un pedido hasta que llega el siguiente
g) Esfuerzo de ruptura de vigas de concreto
Ejercicio I-4. En el departamento de personal de una empresa con 10.000 trabajadores/as
se quiere estimar sus gastos familiares en salud para determinar la posibilidad de
proporcionarles un plan de seguro médico.
Si el gasto mensual (miles $) en salud entre 10 elegidos al azar fue:
71 234 159 549 329 134 112 275 204 116
n x i n
Calcule e interprete xi
i 1
i=1
n =
Calcule x
i 1
2
i
UNIDAD 1 Página 12
Ejercicio I-5. La siguiente información corresponde al peso en kg y la estatura en cm de 10
empleados públicos varones:
sujeto 1 2 3 4 5 6 7 8 9 10
Estatura (X) 172 175 168 173 159 166 176 180 179 168
Peso (Y) 78 75 70 68 44 66 72 98 70 74
Población: Unidad de observación:
Muestra: Tamaño: n =
Clasifique las variables según: naturaleza, tamaño del recorrido, nivel de medición y
función.
n n
n 10 xi n 10 y i
Interprete i 1
xi i=1
n =
i 1
yi i=1
n =
n10 n 10 n=10
Calcule x 2i y 2i xy= i i
i 1 i 1 i=1
Ejercicio I-6. Cierto tipo de resistencias de película de óxido metálico son agrupadas en
paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de
resistencias que no cumplían con las especificaciones, resultando la siguiente tabla
N° de resistencia defectuosas en cada paquete 0 1 2 3 4 5 6 Total
Cantidad de paquetes (ni) 5 10 16 15 9 3 2 60
7 x n i i
UNIDAD 1 Página 13
Estadística Descriptiva Univariada← ¿qué dicen los datos?
Organización de los datos
La estadística descriptiva, entrega las técnicas que permiten condensar grandes
grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas
de resumen como media, desviación estándar, correlación.
Nota: Para resumir los datos siempre hay que tener en cuenta de qué tipo es la variable
que queremos analizar
Datos “en bruto” o directos
Cuando la información es recolectada, sea de una muestra o de una población,
esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos
registrados se encuentra desorganizada, lo que no permite extraer información
fácilmente, siendo difícil detectar cualquier patrón de variabilidad o estructura de
los datos.
Datos en bruto: Datos registrados en la secuencia en que fueron recolectados, antes de
ser procesados u ordenados.
UNIDAD 1 Página 14
Ejemplo: El reporte de la inspección final del defecto principal de 150 productos
rechazados de la línea de armado A12 se muestra en la tabla siguiente:
Defecto principal del producto
Defecto principal en línea de armado A12
Rayado Manchado Manchado Manchado Manchado (150 productos examinados)
Abollado Rayado Astillado Doblado Manchado Defecto del
Astillado Rayado Rayado Manchado Rayado producto Frecuencia Porcentaje
Abollado 8 5,3
Astillado Manchado Astillado Manchado Manchado
Astillado 23 15,3
Otros Manchado Astillado Astillado Abollado
Doblado 12 8,0
Manchado Doblado Manchado Rayado Astillado
Manchado 56 37,3
Rayado Manchado Rayado Manchado Manchado Otros 6 4,0
Astillado Manchado Rayado Abollado Manchado Rayado 45 30,0
Doblado Manchado Manchado Manchado Astillado Total 150 100,0
Rayado Rayado Manchado Manchado Doblado
Rayado Astillado Manchado Doblado Abollado
Manchado Rayado Manchado Astillado Manchado 60
56
Manchado Otros Manchado Astillado Rayado
50
Otros Astillado Otros Rayado Doblado
45
8
Doblado Manchado Astillado Manchado Rayado 6
Moda = manchado
UNIDAD 1 Página 15
Tabla de distribución de frecuencias de una variable cualitativa
Defectos_Linea A12
Frecuencia Frecuencia Relativa Porcentaje
Defecto principal absoluta n %
del producto ni fi = i
n
Abollado 8 0,053 05,33
Astillado 23 0,153 15,33
Doblado 12 0,080 08,00
Manchado 56 0,373 37,33
Rayado 45 0,300 30,00
Otros 6 0,040 04,00
Total 150 1,00 100%
Obs: La tabla debe contener frecuencia relativa o porcentaje
Frecuencia absoluta (ni): Número de veces que ocurre la modalidad i. i = 1,2, …,k
Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del
total de datos.
0 < fi < 1 ; i = 1,2, …,k
UNIDAD 1 Página 16
Diagrama de Pareto
Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las
causas que los generan.
Su fundamento parte de considerar que un pequeño porcentaje de las causas producen
la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas
“vitales” para actuar prioritariamente sobre él.
Defecto principal del producto en línea de armado A12
UNIDAD 1 Página 17
Descripción estadística de una variable cuantitativa
Caso: Variables discretas
Tabla de frecuencias
0 1 0 0 2
2 1 3 1 1 Cantidad Frecuencia
de (N° de Porcentaje
0 1 1 3 1 averías centrales) Porcentaje acumulado
2 0 0 0 1 0 13 32,5 32,5
0 0 1 1 0 1 13 32,5 65,0
3 1 1 1 0 2 8 20,0 85,0
3 5 12,5 97,5
0 2 3 4 2
4 1 2,5 100,0
2 0 3 2 2
Total 40 100,0
N° de averías
Gráfico n Válidos 40
Perdidos 0
14 13 13 Media 1,20
Mediana 1,00
12
Moda 0a
Desv. típ. 1,114
10
Asimetría ,637
8
Error típ. de asimetría ,374
Recuento
8
Curtosis -,445
5 Error típ. de curtosis ,733
6
Mínimo 0
4 Máximo 4
Percentiles 25 ,00
2 50 1,00
1
75 2,00
0 a. Existen varias modas. Se mostrará el menor de los
0 1 2 3 4
N° de averías valores.
Centrales eléctricas (40). Febrero 2021 Centrales eléctricas (40). Febrero 2021
UNIDAD 1 Página 18
CONSTRUCCIÓN DE TABLAS DE FRECUENCIAS Y GRÁFICOS
Variables cuantitativas discretas
Si las observaciones en un conjunto de datos cuantitativos son discretos (contables) o
si los valores de la variable asumen sólo unos pocos valores distintos, puede ser
apropiado armar tablas de frecuencia con valores únicos.
La distribución de frecuencias (tabla)
UNIDAD 1 Página 19
Caso: Variables Continuas
Ejemplo 3: Nota de Estadística. 400 estudiantes. Semestre 2 - 2020
Tabla de frecuencias
Nota de Estadística
Porcentaje
Frecuencia Porcentaje acumulado
Válidos 1-2 30 7,5 7,5
2-3 53 13,3 20,8
3-4 74 18,5 39,3
4-5 96 24,0 63,3
5-6 86 21,5 84,8
6-7 61 15,3 100,0
Total 400 100,0
Semestre 2 - 2019
Gráficos
Nota de Estadística
Semestre 2 - 2020
Histograma
100 96
86
80
74
61
Frecuencia
60
53
40
30
20
Medidas de resumen
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0
Nota
Nota de Estadística
Semestre 2 - 2020
UNIDAD 1 Página 20
TABLAS DE FRECUENCIAS Y GRÁFICOS
Variables cuantitativas continuas
Ejemplo 4 (variable contínua): En marzo. 2020 se recolectó información sobre la edad
(en años) de 50 estudiantes seleccionados de una casa de estudio superior. El valor de
los datos, en el orden en que fueron recolectados se presenta a continuación.
21 24 29 26 36
18 19 19 25 25
25 31 23 23 23
22 21 22 21 19
25 18 27 21 21
19 25 34 27 33
20 22 19 22 23
19 19 18 19 26
28 20 22 20 21
23 36 23 25 24
Amplitud = 𝟑𝟔−𝟏𝟖 =3
𝟔
UNIDAD 1 Página 21
Los intervalos de clase se leen Edad n° de alumnos
14 alumnos con edades entre 18 y menos de 21 años 18 – 21 14
17 alumnos con edades entre 21 y menos de 24 años 21 – 24 17
24 – 27 10
27 – 30 4
30 – 33 1
4 alumnos con edades entre 33 y 36 años 33 – 36 4
Total = 50
20
k puede ser cualquier constante, en
17
la práctica se suele utilizar k=1, por lo
15
14
tanto, se puede utilizar en las alturas
de los rectángulos
𝐟𝐢
10
10
hi = ≡ densidad
𝒂𝒊
- Si los intervalos de clase tienen
5
distintas amplitud, se debe utilizar la
4 4
densidad para graficar el histograma
1
- Si todos los intervalos de clase
0
15 18 21 24 27 30 33 36 39 tienen la misma amplitud, se puede
Edad
graficar las alturas de los rectángulos
Muestra de 50 estudiantes de una universidad (marzo 2020)
con las frecuencias absolutas o
relativas o densidad.
Un histograma es un gráfico que da una idea de la “forma o estructura” de los datos de una variable,
indicando las regiones donde los puntos están concentrados y las regiones donde son escasos.
UNIDAD 1 Página 22
Del ejemplo edad:
Tabla de frecuencias (todos los intervalos tienen amplitud 3)
Edad Frec. Absoluta Frec. Relativa Densidad
ni fi fi / amplitudi
18 – 21 14 0,28 0,0933
21 – 24 17 0,34 0,1133
24 – 27 10 0,20 0,0667
27 – 30 4 0,08 0,0267
30 – 33 1 0,02 0,0067
33 – 36 4 0,08 0,0267
50 1,00
frecuencia relativa
Densidad =
amplitud
UNIDAD 1 Página 23
Aunque no es común tener clases o intervalos de distintas amplitud, algunas
veces se utilizan cuando alguna clase la frecuencia absoluta es cero o con muy
pocas unidades de observación.
UNIDAD 1 Página 24
El propósito de la densidad es ajustar la frecuencia relativa con el ancho de la
clase. Al dividir la frecuencia relativa con el ancho de la clase se ajusta esta
tendencia.
Formas de histogramas
Un histograma puede asumir diferentes formas. Las más comunes son: simétricos,
asimétricos y uniforme o rectangular.
Simétrico Asimetría Positiva Asimetría Negativa
10 10
10
8 8
8
6
6 6
4
4 4
2
2 2
0
0 0
2.5 7.5 12.5 17.5 22.5 27.5 32.5
2.5 7.5 12.5 17.5 22.5 27.5 32.5 2.5 7.5 12.5 17.5 22.5 27.5 32.5
X
x X
20
17
15
14
10
10
5
4 4
0 0
0
15,0 16,5 18,0 19,5 21,0 22,5 24,0 25,5 27,0 28,5 30,0 31,5 33,0 34,5 36,0 37,5 39,0
Edad
UNIDAD 1 Página 25
OTROS GRÁFICOS
DIAGRAMA DE PUNTOS (caso: pocos datos)
30 30 60 63 70 79 87 90 101
105 112 115 119 119 125 125 125 138
148 168 178 184 202 214 221 275
Dot-Plots
GRAFICO DE TENDENCIA
UNIDAD 1 Página 26
Ejercicios II
En cada uno de los siguientes ejercicios debe indicar cuál es: unidad de observación, la
variable de interés y clasificarla según naturaleza, T_recorrido y N_medición.
Ejercicio II-1
En un centro de computación, el número de veces que el computador se detiene, por error
de máquina, diariamente, fue recolectado por un período de 70 días. Los datos obtenidos
fueron los siguientes.
Nº de detenciones del computador por día.
0 0 2 0 0 0 3 3 0 0 1 0 0 0
1 8 5 0 0 4 3 0 6 2 0 2 3 0
0 3 1 1 0 1 0 1 1 0 2 2 1 0
2 2 0 0 0 1 2 1 2 0 0 5 2 1
0 1 6 4 3 3 1 2 4 0 2 0 0 4
- Tabule y grafique los datos adecuadamente.
- ¿Cuál es la proporción de días en que ocurren más de 3 detenciones?
Ejercicio II-2
Un fabricante de envases de plástico desea analizar cuáles son las causas principales que
generan envases defectuosos que se producen. Se observan 248 envases defectuosos
obteniendo:
Diagrama de Pareto
99,60% 100,00%
97,18% 100%
92,34%
76,61% 80%
60,48%
Porcentaje
Frecuencia
60%
40%
20%
0%
Aplastamiento Desbalanceo Rotura Rosca Fuera de Color
medida
Defectos
UNIDAD 1 Página 27
Ejercicio II-3
Con el propósito de mejorar el tiempo de entrega desde una embotelladora de refrescos a máquinas
vendedoras de una universidad, se ha obtenido 40 datos.
X:Tiempo de entrega en minutos
9,45 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 37,50
17,08 37,00 41,95 11,66 21,65 17,89 69,45 10,30 34,93 46,59
44,88 54,12 56,63 22,13 21,15 10,02 14,88 16,97 17,73 21,84
24,45 33,66 37,10 39,73 44,29 55,12 56,63 29,41 24,45 9,45
Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un gráfico
adecuado
UNIDAD 1 Página 28
investigar si el “desempeño en el programa de capacitación” y el
“rendimiento en el trabajo” están relacionados.
Tabla 1
Desempeño en el
Calificación programa de capacitación
en el trabajo Bajo Medio Alto Total
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy buena 9 49 63 121
Total 60 188 152 400
UNIDAD 1 Página 29
Ejemplo ii) Se desarrollan dos métodos para fabricar discos de un material
superconductor. Se elaboran 50 discos con cada método y se
comprueba su superconductividad al enfriarlos con nitrógeno líquido.
Superconductores
Fallas Total
(Sin fallas)
Método 1 31 19 50
Método 2 42 8 50
Total 73 27 100
UNIDAD 1 Página 30
Ejemplo : Una industria metalúrgica compra grandes cantidades de alambre de
acero en rollos de 150 metros, hasta la fecha esta compra la realiza en
la empresa Alfha, otra empresa llamada Delta quiere también vender
sus productos y hace una oferta bastante interesante porque el precio
de cada rollo es muy inferior.
Sin embargo es importante considerar la resistencia (Y) a la tracción.
Por ello se toman muestras al azar de rollos de acero provenientes de
ambas empresas.
Los resultados se presentan en la tabla de frecuencias siguiente:
UNIDAD 1 Página 31
Polígonos de frecuencias (%)
4 68 178 85
5 44 159 80
6 66 172 75
7 72 176
70
8 85 183
65
9 70 179
10 75 186 60
11 58 169 55
12 69 172 50
13 68 176 45
14 75 174 40
15 70 177 150 155 160 165 170 175 180 185 190 195 200
16 68 170 ESTATURA
17 57 161
En el gráfico se observa una relación aproximadamente
18 63 170
lineal (asociación lineal directa)
19 80 190
20 70 172
21 54 162
22 54 165
UNIDAD 1 Página 32
Ejercicios 1
1. El ingeniero a cargo del control de calidad del agua de una ciudad, es responsable
del nivel de cloración del agua. Dicho nivel debe cumplir con lo que exige el
Departamento de Sanidad (entre 0,2 y 2,0 mg/L). Para vigilar el cloro, sin necesidad
de verificar toda el agua que sale de la planta, el ingeniero diariamente toma 30
muestras de agua en envases iguales que cumplen con la norma de nuestro país,
mide la concentración residual de cloro y saca una conclusión sobre el nivel
promedio de cloración que tiene el agua tratada ese día. La tabla anexa exhibe las
concentraciones de cloro correspondiente a cierto día. A partir de los datos
obtenidos el ingeniero obtiene sus conclusiones respecto a la población total a la
que se le aplicó la cloración.
30 1
Total 30 1
UNIDAD 1 Página 33
2. La siguiente tabla corresponde a los resultados de una escala de
responsabilidad que fue aplicada a una muestra de 200 profesionales de
nuestro país:
2.a) Si se clasifica como "muy
Puntaje ni Fi Ni %
responsable" a toda persona con
acumulado
00 - 20 2 más de 75 puntos. ¿Qué
porcentaje de profesionales
20 - 30 8
evaluados son clasificados como
30 - 40 17 muy responsable?
40 - 50 34
50 - 60 41 2.b) ¿Qué porcentaje de profesionales
60 - 70 57 obtuvieron entre 40 y 83 puntos?
70 – 80 23 2.c) Si se quiere seleccionar al 25% de
80 - 90 12 los profesionales evaluados con
90-100 6 mayor puntaje, indique el
200 intervalo donde se encuentra
> puntaje → > responsabilidad puntaje que realiza el corte para
la clasificación.
UNIDAD 1 Página 34
Medidas de Resumen
Entre las medidas que permiten describir en forma resumida datos provenientes
de una población o una muestra de esa población, podemos considerar: medidas
de posición (ubicación), de dispersión o variabilidad, de forma y de asociación
Medidas de posición: Tendencia Central - Percentiles
UNIDAD 1 Página 35
Y si los datos están agrupados en intervalos de clase, la moda será el punto medio del
intervalo más frecuente. La moda para datos agrupados en intervalos en tablas de
frecuencia, no es un valor exacto porque varía con las diferentes maneras de agrupar
una distribución.
Ejemplo: El sueldo mensual de un grupo de trabajadores textiles se distribuye como
indica la tabla a continuación.
En este caso la moda es 625.000 pesos, por ser el punto medio del intervalo más
frecuente.
A menudo encontramos distribuciones bimodales (con dos modas).
Limitación de la moda: no sabemos qué ocurre con el resto de la distribución de
datos.
UNIDAD 1 Página 36
Ejemplo: Los siguientes valores indican el tiempo necesario en minutos para
llegar a su trabajo de un grupo (muestra) de 15 empleados de un ministerio
público.
25 30 50 60 35 65 48 90 75 50 22 45 25 35 50
X = Tiempo necesario en min. para llegar al trabajo
n = 15 n
705
Sumatoria = x i = 705 x=
i1 15
= 47 min
x
N
i x +x +x ...+x total
i1
1 2 3 N
N N N
UNIDAD 1 Página 37
Ejemplo: Datos agrupados en intervalos
X = Sueldo mensual
n Total = xini x
i
90 56550 56550
= 628,3333 ≡ $628333,3
90
Propiedades de la media aritmética o promedio aritmético:
i. mínimo < x < máximo
ii. El promedio de una constante es la constante. (demostración tarea)
iii. Si a los valores de una variable se les suma una constante, el promedio aumenta en
esa misma magnitud. (demostración tarea)
iv. Si los valores de una variable son multiplicados por una constante, el promedio se
amplificarán en la misma magnitud constante.
v. Si Y = a + bX Y = a + bX ; a, b ctes.
n
n
vii. (xi -x)2 0 es mínima.
i=1
Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:
Complete
Caso 1 $50.000,0 Caso 2 15% Caso 3 10% + un bono
Sueldo actual
fijo de $30.000
Y(C1) = X + 50 Y(C2) = 1,15X Y(C3) = 1,1X + 30
x = 628,3333 (m $)
yC1 = yC2 = yC3 =
Y = Sueldo aumentado
UNIDAD 1 Página 38
Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
UNIDAD 1 Página 39
Comparación entre Promedio, Mediana y Moda
Desde un punto de vista descriptivo las tres medidas proporcionan
información complementaria, sus propiedades son distintas:
Estadísticos de tendencia central Observaciones
- El nivel de medición de la
variable X sea por lo menos en
escala de intervalos.
n - La media es muy sensible
Media xi cuando existen datos atípicos
aritmética total
x= i =1
= o extremos.
x n n - Es preferible utilizar el promedio
aritmético como medida de
resumen si los datos son
homogéneos.
- La mediana utiliza menos
Es un valor tal que, ordenados información que la media, ya
en magnitud los n datos de que solo tiene en cuenta el
una variable X, el 50% es orden de los datos y no su
menor o igual que ella, y el magnitud, por lo tanto, para
Mediana 50% es mayor o igual. poder calcular la mediana el
Me nivel de medición de la variable
X debe ser por lo menos en
escala ordinal.
- La mediana se ve menos
alterada por los datos atípicos o
extremos.
- Para el cálculo de la moda la
variable puede tener cualquier
nivel de medición, luego es la
Moda Es el valor de la variable que
única medida de tendencia
Mo ocurre más frecuentemente
central que se puede calcular si
el nivel de medición de la
variable X es en escala nominal.
x Mediana asimetría, lo que sugiere heterogeneidad en los datos.
en este caso la Mediana es la medida de tendencia central
adecuada para resumir los datos.
UNIDAD 1 Página 40
Simétrica Asimetría positiva Asimetría Negativa
10
10
8
10
8
6
8
6
4 6
4
4
2
2
2
0
2.5 7.5 12.5 17.5 22.5 27.5 32.5
0
0
2.5 7.5 12.5 17.5 22.5 27.5 32.5 X 2. 5 7. 5 12. 5 17. 5 22. 5 27. 5 32. 5
x X
Ejercicios III
Ejercicio III-1
Un fabricante de un dispositivo para cierto artículo electrónico informa en su propaganda
que la vida útil de su producto es superior a 5 años.
Una muestra aleatoria de 140 unidades vendidas hace 10 años, reveló la siguiente
distribución de las duraciones:
Duración Frecuencia
0-2 20
2–4 30
4–6 35
6–8 32
8 – 10 23
Total 140
Ejercicio III-2
En la fabricación de semiconductores, a menudo se utiliza una sustancia química para quitar el
silicio de la parte trasera de las obleas antes de la metalización. En este proceso es importante la
rapidez con la que actúa la sustancia. Se han comparado dos soluciones químicas, utilizando para
ello dos muestras de obleas para cada solución. La rapidez (Y) de acción observada es la siguiente
Solución 1: 9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
Solución 2: 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3
UNIDAD 1 Página 41
b. Complete el cuadro siguiente (realice comentarios):
Solución n yi Promedio Mediana
i
1
2
Ejercicio III-3
Media Ponderada o Promedio Ponderado
Sean x1 ,x2,....,xn , n datos y sea los número w1 ,w2,....,wn, los pesos correspondiente a
cada xi i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los
Promedio =
Ejercicio III-4
Promedio estratificado
n x i i
i=1
X estr = =
n
UNIDAD 1 Página 42
Cuartiles – Quintiles – Deciles - PERCENTILES
Son medidas estadísticas de ubicación.
p% (100 - p)%
| | |
x(1) Pp x(n)
Mín Máx
UNIDAD 1 Página 43
84 52 85 61 74 77 65 63 57 64 72 55 68 76
Diagrama de puntos
Un diagrama de puntos es un gráfico que se puede utilizar para tener una impresión
aproximada de la forma de los datos observados. Es útil cuando el tamaño de la muestra no es
demasiado grande.
Cálculo percentiles Pp
En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los
datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”,
puede que ningún valor cumpla exactamente la definición. Existen diversas formas de
interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL
explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery
y George C. Runger (1996)
1ro) Se ordenan los n datos de menor a mayor
np
2do) Pp es el valor que ocupa el lugar j = . El método AEMPIRAL asigna la media
100
de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que ocupa la
np
posición siguiente a la parte entera de j cuando j = es un número decimal
100
Del ejemplo: P50 n = 14 p = 50 → percentil 50 está se encuentra en el
14 50 65 68
lugar j= =7 → P50 = = 66,5 = Me ≡ “el 50% de los estudiante
100 2
obtuvieron puntaje entre 52 y 66,5 puntos”
- ¿Entre qué valores e encuentra el 25% de los mejores puntajes?
- Determine el percentil 75 e interprete. (Resp: P75 = 76 AEMPIRAL)
aproximados.
Mediante interpolación lineal en el gráfico de frecuencias acumulada (ojiva) se
llega a la fórmula del percentil Pp.
UNIDAD 1 Página 44
np - N j-1
Pp se encuentra en el
100 intervalo j → lugar np/100
Pp = liminf j +amplitudj liminfj = valor inferior de
nj intervalo j
Nj-1 frec. Abs. acumulada
anterior al intervalo j
Ejemplo: cálculo percentil 50 (mediana)
nj= frecuencia absoluta del
Intervalo j intervalo j
UNIDAD 1 Página 45
OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)
Interpolando
Linealmente
Puntaje
P50 [25, 30) ← 25 es el límite inferior del intervalo j
30 – 25 = 5 es la amplitud del intervalo j
intervalo j
Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j
frec. abs. acumulada anterior al intervalo j es 15
La fórmula que entrega la interpolación lineal para el cálculo de percentiles con
datos agrupados en intervalos reales es:
np Se utiliza
100 - N j-1
cuando no se
Pp = liminfj +amplitud j
tienen los datos
de cada unidad
nj de observación,
es decir, no se
tienen los datos
directos
Aplicando la fórmula de percentil para datos agrupados
20 15
P50 25 5 26, 79 puntos
14
Interpretación …………………………….
- Suponga que al 10% de los puntajes más altos pasan a una segunda etapa,
¿a partir de qué puntaje se va a realizar el corte para seleccionar a dichos
sujetos?.
UNIDAD 1 Página 46
Box plot o Diagrama de caja (Tukey fue su creador)
Es un gráfico que suministra información sobre los valores mínimo y máximo, los
cuartiles (bisagras) de Tukey Q1, Q2 o mediana Q3, la existencia de valores
atípicos y la simetría de la distribución.
RI = Q3 – Q1
30 30 60 63 70 79 87 90 101
102 115 118 119 119 120 125 140 145
172 182 183 191 222 244 291 511
Percentiles de Tukey
Percentiles
25 50 75
Bisagras de Tukey Cantidad de contaminación por aluminio (ppm) 87,00 119,00 182,00
UNIDAD 1 Página 47
Diagrama de caja de caja de la variable:
“cantidad de contaminación por aluminio (ppm) en plástico de cierto tipo”
UNIDAD 1 Página 48
Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente
respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los
grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta.
Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las
unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo.
Cuando están altamente dispersos se dice que es heterogéneo.
Las medidas de dispersión más utilizadas son las siguientes:
Amplitud o rango o recorrido, rango intercuartílico, desviación estándar,
varianza y coeficiente de variación.
Rango o recorrido: Es la distancia en la escala de medidas entre los valores
mayor y menor. Rango = valor máximo – valor mínimo
En el grupo 1: rango es 7 – 3 = 4 y en el grupo 2 rango es 9 – 1 = 8 lo que implica que el
segundo grupo tiene puntajes más dispersos.
El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la distribución
se tendrá la impresión de que la dispersión es grande, cuando en realidad si omitiésemos ese
valor podríamos concluir que es una distribución compacta.
Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer
cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos
Q3 = P75 Q1 = P25
UNIDAD 1 Página 49
El cuadrado de la desviación estándar s2, se denomina varianza.
(x x) 2
n
i
s2 i1
n
N
(x μ)2
i
Notación de la varianza poblacional σ2 i 1
N
= media de la población N = tamaño de la población
Observación:
En la casi todos textos actuales de Estadística la fórmula de la
varianza (s2) de una muestra representativa de una población
viene dada por:
n
(xi-x)2 Llamada varianza corregida o cuasivarianza y
se utiliza en Inferencia Estadística como la
s2 = i=1
estimación de la varianza poblacional 2, es la
n -1 fórmula que vamos a utilizar en este curso
como varianza muestral
2
n
n
xi
n
(xi-x)2 x2i - i=1
n
s2 = i=1 i=1
n -1 n-1
Del ejemplo Puntaje de un Test:
Grupo 1 Grupo 2
x x-x (x - x) 2 x x-x (x - x)2
3 -2 4 1 -4 16
4 -1 1 2 -3 9
4 -1 1 3 -2 4
5 0 0 4 -1 1
5 0 0 5 0 0
5 0 0 5 0 0
5 0 0 6 1 1
6 1 1 7 2 4
6 1 1 8 3 9
7 2 4 9 4 16
Total 50 0 12 50 0 60
UNIDAD 1 Página 50
Desviación Varianza
Grupo n Promedio estándar
50 12
1 10
5 ptos = 1,1547 ptos (1,1547)2
10 9
50 60
2 10
5 ptos = 2,5820 ptos (2,5820)2
10 9
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor
dispersión o variabilidad.
k
xi ni
k 2
(xi -x)2 ni x i ni - i=1
n
Varianza: s = 2 i=1
= i=1
n -1 n-1
Desviación estandar
k 2
k
x i ni
k 2 i=1
(xi -x)2 ni x i ni -
n
s= i=1
= i=1
n -1 n -1
UNIDAD 1 Página 51
Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas
en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el
número de resistencias que no cumplían con las especificaciones, resultando la
siguiente tabla
X = N° de resistencia defectuosas en cada paquete
(xi - x) 2 n
X ni xi ni i
0 5 0 31,25
1 10 10 22,50
2 16 32 4,00
3 15 45 3,75
4 9 36 20,25
5 3 15 18,75
6 2 12 24,50
Total n = 60 150 125,00
150 125
x= s2 =
60 59
= 2,119 ← varianza
(150)2
500
s 60 1,456
59
Pero es mucho más rápido el cálculo con el modo estadístico de la calculadora.
Ejercicio : El óxido de azufre es un gas que tiene efectos nocivos en la salud humana, vegetal
y en otros materiales, este se produce por combustión de carbón y petróleo y por la metalurgia.
En una estación de monitoreo de un complejo metalúrgico se realizan mediciones diarias del
óxido de azufre (ug/m2), que emanan de los procesos. La norma indica que la cantidad máxima
de óxido de azufre permitida es 300 (ug/m2). Al tomar una muestra de 120 de dichas
mediciones, se obtuvo:
X: Cantidad de
200 - 240 240 - 280 280 - 320 320 - 360 360 - 400 400 - 440 440 - 480
óxido de azufre
N° de días 8 14 18 44 17 13 6
UNIDAD 1 Página 52
b. Determine e interprete el valor del rango intercuartílico (RI)
c. Determine e interprete el valor de la desviación estándar.
d. Según la regla empírica, para distribuciones simétricas en forma de campana,
aproximadamente “el 68,3% de las observaciones se encuentra entre el
promedio + una desviación estándar” (prom-s ; prom+s). Analice si los datos
observados podrían cumplir con esa regla
sX
CVX =
|x|
sujeto 1 2 3 4 5 6 7 8 9 10
X: Estatura (cm.) 172 175 168 178 159 166 176 180 179 171
Y: Peso (kg.) 78 75 70 68 44 66 72 95 70 74
Para analizar cuál distribución de datos es más homogénea, se debe determinar los
coeficientes de variación de cada variable
Variable Media Desv. típ. CV 100*CV
X: Estatura (cm.) 172,40 6,620 0,038 3,840%
Y: Peso (kg.) 71,20 12,541 0,176 17,614%
UNIDAD 1 Página 53
Ejercicios IV
Ejercicio IV-1
Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un proceso
químico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se
puede sustituir por el catalizador 2, más barato, pero que, según el fabricante provoca un descenso
del rendimiento. Se llevan a cabo 24 reacciones obteniendo para cada catalizador los rendimientos
en porcentaje:
Y = rendimiento (%) y i
y 2
Catalizador i i
i
UNIDAD 1 Página 54
Ejercicio IV-3
Los datos que se muestran a continuación son los grados de dureza Brinell
obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2
COMPLETE E INTERPRETE
Percentiles (bisagras de tukey)
ALEACION 25 50 75 RI 1,5·RI (P25 – 1,5RI, P75 + 1,5RI)
1 63,5 64,6 65,1 1,6 2,4 (61,1 ; 67,5)
2 63,9 66,0 68,9
UNIDAD 1 Página 55
Ejercicio IV-4 (PEP)
Una industria metalúrgica compra grandes cantidades de alambre de acero en
rollos de 150 metros, hasta la fecha esta compra la realiza en la empresa Alfha,
otra empresa llamada Delta quiere también vender sus productos y hace una oferta
bastante interesante porque el precio de cada rollo es muy inferior.
Sin embargo es importante considerar la resistencia (Y) a la tracción. Por ello se
toman muestras al azar de rollos de acero provenientes de ambas empresas.
Los resultados se presentan en la tabla siguiente:
Respuesta:
UNIDAD 1 Página 56
Ejercicio IV-5
Un Gerente de producción de una gran industria automovilística norteamericana cree
que los trabajadores de la planta A hacen un promedio salarial por hora menor con una
mayor variabilidad que los trabajadores de la planta B. Muestras de 12 trabajadores de
la planta A y 10 trabajadores de la planta B dieron los siguientes valores:
Salario (um ) por hora de un trabajador (Y)
Planta A (1) 12,2 18,2 19,4 15,3 18,6 16,4 15,5 18,7 17,1 18,3 14,5 15,8
Planta B (2) 15,1 14,8 16,9 17,2 18,2 18,5 18,7 19,3 19.2 19,8
a. ¿Apoyan los datos al Gerente de producción? (utilice medidas de resumen)
Planta n Promedio Desv. Estandar C.V.
A
B
b. Corrobore la conclusión de (a) con Box-Plots paralelos (diagrama de caja)
c. Si a los trabajadores se les aumenta el sueldo hora de la siguiente forma:
A 5% + 0.8 um
B 1,5 um
Ejercicio IV-6
La velocidad máxima de circulación permitida para automóviles en un tramo determinado de
cierta autopista es de 75 km/h, debido a trabajos de reparación de pavimento. Para una muestra
seleccionada aleatoriamente de 32 automóviles, el radar señaló las siguientes velocidades en
km/hr., en este tramo:
X = velocidad de circulación de automóviles
x1 = 79 (y1 = 1) 71 68 77 86 71 69 72
x2 = 82 (y2 =1) 60 65 75 67 74 80 81
x3 = 66 (y3 = 0) 72 63 78 63 74 61 64
x4 = 60 (y4 = 0) 64 79 62 65 66 73 73
UNIDAD 1 Página 57
n
yi
i =1
Determine e interprete el valor de ≡
n
c. Muestre la información de la variable Y en un gráfico adecuado.
(𝑥 − 𝑀𝑜𝑑𝑎)
CAP =
𝑠
UNIDAD 1 Página 58
Descripción conjunta de dos variables cuantitativas
Es frecuente que se pueda determinar el grado de relación entre 2 (o más)
variables cuantitativas, ya que al tener este conocimiento, se puede predecir una
variable a partir de la otra.
Para expresar cuantitativamente el grado en que dos variables están
relacionadas, es necesario calcular un coeficiente de correlación.
Coeficiente de correlación lineal poblacional : ρ
Coeficiente de correlación lineal muestral: r
Un coeficiente de correlación para variables cuantitativas: es un número
que indica el grado de asociación y la dirección de esa asociación. Indica
cómo varía o cambia una característica cuando la otra característica o
variable asociada cambia.
Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer
predicciones. La predicción sólo es posible basándose en el conocimiento de la
relación que hay entre 2 variables.
Un coeficiente de correlación lineal (con variables por lo menos ordinales) nos
proporciona 3 datos principales:
- La existencia o no de una relación entre las variables estudiadas.
- La dirección de la relación.
- El grado de esta relación.
Como por ejemplo:
estatura y peso
el ingreso familiar y los gastos en educación
Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de
medidas de los mismos individuos (o parejas de individuos que tengan alguna
forma de relación)
Tabla de datos:
UNIDAD 1 Página 59
Ejemplos
UNIDAD 1 Página 60
d) Un caso de alta correlación lineal negativa (-0,758) (relación inversa)
X Y
12 5
10 3
9 1
8 5
7 7
7 12
6 10
5 9
4 13
2 11
El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto, con
la dirección de relación entre dos cosas, ya sea directa o inversa.
Significado de la correlación
El valor de la correlación puede variar desde -1 (lo que indica correlación
negativa perfecta), pasando por el 0 (que indica ninguna relación), hasta +1
(que significa perfecta correlación positiva)
La magnitud se relaciona con la intensidad o estrechez de la relación.
COVARIANZA
n
n
x i yi
xi yi - i=1 i=1
n n
UNIDAD 1 Página 61
Ejemplo:
sujeto x y (x - x ) (y - y ) (x - x )2 (y - y )2 (x - x )(y - y )
1 13 11 5,5 3 30,25 9 16,5
2 12 14 4,5 6 20,25 36 27
3 10 11 2,5 3 6,25 9 7,5
4 10 7 2,5 -1 6,25 1 -2,5
5 8 9 0,5 1 0,25 1 0,5
6 6 11 -1,5 3 2,25 9 -4,5
7 6 3 -1,5 -5 2,25 25 7,5
8 5 7 -2,5 -1 6,25 1 2,5
9 3 6 -4,5 -2 20,25 4 9
10 2 1 -5,5 -7 30,25 49 38,5
Total 75 80 124,5 144 102
promedio x =7,5 y = 8,0
11,333
Coeficiente de correlación lineal de Pearson: rxy = 0,762
(3,719)(4,000)
Interpretación: _
UNIDAD 1 Página 62
Ejercicios V (varios)
Ejercicio V-1
Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere
investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de
experiencia laboral”. Se seleccionaron al azar diez empleados de entre lo que tienen ese
trabajo. Los datos de años de experiencia y medición de productividad son los siguientes:
Empleado 01 02 03 04 05 06 07 08 09 10
Años de experiencia laboral 4 6 10 2 12 6 5 10 13 9
Productividad 80 82 88 81 92 85 83 86 91 90
Realice el diagrama de dispersión, calcule e interprete el coeficiente r de Pearson.
Ejercicio V-2
El ingeniero a cargo de la producción de cierto tipo de rodamientos esféricos de 100 mm
de diámetro del agujero, debe realizar un análisis estadístico descriptivo con el objeto de
verificar que el proceso de producción entregue rodamientos con diámetros adecuados, es
decir, entre 99 mm y 101 mm para que no presenten dificultad en su uso. Se midieron 85
rodamientos de la producción de cierto día y se anotó la variación (X), en milímetros, del
diámetro respecto a 100 mm, los datos obtenidos se presentan a continuación:
Variación (X) del diámetro Cantidad de
de rodamientos de 100 mm rodamientos
-1,3 < X < -0,9 4
-0,9 < X < -0,5 8
-0,5 < X < -0,1 17
-0,1 < X < 0,3 32
0,3 < X < 0,7 15
0,7 < X < 1,1 6
1,1 < X < 1,5 3
Total 85
¿usted está de acuerdo con los resultados del ingeniero? Justifique su respuesta con las
medidas estadísticas adecuadas.
UNIDAD 1 Página 63
Ejercicio V-3
Se realizó un estudio en la Plaza de Peaje Lo Prado, en la fecha 16 y 17 de septiembre
de 2015 con respecto a las siguientes variables:
X : “número de personas que viajan dentro de cada vehículo que fue encuestado”
Y : “Monto en miles de pesos destinado a gastos para el viaje”
Z : “Si el vehículo en que viajan es propio = si o arrendado = no”
Obteniendo los siguientes datos:
X Y 0 - 100 100 - 200 200 - 300 300 - 400
Z Si no si no si no si no
1 2 3 3 4 2 4 3 0
2 3 1 2 5 7 6 5 0
3 3 2 3 5 8 7 4 0
4 2 3 2 4 6 5 7 2
b. Determine entre que valores fluctúa el monto del 70% de los viajes, con
vehículo propio, con mayores montos destinados a gasto para el viaje.
UNIDAD 1 Página 64
Ejercicio V-4
UNIDAD 1 Página 65
Ejercicio V-5 (PEP)
En una planta embotelladora de bebidas de fantasía, utilizan envases fabricados con 2
tipos de plástico, de similares condiciones. ( A y B ).
Con muestras de 25 botellas fabricadas con cada tipo de plástico se midió la resistencia
(en psi). Algunos resultados parciales se encuentran a continuación:
b. Determine para cada tipo de envase entre que valores (psi) se encuentran el 50% de
las botellas con mayor resistencia
A 182 185 189 190 195 196 197 199 201 202 202 202 202 203 204 … 225
B 171 173 178 183 184 189 192 192 193 … 224
UNIDAD 1 Página 66
Ejercicio V-6 (PEP1 2019-1)
- De los tornillos que tienen un diámetro de paso igual o superior a 5,002 cm, el
porcentaje de tornillos que tengan un diámetro mayor superior a 12,028 sea
menor de 63%.
b. Para los pernos con Diámetro mayor entre 12,01 y 12,04. ¿Es posible concluir,
con una medida adecuada, que las variables en estudio están asociadas
linealmente? Interprete la fuerza de dicha asociación.
UNIDAD 1 Página 67
Ejercicio V-7 (PEP1 2016-2)
a. Compare la dispersión de la Radiación Solar Global diaria entre las dos zonas.
UNIDAD 1 Página 68
Ejercicio V-8 (Evaluación 1 2020-2)
Datos de la muestra 1
Utilidad (US $) N° de tarjetas de crédito
-
200 - -100 4
-
100 - 0 6
0 - 100 10
100 - 200 15
200 - 300 8
300 - 400 7
Total 50
Datos de la muestra 2
Utilidad (US $)
-89 140 120 362 227 465 153 367 -120 269
80 83 190 242 147 191 159 209 213 376
335 60 206 505 96 74 229 -79 93 139
UNIDAD 1 Página 69
Ejercicio V-9
El producto estrella de la Fábrica A, de iluminación, es una ampolleta LED de 10 w que
según el fabricante, sus ampolletas superan en duración el funcionamiento ininterrumpido al
modelo similar de otra Fabrica B, mucho más barato.
Para comparar la duración de ambas ampolletas, en el laboratorio de iluminación de la fábrica
A, probaron muestras de 30 ampolletas de cada fabricante, los resultados en meses se
muestran a continuación:
Fábrica A
Duración en meses de las ampolletas LED de 10 w
46,2 42,9 40,4 45,4 46,7 43,6 39,9 46,0 40,2 44,3
46,5 49,3 53,3 44,5 42,5 45,5 47,3 43,9 45,7 47,9
50,2 45,5 52,7 48,4 50,4 45,9 40,1 41,8 44,0 53,4
Fábrica B
Duración en meses de las ampolletas LED de 10 w
35,6 35,7 36,1 37,1 37,2 37,3 37,4 38,3 38,3 39,1
39,1 39,5 39,6 39,9 40,0 40,4 40,7 40,7 40,8 41,1
41,4 41,8 42,0 42,2 44,1 44,2 45,9 46,2 47,9 50,1
UNIDAD 1 Página 70