Notas de Clase Descriptiva 2015
Notas de Clase Descriptiva 2015
Notas de Clase Descriptiva 2015
ESTADÍSTICA
Material elaborado por docentes del Área Estadística del Dpto. de Matemática de la ESS – FBCB - UNL
NOTAS DE CLASES
INTRODUCCIÓN
La Estadística podría definirse como la ciencia que se ocupa de la recolección de los datos referidos a un fenómeno o
hecho en particular, su ordenamiento, presentación y resumen para su análisis e interpretación y dar una guía de
acciones para la toma de decisiones en situaciones prácticas, que entrañan incertidumbre. Abarca, entonces dos
campos de acción, denominados Estadística Descriptiva y Estadística Inferencial.
La Estadística aplicada a la Licenciatura en Seguridad y Salud Ocupacional, analiza conjuntos de datos como:
tiempo de evacuación en el que se realizan los simulacros, volumen de agua requerido en incendios con características
similares, temperatura en los meses de verano, números de empleados que han sufrido accidentes laborales, etc. y
trata de extraer conclusiones sobre lo observado.
Individuo o unidad experimental: persona u objeto sobre quien se va a observar algo. A veces la unidad experimental
no tiene forma física real. Por ejemplo si se observa el “tiempo que tarda en ocurrir una reacción química” la unidad
experimental sería la vez que se repite la reacción.
Muestra: subconjunto de individuos o unidades experimentales seleccionado de una población y que es representativo
de la misma.
Ejemplos:
- 10 repeticiones de una reacción química
- 20 empleados seleccionados de una industria
- 30 controles de niveles de CO en aire
Muestra
Unidad Experimental
Población
Estadística - Notas de clase - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática – Área Estadística
FBCB / UNL 3 de 29
Actividad
De 2 ejemplos de Población:
De 2 ejemplos de Muestra:
Censo: cuando se observa una característica en toda una población se habla de realizar un censo.
Variables: cada vez que se observa una característica en una unidad experimental se genera una respuesta. A esa
respuesta, en Estadística, se la llama Variable, pues al cambiar de unidad experimental cambia la respuesta.
Estas pueden ser clasificadas en:
a) Variable cualitativa: la respuesta no se puede expresar numéricamente porque es un atributo o cualidad; por
ejemplo: nacionalidad (respuesta: argentina, brasilera,…), grupo sanguíneo (respuesta: A, 0, B, AB), género
(respuesta: masculino, femenino).
Esta variable puede ser:
Nominal: sus valores posibles de respuesta se refieren a una cualidad que la unidad experimental posee o no
posee. Por ejemplo: todos los enunciados anteriormente.
Ordinal: sus posibles valores de respuesta se encuentran jerarquizados (con un orden de importancia). Por ejemplo:
cargo que ocupan los empleados de una institución (respuesta: presidente, gerente, administrativo, obrero), nivel
educativo alcanzado por los empleados de una fábrica (respuesta: primaria secundaria, terciario, universitario).
b) Variable cuantitativa: la respuesta es un valor numérico y se obtienen de medir o contar; por ejemplo: edad,
número de afiliados en un sindicato, cantidad de hijos de los empleados de una fábrica, tiempo de licencia por
enfermedad que toman los empleados por año.
Esta variable puede ser:
Discreta: sólo puede tomar valores enteros (respuesta: 1, 2, 8,….). Por ejemplo: cantidad de hijos (respuesta: 0, 1,
2,….), número de profesionales que asistieron a trabajar en un día cualquiera a un Centro gubernamental (0, 1,
2,…).
Continua: puede tomar cualquier valor dentro de un intervalo. Por ejemplo: ingresos anuales por cuotas de afiliados
a una aseguradora (respuesta: [0,∞)).
Notación:
Generalmente, para denotar una variable se utilizan letras mayúsculas imprenta como X, Y, Z.
Por ejemplo: X = “edad del afiliado” ; Y = “genero” ; Z = “tiempo de licencia (días)”
Cada resultado de la variable se simboliza con la misma letra pero en minúscula. Por ejemplo:
Un valor posible de la variable X = “edad del paciente” sería x = 35 años.
Un valor posible de la variable Y = “genero” sería y = masculino.
Un posible valor de la variable Z = “tiempo de licencia” sería z = 7 días.
Actividad
INTERPRETACIÓN DE LA INFORMACIÓN
Una vez recolectados los datos estos pueden ser organizados en tablas o gráficos, de manera tal de agilizar la
obtención de la información que ellos poseen.
La elección de la herramienta a usar depende del tipo de dato que se tenga.
Datos cualitativos
Ejemplo
Considere los siguientes datos sobre el tipo de problemas de salud que manifiestan o aquejan a los empleados de
casinos en Argentina H: hinchazón de pies (o pierna), F: fatiga, E: dolor de espalda, C: dolor cabeza, T: tos, I: irritación
de ojos, O: otro). Los datos recolectados de una muestra de empleados resultaron ser los siguientes:
H H F E C T I O I I I I
F E C T I O T I O H H F
C T I O I I I T I O T I
H F E C T I O I I I I F
F E C T I O T I O H H F
C T I O I I I T I O T I
H H F E C T I O I I I I
F E C T I O T I O H H F
C T I O I I I T I O T I
H F E C T I T I O H H F
Actividad
Para ordenar esta información se realizan las siguientes preguntas:
1) Identificar el tamaño de la muestra o la cantidad consultas recolectadas. n=
2) ¿Cuál sería la población estudiada?
4) Resumir en la siguiente tabla la información obtenida. Este tipo de tablas se denominan Tablas de frecuencias.
Cantidad de personas con un Porcentaje de personas con un
Problema que le aqueja
mismo problema (fa) mismo problema (fr)
H: hinchazón de pies y piernas
E: dolor de espalda
F: fatiga
C: dolor de cabeza
T: tos
I: irritación de ojos
O: otros
Total
5) Realizar un comentario.
El gráfico que mejor representaría a estos es un Gráfico de Torta o Sectores (es útil cuando se trabaja con variables
cualitativas que no tienen mas de 6 o 7 categorías) o un Gráfico de barra. Este último se construye en dos ejes,
generalmente, en el eje horizontal se detallan las categorías de la variable en las que aparece una barra o línea y en el
vertical se pone, en escala, la frecuencia absoluta o la porcentual.
Actividad
Confeccione un gráfico de Torta y otro de Barra para estos datos. (Un detalle importante es que cuando los datos son
cualitativos las barras del Gráfico de Barra NO deben tocarse).
Gráfico de Torta Gráfico de Barra
Actividad
1- ¿Qué cantidad de oficinas fueron incluidas en la muestra?
2- ¿Cuántas oficinas superan esta normativa?
3- ¿Cuántas oficinas tienen el máximo de personas permitido?
120
100
Frecuencia
80
61
60
40 31 33
21 26
20
1
0
2 3 4 5 6 7 8
En este tipo de gráfico, el ancho de las barras es arbitrario, lo único que hay que considerar es que todas tengan el
mismo ancho y que estén separadas todas con igual distancia. Tal es así, que las barras se pueden “afinar” hasta
convertirlas en una línea; en este caso el gráfico resultante se llama “de bastones” y el gráfico correspondiente al
ejemplo quedaría de la siguiente manera:
133
140
120
100
Frecuencia
80
61
60
31 33
40 26
21
20
1
0
2 3 4 5 6 7 8
Para hacer una “tabla de distribución de frecuencias se divide al conjunto de datos en “clases” (es decir agrupar los
valores en intervalos, por ejemplo valores que van de 50 a 55, de 55 a 60, …) y luego contar cuántas observaciones
pertenecen a cada una de ellas.
Existen diferentes criterios que orientan respecto de este número, si bien es recomendable que varíe entre 5 y 15;
porque si son menos de 5 clases, al agrupar tanto se pierde mucha información y si son más de 15, porque al dividir en
tantas partes el conjunto de datos deja de ser práctico y se pierde la capacidad de leer la información contenida en las
observaciones. Uno de estos criterios es hacer tantos intervalos como resulta de calcular n .
Las clases o intervalos de clase es conveniente que sean de igual longitud y que se definan de manera tal que no haya
dudas respecto a si un valor observado pertenece a una u otra clase y todos los datos deben pertenecer a alguna de
ellas. Esto último, en términos de Estadística, sería:
“Las clases o intervalos de clase en una tabla de distribución de frecuencias deben se mutuamente
excluyentes (cada dato cae en una y sólo una clase) y exhaustiva, es decir, todos los datos deben pertenecer a una
clase”.
Para determinar la amplitud de los intervalos de clases, se debe calcular el rango, que es la diferencia entre el valor
máximo y mínimo observados.
En este caso los valores máximo y mínimo observados son: 83 y 52 años respectivamente, entonces,
Rango = 83 – 52 = 31 años.
Como se quiere que ningún dato observado quede fuera, se propone un rango ficticio, es decir el valor máximo debe
ser mayor que el observado y el valor mínimo debe ser menor al observado, por ejemplo 85 y 50 años respectivamente.
Al observar los intervalos que quedaron, se ve que el primero, por ejemplo termina en 55 y el segundo empieza en 55.
Aquí hay que tomar una decisión respecto a cómo vamos a contar. Una opción sería que el 55 pertenezca al primer
intervalo y no al segundo.
Usando esta regla, 60 pertenece al segundo, 65 al tercero, 70 al cuarto, …, es decir, los intervalos no incluyen el
extremo inferior pero sí el extremo superior, 50 a ≤ 55. En este caso se dice que los intervalos son “abiertos por
izquierda y cerrados por derecha. En símbolos ( 50 ; 55].
Si se elige la regla al revés, el extremo inferior pertenece al intervalo y el superior no, decimos que son “cerrados por
izquierda y abiertos por derecha”.
En la tabla siguiente se presentan las 7 clases numeradas de 1 a 7, con sus respectivos límites.
Al igual que cuando estudiamos las variables cualitativas, estamos en condiciones de medir con qué frecuencia
aparece cada clase.
Si al número de veces que aparece cada clase, frecuencia, lo dividimos por el número total de datos, surge la
frecuencia relativa.
Si a la frecuencia relativa la multiplicamos por 100, surge la frecuencia relativa porcentual.
En la tabla mencionada, también están las columnas pertenecientes a frecuencia, frecuencia relativa y frecuencia
relativa porcentual
Actividad
Cuando la variable es cuantitativa, como en este ejemplo, el gráfico que se usa para su representación se denomina
Histograma. Consiste en una serie de rectángulos de igual base, sin espacios entre ellos.
La variable observada se representa en un eje (horizontal o vertical) y se señalan intervalos de valores que van a
conformar el ancho de los rectángulos. En el otro eje se pueden expresar las frecuencias absolutas de casos
observados en cada uno de esos intervalos de valores.
12 11
10
8
6 5
4
4 2
2
0
50-55 55-60 60-65 65-70 70-75 75-80 80-85
Edad (años)
Actividad
Construya la tabla de frecuencias correspondiente al histograma presentado arriba
Si quisiéramos construir un histograma de frecuencias relativas, lo único que cambia es que la altura del rectángulo
correspondiente a cada clase es de una longitud igual a la frecuencia relativa. El histograma correspondiente queda:
0.30
0.26
0.24
0.25
Frecuencia Relativa
0.20 0.19
0.16
0.15
0.10 0.07
0.06
0.05 0.03
0.00
50-55 55-60 60-65 65-70 70-75 75-80 80-85
Edad (años)
A veces, en lugar de colocar en el eje x los valores extremos de cada clase, se coloca lo que se denomina Marca de
Clase (Xm) que es el promedio de cada clase.
12
10
8
6 5
4
4 2
2 0
0
0
45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 85-90
Edad (años)
20
18
18 17
16
14
Frecuencia
12 11 13
10
8
5
6
4
4 2
2 0 0
0
45 50 55 60 65 70 75 80 85 90
Edad (años)
En general, el objetivo de este gráfico es comparar el comportamiento conjunto de las variables observadas. Si los
grupos a comparar tienen diferente tamaño, el gráfico debe hacerse considerando frecuencias en porcentaje.
Como la información se presenta en una tabla de doble entrada, surgen dos gráficos que dependen de la variable de
agrupación que se considere.
En el ejemplo que se está analizando, si se agrupan los tipos de carácter según el sexo, surge:
100
%
80
60 45
42 43
40 32
25
20 13
0
Varón Mujer
Sexo
% 100
80 72
63
60 52 48
37
40 28
20
0
Fuerte Moderado Leve
Carácter
Varón Mujer
Actividad
1- Indique el total de personas entrevistadas: ……………………………………………………………………
2- Indique para cada tipo de carácter el género predominante: ……………………………………………….
………………………………………………………………………………………………………………………
3- Indique para cada sexo el tipo de carácter predominante: …………………………………………………
Grafico de línea
Permite analizar el comportamiento de una variable evaluada a lo largo del tiempo.
Ejemplo
Se analiza un registro de accidentes laborales por semestre en una empresa constructora que tiene a cargo una
megaconstrucción civil. El gráfico muestra la síntesis de los resultados.
25
Nro de accidentes
20
15
10
0
0 1 2 3 4 5 6 7 8 9 10
Semestres
Actividad
1- ¿Cuántos accidentes hubo en el primer semestre y en el último?
2- ¿Observa alguna tendencia de crecimiento o decrecimiento? ¿Podría asociarla a algún cambio realizado en
términos del problema?
1. Una medida descriptiva calculada a partir de los datos de una muestra se llama Estadístico.
2. Una medida descriptiva calculada a partir de los datos de una población se llama Parámetro.
Además se pueden considerar diferentes tipos de medidas de resumen. Entre ellas se tienen, por ejemplo:
MEDIDAS DE POSICIÓN
Dentro de ellas se encuentran las medidas de tendencia central que se denominan así porque indican la ubicación del
centro del conjunto de datos. De acuerdo al criterio usado para determinar el centro, las tres medidas de tendencia
central de uso más frecuente son: la media aritmética, la mediana y el modo.
Media aritmética
Es la medida de tendencia central más conocida. La mayoría de la gente tiene en mente esta medida cuando se habla
de promedio. Se obtiene sumando todos los valores obtenidos de una población o muestra y se divide entre el número
de valores sumados.
n
∑ xi
x= i =1
n
En este caso se tiene:
xi donde el subíndice “ i “ varía de 1 a n, cantidad de datos.
Ejemplo
Se tiene disponible una muestra que se compone de 10 (n =10) y los datos son los años de antigüedad de empleados
elegidos al azar de un organismo gubernamental.
Xi Valor
Estadística - Notas de clase - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática – Área Estadística
FBCB / UNL 14 de 29
x1 10
x2 20
x3 24
x4 12
x5 25
x6 23
x7 14
x8 15
x9 18
x10 9
Entonces:
10
∑x i
10 + 20 + 24 + 12 + 25 + 23 + 14 + 15 + 18 + 9 170
x= i=1
= = = 17 años
10 10 10
Es única. Para un conjunto de datos hay una y sólo una media aritmética.
Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.
Es sensible a los valores extremos. Como todos los valores del conjunto de datos se consideran en el cálculo
de la media, ésta resulta muy afectada por los valores extremos que influyen sobre la misma y que en algunos
casos pueden distorsionarla y por lo tanto no resulta una medida apropiada de tendencia central.
Actividad
Una central chica de bomberos lleva un registro de la superficie quemada en los incendios en los que intervienen (en
m2). Los datos se muestran en la tabla:
22.8 15.3
22.7 19.3
25.6 17.5
21.2 21.2
25.9 20.3
23.9 14.3
22.9 18.3
19.5 16.7
26.2 22.1
25.2 17.3
Mediana
Es aquel valor de la variable que divide al conjunto de datos, ordenado en forma creciente, en dos partes iguales. De
manera tal que el número de datos mayor o igual a la mediana es igual al número de datos menores o iguales a ésta.
Estadística - Notas de clase - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática – Área Estadística
FBCB / UNL 15 de 29
Modo
Es aquel valor que ocurre con mayor frecuencia. Si todos los valores son diferentes, se dice que la serie no tiene modo.
Por otro lado, puede ocurrir que haya más de un modo.
El modo se puede utilizar para describir datos cualitativos.
Ejemplo
Calcular el modo en la siguiente serie de datos que corresponde a los días de licencia que se han tomado, al año, 9
empleados de una empresa.
23 , 12 , 14 , 21 , 7, 32 , 24, 21, 21
En este caso el Modo (que se denota como Mo) sería ………………….
Actividad
Calcule la mediana y el modo de la variable “Superficie quemada” contemplada en el ejercicio de la Actividad anterior.
Cuartiles
Son tres: primer cuartil (Q1), segundo cuartil (Q2) y tercer cuartil (Q3). Estos son valores de la variable observada que
dividen al conjunto de datos, después de haber sido ordenados de forma creciente, en 4 partes iguales de manera tal
que:
Por debajo de Q1 se encuentra el 25 % de los datos y por arriba del mismo el 75 % de la serie.
Por debajo de Q2 se encuentra el 50 % de los datos y por arriba del mismo el otro 50 % de la serie. Es decir Q2
coincide con la mediana.
Q3 deja por debajo del mismo el 75 % de los datos y por arriba de él queda el 25 % de la serie.
Cuando se quiere calcular las posiciones o ubicaciones de los cuartiles para los datos no agrupados, se utilizan las
siguientes fórmulas:
n+1
Posición de Q1 : ésima observación ordenada
4
2(n + 1) n + 1
Posición de Q2 : = ésima observación ordenada
4 2
3(n + 1)
Posición de Q3 : ésima observación ordenada
4
Ejemplo
Los siguientes datos representan los años de aporte a la caja de previsión, que tienen 25 ingenieros matriculados:
4, 24, 35, 2, 8, 17, 19, 7, 12, 33, 14, 37, 7, 14, 18, 31, 28, 18, 6, 36, 41, 9, 7, 27, 30
Primero se deben ordenar los datos de manera creciente:
Posició 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
n 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5
Observa 2 4 6 7 7 7 8 9 1 1 1 1 1 1 1 2 2 2 3 3 3 3 3 3 4
ción 2 4 4 7 8 8 9 4 7 8 0 1 3 5 6 7 1
A continuación se aplican las fórmulas establecidas previamente para calcular las posiciones o ubicaciones
n +1 25 + 1
Posición de Q1 : ésima observación ordenada = = 6.5
4 4
2(n + 1) n + 1 25 + 1
Posición de Q 2 : = ésima observación ordenada = = 13
4 2 2
3(n + 1) 3(25 + 1)
Posición de Q 3 : ésima observación ordenada = = 19.5
4 4
De acuerdo con estos resultados se obtendrían los siguientes valores para los cuartiles
7+8
Q1 = = 7.5 años
2
Q 2 = 18 años
30 + 31
Q3 = = 30.5 años
2
Como se notará cuando la ubicación del cuartil no corresponde a un valor exacto se procede, al igual que en el caso de
la mediana, a realizar el promedio entre los dos valores ubicados en la posición que encierra la posición calculada del
cuartil.
Así, en el caso considerado, el primer cuartil tiene ubicación 6.5 en el conjunto de observaciones ordenadas por lo que
se toma el promedio entre el valor que está en el sexto y séptimo lugar. De la misma manera se procede para el tercer
cuartil, en este caso se considera el promedio entre la decimonovena y vigésima observación.
Actividad
a) Calcule los cuartiles para la variable “Superficie quemada” ya trabajada en una Actividad anterior.
b) En cada uno de los casos interprete los valores obtenidos.
Deciles
Son nueve valores y dividen a la serie de datos, ordenada de menor a mayor, en 10 partes iguales. Se los denota como
D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 , D9
Se interpretan de la siguiente manera:
D1 deja por debajo de él el 10 % de los datos y por encima el 90 % de la serie y así sucesivamente con los siguientes
deciles. De esta forma el D5 coincide con la mediana.
Percentiles
Son 99 y dividen a la serie de datos, ordenada de menor a mayor, en 100 partes iguales. Se los denota como Pi , con i =
1,2,3,…,99.
La interpretación es la misma que la de los deciles. Para el P1 por ejemplo se interpreta que por debajo del mismo se
encuentra el 1 % de los datos y por encima el 99 % de la serie. En este caso el P50 coincide con la mediana.
Actividad
En un control anual que hace una aseguradora a sus afiliados, resultó la siguiente muestra aleatoria con los valores de
tres mediciones, como se muestra en la tabla:
Presión arterial sistólica Edad Peso Presión arterial sistólica Edad Peso
(PAS, en mmHg) (años) (Kg) (PAS, en mmHg) (años) (Kg)
118 35 89 139 39 85
140 37 76 154 38 86
130 25 77 128 30 81
125 20 71 111 20 75
137 40 89 114 28 80
114 28 80 105 23 75
En las tres variables calcule:
a) los promedios ; b) los cuartiles ; c)los D2 ; d) los P80
MEDIDAS DE DISPERSIÓN
La dispersión de un conjunto de observaciones se refiere a la variabilidad que muestran los valores entre sí. La
magnitud de la dispersión es pequeña cuando los valores son cercanos o parecidos entre sí. Pero, si están
ampliamente esparcidos, la dispersión es mayor. Como medidas de dispersión se tienen: la amplitud o rango, la
desviación estándar y la varianza. Estas se conocen como medidas de variabilidad absoluta. Como medida de
variabilidad relativa se tiene el coeficiente de variación.
Rango o amplitud
Esta medida de variación se define como la diferencia entre el valor más grande y el valor más pequeño de una serie de
datos. Se la denota con la letra R.
R = x max − x min
Donde: xmax es el valor máximo o más grande de los datos
xmin es el valor mínimo o más pequeño de los datos
Su utilidad es limitada ya que solamente depende de los valores extremos y se pueden tener dos series de datos con el
mismo rango pero diferente variabilidad ya que en el centro de la serie los datos se comportan de diferente manera.
Esta situación no es evidenciada por el rango. Su ventaja reside en la simplicidad de su cálculo.
Ejemplo
Se tiene disponible una muestra que se compone de 10 datos (n =10) cuya unidad es años
12 , 28 , 74 , 15 , 3 , 16 , 7 , 58 , 8 , 45
El rango es:
Desviación estándar
En el caso de estar trabajando con los datos de una muestra, el desvío estándar muestral (S) se define
matemáticamente como:
n
∑ ( x − x)
i
2
S= i=1
n −1
Estas expresiones implican: restar la media a cada uno de los valores individuales y a estas diferencias se las eleva al
cuadrado y se suman. Luego a esta suma se divide por la cantidad de datos menos uno.
Para la serie simple dada para calcular el rango en el ejemplo anterior, el desvío estándar es:
S= ∑ ( x i − x )2 =
.......
= .......... . años
n −1 9
Se observa que las unidades en las que se expresa la desviación estándar son las unidades originales de la variable.
Varianza
∑ (x i − x) 2
i =1
S2 =
n−1
S
C .V . = 100
x
La desviación estándar y la media se expresan en las mismas unidades y por lo tanto se obtiene una medida
adimensional que al multiplicarla por cien da el valor en porcentaje.
Ejemplo
Muestra I Muestra II
Peso medio 75 36
Desviación estándar de los pesos 7 7
Si se comparan los valores numéricos resultantes en las desviaciones estándar de las dos muestras referidas, parecería
que éstas presentan la misma variabilidad. Pero si se calculan los C.V. respectivos se obtiene:
Muestra I
Muestra II
Coeficiente de Variación 7 7
C.V. = 100 = 9.3% C.V. = 100 = 19.44%
75 36
Lo que evidencia que la muestra I presenta menor variabilidad que la muestra II.
Actividad
1- En la actividad anterior se presentaron los valores observados en tres variables (PAS, Peso y Edad) con ellos
calcular el coeficiente de variación de cada muestra.
Estadística - Notas de clase - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática – Área Estadística
FBCB / UNL 20 de 29
2- En un artículo sobre el conocimiento que poseen los licenciados en seguridad laboral sobre el cuidado del personal
de plantas industriales químicas, antes y después de participar en un programa educativo teórico–práctico se
presenta la siguiente tabla sobre los valores medios y desviación estándar del puntaje obtenido en el grupo de
licenciados evaluados.
x ±s
(Máximo Posible: 68 Puntos)
Antes (n=45) 38.7 ± 9.3
Después (n=45) 55.0 ± 5.3
¿El puntaje promedio de conocimiento aumentó después de la aplicación del Programa educativo?
¿Qué efecto pudo haber producido el Programa sobre la variabilidad de los puntajes obtenidos?
Una forma de resumir los datos del cuadro es a través de los Gráficos de Barra de error. Estos permiten identificar la
variabilidad de los datos.
El gráfico de barras de error para la variable PAS, presentada en la Actividad anterior es el que se presenta a
continuación:
x + 2s
x − 2s
es posible utilizar una regla que indica el porcentaje de observaciones aproximado que caen en un determinado
intervalo de valores. Esta forma de distribución de datos con forma de campana se presenta frecuentemente en la
naturaleza y es por eso que la aplicación de la regla resulta muchas veces práctica.
Regla empírica
El histograma que se muestra a continuación corresponde al tiempo (en horas) que lleva cada una de los 152 policías
asistiendo a ronda mensual de control de cierta zona bancaria.
Tiempo (horas)
152 casos
¿Es posible aplicar para este conjunto de datos la regla empírica? ¿Por qué?
¿Cuál es el modo de esta variable?
Aproximadamente ¿cuál sería el valor de la mediana?
Aproximadamente ¿cuál sería el valor de la media?
Gráfico de Cajas
Otro gráfico que sirve para representar datos numéricos y es especialmente útil para comparar distribuciones de varios
conjuntos de observaciones, es el gráfico de Cajas.
Este gráfico se basa en los cuartiles. Suministra información sobre los valores mínimo y máximo, los cuartiles (Q1,
Q2 o mediana y Q3), sobre la existencia de valores atípicos y la simetría de la distribución. Es especialmente
útil para comparar distribuciones de varios conjuntos de observaciones.
Ejemplo. Los siguientes datos (ordenados de menor a mayor) corresponden a los tiempos de evacuación, en segundos,
después de un incendio en una determinada fábrica apenas llegan los bomberos.
8, 9, 9, 12, 13, 15, 15, 17, 23, 24, 21, 28, 33, 36, 37, 26, 38, 21, 45, 44, 78
En este caso a1 = 8 y a3 = 44
Solamente tenemos un dato que cae fuera las barreras interiores, en el lado derecho, que es el 78.
Ahora podemos construir el diagrama que nos queda:
Volvamos a los datos, “Tiempo en horas que lleva cada uno de 152 policías asistiendo a ronda mensual de control de
cierta zona bancaria”. Se muestran, ahora, en el siguiente gráfico:
Tiempo (horas) 152 casos
¿Qué se observa?
- En el eje vertical se indica la escala de medición utilizada para los datos, en este caso, “Tiempo en horas que lleva
cada uno de 152 policías asistiendo a ronda mensual de control de cierta zona bancaria”.
- La caja central (el rectángulo más grande) representa a la mitad de las observaciones centrales, está delimitada
por el cuartil inferior y superior.
- La línea del centro representa a la mediana de los datos.
- Las líneas y los puntos por fuera de la caja representan la otra mitad de los datos. La línea inferior, el cuarto de los
datos más chicos. La línea superior y los puntos (en este caso), el cuarto de los datos más grandes.
- Los puntos representan datos que están alejados de la mayoría y son identificados como datos atípicos.
Actividad
a) ¿Qué características de la distribución de los datos se manifiestan en un diagrama de caja?
b) Indicar los cinco números resúmenes: mínimo, cuartil inferior, mediana, cuartil superior, máximo.
c) ¿Hay datos atípicos?
El siguiente diagrama corresponde a la misma variable de antes (“Tiempo en horas que lleva cada uno de 152 policías
asistiendo a ronda mensual de control de cierta zona bancaria”) pero de dos seccionales que atienden a dos zonas
bancarias distintas.
Diagrama de Pareto
El diagrama de Pareto es un gráfico de barras en el cual las frecuencias de las categorías de la variable
aparecen ordenadas según sus frecuencias de mayor a menor, permitiendo identificar rápidamente aquellas que tienen
“mayor peso”, es decir mayor altura.
El principio de Pareto, se conoce también como “regla 80/20”. Vilfredo Pareto (1848-1923) fue un ingeniero
italiano que hizo estudios acerca de la distribución de la riqueza en su país y observó que el 20% de las personas
controlaba el 80% de la riqueza. Esta idea fue tomada por Joseph Jurán (1904-2008) en 1950 y comprobó que se podía
usar en temas relacionados con control de calidad.
Resumiendo, el diagrama de Pareto es una gráfica que permite separar los “pocos vitales” de los “muchos
triviales”. Se usa para identificar gráficamente los aspectos significativos de un problema de los triviales de manera que
un equipo sepa dónde dirigir sus esfuerzos para mejorar. Reducir los problemas más significativos (las barras más
largas en una Gráfica Pareto) servirá más para una mejora general que reducir los más pequeños.
En el diagrama que se muestra a continuación, como ejemplo, observamos que del 100% de los clientes, solo
el 20% de ellos incide sobre el 70% de las ventas, mientras que el 80% de los clientes restantes, solo participa del 30%
que queda.
% 100
20
80
70
60
40 80
20
30
0
Clientes (elementos) Ventas (efecto)
Muchos triviales Pocos Vitales
a) Un efecto cuantificado y medible sobre el que se quiere priorizar (Costos, tiempo, número de errores o defectos,
porcentaje de clientes, etc).
b) Una lista completa de elementos o factores que contribuyen a dicho efecto (tipos de fallos o errores, pasos de un
proceso, tipos de problemas, productos, servicios, etc).
Es importante identificar todos los posibles elementos de contribución al efecto antes de empezar la recogida
de datos. Esta condición evitará que, al final del análisis, la categoría "Varios" resulte ser una de las incluidas en los
"Pocos Vitales".
Paso 3: Cálculo del porcentaje individual y acumulado, de cada elemento de la lista ordenada.
El porcentaje de la contribución de cada elemento, no es más que la frecuencia relativa porcentual y se calcula:
Magnitud de la contribución
Porcentaje de contribución (%) = 100 (%)
Magnitud del efecto total
El porcentaje de contribución acumulado para cada elemento de la lista ordenada. Se calcula sumando de
porcentajes de contribución de cada uno de los elementos anteriores más el correspondiente al elemento en cuestión.
En este caso habrá que tener en cuenta que estos porcentajes, en general, se redondean.
Una vez completado este paso tenemos construida la Tabla de Pareto.
Ejemplo: En una línea de envasado que sufre frecuentes paradas por avería de alguno de los módulos que está
compuesta se plantea la necesidad de cambiar la línea entera, pero como ésta es una inversión muy grande, se va
postergando. Supongamos que luego de tomar datos durante 6 meses, la información obtenida acerca del número de
paradas de la línea se resume en la tabla siguiente.
Elementos contribuyentes:
Rotura hilo
Cinta
Vibrador
Tornillo sin fin
Apelmazamiento
Rotura de saco
Otros
Como se puede observar en el gráfico con sólo dos causas, vibrador y rotura hilo, se acumula el 86% de las
paradas en la línea de envasado. Todo el esfuerzo deberá concentrarse inicialmente en eliminar o controlar estas dos
causas, ignorando, en principio las restantes triviales, que serán consideradas luego.
Siguiendo con el ejemplo planteado, también se relevó el tiempo en horas que duraba la parada en la línea de
producción. Los datos obtenidos se resumen en la tabla siguiente.
Frecuencia absoluta
125 80
80
100 57
60
75
51 40
50
22 20
25 10 8 5 1
0 0
Como se puede observar en el gráfico, en sólo dos causas, vibrador y rotura hilo, se acumula el 80% del tiempo de
paradas en la línea de envasado. Esto coincide con el gráfico anterior. Estas dos causas no sólo son las dos más
frecuentes sino que producen también el mayor porcentaje de tiempo de detención de la línea de envasado.