Notas de Clase Descriptiva 2015

Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática – Área Estadística

FBCB / UNL 1 de 29
ESTADÍSTICA
NOTAS DE CLASE 2015
Material elaborado por docentes del Área Estadística del Dpto. de Matemática de la ESS – FBCB - UNL
Estadística - Notas de clase - 2015

FBCB / UNL 2 de 29
NOTAS DE CLASES
INTRODUCCIÓN
La Estadística podría definirse como la ciencia que se ocupa de la recolección de los datos referidos a un fenómeno o
hecho en particular, su ordenamiento, presentación y resumen para su análisis e interpretación y dar una guía de
acciones para la toma de decisiones en situaciones prácticas, que entrañan incertidumbre. Abarca, entonces dos
campos de acción, denominados Estadística Descriptiva y Estadística Inferencial.
La Estadística aplicada a la Licenciatura en Seguridad y Salud Ocupacional, analiza conjuntos de datos como:
tiempo de evacuación en el que se realizan los simulacros, volumen de agua requerido en incendios con características
similares, temperatura en los meses de verano, números de empleados que han sufrido accidentes laborales, etc. y
trata de extraer conclusiones sobre lo observado.
DEFINICIONES DE CONCEPTOS FUNDAMENTALES
Individuo o unidad experimental: persona u objeto sobre quien se va a observar algo. A veces la unidad experimental
no tiene forma física real. Por ejemplo si se observa el “tiempo que tarda en ocurrir una reacción química” la unidad
experimental sería la vez que se repite la reacción.
Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes.

Ejemplos:
- Todos los empleados de una fábrica
- Producción diaria en una industria
- Pago del seguro por accidente laboral que debe enfrentar una aseguradora
Muestra: subconjunto de individuos o unidades experimentales seleccionado de una población y que es representativo
de la misma.
Ejemplos:
- 10 repeticiones de una reacción química
- 20 empleados seleccionados de una industria
- 30 controles de niveles de CO en aire
Muestra
Unidad Experimental
Población
FBCB / UNL 3 de 29
En relación al tamaño de la población, ésta puede ser:

• Finita: Empleados actuales del departamento compras de una empresa.
• Infinita: Niños que nacen en un Servicio de Maternidad.
Actividad
De 2 ejemplos de Población:
De 2 ejemplos de Muestra:
Censo: cuando se observa una característica en toda una población se habla de realizar un censo.
Variables: cada vez que se observa una característica en una unidad experimental se genera una respuesta. A esa
respuesta, en Estadística, se la llama Variable, pues al cambiar de unidad experimental cambia la respuesta.
Estas pueden ser clasificadas en:
a) Variable cualitativa: la respuesta no se puede expresar numéricamente porque es un atributo o cualidad; por
ejemplo: nacionalidad (respuesta: argentina, brasilera,…), grupo sanguíneo (respuesta: A, 0, B, AB), género
(respuesta: masculino, femenino).
Esta variable puede ser:
Nominal: sus valores posibles de respuesta se refieren a una cualidad que la unidad experimental posee o no
posee. Por ejemplo: todos los enunciados anteriormente.
Ordinal: sus posibles valores de respuesta se encuentran jerarquizados (con un orden de importancia). Por ejemplo:
cargo que ocupan los empleados de una institución (respuesta: presidente, gerente, administrativo, obrero), nivel
educativo alcanzado por los empleados de una fábrica (respuesta: primaria secundaria, terciario, universitario).
b) Variable cuantitativa: la respuesta es un valor numérico y se obtienen de medir o contar; por ejemplo: edad,
número de afiliados en un sindicato, cantidad de hijos de los empleados de una fábrica, tiempo de licencia por
enfermedad que toman los empleados por año.
Esta variable puede ser:
Discreta: sólo puede tomar valores enteros (respuesta: 1, 2, 8,….). Por ejemplo: cantidad de hijos (respuesta: 0, 1,
2,….), número de profesionales que asistieron a trabajar en un día cualquiera a un Centro gubernamental (0, 1,
2,…).
Continua: puede tomar cualquier valor dentro de un intervalo. Por ejemplo: ingresos anuales por cuotas de afiliados
a una aseguradora (respuesta: [0,∞)).

FBCB / UNL 4 de 29
Notación:
Generalmente, para denotar una variable se utilizan letras mayúsculas imprenta como X, Y, Z.
Por ejemplo: X = “edad del afiliado” ; Y = “genero” ; Z = “tiempo de licencia (días)”
Cada resultado de la variable se simboliza con la misma letra pero en minúscula. Por ejemplo:
Un valor posible de la variable X = “edad del paciente” sería x = 35 años.
Un valor posible de la variable Y = “genero” sería y = masculino.
Un posible valor de la variable Z = “tiempo de licencia” sería z = 7 días.
Actividad
Clasifique las siguientes variables y enuncie sus posibles respuestas:

1- Se observa si un grupo de oficinas públicas cuentan con la iluminación adecuada para trabajar (según
reglamentación).
2- Se observa si un grupo de laboratorios químicos tienen el número de extintores requerido según disposiciones de
seguridad.
3- Consumo mensual de gas natural en un hospital
4- Cantidad de lesionados por año en una mega construcción
5- Tiempo de ignición de muestras de cierto material orgánico
6- Niveles de cadmio en orina medidos en obreros de una industria de extracción de cadmio a partir de sus residuos
7- Estadio de la beriliosis (intoxicación crónica con berilio con tres instancias de gravedad) en el que se encuentran un
grupo de ex obreros de la industria nuclear, que han iniciado demanda por afección laboral
INTERPRETACIÓN DE LA INFORMACIÓN
Una vez recolectados los datos estos pueden ser organizados en tablas o gráficos, de manera tal de agilizar la
obtención de la información que ellos poseen.
La elección de la herramienta a usar depende del tipo de dato que se tenga.
Datos cualitativos
Ejemplo
Considere los siguientes datos sobre el tipo de problemas de salud que manifiestan o aquejan a los empleados de
casinos en Argentina H: hinchazón de pies (o pierna), F: fatiga, E: dolor de espalda, C: dolor cabeza, T: tos, I: irritación
de ojos, O: otro). Los datos recolectados de una muestra de empleados resultaron ser los siguientes:
H H F E C T I O I I I I
F E C T I O T I O H H F
C T I O I I I T I O T I
H F E C T I O I I I I F
H H F E C T I O I I I I
H F E C T I T I O H H F

FBCB / UNL 5 de 29
Actividad
Para ordenar esta información se realizan las siguientes preguntas:
1) Identificar el tamaño de la muestra o la cantidad consultas recolectadas. n=
2) ¿Cuál sería la población estudiada?
3) Identificar la variable observada, clasificarla:
4) Resumir en la siguiente tabla la información obtenida. Este tipo de tablas se denominan Tablas de frecuencias.
Cantidad de personas con un Porcentaje de personas con un
Problema que le aqueja
mismo problema (fa) mismo problema (fr)
H: hinchazón de pies y piernas
E: dolor de espalda
F: fatiga
C: dolor de cabeza
T: tos
I: irritación de ojos
O: otros
Total
5) Realizar un comentario.
El gráfico que mejor representaría a estos es un Gráfico de Torta o Sectores (es útil cuando se trabaja con variables
cualitativas que no tienen mas de 6 o 7 categorías) o un Gráfico de barra. Este último se construye en dos ejes,
generalmente, en el eje horizontal se detallan las categorías de la variable en las que aparece una barra o línea y en el
vertical se pone, en escala, la frecuencia absoluta o la porcentual.
Actividad
Confeccione un gráfico de Torta y otro de Barra para estos datos. (Un detalle importante es que cuando los datos son
cualitativos las barras del Gráfico de Barra NO deben tocarse).
Gráfico de Torta Gráfico de Barra

FBCB / UNL 6 de 29
Datos cuantitativos discretos

Ejemplo
La siguiente información resume los datos obtenidos al evaluar el número de personas en una oficina gubernamental de
30m2. En este estudio se está interesado en determinar en qué grado se respeta en las oficinas públicas del gobierno la
normativa de no haber más de una persona cada 5m2. Los datos relevados se presentan en la siguiente tabla de
frecuencias:
Nro de PERSONAS
en oficinas de 30m2 Frecuencia Porcentaje
2 1 0,3
3 31 10,1
4 33 10,8
5 133 43,5
6 61 19,9
7 21 6,9
8 26 8,5
Total 306 100,0
Actividad
1- ¿Qué cantidad de oficinas fueron incluidas en la muestra?
2- ¿Cuántas oficinas superan esta normativa?
3- ¿Cuántas oficinas tienen el máximo de personas permitido?
El gráfico de barras asociado a la tabla de frecuencias dada se presenta a continuación:

Número de personas por oficina gubernamental de 30m2 (n=306)
140 133
120
100
Frecuencia
80
61
60
40 31 33
21 26
20
1
0
2 3 4 5 6 7 8
Nro de personas por oficina
En este tipo de gráfico, el ancho de las barras es arbitrario, lo único que hay que considerar es que todas tengan el
mismo ancho y que estén separadas todas con igual distancia. Tal es así, que las barras se pueden “afinar” hasta
convertirlas en una línea; en este caso el gráfico resultante se llama “de bastones” y el gráfico correspondiente al
ejemplo quedaría de la siguiente manera:

FBCB / UNL 7 de 29
133
140
120
100
Frecuencia
80
61
60
31 33
40 26
21
20
1
0
2 3 4 5 6 7 8
Nro de personas por oficina
Datos cuantitativos continuos

Ejemplo
Los datos que se presentan a continuación son las edades actuales (en años) de 70 hombres que han solicitado un
seguro de vida con capital acumulativo y que todavía no han retirado el capital de ahorro.
66 74 75 69 65 63 60 62 64 73
67 63 74 73 69 68 75 71 70 67
64 71 55 60 60 76 75 63 65 60
57 67 59 74 62 77 71 73 80 52
67 67 69 54 65 62 73 64 71 53
75 59 56 65 66 58 60 63 80 83
65 69 74 59 65 73 81 65 71 61
Para hacer una “tabla de distribución de frecuencias se divide al conjunto de datos en “clases” (es decir agrupar los
valores en intervalos, por ejemplo valores que van de 50 a 55, de 55 a 60, …) y luego contar cuántas observaciones
pertenecen a cada una de ellas.
Existen diferentes criterios que orientan respecto de este número, si bien es recomendable que varíe entre 5 y 15;
porque si son menos de 5 clases, al agrupar tanto se pierde mucha información y si son más de 15, porque al dividir en
tantas partes el conjunto de datos deja de ser práctico y se pierde la capacidad de leer la información contenida en las
observaciones. Uno de estos criterios es hacer tantos intervalos como resulta de calcular n .
Las clases o intervalos de clase es conveniente que sean de igual longitud y que se definan de manera tal que no haya
dudas respecto a si un valor observado pertenece a una u otra clase y todos los datos deben pertenecer a alguna de
ellas. Esto último, en términos de Estadística, sería:
“Las clases o intervalos de clase en una tabla de distribución de frecuencias deben se mutuamente
excluyentes (cada dato cae en una y sólo una clase) y exhaustiva, es decir, todos los datos deben pertenecer a una
clase”.
Para determinar la amplitud de los intervalos de clases, se debe calcular el rango, que es la diferencia entre el valor
máximo y mínimo observados.
En este caso los valores máximo y mínimo observados son: 83 y 52 años respectivamente, entonces,
Rango = 83 – 52 = 31 años.
Como se quiere que ningún dato observado quede fuera, se propone un rango ficticio, es decir el valor máximo debe
ser mayor que el observado y el valor mínimo debe ser menor al observado, por ejemplo 85 y 50 años respectivamente.

FBCB / UNL 8 de 29
El nuevo rango es: 85 – 50 = 35 años

A este valor se lo divide en intervalos de igual longitud, por ejemplo en 7 intervalos de longitud 5 cada uno, que quedan
de la siguiente forma:
50 a 55; 55 a 60; 60 a 65, 65 a 70; 70 a 75; 75 a 80; 80 a 85
Al observar los intervalos que quedaron, se ve que el primero, por ejemplo termina en 55 y el segundo empieza en 55.
Si se tiene un individuo con 55 años, ¿a qué intervalo corresponde?
Aquí hay que tomar una decisión respecto a cómo vamos a contar. Una opción sería que el 55 pertenezca al primer
intervalo y no al segundo.
Usando esta regla, 60 pertenece al segundo, 65 al tercero, 70 al cuarto, …, es decir, los intervalos no incluyen el
extremo inferior pero sí el extremo superior, 50 a ≤ 55. En este caso se dice que los intervalos son “abiertos por
izquierda y cerrados por derecha. En símbolos ( 50 ; 55].
Si se elige la regla al revés, el extremo inferior pertenece al intervalo y el superior no, decimos que son “cerrados por
izquierda y abiertos por derecha”.
En la tabla siguiente se presentan las 7 clases numeradas de 1 a 7, con sus respectivos límites.
Al igual que cuando estudiamos las variables cualitativas, estamos en condiciones de medir con qué frecuencia
aparece cada clase.
Si al número de veces que aparece cada clase, frecuencia, lo dividimos por el número total de datos, surge la
frecuencia relativa.
Si a la frecuencia relativa la multiplicamos por 100, surge la frecuencia relativa porcentual.
En la tabla mencionada, también están las columnas pertenecientes a frecuencia, frecuencia relativa y frecuencia
relativa porcentual
Actividad

FBCB / UNL 9 de 29
Completar la tabla tomando como guía el primer renglón resuelto.

Límites de la Frecuencia Frecuencia
Clase Cuenta Frecuencia
clase relativa Relativa (%)
1 51 a ≤
2
3
4
5
6
7
Cuando la variable es cuantitativa, como en este ejemplo, el gráfico que se usa para su representación se denomina
Histograma. Consiste en una serie de rectángulos de igual base, sin espacios entre ellos.
La variable observada se representa en un eje (horizontal o vertical) y se señalan intervalos de valores que van a
conformar el ancho de los rectángulos. En el otro eje se pueden expresar las frecuencias absolutas de casos
observados en cada uno de esos intervalos de valores.
Un histograma correspondiente al ejemplo es:

20 18
18 17
16
14 13
Frecuencia
12 11
10
8
6 5
4
4 2
2
0
50-55 55-60 60-65 65-70 70-75 75-80 80-85
Edad (años)
Actividad
Construya la tabla de frecuencias correspondiente al histograma presentado arriba
Si quisiéramos construir un histograma de frecuencias relativas, lo único que cambia es que la altura del rectángulo
correspondiente a cada clase es de una longitud igual a la frecuencia relativa. El histograma correspondiente queda:

FBCB / UNL 10 de 29
0.30
0.26
0.24
0.25
Frecuencia Relativa
0.20 0.19
0.16
0.15
0.10 0.07
0.06
0.05 0.03
0.00
50-55 55-60 60-65 65-70 70-75 75-80 80-85
Edad (años)
A veces, en lugar de colocar en el eje x los valores extremos de cada clase, se coloca lo que se denomina Marca de
Clase (Xm) que es el promedio de cada clase.
A estos histogramas se les puede anexar un Polígono de frecuencias

Para hacer este gráfico, se agregan dos intervalos de clase a los que ya se tienen, uno al principio y otro al final, en
este caso se agregaría el intervalo 45 a 50 y 85 a 90. Como ambos no se observaron, le corresponde a cada uno de
ellos frecuencia cero.
En el problema que se está analizando, quedaría:
Frecuencia
Clase Límites de la clase Marca de clase
absoluta
45 a ≤ 50 47.5 0
1 50 a ≤ 55 52.5 4
2 55 a ≤ 60 57.2 11
3 60 a ≤ 65 62.5 17
4 65 a ≤ 70 67.5 13
5 70 a ≤ 75 72.5 18
6 75 a ≤ 80 77.5 5
7 80 a ≤ 85 82.5 2
85 a ≤ 90 87.5 0
El polígono de frecuencias queda así:

20
18
17
18
16
13
14
11
Frecuencia
12
10
8
6 5
4
4 2
2 0
0
0
45-50 50-55 55-60 60-65 65-70 70-75 75-80 80-85 85-90
Edad (años)
Si se lo construye solo, es decir, sin el histograma, hubiese quedado:

FBCB / UNL 11 de 29
20
18
18 17
16
14
Frecuencia
12 11 13
10
8
5
6
4
4 2
2 0 0
0
45 50 55 60 65 70 75 80 85 90
Edad (años)
OTROS GRÁFICOS Y TABLAS ÚTILES
Gráfico de barras comparativo

Permite representar datos de una variable agrupada en categorías de otra variable.
Para construirlo es necesario organizar los datos en una tabla de doble entrada que se conoce con el nombre de “Tabla
de Contingencia”.
Ejemplo
En la tabla de contingencia que se presenta a continuación se muestra el carácter observado por los psicólogos
sociolaborales en un grupo de postulantes a puestos de gerente para empresas agrupados de acuerdo al sexo de los
postulantes:
Sexo
Carácter Total
Varón Mujer
Fuerte 62 37
Moderado 67 63
Leve 19 48
Total
En general, el objetivo de este gráfico es comparar el comportamiento conjunto de las variables observadas. Si los
grupos a comparar tienen diferente tamaño, el gráfico debe hacerse considerando frecuencias en porcentaje.
Como la información se presenta en una tabla de doble entrada, surgen dos gráficos que dependen de la variable de
agrupación que se considere.
En el ejemplo que se está analizando, si se agrupan los tipos de carácter según el sexo, surge:
100
%
80
60 45
42 43
40 32
25
20 13
0
Varón Mujer
Sexo
Fuerte Moderado Leve
Si se considera el sexo en cada uno de los tipos de carácter se obtiene:

FBCB / UNL 12 de 29
% 100
80 72
63
60 52 48
37
40 28
20
0
Fuerte Moderado Leve
Carácter
Varón Mujer
Actividad
1- Indique el total de personas entrevistadas: ……………………………………………………………………
2- Indique para cada tipo de carácter el género predominante: ……………………………………………….
………………………………………………………………………………………………………………………
3- Indique para cada sexo el tipo de carácter predominante: …………………………………………………
Grafico de línea
Permite analizar el comportamiento de una variable evaluada a lo largo del tiempo.
Ejemplo
Se analiza un registro de accidentes laborales por semestre en una empresa constructora que tiene a cargo una
megaconstrucción civil. El gráfico muestra la síntesis de los resultados.
25
Nro de accidentes
20
15
10
0
0 1 2 3 4 5 6 7 8 9 10
Semestres
Actividad
1- ¿Cuántos accidentes hubo en el primer semestre y en el último?
2- ¿Observa alguna tendencia de crecimiento o decrecimiento? ¿Podría asociarla a algún cambio realizado en
términos del problema?

FBCB / UNL 13 de 29
MEDIDAS DE POSICIÓN Y DISPERSIÓN
El objetivo de la Estadística Descriptiva es presentar de manera resumida la información contenida en un conjunto de

datos. Esta finalidad se logra presentando los datos en tablas, gráficos, como ya se describiera anteriormente o bien
mediante medidas o valores que proporcionan alguna información sobre diferentes aspectos y características de la
serie de datos. Estas medidas descriptivas se denominan en general medidas de resumen y se pueden calcular a partir
de los datos de una muestra o de los datos de una población. Para distinguirlas entre sí se tienen las siguientes
definiciones:
1. Una medida descriptiva calculada a partir de los datos de una muestra se llama Estadístico.
2. Una medida descriptiva calculada a partir de los datos de una población se llama Parámetro.
Además se pueden considerar diferentes tipos de medidas de resumen. Entre ellas se tienen, por ejemplo:
las de posición: la información indica el valor existente en algún punto de la serie.

las de variabilidad: es el caso en el que se trata de proporcionar una idea acerca de la dispersión de los datos.
MEDIDAS DE POSICIÓN
Dentro de ellas se encuentran las medidas de tendencia central que se denominan así porque indican la ubicación del
centro del conjunto de datos. De acuerdo al criterio usado para determinar el centro, las tres medidas de tendencia
central de uso más frecuente son: la media aritmética, la mediana y el modo.
Media aritmética
Es la medida de tendencia central más conocida. La mayoría de la gente tiene en mente esta medida cuando se habla
de promedio. Se obtiene sumando todos los valores obtenidos de una población o muestra y se divide entre el número
de valores sumados.
n
∑ xi
x= i =1
n
En este caso se tiene:
xi donde el subíndice “ i “ varía de 1 a n, cantidad de datos.
Ejemplo
Se tiene disponible una muestra que se compone de 10 (n =10) y los datos son los años de antigüedad de empleados
elegidos al azar de un organismo gubernamental.
Xi Valor
FBCB / UNL 14 de 29
x1 10
x2 20
x3 24
x4 12
x5 25
x6 23
x7 14
x8 15
x9 18
x10 9
Entonces:
10
∑x i
10 + 20 + 24 + 12 + 25 + 23 + 14 + 15 + 18 + 9 170
x= i=1
= = = 17 años
10 10 10
La media aritmética tiene las siguientes propiedades:
Es única. Para un conjunto de datos hay una y sólo una media aritmética.
Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.
Es sensible a los valores extremos. Como todos los valores del conjunto de datos se consideran en el cálculo
de la media, ésta resulta muy afectada por los valores extremos que influyen sobre la misma y que en algunos
casos pueden distorsionarla y por lo tanto no resulta una medida apropiada de tendencia central.
Actividad
Una central chica de bomberos lleva un registro de la superficie quemada en los incendios en los que intervienen (en
m2). Los datos se muestran en la tabla:
22.8 15.3
22.7 19.3
25.6 17.5
21.2 21.2
25.9 20.3
23.9 14.3
22.9 18.3
19.5 16.7
26.2 22.1
25.2 17.3
a) Estos datos, ¿corresponden a una muestra o a una población?

b) Calcular la superficie promedio quemadas en los incendios registrados
Mediana
Es aquel valor de la variable que divide al conjunto de datos, ordenado en forma creciente, en dos partes iguales. De
manera tal que el número de datos mayor o igual a la mediana es igual al número de datos menores o iguales a ésta.
FBCB / UNL 15 de 29
- Si el número de valores es impar, la mediana es el valor ubicado en el centro.

- Si el número de valores es par, entonces la mediana corresponde a la media aritmética de los dos valores
centrales.
Ejemplo (n impar)
Calcular la mediana en la siguiente serie de datos que corresponde a años de antigüedad de 7 empleados
23 , 12 , 14 , 21 , 7, 29 , 24
En primer término se ordenan de manera creciente los datos de la serie
7, 12, 14, 21, 23, 24, 29
Entonces la mediana que se denota ( ~
x ) es:
Ejemplo 3 (n par)
Calcular la mediana en la siguiente serie de datos que corresponde a años de antigüedad de 6 empleados
23 , 12 , 14 , 22 , 7, 26
En primer término se ordenan de manera creciente los datos de la serie
7, 12, 14, 22, 23, 26
Entonces la mediana en este caso va a ser la media aritmética entre los dos valores centrales (….. y ……). Por lo tanto
es:
Modo
Es aquel valor que ocurre con mayor frecuencia. Si todos los valores son diferentes, se dice que la serie no tiene modo.
Por otro lado, puede ocurrir que haya más de un modo.
El modo se puede utilizar para describir datos cualitativos.
Ejemplo
Calcular el modo en la siguiente serie de datos que corresponde a los días de licencia que se han tomado, al año, 9
empleados de una empresa.
23 , 12 , 14 , 21 , 7, 32 , 24, 21, 21
En este caso el Modo (que se denota como Mo) sería ………………….
Actividad
Calcule la mediana y el modo de la variable “Superficie quemada” contemplada en el ejercicio de la Actividad anterior.
OTRAS MEDIDAS DE POSICIÓN

Otras medidas de posición, pero no de tendencia central, son los cuartiles, deciles y percentiles.
Cuartiles

FBCB / UNL 16 de 29
Son tres: primer cuartil (Q1), segundo cuartil (Q2) y tercer cuartil (Q3). Estos son valores de la variable observada que
dividen al conjunto de datos, después de haber sido ordenados de forma creciente, en 4 partes iguales de manera tal
que:
Por debajo de Q1 se encuentra el 25 % de los datos y por arriba del mismo el 75 % de la serie.
Por debajo de Q2 se encuentra el 50 % de los datos y por arriba del mismo el otro 50 % de la serie. Es decir Q2
coincide con la mediana.
Q3 deja por debajo del mismo el 75 % de los datos y por arriba de él queda el 25 % de la serie.
Cuando se quiere calcular las posiciones o ubicaciones de los cuartiles para los datos no agrupados, se utilizan las
siguientes fórmulas:
n+1
Posición de Q1 : ésima observación ordenada
4
2(n + 1) n + 1
Posición de Q2 : = ésima observación ordenada
4 2
3(n + 1)
Posición de Q3 : ésima observación ordenada
4
Ejemplo
Los siguientes datos representan los años de aporte a la caja de previsión, que tienen 25 ingenieros matriculados:
4, 24, 35, 2, 8, 17, 19, 7, 12, 33, 14, 37, 7, 14, 18, 31, 28, 18, 6, 36, 41, 9, 7, 27, 30
Primero se deben ordenar los datos de manera creciente:
Posició 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
n 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5
Observa 2 4 6 7 7 7 8 9 1 1 1 1 1 1 1 2 2 2 3 3 3 3 3 3 4
ción 2 4 4 7 8 8 9 4 7 8 0 1 3 5 6 7 1
A continuación se aplican las fórmulas establecidas previamente para calcular las posiciones o ubicaciones
n +1 25 + 1
Posición de Q1 : ésima observación ordenada = = 6.5
4 4
2(n + 1) n + 1 25 + 1
Posición de Q 2 : = ésima observación ordenada = = 13
4 2 2
3(n + 1) 3(25 + 1)
Posición de Q 3 : ésima observación ordenada = = 19.5
4 4
De acuerdo con estos resultados se obtendrían los siguientes valores para los cuartiles
7+8
Q1 = = 7.5 años
2
Q 2 = 18 años
30 + 31
Q3 = = 30.5 años
2
Como se notará cuando la ubicación del cuartil no corresponde a un valor exacto se procede, al igual que en el caso de
la mediana, a realizar el promedio entre los dos valores ubicados en la posición que encierra la posición calculada del
cuartil.

FBCB / UNL 17 de 29
Así, en el caso considerado, el primer cuartil tiene ubicación 6.5 en el conjunto de observaciones ordenadas por lo que
se toma el promedio entre el valor que está en el sexto y séptimo lugar. De la misma manera se procede para el tercer
cuartil, en este caso se considera el promedio entre la decimonovena y vigésima observación.
Actividad
a) Calcule los cuartiles para la variable “Superficie quemada” ya trabajada en una Actividad anterior.
b) En cada uno de los casos interprete los valores obtenidos.
Deciles
Son nueve valores y dividen a la serie de datos, ordenada de menor a mayor, en 10 partes iguales. Se los denota como
D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 , D9
Se interpretan de la siguiente manera:
D1 deja por debajo de él el 10 % de los datos y por encima el 90 % de la serie y así sucesivamente con los siguientes
deciles. De esta forma el D5 coincide con la mediana.
Percentiles
Son 99 y dividen a la serie de datos, ordenada de menor a mayor, en 100 partes iguales. Se los denota como Pi , con i =
1,2,3,…,99.
La interpretación es la misma que la de los deciles. Para el P1 por ejemplo se interpreta que por debajo del mismo se
encuentra el 1 % de los datos y por encima el 99 % de la serie. En este caso el P50 coincide con la mediana.
Actividad
En un control anual que hace una aseguradora a sus afiliados, resultó la siguiente muestra aleatoria con los valores de
tres mediciones, como se muestra en la tabla:
Presión arterial sistólica Edad Peso Presión arterial sistólica Edad Peso
(PAS, en mmHg) (años) (Kg) (PAS, en mmHg) (años) (Kg)
118 35 89 139 39 85
140 37 76 154 38 86
130 25 77 128 30 81
125 20 71 111 20 75
137 40 89 114 28 80
114 28 80 105 23 75
En las tres variables calcule:
a) los promedios ; b) los cuartiles ; c)los D2 ; d) los P80

FBCB / UNL 18 de 29
MEDIDAS DE DISPERSIÓN
La dispersión de un conjunto de observaciones se refiere a la variabilidad que muestran los valores entre sí. La
magnitud de la dispersión es pequeña cuando los valores son cercanos o parecidos entre sí. Pero, si están
ampliamente esparcidos, la dispersión es mayor. Como medidas de dispersión se tienen: la amplitud o rango, la
desviación estándar y la varianza. Estas se conocen como medidas de variabilidad absoluta. Como medida de
variabilidad relativa se tiene el coeficiente de variación.
Rango o amplitud
Esta medida de variación se define como la diferencia entre el valor más grande y el valor más pequeño de una serie de
datos. Se la denota con la letra R.
R = x max − x min
Donde: xmax es el valor máximo o más grande de los datos
xmin es el valor mínimo o más pequeño de los datos
Su utilidad es limitada ya que solamente depende de los valores extremos y se pueden tener dos series de datos con el
mismo rango pero diferente variabilidad ya que en el centro de la serie los datos se comportan de diferente manera.
Esta situación no es evidenciada por el rango. Su ventaja reside en la simplicidad de su cálculo.
Ejemplo
Se tiene disponible una muestra que se compone de 10 datos (n =10) cuya unidad es años
12 , 28 , 74 , 15 , 3 , 16 , 7 , 58 , 8 , 45
El rango es:
Desviación estándar
En el caso de estar trabajando con los datos de una muestra, el desvío estándar muestral (S) se define
matemáticamente como:
n
∑ ( x − x)
i
2
S= i=1
n −1
Estas expresiones implican: restar la media a cada uno de los valores individuales y a estas diferencias se las eleva al
cuadrado y se suman. Luego a esta suma se divide por la cantidad de datos menos uno.
Para la serie simple dada para calcular el rango en el ejemplo anterior, el desvío estándar es:
S= ∑ ( x i − x )2 =
.......
= .......... . años
n −1 9

FBCB / UNL 19 de 29
Se observa que las unidades en las que se expresa la desviación estándar son las unidades originales de la variable.
Varianza
En la muestra este cálculo se realiza de la siguiente manera:

n
∑ (x i − x) 2
i =1
S2 =
n−1
Coeficiente de variación (CV)

Cuando se quiere comparar la variabilidad de dos o más conjuntos de datos, la comparación directa de las dos
desviaciones estándar puede dar resultados equivocados. Esto ocurre si las dos variables involucradas tienen medidas
en diferentes unidades (por ejemplo si se comparan estatura y peso) o si utilizando las mismas unidades de medición,
las dos medias pueden ser diferentes (por ejemplo si se comparan pesos de niños y de adultos). En estos casos se
necesita de una medida que exprese la desviación estándar como porcentaje de la media. La expresión es como sigue:
S
C .V . = 100
x
La desviación estándar y la media se expresan en las mismas unidades y por lo tanto se obtiene una medida
adimensional que al multiplicarla por cien da el valor en porcentaje.
Ejemplo
Muestra I Muestra II
Peso medio 75 36
Desviación estándar de los pesos 7 7
Si se comparan los valores numéricos resultantes en las desviaciones estándar de las dos muestras referidas, parecería
que éstas presentan la misma variabilidad. Pero si se calculan los C.V. respectivos se obtiene:
Muestra I
Muestra II
Coeficiente de Variación 7 7
C.V. = 100 = 9.3% C.V. = 100 = 19.44%
75 36
Lo que evidencia que la muestra I presenta menor variabilidad que la muestra II.
Actividad
1- En la actividad anterior se presentaron los valores observados en tres variables (PAS, Peso y Edad) con ellos
calcular el coeficiente de variación de cada muestra.
FBCB / UNL 20 de 29
2- En un artículo sobre el conocimiento que poseen los licenciados en seguridad laboral sobre el cuidado del personal
de plantas industriales químicas, antes y después de participar en un programa educativo teórico–práctico se
presenta la siguiente tabla sobre los valores medios y desviación estándar del puntaje obtenido en el grupo de
licenciados evaluados.
x ±s
(Máximo Posible: 68 Puntos)
Antes (n=45) 38.7 ± 9.3
Después (n=45) 55.0 ± 5.3
¿El puntaje promedio de conocimiento aumentó después de la aplicación del Programa educativo?
¿Qué efecto pudo haber producido el Programa sobre la variabilidad de los puntajes obtenidos?
GRÁFICOS PARA REPRESENTAR MEDIDAS RESÚMENES
Una forma de resumir los datos del cuadro es a través de los Gráficos de Barra de error. Estos permiten identificar la
variabilidad de los datos.
Gráfico de Barra de error

La estructura del gráfico se basa en un punto central que identifica el valor de la media, el cual se ubica en una línea
vertical; mientras que la longitud de la línea (barra de error) indica un número específico de desviaciones estándares (s,
2⋅s ó 3⋅s) o bien de errores estándares que definiremos luego.
Pasos para construirlo:
1. Calcular la media y el desvío estándar de un conjunto de datos.
2. Dibujar una línea, vertical u horizontal, con la escala de la variable y en ella ubicar un punto que toma el valor de la
media. A ambos lados del punto, se extienden barras hasta llegar a los valores de escala resultantes de sumar y
restarle a la media uno o dos desvío estándar.
El gráfico de barras de error para la variable PAS, presentada en la Actividad anterior es el que se presenta a
continuación:

FBCB / UNL 21 de 29
x + 2s
x − 2s
Una aplicación de la desviación estándar

Cuando los datos se concentran de manera que sea posible suponer que provienen de una distribución con la
siguiente forma de campana (conocida como distribución normal)
es posible utilizar una regla que indica el porcentaje de observaciones aproximado que caen en un determinado
intervalo de valores. Esta forma de distribución de datos con forma de campana se presenta frecuentemente en la
naturaleza y es por eso que la aplicación de la regla resulta muchas veces práctica.
Regla empírica
Si la distribución de mediciones tiene una forma aproximada de campana:

El intervalo x ± s contiene aproximadamente 68% de las mediciones
El intervalo x ± 2s contiene aproximadamente 95% de las mediciones
El intervalo x ± 3s contiene a todas o casi todas las mediciones (99%)
________________________________________________________________________________________
Actividad
FBCB / UNL 22 de 29
El histograma que se muestra a continuación corresponde al tiempo (en horas) que lleva cada una de los 152 policías
asistiendo a ronda mensual de control de cierta zona bancaria.
Tiempo (horas)
152 casos
¿Es posible aplicar para este conjunto de datos la regla empírica? ¿Por qué?
¿Cuál es el modo de esta variable?
Aproximadamente ¿cuál sería el valor de la mediana?
Aproximadamente ¿cuál sería el valor de la media?
Gráfico de Cajas
Otro gráfico que sirve para representar datos numéricos y es especialmente útil para comparar distribuciones de varios
conjuntos de observaciones, es el gráfico de Cajas.
Este gráfico se basa en los cuartiles. Suministra información sobre los valores mínimo y máximo, los cuartiles (Q1,
Q2 o mediana y Q3), sobre la existencia de valores atípicos y la simetría de la distribución. Es especialmente
útil para comparar distribuciones de varios conjuntos de observaciones.
Para construir un diagrama de caja seguimos los siguientes pasos:
1. Construimos una escala de referencia (horizontal o vertical).

2. Calculamos los cuartiles (Q1, Q2 y Q3) y el rango intercuartílico (RI = Q3 - Q1).
3. Calculamos dos valores f1 y f3 que llamaremos barreras interiores, de la siguiente manera:
f1= Q1 – 1,5 RI y f3 = Q3 + 1,5 RI

FBCB / UNL 23 de 29
4. Identificamos en el conjunto de datos los valores a1 y a3 que llamaremos valores adyacentes.

El punto a1 es el dato más cercano a f1 sin ser menor que él.
El punto a3 es el dato más cercano a f3 sin ser mayor que él.
5. Localizamos todos los puntos (Q1, Q2 y Q3, f1, f2, a1 y a3) en la escala horizontal o vertical, según hayamos
elegido.
6. Dibujamos una caja con los extremos en el primer y tercer cuartil. Marcamos la mediana (Q2) con una línea
interior en el lugar adecuado.
7. Unimos los valores adyacentes a la caja por medio de líneas, generando así los “bigotes” de la caja.
8. Si existen datos que queden fuera de las barreras interiores, los dibujamos con círculos abiertos. A estos datos los
conocemos como datos atípicos.
Ejemplo. Los siguientes datos (ordenados de menor a mayor) corresponden a los tiempos de evacuación, en segundos,
después de un incendio en una determinada fábrica apenas llegan los bomberos.
8, 9, 9, 12, 13, 15, 15, 17, 23, 24, 21, 28, 33, 36, 37, 26, 38, 21, 45, 44, 78
Calculamos los cuartiles, que para estos datos son:
Q1=14, Q2=23, Q3= 36;
El rango intercuatílico es RI= Q3 – Q1 = 36 – 14 = 22.
Las barreras interiores son:
f1 = 14 - 1.5 (22) = -19, f3= 36 + 1.5 (22) = 69
En este caso a1 = 8 y a3 = 44
Solamente tenemos un dato que cae fuera las barreras interiores, en el lado derecho, que es el 78.
Ahora podemos construir el diagrama que nos queda:

FBCB / UNL 24 de 29
Volvamos a los datos, “Tiempo en horas que lleva cada uno de 152 policías asistiendo a ronda mensual de control de
cierta zona bancaria”. Se muestran, ahora, en el siguiente gráfico:
Tiempo (horas) 152 casos
¿Qué se observa?
- En el eje vertical se indica la escala de medición utilizada para los datos, en este caso, “Tiempo en horas que lleva
cada uno de 152 policías asistiendo a ronda mensual de control de cierta zona bancaria”.
- La caja central (el rectángulo más grande) representa a la mitad de las observaciones centrales, está delimitada
por el cuartil inferior y superior.
- La línea del centro representa a la mediana de los datos.
- Las líneas y los puntos por fuera de la caja representan la otra mitad de los datos. La línea inferior, el cuarto de los
datos más chicos. La línea superior y los puntos (en este caso), el cuarto de los datos más grandes.
- Los puntos representan datos que están alejados de la mayoría y son identificados como datos atípicos.
Actividad
a) ¿Qué características de la distribución de los datos se manifiestan en un diagrama de caja?
b) Indicar los cinco números resúmenes: mínimo, cuartil inferior, mediana, cuartil superior, máximo.
c) ¿Hay datos atípicos?
El siguiente diagrama corresponde a la misma variable de antes (“Tiempo en horas que lleva cada uno de 152 policías
asistiendo a ronda mensual de control de cierta zona bancaria”) pero de dos seccionales que atienden a dos zonas
bancarias distintas.

FBCB / UNL 25 de 29
Tiempo (horas) 152 casos
Describir ambos gráficos y compararlos.

Este gráfico nos permite identificar puntos atípicos. Su detección es importante pues pueden determinar o influenciar
fuertemente los resultados de un análisis estadístico clásico, pues muchas de las técnicas habitualmente usadas son
muy sensibles a la presencia de datos atípicos.
Diagrama de Pareto
El diagrama de Pareto es un gráfico de barras en el cual las frecuencias de las categorías de la variable
aparecen ordenadas según sus frecuencias de mayor a menor, permitiendo identificar rápidamente aquellas que tienen
“mayor peso”, es decir mayor altura.
El principio de Pareto, se conoce también como “regla 80/20”. Vilfredo Pareto (1848-1923) fue un ingeniero
italiano que hizo estudios acerca de la distribución de la riqueza en su país y observó que el 20% de las personas
controlaba el 80% de la riqueza. Esta idea fue tomada por Joseph Jurán (1904-2008) en 1950 y comprobó que se podía
usar en temas relacionados con control de calidad.
Resumiendo, el diagrama de Pareto es una gráfica que permite separar los “pocos vitales” de los “muchos
triviales”. Se usa para identificar gráficamente los aspectos significativos de un problema de los triviales de manera que
un equipo sepa dónde dirigir sus esfuerzos para mejorar. Reducir los problemas más significativos (las barras más
largas en una Gráfica Pareto) servirá más para una mejora general que reducir los más pequeños.
En el diagrama que se muestra a continuación, como ejemplo, observamos que del 100% de los clientes, solo
el 20% de ellos incide sobre el 70% de las ventas, mientras que el 80% de los clientes restantes, solo participa del 30%
que queda.
Gráfico. Representación gráfica del Principio de Pareto.

FBCB / UNL 26 de 29
% 100
20
80
70
60
40 80
20
30
0
Clientes (elementos) Ventas (efecto)
Muchos triviales Pocos Vitales
¿Cómo se construye un Diagrama de Pareto?
Paso 1: Preparación de los datos

Como en todas las herramientas de análisis de datos, el primer paso consiste en recoger los datos correctos o
asegurarse de que los existentes lo sean. Para la construcción de un Diagrama de Pareto son necesarios:
a) Un efecto cuantificado y medible sobre el que se quiere priorizar (Costos, tiempo, número de errores o defectos,
porcentaje de clientes, etc).
b) Una lista completa de elementos o factores que contribuyen a dicho efecto (tipos de fallos o errores, pasos de un
proceso, tipos de problemas, productos, servicios, etc).
Es importante identificar todos los posibles elementos de contribución al efecto antes de empezar la recogida
de datos. Esta condición evitará que, al final del análisis, la categoría "Varios" resulte ser una de las incluidas en los
"Pocos Vitales".
Paso 2: Cálculo de las contribuciones parciales y totales.

Para cada elemento contribuyente sobre el efecto, anotar su frecuencia.
Ordenar dichos elementos, según la magnitud de su “contribución”, es decir según su frecuencia de mayor a
menor.
Calcular la magnitud total del efecto como suma de las magnitudes parciales de cada uno de los elementos
contribuyentes (suma de frecuencias).
Paso 3: Cálculo del porcentaje individual y acumulado, de cada elemento de la lista ordenada.
El porcentaje de la contribución de cada elemento, no es más que la frecuencia relativa porcentual y se calcula:
Magnitud de la contribución
Porcentaje de contribución (%) = 100 (%)
Magnitud del efecto total
El porcentaje de contribución acumulado para cada elemento de la lista ordenada. Se calcula sumando de
porcentajes de contribución de cada uno de los elementos anteriores más el correspondiente al elemento en cuestión.
En este caso habrá que tener en cuenta que estos porcentajes, en general, se redondean.
Una vez completado este paso tenemos construida la Tabla de Pareto.
Paso 4: Construcción del diagrama.

Se comienza dibujando los ejes: Se coloca un eje horizontal dividido en tantas partes como causas figuran en
la planilla de recolección de datos. Y dos ejes verticales, uno a la izquierda, en el que se marca una escala que va
desde 0 hasta el valor máximo observado en el conteo. El otro a la derecha, representa porcentajes y las marcas varían
desde 0 hasta 100%.
Luego se construye el diagrama de barras, donde cada barra representa cada una de las causas relevadas y la
altura se corresponde con el número de observaciones, de acuerdo con la graduación del eje de la izquierda. No hay
que olvidar que estas barras se representan ordenadas según sus frecuencias de mayor a menor.

FBCB / UNL 27 de 29
A continuación se construye, superpuesto al diagrama de barras, un polígono de frecuencias acumuladas en

porcentaje, que se mide según el eje de la derecha.
Paso 5: Señalar los elementos "Pocos Vitales" y los "Muchos Triviales"

Trazamos una línea vertical que separa el Diagrama en dos partes y sirve para visualizar la frontera entre los
"Pocos Vitales" y los "Muchos Triviales", basándonos en el cambio de inclinación entre los segmentos lineales
correspondientes a cada elemento y rotular las dos secciones del Diagrama.
Para una mejor comprensión veamos un ejemplo.
Ejemplo: En una línea de envasado que sufre frecuentes paradas por avería de alguno de los módulos que está
compuesta se plantea la necesidad de cambiar la línea entera, pero como ésta es una inversión muy grande, se va
postergando. Supongamos que luego de tomar datos durante 6 meses, la información obtenida acerca del número de
paradas de la línea se resume en la tabla siguiente.
Datos correspondientes al Ejemplo.

Número de paradas
Causa
Mañana Tarde Total
Rotura hilo 18 24 42
Cinta 15 10 25
Vibrador 92 88 180
Tornillo sin fin 1 6 7
Apelmazamiento 0 1 1
Rotura de saco 2 1 3
Otros 1 0 1
Efecto cuantificado y medible:

Número de paradas en la línea de envasado.
Elementos contribuyentes:
Rotura hilo
Cinta
Vibrador
Tornillo sin fin
Apelmazamiento
Rotura de saco
Otros
Tabla de Pareto para el número de paradas en la línea.

Número de %
Número de
Causa paradas % del total acumulado
paradas
acumuladas del total
Vibrador 180 180 69,5 69,5
Rotura hilo 42 222 16,2 58,7
Cinta 25 247 9,7 95,4
Tornillo sin fin 7 254 2,7 98,1
Rotura de saco 3 257 1,2 99,2
Apelmazamiento 1 258 0,4 99,6
Otros 1 259 0,4 100,0

FBCB / UNL 28 de 29
Diagrama de Pareto correspondiente al número de paradas en la línea.

Paradas en línea de envasado
Pocos Muchos triviales

98 99 100 100
200 95
180 100
180 86
Frecuencia acumulada (%)

160 80
140
Frecuencia absoluta
69
120 60
100
80 40
60 42
40 25 20
20 7 3 1 1
0 0
Como se puede observar en el gráfico con sólo dos causas, vibrador y rotura hilo, se acumula el 86% de las
paradas en la línea de envasado. Todo el esfuerzo deberá concentrarse inicialmente en eliminar o controlar estas dos
causas, ignorando, en principio las restantes triviales, que serán consideradas luego.
Siguiendo con el ejemplo planteado, también se relevó el tiempo en horas que duraba la parada en la línea de
producción. Los datos obtenidos se resumen en la tabla siguiente.
Datos correspondientes a la duración de la parada de producción del Ejemplo.

Número de parada (horas)
Causa
Mañana Tarde Total
Rotura hilo 20 31 51
Cinta 12 10 22
Vibrador 62 68 130
Tornillo sin fin 2 8 10
Apelmazamiento 0 1 1
Rotura de saco 4 1 5
Otros 8 0 8
Tabla de Pareto para el tiempo (en horas) de paradas en la línea.

Número de %
Número de
Causa paradas % del total acumulado
paradas
acumuladas del total
Vibrador 130 130 57.3 57.3
Rotura hilo 51 181 22.5 79.7
Cinta 22 203 9.7 89.4
Tornillo sin fin 10 213 4.4 93.8
Otros 8 221 3.5 97.4
Rotura de saco 5 226 2.2 99.6
Apelmazamiento 1 227 0.4 100.0

FBCB / UNL 29 de 29
Diagrama de Pareto correspondiente al tiempo (en horas) de paradas de línea.

Tiempo de paradas (horas)
Pocos vitales Muchos triviales
Frecuencia acumulada (%)

150 97 100 100
94 100
130 89
Frecuencia absoluta
125 80
80
100 57
60
75
51 40
50
22 20
25 10 8 5 1
0 0
Como se puede observar en el gráfico, en sólo dos causas, vibrador y rotura hilo, se acumula el 80% del tiempo de
paradas en la línea de envasado. Esto coincide con el gráfico anterior. Estas dos causas no sólo son las dos más
frecuentes sino que producen también el mayor porcentaje de tiempo de detención de la línea de envasado.

Notas de Clase Descriptiva 2015

Cargado por

Copyright:

Formatos disponibles

Notas de Clase Descriptiva 2015

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas de Clase Descriptiva 2015

Cargado por

Copyright:

Formatos disponibles

Licenciatura en Seguridad y Salud Ocupacional

Departamento de Matemática – Área Estadística

NOTAS DE CLASE 2015

Estadística - Notas de clase - 2015

DEFINICIONES DE CONCEPTOS FUNDAMENTALES

Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes.

En relación al tamaño de la población, ésta puede ser:

Estadística - Notas de clase - 2015

Clasifique las siguientes variables y enuncie sus posibles respuestas:

Estadística - Notas de clase - 2015

3) Identificar la variable observada, clasificarla:

Estadística - Notas de clase - 2015

Datos cuantitativos discretos

El gráfico de barras asociado a la tabla de frecuencias dada se presenta a continuación:

Nro de personas por oficina

Estadística - Notas de clase - 2015

Nro de personas por oficina

Datos cuantitativos continuos

Estadística - Notas de clase - 2015

El nuevo rango es: 85 – 50 = 35 años

50 a 55; 55 a 60; 60 a 65, 65 a 70; 70 a 75; 75 a 80; 80 a 85

Si se tiene un individuo con 55 años, ¿a qué intervalo corresponde?

Estadística - Notas de clase - 2015

Completar la tabla tomando como guía el primer renglón resuelto.

Un histograma correspondiente al ejemplo es:

Estadística - Notas de clase - 2015

A estos histogramas se les puede anexar un Polígono de frecuencias

El polígono de frecuencias queda así:

Si se lo construye solo, es decir, sin el histograma, hubiese quedado:

Estadística - Notas de clase - 2015

OTROS GRÁFICOS Y TABLAS ÚTILES

Gráfico de barras comparativo

Fuerte Moderado Leve

Si se considera el sexo en cada uno de los tipos de carácter se obtiene:

Estadística - Notas de clase - 2015

MEDIDAS DE POSICIÓN Y DISPERSIÓN

El objetivo de la Estadística Descriptiva es presentar de manera resumida la información contenida en un conjunto de

las de posición: la información indica el valor existente en algún punto de la serie.

La media aritmética tiene las siguientes propiedades:

a) Estos datos, ¿corresponden a una muestra o a una población?

- Si el número de valores es impar, la mediana es el valor ubicado en el centro.

OTRAS MEDIDAS DE POSICIÓN

Estadística - Notas de clase - 2015

Estadística - Notas de clase - 2015

Estadística - Notas de clase - 2015

Estadística - Notas de clase - 2015

En la muestra este cálculo se realiza de la siguiente manera:

Coeficiente de variación (CV)

GRÁFICOS PARA REPRESENTAR MEDIDAS RESÚMENES

Gráfico de Barra de error

Estadística - Notas de clase - 2015

Una aplicación de la desviación estándar

Si la distribución de mediciones tiene una forma aproximada de campana:

Para construir un diagrama de caja seguimos los siguientes pasos:

1. Construimos una escala de referencia (horizontal o vertical).

f1= Q1 – 1,5 RI y f3 = Q3 + 1,5 RI

Estadística - Notas de clase - 2015

4. Identificamos en el conjunto de datos los valores a1 y a3 que llamaremos valores adyacentes.

Calculamos los cuartiles, que para estos datos son: