Apuntes Estad Descriptiva
Apuntes Estad Descriptiva
Apuntes Estad Descriptiva
INDICE
I. INTRODUCCIÓN 1
ESTADISTICA DESCRIPTIVA
I. INTRODUCCIÓN
Más aún, el desarrollo actual de la administración moderna requiere cada vez más respaldar
las decisiones que se toman permanentemente con información sólida y validada
científicamente, pues los costos de los errores son muy grandes.
4. Factibilidad de las hipótesis a fin de que los conceptos involucrados puedan ser
medidos de acuerdo a reglas precisas, válidas y confiables
Quién proporciona las técnicas para llevar a la práctica aquellas etapas del método
científico que requieren recolección y análisis de información es el método estadístico.
El análisis de los resultados puede ser descriptivo censal, o bien, inferencial de acuerdo con
el origen de los datos; tod la población o una muestra probabilística de ella. La estadística
descriptiva comprende aquellos métodos usados para organizar los datos y describir la
población estudiada, mientras que la inferencia estadística comprende aquellos métodos y
2
ESTADISTICA DESCRIPTIVA
técnicas usados para hacer generalizaciones, predicciones o estimaciones sobre poblaciones
a partir de una muestra o experimento.
En ciertas ocasiones para tener una visión más clara de la estrategia de investigación es
conveniente determinar el tipo de investigación a realizar, clasificación que dependerá de los
siguientes factores: los objetivos de la investigación, la existencia de hipótesis, la fuente de
origen de la información, el orden en que se recogen los datos y el manejo de las variables.
TIPOS DE INVESTIGACION.
3
ESTADISTICA DESCRIPTIVA
II. CLASIFICACION DE VARIABLES.
Como los datos a manejar en una investigación son de distinta naturaleza, la clasificación de
las variables en estudio se hace necesaria para decidir el método adecuado de análisis
estadístico que se empleará.
Existen diversos criterios para clasificar variables, los que no son excluyentes y se
complementan.
Una variable es cuantitativa cuando puede ser expresada en forma numérica. Por ejemplo:
edad en años; duración en horas de la batería de un teléfono celular; ingreso mensual en pesos
de una familia, etc.
Para describir un objeto, un individuo u otra identidad hacemos referencia a las propiedades o
atributos que posee, estos atributos pueden expresarse en escalas de diferente nivel de
medición.
1. Escala Nominal.
Este es el nivel de medición más débil que sólo permite distinguir las distintas
clases, asignándoles números o símbolos a las unidades para identificar a la clase
que pertenecen.
4
ESTADISTICA DESCRIPTIVA
En una escala nominal, el conjunto de elementos se divide en subconjuntos
mutuamente excluyentes en que la única relación implicada es la de equivalencia
(relación que es reflexiva, simétrica y transitiva).
La escala nominal es única hasta una transformación de uno a uno, esto significa
que los números o símbolos que designan las distintas subclases en la escala pueden
ser intercambiados de manera total y consistente.
Las estadísticas descriptivas, que estudiaremos más adelante, admisibles en este tipo
de escalas son aquellas que no se ven alteradas por las transformaciones uno a uno,
como por ejemplo el conteo de frecuencias y la moda.
En esta escala el número asignado además de nombre indica jerarquía entre todas
las clases. Esta relación de jerarquía es irreflexiva, asimétrica y transitiva, por lo que
el único tipo de transformación que acepta es monótona, es decir, aquella que
mantiene el orden de los objetos.
3. Escala de Intervalos.
En este caso el número indica nombre, jerarquía y tiene sentido la diferencia con
cualquier otro número de la escala, pero donde el cero es arbitrario.
En este nivel cualquier cambio en los números asociados con las posiciones de los
objetos debe conservar el orden y las diferencias relativas entre los objetos, es
decir, la escala de intervalos es única hasta una transformación lineal; como ocurre
por ejemplo entre las escalas Celsius y Farenheit para medir temperatura.
Esta escala es la primera cuantitativa que vemos, por lo que es posible calcular todas
las estadísticas descriptivas comunes (media, desviación estándar, correlación, etc.).
Ejemplos: Medición de temperatura en escala Celsius, medición de altura de vuelo,
año o fecha en que vivimos, puntajes de coeficiente intelectual, etc.
4. Escala de Razón.
5
ESTADISTICA DESCRIPTIVA
En este nivel de medición cualquier operación aritmética es aplicable (con una
interpretación válida).
Según los valores numéricos que asuma una variable, ésta puede ser:
1. Discreta.
Una variable se clasifica como discreta, si los valores que asume son finitos o
infinitos numerables (contables). Ejemplo: Cantidad de hijos, número de personas
en una fila, valores de los billetes, etc.
2. Continua.
En algunos casos en que la variable asume dos valores (presencia o ausencia de una
característica) se clasifican como dicotómicas. Por ejemplo, para indicar si una persona
fuma o no, se asigna 1 a fuma y 0 a no fuma.
Las variables pueden clasificarse según si ellas describen o son descritas por otras
variables, clasificación que depende de los objetivos del estudio y no de la
estructura matemática de las variables. Esta clasificación puede ser en:
6
ESTADISTICA DESCRIPTIVA
III. PRESENTACIÓN DE DATOS UNIDIMENSIONALES.
Las técnicas visuales para presentar los datos, que son suficientemente numerosos, en forma
ordenada y resumida son las tablas de frecuencia y los gráficos.
Una tabla de frecuencias es un cuadro numérico que permite la clasificación de los datos en
categorías. Una tabla de frecuencias se dice que es unidimensional si se refiere al estudio de
una variable, bidimensional si se refiere a la presentación en forma conjunta de dos variables y
multidimensional cuando se refiere a la presentación de información conjunta de dos o más
variables.
Estas tablas son útiles cuando se necesita resumir los datos para posteriormente analizar la
información registrada para cada una de las variables.
Se denominan de frecuencia por que esta es la información que se coloca en cada una de las
categorías de las variables.
TITULO DE LA TABLA
Nombre de la Tipo de
variable frecuencia
Categorías de Frecuencias
la variable observadas
Μ
FUENTE:
El título de la tabla debe indicar por lo menos qué información se presenta, dónde fueron
registrados los datos y cuándo se obtuvo la información.
El nombre de la variable puede utilizarse completo, con sus respectivas unidades de medida,
o bien, alguna sigla previamente definida.
Las categorías que tendrá la variable van a depender del tipo de variable según nivel de
medición o recorrido. De acuerdo a esto veremos la construcción de distintos tipos de tablas.
7
ESTADISTICA DESCRIPTIVA
TIPOS DE FRECUENCIA:
Tanto la frecuencia absoluta como la frecuencia relativa se pueden usar en todo tipo de
variables. Cuando las variables son de un nivel de medición al menos ordinal, podría
ser de utilidad usar alguna de las dos siguientes frecuencias.
En este caso cada valor que asume la variable pasa a ser una categoría y se disponen en
un orden arbitrario en la tabla.
EJEMPLO.
Los siguientes datos corresponden al sexo de un grupo de personas en estudio:
M-M-F-M-F-M-M-F-F-M-F-M-F-F-M-F-F-M-M-M -F-M -
F-M-F-M-M-F-F-F-M-M.
La tabla de frecuencias para este caso es como sigue:
8
ESTADISTICA DESCRIPTIVA
DISTRIBUCIÓN DE LAS PERSONAS DE ACUERDO A SU SEXO.
Cantidad de Porcentaje de
SEXO personas (ni) personas (hi⋅100)
Femenino 15 46,875
Masculino 17 53,125
TOTAL 32 100,000
Tome nota que en esta tabla, las frecuencias acumuladas no tendrían ningún sentido
práctico.
3. Variable en nivel de medición al menos ordinal y discreta con una cantidad pequeña de
valores distintos (alrededor de 20). En este caso cada valor que asume la variable
pasa a ser una categoría y se disponen según el orden implícito de la variable .
EJEMPLOS.
9
ESTADISTICA DESCRIPTIVA
Nota: Un buen ejercicio será interpretar algunos de los valores de la tabla, por
ejemplo, n4=5 indica que durante el semestre hubo 5 alumnos que faltaron 3
días a la clase de estadística y H5=0,8889 indica que el 88,89% de los alumnos
del curso faltaron a lo más 4 días a la clase.
En esta tabla se pierde información, ya que las clases estarán formadas por intervalos
de valores, cuyos puntos medios se denominan marcas de clase y se denotan por xi
(para la variable X). A veces se denominan tablas de datos agrupados, ya que en ellas
se pierde información al disponer las observaciones en intervalos. Estas tablas de
frecuencia deberían tener las siguientes características para su construcción:
uniformidad (cada clase debe tener la misma amplitud), unicidad (dos clases no se
traslapan) y exhaustivas (cada uno de los datos debe pertenecer a alguna clase).
Aunque la característica de uniformidad no es estrictamente necesaria.
Los pasos para la construcción de estas tablas con intervalos de igual amplitud son:
10
ESTADISTICA DESCRIPTIVA
y el resultado se aproxima al valor siguiente con la misma cantidad de cifras
decimales que los datos, si esta división resulta con más decimales; si la
división resulta tener igual o menor cantidad de decimales que los datos se
conserva ese mismo resultado como valor de c.
Se debe hacer notar que en la construcción de estas tablas existen otros criterios para
trabajar con los límites de los intervalos, en la metodología que se emplea aquí se
trabaja directamente con los límites reales de clase, también llamados fronteras de
clase; en los caso en que se trabaja con valores distintos entre el límite superior de una
clase y el límite inferior de la clase siguiente se dice que se trabaja simplemente con
los límites de clase.
EJEMPLO:
Los siguientes datos corresponden a los tiempos, en minutos, requeridos para atender
a 50 clientes en una caja de supermercado, obtenidos en un control de eficiencia de
éste:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2
1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1
0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.
11
ESTADISTICA DESCRIPTIVA
Solución:
R/k = 0,95 c= 1
Pero 1⋅ 6 = 6 = R'
R' - R = 0,3, cifra que repartimos lo más iguales posibles conservando un decimal,
entre el mínimo y el máximo. En este caso procederemos a restar 0,1 al mínimo y a
sumar 0,2 al máximo (0,1 + 0,2 = 0,3 ).
Por tanto, nuestra tabla comenzará con el valor 0,2 y terminará con el valor 6,2;
teniendo cada intervalo una amplitud igual a 1.
Nota: Algunas interpretaciones en esta tabla son: h4 indica que el 8% de los clientes
demoran en ser atendidos entre 3,2 y 4,2 minutos; N5 indica que 46 clientes demoraron
menos de 5,2 minutos.
Todas las tablas mostradas en esta sección permiten hacer un primer análisis de lo que está
ocurriendo con los datos, con frecuencia en este análisis se indica en que valores se encuentra
la mayoría de las observaciones, donde se encuentra la minoría y en qué punto se encuentra
aproximadamente la mitad de las observaciones.
12
ESTADISTICA DESCRIPTIVA
III.2 REPRESENTACION GRAFICA DE DATOS UNIDIMENSIONALES.
Una gráfica es una forma ilustrada de representar y resumir datos; de modo de hacer evidentes
visualmente ciertas características de los datos, son una alternativa a las tablas de frecuencia,
incluso a veces representa mejor sus características que las tablas de frecuencias.
- Sencillez y autoexplicación.
- Evitar distorsiones por mala elección de escala.
- Elección apropiada del tipo de gráfico, según los objetivos del estudio y el nivel de
medición de las variables.
III.2.1 PICTOGRAMA.
Son representaciones de la información mediante dibujos de los objetos que son motivo de
estudio, con un formato que dé una rápida idea visual de la distribución de frecuencia. Este
tipo de gráficas es una de las más antiguas en uso y son especialmente útiles para fines
publicitarios por ser atractivos y de fácil comprensión.
EJEMPLO:
País A B C
Este es un diagrama semigráfico en forma de árbol que tiene la ventaja de presentar todas las
observaciones y por tanto no se pierde información como en una tabla de frecuencias en
intervalos y resulta especialmente útil cuando cuando el número total de datos es pequeño
(<50). Los principios para la realización del diagrama son los siguientes:
- Disponer los datos en dos columnas separadas por una línea vertical de tal forma que
para los datos con dos dígitos la cifra de las decenas se encuentre a la izquierda de la
línea vertical (tallo del diagrama), y a la derecha las unidades (hojas o ramas del
13
ESTADISTICA DESCRIPTIVA
diagrama). Para datos con tres dígitos, el tallo estará formado por los dígitos de las
centenas y las decenas, que se escribirán a la izquierda de la línea vertical y las hojas
estarán formadas por el dígito de las unidades, que se escribirá a la derecha de la línea
vertical.
- Cada tallo define una clase y se escribe sólo una vez. A su derecha se van escribiendo
por orden las sucesivas hojas correspondientes a ese tallo. El número de hojas para
cada tallo representa la frecuencia de cada clase.
EJEMPLO:
Construir el diagrama de tallo y hojas para los datos de tiempo de espera en el ejemplo de la
página 15.
Solución.
Recordemos que los datos eran:
2,6 - 1,4 - 3,2 - 3,5 - 1,8 - 2,3 - 0,7 - 5,2 - 0,9 - 0,9 - 0,9 - 3,0 - 1,1 - 1,2 - 2,3 - 1,7 - 3,2
1,7 - 0,7 - 1,8 - 1,3 - 1,5 - 2, 5 - 0,3 - 0,7 - 1,6 - 5,9 - 4,5 - 5, 9 - 6,0 - 3,2 - 1,4 - 1,6 - 1,1
0,5 - 2,4 - 1,6 - 0,9 - 1,3 - 0,7 - 0, 9 - 1,0 - 1,5 - 0,4 - 0,5 - 1,2 - 1,5 - 0,8 - 0,4 - 0,3.
0 3344557777899999
1 0112233445556667788
2 33456
3 02225
4 5
5 299
6 0
EJEMPLO:
14
ESTADISTICA DESCRIPTIVA
Nunca
Casi nunca 3%
10%
A veces Siem pre
13% 41%
Casi
siem pre
33%
EJEMPLO:
30
Porcentaje de familias
25
20
15
10
5
0
0 1 2 3 4 5
Cantidad de hijos
15
ESTADISTICA DESCRIPTIVA
III.2.5 GRAFICOS DE BARRAS AGRUPADAS.
Se usan para comparar dos o más grupos de datos en un nivel de medición nominal u ordinal.
EJEMPLO:
La siguiente tabla muestra las distribuciones de los empleados y empleadas de cierta empresa
clasificados según antigüedad en la empresa, en años.
40
Porcentaje de
30
empleados
Hombres
20
Mujeres
10
0
0 - 1 1 - 2 2 - 3 3 - 4 4 - 5 >=5
Antigüedad
Son similares a los anteriores, es decir, son útiles para estudiar la distribución de frecuencias
de una variable discreta dentro de diferentes niveles de otra variable discreta, de manera de
poder establecer comparaciones entre tales niveles.
EJEMPLO:
Para los datos del ejemplo anterior, el gráfico de barras divididas que denota los porcentajes de
las antigüedades para hombres y mujeres, quedaría como sigue:
16
ESTADISTICA DESCRIPTIVA
100%
>=5
80%
4-5
60%
3-4
40%
2-3
20%
1-2
0% 0-1
Hombres Mujeres
Ambos gráficos se usan para representar las frecuencias (absolutas o relativas) de variables en
un nivel de medición de intervalos o de razón y continuas; también se pueden usar con
variables discretas con un gran número de valores distintos .
El histograma consiste en una serie de rectángulos adyacentes cuyas áreas son proporcionales
a la frecuencia del intervalo sobre el cual se ubican. Si los intervalos son de igual amplitud, los
rectángulos tendrán una altura proporcional a la frecuencia correspondiente; en todo caso si la
amplitud del intervalo es ci, su frecuencia ni y si k es una constante cualquiera, idéntica para
cada intervalo, la altura de la barra hi debe satisfacer la siguiente igualdad:
n
hi = k ⋅ i
ci
El polígono de frecuencias es un gráfico de líneas trazado sobre las marcas de clase sucesivas,
a la altura de la frecuencia (absoluta o relativa ) de cada intervalo y en el que se deben crear
dos marcas de clase ficticias, una antes del primer intervalo y otra después del último, para
cerrar el polígono.
EJEMPLO:
El volumen de ventas diario que realizan un vendedor de una tienda que se dedica al rubro
electrónico, se resume en el siguiente cuadro:
17
ESTADISTICA DESCRIPTIVA
Ventas Venta promedio Cantidad de días
(miles de $) (miles de $)
900 - 1.000 950 6
1.000 - 1.100 1.050 12
1.100 - 1.200 1.150 18
1.200 - 1.300 1.250 10
1.300 - 1.400 1.350 4
Cantidad de días
18
12
10
6 4
4
Ventas
850 950 1.050 1.150 1.250 1.350 1.450 [m$]
EJEMPLO:
18
ESTADISTICA DESCRIPTIVA
Cantidad de habitaciones Porcentaje acumulado de días
0 10
1 26
2 26
3 44
4 68
5 82
6 92
7 100
Incluye al 6
100
92
82 Excluye al 7
68
44
26
10
N° de
0 1 2 3 4 5 6 7 8 9 habitaciones
III.2.9 OJIVA.
EJEMPLO:
Usando los datos usados para el histograma y polígono de frecuencias dibujar la ojiva.
Solución.
19
ESTADISTICA DESCRIPTIVA
Ventas Cantidad Acumulada
(miles de $) de días
900 - 1.000 6
1.000 - 1.100 18
1.100 - 1.200 36
1.200 - 1.300 46
1.300 - 1.400 50
La ojiva es:
DISTRIBUCIÓN ACUMULADA DE LAS VENTAS DIARIAS
Nº acumulado
de días
50 ∞
46
36
18
6 Ventas
0
900 1.000 1.100 1.200 1.300 1.400 1.500 (m$)
20
ESTADISTICA DESCRIPTIVA
IV MEDIDAS DESCRIPTIVAS PARA UNA VARIABLE.
Los conjuntos de datos tienen distintas características que los hace diferenciarse de otros
conjuntos de datos. Estas características se denominan medidas descriptivas y se clasifican en:
medidas de posición, medidas de dispersión y medidas de forma.
Por lo general, las medidas de posición tienen como objetivo resumir el conjunto de datos de
forma de tener un panorama general de ellos, de manera que sirva como representante de la
globalidad de la información. La mayoría de las medidas de posición indican donde se ubica el
centro de la distribución, por lo que se les llama medidas de tendencia central.
Las medidas de tendencia central son: la media aritmética, la mediana, la moda, la media
geométrica y la media armónica. Las medidas de posición son las cuantilas (cuartiles,
quintiles, octiles, deciles, percentiles).
DEFINICION: La media aritmética se define como la suma de todos los valores observados
dividida por el número de datos.
Si los datos son los valores X1, X2,…, XN de la población de tamaño N (finito), la media se
N
X i
i=1
denota por µ y la definición dice que: µ =
; si los datos corresponden a una
N
muestra x1, x2, …, xn de la población, la media aritmética se denota por x , o bien, M(x) y la
n
xi
aplicación de la definición es: x = i =1
.
n
Si los datos de una muestra están ordenados en una tabla de frecuencias, entonces la definición
k
xi ⋅ ni
se transforma en: x= i =1
= xi ⋅ hi ; donde xi es el valor de la variable o marca de
n
clase si los datos son de una variable X discreta o continua, respectivamente.
21
ESTADISTICA DESCRIPTIVA
EJEMPLO:
La siguiente tabla muestra la distribución del saldo de 120 cuentas de crédito, en miles de $,
que maneja en sus archivos la empresa XX.
Saldo Cantidad de cuentas
(miles de $)
0 – 30 10
30 – 60 25
60 – 90 40
90 – 120 20
120 – 150 15
150 – 180 10
Solución.
Para obtener la media aritmética, se deben calcular las marcas de clase xi, según se describe
en el siguiente cuadro:
Propiedades de la media.
La media aritmética tiene la gran desventaja de que se ve muy influenciada por los valores
extremos, pero aún así es la medida de tendencia central que más se usa, ya que posee las
siguientes propiedades:
22
ESTADISTICA DESCRIPTIVA
3. La media del producto de una constante a por una variable X más otra constante,
digamos b, es igual a la constante a por la media de la variable X más la constante b, es
decir, M(a⋅ X + b) = a ⋅ M(X) + b.
4. La media de la suma de dos variables X e Y, es igual a suma de las medias de cada
una de esas variables, es decir, M ( X + Y ) = M( X ) + M( Y ).
5. xmín ≤ x ≤ xmáx.
n
6. En toda distribución ( xi − x ) = 0 .
i =1
n
7. En toda distribución ( xi − a) 2 es mínimo para a = x .
i =1
La media aritmética resulta ser la mejor medida indicadora de tendencia central cuando la
distribución es más bien simétrica, es decir, no hay observaciones extremas y cuando el nivel
de medición es intervalar o de razón. En caso que no se den estas condiciones la medida más
representativa de la tendencia central es la mediana.
DEFINICION: La mediana es el valor que está justo al centro del conjunto de datos
ordenados según magnitud; es decir es la observación que supera a no más del 50% de los
datos y es superado por no más del 50% de las observaciones.
Obtención de la mediana:
x n +1
si n es impar
2
x n
+x n
+1
2 2
Me(X) = si n es par
2
n
− N k −1
LI k + c k ⋅ 2 si los datos están ordenados en una tabla de frecuencias con intervalos.
nk
donde: x(i) indica la observación que está en el lugar i del conjunto de datos ordenados.
LIk es el límite real inferior del intervalo que contiene a la mediana.
El intervalo que contiene a la mediana es aquél cuya frecuencia absoluta acumulada alcanza el
n
valor , o bien, su frecuencia relativa acumulada alcanza el valor 0,5.
2
23
ESTADISTICA DESCRIPTIVA
EJEMPLOS:
Solución.
Solución.
Nº de hijos Nº de familias
0 12
1 18
2 24
3 32
4 22
5 12
6 2
Para obtener la mediana en este caso debemos obtener las frecuencias acumuladas.
24
ESTADISTICA DESCRIPTIVA
4) Obtener la mediana en la tabla de frecuencias del ejemplo de la media, de las 120
cuentas.
Solución.
n
Primero se debe calcular el valor y obtener las frecuencias acumuladas.
2
0 – 30 10 10
30 – 60 25 35
60 – 90 40 75
90 – 120 20 95
120 – 150 15 110
150 – 180 10 120
n
= 60 El intervalo que contiene a la mediana es el tercero.
2
60 − 35
Me(x) = 60 + 30 ⋅ = 78,75 [m$], esto significa que el 50% de las cuentas
40
tendrían un saldo de a lo más $78.750 y el 50% restante un saldo de a lo menos
$78.750.
Propiedades de la mediana:
Esta es la única medida descriptiva que se puede utilizar en datos medidos en una escala
nominal. Si la variable es continua, la moda (o las modas) corresponden a aquellos valores de
la variable en los cuales la función alcanza un máximo local y habrá tantas modas como
25
ESTADISTICA DESCRIPTIVA
máximos locales; pero si el máximo es global, la moda es única y se habla de distribución
unimodal y si la función es uniforme, entonces no tiene moda.
Obtención de la moda:
- Si los datos están sin agrupar, o bien, si corresponden a una variable discreta ordenada
en una tabla de frecuencias, se aplica la definición para obtenerla.
- Si los datos corresponden a una variable continua agrupada en intervalos, sólo se
puede calcular la moda si los intervalos son de igual amplitud y el intervalo con mayor
frecuencia se denomina clase modal y el valor modal está dado por:
(n k − n k −1 )
Mo(x) = LI k + c ⋅ ,
(n k − n k −1 ) + (n k − n k +1 )
donde, el subíndice k denota al intervalo que contiene la moda, c denota la amplitud de
los intervalos y las nj se refieren a las frecuencias absolutas o relativas.
M=Me=Mo
Mo Me M
M Me Mo
26
ESTADISTICA DESCRIPTIVA
IV.1.4 LAS CUANTILAS.
Las cuantilas son medidas de posición que dividen el conjunto de datos ordenados en un
número determinado de partes iguales. Una de estas medidas es la mediana que divide en dos
partes iguales. Cuando el conjunto ordenado de datos se divide en cuatro partes iguales, los
puntos de división se llaman cuartiles (Qi) y cuando el conjunto ordenado de datos se divide en
cinco partes iguales, los puntos de división se llaman quintiles (Fi); se podría seguir
mencionando otras medidas, pero son los percentiles (Pi) los puntos que denotan la mayor
cantidad de divisiones en partes iguales, dividen el conjunto ordenado en cien partes iguales.
Es la partición más fina de los datos. Como es posible establecer una equivalencia entre los
percentiles y cualquier otra cuantila, como por ejemplo, P50 = Q2 = Me y P20 = F1, será a los
percentiles a quienes estudiaremos en detalle.
k⋅n
− N k −1
LI k + c k ⋅ 100 si los datos están ordenados en una tabla de frecuencia s con intervalos .
nk
k ⋅n
Para obtener el resto de las cuantilas, sólo se debe cambiar en la expresión: , el divisor
100
100 por el número de partes en que divide los datos la cuantila.
EJEMPLO:
27
ESTADISTICA DESCRIPTIVA
Rendimiento Cantidad de trabajadores
50 - 70 18
70 - 90 27
90 - 110 20
110 - 130 12
130 - 150 11
150 - 170 9
170 - 190 3
Solución.
k ⋅n
a) Para obtener P20 primero se debe obtener el valor y compararlo con las
100
frecuencias acumuladas.
50 - 70 18 18
70 - 90 27 45
90 - 110 20 65
110 - 130 12 77
130 - 150 11 88
150 - 170 9 97
170 - 190 3 100
k ⋅ n 20 ⋅100
= = 20 El intervalo que contiene al valor P20 es el 2º.
100 100
20 − 18
P20 = 70 + 20 ⋅ = 71,48[cientos de miles de $] , es decir, el 20% de los
27
trabajadores tiene un rendimiento de a lo más $7.148.000.
Existen, además otras medidas de tendencia central pero que son de uso más específico, ellas
son la media geométrica y la media armónica.
28
ESTADISTICA DESCRIPTIVA
IV.1.5 LA MEDIA GEOMETRICA (MG).
DEFINICION: MG = n x1 ⋅ x 2 ⋅ Κ ⋅ x n
EJEMPLO:
El PNB de cierto país ha aumentado de 550 u.m. a 1200 u.m. en 10 años, ¿Cuál ha sido la tasa
media de crecimiento?
Solución.
1200
10 = 1,0811 La tasa media de crecimiento anual fue de 8,11%.
550
1 n
DEFINICION: MH = =
1 ni
M
X yi
La media armónica se usa para obtener un valor representativo de un conjunto de datos
expresados en forma de tasas, esto es, tantas unidades de un tipo por cada unidad de otra
especie.
40 + 60
Solución. MH = = 78,95 km/hora.
40 60
+
60 100
29
ESTADISTICA DESCRIPTIVA
IV.2 MEDIDAS DE DISPERSION.
Esta es la medida de dispersión más simple de calcular y entender, que sólo tiene
sentido calcularla cuando los datos están en un nivel de medición intervalar o de razón.
Por depender sólo de los valores extremos, su utilidad es muy restringida, ya que estos
pueden presentarse en forma accidental. Se usa bastante en Control de Calidad.
A pesar de ser más adecuada que la anterior, ya que elimina la influencia de los valores
extremos, no permite hacer una interpretación precisa de un valor dentro de la distribución. Al
igual que el rango, se usa bastante en Control de Calidad.
n n
(x i − x )2 x i2 − n (x )2
s2 = i =1
= i =1
La última igualdad corresponde al
n −1 n −1
desarrollo de la sumatoria, con lo que se logra una fórmula más fácil para el cálculo. En caso
que los datos estén en tablas de frecuencia la varianza muestral se obtiene por:
30
ESTADISTICA DESCRIPTIVA
n
x i2 ⋅ n i − n (x )2
s2 = i =1
, donde xi es la marca de clase o valor de la clase i y ni corresponde a la
n −1
frecuencia absoluta de la clase i.
Las unidades de medición de la varianza son iguales al cuadrado de las unidades con que se
mide la variable. El valor de la varianza nunca será negativo y como las unidades cuadráticas
son de difícil comprensión es que se usa la desviación estándar, que corresponde a la raíz
cuadrada positiva de la varianza, es decir:
= + 2 corresponde a la desviación estándar poblacional y s = + s 2 corresponde a la
desviación estándar muestral. Las unidades de medición de la desviación estándar son las
mismas con que se mide a la variable.
Para tener una idea de si el valor obtenido en la desviación estándar indica que la dispersión
de los datos es grande o pequeña, podemos usar el teorema de Chebyshev, que establece que
1
la expresión 1 − representa la proporción mínima de los datos que dista no más de k
k2
desviaciones estándar de la media si k ≥ 1; expresado en otros téminos la siguiente afirmación
1
equivale al teorema de Chebyshev: A lo más ⋅100 % de los datos de cualquier conjunto,
k2
distan más de k desviaciones estándar de la media, con k ≥ 1.
Propiedades de la varianza:
Para presentar las propiedades tanto de la varianza poblacional como de la varianza muestral,
se denotará con la letra V a la varianza.
1. La varianza de una constante es cero. V(a) = 0, si a es constante.
2. La varianza del producto de una constante por una variable es igual a la constante al
cuadrado multiplicada por la varianza de la variable. V(b⋅X) = b2 ⋅ V(X).
3. De 1. y 2. podemos concluir lo siguiente:
a) V(a + b⋅X) = b2 ⋅ V(X)
b) V(a - b⋅X) = b2 ⋅ V(X)
31
ESTADISTICA DESCRIPTIVA
EJEMPLO:
Usando los datos del ejemplo de la media, que se refería a la distribución del saldo de 120
cuentas de crédito,
b) Si se sabe que por las condiciones económicas los saldos han aumentado un 20%,
determine la nueva desviación estándar.
Solución.
Suponiendo que los datos son de una muestra, la desviación estándar muestral se
calcularía como sigue:
(15 2 ⋅10 + ... + 165 2 ⋅10) − 120 ⋅ (83,75)2
s= = 41,23 [miles de $]
119
Usos de la varianza.
También se usa para comparar la dispersión de dos o más distribuciones, cuando ellas
presentan igual media aritmética y las observaciones están en la misma unidad de medida. Por
ejemplo, no se podrá usar en la comparación de la dispersión del rendimiento de la gasolina
de dos vehículos si uno está medido en Km por litro y el otro en millas por galón.
32
ESTADISTICA DESCRIPTIVA
Cuando las distribuciones tienen distinta media aritmética o están en unidades diferentes, se
usa una medida de dispersión relativa, como es el coeficiente de variación.
Así como se tiene una medida de dispersión relativa, también existe una medida de posición
relativa, que se llama puntaje típico o estándar.
EJEMPLO:
Con los datos del ejemplo anterior obtener e interpretar el coeficiente de variación.
Solución.
41,23
CV(x) = = 0,4923 Esto significa que hay un 49,23% de variabilidad en los saldos respecto
83,75
del saldo promedio.
xi − xi − x
DEFINICION: Zi = =
s
Indica el número de desviaciones estándar en que un valor de un conjunto de datos se
encuentra bajo la media (si zi<0) o sobre la media (si zi>0), luego lo que hace es determinar la
posición relativa de una observación dentro de un conjunto, de manera de poder establecer un
ranking con algunas observaciones en particular.
33
ESTADISTICA DESCRIPTIVA
Solución. Se tiene que ZA = 0,4167 y ZB = 0,5; por lo tanto en el curso B tuvo mejor
desempeño, ya que está a una mayor cantidad de unidades de desviación
estándar sobre la media.
IV.3.1 ASIMETRIA
Existen varios coeficientes para medir la asimetría (o simetría), entre ellos están:
x − Mo 3(x − Me )
1. AS = = Estos dos coeficientes fueron determinados empíricamente
s s
por Pearson.
n
(x i − x )3
i =1
2. AS = n
3
n
(x i − x ) 2
i =1
n
IV.3.2 CURTOSIS.
34
ESTADISTICA DESCRIPTIVA
n
(x i − x )4
i =1
b2 = n
2
n
(x i − x ) 2
i =1
n
Para una distribución normal b2=3, para una platicúrtica b2<3 y para una leptocúrtica b2>3.
Es una presentación visual que describe tanto la tendencia central como la dispersión, la
asimetría y además los valores atípicos.
El diagrama es una caja alineada en forma vertical u horizontal, el rectángulo se forma con la
amplitud intercuartílica, lo atraviesa una línea que corresponde al cuartil dos. De ambas aristas
del rectángulo nace una línea o bigote que se extiende hasta los valores extremos (máximo y
mínimo) si la distancia a los cuartiles uno y tres respectivamente no supera 1,5 veces la
amplitud intercuartílica. En caso de que esa distancia esté entre 1,5 y 3 veces el rango
intercuartílico se dibujan con círculos llenos los valores, que se denominan atípicos; los puntos
que están más allá de 3 amplitudes intercuartílicas de los bordes de la caja se dibujan con
círculos vacíos y se denominan valores atípicos extremos.
Variable
xmín Q1 Q2 Q3 xmáx
35
ESTADISTICA DESCRIPTIVA
III. MEDIDAS DESCRIPTIVAS EN DATOS ESTRATIFICADOS.
En este caso podemos obtener dos medidas descriptivas para el total de los elementos: la
media total y la varianza total.
La media total ( x T ) se obtiene como una media de las medias de los estratos, esto es:
L
xi ⋅ni
L
i =1
xT = donde n = ni
n
h =1
La variación total de los datos tiene dos fuentes de variación, la variación que hay en las
observaciones dentro de los estratos, que se mide con la intravarianza y se denota por σ w2 , y la
variación que se produce entre los distintos estratos, que se mide con la intervarianza y se
denota por σ B2 . Por lo tanto, la varianza total σ T2 se obtiene por:
σ T2 = σ W2 + σ B2
La intravarianza se define como el promedio de las varianzas de los estratos, esto significa
que:
L
σ i2 ⋅ n i
σ W2 = i =1
(x i
− xT ) ⋅ni
2
σ B2 = i =1
n
EJEMPLO:
36
ESTADISTICA DESCRIPTIVA
Marca Cantidad de especímenes Media Varianza
(nh) ( xh ) ( s 2h )
A 7 8,271 2,139
B 5 7,500 2,825
C 6 6,350 1,123
D 6 5,817 2,406
Solución.
8 , 271 ⋅ 7 + 7 , 5 ⋅ 5 + 6 , 35 ⋅ 6 + 5 ,817 ⋅ 6
xT = = 7 , 0166
24
24
Existe mayor variabilidad en el contenido de folacina al interior de las marcas, ya que σ W2 > σ B2 .
37
ESTADISTICA DESCRIPTIVA