Apuntes Estadística Descriptiva - TUP - 2020
Apuntes Estadística Descriptiva - TUP - 2020
Apuntes Estadística Descriptiva - TUP - 2020
Definiciones Preliminares
POBLACIONES Y MUESTRAS
La totalidad de las observaciones individuales sobre las cuales se hacen inferencias, las
cuales existen en cualquier parte del mundo o al menos dentro de un área de muestreo
claramente especificada, limitada en espacio y tiempo.
__________________________________________________________________________ 2
Estadística descriptiva
Si se toman cinco hombres y se estudia el número de leucocitos en su sangre
periférica, con la intención de sacar conclusiones sobre todos los hombres a partir de
esta muestra de cinco, en este caso la población de la que se ha extraído la muestra
representa los recuentos de leucocitos de todos los varones de la especie Homo
sapiens. En cambio si se restringe a cinco varones argentinos de 20 años, la población
muestreada estará constituida por los números de leucocitos de todos los varones
argentinos de 20 años. En todos los casos la muestra es un subconjunto de la
población.
P
A
Para que sea representativa de una población, el tanto por ciento de individuos de
la muestra que poseen una propiedad determinada ha de ser el mismo que el tanto
por ciento de individuos con esta propiedad en la población.
Ejemplo 1:
__________________________________________________________________________ 3
Estadística descriptiva
Si para encuestar a 5.000 personas, de las que 2.700 son mujeres y 2.300 son
hombres se toma una muestra de 2.000 personas, entre ellas tendrá que haber, para
que sea representativa:
x 2700
x : mujeres, ; x 1080 mujeres
2000 5000
y 2300
y : hombres, ; y 920 hombres
2000 5000
EXPERIMENTO ALEATORIO
ESCALAS DE MEDICIÓN
Escala nominal:
Una variable nominal consiste en categorías a las que se asigna un nombre sin
que exista ningún orden implícito entre ellas.
A las variables nominales le asignaremos una escala nominal. Es la escala de
nivel más sencilla.
La forma más simple de observación es la clasificación de individuos en
categorías que simplemente pueden distinguirse entre sí, no existe orden implícito entre
ellas, no pueden compararse ni realizarse entre ellas operaciones aritméticas. En este
tipo se incluyen características tales como la profesión, nacionalidad, grupo sanguíneo,
provincia de origen, etcétera.
Escala ordinal:
Una variable ordinal consiste en categorías ordenadas, la diferencia entre
categorías puede no ser iguales. En ningún caso sabemos con certeza cuanto “mayor”
es una categoría de la variable respecto a otra pues no existe una medición de
distancia.
A las variables ordinales asignaremos una escala ordinal. La escala ordinal tiene
las características de la escala nominal con una relación implícita de orden entre las
medidas.
__________________________________________________________________________ 5
Estadística descriptiva
Las distintas calificaciones de un estudiante dadas como excelente-muy bueno-
bueno-regular-aplazado, tienen cuatro categorías. Difieren de una variable como el color
del pelo en el hecho de que existe una ordenación entre estos valores: excelente es
mejor que muy bueno y éste, a su vez, mejor que bueno, que es mejor que regular y
que aplazado. Sin embargo, no podemos suponer que la diferencia entre excelente o
muy bueno, bueno, regular y aplazado sea la misma que la existente entre excelente y
aplazado.
Escala de intervalo:
Si consideramos una variable cuantitativa, que toma valores reales, a esta
variable interválica le corresponde una escala de intervalo, donde esta definida la
igualdad, orden y distancia, es decir puede indicar cuánto más significa una categoría
que otra.
Es necesario que se defina una unidad de medida y un origen, que es por su
naturaleza arbitrario. Tal como ocurre con la temperatura, la escala cronológica, el
poder adquisitivo etc.
Cuando se dice que una unidad de análisis es “mayor” que otro, se puede
especificar cuantas unidades de diferencia hay entre ambos o cuantas unidades una
unidad es mayor que el otro. Por ejemplo con la medición de intervalo es posible decir
no sólo que Pedro tiene un cociente intelectual mayor que Juan, sino que se puede
decir cuanto es la diferencia entre sus cocientes intelectuales. Un cociente intelectual
igual a 0 no significa ausencia de inteligencia, sino un problema grave intelectual o de
percepción al utilizar los elementos de la prueba.
Escala de razón o de proporción:
Una variable cuantitativa a la cual se le puede asignar una escala de intervalos
pero que además esta definido el cero absoluto, se denomina variable de razón o de
proporción y dicha escala se denomina de escala de razón o de proporción. El cero
absoluto representa la ausencia de la característica bajo estudio.
Ejemplos de este tipo de variables son: el volumen de ventas, los costos de
producción, la cotización de un cierto tipo de acciones, etcétera
Resumen
Datos
VARIABLE VARIABLE
CATEGÓRICA O NUMÉRICA O
CUALITATIVA CUANTITATIVA
__________________________________________________________________________ 6
Estadística descriptiva
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
Existen tres formas para presentar los datos relativos a una población ó a una
muestra, ya organizados y procesados de cualquier estudio estadístico: texto, cuadros o
tablas y gráficos.
TEXTO
Es una combinación de cifras y texto. Esta forma de presentación permite llamar
la atención sobre las comparaciones de importancia y destacar ciertas cifras. Sin
embargo, sólo puede utilizarse cuando los datos por presentar son pocos.
CUADROS O TABLAS
Este tipo de presentación de la información permite volcar un gran número de
datos en forma resumida, con lo que hace fácil y clara su lectura. Es más breve, puesto
que los encabezados de las columnas y los títulos de las filas evitan repetir
explicaciones, Fundamentalmente, facilita las comparaciones de los datos.
GRÁFICOS
La representación gráfica de los datos contenidos en un estudio estadísticos tiene
como finalidad ofrecer una visión de conjunto del fenómeno sometido a investigación,
más rápidamente perceptible que la observación directa de los datos numéricos. De
aquí que las representaciones gráficas sean un medio eficaz para el análisis de la
información estadística, ya que las magnitudes y las regularidades se aprecian y
recuerdan con más facilidad cuando se examinan gráficamente. Hay que advertir, sin
embargo, que la representación gráfica no es más que una herramienta de la
investigación estadística, la cual es básicamente numérica.Las representaciones
gráficas pueden hacerse utilizando un sistema geométrico de representación, en cuyo
caso gozan de rigurosidad y precisión, o bien pueden utilizarse símbolos alusivos al
tema en estudio, por ejemplo: casas, árboles figuras humanas, etcétera. Mediante este
último sistema de representación no se persigue una rigurosa exactitud, sino lograr
efectos visuales en quien está leyendo la información.Existe una gran variedad de
gráficos. Su elección depende de las variables en estudio y de las características que se
quieren destacar. Para la construcción de gráficos no hay reglas únicas. Siempre se
debe tener presente que un gráfico de información más rápida pero menos precisa que
la tabla.
ORGANIZACIÓN DE LOS DATOS
Cuando se comienza a analizar una variable estamos interesados en saber los
valores que puede tomar, el número total de datos con que contamos y cuántas veces
aparecen los diferentes valores. Para presentar una variable es útil representarla
mediante una tabla o cuadro.Cuando se dispone de gran número de datos, es útil
distribuirlos en clases o categorías y determinar el número de individuos pertenecientes
a cada clase, que es la frecuencia de clase. Una ordenación tabular de los datos, con
las frecuencias correspondientes, se conoce como una distribución de frecuencias. A
continuación presentamos una distribución de frecuencias correspondientes a una
muestra de tamaño n.
__________________________________________________________________________ 7
Estadística descriptiva
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS
X fi fri Fi Fri
m m
Total fj n
j 1
f rj 1
j 1
FRECUENCIA ABSOLUTA
Frecuencia absoluta
Definición: es el número de veces que se presenta cada valor de la variable.
f
i 1
i n
__________________________________________________________________________ 8
Estadística descriptiva
Siendo n: el número de elementos de la muestra
m: el número de valores distintos que toma la variable X
N: tamaño de la población
FRECUENCIA RELATIVA
Frecuencia relativa
Definición: Frecuencia relativa es el cociente entre la frecuencia absoluta f i y el número
total de elementos n de la muestra.
fi
f ri
n
La frecuencia relativa indica la proporción de individuos que poseen ese valor de
la variable con respecto al total de individuos
0 f ri 1
La frecuencia relativa toma como valor mínimo el cero y como máximo el valor 1.
Una propiedad muy importante es que: “La suma de todas las frecuencias
relativas nos da siempre 1”.
f
i 1
ri 1
I: VARIABLES
X f
x1 f1
x2 f2
. .
. .
. .
xk fk
__________________________________________________________________________ 9
Estadística descriptiva
k
f =n i
i 1
k n
Ejemplo 2:
Sea X: “Número de cuadras caminadas por 14 alumnos de una escuela
rural, para llegar cada mañana”.
La muestra observada es
5 5 5 6 8 4 4 2 1 8 6 6 4 5
siendo n =14
Se pide: organizar los datos en una tabla de frecuencias y luego graficar la
variable X con relación a su frecuencia absoluta
Solución: Debemos realizar primeramente una presentación tabular de los datos,
para tal fin lo primero que realizamos es un ordenamiento de los datos observados.
1 2 4 4 4 5 5 5 5 6 6 6 8 8
X f F
1 1 1
2 1 2
4 3 5
5 4 9
6 3 12
8 2 14
Total f i 14
i
__________________________________________________________________________ 10
Estadística descriptiva
GRÁFICO DE BARRAS
Diagrama de barras
5
3
número de alumnos
0
1 2 4 5 6 8
número de cuadras
10
F
5
0
0 2 4 6 8 10
X
11 12 12 12 13 14 14 14 15 15
15 16 17 18 20 20 22 23 24 24
26 27 30 31 31 31 32 33 35 36
2. Observamos que en todos los datos, los dígitos de la izquierda son los números 1,2
y 3. Listamos estos números de arriba abajo y dibujamos una línea vertical
1
2
3
1 1 2 2 2 3 4 4 4 5 5 5 6 78
2 0 0 2 3 4 4 6 7
3 0 1 1 1 2 3 5 6
GRÁFICO DE PUNTOS
Ejemplo 4:
Los siguientes datos son doce lecturas de temperatura en varios puntos de un gran
horno (en grados Fahrenheit):
445 410 470 460 415 510 450 495 465 500 475 425
Realice un diagrama de puntos.
__________________________________________________________________________ 12
Estadística descriptiva
Temperaturas en varios puntos de un horno (en ºF)
Temperaturas en °F de 12 hornos
b) DATOS AGRUPADOS
X f fr
[xo-x1 ) f1 fr1
[x1-x2 ) f2 fr2
: : :
: : :
[xk-1-xk ] fk frk
k k
i 1
fi n f
i 1
ri 1
__________________________________________________________________________ 13
Estadística descriptiva
FRECUENCIA ABSOLUTA DE CLASE: es el número de observaciones de una
clase f.
Clase: se llama clase a cada uno de los intervalos en que podemos dividir el
recorrido de la variable estadística. Los intervalos pueden o no ser de la misma
amplitud, en general trabajaremos con intervalos de igual amplitud.
Para ciertos propósitos, los valores de una clase se representan a menudo por el
punto medio de clase o marca de clase, que es el punto medio del intervalo de clase,
puede ser determinado calculando la media aritmética entre los límites superior e
inferior.
Ejemplo 5:
En el siguiente ejemplo aplicaremos un método para construir la tabla de
distribución de frecuencias de la variable en estudio.
A continuación se registran los pesos de 40 estudiantes con aproximación de
una libra. Se pide:
__________________________________________________________________________ 14
Estadística descriptiva
a) Construir una tabla de frecuencia con datos agrupados
b) Graficar.
138 164 150 132 144 125 149 157
146 158 140 147 136 148 152 144
168 126 138 176 163 119 154 165
146 173 142 147 135 153 140 135
161 145 135 142 150 156 145 128
Un número muy pequeño de clases puede ocultar la distribución real del conjunto
de datos, mientras que un número muy grande puede dejar sin observaciones algunas
clases.
Una buena práctica es la creación de clases de igual longitud.
Esto se obtiene tomando la diferencia entre los dos valores extremos del
conjunto de datos y dividiéndola entre el número de clases. El resultado será
aproximadamente la longitud del intervalo de cada clase. Hay casos en que este
método no puede aplicarse, y se deberá tomar intervalos de clases diferentes.
Para establecer las fronteras de clase es necesario considerar la unidad más
cercana con respecto a la cual se miden las observaciones, en nuestro ejemplo
está redondeado a la libra más cercana, tomamos entonces la unidad decimal para
establecer las fronteras, ej. 126,5.
Estas fronteras se conocen como límites verdaderos.
Dado que los pesos están tomados a la libra más cercana, pueden tomarse los
límites de las clases: (118--126) (127--135), de esta forma las clases no se
superponen. Esta forma de tomar las fronteras se conoce como límites de escritura.
Utilizaremos para realizar nuestro ejemplo los límites de tal forma que el límite
superior de cada clase coincida con el límite inferior de la siguiente, adoptaremos como
criterio que los intervalos se suponen cerrados por izquierda y abiertos por la derecha,
es decir, en cada clase se incluyen los valores de la variable que sean mayores o
iguales al límite superior, pero estrictamente menores que el límite superior.
Como excepción al criterio adoptado, en la última clase, el intervalo será cerrado
en ambos extremos, si no fuera así, el valor máximo quedaría fuera del intervalo.
El método consta de los siguientes pasos:
R = xmax - xmin
R =176-119=57 libras.
k = 1 + 3,3 log n
k = 1 + 3.3 log 40 = 6,29 7
En general:
12
cantidad de estudiantes
10
0
118 127 136 145 154 163 172 181
peso
POLÍGONO DE FRECUENCIAS
__________________________________________________________________________ 17
Estadística descriptiva
FRECUENCIA ACUMULADA: es la frecuencia total de todos los valores
Es decir que este gráfico muestra directamente cuántos de los elementos son
menores que, la marca de clase.
fi=40 fri = 1
__________________________________________________________________________ 18
Estadística descriptiva
Histograma de frecuencias acumuladas
45
40
35
frecuencias acumuladas
30
25
20
15
10
0
118 127 136 145 154 163 172 181
peso
1,2
1
0,8
Fr 0,6
0,4
0,2
0
118 127 136 145 154 163 172 180
peso (lb)
II - ATRIBUTOS:
__________________________________________________________________________ 19
Estadística descriptiva
Recordemos que llamamos atributo a aquella característica de la unidad de
análisis que no es susceptible de medición cuantitativa, en estos casos realizamos una
clasificación en categorías.
Ejemplos:
Color de ojos, marca de un automóvil, título secundario, nivel social, sexo, grupo
étnico que pertenece una persona, nivel de gravedad que posee una persona una
determinada enfermedad.
Para presentar un atributo lo podemos hacer mediante una tabla o cuadro, que
ofrece una visión numérica‚ sintética‚y global de dicho atributo.
son: el diagrama circular o gráfico de sectores, los gráficos de barras, que pueden
ser verticales u horizontales, dentro de estos gráficos de barras debemos nombrar el
diagrama de Pareto, muy utilizado hoy en día en calidad, y los pictogramas.
Ejemplo 6:
En la siguiente tabla se presenta el personal ocupado en la industria maquiladora de
exportación, durante los años 2004 al 2008.
__________________________________________________________________________ 20
Estadística descriptiva
DIAGRAMA CIRCULAR O DIAGRAMA DE SECTORES
DIAGRAMA CIRCULAR
15% (2004)
27% (2008)
16% (2005)
DIAGRAMA DE PARETO
Ejemplo 7:
De 2000 circuitos de computadora revisados por el fabricante se obtuvieron los
siguientes datos:
conexiones defectuosas 31
agujeros demasiado grandes 55
agujeros sin abrir 182
circuitos de tamaño incorrecto 5
otros 7
__________________________________________________________________________ 21
Estadística descriptiva
a) Confeccione una tabla de frecuencias.
b) Realice un diagrama de Pareto
TABLA DE FRECUENCIAS
DIAGRAMA DE PARETO
200
180
160
140
120
100
f
80
60
40
20
0
agujeros sin agujeros Conecciones circuitos de otros
abrir demasiado defectuosas tamaño
grandes incorrecto
Defectos
__________________________________________________________________________ 22
Estadística descriptiva
GRÁFICO DE CAJA
Varones 55 64 70 74 75 70 62 93 60 62 70 71
70 80 61 60 62 68 65 66 68 71 72 65
Mujeres 60 49 52 54 56 66 45 52 48 54 56 61
46 50 52 53 56 68 47 50 53 57 60 64
__________________________________________________________________________ 23
Estadística descriptiva
GRÁFICO DE CAJA
Peso de 48 personas
100
90
80
70
60
50 Median
25%-75%
Non-Outlier Range
Outliers
40 Extremes
Varones Mujeres
95
90
85
80
75
70
65
Median = 68
25%-75%
60
= (62, 71)
Non-Outlier Range
55 = (55, 80)
Outliers
50 Extremes
peso de varones
__________________________________________________________________________ 24
Estadística descriptiva
Se puede observar que el bigote superior es más largo que el bigote inferior por lo
que podemos decir que la distribución es asimétrica. Además se observa un punto, que
representa un valor atípico ( 93 ).
Se observa un símbolo adentro de la caja, éste me indica donde está ubicada la
mediana.
Se deja al lector comparar la muestra con los pesos de las mujeres con la muestra
de los pesos de los hombres.
suceder que una serie de datos halla más de una moda. En tal caso se denomina
unimodal, bimodal, trimodal, etc. según el número de modas que presente.
casos el valor de frecuencia mayor como la
moda del conjunto de datos, en otros no podemos tomar dichos valores como
representativos, será en estos casos el estadístico que analiza la situación quien
decidirá.
uales es sencillo, basta con buscar el
valor de la variable que presente la máxima frecuencia absoluta.
Ejemplo 8:
__________________________________________________________________________ 25
Estadística descriptiva
De acuerdo con la revista Informes al Consumidor en su número de febrero de
2008, las cuotas anuales de las 40 compañías argentinas para un seguro de $25000
para hombre de 35 años de edad son las siguientes (en pesos), constituye la
siguiente población:
82 85 86 87 87 89 89 90 91 91 92 93 94 95
95 95 95 95 97 98 99 99 100 100 101 101 103 103
103 104 105 105 106 107 107 107 109 110 110 111
OBSERVACIONES fi Fi Fri
82 1 1 0,025
85 1 2 0,050
86 1 3 0,075
87 2 5 0,125
89 2 7 0,175
90 1 8 0,200
91 2 10 0,250
92 1 11 0,275
93 1 12 0,300
94 1 13 0,325
95 5 18 0,450
97 1 19 0,475
98 1 20 0,500
99 2 22 0,550
100 2 24 0,600
101 2 26 0,650
103 3 29 0,725
104 1 30 0,750
105 2 32 0,800
106 1 33 0,825
107 3 36 0,900
109 1 37 0,925
110 2 39 0,975
111 1 40 1
24
f
i 1
i 40
x i
i 1
x .f i i
i 1
Consideraremos las tres medidas de tendencia central: moda, mediana y media de una
muestra. Estas medidas calculadas sobre una muestra reciben el nombre de
estadísticos.
Moda Muestral
Se puede observar que la moda es una variable, que toma diferentes valores en cada
una de las muestras.
Ventajas y desventajas de la moda:
La moda presenta como ventaja que se puede utilizar como una medida de
tendencia central para cualquier tipo de datos, ya sean estos de tipo cualitativos, como
datos cuantitativos.
Otra ventaja muy importante es que igual que la mediana, no es afectada
indebidamente por valores extremos.
A pesar que tiene las mismas ventajas que la mediana, no es tan utilizada como
la media aritmética o mediana y esto se debe a que muchas veces la distribución de los
datos no tiene moda, y otras contiene más de una moda y resulta difícil interpretar o
sacar una conclusión a partir de distribuciones multimodales.
Mediana Muestral
observaciones, la mediana puede ser una medida de tendencia central mucho más
deseable que la media.
x 5 x 6 77
Me= 7
2 2
Media Muestral
n k
xi x i fi
X i 1
i 1
n n
__________________________________________________________________________ 29
Estadística descriptiva
Consideremos nuevamente la población del ejemplo 10 y dos muestras aleatorias de
esta población:
___
3.7 5.8 2.9 __
4.6 2.7 2.8 2.9
X1 7,9 X2 7,2
10 10
Se puede observar que cada una de las dos medias muestrales no coinciden con la
media poblacional.
Ejemplo 11
Una muestra de 11 pacientes admitidos para diagnóstico y evaluación en un
departamento psiquiátrico en un hospital general experimentó los siguientes tiempos de
permanencia, en días.
Paciente 1 2 3 4 5 6 7 8 9 10 11
Tiempo 14 11 12 14 13 32 12 12 11 13 14
en días
x .f i i
11 2 12 3 13 2 14 3 32
x i 1
= 14,36
n 11
CUANTILES MUESTRALES
Dada una muestra ordenada en forma creciente, el valor que divide al conjunto
de datos en dos partes iguales es la mediana.
Por extensión, si preferimos tener una descripción más detallada de la variabilidad
de los valores individuales, se puede dividir los datos en otras cantidades de partes
iguales. Por ejemplo, en cien, en diez o en cuatro partes iguales, llamando a estas
medidas percentiles, deciles y cuartiles respectivamente.
PERCENTILES
Al dividir los datos en cien partes iguales quedan definidos los percentiles: que se
representan por p1, p2, ..., p99, la mediana muestral es el percentil de orden 50.
La fórmula para obtener el lugar k-ésimo percentil, siendo n: el número de
observaciones:
(n + 1)
Lpk = k --------- Fórmula para obtener el lugar del k-ésimo percentil
100
Así buscando en la lista ordenada de los valores o en la columna de la frecuencia
acumulada, se ve el valor de la variable correspondiente.
En caso de no ser un valor entero se calcula por interpolación lineal el valor del
percentil. En la práctica, tomaremos el valor de la variable correspondiente a la
frecuencia acumulada inmediata superior al valor obtenido de lpk
DECILES
Análogamente los valores que dividen los datos en 10 partes iguales quedan
definidos los deciles y se representan por D1, D2, ..., D9.
La fórmula para obtener el lugar del k-ésimo decil, siendo n el número de
observaciones, es:
(n + 1)
LDk = k --------- Fórmula para obtener el lugar del k-ésimo decil
10
Así buscando en la lista ordenada, de los valores o en la columna de la frecuencia
acumulada, se ve el valor de la variable correspondiente.
En caso de no ser un valor entero se calcula por interpolación lineal el valor del
decil. En la práctica, tomaremos el valor de la variable correspondiente a la frecuencia
acumulada inmediata superior al valor obtenido de lDk.
Es decir el valor de los deciles será:
Dk X n 1
k.
10
__________________________________________________________________________ 31
Estadística descriptiva
CUARTILES
Q k
x k
( n 1 )
4
Si queremos determinar un valor debajo del cuál se halle el 25% de los datos,
calculamos el 1er cuartil Q1, si queremos calcular un valor debajo del cuál se halle el
50% de los datos calculamos el segundo cuartil Q2 y si nos interesa calcular un valor
debajo del cuál se halle el 75% de los datos, calculamos el tercer cuartil Q3.
Si se obtiene valores fraccionados, hacemos una interpolación lineal entre los
dos valores correspondientes a las dos observaciones de la muestra.
Ejemplo 11:
Las siguientes cifras son el importe del consumo de 15 personas en un
restaurant, en orden ascendente, en unidad pesos, 100, 100, 250, 250, 250, 350, 400,
530, 900, 1250, 1350, 2450, 2750, 3090, y 4100. Determinar a) el primer quartil, b) el
primer decil, c) el 40-ésimo percentil
n 1 15 1
a) LQ1 4
4 4
Q1 x n 1 x 4 250
4
n 1 16
b) LD1 1,6 2
10 10
D1 = 100
__________________________________________________________________________ 32
Estadística descriptiva
¿Qué significa que el primer cuartil tome el valor $250?
Significa que el 25 % de los valores son inferiores o iguales a $250 y el 75%
restante es mayor o igual a $250.
¿Qué significa que el primer decil tome el valor $100?
Significa que el 10 % de los valores son inferiores o iguales a $100 y el 90 %
restante es mayor o igual a $100.
p. n p 40.(n 1) 2
c) LP40 .(n 1) 6, 4 7
100 100 5
MODA
x L .c 1
Mo m
1 2
Siendo:
L : límite inferior de la clase modal
Δ : valor absoluto de la diferencia entre la frecuencia de la clase modal y la
premodal.
Δ2: valor absoluto de la diferencia entre la frecuencia de la clase modal y la
posmodal
c: longitud de la clase modal
__________________________________________________________________________ 33
Estadística descriptiva
clase modal
30
25
20
15
f
10
5
0
3
4
5
X
f1 . m1 ...... f k . mk 1 k
x . f i . mi
f1 f 2 ..... f k n i 1
Siendo:
mi: punto medio de la clase i
fi . mi : valor total de observaciones que corresponde a la clase i
k: número de clases
MEDIANA MUESTRAL
interpolación algebraico.
En el método gráfico, el valor de la mediana se halla por interpolación
de la curva ojiva de la distribución.
Trazamos una línea horizontal partiendo del eje vertical por n/2 ó 0,5 según sea la
escala de frecuencia absoluta o frecuencia relativa hasta la ojiva, luego
trazamos una recta perpendicular a la escala horizontal para localizar el valor de la
mediana.
__________________________________________________________________________ 34
Estadística descriptiva
Ejemplo 12:
Hallar la mediana de los pesos de 40 estudiantes de la State University, dados
por el siguiente cuadro:
f
i 1
i 40
0,8
0,6
Fr
0,4
0,2
0
117,5 135,5 153,5 171,5
X
(n+1)
LMe=---------
2
__________________________________________________________________________ 35
Estadística descriptiva
así, buscando el valor obtenido en la columna de la frecuencia acumulada, se ve el
intervalo correspondiente a la clase mediana. Si el número obtenido en LMe no existe, se
toma el inmediato superior.
Una vez identificada la clase mediana el valor de la mediana dentro del intervalo
se halla mediante la fórmula:
n
2 Fp
Me L 0,5 .c
f 0,5
Siendo
20 17
Me 144,5 .8 146,8libras
12
Conclusión el 50% de los alumnos pesan 146,8 libras o menos, y el otro 50%
pesan 146,8 libras o más.
PERCENTILES
k .n
100 Fant. Pk
Pk Linf . Pk .c
f pk
Siendo:
LinfPk : límite inferior de la clase del percentil k.
Fant Pk: frecuencia acumulada de la clase anterior a la clase del percentil k.
fPk : frecuencia absoluta de la clase del percentil k.
c: longitud de la clase del percentil k.
n: tamaño de la muestra.
DECILES:
Hay dos métodos para localizar el decil k, el método gráfico y el método
algebraico.
En método gráfico, el valor del decil k se halla mediante la observación de la ojiva
de la distribución.
En el método algebraico, el valor del decil k se obtiene ubicando primero, la clase
del decil k. La fórmula para obtener dicho lugar, siendo n el número de observaciones
es:
(n + 1)
LDk = k --------- Fórmula para obtener el lugar del k-ésimo decil
100
Así, buscando el valor obtenido, LDk, en la columna de la frecuencia acumulada,
se puede obtener el intervalo correspondiente a la clase k, en la columna de los valores
de la variable. Si el número obtenido en LDk, no existe, se toma el inmediato superior.
Una vez identificada la clase del decil k el valor del decil k dentro del intervalo se halla
mediante la fórmula:
k .n
Fant
Dk Linf 10 .c
f Dk
Siendo:
CUARTILES:
Siendo:
Las medidas de tendencia central nos indican los valores alrededor de los cuales
se distribuyen los datos.
Las medidas de dispersión nos proporcionan una medida del mayor o menor
agrupamiento de los datos respecto a los valores de tendencia central.
Todas las medidas de dispersión son valores mayores o iguales a cero, indicando
un valor cero, la ausencia de dispersión.
__________________________________________________________________________ 38
Estadística descriptiva
Un promedio puede ser engañoso a menos que vaya acompañado de otra
información que nos diga la amplitud o sus desviaciones con relación al promedio.
RECORRIDO O RANGO
R =xmáx - xmín
VARIANZA POBLACIONAL
(x )
i
2
2 i 1
(x )
i
2
i
C.V .
Un inconveniente del coeficiente de variación es que deja de ser útil cuando x esta
próxima a cero.
__________________________________________________________________________ 40
Estadística descriptiva
MEDIDAS DE DISPERSIÓN DE UNA MUESTRA
R =xmáx - xmín
n __
( x x)i
2
VARIANZA MUESTRAL S2 i 1
n -1
__
( xi x ) 2
DESVIACIÓN ESTÁNDAR MUESTRAL S i
n 1
S
C.V . __
COEFICIENTE DE VARIACIÓN
x
Ejemplo 13: Para ver sus aplicaciones analizaremos tres muestras de 40 alumnos cada
una, a los que se les tomó una evaluación de seis preguntas. Los xi indican el número
de respuestas correctas y los fi indican la cantidad de alumnos que obtuvieron dicho
valor.
xi fi xi fi xi fi
1 1 1 16 1 6
2 2 2 3 2 7
3 17 3 1 3 7
4 17 4 1 4 7
5 2 5 3 5 7
6 1 6 16 6 6
Grupo 2
20
15
f 10
__________________________________________________________________________ 41
Estadística descriptiva 5
0
1 2 3 4 5 6
R. Correct as
Las tres distribuciones tienen la misma media aritmética, 2,5 puntos ¿pero
podemos afirmar que hay homogeneidad entre los grupos?. Gráficamente vemos que el
valor de la media aritmética no es suficiente para describir cada una de las situaciones.
Para precisar mejor lo que denominamos como “dispersión” podemos calcular
unos estadísticos que nos den más información, sin necesidad de representar los datos.
1 k
s2
n 1 i 1
f i ( mi x ) 2
Siendo:
mi : punto medio de la clase
k: número de clases
f (m x)
i i
2
s i 1
n 1
Resumen: Estamos en condiciones de resumir en un gráfico que escala debo utilizar con
cada variable y que medidas de tendencia central se pueden obtener con cada escala.
DATOS
VARIABLE VARIABLE
CATEGÓRICA O NUMÉRICA O
CUALITATIVA CUANTITATIVA
ESCALA DE ESCALA
ESCALA ESCALA
INTERVALO DE RAZÓN
NOMINAL ORDINAL
__________________________________________________________________________ 42
Estadística descriptiva
Moda Moda
Moda
Mediana
Mediana
Media Aritmética
Ejemplo 14:
Se ha medido la vida, en horas, de cincuenta lámparas incandescentes, obteniendo
la siguiente muestra:
1067 919 1196 785 1126 936 918 1156 920 948
855 1092 1162 1170 929 950 905 972 1035 1045
1157 1195 1195 1240 1122 938 970 1237 956 1102
1022 978 832 1009 1157 1151 1009 765 958 902
923 1233 811 1217 1085 896 958 1211 1037 702
__________________________________________________________________________ 43
Estadística descriptiva
18
16
14
12
frecuencia
10
8
6
4
2
0
599,5 699,5 699,5 799,5 799,5 899,5 899,5 999,5 999,5 1099,5 1099,5 1199,5 1299,5 1399,5
1199,5 1299,5
CURVA OJIVA
50 50 50
45 45
frecuencia acumulada
40
35 33
30
25 24
20
15
10
7
5 3
0 0
6 9 9 ,5 7 9 9 ,5 8 9 9 ,5 9 9 9 ,5 1 0 9 9 ,5 1 1 9 9 ,5 1 2 9 9 ,5 1 3 9 9 ,5
Media aritmética:
1
x = n1 xi fi = . 51054 = 1021,08 horas.
i 50
Mediana:
El orden de la mediana es (n+1)/2 = 25,5, lo que indica que la mediana será el
promedio entre los números que ocupen las posiciones n/2 y (n+2)/2, o sea, el promedio
entre 1009 horas y 1009 horas, es decir:
__________________________________________________________________________ 44
Estadística descriptiva
Me = 1009 horas.
Esto indica que el 50% de las lámparas duran 1009 horas o menos y el otro
50% de las lámparas duran 1009 horas o más.
Moda:
Como hay tres valores que tienen máxima frecuencia, decimos que la
distribución es trimodal, siendo:
Los valores con mayor frecuencia son 1009 horas, 1157 horas y 1195
horas.
Desviación estándar:
s = s 2 = 137,484818 horas.
Media aritmética:
1 1
x = n mi fi = . 51275 = 1025,5 horas.
i 50
Mediana:
El orden de la mediana es (n+1)/2 = 25,5, luego, observando la frecuencia
acumulada, elegimos la primera que sea mayor o igual a 25,5, entonces, Me [ 999,5 ;
1099,5 ) que es la clase mediana.
c.
n - F
2
ant Me
Esto indica que el 50% de las lámparas duran 1010,61 horas o menos y el
otro 50% de las lámparas duran 1010,61 horas o más.
__________________________________________________________________________ 45
Estadística descriptiva
* Moda: La mayor frecuencia se da en el intervalo [ 899,5 ; 999,5) que es la
clase modal. Se observa que con los datos agrupados tenemos una distribución
unimodal.
El valor del modo dentro del intervalo está dado por:
1 13
Mo = LiMo + l . = 899,5 + 100 . = 961,40 horas.
1 2 13 + 8
(siendo 1 = fMo - fant. Mo y 2 = fMo - fpost. Mo )
* Desviación estándar:
s = s 2 = 134,8619854 horas.
Comentarios:
La media se mantiene parecida porque la muestra es bastante
homogénea.
La mediana es la que menos varía.
El modo es muy distinto porque al ser agrupados las frecuencias
cambian.
El desvío se mantiene bastante parecido.
g) Calcule R, Q3 - Q1 y C.V..
Recorrido intercuartílico:
Como lo obtuvimos:
El orden del primer cuartil es (n+1) .1 / 4 = 12,75
Luego, observando la frecuencia acumulada, elegimos la primera que sea mayor o
igual a 12,75, entonces:
c.
n .1 - F
4
ant Q1
Q1 = LiQ1 +
fQ1
100 . 12,5 - 7
Q1 = 899,5 + = 931,85 horas.
17
El 25% de las lámparas duran 931,5 horas o menos y el 75 % restantes duran
931,5 horas o más.
c.
n .3 - F
4
ant Q3
Q3 = LiQ3 +
fQ3
100 . 37,5 - 33
Q3 = 1099,5 + = 1137 horas.
12
* Coeficiente de variación:
s 134,86
C.V. = = = 0,1315.
x 1025,5
__________________________________________________________________________ 47
Estadística descriptiva
h) ¿Cuál es y qué representa el percentil 45?.
c.
n .45 - F
100
ant P45
P45 = LiP45 +
fP45
100 . 22,5 - 7
P45 = 899,5 + = 990,68 horas.
17
i) ¿Por debajo de qué valor se halla el 25% de las horas de vida de estas
lámparas?.
1000 - 999,5
24 + .33
RP de 1000 = 100 . 100% = 48,33%.
50
__________________________________________________________________________ 48
Estadística descriptiva
El 48,33% de las lámparas duran 1000 horas o menos.
900 - 899,5
7+ .17
RP de 900 = 100 . 100% = 14,17%.
50
MEDIDAS DE ASIMETRÍA
ASIMETRÍA = X M o
__________________________________________________________________________ 49
Estadística descriptiva
DISTRIBUCIÓN NORMAL: función densidad
CURVA NORMAL
0.45
0.4
0.35
0.3
f(x) 0.25
0.2
0.15
0.1
0.05
0
1 3 5 7 9 11 13 15 17 19 21 23 25
x
Se observa que en esta distribución la media aritmética, la mediana y la moda
coinciden. _
Curva simétrica: X Mo X 0,5
Distribución Binomial
0.4
0.35
0.3
0.25
f(x)
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7 8 9
X
Se observa que la media aritmética es mayor que la mediana y la moda, se
observa que la mediana se encuentra entre la media aritmética y la moda.
__________________________________________________________________________ 50
Estadística descriptiva
Distribución Binomial
0.4
0.35
0.3
f(x) 0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7 8 9
X
Conclusión
COEFICIENTE DE ASIMETRÍA
Para saber si una distribución con una sola moda, es asimétrica a la derecha o a
la izquierda, sin necesidad de representarla gráficamente, podemos utilizar el
coeficiente de asimetría de Pearson que calcularemos:
x MO
AP
d
En una distribución simétrica unimodal, la media, la mediana y la moda
coinciden. En este tipo de distribuciones los datos se encuentran repartidos a
lo largo del recorrido de forma que todas las medidas de tendencia central
están justo en el centro del conjunto de datos. Si la distribución es simétrica,
Ap=0, ya que la media aritmética es igual al modo.
COEFICIENTE DE CURTOSIS
1
N
(x i )4 . fi
CF i
2
3
1
N
i ( xi ) 2 . f i
pero se diferencian en cuanto que unas son más planas que otras, esta característica
es conocida como curtosis.
leptocúrtica, si calculamos su valor nos dará un valor positivo, mayor que tres. Los
datos se encuentran muy concentran alrededor de su media.
CURTOSIS
6
4 Curva A
Platocúrtica
ASAC.
f(x 3 "Curva C
)
cA.
Mesocúrtic
2 a
Curva B
1 bB.
Leptocúrtic
a
0
1 3 5 7 9 11 13 15 17 19 21 23 25
__________________________________________________________________________ 52
Estadística descriptiva
__________________________________________________________________________ 53
Estadística descriptiva