Unidad 3
Unidad 3
Unidad 3
La estadística descriptiva registra una serie de datos en tablas y los representa en gráficos. Una de sus principales
aplicaciones es la descripción del conjunto o serie de datos dado, mediante el cálculo de “parámetros estadísticos”, tales
como las medidas de tendencia central o de posición o de dispersión.
O tablas de frecuencia, son arreglos de datos donde se consignan, entre otras cosas, la frecuencia (ya sea absoluta o
relativa) con que se presenta cada dato. Este tipo de tablas de frecuencia se utilizan cuando se opera con variables
discretas.
La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se suele
representar por 𝑓𝑖 . Evidentemente, la suma de las frecuencias absolutas proporciona el número total de datos y se
representa como: 𝑁. Así: 𝑛𝑖=1 𝑓𝑖 = 𝑁.
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos y se
𝑓
representa por 𝑛𝑖. . Esto es: 𝑛𝑖 = 𝑁𝑖 . Asimismo, la suma de las frecuencias relativas es igual a 1.
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores menores o iguales al valor
considerado. Se representa mediante: 𝐹𝑖 . En forma análoga, la frecuencia relativa acumulada es el cociente entre la
frecuencia acumulada de un determinado valor y el número total de datos. Se suele expresar como un porcentaje.
Ejemplo 1.
Un termómetro digital registró las siguientes temperaturas máximas diarias (en Celsius) durante un cierto mes: 32, 31,
28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29 y 29. Representa
la información anterior en una tabla de frecuencias.
O también llamadas “tablas con datos agrupados” se emplean si las variables con las que se opera toman un número
muy grande de valores o las variables de interés son continuas.
Dada la naturaleza continua de la o las variables involucradas o el número tan grande de datos recabados, es necesaria
la definición de intervalos en los cuales se agrupan los valores. Dichos intervalos tienen la misma amplitud y se
denominan “clases”. A cada una de estas clases se le asigna una frecuencia correspondiente.
Cada intervalo o clase está delimitado por un límite inferior de la clase y un límite superior de la clase. Así, la amplitud de
la clase es la diferencia entre el límite superior e inferior de dicha clase. La marca de clase 𝑐𝑖 es el punto medio de cada
intervalo y es el valor que representa a toda esa clase para el cálculo de ciertos parámetros estadísticos.
Ejemplo 2.
Dados los datos que siguen, construye una tabla de datos agrupados: 3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25,
17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
Gráficas Estadísticas
Existen diversos tipos de gráficas, dependiendo de la aplicación en particular. Así, se tienen diagramas de barras,
histogramas, polígonos de frecuencias, diagramas de sectores (o “de pastel”), etc.
Ejemplo 3.
1.000
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.000
1 2 3 4 5 6 7 8
FRECUENCIA RELATIVA ni FREC. REL. ACUMULADA Ni
0.200
0.180
0.160
0.140
0.120
0.100
0.080
0.060
0.040
0.020
0.000
2.5 7.5 12.5 17 22.5 27.5 32.5 37.5 42.5 47.5
Series1
Prof. Dr. Ángel F. Palacios L. Probabilidad y Estadística ICE-ESIME-Z-IPN
Parámetros Estadísticos.
Un parámetro estadístico es un número que se obtiene a partir de los datos de una distribución estadística y sirve como
una primera aproximación a los datos dados por dicha distribución. Existen 3 tipos de parámetros estadísticos: los
llamados “medidores o medidas de tendencia central”, los “de posición” y los de “dispersión”.
Los medidores de tendencia central indican sobre cuál valor (del centro de la distribución) se distribuyen los datos. Hay 3
medidas de tendencia central:
a) La moda (es el dato que más se repite, es decir, el que tiene mayor frecuencia absoluta). Se representa por 𝑀0 .
Si en un grupo de datos hay más de uno con la misma puntuación más alta, entonces se tiene una distribución
bimodal (2) o multimodal (varias modas). Si dos puntuaciones adyacentes tienen la misma frecuencia máxima,
entonces la moda es el promedio de ambas puntuaciones adyacentes. Si todos los datos tienen la misma
frecuencia, entonces no hay moda. Para datos agrupados (intervalos de igual longitud), la moda se obtiene a
partir de:
𝑓 𝑖 −𝑓 𝑖−1 𝑓 𝑖+1
𝑀𝑜 = 𝐿𝑖 + 𝑎𝑖 o, en forma aproximada, 𝑀𝑜 = 𝐿𝑖 + 𝑎𝑖
𝑓 𝑖 −𝑓 𝑖−1 + 𝑓 𝑖 −𝑓 𝑖+1 𝑓 𝑖−1 + 𝑓 𝑖+1
Donde:
𝐿𝑖 = Límite inferior de la clase modal (la clase modal es la clase o intervalo con mayor frecuencia)
𝑎𝑖 = Amplitud de la clase modal
𝑓𝑖 = Frecuencia absoluta de la clase modal
𝑓𝑖−1 = Frecuencia absoluta de la clase inmediatamente anterior a la clase modal
𝑓𝑖+1 = Frecuencia absoluta de la clase inmediatamente posterior a la clase modal
b) La mediana es el dato que divide exactamente en 2 a un grupo de datos, cuando están ordenados de menor a
mayor. Es decir, hay exactamente el mismo número de datos por abajo que por arriba de la mediana. Se
representa por 𝑀𝑒 . Si la serie tiene un número impar de datos, entonces la mediana es el dato exactamente en
el centro de la serie. Si la serie tiene un número par de datos, la mediana es la media entre las dos puntuaciones
centrales. Para datos agrupados, la mediana se encuentra en el intervalo donde la frecuencia acumulada llega
hasta la mitad de la suma de las frecuencias absolutas (es decir, se debe encontrar el intervalo donde se
𝑁
encuentre 2 ) y se calcula mediante:
𝑁
− 𝐹𝑖−1
𝑀𝑒 = 𝐿𝑖 + 2 𝑎𝑖
𝑓𝑖
Donde:
𝐿𝑖 = Límite inferior de la clase donde se encuentra la mediana (clase mediana)
𝑎𝑖 = Amplitud de la clase
𝑁
2
= Semisuma de las frecuencias absolutas
𝐹𝑖−1 = Frecuencia acumulada de la clase inmediatamente anterior a la clase mediana
Prof. Dr. Ángel F. Palacios L. Probabilidad y Estadística ICE-ESIME-Z-IPN
c) La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de
datos. Se representa por 𝑥 . Así:
𝑛
𝑖=1 𝑋 𝑖
𝑋= 𝑁
(Datos no agrupados)
𝑛
𝑖=1 𝑋 𝑖 𝑓 𝑖
𝑋= (Datos agrupados)
𝑁
Las medidas de posición dividen un conjunto de datos (ordenados de menor a mayor) en grupos con el mismo número
de datos. Existen 3 tipos: los cuartiles, los deciles y los percentiles. Los cuartiles son 3 valores de la variable (𝑄1 , 𝑄2 𝑦 𝑄3 )
que dividen a un conjunto de datos ordenados en 4 partes iguales (25%, 50% Y 75% de los datos, respectivamente). 𝑄2
coincide con la mediana. En forma análoga, los deciles dividen la serie de datos en 10 partes iguales y los percentiles la
dividen en 100 partes iguales.
Los cuartiles, para datos no agrupados, se determinan ordenando los datos de menor a mayor y luego se encuentra la
mediana. El primer cuartil es la mediana de la mediana (mitad inferior de los datos), mientras que el tercero también es
la mediana de la mediana, pero ahora de la mitad superior de los datos.
Deciles
Percentiles
Por otro lado, las medidas de dispersión indican cuánto se alejan del centro los valores de la distribución. Las medidas de
dispersión son el rango, la desviación media, la varianza y la desviación estándar. El rango o recorrido es la diferencia
entre el dato mayor y el menor en una distribución estadística. La desviación media es la diferencia entre cada dato y la
media aritmética de la distribución. La varianza es la media aritmética del cuadrado de las desviaciones respecto a la
media. Finalmente, la desviación estándar es la raíz cuadrada positiva de la varianza.