PROBABILIDADES Y ESTADÍSTICA
II DISTRIBUCIÓN DE FRECUENCIAS
2.1. Distribución de frecuencias para variables cualitativas
2.2. Distribución de frecuencias para variables discretas.
2.3. Distribución de frecuencias para variables continuas.
2.4. Representación gráfica de distribución de frecuencias; Histogramas,
Polígono de frecuencias. Ojiva.
2.1. Distribución de frecuencias para variables cualitativas
El paso siguiente a la recolección de datos es la organización y presentación de los
datos de tal forma que facilite su comprensión para su posterior análisis e
interpretación.
Existen muchos paquetes estadísticos que nos ayudan a organizar los datos, entre
los más usuales están: Excel, SPSS, Statgraphics, Minitab, RStudio y otros.
Los cuadros numéricos de una variable estadística se denominan Tablas de
distribución de frecuencias, que los veremos en esta unidad.
Supongamos que se tomaron una muestra de n datos de una variable estadística
cualitativa que tiene k categorías o modalidades diferentes C 1, C2, C3,… , Ck. La
distribución de estos n datos los representamos con frecuencias, donde:
La frecuencia absoluta fi o (ni) representa el número de observaciones que hay en
cada categoría o modalidad, donde la suma de todos los f i es igual al total de datos
observados n (tamaño de la muestra).
k
f
i 1
i n
La frecuencia relativa hi es la fracción o porción del total de datos que hay en cada
una de las clases, se obtiene como:
k
fi
hi
n
además h 1
i 1
i
La frecuencia porcentual pi es el tanto por ciento que hay en cada una de las
categorías y se obtiene como:
pi hi 100%
La frecuencia absoluta acumulada F i o (Ni) (Menor o igual que) es la acumulación
en forma ordenada y ascendente de frecuencias absolutas, esto es:
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
F1 f1
F2 f1 f 2
F3 f1 f 2 f3
Fk f1 f 2 f3 ... f k
Donde:
Fk n
La frecuencia absoluta acumulada F i* (Mayor o igual que) es la acumulación en
forma ordenada descendente de frecuencias absolutas, esto es:
Fk * f k
Fk*1 f k f k 1
Fk* 2 f k f k 1 f k 2
F1* f k f k 1 f k 2 ... f1
Donde:
F1* n
La frecuencia relativa acumulada Hi (Menor o igual que) es la acumulación en
forma ordenada y ascendente de frecuencias relativas, esto es:
H1 h1
H 2 h1 h2
H 3 h1 h2 h3
H k h1 h2 h3 ... hk
Donde:
Hk 1
Además:
Fi
Hi
n
La frecuencia relativa acumulada Hi* (Mayor o igual que) es la acumulación en
forma ordenada descendente de frecuencias relativas, esto es:
H k * hk
H k*1 hk hk 1
H k* 2 hk hk 1 hk 2
UNSAAC 2
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
H1* hk hk 1 hk 2 ... h1
Donde:
H1* 1
Representación gráfica.
Para representar gráficamente variables cualitativas, utilizaremos los diagramas de
barras y el de sectores circulares (diagramas de bastones)
Ejemplo 2.1
En una encuesta de opinión sobre las preferencias de un grupo de Turistas respecto
al tipo de Turismo a realizar: Tradicional (T), Vivencial (V), Aventura (A) y Espiritual
(E), se obtuvieron los siguientes resultados:
V, T, V, T, T, E, V, A, T, A, E, V, T, T, T, V, E, V, T, E, T, T, V, E, A,
A, T, A, T, E, T, V, A, T, T, T, A, T, A, E, A, A, T, A, T, T, V, A, A, T
Construir la distribución de frecuencias y trazar una representación gráfica
Xi fi Fi F i* hi Hi H i* pi %
T
V
A
E
Total
Interpretación de resultados
UNSAAC 3
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
2.2. Distribución de frecuencias para variables discretas.
Sabemos que una variable estadística es discreta cuando toma valores enteros
para la variable, tales como edad, número de personas, número de autos, etc.
Supongamos que hemos recolectado n valores de una variable discreta X, el
procedimiento más simple para organizar estos n datos, consiste en ordenar estos
valores numéricos en forma ascendente, luego realizar el conteo correspondiente
para cada valor distinto de X.
Si todos los n valores de la variable X son diferentes, se obtendrá una distribución
de frecuencias con n clases diferentes de frecuencia absoluta igual a 1.
Si algunos valores se repiten y al terminar el conteo se obtienen (k < n) valores
distintos de X, digamos x1, x2, x3,… xk, cuyas frecuencias absolutas son f1, f2, f3,…,
fk, la tabla de distribución de frecuencias de estos n datos se representa como:
Frecuencias Frecuencias
Valores de la variable X Frecuencias absolutas
relativas porcentuales
xi fi
hi pi
x1 f1 h1 p1
x2 f2 h2 p2
x3 f3 h3 p3
xn fn hn pn
Total n 1 100%
Cuando el número de observaciones es demasiado grande y con mucha
variabilidad de valores, por ejemplo las edades de 200 estudiantes de la
universidad, su organización es demasiado engorrosa, por lo que será necesario
utilizar los intervalos de clase.
Representación gráfica
Para representar gráficamente un conjunto de datos de variable discreta, se utiliza
la gráfica de tipo bastón que consiste en trazar para cada valor distinto de la
variable un segmento de recta proporcional a su frecuencia, sin embargo, se puede
utilizar también los diagramas de barras rectangulares.
UNSAAC 4
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Ejemplo 2.2.
Se realizó una encuesta a un grupo de trabajadores de un centro informático
respecto al número de hijos que tenían y se obtuvo las siguientes respuestas:
1, 2, 4, 2, 1, 1, 3, 2, 1, 0,
3, 0, 2, 1, 3, 2, 2, 2, 1, 2
Construir la tabla de frecuencias y trazar el gráfico correspondiente.
Solución:
Xi fi Fi F i* hi Hi H i*
Total
Diagrama de bastones
fi
8
6
4
2
Xi
0 1 2 3 4
Interpretaciones: f1 , f4 , h1, h5 , F1, F3, F2*, F4*
UNSAAC 5
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Distribución de frecuencias para variables continuas.
Los datos u observaciones del conjunto original se designan también por x 1, x2, x3, .
. . , xn, siendo n el tamaño de la muestra, siendo estos datos del tipo continuo. En
este caso debido a la gran variabilidad de valores que puede tomar (teóricamente
infinitos valores), para el proceso de reducción es necesario agruparlos para la
construcción de la tabla de frecuencias, por lo que el proceso no es tan simple como
en el caso de datos discretos.
Para entender de mejor manera la construcción de la tabla de frecuencias para
variables continuas, veremos un ejemplo para explicar sus elementos, esto es:
Se tiene el siguiente conjunto de datos correspondiente al jornal diario de un grupo
de 20 obreros que trabajan en la construcción de un centro informático, expresados
en soles:
35, 45, 37, 50, 60, 52, 54, 47, 62, 40,
45, 37, 50, 64, 50, 60, 75, 49, 64, 70
ELEMENTOS:
Rango ó amplitud del recorrido (R) : Es la diferencia entre el mayor y menor valor del
conjunto de datos.
R x max x min
xmax =
xmin = R=
R=
Intervalo de Clase ( Ii ) : Es una clasificación de los datos en subgrupos, es decir se
particiona el rango en “k” clases y se denota por:
I [L i , Ls
Observemos que no existe una regla estricta para tomar los intervalos de clase, estos
podrían ser:
I = [Li , Ls> ; I = <Li , Ls] ; I = [Li , Ls] ; I = <Li , Ls>
Dependerá mucho del criterio del investigador o del conjunto de datos y lo que se
desea mostrar en la tabla de frecuencias.
UNSAAC 6
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Límite de clase: Son los extremos del intervalo de clase, esto es:
Límite superior
[ 20 ; 30 >
Límite
Inferior
Número de Clases: (k) o (m): Es la cantidad de intervalos de clase en las cuales se ha
particionado el rango.
Por lo general para realizar una tabla de frecuencias nos indican el número de clases,
en caso no tengamos el número de clases, se puede determinar de las siguientes
formas:
1°. Elegimos no menos de 5 intervalos de clase ni más de 20, (5 k 20) puesto que
pocos intervalos no muestran claramente las diferentes características de la
variable y si tomamos muchas clases pueden complicar el cálculo de las medidas
descriptivas, todo dependerá de la cantidad de datos con los cuales se esté
trabajando.
2°. Aplicando la Fórmula de Sturges, donde: k = 1 + 3.3 log(n), n 10
Si n = 20 k = 1 + 3.3 log(20)
k=
k=
k (aproximamos)
3°. Aplicando la Regla de Jule, donde: k= n
Si n = 20 k =
k=
k (aproximamos al entero mayor)
Ancho de clase (Ai o Wi): Denominado también amplitud de clase y es la longitud de
cada intervalo de clase, se calcula como la diferencia entre el límite superior e inferior
de un intervalo de clase.
Ai L s L i o Wi L s L i
No siempre los intervalos de clase tendrán la misma amplitud de clase, si todas las
clases tienen longitudes iguales, se denomina tabla de distribución de frecuencias de
amplitud constante.
UNSAAC 7
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
R
Si la amplitud de clase es constante, entonces: A
k
Para el ejemplo dado, tenemos que: A =
Marca de clase (xi) o (yi): Es el punto medio de cada intervalo de clase, se dice
también que es el valor representativo de cada intervalo de clase y se calcula como:
Li Ls
xi
2
Ahora construyamos la tabla de frecuencias del ejemplo de los jornales diarios de 20
obreros
35, 45, 37, 50, 60, 52, 54, 47, 62, 40,
45, 37, 50, 64, 50, 60, 75, 49, 64, 70
Ii xi Conteo fi Fi Fi* hi Hi Hi*
Total
UNSAAC 8
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Ejemplo 2.3.
Se han registrado observaciones referentes a los pesos de 50 lingotes de acero
producidos por una empresa minera, la muestra fue obtenida de la producción
semanal y las unidades están dadas en Kg.
94.3 93.0 95.5 95.3 92.4 94.4 92.8 93.2 93.6 95.5
92.9 93.6 95.7 93.8 94.8 93.9 92.7 91.6 93.6 93.7
94.2 95.7 94.7 94.3 92.7 94.5 96.2 95.4 93.7 91.9
94.7 92.7 95.0 93.0 92.9 93.7 92.7 93.3 94.6 96.4
94.1 93.7 94.2 93.7 94.0 93.9 93.6 94.6 92.3 94.4
Clasificar estas observaciones en una tabla de frecuencias con 5 clases de igual
amplitud e interpretar algunos resultados.
Solución:
UNSAAC 9
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Ii xi Conteo fi Fi Fi* hi Hi Hi*
Total
Interpretaciones:
Ejemplo 2.4.
Se tienen las siguientes observaciones correspondientes a las estaturas de 50
turistas nacionales (en centímetros), que llegaron al Cusco en el mes de Enero.
156 – 173 – 148 – 162 – 165 – 148 – 160 – 155 – 137 – 177 – 171 – 130 – 155 – 172
– 141 – 135 – 169 – 175 – 167 – 135 – 171 – 156 – 179 – 158 – 163 – 171 – 137 –
142 – 154 – 145 – 132 – 159 – 155 – 135 – 155 – 174 – 158 – 171 – 149 – 150 – 142
– 137 – 156 – 162 – 175 – 158 – 137 – 153 – 157 – 155.
Construir la tabla correspondiente, con una amplitud de intervalo constante igual a
10.
UNSAAC 10
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Solución:
Ii Xi fi Fi Fi* hi Hi Hi*
2.3. Representación gráfica de distribución de frecuencias; Histogramas, Polígono
de frecuencias. Ojiva.
Recordemos que la representación gráfica de un conjunto de datos ayuda a
observar de mejor manera la distribución de los datos, por lo que es recomendable
graficarla al lado de la tabla de frecuencias que dio origen.
Para representar gráficamente tablas de frecuencias de variables discretas o
variables cualitativas, se utilizan los diagramas de barras y el diagrama escalonado,
esto es:
Ejemplo 2.5.
En la siguiente muestra de 20 familias, se considera el número de integrantes por
familia: 3; 5; 6; 4; 3; 4; 2; 6; 5; 4; 5; 5; 4; 4; 3; 3; 4; 4; 2; 6. Construir la tabla
correspondiente, diagrama de barras, diagrama escalonado.
Solución:
Construimos la tabla de frecuencias, realizando el conteo obtenemos:
xi Conteo fi Fi hi Hi
Total n=20 1.00
UNSAAC 11
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Diagrama de barras
fi
7
6
5
4
3
2
1
X
2 3 4 5 6 i
Diagrama escalonado
Fi
20
16
12
8
4
Xi
2 3 4 5 6
UNSAAC 12
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Ejemplo 2.6.
Con los datos del ejemplo 2.4, construir el histograma de frecuencias, polígono de
frecuencias, diagrama escalonado y la ojiva correspondiente.
Solución:
Histograma de frecuencias
Son barras continuas que se utilizan para representar gráficamente datos
cuantitativos continuos expresados en intervalos de clase, un histograma se puede
aplicar a las frecuencias absolutas, relativas, absolutas acumuladas y relativas
acumuladas
fi
16
12
150 160 170 180 Xi
130 140
UNSAAC 13
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Polígono de frecuencias
Se obtiene uniendo los puntos medios de las partes superiores de las barras de un
histograma de frecuencias absolutas o relativas pero que no sean acumuladas,
empezando en el punto medio de la clase anterior a la primera y terminando en el
punto medio de la clase posterior a la última, esto es:
fi
16
12
150 160 170 180 Xi
130 140
Diagrama escalonado
Denominado también histograma de frecuencias absolutas acumuladas, se puede
graficar también para las frecuencias relativas acumuladas
Fi
50
40
30
20
10
170 180
Xi
130 140 150 160
OJIVA
Se unen los puntos finales de las partes superiores de cada barra en el histograma
de frecuencias absolutas acumuladas o en el histograma de frecuencias relativas
acumuladas.
UNSAAC 14
PROBABILIDADES Y ESTADÍSTICA – Ing. Informática Mgt. Joel Olarte Estrada
Fi
50
40
30
20
10
170 180 Xi
130 140 150 160
UNSAAC 15