GUIA N°1 - Estadística Descriptiva
GUIA N°1 - Estadística Descriptiva
GUIA N°1 - Estadística Descriptiva
Bautista Arellano
Una vez obtenidos los datos de una muestra o de una población objeto de estudio, procedemos a
organizarlos y presentarlos mediante una tabla de distribución de frecuencias y gráficos
estadísticos, tanto para variables cualitativas como para variables cuantitativas.
Se acostumbra representar una variable cualitativa de escala nominal en una tabla con 4 columnas
para el número de la categoría, el nombre de la categoría, las frecuencias absolutas y las
frecuencias relativas.
La frecuencia absoluta es el número de veces que se repite un dato dentro de una muestra ó
población objeto de estudio.
Se simboliza como 𝑓𝑖
Se lee “La frecuencia absoluta del dato 𝑖”.
En general se tiene que:
“La suma de todas las frecuencias absolutas, es igual al número de datos”
𝐸𝑛 𝑆í𝑚𝑏𝑜𝑙𝑜𝑠:
𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 = ∑𝑘
𝑖 𝑓 ; 𝑘 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎𝑠 ó 𝑐𝑙𝑎𝑠𝑒𝑠.
𝑖
Ejemplo 1: En un cuestionario una de las preguntas se refiere al estado civil de las personas
encuestadas, considerando las siguientes categorías:
1. Casado
2. Unión libre
3. Soltero
4. Separado
5. Viudo
1 1 4 5 1
2 1 2 4 5
3 1 3 1 1
4 4 1 2 2
Entonces:
𝑓1 = 8 “significa que hay 8 personas casadas”. Así mismo
𝑓2 = 4 “significa que hay 4 personas en unión libre”. Así mismo
𝑓3 = 2, etc.
Observamos que:
𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 = 20; 𝑛 = 20 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
𝑓1 8
Para el ejemplo se tiene que: 𝑓 = ∗ 100 = ∗ 100 = 40%
𝑟1 𝑛 20
Lo que significa que “El 40% de las personas encuestadas son casados. En forma similar:
𝑓𝑟2 = 20%, 𝑓𝑟3 = 10%, 𝑓𝑟4 = 20%, 𝑓𝑟5 = 10%
Cuando la variable objeto de estudio es una variable cualitativa, con escala de medición ordinal o
es una variable cuantitativa, tiene sentido acumular tanto las frecuencias absolutas como las
frecuencias acumuladas.
La frecuencia absoluta acumulada consiste en ir acumulando gradualmente las frecuencias absolutas.
𝐹𝑘 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘 = ∑𝑘
𝑖 𝑓𝑖 ; siendo k el número de categorías de la variable.
Una tabla para datos no agrupado es aquella en la que se presenta la información para cada dato
encontrado en el grupo, sin que se generen subgrupos o intervalos de interés para la variable
objeto de investigación.
Ejemplo 3: En una tienda de autos, se registra la cantidad de autos Toyota vendidos en cada día
del mes de Setiembre:
0; 1; 2; 1; 2; 0; 3; 2; 4; 0; 4; 2; 1; 0; 3; 0; 0; 3; 4; 2; 0; 1; 1; 3; 0; 1; 2; 1; 2; 3
Cuando se tienen muchos datos de una variable continua, la frecuencia absoluta en muchos casos
tiende a ser uno. Agrupar datos en una tabla consiste en considerarlos en intervalos, para su
análisis. Se explicará la elaboración de este tipo de tablas mediante el siguiente ejemplo.
2.02 2.04 2.04 2.06 2.07 2.09 2.10 2.10 2.15 2.17 2.17
2.18 2.20 2.21 2.22 2.22 2.25 2.25 2.30 2.32
Para construir con estos datos una tabla de datos agrupados, procedemos de la siguiente manera:
Nota: los datos se deben ordenar de menor a mayor, es decir, en orden ascendente.
En general, cuando no hay un interés definido se sugieren aplicar algunas fórmulas para
determinar un número de intervalos con igual amplitud. La expresión más ampliamente usada es:
𝑚 = 1 + 3. 3 𝐿𝑜𝑔(𝑛).
Este primer grupo se interpreta según la tabla que hay 5 computadores que emplearon un tiempo
entre 2.02 y 2.08 minutos para procesar los datos. Como la marca de clase es de 2.05, se puede
utilizar este valor para representar el tiempo en promedio empleado por los 5 computadores para
realizar la tarea.
Observaciones:
1. A partir de la primer marca de clase, hallamos las demás sumando sucesivamente en ancho
(C) de clase.
2. En el ejemplo anterior, note que el valor 2.20, por coincidir con el límite superior del tercer
intervalo, no fue incluido allí sino, en el intervalo siguiente. En matemáticas un intervalo como
[2.14- 2.20) incluye todos los valores entre 2.14 y 2.20 pero sin incluir el 2.20.
1.2 LOS GRAFICOS ESTADISTICOS
El diagrama de barras (o gráfico de barras) es un gráfico que se utiliza para representar datos
de variables cualitativas o discretas. Está formado por barras rectangulares cuya altura es
proporcional a la frecuencia de cada uno de los valores de la variable.
9 Estad
Frecuencia absoluta
8 o
7 civil
6
5
CASADOUNIÓN
4
LIBRESOLTEROSEPARADOVIUDO
3 Categorias de la variable
2
1
0
Frecuencia absoluta
6 de frecuencia
del
5
tiempo de
4 procesamient
3
o
2.02 2.08 2.14 2.20 2.26
- - Tiempo
- - -
2
2.08 2.14(en2.20 2.26 2.32
minutos)
1
7 Polígono de
Frecuencia absoluta
6 frecuenci a para la
5
variable
tiempo de
4 procesamiento
2, 2. 2. 2. 2. 2. 2,
3 Marca
0 0 1 1 2 2 3
2 5 de
1 clase
7 3 9 2
2
(𝑥𝑖)
1
0
1.2.4 Ojiva
2
Ojiva del tiempo
5 de
procesamiento
2
0
0 2, 2, 2, 2 2,
1
0 Extremo
0 1 , 2
5
2 de8 cada4 2 6
clase
1
0
2. MEDIDAS DE TENDENCIA
3. MEDIDAS DE POSICIÓN
Las medidas de posición relativa se llaman en general cuantiles y se pueden clasificar en tres
grandes grupos: Cuartiles, quintiles, deciles, percentiles.
Las medidas de posición como los cuartiles, quintiles, deciles y percentiles dividen a una
distribución ordenada en partes iguales. Para calcular las medidas de posición es necesario que
los datos estén ordenados de menor a mayor.
4. MEDIDAS DE DISPERSIÓN
Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética.
Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más
utilizadas son el rango, la desviación estándar y la varianza.
El coeficiente de variación permite decidir con mayor claridad sobre la dispersión de los datos.
Medidas de dispersión
𝑔2 = ∑(𝑥𝑖 − 𝑋̅)4 ∗ 𝑓𝑖 − 3
𝑛 ∗ 𝑆4
Si este coeficiente es nulo, la distribución se dice y recibe el nombre de mesocúrtica.
Si el coeficiente es positivo, la distribución se llama leptocúrtica, más puntiaguda que la
anterior. Hay una mayor concentración de los datos en torno a la media.
Si el coeficiente es negativo, la distribución se llama platicúrtica y hay una menor
concentración de datos en torno a la media. sería más achatada que la primera.
EJERCICIO 2
Los siguientes datos representan la pérdida de peso en g. diarios de un grupo de personas sometidas a
una dieta.
32.5 15.2 35.4 21.3 28.4 26.9 34.6 29.3 24.5 31.0
21.2 28.3 27.1 25.0 32.7 29.5 30.2 23.9 23.0 26.4
27.3 33.7 29.4 21.9 29.3 17.3 29.0 36.8 29.2 23.5
20.6 29.5 21.8 37.5 33.5 29.6 26.8 28.7 34.8 18.6
25.4 34.1 27.5 29.6 22.2 22.7 31.3 33.2 37.0 28.3
36.9 24.6 28.9 24.8 28.1 25.4 34.5 23.6 38.7 24.0
Organice los datos en una tabla de frecuencias, realice gráficos adecuados, calcule medidas de
centralidad, posición, dispersión, y de forma. Interprete resultados.