GUIA N°1 - Estadística Descriptiva

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 14

Guía de clase N°2: Estadística descriptiva – Lili R.

Bautista Arellano

UNIDAD DE APRENDIZAJE 2: DISTRIBUCIONES UNIDIMENSIONALES


DE FRECUENCIA

1. FORMAS DE PRESENTACIÓN DE LA INFORMACIÓN

Una vez obtenidos los datos de una muestra o de una población objeto de estudio, procedemos a
organizarlos y presentarlos mediante una tabla de distribución de frecuencias y gráficos
estadísticos, tanto para variables cualitativas como para variables cuantitativas.

1.1 TABLA DE FRECUENCIAS

1.1.1 TABLA DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

Se acostumbra representar una variable cualitativa de escala nominal en una tabla con 4 columnas
para el número de la categoría, el nombre de la categoría, las frecuencias absolutas y las
frecuencias relativas.

1.1.1.1 FRECUENCIA ABSOLUTA

La frecuencia absoluta es el número de veces que se repite un dato dentro de una muestra ó
población objeto de estudio.

Se simboliza como 𝑓𝑖
Se lee “La frecuencia absoluta del dato 𝑖”.
En general se tiene que:
“La suma de todas las frecuencias absolutas, es igual al número de datos”
𝐸𝑛 𝑆í𝑚𝑏𝑜𝑙𝑜𝑠:
𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑘 = ∑𝑘
𝑖 𝑓 ; 𝑘 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎𝑠 ó 𝑐𝑙𝑎𝑠𝑒𝑠.
𝑖

1.1.1.2 FRECUENCIA RELATIVA

La frecuencia relativa es la proporción o porcentaje que representa una categoría con


respecto al total de las observaciones.
Se representa por 𝑓𝑟𝑖 y se define como: 𝑓𝑟𝑖 𝑓𝑖
= 𝑛

Se acostumbra expresar la frecuencia relativa como porcentaje.


Es decir: 𝑓𝑟𝑖 𝑓
= 𝑖 ∗ 100
𝑛

Ejemplo 1: En un cuestionario una de las preguntas se refiere al estado civil de las personas
encuestadas, considerando las siguientes categorías:
1. Casado
2. Unión libre
3. Soltero
4. Separado
5. Viudo

Si los resultados a esta pregunta fueron los valores:

1 1 4 5 1
2 1 2 4 5
3 1 3 1 1
4 4 1 2 2

Entonces:
𝑓1 = 8 “significa que hay 8 personas casadas”. Así mismo
𝑓2 = 4 “significa que hay 4 personas en unión libre”. Así mismo
𝑓3 = 2, etc.
Observamos que:
𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 = 20; 𝑛 = 20 𝑒𝑠 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
𝑓1 8
Para el ejemplo se tiene que: 𝑓 = ∗ 100 = ∗ 100 = 40%
𝑟1 𝑛 20

Lo que significa que “El 40% de las personas encuestadas son casados. En forma similar:
𝑓𝑟2 = 20%, 𝑓𝑟3 = 10%, 𝑓𝑟4 = 20%, 𝑓𝑟5 = 10%

La tabla de la distribución de frecuencias del ejemplo se muestra a continuación. Tabla 1.

Estado civil de un grupo de personas.


N ESTADO N° PERSONAS
° CIVIL (𝒇
1 Casado 8
2 Unión Libre 4
1.1.1.3 FRECUENCIA ABSOLUTA ACUMULADA

Cuando la variable objeto de estudio es una variable cualitativa, con escala de medición ordinal o
es una variable cuantitativa, tiene sentido acumular tanto las frecuencias absolutas como las
frecuencias acumuladas.
La frecuencia absoluta acumulada consiste en ir acumulando gradualmente las frecuencias absolutas.

Las frecuencias absolutas se representan como 𝐹𝑖. Así:


𝐹1 = 𝑓1
𝐹 2 = 𝑓1 + 𝑓2
𝐹 3 = 𝑓1 + 𝑓2 + 𝑓3

𝐹𝑘 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘 = ∑𝑘
𝑖 𝑓𝑖 ; siendo k el número de categorías de la variable.

Las frecuencias relativas acumuladas se hallan en forma similar.

Ejemplo 2: Si por ejemplo la variable de estudio es ESCOLARIDAD, la tabla de frecuencias toma la


forma:

Tabla 2. Escolaridad de un grupo de empleados.


N Escolaridad N° Personas Porcentaje (%) 𝑭𝒊 𝑭𝒓
° (𝒇𝒊) (𝒇𝒓𝒊) 𝒊
1 Primaria 8 40 8 40
2 Básica 4 20 12 60
Primaria
Básica
3 2 10 14 70
Secundaria
4 Universitaria 4 20 18 90
5 Postgrado 2 10 20 10
0
Total 2 100
0 %

1.1.2 TABLA DE FRECUENCIAS PARA DATOS NO AGRUPADOS

Una tabla para datos no agrupado es aquella en la que se presenta la información para cada dato
encontrado en el grupo, sin que se generen subgrupos o intervalos de interés para la variable
objeto de investigación.

Ejemplo 3: En una tienda de autos, se registra la cantidad de autos Toyota vendidos en cada día
del mes de Setiembre:

0; 1; 2; 1; 2; 0; 3; 2; 4; 0; 4; 2; 1; 0; 3; 0; 0; 3; 4; 2; 0; 1; 1; 3; 0; 1; 2; 1; 2; 3

Esta información se puede presentar en la siguiente tabla:


Tabla 3. Número de autos vendidos.
Auto Frecuenc Frecuenc Frec. Frec.
𝒇𝒓𝒊 𝑭𝒓𝒊(
� s ia ia relativa absoluta relativa
absoluta acumulada acumulada (%) %)
� vendid (𝒇𝒓𝒊)
os (𝒇𝒊) (𝑭𝒊) (𝑭𝒓𝒊)
1 0 8 0,2 8 0,2 26,7 26,7
67 67
2 1 7 0,2 15 0,5 23,3 50
33
3 2 7 0,2 22 0,7 23,3 73,3
33 33
4 3 5 0,1 27 0,9 16,7 90
67
5 4 3 0,1 30 1 10 100
Total 30 1 100

Con base en la tabla anterior puedes responder:

a. ¿Cuántos días en el mes de septiembre se vendieron sólo dos autos?


b. ¿Qué porcentaje de días en el mes de septiembre se vendieron dos autos?
c. ¿Cuántos días en el mes de septiembre se vendieron 3 autos o menos?
d. ¿Qué porcentaje de días en el mes de septiembre se vendieron 3 autos o menos?
e. ¿Cuántos días en el mes de septiembre se vendieron más de 2 autos?

1.1.3 TABLA DE FRECUENCIAS PARA DATOS AGRUPADOS.

Cuando se tienen muchos datos de una variable continua, la frecuencia absoluta en muchos casos
tiende a ser uno. Agrupar datos en una tabla consiste en considerarlos en intervalos, para su
análisis. Se explicará la elaboración de este tipo de tablas mediante el siguiente ejemplo.

Ejemplo 4: Los siguientes datos se refieren al tiempo en minutos de procesamiento de una


información realizado por 20 computadores de una marca A:

2.02 2.04 2.04 2.06 2.07 2.09 2.10 2.10 2.15 2.17 2.17
2.18 2.20 2.21 2.22 2.22 2.25 2.25 2.30 2.32

Para construir con estos datos una tabla de datos agrupados, procedemos de la siguiente manera:

Nota: los datos se deben ordenar de menor a mayor, es decir, en orden ascendente.

PASO 1. HALLAR EL RANGO DE LOS DATOS (𝑹).


El rango de los datos se define como la diferencia entre el máximo valor observado y el mínimo. En
símbolos:
𝑅 = 𝑋𝑚á𝑥 − 𝑋𝑚í𝑛 = 2. 32 − 2. 02 = 0. 30

PASO 2. DETERMINAR EL NÚMERO DE GRUPOS. (𝒎).


No hay una regla única para decidir sobre el número de grupos en los que se habrá de presentar la
información. En general el número de grupos lo elige el investigador de acuerdo con los objetivos
de su investigación.

En general, cuando no hay un interés definido se sugieren aplicar algunas fórmulas para
determinar un número de intervalos con igual amplitud. La expresión más ampliamente usada es:

𝑚 = 1 + 3. 3 𝐿𝑜𝑔(𝑛).

Para el ejemplo se tiene que:


𝑚 = 1 + 3.3 𝐿𝑜𝑔(20) = 5,2933 ≈ 5

Lo cual indica que se construirán 5 grupos.

PASO 3. DETERMINAR EL ANCHO Ó AMPLITUD DE CADA GRUPO. (C).


Para esto se divide el rango de los datos entre el número de grupos, es decir:
𝑅
𝐶=
𝑚
Para nuestro ejemplo:
0,30
𝐶= = 0,06
5

PASO 4. SE CONSTRUYEN LOS GRUPOS.


El primer grupo siempre partirá del valor mínimo observado y terminará en el valor que resulta de
sumar a este valor mínimo el ancho de clase (C) obtenido. El primer valor de cada intervalo se
llamará límite inferior (𝐿𝑖) del intervalo y el segundo, límite superior (𝐿𝑠). Los demás intervalos
tendrán como límite inferior, el límite superior del intervalo anterior y como límite superior al
valor que resulte de sumarle el ancho de clase al respectivo límite superior. En los intervalos así
construidos es posible que un valor coincida con el límite superior de un grupo; en este caso
consideramos que este valor se incluirá en el grupo siguiente, para lo cual los intervalos
construidos son cerrados a izquierda y abiertos a derecha como se muestra en la tabla construida.
Para este ejemplo los intervalos quedan de la siguiente forma:
Intervalo 1: hast 𝑿𝒎í𝒏
a +𝑪
𝑿𝒎í𝒏
Intervalo 1: hast 2. + 0. =
a 0 06 2.08
2.02 2
Intervalo 2: hast 2. + 0. =
a 0 06 2.14
2.08 8
Intervalo 3: hast 2. + 0. =
a 1 06 2.20
2.14 4
Intervalo 4: hast 2. + 0. =
a 2 06 2.26
2.20 0
Intervalo 5: hast 2. + 0. =
a 2 06 2.32
2.26 6

PASO 5. SE HALLAN LAS MARCAS DE CLASE. (𝑥𝑖)


La marca de clase es el valor central de cada intervalo. Se utiliza como valor representativo de
𝐿𝑖+𝐿𝑠
cada grupo. Se calcula mediante la expresión: 𝑥𝑖 =
2

La tabla resultante se muestra a continuación:

Tabla 4. Tiempo de procesamiento de la información


No. 𝑳𝒊−𝑳 � � 𝒇𝒓𝒊 � 𝑭𝒓𝒊
Grupo 𝒔 � � (%) � (%)
� � �
� � �
1 [2.02- 2.05 5 25 5 25
2.08)
2 [2.08- 2.11 3 15 8 40
2.14)
3 [2.14- 2.17 4 20 12 60
2.20)
4 [2.20- 2.23 6 30 18 90
2.26)
5 [2.26- 2.29 2 10 20 100
2.32]
Total 20 100

Este primer grupo se interpreta según la tabla que hay 5 computadores que emplearon un tiempo
entre 2.02 y 2.08 minutos para procesar los datos. Como la marca de clase es de 2.05, se puede
utilizar este valor para representar el tiempo en promedio empleado por los 5 computadores para
realizar la tarea.

Observaciones:

1. A partir de la primer marca de clase, hallamos las demás sumando sucesivamente en ancho
(C) de clase.
2. En el ejemplo anterior, note que el valor 2.20, por coincidir con el límite superior del tercer
intervalo, no fue incluido allí sino, en el intervalo siguiente. En matemáticas un intervalo como
[2.14- 2.20) incluye todos los valores entre 2.14 y 2.20 pero sin incluir el 2.20.
1.2 LOS GRAFICOS ESTADISTICOS

Un gráfico estadístico, es la representación de unos datos estadísticos mediante algunas figuras


geométricas, tales como: rectángulos, círculos, pictogramas, pero debe tenerse muy en cuenta que
lo que realmente se busca con un gráfico no solo es una presentación atractiva, sino ayudar a
comprender al lector la información contenida en un cuadro estadístico.

1.2.1 Diagrama de barras

El diagrama de barras (o gráfico de barras) es un gráfico que se utiliza para representar datos
de variables cualitativas o discretas. Está formado por barras rectangulares cuya altura es
proporcional a la frecuencia de cada uno de los valores de la variable.

Para los datos del ejemplo 1.

9 Estad
Frecuencia absoluta

8 o
7 civil
6
5
CASADOUNIÓN
4
LIBRESOLTEROSEPARADOVIUDO
3 Categorias de la variable
2
1
0

1.2.2 Histograma de frecuencias

Es la manera más común de representar gráficamente la distribución de frecuencia de los datos.


Se lo construye dibujando rectángulos cuya base corresponde a cada intervalo de clase, y su
altura según el valor de la frecuencia. Puede ser la frecuencia absoluta o la frecuencia relativa.

Para los datos del ejemplo 4.


7
Histograma

Frecuencia absoluta
6 de frecuencia
del
5
tiempo de
4 procesamient
3
o
2.02 2.08 2.14 2.20 2.26
- - Tiempo
- - -
2
2.08 2.14(en2.20 2.26 2.32
minutos)
1

1.2.3 Polígono de frecuencia

Es una manera de representar el perfil de la distribución de los datos. Se obtiene uniendo


mediante segmentos de recta los puntos (marca de clase, frecuencia). Para cerrar el polígono se
puede agregar un punto a cada lado con frecuencia 0.

7 Polígono de
Frecuencia absoluta

6 frecuenci a para la
5
variable
tiempo de
4 procesamiento
2, 2. 2. 2. 2. 2. 2,
3 Marca
0 0 1 1 2 2 3
2 5 de
1 clase
7 3 9 2
2
(𝑥𝑖)
1

0
1.2.4 Ojiva

Este gráfico se usa para representar la frecuencia acumulada, absoluta o relativa. Se lo


obtiene uniendo segmentos de recta que se extienden entre los extremos de las clases y
usando los valores de la frecuencia acumulada. La ojiva permite responder preguntas del tipo
“cuantos datos son menores que”.
F. absoluta acumulada

2
Ojiva del tiempo
5 de
procesamiento
2
0
0 2, 2, 2, 2 2,
1
0 Extremo
0 1 , 2
5
2 de8 cada4 2 6
clase
1
0

2. MEDIDAS DE TENDENCIA

CENTRAL 2.1Media (𝑿̅)


Es el PROMEDIO de los valores de la muestra, es decir es un valor de referencia para todos los
datos en la muestra. Se obtiene al dividir la suma de varias cantidades por el número de
sumandos

2.2 Mediana (Me)


La mediana es el número central de un grupo de números ordenada por tamaño, dividiéndolos
el proporciones iguales, tal que por encima de ella, como por debajo deja el 50% de los datos.

2.3 Moda (Mo)


Es el valor más frecuente. Puede haber más de una: distribución unimodal (una sola moda)–
bimodal (dos modas) – multimodal.
 Medidas de tendencia central

Medida Formula Observación


Media ∑ 𝑥𝑖 datos no agrupados
𝑋̅ =
𝑛
∑ 𝑥𝑖 ∗ 𝑓 𝑖 datos agrupados
𝑋̅ =
𝑛
Median 𝑋(𝑛⁄2) + 𝑋(𝑛⁄2)+1 datos no agrupados.
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
a 𝑀𝑒 = { 2
𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑋 (𝑛+1)
2
𝑛
2 datos agrupados
𝑀𝑒 = 𝐿 + ( − 𝐹𝑖−1) 𝐶 por intervalos.
𝑖
𝑓𝑖
Moda 𝑀𝑜 = 𝑋max (𝑓𝑖) datos agrupados por filas.
𝑑1 datos agrupados
𝑀𝑜 = 𝐿𝑖 + ( )𝐶
𝑑1 por intervalos.
+ 𝑑2 𝑑1 = 𝑓𝑖 − 𝑓𝑖−1 𝑦 𝑑2 = 𝑓𝑖 − 𝑓𝑖+1

3. MEDIDAS DE POSICIÓN

Las medidas de posición relativa se llaman en general cuantiles y se pueden clasificar en tres
grandes grupos: Cuartiles, quintiles, deciles, percentiles.
Las medidas de posición como los cuartiles, quintiles, deciles y percentiles dividen a una
distribución ordenada en partes iguales. Para calcular las medidas de posición es necesario que
los datos estén ordenados de menor a mayor.

3.1 Cuartiles (𝑸𝒌)


son los tres valores de la variable de una distribución que la dividen en cuatro partes
iguales, es decir, al 25%, 50% y 75%. El Q2 coincide con la mediana.

3.2 Deciles (𝑫𝒌)


Corresponden a los 9 valores que dividen a estos en 10 partes iguales es decir, al 10%, al
20%... y al 90%. Los Deciles se designan por D1, D2,..., D9. El D5 coincide con la mediana.

3.3 Percentiles (𝑷𝒌)


Son los noventa y nueve valores de la variable de una distribución que la dividen en cien partes
iguales es decir, al 1%, al 2%... y al 99% de los datos. Los percentiles se designan por P 1, P2,...
P99. El P50 coincide con la mediana.
 Medidas de posición

Medida Formula Observación


Cuartiles 𝑘∗𝑛 datos agrupados.
4 −𝐹
𝑄 =𝐿 +( 𝑖−1) 𝐶
𝑘 𝑖
𝑓𝑖
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟 𝑋 𝑘∗𝑛 datos no
4 ( )
𝑄𝑘 = { agrupados.
𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑋 𝑘∗(𝑛+1)
( )
4
Deciles 𝑘∗𝑛 datos agrupados.
10 − 𝐹
𝐷 =𝐿 +( 𝑖−1) 𝐶
𝑘 𝑖
𝑓𝑖
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟 𝑋 𝑘∗𝑛 datos no
10 ( )
𝐷𝑘 = { agrupados.
𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑋 𝑘∗(𝑛+1)
( )
10
Percentiles 𝑘∗𝑛 datos agrupados.
100 − 𝐹
𝑃 =𝐿 +( 𝑖−1) 𝐶
𝑘 𝑖
𝑓𝑖
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟 𝑋 𝑘∗𝑛 datos no
( )
100 agrupados.
𝑃𝑘 = {𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟 𝑋 𝑘∗(𝑛+1)
( )
100

4. MEDIDAS DE DISPERSIÓN

Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética.
Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más
utilizadas son el rango, la desviación estándar y la varianza.
El coeficiente de variación permite decidir con mayor claridad sobre la dispersión de los datos.

 Medidas de dispersión

Medida Formula Observación


Varianza ∑ 𝑘 (𝑥𝑖 − 𝑋̅)2 datos no agrupados.
𝑖=1
𝑆2 = 𝑛−1
∑ 𝑘 (𝑥𝑖 − 𝑋̅)2 ∗ 𝑓𝑖 datos agrupados.
𝑖=1
𝑆2 = 𝑛−1
Desviación estándar 𝑆 = √𝑆 2
Coeficiente de variación 𝑆
𝐶𝑉 = ∗ 100%
𝑋̅
5. MEDIDAS DE FORMA
Hasta ahora se han estudiado los parámetros de centralización, posición y de dispersión que son
las medidas más frecuentes que se calculan en cualquier estudio estadístico. Sin embargo
existen también medidas que indican de la simetría o asimetría de la distribución y del
achatamiento o no de la misma.
Empezando con la simetría, es lógico pensar que si la distribución tiene una única moda y es
simétrica, entonces las tres medidas de centralización coinciden. Si no es simétrica, suele
suceder que la mediana esté comprendida entre la moda y la media.

5.1 Medidas de simetría o asimetría.


Miden la mayor o menor simetría de la distribución. Índice de simetría de Fisher:
∑(𝑥𝑖 − 𝑋̅)3 ∗ 𝑓𝑖
𝑔1 =
𝑛 ∗ 𝑆3
 Si la distribución es simétrica, el valor del índice es igual a 0.
 Si es asimétrica a la derecha, el valor del índice es positivo.
 Si es asimétrica a la izquierda, el valor del índice es negativo.

5.2 Medidas de curtosis.


Miden la mayor o menor concentración de datos alrededor de la media. Se suele medir con el
coeficiente de curtosis:

𝑔2 = ∑(𝑥𝑖 − 𝑋̅)4 ∗ 𝑓𝑖 − 3
𝑛 ∗ 𝑆4
 Si este coeficiente es nulo, la distribución se dice y recibe el nombre de mesocúrtica.
 Si el coeficiente es positivo, la distribución se llama leptocúrtica, más puntiaguda que la
anterior. Hay una mayor concentración de los datos en torno a la media.
 Si el coeficiente es negativo, la distribución se llama platicúrtica y hay una menor
concentración de datos en torno a la media. sería más achatada que la primera.

EJERCICIO 2
Los siguientes datos representan la pérdida de peso en g. diarios de un grupo de personas sometidas a
una dieta.

32.5 15.2 35.4 21.3 28.4 26.9 34.6 29.3 24.5 31.0
21.2 28.3 27.1 25.0 32.7 29.5 30.2 23.9 23.0 26.4
27.3 33.7 29.4 21.9 29.3 17.3 29.0 36.8 29.2 23.5
20.6 29.5 21.8 37.5 33.5 29.6 26.8 28.7 34.8 18.6
25.4 34.1 27.5 29.6 22.2 22.7 31.3 33.2 37.0 28.3
36.9 24.6 28.9 24.8 28.1 25.4 34.5 23.6 38.7 24.0

Organice los datos en una tabla de frecuencias, realice gráficos adecuados, calcule medidas de
centralidad, posición, dispersión, y de forma. Interprete resultados.

También podría gustarte