3datos Agrupados y MF
3datos Agrupados y MF
3datos Agrupados y MF
DATOS AGRUPADOS
4.1 1.5 10.4 5.9 3.4 5.7 1.6 6.1 3.0 3.7
3.1 4.8 2.0 14.8 5.4 4.2 3.9 4.1 11.1 3.5
4.1 4.1 8.8 5.6 4.3 3.3 7.1 10.3 6.2 7.6
10.8 2.8 9.5 12.9 12.1 0.7 4.0 9.2 4.4 5.7
7.2 6.1 5.7 5.9 4.7 3.9 3.7 3.1 6.1 3.1
DATOS AGRUPADOS
Con los datos anteriores se debe realizar lo siguiente:
a) Elaborar una tabla de frecuencias
b) Calcular la media aritmética y la moda.
c) Determinar la desviación estándar y el coeficiente de variación.
d) Calcular la mediana, el P95 y el rango intercuartil.
e) Graficar el polígono de frecuencias y la ojiva de frecuencias.
f) Graficar un histograma y la curva de distribución normal estandarizada.
g) Responder las siguientes preguntas:
¿Qué porcentaje de personas utiliza la computadora al menos 9 horas?
¿Qué porcentaje utiliza la computadora entre 2 y 6 horas inclusive?
a) Clasifique el tipo de distribución con base a los coeficiente de asimetría
y curtosis e interprete.
2 2 3 4
M ×f M- (M- ) (M- ) *f (M- ) *f (M- ) *f
DATOS AGRUPADOS
Cálculo del rango (R):
R DM dm 14.8 0.7 14.1
Número de clases (k):
k 1 log 2 n Regla de Sturges k 1 3.322 log n
k n Utilizada en Excel (para n<100)
ln n Criterio del mínimo número de clases
k 2k n
ln 2 (Lind & Marchal, 2012)
k log 2 n 1 Utilizada en InfoStat (similar a la anterior)
De los modelos disponibles, se opta por utilizar el de Lind & Marchal:
ln n ln 50
k 5.64 6 Aproximar a unk número entero
ln 2 ln 2 siempre que 2 >n. En este caso
25<50. Por ello, k=6, 26>50
Intervalo de clase (I):
R 14.1 La aproximación dependerá de que se cubra el
I 2.35 rango (2.35*6=14.1)
k 6
DATOS AGRUPADOS
Cálculo límites de clases: Cálculo marca de clase (M)
LI1ra clase dm 0.7 LI LS 0.7 3.05
M 1ra clase 1.88
LS1ra clase LI I 0.7 2.35 3.05 2 2
LI LS 3.05 5.40
1ra clase 0.7 3.05 M 2 da clase 4.23
2 2
LI 2 da clase LSclase anterior 3.05
Identificación de clases
La clase mediana es la de menor frecuencia absoluta acumulada que contiene a
n/2 (25 datos) y la clase modal es la que tiene mayor frecuencia absoluta. Por lo
tanto, la segunda clase, es tanto la clase mediana como la modal.
x
M f 298.20
5.96 horas
n 50
Me Mo s2 P95 Q HIST DistN
DATOS AGRUPADOS
Cálculo de la mediana (Me):
nF xn 50n n
2 am 100 100 2
Me Li I
f m
Donde:
n= número de datos
Fam=Frecuencia absoluta acumulada de la clase anterior a la clase mediana.
fm= frecuencia absoluta de la clase de la clase mediana
Li=límite inferior de la clase mediana
I= intervalo de la clase mediana
50 6
Me 3.05 2.35 2 5.28 horas
20
Me
DATOS AGRUPADOS
Cálculo de la moda (Mo):
f ma
Mo Li I
f
ma f mp
Donde:
fma= diferencia positiva entre la frecuencia absoluta de la clase
modal y la anterior
fmp= diferencia positiva entre la frecuencia absoluta de la clase
modal y la posterior
Li=límite inferior de la clase modal
I= intervalo de la clase modal
Mo 3.05 2.35
14
4.7 horas
14 6
Mo
DATOS AGRUPADOS
CÁLCULO DE LA VARIANZA (S2):
xi x i
f i
2 2
M x
s2 i 1
s2 i 1
n 1 n 1
k k
M f
n
f x
i nx
2 2
2 2
x i i i
s
2 i 1 s
2 i 1 i 1
n 1 n 1
2 k
2
n
i x k M i fi
M i2 f i i 1 k
1
i 1
n
s2
x 2
n 1 i 1
i
n fi
s 2 i 1
n 1 i 1
DATOS AGRUPADOS
Cálculo de la varianza y desviación estándar (s):
f 450.75
2
M x
s
2
9.20 h 2
n 1 49
s2
DATOS AGRUPADOS
CÁLCULO DE MEDIDAS DE POSICIÓN (CUANTILES)
xn F
100 ac
Cx Li I
fc
Donde:
Cx= cuantil de orden x.
x= Orden del cuantil
n= número de datos
Fac=Frecuencia acumulada de la clase anterior a la clase Cx.
fc= frecuencia absoluta de la clase Cx
Li=límite inferior de la clase Cx
Ic= intervalo de la clase Cx
xn F
100 ac
Cx Li I
fc
xn 95 50
47.5
p 100
P95
DATOS AGRUPADOS
Cálculo del rango intercuartil (RIQ): xn F
100 ac
RIQ Q3 Q1 Cx Li I
fc
xn 25 50 xn 75 50
12.5 37.5
100 100 100 100
Q1 3.05 2.35
12.5 6
20
Q3 5.4 2.35 37.5 26
14
Q1 3.81 h Q3 7.330 h
20 40
18
35
16
Frecuencia absoluta
30
14
Porcentaje
12 25
10 20
8
15
6
10
4
5
2
0
0.70 3.05 5.40 7.75 10.10 12.45 14.81 0.70 3.05 5.40 7.75 10.10 12.45 14.80
Horas Horas
Hist
DATOS AGRUPADOS
OJIVA DE FRECUENCIAS (OJIVA DE GALTON)
La ojiva es la gráfica de una distribución de frecuencias acumuladas, ya sea absoluta
o relativa. Se traza uniendo los límites de cada clase del conjunto de datos. Una ojiva
permite observar porcentaje de los datos que está por debajo o por arriba de ciertos
valores, en lugar de hacer un mero registro del número de elementos que hay en
cada intervalo. El propósito de la ojiva de frecuencias es simular la función de
distribución empírica (función de densidad acumulada) del conjunto de
observaciones.
Ojiva de frecuencias
100
100 96
La frecuencia relativa
86
Frecuencia relativa acumulada (%)
40
20
12
0
0.70 3.05 5.40 7.75 10.10 12.45 14.81
Horas
DATOS AGRUPADOS
Lo deseable es que los datos describan una distribución
aproximadamente normal, configurando una curva en forma de
campana. Por ejemplo, en una distribución normal simétrica, a
una desviación estándar tanto hacia la izquierda como a la
derecha deben concentrarse aproximadamente el 68.3% de los
datos, a 2 desviaciones estándar el 95.4% y a 3 el 99.7%
x
2
12 0.5 z 2
f x
1 0.4 e
f z
e
2
Ahora bien, para graficar la función de densidad normal estándar, con media
cero (µ=0) y desviación estándar uno (=1), se utiliza la siguiente función
simplificada:
f z 0.4 e 0.5 z 2
N 0,1
DATOS AGRUPADOS
GRAFICANDO LA FUNCIÓN DE DENSIDAD NORMAL
En el caso de datos sin agrupar, la curva normal se obtiene utilizando la
función de densidad. Para sobreponer la curva normal estandarizada a
un histograma (datos agrupados), se le agrega a la función de densidad
el intervalo de clase (I). Para ello se emplean las frecuencias relativas,
los límites inferiores de clase, el límite superior de la última clase, las
marcas de clases y el valor de la media aritmética. Se calculan los
valores z, luego f(z), finalmente se grafican los puntos [x,f(z)] y unen los
puntos formando la curva (campana de Gauss).
0.5 z 2
xi x 0.4 I e
zi f z
s s
Para calcular puntos adicionales simétricos se utiliza:
xi s zi s x
DATOS AGRUPADOS
Para el tiempo del uso de la computadora se tiene:
xi x 0.7 5.96
zi 1.74 xi zi f (zi )
s 3.03
0.70 -1.74 0.07
0.4 I e 0.5 z
2
1.88 -1.35 0.13
f z
s 3.05 -0.96 0.20
4.23 -0.57 0.26
0.5 1.74
2
0.4 2.35 e
f z 0.07 5.40 -0.18 0.30
3.03 6.58 0.20 0.30
Punto : 0.7, 0.07 7.75 0.59 0.26
8.93 0.98 0.19
10.10 1.37 0.12
xi s zi s x 11.28 1.76 0.07
xi s 1.74 3.03 5.96 12.45 2.14 0.03
13.63 2.53 0.01
xi s 11.23
14.80 2.92 0.00
Punto : 11.23, 0.07 5.96 0.00 0.31
DATOS AGRUPADOS
Al graficar los puntos se configura la curva de la función de densidad
normal. Luego se procede a unir los puntos a mano alzada y graficar el
histograma
0.35
0.30
0.25 fr
12.00
0.20
40.00
0.15 28.00
6.00
0.10 10.00
4.00
0.05
0.00
-1.65 0.70 3.05 5.40 7.75 10.10 12.45 14.80
DATOS AGRUPADOS
Un histograma permite tener una idea de la forma de la distribución de
datos. En el caso del tiempo de uso de la computadora, la curva descrita
evidencia cierto grado de sesgo positivo (formación de una cola hacia la
derecha del gráfico). Si los datos tiende a agruparse en las primeras clases,
se dice que la distribución tiene un sesgo positivo. Si los datos tienden a
agruparse en las últimas clases de la distribución de frecuencias, se dice que
esta tiene sesgo negativo.
Histograma y ajuste normal
Media 5.706
40
Desv.Est. 3.128
35
N 50 Se observa sesgo positivo
de la distribución de datos
Frecuencia relativa (%)
30
25
20
15
10
0
-1.65 0.70 3.05 5.40 7.75 10.10 12.45 14.80
Horas
DATOS AGRUPADOS
2.35 30
28%
5.11% 25
fru
h 20
15
fr 12%
fru 10
10%
I
6%
4 5 4%
fru 5.11% 11.91%
2.35 17.02% 2.55% 4.26% 1.70%
0
0.70 3.05 5.40 7.75 10.10 12.45 14.80
1.70%
fru Horas
h
%datos Histo
DATOS AGRUPADOS
HISTOGRAMA Y AREA (PORCENTAJE DE DATOS)
La suma del área de las barras es igual a la unidad, que expresada en
porcentaje representa el 100% de los datos. Así, la frecuencia relativa de
cada barra es el porcentaje de datos que queda incluido en cada una. Por
ejemplo, para aproximar el porcentaje de personas que utiliza la
computadora al menos 9 horas se procede de la siguiente manera:
10.10h 9.0h 1.10h
2.55%
1.10h 2.81%
h
4% 10% 2.81% 16.81%
Ahora para aproximar el porcentaje de personas que la utiliza la
computadora entre 2 y 6 horas inclusive.
3.05h 2.0h 1.05h 6.0h 5.4h 0.6h 40% 5.37% 7.15% 52.52%
5.11% 11.91%
1.05h 5.37% 0.6h 7.15%
h h
Histo
DATOS AGRUPADOS
HISTOGRAMA Y AREA (PORCENTAJE DE DATOS)
f f
52.52%
16.81% x x
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
MEDIDAS DE FORMA
Adicionalmente a los histogramas para observar la forma de
distribución de los datos, también es posible estudiarla empleando
métodos numéricos. Las medidas de forma son valores que proveen
información del aspecto de la distribución de datos. Estas medidas
se conocen como SESGO y CURTOSIS. Una se refiere a la forma de
la dispersión de los datos y la otra a la forma de la concentración
de los mismos, respectivamente.
▪ Medidas de asimetría
Coeficiente de asimetría de Fisher
Coeficiente de asimetría de Yule-Bowley
Coeficiente de asimetría de Pearson
▪ Medidas de curtosis
Coeficientes de curtosis de Fisher
Coeficiente de curtosis de Pearson
Coeficiente de curtosis de Moors
MEDIDAS DE FORMA: SESGO
10
10 8
8
8
6
6
6
4
4
4
2 2
2
0 0
3 8 13 18 23 28 33 38 43 48 3 8 13 18 23 28 33 38 43 48 3 8 13 18 23 28 33 38 43 48
Mo Me Media Mo Media Me Mo
Me
Media
Media>Me>Mo Mo=Me=Media Media<Me<Mo
50 50 50
45 45 45
40 40 40
35 35 35
30 30 30
•
25 25
• 25
20
15
• 20
15
20
15
10 10 10
5 5 5
0 0 0
MEDIDAS DE FORMA: SESGO
ASIMETRÍA POSITIVA DISTRIBUCIÓN SIMÉTRICA ASIMETRÍA NEGATIVA
A>0 A=0 A<0
22 18
20
20 16
18
18
14 16
16
12 14
14
12
12 10
10
10 8
8
8
6
6
6
4
4
4
2 2
2
0 0
3 8 13 18 23 28 33 38 43 48 3 8 13 18 23 28 33 38 43 48 3 8 13 18 23 28 33 38 43 48
Mo Me Media Mo Media Me Mo
Me
Media
Media>Me>Mo Mo=Me=Media Media<Me<Mo
DE FISHER A i 1
s n 1 n 2
3
n
n xi x
3
1 ei
3 POBLACIONAL
A i 1 n
s 3 n 1 n 2 x
3
t s3 i
A i 1
DATOS SIN AGRUPAR: Excel e InfoStat n3
MEDIDAS DE FORMA: CURTOSIS
P 7 P 5 P 3 P 1 Q3 Q1
k 8 8 8 8
1.23 k 0.263
P 6 P 2 2 P90 P10
8 8
x n n 1 xi x
4 4
i
3 n 1 2
k i 1
3 k 4 i 1
n 4 s n 1 n 2 n 3 n 2 n 3
3 n 1
2
k 4 i 1
s n 1 n 2 n 3 n 2 n 3
f
DATOS AGRUPADOS
Mayor cantidad de datos
MESOCÚRTICA, igual
en la parte central, la cual
de apuntada que la
normal. disminuye gradualmente
hacia los extremos.
k 0
Los datos se concentran en una región Los datos se distribuyen formando una
estrecha de la parte central de la región central amplia más o menos
distribución, claramente diferenciada uniforme, poco diferenciada o gradualmente
f
12
12
15
10
9
Frecuencia
Frecuencia
10 8
7
10
6
6 4 4
4
5 4
2 2
1
0
0 0.0 0.3 0.6 0.9
-3.2 -2.4 -1.6 -0.8 0.0 0.8 1.6 2.4
uniforme
Normal
16 14
15 12
11
10
9
Frecuencia
Frecuencia
10 9 8
7
7 6
5
5
5 4 4 4
2
2
0 0
0.72 0.80 0.88 0.96 1.04 1.2346E-01 2.4030E-01 3.5715E-01 4.7400E-01 5.9084E-01 7.0769E-01 8.2454E-01 9.4138E-01
Dis beta Beta
20
15
15
Frecuencia
Frecuencia
10
10
7
7
5 5
5
3 5 4
2 3
2
1
0 0
-2.4 -1.6 -0.8 0.0 0.8 1.6 2.4 3.2 -3.235E+00 -2.125E+00 -1.014E+00 9.7264E-02 1.2082E+00 2.3191E+00 3.4300E+00 4.5409E+00
Student5 Laplace
25
25
20
20
Frecuencia
15
10 9
6
5
2
1 1
0
-3 -2 -1 0 1 2 3 4
Student10
12
10
Frecuencia
Frecuencia
15
13 10
11 8 8
8
10
7 6 5
5 4
5
3 2
2
0
0 0
-1.1 0.1 1.3 2.5 3.7 -1 5 11 17 23
expon chi10
25
25
20
15
14
Frecuencia
15
10
5 4
3
2
1
0
0 5 10 15
chi5
50 1213.98
8.93 3.00 77.88 230.61
11.28 5.00 749.03 3978.10 A
13.63 2.00 899.26 6889.25 3.033 49 48
Suma 50.00 1213.98157 12960.14410 A 0.93 Asimetría positiva, con
n cola hacia la derecha
n n 1 M i x f i
4
3 n 1
2
k 4 i 1
s n 1 n 2 n 3 n 2 n 3
50 51 12960.14 3 492
k
3.03 49 48 47 48 47
4
k 0 k n
k*
24 24
n
12.10 12.30 12.40 22.40 22.60 22.70 22.70 22.80 23.50 13.50 23.60 23.90 24.20 14.20 24.30
24.50 24.50 15.00 15.90 16.10 16.30 16.60 17.10 17.10 17.30 17.50 25.30 18.30 18.40 26.50
27.00 18.90 19.00 25.80 19.20 19.30 26.40 19.50 19.50 19.70 19.70 19.80 19.80 20.10 20.10
20.40 20.50 20.70 20.80 20.80 20.80 21.00 21.00 21.10 21.20 21.30 21.50 21.90 21.90 20.10
20.20 22.40 22.40 22.40 22.70 22.70 22.70 22.80 22.80 23.20 23.20 23.40 23.40 23.50 23.50
23.70 25.60 25.70 25.80 25.00 25.10 25.60 25.70 25.80 26.50 26.60 26.70 26.70 26.80 27.00
27.00 27.00 27.10 27.10 27.20 27.30 27.40 27.40 27.50 27.50 27.60 27.60 27.70 27.80 27.80
28.00 28.20 28.30 28.30 28.70 29.10 29.20 29.30 29.30 29.40 29.50 29.50 29.60 29.60 29.80
2 2 3 4
M ×f M- (M- ) (M- ) *f (M- ) *f (M- ) *f
EJERCICIO DE REPASO
A continuación se presenta el histograma y los valores correspondientes a la producción
(en gramos) de hule seco por sangría, por planta de hule, en el área A de la Hacienda
"Caballo Blanco", Génova Costa Cuca, Quetzaltenango. A) Determine el porcentaje de los
árboles que tienen una producción entre 14 y 21 gramos de hule seco. B) ¿Cuál es el
valor de hule seco sobre el cual queda el 15% de árboles con mayor producción? C) Si los
valores de asimetría y curtosis son -0.12 y -0.83, respectivamente, indique el tipo de
asimetría y curtosis que presenta la distribución de los datos. D) ¿Siguen los datos una
distribución normal? ¿por qué?
12 23 14 19 24 25 22 24 19 22
11 18 13 26 28 18 27 10 17 26
21 13 17 17 19 24 18 10 14 21
21 15 16 21 14 25 28 23 13 20
27 18 14 21 23 21 23 25 26 20
21 19 20 23 27 18 16 16 15 16
65%
41.67% 23.33%
25 100%
21.67% 20% 14 81.67%18.33%
20 15% 12 16.67%
11
9 10
Porcentaje
15
6.67%
10
4
5
5% 7.78%
0
10 13 16 19 22 25 28
Intervalos de clase (hule seco en gramos)
EJERCICIO DE REPASO
Calcule la media aritmética, la desviación estándar y analice
la siguiente serie de datos utilizando medidas de forma.
Concluya en relación al aspecto de la distribución.
3 33 30 14 36 7 17 38 26 44
n
n xi x
3 n
xi
4
A i 1
k i 1
3
s n 1 n 2
3
n 4
EJERCICIO DE REPASO
Una empresa de servicios de recreación estudia la cantidad que gastan al
día en alimento y bebida las familias que visitan un parque de diversiones.
Una muestra de 40 familias que visitó el parque la semana pasada revela
que han gastado las siguientes cantidades en dólares:
77 18 63 84 38 54 50 59 54 56 36 26 50 34 44
41 58 58 53 51 62 43 52 53 63 62 65 61 61 52
60 60 45 66 83 71 63 58 61 71
Frecuencia absoluta
9
Frecuencia absoluta
12 11
10 8
10 8 7
8
8 6
6
6
4
4
2 2
0 0
5.00 20.84 36.68 52.52 68.36 84.20 100.04 5.00 20.84 36.68 52.52 68.36 84.20 100.04
Clases (notas) Clases (notas)
Examen 1 20 Examen 2
20
15
15
Frecuencia absoluta
11
10
10
8
0
0
5.00 20.84 36.68 52.52 68.36 84.20 100.04
Clases (notas) Examen 3
TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN AGRUPACIÓN
En ciertos casos donde la variable es discreta, es necesario
organizar datos utilizando tablas de frecuencias sin recurrir a la
agrupación de datos y formación de intervalos, principalmente,
cuando las distintas observaciones de la variable de estudio son
relativamente pocas, pero que se repiten un número significativo
de veces. El cálculo de los estadísticos característicos del conjunto
de datos pueden obtenerse a través de procedimientos análogos a
la agrupación de datos, no obstante, el histograma como opción
gráfica no aplica. Pueden utilizarse gráficos circulares o de barras
para presentar las frecuencias. A continuación se muestra el
procedimiento para obtener las medidas de tendencia central y de
dispersión para este tipo particular de casos.
TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
La MODA es la observación con mayor frecuencia absoluta.
xp
x p x f
i i i i
p f i i
n 1
i 1 i 1
fi
s i 1
n 1
TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
En un estudio de la dinámica poblacional del gusano medidor
(Trichoplusia ni) en el cultivo de repollo (Brassica oleracea var.
Capitata), el número de plantas en las que se encontraron 0, 3,
5, 6, 7, 9 ó 10 insectos por planta se presentan a continuación.
Completar la tabla de frecuencias. Calcular la moda, mediana y
media aritmética del número de insectos por planta. Obtener la
desviación estándar.
No. Insectos No. Plantas
0 7
3 12
5 35
6 28
7 23
9 17
10 12
TABLA DISTRIBUCIÓN DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
No. Insectos fi Fi x ifi x i2 fi*x i2
0 7 7 0 0 0 Mo 5 in s planta
3 12 19 36 9 108
5 35 54 175 25 875
6 28 82 168 36 1008 134
Posición 67
7 23 105 161 49 1127 2
9 17 122 153 81 1377
Me 6 in s planta
10 12 134 120 100 1200
134 813 5695
k k
xp
xi fi 813
x 2
f x
i i
2
f i
5695 6.07 2 134
i 134
f s i 1
n 1
i 1
134 1
x p 6.1 in s planta
s 2.4 in s planta
TABLA DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
De los registros de una finca, se obtuvo el número de árboles
que ha podado cada trabajador por día de una especie forestal.
Organice los datos en una tabla de frecuencias. Calcule la
media, mediana, moda y el coeficiente de variación del número
de árboles podados al día por trabajador.
30 30 30 30 30 30 30 30 30 30 30 30 30 33 33 33 No árboles
30
33 33 33 33 33 33 33 33 33 33 33 33 35 35 35 35 33
35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35
36
35 35 35 36 36 36 36 36 36 36 36 36 36 36 38 38 38
38 38 38 38 38 38 38 38 38 38 38 38 38 38 38 38 40
41
38 38 38 38 40 40 40 40 40 40 40 40 40 40 40 40
40 40 40 40 40 40 40 40 40 41 41 41 41 41 41 41
41 41 41 41 41 41 41 41 41 41 41 41 --- --- --- ---
TABLA DISTRIBUCIÓN DE FRECUENCIAS
VARIABLES DISCRETAS SIN INTERVALO
Se evalúa la respuesta a la fertilización en el cultivo de rosa y se
registra el número de retoños por planta a los 30 días de realizada
la misma. Los datos que se obtuvieron son los siguientes: 3, 4, 3, 4,
5, 1, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5, 5, 5, 5, 6, 11, 10, 2, 1, 2, 3, 1, 5 y 2.
Con esta información:
a) Organice los datos en una tabla de frecuencias.
b) Calcule la media, mediana y el coeficiente de variación del
número de retoños por planta.