Estadistica 01
Estadistica 01
Estadistica 01
Casos atı́picos.
Ejercicios.
1
2 1. Estadı́stica descriptiva univariante
ni
xi ni fi = n
Ni
Ni = n1 + · · · + ni Fi = n
X ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
xi ni Ni fi Fi
.. .. .. .. ..
. . . . .
xm nm n fm 1
n 1
• Distribución de frecuencias para datos agrupados: Cuando la variable
es continua o, en cambio, es discreta pero el número de valores distintos que toma
es grande, conviene agrupar los datos en clases o intervalos, en cuyo caso, se llama
marca de clase al valor central del intervalo que identifica la clase.
Ii ci ni Ni fi Fi
[L0 , L1 ) c1 n1 N1 f1 F1
[L1 , L2 ) c2 n2 N2 f2 F2
.. .. .. .. .. ..
. . . . . .
[Li−1 , Li ) ci ni Ni fi Fi
.. .. .. .. .. ..
. . . . . .
[Lm−1 , Lm ] cm nm n fm 1
n 1
R = máx xi − mı́n xi
i i
El dato más pequeño debe estar en el primer intervalo, y el dato mayor debe
estar en el último intervalo,
Representaciones gráficas.
Gráficos de atributos
fi
hi =
ai
ellos desconociendo, por tanto, cómo se reparten las frecuencias dentro de ellos, lo
único que sabemos es la frecuencia que corresponde a cada intervalo. No obstante y
por convenio, se supone que los elementos se sitúan de forma homogénea dentro de
cada intervalo.
• Por esta razón el diagrama de tallo y hojas (”stem-and-leaf” plot, en inglés) es
una alternativa, cuando cada dato está formado al menos por dos dı́gitos. En este
diagrama, cada dato xi se descompone en dos partes: el tallo, formado por el primer
o primeros dı́gitos; y una hoja, que es el último dı́gito o el que sigue a los utilizados
en el tallo.
(a) (b)
es 10, lo que significa que los valores del tallo representan decenas. Ası́, un tallo de
valor 3 vale 30. Por el contrario, en el diagrama 1.1(b), el ancho del tallo vale 10.000
y, por tanto, un tallo de valor 2 representa un salario actual de 20.000 e.
Las hojas, por su parte, completan la información. Cuando el ancho del tallo es
10, entonces los dı́gitos de las hojas son unidades; cuando el ancho del tallo vale 100,
los dı́gitos de las hojas son decenas; cuando el ancho del tallo es 1.000, entonces los
dı́gitos de las hojas son centenas, y ası́ sucesivamente.
El número de casos que representa cada hoja viene indicado en ”each leaf”. En
el diagrama 1.1(a), cada hoja representa 1 caso y ası́, un tallo de valor 4 con una
hoja de valor 3 representa una edad de 43 años. Sin embargo, en el diagrama 1.1(b),
cada hoja representa 3 casos y, por ejemplo, en el tallo de valor 2 aparecen 4 hojas
de valor 0, lo que significa que hay (4 × 3 =)12 casos cuyos salarios actuales son
20.000 e.
El diagrama simula ası́ una tabla estadı́stica, los tallos simulan las distintas
categorı́as de la variable y las hojas, sus frecuencias.
La última fila del diagrama indica el número de casos con ”valores extremos”.
Por ejemplo, en el diagrama 1.1(b), tenemos 53 casos extremos con un salario actual
superior a los 56.750 e.
Medidas de centralización.
Algunas de estas cantidades describen la tendencia central de un conjunto de
observaciones, esto es, lo dominante, lo tı́pico de ellas. Se conocen como medidas de
centralización, y son:
• Media aritmética1 : es el valor central de la distribución de frecuencias de la
variable, es decir, el valor en torno al cual se agrupan los datos.
Pm
xi ni Pm
i=1
n
= i=1 xi fi Datos no agrupados
x1 + x2 + · · · + xn
x̄ = = (1.1)
n Pm
i=1 ci ni
Pm
n
= i=1 ci fi Datos agrupados
Propiedades 1.2.1.
Pm
1. i=1 (xi − x̄)ni = 0
2. Si Y = aX + b ⇒ ȳ = ax̄ + b
3. La media aritmética de una muestra partida se relaciona con las medias aritméti-
cas de las submuestras de la forma:
n1 x̄1 + n2 x̄2
x̄ =
n1 + n2
siendo n1 y n2 los tamaños muestrales de dos submuestras de medias x̄1 y x̄2 ,
respectivamente.
n
En distribuciones con datos no agrupados, calculamos el valor 2
y observamos
el primer valor de la variable cuya frecuencia Ni supera o iguala esta cantidad.
xi
Ni > n2
Me =
xi +xi+1 N = n
2 i 2
n
En distribuciones con datos agrupados, calculamos el valor 2
y observamos el
primer intervalo (Li−1 , Li ] cuya frecuencia Ni supera o iguala esta cantidad. Una vez
identificado el intervalo mediano,
n
2
− Ni−1
Me = Li−1 + ai
ni
donde ai = Li − Li−1 es la amplitud del intervalo.
Ii ci ni Ni fi Fi ai hi
[L0 , L1 ) c1 n1 N1 f1 F1 a1 h1
[L1 , L2 ) c2 n2 N2 f2 F2 a2 h2
.. .. .. .. .. .. .. ..
. . . . . . . .
[Lm−1 , Lm ] cm nm n fm 1 am hm
n 1
• Otras medias:
Media recortada: Dado que para calcular la media utilizamos todas las obser-
vaciones, la presencia de valores extremos en la distribución de frecuencias afecta a su
valor. Se tiene ası́, que la media es muy sensible a los valores extremos (o ”atı́picos”)
de la distribución, mientras que la mediana, que se calcula utilizando únicamente los
valores centrales, permanece inalterable. Las medidas que tienen la propiedad de no
verse afectada por datos extremos se conocen como medidas robustas o resistentes.
Con objeto de que la media sea menos sensible a la presencia de valores extremos,
esto es, sea robusta, se introduce el concepto de media recortada, que es la media
aritmética de los datos que quedan en el conjunto de todos ellos, después de descartar
de éste cierto porcentaje de ellos, tanto por arriba como por debajo. Ası́ la media
recortada al 10 % serı́a la media aritmética del 80 % de los datos que quedan después
de quitar el 10 % de los valores más pequeños y el 10 % de los datos más grandes.
Por ejemplo, en una muestra de 50 datos, la media recortada al 10 % es la media
aritmética que se calcula con los 40 datos centrales, una vez descartados los 5 valores
más bajos (10 % inferior) y los 5 valores más altos (10 % superior).
Con ello, obtenemos una mejor estimación de la tendencia central (especialmente
cuando los datos no son normales) porque la mediana, aunque es robusta, es sensible
a otros errores como, por ejemplo, los de redondeo o agrupamiento.
Media ponderada: se aplica cuando no todos los datos tienen la misma impor-
tancia (”peso”). Pm
wi xi
x̄w = Pi=1
m
i=1 wi
Ejemplo 1.2.2. La tabla siguiente indica la densidad de población de una región
que está dividida en 5 distritos. Si tomamos la media aritmética de los 5 valores de
lo que significarı́a afirmar que, en estos 3 años, el precio de A ha sido la mitad del
de B. Por tanto, si ahora promediamos los precios de B respecto de A, lo lógico
será que obtengamos que ha sido el doble. Sin embargo, el resultado es
2 + 3 + 32 13
x̄B/A = = 6= 2
3 6
Veamos lo que ocurre al tomar las medias geométricas:
r r
3 1 1 2 3 3 1
GA/B = = 0, 48 GB/A = 2 3 = 2, 08 =
2 3 3 2 0, 48
Los promedios sı́ son inversos, como cabe esperar. Por tanto, la media geométrica es
la adecuada y puede afirmarse, entonces, que el precio de A ha sido 0,48 respecto de
B durante estos 3 años o, lo que es equivalente, el precio de B ha sido en promedio
2,08 veces el precio de A.
Ejemplo 1.2.4. Supongamos un coche que recorre una distancia de 100 kms en
dos ocasiones. La primera lo hace en un sentido, siendo la velocidad de 50 kms/h;
y la segunda vez, en sentido contrario, a una velocidad de 80 kms/h. ¿Cuál es la
velocidad media?
Aunque el coche ha recorrido 100 kms en cada caso, al hacerlo a velocidades dis-
tintas, ha empleado tiempos también distintos y, en consecuencia, no serı́a correcto
afirmar que la velocidad media es
50 + 80
v̄ = = 65 km/h
2
Puesto que el tiempo está en relación inversa con la velocidad: v = et . La velocidad
media serı́a el espacio total dividido entre el tiempo total, es decir,
e e1 + e2 200 200 2
v̄ = = = = 100 100 = 1 = 61, 54 km/h
t t1 + t2 t1 + t2 v1
+ v2 v1
+ v12
que es la media armónica de la velocidad.
x̄A ≤ x̄G ≤ x̄
Medidas de posición.
• Cuartiles: son los tres valores Q1 , Q2 y Q3 de la variable o categorı́as del atri-
buto (si éstas son ordenables) que, una vez ordenados los datos, ocupan la posición
correspondiente al primer, al segundo y al tercer cuarto de los datos, respectivamen-
te.
En distribuciones con datos no agrupados, calculamos los valores 41 n, 24 n y 43 n
y observamos los valores de la variable para los que se superan o igualan estas
cantidades en la columna de las frecuencias absolutas acumuladas (Ni ).
xi
Ni > 4p n p = 1, 2, 3
Qp =
xi +xi+1
Ni = p4 n
2
p = 1, 2, 3
Q2 = Me
y los percentiles,
p
100
n − Ni−1
Pp = Li−1 + ai p = 1, 2, . . . , 99
ni
Medidas de dispersión.
Miden el grado de separación o dispersión de los datos respecto al centro de la
distribución. Cuanto mayor sea la dispersión, menos representativa es su medida de
centralización asociada.
• absolutas: miden el grado de variabilidad en la misma unidad que la de la
variable en estudio. No sirven para comparar variables en distintas unidades de
medida. Algunas son: el rango R de la variable y el rango intercuartı́lico, Q3 − Q1 ,
aunque la más importante es la desviación tı́pica ”muestral”, que es la raı́z cuadrada
positiva de la varianza. Ası́, si la varianza muestral de un conjunto de datos es
Pn
2 (xi − x̄)2
s = i=1 ≥ 0 (1.2)
n
Y = X + b ⇒ s2Y = s2X
Y = aX ⇒ s2Y = a2 s2X
Y = aX ⇒ CVY = CVX
x̄ ≤ Me ≤ Mo
Si la distribución presenta una cola larga por la derecha (asimetrı́a positiva), entonces
Mo ≤ Me ≤ x̄
m3
CAS = (1.8)
s3
< 0 forma aplastada (platicúrtica)
CAP = 0 forma ”normal” (mesocúrtica)
> 0 forma puntiaguda (leptocúrtica)
1. Los casos atı́picos que surgen por un error de procedimiento como, por ejemplo,
un dato mal registrado, un error o accidente en la experimentación.
f1 = Q1 − 1, 5 (Q3 − Q1 ) y f2 = Q3 + 1, 5(Q3 − Q1 )
y tomamos una escala que contenga los valores mı́nimo (Min) y máximo (Max). A
continuación, dibujamos un rectángulo o ”caja” delimitada por los cuartiles Q1 y
Q3 , dentro de la cual se traza una lı́nea en la posición que corresponde al segundo
cuartil, Me. En tercer lugar, se traza un segmento o ”bigote” a la izquierda de Q1
que acabe en el valor adyacente inferior (VAI), que es el dato más próximo por
exceso a f1 , esto es, V AI ≥ f1 , y otro ”bigote” a la derecha de Q3 que acabe
en el valor adyacente superior (VAS), que es el dato más próximo por defecto a
f2 (V AS ≤ f2 ). Los casos atı́picos son las observaciones xi que quedan fuera del
intervalo [V AI, V AS].
F1 = Q1 − 3 (Q3 − Q1 ) y F2 = Q3 + 3 (Q3 − Q1 )
y los casos xi que quedan fuera del intervalo (F1 , F2 ) son los extremos. Estos, si los
hay, deberı́an eliminarse. Los casos atı́picos moderados son los que se encuentran
entre las fronteras interiores y exteriores:
F1 ≤ xi ≤ f1 o f2 ≤ xi ≤ F2
0 2 0 0 2 2 0 0 1 1 3
0 0 1 0 0 1 0 1 4 0 0
1 4 2 0 0 1 0 0 2 2 1
1 0 6 0 5 1 3 0 1 0 1
xi ni Ni xi ni
0 20 20 0
1 12 32 12
2 6 38 12
3 2 40 6
4 2 42 8
5 1 43 5
6 1 44 6
44 49
Pm
i=1 xi ni 49
x̄ = = = 1, 11
n 44
n
= 22 ⇒ Ni = 32 > 22 ⇒ Me = 1
2
lo que significa que la mitad de los conejos (el 50 %) tienen menos de 1 garrapata,
mientras que la otra mitad, tienen más de 1. El número de garrapatas más frecuente
(o moda) es 0.
c) Puesto que Mo ≤ Me ≤ x̄, la distribución tiene una cola hacia la derecha
(asimetrı́a positiva) y, por tanto, es de esperar que CAS > 0 (¡Compruébalo!).
xi ni Ni xi ni x2i ni
0 20 20 0 0
1 12 32 12 12
2 6 38 12 24
3 2 40 6 18
4 2 42 8 32
5 1 43 5 25
6 1 44 6 36
44 49 147
f1 = Q1 − 1, 5(Q3 − Q1 ) = −3 y f2 = Q3 + 1, 5(Q3 − Q1 ) = 5
gana en representatividad (CV = 126 %), aunque no lo suficiente. Si, con objeto de
conseguir una media ”robusta” consideramos la media recortada al 5 %, entonces,
una vez descartados los dos primeros datos y los dos últimos, la media recortada es
la media aritmética de los 40 datos centrales, esto es,
P
xi ni 0 × 18 + 1 × 12 + 2 × 6 + 3 × 2 + 4 × 2
x̄rec = i = = 0, 95
n 40
810 312 368 423 529 1861 390 675 919 578
1053 514 391 259 513 1348 498 194 340 587
1495 1868 553 322 404 441 567 835 518 446
542 593 353 670 572 362 595 1028 1552 417
513 1352 473 226 917 419 442 516 1658 280
404 442 574 815 320 379 414 1502 361 310
566 419 591 1048 503 554 283 414 379 670
917 372 440 1508 598 332 317 559 492 228
R 1674
= = 334, 8 ≈ a
k 5
Alicia M. Juan González
Ing. Industrial, Grupos A-B, Curso 2020/21
1.4. Casos atı́picos 23
Si a = 335 y L1 = 190, las marcas de clase tienen decimales. Para evitarlo, probamos
con a = 334 y L1 = 190 pero entonces el último intervalo no contiene al dato máximo
pues L1 + k a = 1860. Ahora bien, si a = 336 y L1 = 190, entonces L1 + k a = 1870.
Ası́ pues, la tabla queda,
xi ni xi ni Ni
(190, 526] 358 44 15752 44
(526, 862] 694 21 14574 65
(862, 1198] 1030 6 6180 71
(1198, 1534] 1366 5 6830 76
(1534, 1870] 1702 4 6808 80
80 50144
y la media agrupada es
50144
x̄ = = 626, 8 mm
80
Aunque los valores de ambas medias están muy próximos, lo cual se debe a una
buena elección de los intervalos, la media sin agrupar siempre es más precisa que
la agrupada. El agrupamiento de los datos en intervalos siempre lleva implı́cito una
pérdida de información.
c)
1
× 80 = 40 ⇒ Ni = 44 > 40 ⇒ Me ∈ (190, 526] ⇒
2
40 − 0
Me = 190 + × 336 = 495, 45 mm
44
Puesto que todos los intervalos tienen la misma amplitud, el intervalo modal es el
de mayor frecuencia absoluta: Mo ∈ (190, 526], y la precipitación más frecuente es
44 − 0
Mo = 190 + 336 = 410, 66 mm
44 + (44 − 21)
xi ni xi ni Ni x2i ni
(190, 526] 358 44 15752 44 5639216
(526, 862] 694 21 14574 65 10114356
(862, 1198] 1030 6 6180 71 6365400
(1198, 1534] 1366 5 6830 76 9329780
(1534, 1870] 1702 4 6808 80 11587216
80 50144 43035968
La desviación tı́pica muestral es
43035968
s2 = − 626, 82 = 145071, 36 ⇒ s = 380, 88 mm
80
En consecuencia, el coeficiente de variación es
380, 88
CV = = 0, 6077 =⇒ 60, 77 %
626, 8
lo que indica que la precipitación media no representa adecuadamente el centro de
la distribución.
e) Calculamos los cuartiles:
1 20 − 0
× 80 = 20 ⇒ Q1 ∈ (190, 526] ⇒ Q1 = 190 + × 336 = 342, 73
4 44
3 60 − 44
× 80 = 60 ⇒ Q3 ∈ (526, 862] ⇒ Q3 = 526 + × 336 = 782
4 21
Las fronteras interiores son:
F1 = Q1 − 3(Q3 − Q1 ) = −975, 08
F2 = Q3 + 3(Q3 − Q1 ) = 2099, 81
1.5. Ejercicios.
2. El dióxido de carbono es un gas que interviene en el efecto invernadero. Su-
pongamos los siguientes valores de dióxido de carbono (en partes por millón, ppm):
319 338 337 339 328 325 340 331 341 336
330 330 321 327 337 320 343 350 322 334
326 349 341 338 332 339 335 338 333 334
4. Se quiere elaborar fibras textiles a partir de fibra de turba. Esto creará una
fuente de materiales económicos para las industrias textil y papelera. Una variable
0, 5 1, 1 2, 0 3, 6 1, 9 2, 6 1, 3 3, 2 2, 4 1, 5
1, 8 1, 6 3, 8 2, 4 2, 3 3, 1 3, 0 2, 4 2, 8 0, 7
4, 0 2, 3 3, 0 0, 8 1, 2 2, 5 2, 7 2, 5 2, 7 3, 7
1, 0 3, 5 2, 3 3, 4 1, 9 1, 7 1, 2 1, 9 4, 5 1, 8
2, 0 2, 2 1, 8 1, 4 2, 3 5, 0 1, 5 3, 1 2, 1 1, 7
160 176 160 180 167 165 163 162 168 173 170 196 185
163 162 172 162 167 161 169 164 179 163 178 161
10. Queremos hacer un estudio sobre la duración (en miles de Km) de dos tipos
de neumáticos A y B. Para ello se han observado 50 vehı́culos con neumáticos de
cada tipo y se han obtenido los resultados siguientes:
12. Para la creación de una empresa se decide clasificar la categorı́a de sus em-
pleados: administrativos, jefes de sección, jefes de departamento e inspectores, según
los resultados de cierta prueba de aptitud. Los resultados han sido los siguientes:
Puntuaciones (0, 30] (30, 50] (50, 70] (70, 90] (90, 100]
Núm.empleados 94 140 160 98 8
ai 12 12 4 4 12 20
Fi 0,15 0,15 0,55 0,80 0,95 1,00
Construye la tabla de frecuencias, sabiendo que el extremo inferior del primer inter-
valo es 70, y determina entre qué dos percentiles está comprendido un coeficiente
intelectual de 98,4.
45. El consumo eléctrico diario en una determinada ciudad arroja los datos
siguientes: supone el 10 % desde las doce de la noche hasta las seis de la madrugada;
a las ocho este valor aumenta hasta el 20 %; llega al 60 % a las dos de la tarde y al
85 % a las veinte horas. a) ¿A qué hora del dı́a el consumo es máximo?, b) ¿Cuántas
horas al dı́a serán necesarias para obtener un consumo del 65 %?
58. El registro del número de dı́as que, durante los seis primeros meses del
año, han faltado al trabajo los 40 empleados de una compañı́a ha dado lugar a los
resultados siguientes:
0 1 2 2 1 0 0 2 2 2
4 2 3 2 0 0 0 2 3 0
3 2 3 8 1 1 0 0 2 2
4 3 0 1 1 1 1 2 1 0
Construye la tabla de frecuencias y determina: a) ¿Cuántos dı́as, en promedio, han
faltado al trabajo los empleados de la compañı́a?, b) ¿Cuál es el porcentaje de
empleados que no han faltado a su trabajo en esos seis meses?, ¿cuál es el porcentaje
de empleados que han faltado, como mucho, dos dı́as?, c) ¿Cuál es el número mı́nimo
de dı́as que han faltado los empleados con mayor absentismo laboral?, d) Calcula el
coeficiente de asimetrı́a, e) Determina, de forma razonada, si hay algún caso atı́pico.