Main 1
Main 1
Main 1
I.E.S.A.S.
ESTADÍSTICA Y
PROBABILIDAD
Alfredo Yerman Cortés Verbel
I.E.S.A.S.
Creative Commons
Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4,0). puede
obtener una copia de de licencia en https://creativecommons.org/licenses/
by-nc-sa/4.0/deed.es. Usted es libre de: Compartir — copiar y redistribuir el
material en cualquier medio o formato. Adaptar — remezclar, transformar y construir
a partir del material.
"Las cifras no mienten, pero los mentirosos
también usan cifras."
Anónimo
Dedicatoria.
Un pequeño regalo para Luciana.
Sea L el evento : Verte algún día cara a
cara; entonces, P (L) = 1.
Índice general
vii
ÍNDICE GENERAL viii
2 DISTRIBUCIONES DE FRECUENCIAS.
32
3 MEDIDAS DE
TENDENCIA CENTRAL. 62
3.3 Mediana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.1 Mediana para datos no agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.2 Mediana para datos agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.3.3 Ventajas y desventajas de la mediana. . . . . . . . . . . . . . . . . . . . . . . 83
3.4 Moda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.1 Moda para datos no agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.2 Moda para datos agrupados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.4.3 Ventajas y desventajas de la moda. . . . . . . . . . . . . . . . . . . . . . . . . . 87
4 MEDIDAS DE
DISPERSIÓN. 123
5 MEDIDAS DE
APUNTAMIENTO Y
ASIMETRÍA. 139
6 CORRELACIÓN Y
REGRESIÓN LINEAL. 163
7 TÉCNICAS DE
CONTEO. 187
8 PROBABILIDAD. 206
9 SCRIPTS R. 225
Albert Einstein
La frase de Albert Einstein ” Dios no juega a los dados con el universo ”, es uno
de los mejores ejemplos de muchos conceptos científicos y frases de célebres in-
vestigadores han pasado a formar parte de la cultura popular. La cita, sacada de
contexto, se emplea incluso como prueba de que el físico creía en divinidades, en
el destino o que mostraba así su rechazo a la teoría de la evolución de Darwin.
Argumentos de autoridad aparte, la historia tras estas palabras es bien diferente, y
ha suscitado gran cantidad de ensayos al respecto. "La mecánica cuántica es real-
mente imponente. Pero una voz interior me dice que aún no es la buena. La teoría
dice mucho, pero no nos aproxima realmente al secreto del ’viejo’. Yo, en cualquier
caso, estoy convencido de que Él no tira dados". Esa es la cita original en la que
Einstein emplea la metáfora por primera vez, en una carta dirigida a su amigo Max
Born. El físico le cogió el gusto a la frase, que repetiría sin cesar, para fastidio de
sus colegas, en años venideros. La metáfora de Einstein es sólo una crítica a la
mecánica cuántica que el físico alemán rechazaba.
Estado actual.
Durante el siglo XXI, la creación de instrumentos precisos para asuntos de salud
pública (epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa
de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas
estadísticas.
Los estudiantes confunden comúnmente los demás términos asociados con las
Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra
tiene tres significados: la palabra estadística, en primer término se usa para referirse
a la información estadística; también se utiliza para referirse al conjunto de técnicas
y métodos que se utilizan para analizar la información estadística; y el término
estadístico, en singular y en masculino, se refiere a una medida derivada de una
muestra.
Estadística Descriptiva:
Estadística Inferencial:
5. Análisis estadístico.
a) Entrevista personal.
d) Observación directa.
Sin embargo, pueden existir algunas circunstancias que hacen más ventajoso la
utilización de un censo, por ejemplo:
Cuando la población de interés sea tan pequeña que un costo y tiempo adi-
cional en el estudio de la población esté plenamente justificado.
Sin embargo, en cualquier estudio tendremos otro tipo de error que se puede
introducir y es llamado error de no muestreo, que principalmente se debe a:
Estos errores pueden ser minimizados a través de un buen diseño del proyecto de
investigación. La utilización de una PRUEBA PILOTO puede ser un buen instrumento
para corregir algunos de estos errores de no muestreo
El muestreo no probabilístico.
Llamado también muestreo circunstancial se caracteriza por que los elementos
a ser incluidos en la muestra no tienen especificada una probabilidad o ella no se
conoce, si la tienen, de ser incluidos en la muestra y por que el error de muestreo
no puede ser medido. Los principales tipos de muestreo no probabilístico son:
Muestreo probabilístico.
En el muestro probabilístico los elementos son seleccionados por cualquier pro-
cedimiento de azar, teniendo cada muestra posible una probabilidad conocida de ser
seleccionada. Sus resultados pueden ser utilizados para realizar inferencias sobre
los parámetros poblacionales, y además, es posible medir el error de muestreo. Los
principales tipos de muestreo probabilísticos son:
Muestreo sistemático :
En este muestreo, los elementos se seleccionan de la población dentro de un
intervalo uniforme con respecto altiempo, al orden o al espacio, aunque puede ser
Cada elemento que se estudia presenta unas características que interesa co-
nocer. Si los elementos que se estudian son personas, por ejemplo, nos interesaría
conocer de ellas su género, su edad, su ingreso mensual, su estado civil, etc. Si los
elementos que nos interesa estudiar son empresas, de ellas nos interesaría conocer
de ellas, por ejemplo, el sector económico donde desarrolla su actividad, el tipo de
sociedad, el número de empleados que tiene, las ventas realizadas por ellas el mes
pasado, etc. Cada una de estas características son las que nos interesa estudiar
y constituyen las variables, pues cambian de persona a persona o de empresa a
empresa. Las variables pueden clasificarse en dos tipos.
Ejemplo 1.1
Ejemplo de variables cualitativas sería:
Estado civil
Lugar de nacimiento
Ejemplo 1.2
Un ejemplo de variables cuantitativas sería:
Por ejemplo el número de hijos de una persona solo admite valores enteros. En
general sus valores se obtienen mediante procesos de conteo.
Escala Nominal.
Ejemplo 1.3
Ejemplos de variables con este tipo de escala nominal son:
Nacionalidad.
Uso de anteojos.
A pesar de que algunos valores son formalmente numéricos, sólo están siendo
usados para identificar a los individuos medidos.
Escala Ordinal.
Ejemplo 1.4
Otros ejemplos de variables con escala ordinal:
Escala de Intervalo.
Ejemplo 1.5
Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir
que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y
17 grados. Lo que no podemos establecer es que una temperatura de 10 grados
equivale a la mitad de una temperatura de 20 grados.
Ejemplo 1.6
Los siguientes son otros ejemplos de variables con esta escala:
Escala de Razón.
Ejemplo 1.7
Las variables altura, peso, distancia o el salario, son algunos ejemplos de este
tipo de escala de medida.
Ejemplo 1.8
Algunos ejemplos de variables con la escala de razón son los siguientes:
Altura de personas.
a) Marca de coches.
b) Pesos de los coches.
c) Número de coches vendidos.
5. Identifique de entre el siguiente listado, los datos que son cualitativos y los
que son cuantitativos:
a) Clase de ocupación.
b) Enfermedades más comunes.
c) Calificación obtenida en un examen.
d) Años de estudio.
e) Votos anulados en las últimas elecciones.
f ) Estado civil.
g) Tipos de vivienda.
h) Color de los ojos.
i) Lugar de nacimiento.
j) Número de hijos.
6. De los datos cuantitativos siguientes, indique los que son de variables discreta
y los que son de variables continua.
10. Se realiza una votación preliminar para determinar las preferencias de los
votantes en una elección presidencial. Con este fin, se entrevistan 1100 votan-
tes registrados y entre ellos 660 están a favor del candidato F . Responde lo
siguiente:
d) ¿Cuál es el parámetro? .
e) ¿Cuál es el estadístico?.
a) Que quiere decir la frase de Albert Einstein : no creo que dios juegue a
los dados.
b) ¿De la figura 1.1, que reflexión o mensaje podría obtener?, justifique su
respuesta.
c) ¿Considera usted que para poder generar una opinión referente a algún
tema son necesarios los datos? ¿Se puede prescindir de la intuición?, Ver
figura 1.5.
2. DISTRIBUCIONES DE
FRECUENCIAS.
2.1.1. Sumatoria.
X
n
ai = a1 + a2 + a3 + · · · + an
i=1
de forma general
X
n
ai = am + am+1 + am+2 + · · · + an
i=m
X X
i=n X
n
ai = ai = ai
i∈[m,n] i=m i=m
Ejemplo 2.1
La suma de los cuadrados de los seis primeros enteros estrictamente positivos se
escribe por ejemplo:
6
X
i2 = 12 + 22 + 32 + 42 + 52 + 62
i=1
= 1 + 4 + 9 + 16 + 25 + 36
= 91.
Ejemplo 2.2
7
X
2i − 1 = (2 · 1 − 1) + (2 · 2 − 1) + (2 · 3 − 1) + (2 · 4 − 1) + (2 · 5 − 1) + (2 · 6 − 1) + (2 · 7 − 1)
i=1
= (2 − 1) + (4 − 1) + (6 − 1) + (8 − 1) + (10 − 1) + (12 − 1) + (14 − 1)
= 1 + 3 + 5 + 7 + 9 + 11 + 13
= 49.
1
Fantónimo es un neologismo que indica una palabra de aspecto que hace que un receptor o
emisor piense que tenga un significado concreto, aunque en realidad tenga otro distinto del pensado
Sea C un valor constante y sea f (x) una función real entonces tenemos
X
t X
t
C · f (n) = C · f (n)
n=s n=s
X
t X
t X
t
f (n) ± g(n) = [f (n) ± g(n)]
n=s n=s n=s
X
t X
t+p
f (n) = f (n − p)
n=s n=s+p
X
j
X
t X
t
f (n) + f (n) = f (n)
n=s n=j+1 n=s
X
k1 X
l1 X
l1 X
k1
ai,j = ai,j
i=k0 j=l0 j=l0 i=k0
Hay fórmulas para calcular los sumatorios más rápido, estas serán vistas en el
siguiente teorema:
X
n
n(n + 1)
i =
2
i=1
X
n
C = C · (n − m + 1)
i=m
Xn X
n
n(n + 1)
i = i=
2
i=0 i=1
X
n
n(n + 1) m(m − 1) (n + 1 − m)(n + m)
i = − =
i=m
2 2 2
X
n
n(n + 1)(2n + 1) n3 3 n2 n
i2 = = +
6 + 2 6
i=1
2 " n #2
X
n
n(n + 1) n4 n3 n2 X
i3 = = + + = i
2 4 2 4
i=1 i=1
Xn
n(n + 1)(2n + 1)(3n2 + 3n − 1) n5 n4 n3 n
i4 = = + + −
30 5 2 3 30
i=1
X
n−1
am − an
ai = con m < n y a ̸= 1
i=m
1−a
X
n−1
1 − an
ai =
1−a
i=0
X
n−1
a − nan + (n − 1)an+1
iai =
(1 − a)2
i=0
Carl Jung2
2
Carl Gustav Jung (1875 - 1961) fue un médico psiquiatra, psicólogo y ensayista suizo, figura clave
en la etapa inicial del psicoanálisis; posteriormente, fundador de la escuela de psicología analítica,
también llamada psicología de los complejos y psicología profunda.
Ejemplo 2.3
1000
X 1000
X 1000
X
2i − 1 = 2i + −1
i=1 i=1 i=1
1000
X
= 2 i + (−1) · 1000
i=1
1000(1000 + 1)
= 2 − 2000
2
= 1000 · 1001 − 2000
= 1001000 − 2000
= 999000
Ejemplo 2.4
500
X 500
X 500
X 500
X
3i2 + 5i + 4 = 3i2 + 5i + 4
i=1 i=1 i=1 i=1
500
X 500
X 500
X
2
= 3 i +5 i+ 4
i=1 i=1 i=1
500(500 + 1)(2 · 500 + 1) 500(500 + 1)
= 3 +5 + 4 · 500
6 2
500 · 501 · 1001 500 · 501
= +5 + 2000
2 2
250750500 1252500
= + + 2000
2 2
= 125375250 + 626250 + 2000
= 126003500
pueda ver el número existente en cada clase. Estas agrupaciones de datos suelen
estar agrupadas en forma de tablas.
Una distribución de frecuencias es un formato tabular en la que se organizan
los datos en clases, es decir, en grupos de valores que describen una característica
de los datos y muestra el número de observaciones del conjunto de datos que caen
en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En
principio, en la tabla de frecuencias se detalla cada uno de los valores diferen-
tes en el conjunto de datos junto con el número de veces que aparece, es decir,
su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada
frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos.
En variables cuantitativas se distinguen por otra parte la frecuencia simple y la
frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un histograma
(Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y
en el horizontal los intervalos de valores.
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma
de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspon-
diente.
f1 + f2 + f3 + ... + fn = n
P
Para indicar resumidamente estas sumas se utiliza la letra griega (sigma
mayúscula) que se lee suma o sumatoria.
X
n
fi = n
i=1
Frecuencia relativa.
fi
f ri =
n
La suma de las frecuencias relativas es igual a 1.
Ejemplo 2.5
En un sector de una ciudad se seleccionó una muestra de 40 empresas y se regis-
tró la actividad económica que desarrollaban, obteniendo los siguientes resulta-
dos:COMERCIO - SERVICIO - COMERCIO - COMERCIO - SERVICIO - SERVICIO
Actividad Económica fi f ri
COMERCIO 18 0,45
INDUSTRIA 8 0,20
SERVICIO 14 0,35
TOTAL 40 1,0
Gráficos
Los datos resumidos en una tabla de distribución de frecuencias, suelen presen-
tarse en forma gráfica. Los gráficos son representaciones pictóricas que permiten, a
veces, observar rápidamente de un golpe de vista el comportamiento de la variable
que se estudia y sus características más sobresalientes. Los gráficos apropiados
para representar variables cualitativas son los de barra y los de sectores (circular
o pastel).
Graficos de Barras :
Los gráficos de barra pueden ser horizontales o verticales. En los gráficos de
barras más usuales son los verticales en donde se representa en el eje horizontal
la variable y en el eje vertical el número de elementos que tiene cada cualidad o
categoría de la variable (las frecuencias).(ver figura 2.3)
El gráfico de barras horizontales se construye colocando los ejes en forma in-
versa, es decir, la variable se representa en el eje vertical y las frecuencias en el eje
horizontal. Se utiliza principalmente cuando la variable es de tipo geográfico. (ver
frigura 2.4)
Ejemplo 2.6
A un grupo de personas se les encuestó sobre el uso de cigarrillo y se obtuvieron
los siguientes datos (Ver cuadro 2.2).
Cuadro 2.2: Tabla de frecuencias sobre el uso del cigarrillo por genero.
Gráficos
Este tipo de distribución se puede representar gráficamente mediante alguno de
tres tipos de gráficos: barras agrupadas, barras compuestas y barras compuestas
porcentuales.
3.
Las frecuencias
relativas (simbolizadas
f ri ) que representan la proporción
fi fi
f ri = n o el porcentaje f ri % = n 100 de elementos que toman cada uno
de los valores de la variable
Ejemplo 2.7
Cien familias se han clasificado según el número de hijos, resultando los siguien-
tes datos:
N° de Hijos 0 1 2 3 4 5 6 7 8
N° de familias 11 13 20 25 14 10 4 2 1
30
25
20
15
10
0
0 1 2 3 4 5 6 7 8
Distribución de frecuencias:
Cantidad de hijos fi f ri
11
0 f1 = 11 f r1 = fn1 = 100 = 0,11
f2 13
1 f2 = 13 f r2 = n = 100 = 0,13
20
2 f3 = 20 f r3 = fn3 = 100 = 0,2
f4 25
3 f4 = 25 f r4 = n = 100 = 0,25
14
4 f5 = 14 f r5 = fn5 = 100 = 0,14
f6 10
5 f6 = 10 f r6 = n = 100 = 0,1
4
6 f7 = 4 f r7 = fn7 = 100 = 0,04
f8 2
7 f8 = 2 f r8 = n = 100 = 0,02
f9 1
8 f9 = 1 f r9 = n = 100 = 0,01
Total 100 1
Diagrama de barras
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8
de cada clase (absoluta o relativa) la de las clases anteriores, hay que tener en
cuenta que los valores de la distribución de frecuencias acumulada no decrecen.
La información sobre los datos que proporcionan la distribución de frecuencias y
la distribución de frecuencias acumulada es equivalente. Cada una puede obte-
nerse a partir de la otra.
Cantidad de hijos fi Fi f ri F ri
0 11 11 0,11 0,11
1 13 24 0,13 0,24
2 20 44 0,2 0,44
3 25 69 0,25 0,69
4 14 83 0,14 0,83
5 10 93 0,1 0,93
6 4 97 0,04 0,97
7 2 99 0,02 0,99
8 1 100 0,01 1
Total 100 1
1.0
0.8
0.6
0.4
0.2
0.0
0 1 2 3 4 5 6 7 8
R = xn − x1 = xmax − xmin
R = Máximo valor - Mínimo valor
m = 1 + 3,322 log(n)
N° de Datos N° de Clases
8 a 16 4
17 a 32 5
33 a 64 6
65 a 128 7
129 a 256 8
257 a 512 9
513 a 1024 10
R Rango
a= =
m Intervalos
Ejemplo 2.8
La tienda Yerman‘s Store estaba interesada en efectuar un análisis de sus cuentas
por comprar. Uno de los factores que más interesaba a la administración de la
tienda era el de los saldos de las cuentas de crédito. Se escogió al azar una
muestra aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en unidades
monetarias) como siguea :77.97 - 13.02 - 17.97 - 89.19 - 12.18 - 8.15 - 34.40 -
43.13 - 79.61 - 90..99 - 43.66 - 29.75 - 7.42 - 93.91 - 20.64 - 21.10 - 17.64 - 81.59 -
60.94 - 43.97 - 32.67 - 43.66 - 51.69 - 53.40 - 68.13 - 11.10 - 12.98 - 38.74 - 70.15
- 25.68
Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda,
o sea como los datos están dados en centésimos, se calculo a hasta los
milésimos para evitar que algún dato coincida con el límite de clases
21,835 + 7,420
Calcular el punto medio de cada clase: c1 = = 14,698, c2 =
2
36,250 + 21,835
= 29,043... (Ver 2.7)
2
Clases ci fi f ri Fi F ri
[7,420 − 21,835) 14,628 10 0,33 10 0,33
[21,835 − 36,250) 29,043 4 0,13 14 0,46
[36,250 − 50,665) 43,458 5 0,17 19 0,63
[50,665 − 65,080) 57,873 3 0,10 22 0,73
[65,080 − 79,495) 72,288 3 0,10 25 0,83
[79,495 − 93,910) 86,703 5 0,17 30 1,00
Total 30 1,00
Gráficos.
El gráfico es quizás el auxiliar más valioso y utilizado para expresar datos
estadísticos, este elemento no le añade novedad a las tablas o cuadros estadísticos,
es de fácil comprensión y accesible a un número mayor de usuarios. El gráfico
además de expresar visualmente los hechos más importantes de la información
numérica, permite una mejor y más fácil comprensión y ahorra tiempo y esfuerzo en
el análisis de datos estadísticos al facilitar su apreciación visual en forma conjunta:
Ojivas: Las ojivas se refieren a los gráficos que se construyen utilizando una
distribución acumulativa de frecuencias, el orden de acumulación se aplica al cuadro
de distribución de frecuencia.
P10 1
e) m=1 − .
m
P12 2
f) i=7 i + i + 1.
P32 3
g) j=1 5(j) .
P32 3
h) j=1 (5j) .
P50 3
P100 3
i) n=1 4n + n=51 4n .
P50 1 2 P100 1 2
j) n=1 n + p=51 p .
2 2
P5 P4 n.
k) n=1 m=1 m
n
P50 1
l) .
n=1
2
j
P50 1
m) j=1 j .
3
2. Escribir las siguientes expresiones usando notación sigma
a) 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 13
1 1 1 1 1 1
b) 1 + + + + + + · · · +
3 3 5 7 9 51
c) 1 + 2 + 4 + 8 + 16 + 32 + 64 + 128 + 256
d) 1 + 3 + 7 + 15 + 31 + 63 + 127 + 255
1 1 1 1 1 1 1
e) (−1) + + − + ,+ − + + − + ··· +
2 3 4 5 6 7 20
4 6 8 10 12 14 16
f) 2+ + + + + + +
3 5 7 9 11 13 15
6. Un grupo de atletas se está preparando para una maratón siguiendo una dieta
muy estricta. A continuación, viene el peso en kilogramos que ha logrado bajar
cada atleta gracias a la dieta y ejercicios. 0,2- 8,4- 14,3- 6,5- 3,4- 4,6- 9,1- 4,3-
3,5- 1,5- 6,4- 15,2- 16,1- 19,8- 5,4- 12,1- 9,6- 8,7- 12,1- 3,2. Elaborar una tabla
de frecuencias con dichos valores, la gráfica de la tabla y una explicación de
los resultados obtenidos.
Empresa A Empresa B
n° de personas Salario recibido (·1000 pesos) n° de personas Salario recibido (·1000 pesos)
15 800 10 800
20 1000 30 1000
30 1200 35 1200
20 1500 24 1500
15 7500 1 7500
Cuadro 2.8: ¿Cuál de las empresas tiene salario repartido de forma más equitativa?
6 0 ; 6 6 ; 7 7 ;70;66; 6 8 ; 5 7 ; 7 0 ; 6 6 ; 5 2 ; 7 5 ; 6 5 ; 6 9 ; 7 1 ; 5 8 ;
6 6 ; 6 7 ; 7 4 ;61;63; 6 9 ; 8 0 ; 5 9 ; 6 6 ; 7 0 ; 6 7 ; 7 8 ; 7 5 ; 6 4 ; 7 1 ;
8 1 ; 6 2 ; 6 4 ;69;68; 7 2 ; 8 3 ; 5 6 ; 6 5 ; 7 4 ; 6 7 ; 5 4 ; 6 5 ; 6 5 ; 6 9 ;
6 1 ; 6 7 ; 7 3 ;57;62; 6 7 ; 6 8 ; 6 3 ; 6 7 ; 7 1 ; 6 8 ; 7 6 ; 6 1 ; 6 2 ; 6 3 ;
7 6 ; 6 1 ; 6 7 ;67;64; 7 2 ; 6 4 ; 7 3 ; 7 9 ; 5 8 ; 6 7 ; 7 1 ; 6 8 ; 5 9 ; 6 9 ;
7 0 ; 6 6 ; 6 2 ;63;66
1. La estatura media de los hombres y las mujeres varia con el tiempo, con el
objeto de conocer la estatura media de los estudiantes colombianos varones
fueron seleccionados aleatoriamente 4000 estudiantes de distintas facultades
y medidas sus estaturas,. En el caso anterior podemos identificar la muestra
como:
a) 4.
b) 3.
c) 1.
d) 8.
a) 7 %.
b) 12 %.
c) 52 %.
d) 87 %.
uno de los premios más reputados de la India, por sus contribuciones a la ciencia
y sus servicios al país.
Murió el 28 de junio de 1972, un día antes de alcanzar los 79 años de edad. En
sus últimos años continuó su labor investigadora y desempeñando los cargos de
Secretario y Director del Instituto Indio de Estadística y Consejero Honorífico de
Estadística del Gabinete de Gobierno de la India.
Media.
Media ponderada.
Media geométrica.
Media armónica.
Mediana.
Moda.
Fractiles.
1
Férnandez Fernández, Santiago; Alejandro Córdoba, José María Cordero Sánchez, Alejandro Cór-
doba (2002). «3.3. Medidas de posición». Estadística Descriptiva (2a edición). ESIC Editorial. p. 134.
ISBN 8473563069.
Ejemplo 3.1
Sean los siguientes valores las calificaciones la asignatura de Estadística de
estudiantes de primer año: 10 - 8 - 6 - 7.5 - 7 - 7.5 - 8 - 9.5 - 10 - 10 - 8 - 6
- 9 - 10 - 7.5 - 6 - 9.5 - 10 - 6.5 - 8 - 6 - 6 - 9 - 10 - 7 - 8 - 9.5 - 5 - 8 - 7.5
Sumando los valores de las 30 calificaciones y dividiéndolas entre los 30 datos
obtendremos: Pn
xi 240
x = i=1 = =8
n 30
por lo que la media de calificaciones obtenida por el grupo considerado es igual
a 8.
1X
m
x1 f1 + x2 f2 + x3 f3 + · · · + xm fm
x= x i fi =
n n
i=1
P
donde n = fi es el total de datos, m es el número total de clase, xi son
los distintos valores de los datos y fi es la frecuencia de datos.
Ejemplo 3.2
Sean los siguientes datos 1, 1, 2, 2, 4, 4, 5, 2, 3, 2, 3, 4, 1, 2, 1. La media para dichos
datos es aproximadamente igual a 2.4666, es decir,
P
15
xi
i=1 1+1+2+2+4+4+5+2+3+2+3+4+1+2+1
x= = = 2,4666
15 15
Sin embargo, el mismo resultado podemos obtener si tomamos la frecuencia con
que aparecen los datos, en este caso:
Robert Heinlein2
2
Escritor norteamericano, Robert A. Heinlein es uno de los grandes autores de ciencia ficción del
S. X X , Habitualmente riguroso en cuanto a la base científica en sus historias, incluso sus historias de
fantasía contienen una estructura científica lógica. Una de las características que definen su escritura
fue el introducir en la temática de la ciencia ficción la administración, la política, la economía, la
lingüística, la sociología y la genética. Fue también uno de los abanderados del individualismo, lo
cual quedaba reflejado en la riqueza de los personajes (ejemplo claro es Lazarus Long), tanto en
conocimientos, como en habilidades.
Ejemplo 3.3
Supongamos que una clínica de salud, obtiene una tabla de edades de las perso-
nas que son atendidas en un fin de semana, para los que presentan la siguiente
tabla. ¿Cuál será el promedio de edades de los enfermos que acudieron a recibir
atención médica?
Por lo que el promedio de personas a las que se les dio servicio es de:
7
1 X 15 · 8 + 25 · 25 + 35 · 14 + 45 · 8 + 55 · 2 + 65 · 2 + 75 · 1
x= xi fi = = 32,45 años
55 55
i=1
Ejemplo 3.4
La demanda de cierto artículo en 48 días fue 1, 4, 1, 0, 2, 1, 1, 3, 2, 1, 1, 0, 3, 2, 4,
3, 4, 1, 2, 1, 1, 2, 2, 2, 1, 3, 3, 3, 1, 4, 4, 0, 2, 1, 4, 0, 3, 1, 3, 3, 4, 2, 2, 1, 0, 1, 2, 4,
mientras que en otros 48 días hubo una demanda de 1 artículo en 13 de ellos, de
2 artículos en 12, de 3 en 10, de 4 en 9 y el resto de los días no hubo demanda.
¿podrías decir en qué conjunto de días hubo mayor demanda diaria?
El objetivo es comparar la demanda diaria de ambas muestras. Se denotará
por xi los datos de la primera muestra y por yj los de la segunda. Las frecuencias
de ambas muestras se recogen en la Tabla tabla 3.1
xi ni yj nj
0 5 0 4
1 15 1 13
2 11 2 |12
3 9 3 10
4 8 4 9
Total 48 Total 48
xi ni xi ni yj nj yj nj
0 5 0 0 4 0
1 15 15 1 13 13
2 11 22 2 12 24
3 9 27 3 10 30
4 8 32 4 9 36
Total 48 96 Total 48 103
Ejemplo 3.5
De las devoluciones mensuales que se realizan a cierto almacén el 10 % tienen
un importe de 360 dolares a lo sumo. El 40 % son de un importe inferior o igual
a 660 dolares. En la mitad de ellas no se superan las 1385 mientras que el 30 %
están entre 1385 y 2410 dolares.
clase fi Fi xi
[0, 360] 0, 1 0, 1 180
[360, 660] a 0, 4 510
[660, 1385] b 0, 5 1022, 5
[1385, 2410] 0, 3 c 1897, 5
[2410, 3000] d e 2705
Total f - -
Además c = F4 tiene que ser todo lo acumulado hasta ese momento. Mate-
máticamente sería c = F3 + 0,3 = 0, 5 + 0,3 = 0, 8 y el último Fi siempre es
1, porque al final se tiene ya todo acumulado, por lo que e = F5 = 1. Por el
mismo motivo, f = 1. Por último, como para que la columna de fi sume 1 falta
0,2, se tiene que d = 0,2. Las frecuencias completas y la columna necesaria para
calcular la media se representan en la Tabla 3.4
clase fi Fi xi xi fi
[0, 360] 0, 1 0, 1 180 180
[360, 660] 0, 3 0, 4 510 153
[660, 1385] 0, 1 0, 5 1022, 5 102, 25
[1385, 2410] 0, 3 0, 8 1897, 5 569, 25
[2410, 3000] 0, 2 1 2705 541
Total f - - 1383, 5
X
k
x̄ = xi fi = 1383, 5 dolares
i=1
Inconvenientes de su uso
Para datos agrupados en intervalos (variables continuas) su valor oscila en
función de la cantidad y amplitud de los intervalos que se consideren.
Ejemplo 3.6
Un estudiante ha realizado 1 examen que constaba de 3 partes: una teórica, otra
de problemas y otra de prácticas de informática. El profesor le da el doble de
importancia a los problemas que a la teoría y el triple a las prácticas. Si ha
obtenido una calificación de 5, 8 sobre 10 en teoría, 6, 4 sobre 10 en problemas y
7,9 sobre 10 en prácticas, ¿cuál crees que será su calificación final en el examen?.
El objetivo es calcular la calificación final del examen; el experimento consiste
en seleccionar cada parte de examen (individuo) y observar la nota del alumno
en esa parte (variable). Luego la población serían las 3 partes del examen y la
muestra sería igual a la población. La variable es cardinal (porque las notas son
números), de intervalo (porque la escala es subjetiva, el 0 no significa ausencia
de nota, ni un 10 representa el doble de conocimientos que un 5,0 y continua (en
principio, se puede obtener notas de 6, 7 y 6, 789, etc.); la nota final debería ser
la nota media de todas las partes teniendo en cuenta la importancia que tiene
cada una de esas partes. La media ponderada se calculará también a partir de
la tabla de frecuencias. Aunque sólo haya hecho 1 examen de cada tipo, se le da
el doble de importancia a un examen que a otro, lo que implica que a la hora de
calcular la media, ese examen debería tener el doble de peso, es decir, quedaría
multiplicado por 2 (así, las ponderaciones jugarían el papel de las frecuencias en
la fórmula matemática). La tabla de frecuencias sería entonces
xi ni wi wi xi
5, 8 1 1 5, 8
6, 4 1 2 12, 8
7, 9 1 3 23, 7
Total 3 6 42, 3
por lo tanto
42, 3
x̄w = = 7, 05 puntos
6
la nota final del examen sería de 7, 05 puntos, que representa la media de todas
las partes teniendo en cuenta su importancia.
Figura 3.1: Tomado de Florez V., [@VLADDO] [Imagen adjunta], (15 de abril
de 2020) Hablando de estadística, por si se le ofrece a @IvanDuque
o a cualquier alto funcionario del Estado, aquí les dejo. [Tweet].
https://twitter.com/VLADDO/status/1250569956909088770?s=20
3.3. Mediana.
La mediana, representa el valor de la variable de posición central en un conjunto
de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o
iguales que la mediana representarán el 50 % de los datos, y los que sean mayores
que la mediana representarán el otro 50 % del total de datos de la muestra. Es
decir es el valor que ocupa el lugar central de todos los datos cuando éstos están
ordenados de menor a mayor. La mediana se representa por Me . Se puede hallar
sólo para variables cuantitativas.
Ejemplo 3.7
Si tenemos 5 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9.
El valor central es el tercero:x 5+1 = x3 . Este valor, que es la mediana de ese
2
conjunto de datos, deja dos datos por debajo x1 = 3, x2 = 6 y otros dos por
encima de él x4 = 8, x5 = 9.
Ejemplo 3.8
Si tenemos 6 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9,
x6 = 10. Hay dos valores que están por debajo del x 6 = x3 = 7 y otros dos que
2
quedan por encima del siguiente dato x 6 +1 = x4 = 8 . Por tanto, la mediana de
2
x3 + x4
este grupo de datos es la media aritmética de estos dos datos: Me = =
2
7+8
= 7,5
2
Ejemplo 3.9
Un grupo de personas presentó una prueba de aptitud. El número de respuestas
incorrectas que tuvieron se muestra en la siguiente tabla:
La estadística es una ciencia que demuestra que si mi vecino tiene dos coches
y yo ninguno, los dos tenemos uno.
Ejemplo 3.10
El número de empleados que tiene una muestra de pequeñas empresas, se mues-
tra en el cuadro 3.6
Cuadro 3.6: El número de empleados que tiene una muestra de pequeñas empre-
sas
120
Primero se calcula n
2 = 2 = 60
Ejemplo 3.11
La siguiente tabla muestra gasto (miles $) efectuado el mes pasado en manteni-
miento por una muestra de los buses de una empresa transportadora:
Gastos en mantenimiento Número de buses Número acumulado de buses
[Li−1 , Li ) fi Fi
[100, 200) 3 3
[200, 300) 7 10
[300, 400) 18 28
[400, 500) 12 40
[500, 600) 8 48
[600, 700) 2 50
Total 50
50
Se calcula n
2 = 2 = 25
Se ubica la menor de las frecuencias acumuladas que supere a 25. En este
caso es la tercera frecuencia acumulada (28), es decir k = 3
Se calcula la mediana utilizando la fórmula anterior.
El límite inferior del tercer intervalo es Lk−1 = 300 ; la amplitud del tercer
intervalo es ak = 100; La frecuencia acumulada del intervalo anterior es
Fk = 10; la frecuencia del tercer intervalo es fk = 18. Entonces, la mediana
será: !
50
2 − 10
Me = 300 + 100 = 383,3
18
Ejemplo 3.12
Se ha hecho un estudio de los precios de venta del agua y de la leche en cierto
hipermercado. Respecto al agua, se verificó que 3 marcas cuestan 0, 27 dolares,
2 cuestan 0, 21 dolares, 1 cuesta 0, 24 dolares, y otra más cuesta 0, 3 dolares.
En cuanto a la leche, se constató que 4 de las marcas costaban 0, 79 dolares, 3
costaban 0, 61 dolares, 2 costaban 0, 69 dolares, otras 2 costaban 0, 82 dolares y
una costaba 0, 73 dolares. Calcula e interpreta el valor de la mediana del precio
del agua y del precio de la leche.
El objetivo es calcular el precio mediano del agua y de la leche. Se comenzará
con los precios del agua. El experimento consiste en seleccionar marcas de agua
(individuos) y observar su precio (variable). La población son todas las marcas de
agua que hay en ese supermercado y se dispone de una muestra (quizás sean
todas las que hay) de 7 marcas. La variable es cardinal, de razón y continua
(porque los precios son números, 0 significa que no cuesta nada y, en principio,
cualquier precio es válido). Ahora se trata de calcular la mediana porque es lo
que se pide. Es decir, se busca un valor que deje la mitad de los datos por debajo
y la otra mitad por encima, una vez ordenados. Si se ordenan todos los datos
se tiene: 0,21, 0,21, 0,24, 0,27, 0,27, 0,27 y 0,3. El primer valor igual a 0,27 deja
3 marcas por encima y otras 3 por debajo, esto es, es el valor que está en el
medio, así que la mediana sería 0, 27. Calcular así la mediana cuando se tienen
muchos datos resultaría demasiado tedioso, por eso se realizará utilizando las
tablas. En realidad, se necesita conocer el punto en el que se lleva acumulada la
mitad, es decir, el 50 , % de la muestra. Por eso el cálculo se basa en la columna
de frecuencias acumuladas Fi .
xi ni fi Fi
0, 21 2 0, 2857 0, 2857
0, 24 1 0, 1429 0, 4286
0, 27 3 0, 1286 0, 8572
0, 3 1 0, 1429 1
Total 4 1 -
0, 61 - 0, 61 - 0, 61 - 0, 69 - 0, 69 - 0, 73 - 0, 79 - 0, 79 - 0, 79 - 0, 79 - 0, 82 - 0, 82
| {z } | {z }
La mitad de 12 son 6, el hueco entre el 0, 73 y el 0, 79 separa 6 datos por
debajo y 6 por encima, luego cualquier valor que esté entre esos 2 cumpliría la
condición para ser mediana. Si se necesita un solo número, se puede optar por
0, 73 + 0, 79
dar el número del medio: = 0, 76 dolares (y se asegura que la mitad
2
de las marcas cuestan 0, 76 o menos y la otra mitad 0, 76 dolares o más).
xi ni fi Fi
0, 61 3 0, 25 0, 25
0, 69 2 0, 1667 0, 4167
0, 73 1 0, 0833 0, 5
0, 79 4 0, 3333 0, 8333
0, 82 2 0, 1667 1
Total 12 1 -
Al aplicar el método de cálculo con tablas (ver Tabla 3.8) aparece justo el
valor Fi = 0, 5, eso significa que exactamente la mitad de las marcas cuestan
0, 73 dolares o menos (o también 0, 73 dolares o más), pero el mismo razona-
miento es válido para todos los números entre 0, 73 y 0, 79. en consecuencia si el
0, 5 exacto aparece en la columna de Fi , la mediana es cualquier valor entre el
xi correspondiente y el siguiente (en particular, el punto medio podría servir de
representante). En conclusión, el precio mediano de la leche es cualquier valor
entre 73 y 79 céntimos. Se puede decir que la mitad de las marcas cuestan alre-
dedor de 76 céntimos o menos y la otra mitad cuestan alrededor de 76 céntimos
o más. El precio de la leche oscila alrededor de los 76 céntimos.
Ejemplo 3.13
Un comercial dedica al 15 % de sus clientes menos de 10 minutos, al 38 %
entre 10 y 30 minutos y al resto entre 30 y 60 minutos. Calcula e interpreta la
mediana del tiempo de atención por cliente.
El objetivo es calcular la mediana del tiempo de atención por cliente; el expe-
rimento consiste en seleccionar clientes (individuos) y observar el tiempo que les
dedica un comercial (variable). La población son todos sus clientes y la muestra,
en este caso, coincide con la población. La variable es cardinal, de razón y conti-
nua (porque el tiempo se mide con números, 0 significa que no le dedica tiempo y
podría dedicarle cualquier cantidad de tiempo). Se trata entonces de calcular la
mediana, es decir, se busca un valor que deje el 50 % de los clientes por debajo y
el otro 50 % por encima. En primer lugar hay que extraer la tabla de frecuencias.
Para calcular la mediana se necesitan las frecuencias acumuladas
clases fi Fi
[0, 10] 0, 15 0, 15
(10, 30] 0, 38 0, 53
(30, 60] 0, 47 1
decir, siguiendo la pendiente del triángulo grande de la Figura ??. Así que se
trata de ver cuanto se lleva acumulado hasta 0, 5, es decir, lo que corresponde a
la pendiente del triángulo pequeño. Siguiendo la regla de triángulos semejantes
(base grande es a altura grande lo mismo que base pequeña es a altura pequeña),
se tiene la siguiente regla de tres (ver figura 3.2):
Entonces
20 ¯¯˘ 0, 38
x − 10 ¯¯˘ 0, 35
por lo que
20 · 0, 35
x − 10 =
0, 38
x − 10 = 18, 4211
x = 18, 4211 + 10
x = 28, 4211
En conclusión: Me = 28, 4211 minutos, que significa que ese comercial le de-
dica a la mitad de sus clientes 28, 4211 minutos o menos y a la otra mitad les
dedica 28, 4211 o más. Esto es una aproximación, porque se supuso que los tiem-
pos estaban uniformemente repartidos en ese intervalo y esto no tiene porque
ser exactamente así. El tiempo que le dedica el comercial a cada cliente oscila
alrededor de aproximadamente 28, 4211 minutos.
desentajas de la mediana
Para su calculo se deben intentar ordenar los datos, esto implica un consumo
de tiempo para cualquier conjunto de datos con un gran número de datos
3.4. Moda.
Ejemplo 3.14
La moda de la distribución:2, 3, 3, 4, 4, 4, 5, 5 es Mo = 4
Ejemplo 3.15
La moda de la distribución:1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 es Mo = 1, Mo = 5,
Mo = 9. Esta es una distribución multimodal.
fk − fk−1
Mo = Lk−1 + ak
(fk − fk−1 ) + (fk − fk+1 )
Ejemplo 3.16
Calcular la moda de una distribución estadística que viene dada por la siguiente
tabla:
Intervalos fi
[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8
Total 100
La mayor frecuencia que es de 42, se encuentra en el tercer intervalo, entonces
k = 3; luego f3 = 42,la frecuencia anterior fk−1 = f3−1 = f2 = 18, la frecuencia
posterior fk+1 = f3+1 = f4 = 27. La amplitud del tercer intervalo es ak = a3 = 3
y el limite inferior de la clase modal es Lk−1 = L3−1 = L2 = 66. Entonces la moda
será
f3 − f3−1
Mo = L3−1 + a3
(f3 − f3−1 ) + (f3 − f3+1 )
42 − 18
= 66 + 3
(42 − 18) + (42 − 27)
= 67,8
hk − hk−1
Mo = Lk−1 + ak
(hk − hk−1 ) + (hk − hk+1 )
hk+1
Mo = Lk−1 + ak
hk−1 + hk+1
Ejemplo 3.17
En la siguiente tabla se muestra las calificaciones (Insuficiente, básico,aceptable
y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.
fi hi
[0, 5) 15 3
[5, 7) 20 10
[7, 9) 12 6
[9, 10) 3 3
Total 50
h2 − h2−1
Mo = L2−1 + a2
(h2 − h2−1 ) + (h2 − h2+1 )
10 − 3
= 5+ 2
(10 − 3) + (10 − 6)
= 6,33
Ejemplo 3.18
En una encuesta se les preguntó a 16 personas si su hogar era de alquiler o
en propiedad. Las contestaciones fueron: alquiler, alquiler, propiedad, alquiler,
no sabe/no contesta, alquiler, propiedad, alquiler, propiedad, propiedad, alquiler,
alquiler, no sabe/no contesta, alquiler, propiedad, y alquiler. ¿Qué valor representa
el centro de esa distribución?
El objetivo es encontrar el “centro” de la distribución del régimen de propiedad
(alquiler o propiedad). El experimento consiste en seleccionar personas y observar
si su hogar es alquilado o lo tienen en propiedad. La población serán todas las
personas (con hogar) y se tiene una muestra de 16 datos. La variable es nominal,
porque los valores (alquiler/propiedad) son nombres que no se pueden ordenar.
Como la variable es nominal, no se puede utilizar ni la media ni la mediana,
por lo que se utilizará la moda.
Según la distribución de la Tabla 3.10 el mayor ni , que es 9, se corresponde
al alquiler, luego Mo = alquiler.
xi ni
Alquiler 9
Propiedad 5
NS/NC 2
Total 16
Desventajas.
No es recomendable utilizarla en distribuciones de frecuencias que tengan
intervalos de amplitud variable
3.5.1. Cuartiles.
Son tres valores de la variable que dividen su recorrido en cuatro partes iguales,
dejando en cada parte el 25 % de los elementos. Para dividir en cuatro partes se
requieren tres valores: Q1 o primer cuartil; Q2 o segundo cuartil y Q3 o tercer cuartil.
Q2 coincide con la mediana
Qt = x 25t(n+1) = x t(n+1)
100 4
Cuáles son los valores clave, tales como: el promedio, el percentil 25 medio,
etc.
me = Q 2
33 + 34
=
2
= 33, 5
39 + 39
Q2 =
2
= 39
Figura 3.6: Tomado de Montt, A. (2013, octubre 20). Matemáticas, Estadística, Galli-
nas y Alberto Montt. | Matemolivares. http://matemolivares.blogia.com/2013/102001-
matematicas-estadistica-gallinas-y-alberto-montt..php
3.5.3. Deciles.
Son nueve valores de la variable que dividen su recorrido en diez partes iguales;
dividen a los elementos en 10 grupos iguales, dejando en cada grupo el 10 % de los
elementos. Se requieren nueve valores para dividir en 10 grupos, que son denotados
D1 , D2 , ..., D9 o decil 1, decil 2,. . . , decil 9. D5 coincide con la mediana
Dt = x 10tn = x tn
100 10
3.5.4. Percentiles.
Son noventa y nueve valores de la variable que dividen su recorrido en cien
partes iguales, es decir dividen a los elementos en cien grupos iguales, dejando en
cada grupo el 1 % de los elementos. Se requieren noventa y nueve valores, denotados
P1 , P2 , ..., P99 o percentil 1, percentil 2, percentil 3,. . . , percentil 99.
Pt = x tn
100
Ejemplo 3.21
Para hallar los cuartiles del conjunto de datos 2, 5, 3, 6, 7, 4, 9;
Q1 = x 1·(7+1) = x2 = 3
4
Q2 = x 2·(7+1) = x4 = 5
4
Q3 = x 3·(7+1) = x6 = 7
4
Figura 3.9: ¿Dónde deberán hacerlo para que el número medio de kilómetros reco-
rridos por todos sea mínimo?
10. Unos grandes almacenes disponen de un parqueo para sus clientes. Los si-
guientes datos que se refieren al número de horas que permanecen en el
parqueo una serie de vehículos: 4 -4 -2 -4 -5 -3 -6 -3 -5 -3-2 -1 -3 -7 -3 -1
-5 -1 -7 -2 -5 -2 -4 -7 -3 -6 -2 -2 -4 -1 -6 -4 -3 -3 -4-5 -4 -3 -2 -4-3 -2 -4
-4 -3 -6 -6 -4 -5 -5 -4 -5 -5 -1 -7 -4 -4 -3 -6 -5. Se pide:
Cuadro 3.11
a) Calcular la media.
b) Calcula la mediana, los cuartiles y los percentiles 20 y 85.
c) ¿Cuál es el percentil de una persona que tiene 65 respuestas correctas?
Horas [0, 4) [4, 8) [8, 12) [12, 16) [16, 20) [20, 24)
N° de Vehiculos 8 14 110 120 150 25
Calcular Me y Q3
13. Observados los alquileres de un conjunto de despachos se ha obtenido:
Alquileres en millones fi
[0, 15) 17
[15, 30) 130
[30, 45) 180
[45, 60) 30
[60, 75) 10
[75, 90) 5
Peso(K g)
IMC =
estatura2 (mts2 )
Las tablas de crecimiento percentil del IMC6 por edad son indicadores que
se utilizan con mayor frecuencia para medir el tamaño y los patrones de
crecimiento de niños y adolescentes en los Estados Unidos. Las categorías
del nivel de peso del IMC por edad y sus percentiles correspondientes se
muestran en la siguiente tabla.
Figura 3.10: Percentiles por edad para el indice de masa corporal de varones de 2
a 20 años
por edad niños (figura 3.12) identifique el rango de percentil en que usted se
encuentra y su categoría de estado de peso; interprete el resultado.
15. A partir de las gráficas de percentiles de estatura por edad y peso por edad
para niñas y para niños (ver figura 3.13 y 3.14) ubique e indique en que
percentil de estatura por edad y peso por edad se encuentra usted;interprete
el resultado.
35
34
33
32
95
31
30
*Para calcular el IMC: Peso (kgs) ÷ Estatura (cm) ÷ Estatura (cm) x 10.000
o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 29
IMC 28
90
27 27
26 85 26
25 25
24 75 24
23 23
22 22
50
21 21
20 20
25
19 19
10
18 5
18
17 17
16 16
15 15
14 14
13 13
12 12
kgs/m
2
EDAD (AÑOS) kgs/m
2
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Alfredo Yerman Cortes Verbel.
Publicado el 30 de mayo del 2000 (modificado el 16 de octubre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
http://www.cdc.gov/growthcharts
Figura 3.11: Percentiles por edad para el indice de masa corporal de niñas de 2 a
20 años
3.6. EVALUACIÓN POR COMPETENCIAS 104
35
34
33
32
31
30
*Para calcular el IMC: Peso (kgs) ÷ Estatura (cm) ÷ Estatura (cm) x 10.000 95
o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 29
IMC 28
90
27 27
26 85 26
25 25
75
24 24
23 23
50
22 22
21 21
25
20 20
10
19 19
5
18 18
17 17
16 16
15 15
14 14
13 13
12 12
kgs/m
2
EDAD (AÑOS) kgs/m
2
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Alfredo Yerman Cortes Verbel.
Publicado el 30 de mayo del 2000 (modificado el 16 de octubre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
http://www.cdc.gov/growthcharts
Figura 3.12: Percentiles por edad para el indice de masa corporal de niños de 2 a
20 años
3.6. EVALUACIÓN POR COMPETENCIAS 105
12 13 14 15 16 17 18 19 20
Estatura de la Madre Estatura del Padre cm pul.
Fecha Edad Peso Estatura IMC*
EDAD (AÑOS) 76
190
74
185
72 E
180 S
70
97 175 T
68 A
*Para calcular el IMC: Peso (kgs)÷ Estatura (cm) ÷ Estatura (cm) x 90
170 T
10.000 o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 75 66 U
pul. cm 3 4 5 6 7 8 9 10 11 50
165 R
64 A
160 25 160
62 62
155 10 155
60 3
60
150 150
58
145
56
140 105 230
54
135 100 220
E
52
S 130 95 210
T 50
A 125 90 200 97
T 48 190
120 85
U
46 180
R 115 80
A 44 170
110 90 75
42 160
105 70
150 P
40 75 E
100 65 140
38 S
95 60 130 O
50
36 90 55 120
25
34 85 50 110
10
32 80 3 45 100
30
40 90
80 35 35 80
70 70
30 30
P 60 60
E 25 25
S 50 50
O 20 20
40 40
15 15
30 30
10 10
lbs kgs EDAD (AÑOS) kgs lbs
2 3 4 5 6 7 8 9 Alfredo
10 11 12 13 14 Yerman
15 16 17 18Cortes
19 20Verbel.
Publicado el 30 de mayo del 2000 (modificado el 21 de noviembre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
http://www.cdc.gov/growthcharts
Figura 3.13: Percentiles de Estatura por edad y Peso por edad de niñas de 2 a 20
años
3.6. EVALUACIÓN POR COMPETENCIAS 106
12 13 14 15 16 17 18 19 20
Estatura de la Madre Estatura del Padre cm pul.
Fecha Edad Peso Estatura IMC*
EDAD (AÑOS) 76
95
190
74
90
185
75
72 E
180 S
50 70
175 T
25 68 A
*Para calcular el IMC: Peso (kgs)÷ Estatura (cm) ÷ Estatura (cm) x 170 T
10.000 o Peso (lbs) ÷ Estatura (pulgadas) ÷ Estatura (pulgadas) x 703 10 66 U
pul. cm 3 4 5 6 7 8 9 10 11 5 165 R
64 A
160 160
62 62
155 155
60 60
150 150
58
145
56
E 140 105 230
S 54
135 100 220
T
A
52
130 95 95 210
T 50
U 125 90 200
90
R 48 190
A
120 85
46 180
115 80
75
44 170
110 75
42 160
105 50 70
150 P
40
100 65 140 E
25
38 S
95 60 130 O
10
36 90 5 55 120
34 85 50 110
32 80 45 100
30
40 90
80 35 35 80
P 70 70
30 30
E 60 60
S 25 25
O 50 50
20 20
40 40
15 15
30 30
10 10
lbs kgs EDAD (AÑOS) kgs lbs
2 3 4 5 6 7 8 Alfredo
9 10 11 12 13 14 Yerman
15 16 17 18Cortes
19 20Verbel.
Publicado el 30 de mayo del 2000 (modificado el 21 de noviembre del 2000).
FUENTE: Desarrollado por el Centro Nacional de Estadísticas de Salud en colaboración con el
Centro Nacional para la Prevención de Enfermedades Crónicas y Promoción de Salud (2000).
http://www.cdc.gov/growthcharts
Figura 3.14: Percentiles de Estatura por edad y Peso por edad de niños de 2 a 20
años
3.6. EVALUACIÓN POR COMPETENCIAS 107
Respecto al tipo de contrato que se ofrece, muchas piden un tiempo de prueba antes
de pasar a una relación contractual indefinida. Los años de experiencia solicitados
varían según la responsabilidad del puesto y van desde uno a los 5 años. Por las
fechas en que nos encontramos también es fácil dar con ofertas para quienes deseen
hacer su práctica profesional.[...] Respecto al tipo de contrato que se ofrece, muchas
piden un tiempo de prueba antes de pasar a una relación contractual indefinida.
Los años de experiencia solicitados varían según la responsabilidad del puesto y
van desde uno a los 5 años.
a) 250,000 pesos
b) 780,000 pesos
c) 377,000 pesos
d) 528,000 pesos
a) 1,300,000 pesos
b) 528,000 pesos
c) 377,000 pesos
d) más de un salario mínimo
a) 780,000 pesos
b) 250,000 pesos
c) 377,000 pesos
d) 1,300,000 pesos
a) 815,000 pesos
b) 377,000 pesos
c) 528,000 pesos
d) 780,000 pesos
a) 780,000 pesos
b) 1,300,000 pesos
c) 377,000 pesos
d) 815,000 pesos
Peso(K g) fi
[10 − 11) 1
[11 − 12) 4
[12 − 13) 6
[13 − 14) 8
[14 − 15) 12
[15 − 16) 11
[16 − 17) 8
[17 − 18) 7
[18 − 19) 6
[19 − 20) 2
a) 15.20 kg
b) 65
c) 15.13
d) 14.80
a) 15.20 kg
b) 6.5
c) 15.13
d) 14.80
Puntuación Desviación
Percentil
Escalar Tipica
145 +3 99,9
140 +2 2/3 99,6
135 +2 1/3 99
130 2 98
125 +1 2/3 95
120 +1 1/3 91
115 +1 84
110 2/3 75
105 1/3 63
100 0 (Media) 50
95 −1/3 37
90 −2/3 25
85 −1 16
80 −1 1/3 9
75 −1 2/3 5
70 −2 2
65 −2 1/3 1
60 −2 2/3 0, 4
55 −3 0, 1
a) 4
b) 3
c) 1
d) 8
a) 7 %
b) 12 %
c) 52 %
d) 87 %
18. Un corredor entrena para una determinada carrera y se toman los tiempos
que necesita para recorrer los 100 m, durante 10 dìas consecutivos (cada día
se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y
máximo)
a) los datos mostrados indican que los valores del tiempo tomados por el
entrenador son son decrecientes
b) el desplazamiento de las gráficas de caja hacia la izquierda indica que
el entrenamiento ha dado resultado, ya que se tardan menos segundos
en recorrer la misma distancia.
X1 fi fir
0 13 0, 21
1 23 0, 37
2 15 0, 24
3 10 0, 16
1
Del anterior conjunto de datos del cuadro 3.16 podemos decir que
a) son homogeneos
b) heterogeneos
c) con simetria central
d) con asimetria central
a) 0, 98
b) 0, 95
c) 0, 37
d) 0, 62
a) X > Mdn ≥ Mo
b) X < Mdn ≤ Mo
c) X = Mdn = Mo
d) X = Mdn ≥ Mo
a) X > Mdn ≥ Mo
b) X < Mdn ≤ Mo
c) X = Mdn = Mo
d) X = Mdn ≥ Mo
23. Dada la variable estatura (E) medida en dos grupos A y B tenemos que
E A = 1, 56, E B = 1, 56 y RA = 4, RB = 0, 5 podemos decir que
a) RIC = 2
b) RIC = 1
c) RIC = 8
d) RIC = 4
a) RSIC = 2
b) RSIC = 1
c) RSIC = 8
d) RSIC = 4
tenemos que
27. Tras haber recogido datos de estatura (E) para un grupo de n = 500 sujetos,
se ha obtenido que la media es igual a E = 170 cm y la desviación estandar
es igual a σ = 9 cm; Sabiendo que la distribución de la variable se ajusta a
la curva normal: ¿entre que valores de estatura están el 68 % central de los
sujetos?
a) C V = 5, 2
b) C V = 1, 8
c) C V = 0, 052
d) C V = 0, 018
a) bimodal.
b) unimodal.
c) amodal.
d) plurimodal.
Un alumno que tuvo 6,0 en el examen final; 7,0 en trabajos; y, asistió todos
los días a clase, por lo tanto tuvo 10,0 en asistencia, ¿cuál es su nota final?
a) 7, 6.
b) 6,6.
c) 66.
d) 2,2.
32. El consumo diario de gasolina del carro de Luis en una semana está dado en
el cuadro 3.17; y su consumo promedio semanal es de 8 litros por cada 100
kilometros. De esto podemos decir que el consumo de gasolina el día domingo
fue de:
a) 7,5 100km .
lts
b) 12 100km
lts
.
c) 7 100lkms .
lts
d) 11 100km
lts
.
a) 3,3,3,5,5,5,8,8.
b) 3,3,5,5,7,7,12.
c) 3,4,5,6,7,8.
d) 3,4,5,6,7.
a) 4,0.
b) 3,6.
c) 4,1.
d) 3,3.
36. Un corredor entrena para una determinada carrera y se toman los tiempos
que necesita para recorrer los 200 m, durante 10 días consecutivos (cada día
se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y
máximo.) Observamos en la figura 3.20a que el desplazamiento de las gráficas
de caja hacia la izquierda indica que el entrenamiento:
38. De la figura 3.20b el curso con la nota mediana Q2 más baja fue:
a) 11 − 02 con Q1 = 2,0.
b) 11 − 03 con Q2 = 0,0.
c) 11 − 02 con Q1 = 1,0.
d) 11 − 03 con Q2 = 3,5.
39. Sabiendo que la asignatura de estadística se aprueba con una nota superior
3,0; de la figura 3.20b podemos afirmar que el
a) 1, 5.
b) 3, 5.
c) 3,0.
d) 5, 3.
42. La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir
que las edades comprendidas entre el :
Ahora bien, suponiendo que todos los alumnos hubieran tenido el mismo dominio y
nivel de conocimientos de la asignatura, ¿es de esperar que las notas hubiesen sido
las mismas?. Otras posibles fuentes de variabilidad: lo bien que se haya dormido
Ejemplo 4.1
Los siguientes polígonos de frecuencias suavizados muestran gráficamente la dis-
tribución de una misma variable (X) en dos grupos distintos de sujetos (A y B),
¿cuál de los dos grupos tiene mayor variabilidad en dicha variable?
Figura 4.2: ¿cuál de los dos grupos tiene mayor variabilidad en dicha variable?
Ejemplo 4.2
Supongamos que dos alumnos han realizado cinco exámenes cada uno. Para
evaluarlos elegimos hacer la media de las cinco notas que han obtenido. Las
notas han sido:
ALUMNO 1: 4- 5- 5- 5- 6. Media = 5
ALUMNO 2: 1- 2- 5- 8- 9. Media = 5
Si vemos los dos tendrían la misma nota, lo que nos haría pensar que los dos
alumnos son similares, pero si observamos sus notas hay una gran diferencia
entre ambos. El alumno 1 tiene unas notas muy homogéneas, muy próximas a la
media mientras que el segundo tiene unos resultados muy dispares.
Para poder analizar bien sus resultados necesitaríamos otro parámetro que nos
mida esa variabilidad. Estamos hablando de las medidas de dispersión.
Ejemplo 4.3
La caja de un kiosco registra las siguientes entradas en miles de pesos, a lo largo
de dos semanas correspondientes a épocas distintas del año
1ª semana 2ª semana
Lunes 10 30
Martes 20 40
Miercoles 30 50
Jueves 50 50
Viernes 60 60
sabado 80 60
Domingo 100 60
Total 350 350
Las medidas de dispersión son parámetros estadísticos que nos informan sobre
la variabilidad de los datos, es decir, si la distribución de los datos es más o me-
nos homogénea y por tanto nos dan una medida sobre la representatividad de los
parámetros de centralización (moda, mediana o media)
A continuación se presentan una serie de índices estadísticos y representaciones
gráficas orientados a describir cuál es la dispersión de una variable.
4.1.1. Rango.
El rango se suele definir como la diferencia entre los dos valores extremos que
toma la variable. Es la medida de dispersión más sencilla y también, por tanto, la
que proporciona menos información. Además, esta información puede ser errónea,
pues el hecho de que no influyan más de dos valores del total de la serie puede
provocar una deformación de la realidad.
Ejemplo 4.4
Comparemos, por ejemplo, estas dos series:
Serie 1: 1- 5- 7- 7- 8- 9- 9- 10- 17
Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mien-
tras la primera tiene una mayor concentración en el centro, la segunda se distri-
buye uniformemente a lo largo de todo el recorrido.
RIC = Q3 − Q1
Q3 − Q1
RSIC =
2
4.1.4. Varianza.
La Varianza es una medida de dispersión que se utiliza para representar la
variabilidad de un conjunto de datos respecto de la media aritmética de los mismo.
Así, se calcula como la suma de los residuos elevados al cuadrado y divididos entre
el total de observaciones. No obstante, se trata de una medida que también puede
calcularse como la desviación típica al cuadrado.
Fue Ronald Fisher1 , un matemático, físico, biólogo y estadístico de nacionalidad
inglesa, quien, en el año 1918, introdujo el término de varianza en uno de sus
estudios sobre biometría. Al mismo también, también fue el primero en introdujo los
estudios sobre el análisis de esta medida de la dispersión y también un prominente
eugenista2 en la parte temprana de su vida.
La varianza es una medida de dispersión ampliamente utilizada en los sectores
1
Ronald Aylmer Fisher (Londres, Reino Unido, 17 de febrero de 1890 – Adelaida, Australia, 29
de julio de 1962) fue un estadístico y biólogo que usó la matemática para combinar las leyes de
Mendel con la selección natural, de manera que ayudó así a crear una nueva síntesis del Darwinismo
conocida como la síntesis evolutiva moderna. Desarrolló el análisis de la varianza para analizar los
inmensos datos de sus cultivos desde 1840, y donde en los próximos años estableció su reputación como
bioestadístico. También fue uno de los mayores fundadores de la genética de poblaciones. Resumió
el principio de Fisher, propuso el denominado modelo de selección sexual runaway y la hipótesis
del hijo sexy, e ideó la ecuación de Fisher, el valor reproductivo y la desigualdad de Fisher. Anders
Hald le llamó un genio quién, casi a solas, creó las fundaciones por la ciencia moderna estadística,
mientras Richard Dawkins lo nombró el biólogo más grande desde Darwin. Fisher fue el padre de la
estadística moderna y diseño experimental. Dio a investigadores de la biología y la medicina con sus
herramientas más importantes, y también con la versión moderna del teorema central de la biología.
Geoffrey Miller dijo de él: Para los biólogos, fue un arquitecto de la síntesis moderna que utilizó
modelos matemáticos para integrar las leyes de Mendel con las teorías de la selección biológica de
Charles Darwin. Para los psicólogos, Fisher fue el inventor de varias pruebas estadísticas que se
deben usar siempre que sea posible en las revistas psicológicas. Para los granjeros, fue el fundador
de investigaciones en la agricultura, y salvó a millones de morir de hambre a través de programas
racionales de cultivo.
2
Eugenesia: filosofía social que defiende la mejora de los rasgos hereditarios humanos mediante
diversas formas de intervención manipulada y métodos selectivos de humanos
Pn
2 i=1 fi (xi − x)2
Sx =
n
Tiempo (seg) fi
9 3
10 8
11 6
12 2
13 1
9 · 3 + 10 · 8 + 11 · 6 + 12 · 2 + 13 · 1
x =
20
= 10, 5 seg
la varianza será:
3(9 − 10,5)2 + 8(10 − 10,5)2 + 6(11 − 10,5)2 + 2(12 − 10,5)2 + 1(13 − 10,5)2
sx 2 =
20
2
= 1,05 seg
s
Pn
i=1 (xi − x)2
sx =
n
Ejemplo 4.6
El cálculo de la desviación estándar para la variable Tiempo empleado en com-
pletar un laberinto del ejemplo anterior es:
s
3(9 − 10,5)2 + 8(10 − 10,5)2 + 6(11 − 10,5)2 + 2(12 − 10,5)2 + 1(13 − 10,5)2
sx =
20
p
= 1,05
= 1,02 seg
Cuadro 4.3
Ejemplo 4.7
Pensemos en una población de elefantes y otra de ratones. La población de ele-
fantes tiene un peso medio de 5.000 kilogramos y una desviación típica de 400
kilogramos. La población de ratones tiene un peso medio de 15 gramos y una
desviación típica de 5 gramos. Si comparáramos la dispersión de ambas pobla-
ciones mediante la desviación típica podríamos pensar que hay mayor dispersión
para la población de elefantes que para la de los ratones.
Sin embargo al calcular el coeficiente de variación para ambas poblaciones,
nos daríamos cuenta que es justo al contrario.
400
Elefantes: = 0,08
5000
5
Ratones: = 0,33
15
Si multiplicamos ambos datos por 100, tenemos que el coeficiente de variación
Bascuñán 2 1 0 3 2 1 2 3
Zúñiga 4 0 1 2 0 4 2 1
Con fertilizante 4 5 4 3 6 5 6 2
Sin fertilizante 3 4 3 5 3 8 5 4
APUNTAMIENTO Y
ASIMETRÍA.
Agustín Laje.
5.2. Asimetría.
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmética). La asimetría presenta tres estados
diferentes (ver figura 5.1), cada uno de los cuales define de forma concisa como
están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría
es positiva cuando la mayoría de los datos se encuentran por encima del valor de la
media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la
misma cantidad de valores en ambos lados de la media y se conoce como asimetría
negativa cuando la mayor cantidad de datos se aglomeran en los valores menores
que la media.
(b) Distribución sesgada hacia la derecha: Los (c) Distribuciones asimetricas: No pre-
datos se concentran hacia la derecha de la senta uniformidad dn la distribución de
distribución los datos
Día 1 2 3 4 5 6 7 8 9 10
Tiempo (minutos) 39 29 43 52 39 44 40 31 44 35
Ejemplo 5.1
Los tiempos registrados por un empleado de una empresa de transporte para
llegar a su trabajo, son consignados en la siguiente tabla, (Ver cuadro 5.1). Se
quiere identificar si existe alguna concentración de interés en las frecuencias de
sus tiempos de llegada utilizando el coeficiente de asimetría de Fisher para poder
prepararse ante posibles eventualidades.
Para estimar el Coeficiente de Asimetría de Fisher se debe calcular primero
el promedio y la desviación estándar de los tiempos de llegada al trabajo:
Para el promedio tenemos:
10
1 X
x T iempo = xi
10
i=1
39 + 29 + 43 + 52 + 39 + 44 + 40 + 31 + 44 + 35
=
n
396
=
10
= 39,6
v
u 10
u1 X 2
Sx = t xi − x T iempo
10
i=1
s
(39 − 39,6)2 + (29 − 39,6)2 + · · · + (44 − 39,6)2 + (35 − 39,6)2
=
10
r
412,4
=
10
p
= 41,25
= 6,42
x − Mo
Asp =
Sx
Si Aps < 0: la distribución tiene una asimetría negativa, puesto que la media
es menor que la moda.
Q3 + Q1 − 2Me
AsB =
Q − 3 − Q1
Q3 + Q1 − 2Q2
AsB =
Q − 3 − Q1
Si AsB < 0: la distribución tiene una asimetría negativa, puesto que la dis-
tancia de la mediana al primer cuartil es mayor que al tercero.
5.3. Curtosis.
Esta medida determina el grado de concentración que presentan los valores
en la región central de la distribución. Por medio del Coeficiente de Curtosis, po-
demos identificar si existe una gran concentración de valores (Leptocúrtica), una
concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica)
Pn
i=1 (xi − x)4 ni
g2 =
n (sx )4
10. De la figura 5.8, ¿A qué porcentaje de la población había hecho efecto al cabo
de 30 minutos?:
11. De De la figura 5.8, ¿Al cabo de cuántos minutos había hecho efecto al 50 %
de la población?. :
12. De De la figura 5.8, ¿cuántos minutos tardó en hacer efecto a toda la población?
:
Figura 5.8: Minutos que tarda en hacer efecto un medicamento en una población
13. De De la figura 5.8, ¿A qué porcentaje había hecho efecto a los 55 minutos?:
14. Miguel obtuvo la siguiente información a partir de un conjunto de datos de
las edades de las personas que fueron a la piscina un sábado por la mañana:
valor mínimo: 7
Q1 = 10
Q2 = 15
Q3 = 22
valor máximo: 31
Realizar el diagrama de caja y bigotes que represente esta situación
15. Las tres curvas de la figura 5.17 representan los resultados de un examen
aplicado a tres grupos de alumnos de una misma asignatura. ¿cuál es grupo
cuyas calificaciones se representan una curva bastante homogénea, en donde
la mayoría obtuvo una calificación muy cercana al promedio?¿ cual es el grupo
con curva que indica una mayor heterogeneidad , que probablemente contiene
estudiantes promedio, algunos alumnos más aventajados y seguramente otro
tanto menos atentos. ?
Figura 5.10: Distribución de edades de un grupo de personas a las que se les aplico
una encuesta
a) 21 datos.
b) 7 datos.
c) 6 datos.
d) 150 datos.
a) 8,3 años.
b) 21 años.
c) 7,1 años.
d) 8 años.
6. La edad mediana:
a) 6 años.
b) 21 años.
c) 7 años.
d) 8 años.
a) 6 años.
b) 21 años.
c) 7 años.
d) 3 años.
a) 6 años.
b) 21 años.
c) 7 años.
d) 3 años.
a) simétrica.
b) asimetrica positiva.
c) asimetrica negativa.
d) antisesgada.
Figura 5.12: Minutos que tarda en hacer efecto un medicamento en una población
a) 100 %.
b) 85 %.
c) 30 %.
d) 0 %.
11. De De la figura 5.12, ¿Al cabo de cuántos minutos había hecho efecto al 50 %
de la población?. :
a) 100 minutos.
b) 85 minutos.
c) 80 minutos.
d) 55 minutos.
12. De De la figura 5.12, ¿cuántos minutos tardó en hacer efecto a toda la pobla-
ción? :
a) 140 minutos.
b) 130 minutos.
c) 100 minutos.
d) 75 minutos.
13. De De la figura 5.12, ¿A qué porcentaje había hecho efecto a los 55 minutos?:
a) 75 %.
b) 55 %.
c) 50 %.
d) 25 %.
valor mínimo: 7
Q1 = 10
Q2 = 15
Q3 = 22
valor máximo: 31
Miguel dibujó un diagrama de caja y bigotes usando los datos. ¿Cuál de los
siguientes es el diagrama que dibujó Miguel?:
Figura 5.13: a)
Figura 5.14: b)
Figura 5.15: c)
Figura 5.16: d)
16. Las tres curvas de la figura 5.17 representan los resultados de un examen
aplicado a tres grupos de alumnos de una misma asignatura. De lo anterior
podemos inferir que:
Figura 5.18: a)
Figura 5.19: b)
Figura 5.20: c)
Figura 5.21: d)
Figura 5.22: Distribución de edades de un grupo de personas a las que se les aplico
una encuesta
19. De la gráfica de la figura 5.22 podemos decir que la encuesta fue aplicada a :
a) positiva.
b) negativa.
c) curtosis.
d) platicurtica.
6. CORRELACIÓN Y
REGRESIÓN LINEAL.
Florence Nightingale
Florence Nightingale
(Florencia, 12 de mayo de 1820-Londres, 13 de agosto de 1910), fue una enfermera,
escritora y estadística británica, considerada precursora de la enfermería profesional
contemporánea y creadora del primer modelo conceptual de enfermería. Desde muy
joven destacó en matemáticas, y culminó sus estudios y aplicó sus conocimientos de
estadística a la epidemiología y a la estadística sanitaria. Fue la primera mujer ad-
mitida en la Royal Statistical Society británica, y miembro honorario de la American
Statistical Association. Pese a las reticencias de sus padres, Florence Nightinga-
le consiguió convencerlos en 1840 de que la dejaran estudiar matemáticas y, más
tarde, enfermería. Aprendió aritmética, geometría y álgebra, y dedicó un tiempo a
dar clases particulares a niños en estas materias. En el Museo Británico se pueden
leer planes de lecciones con su letra, incluidos problemas de cuentos basados en la
vida de los niños a los que estaba enseñando, donde muestra preocupación por la
educación de las niñas. Durante la guerra de Crimea en 1854, dirigió a un grupo de
enfermeras que lograron descender la tasa de mortalidad de los heridos británicos
del 40 % al 2 %, recopilando datos estadísticos y cambiando las pésimas condiciones
higiénicas en las que se encontraban.
Su trabajo con las estadísticas médicas fue tan impactante que en 1858 fue elegida
como miembro de la Sociedad de Estadística de Inglaterra. Fue una de las pioneras
en la representación gráfica de datos, ya que inventó coloridos diagramas de áreas
polares. Aunque no fue la primera persona que utilizó diagramas, es posible que sí
fuera la primera en utilizarlos para persuadir a las autoridades de la necesidad de
introducir cambios. Durante la Guerra Civil estadounidense, Nightingale fue con-
sultora sobre salud del ejército del gobierno de Estados Unidos. También asesoró a
la oficina de guerra británica sobre la atención médica del ejército en Canadá. Sus
actividades matemáticas incluían determinar la velocidad promedio del transporte
en trineo y calcular el tiempo necesario para transportar a los enfermos a través
de las inmensas distancias de Canadá. De fe anglicana, creía que Dios la había
inspirado para ser enfermera. Alcanzó fama mundial por sus trabajos precursores
de enfermería en la asistencia a los heridos durante la guerra de Crimea. A partir
de ese momento fue conocida como «la dama de la lámpara», por su costumbre de
realizar rondas nocturnas con una lámpara para atender a sus pacientes. En 1883,
la reina Victoria le otorgó la Real Cruz Roja, y en 1907 se convirtió en la primera
mujer en recibir la Orden de Mérito del Reino Unido. En 1908, le fueron otorgadas
las Llaves de la Ciudad de Londres. El juramento Nightingale efectuado por los
enfermeros al graduarse, fue creado en su honor en 1893. El Día Internacional de
la Enfermería se celebra en la fecha de su cumpleaños.
Figura 6.1: Diagrama de las causas de mortalidad elaborado por Florence Nightin-
gale.
(a) Cuando X crece, Y crece. Casi to- (b) Cuando X crece, Y decrece. Ca-
dos los puntos pertenecen a los cua- si todos los puntos pertenecen a los
drantes primero y tercero. cuadrantes segundo y cuarto.
Ejemplo 6.1
Supongamos que los resultados de medir a 8 estudiantes en las variables horas
de estudio empleadas en la asignatura de estadística (X) y su nota en la misma
de 0 a 10 (Y) están en el cuadro 6.1. La covarianza esta dada por
Pn
i=1 (xi
− x̄)(yi − ȳ)
C ov(x, y) = Sxy =
n−1
62,51
=
7
= 8,93
Sxy
r =
Sx Sy
Pn
i=1 (xi− x̄)(yi − ȳ)
! rP !
r = r Pn
(x − x̄) 2 n
(y − ȳ) 2
i=1 i i=1 i
(n − 1)
n−1 n−1
Si r > 0, esto indica una relación directa entre las variables (es decir, que si
aumentamos X , también aumenta Y ).
Figura 6.3: r = ±1 es lo mismo que decir que las observaciones de ambas variables
están perfectamente alineadas. El signo de r, es el mismo que el de SX Y , por tanto
nos indica el crecimiento o decrecimiento de la recta. La relación lineal es tanto
más perfecta cuanto r está cercano a ±1.
Interpretación
Valor
Dirección Rango Fuerza
r = −1 Perfecta
−1 < r ≤ −0,8 Muy fuerte
−0,8 < r ≤ −0,6 Fuerte
−1 ≤ r < 0 Negativa
−0,6 < r ≤ −0,4 Moderada
−0,4 < r ≤ −0,2 Débil
−0,2 < r ≤ 0 Muy débil
r=0 No hay relación
0 < r ≤ 0,2 Muy débil
0,2 < r ≤ 0,4 Débil
0,4 < r ≤ 0,6 Moderada
0<r≤1 Positiva
0,6 < r ≤ 0,8 Fuerte
0,8 < r < 1 Muy fuerte
r=1 Perfecta
0 ≤ r 2 ≤ 1.
no tiene unidades.
Ejemplo 6.2
A continuación calculamos el valor del coeficiente de correlación lineal de Pearson
r para el conjunto de datos del ejemplo anterior 6.1 (primero para las notas de
examen en la escala de 0 a 10). Tenemos que las varianzas están dadas por .
s
Pn
− x̄)2
i=1 (xi
Sx =
n−1
r
67,5
=
7
≈ 3,10
s
Pn
− ȳ)2
i=1 (yi
Sy =
n−1
r
63,49
=
7
≈ 3,01
Este es un valor de correlación muy fuerte positivo. Ello indica que cuantas más
horas de estudio se emplee para estudiar la materia más altas son las notas
obtenidas.
Ejemplo 6.3
A continuación calculamos r para los datos en el caso en que los datos Y se
toman en la escala de 0 a 20 (Ver ejemplo 6.1)
s
Pn
− x̄)2
i=1 (xi
Sx =
n−1
r
67,5
=
7
≈ 3,10
s
Pn
− ȳ)2
i=1 (yi
Sy =
n−1
r
254
=
7
≈ 6,02
Finalmente, r valdrá:
Sxy
r =
Sx Sy
17,85
=
(3,1)(6,02)
= 0,95
Ejemplo 6.4
En la Figura 6.4 se presenta el diagrama de dispersión entre el índice de masa
corporal, medida de obesidad que se obtiene de dividir el peso en kilogramos por
la altura en metros al cuadrado, y el colesterol HDL en un estudio realizado a
533 individuos. A simple vista, se aprecia un cierto grado de dependencia lineal
negativa entre ambas variables; esto es, el colesterol HDL tiende a decrecer
conforme aumenta el índice de masa corporal. Esta apreciación visual se confirma
mediante el cálculo del coeficiente de correlación muestral de Pearson que indica
una asociación lineal negativa moderada entre el índice de masa corporal y el
colesterol HDL.
Cuando una persona realiza diferentes estudios estadísticos hay una regla que
siempre debe de tener en cuenta: correlación no implica causalidad, es decir,
no implica una relación causa-efecto. Explicado de forma más sencilla, dos cosas
pueden estar relacionadas o variar conjuntamente sin que ninguna sea la causa de
la otra.
Figura 6.5: Tomado de Gigi. (2015, verano 5). Imágenes y Carteles de CIGUENA.
Desmotivaciones.es. http://desmotivaciones.es/carteles/ciguena
¿Pueden aplicarse los resultados del estudio a otros grupos? Si afirmas que
son las cigüeñas las que traen a los bebés, ¿esto sucede solo en las grandes
ciudades o también en la población rural? Con esta pregunta el estudio de las
cigüeñas habría perdido validez.
de las bondades de los yogures y esté patrocinado por una marca de ese
producto.
6.2. Regresión
La regresión es la parte de la estadística que trata de determinar la posible
relación entre una variable numérica Y , que suele llamarse variable dependiente,
y otro conjunto de variables numéricas, X1 , X2 , X3 , · · · Xn , conocidas como variables
independientes, de una misma población. Dicha relación se refleja mediante un
modelo funcional y = f (x1 , x2 , x3 , · · · , xn ). El caso más sencillo se da cuando sólo
hay una variable independiente X , y entonces se habla de regresión simple. En
este caso el modelo que explica la relación entre X e Y es una función de una
variable y = f (x). Dependiendo de la forma de esta función, existen muchos tipos
de regresión simple, los más comunes aparecen en el cuadro 6.3:
Ejemplo 6.5
En la figura 6.6 aparece el diagrama de dispersión correspondiente a una muestra
de 30 individuos en los que se ha medido la estatura en cm (X ) y el peso en kg
(Y ). En este caso la forma de la nube de puntos refleja una relación lineal entre
la estatura y el peso.
Figura 6.6: Diagrama de dispersión de Estaturas y Pesos. El punto (179, 85) indicado
corresponde a un individuo de la muestra que mide 179 cm y pesa 85 Kg
Dados (x1 , y1 ), (x2 , y2 ), (x3 , y3 ), · · · , (xn , yn ) puntos que relacionan las varia-
bles X e Y . La recta y = a + bx, con los parámetros a y b que mejor se
ajusta al conjunto de puntos que determinan la recta óptima se conoce como
recta de regresión de Y sobre X y esta dada por la expresión:
Sxy
y = ȳ + (x − x̄)
Sx2
En donde x̄ e ȳ denotan las medias muestrales de X e Y (respectivamente),
Sx2 es la varianza muestral de X y Sxy es la covarianza muestral entre X e
Y . Los parámetros a y b están dados por
Sxy
b =
Sx2
a = ȳ − bx̄
Figura 6.9: Rectas de regresión de Estatura sobre Peso y de Peso sobre Estatura.
Las rectas de regresión siempre se cortan en el punto de medias (x̄, ȳ).
Ejemplo 6.7
En el estudio de la relación entre el índice de masa corporal y el colesterol
HDL, del ejemplo 6.4 resulta natural considerar el índice de masa corporal como
variable independiente X y el colesterol HDL como variable dependiente Y . El
objetivo es, estimar los cambios en el nivel medio del colesterol HDL conforme
aumenta el índice de masa corporal utilizando un modelo de regresión lineal
SX Y
b = = −0, 023
Sx2
a = ȳ − bx̄ = 1,9
y = 1,69 − 0,023x
Tiempo (años) 1 2 3 4 5
Actividad restante 96 84 70 58 52
se desea calcular
7. TÉCNICAS DE
CONTEO.
generación.
Ejemplo 7.1
Al lanzar una moneda existen dos posibles resultados: que caiga cruz o que
caiga cara. Veamos el diagrama de árbol que se obtiene al lanzar una moneda
tres veces.
Sello (Sello,Sello, Sello)
Sello
Cara (Sello,Sello, Cara)
Sello
Sello (Sello,Cara, Sello)
Lanzar Cara
una Cara (Sello,Cara, Cara)
moneda
tres Sello (Cara,Sello,Sello)
veces Sello
Cara (Cara,Sello, Cara)
Cara
Sello (Cara,Cara, Sello)
Cara
Cara (Cara,Cara, Cara)
La primera vez que se lanzó la moneda solo se podrían obtener dos resultados.
A partir de este punto, el número de posibles consecuencias se incrementa, pues
en el segundo lanzamiento se pueden presentar cuatro distintos resultados (dos
por cada uno de los anteriores), y en el tercero, ocho.
Ejemplo 7.2
Marcela almuerza en el casino de su trabajo de lunes a viernes, y siempre hay
para la entrada consumé de pollo o papas al ajillo y de plato fuerte pescado sal-
teado, arroz de pollo o carne en bistec ¿Cuántos menús distintos puede escoger?
• Consumé de pollo.
• Papas al ajillo.
• Pescado salteado.
• Arroz de pollo.
• Carne en bistec.
Carne en
(Papas al Ajillo,Carne en Bistec)
Bistec
Papas Arroz
(Papas al Ajillo,Arroz de Pollo)
al Ajillo de Pollo
Pescado
(Papas al Ajillo,Pescado Salteado)
Salteado
Opciones
de Menú
Carne en
(Consumé de Pollo,Carne en Bistec)
Bistec
Consumé Arroz
(Consumé de Pollo,Arroz de Pollo)
de Pollo de Pollo
Pescado
(Consumé de Pollo,Pescado Salteado)
Salteado
Al contar las ramas de la segunda elección, se cuentan cuántos posibles menús
hay. En este caso se aprecian seis: 6 = 2 · 3
n! = 1 · 2 · 3 · 4 · · · (n − 1) · n
Ejemplo 7.3
5! = 1 · 2 · 3 · 4 · 5 = 120
10! = 1 · 2 · 3 · · · 9 · 10 = 3628800
1! = 1
Teorema 7.1
0! = 1
n! = (n − 1)! · n
Ejemplo 7.4
Y
n
ai = a1 · a2 · a3 · · · + an
i=1
de forma general
Y
n
ai = am · am+1 · am+2 · · · · · an
i=m
Y
n Y
m
ai = ai = am
i=m i=m
Ejemplo 7.5
5
Y
i2 = 12 · 22 · 32 · 42 · 52
i=1
= 1 · 4 · 9 · 16 · 25
= 14400
Ejemplo 7.6
6
Y
2i = 21 · 22 · 23 · 24 · 25 · 26
i=1
= 2 · 4 · 8 · 16 · 32 · 64
= 2097152
Y
k
ni
i=1
Ejemplo 7.7
Supongamos que un restaurante ofrece 4 entradas, 5 platos principales y 2 pos-
tres. ¿De cuántas formas un cliente puede ordenar una comida?.
Se aplica el principio de multiplicación; tenemos 3 actividades (k = 3), en-
tonces:
Actividad 1: escoger entrada, por tanto el número de formas de la actividad
es n1 = 4.
Actividad 2: escoger plato principal, por tanto el número de formas de la
actividad es n2 = 5.
Actividad 3: escoger postre, por tanto por tanto el número de formas de la
actividad es n3 = 2.
luego hay
3
Y
ni = n1 · n2 · n3
i=1
= 4·5·2
= 40
formas diferentes de ordenar una comida.
Ejemplo 7.8
Una familia tiene 3 niños y 2 niñas.
i) ¿De cuántas formas pueden sentarse en una fila?
ii) ¿Cuántas formas hay si los niños desean sentarse separados de las niñas?
Resolvamos cada caso
i) En total hay 5 niños luego tenemos 5 actividades
• Actividad 1: escoger un niño o niña que se siente en el primer de la
fila; luego por tanto el número de formas u opciones posibles en la
actividad 1 es n1 = 5.
• Actividad 2: escoger un niño o niña que se siente en el segundo puesto
de la fila; luego el número de formas u opciones posibles en la actividad
2 es n2 = 4, dado que uno ya fue ubicado y restan 4.
• Actividad 3: escoger un niño o niña que se siente en el tercer puesto de
la fila; luego el número de formas u opciones posibles en la actividad
es n3 = 3, dado que dos fueron ubicados y restan 3.
• Actividad 4: escoger un niño o niña que se siente en el cuarto puesto
de la fila; luego por tanto el número de formas u opciones posibles en
la actividad 4 es n4 = 2, dado que tres ya fueron ubicados y restan 2.
• Actividad 5: escoger un niño o niña que se siente en el quinto puesto de
la fila; luego el número de formas u opciones posibles en la actividad
1 es n5 = 1. (Dado que cuatro ya fueron ubicados y solo falta uno por
ubicar.
por tanto
5
Y
ni = n1 · n2 · n3 · n4 · n5
i=1
= 5·4·3·2·2·1
= 120
formas diferentes de sentarse en una fila. Este ejemplo también lo podemos
resolver usando el concepto de permutación que veremos en la definición
7.5 y el ejemplo 7.11.
Si desean sentarse separados, hay 2 formas de distribuirlos, primero las
niñas y luego los niños o viceversa, primero los niños y luego las niñas;en
cada caso los niños pueden sentarse de 3! formas diferentes y las niñas de
2! Por lo que hay 3!x2!x2! = 24 formas.
Ejemplo 7.9
¿Cuántas placas de los carros se pueden fabricar en Colombia si estas tienen 3
letras y 3 números?
Para cada letra hay 26 opciones (la ñ no se incluye) y para cada número hay
10 opciones. i.e.
Ejemplo 7.10
De acuerdo al ejemplo 7.9 ¿cuántas placas tiene todas sus letras diferentes?.
Puesto que cada casilla de letras no puede repetir letras que ya aparezcan
en la placa, la primera casilla tiene 26 opciones, la segunda tiene 25 opciones
y la tercera 24 opciones; los números no tiene restricciones, entonces se tienen
26 · 25 · 24 · 10 · 10 · 10 = 15600000 formas.
Pn = n!
Ejemplo 7.11
Se requiere acomodar a 8 personas en una mesa de honor y se le solicita que
haga un listado de las diferentes formas de ordenar a las personas. ¿cuántas
formas diferentes existen?.
Para el primer puesto hay 8 opciones, para el segundo, 7, para el tercero 6, y
así sucesivamente. Entonces hay 8 · 7 · 6 · 5 · 4 · 3 · 2 · 1 = 8! Formas de acomodar
a las personas: 40320.
n!
Prn =
(n − r)!
Ejemplo 7.12
Alfredo, Diana e Isaac van a formar un comité para administrar una empresa. Los
cargos que habrá en el comité son: presidente, vicepresidente y secretario. ¿De
cuantas formas se puede constituir el comité?
En este caso se considera que hay un orden jerárquico: presidente, vicepresi-
dente y secretario. Además, una persona no puede ocupar dos cargos, luego, no
es posible la repetición. En este caso n = 3 y r = 3, ya que la población consta
de tres elementos (personas), y en cada muestra se toman los tres. Aplicando la
definición de permutación:
3!
P33 =
(3 − 3)!
3!
=
0!
1·2·3
=
1
6
=
1
= 6
Como este es un ejemplo sencillo, con pocos elementos, se puede organizar una
tabla donde se puedan apreciar las formas de constituir el comité. (ver cuadro
7.1)
Cuadro 7.1: Formas distintas de constituir los comités del ejemplo 7.12
Ejemplo 7.13
¿De cuantas maneras pueden obtener las medallas de oro, plata y bronce 9 atletas
que participan en un competencia?
En este ejemplo, se pretende formar grupos de 3 individuos con los 9 partici-
pantes. Es decir, para este caso n = 9 y r = 3. Por lo tanto:
9!
P39 =
(9 − 3)!
9!
=
6!
362880
=
720
= 504
Sea A un conjunto
Pk de n elementos tales que hay k grupos con ni elementos
idénticos, i=1 ni = n. Llamaremos permutaciones con repetición de esos
n elementos a las posibles agrupaciones que podamos hacer, teniendo en
cuenta que dos elementos de un mismo grupo son indistinguibles. El número
n! n!
PRnn1 n2 ···nk = Qk =
i=1 (ni )!
n1 ! · n2 ! · · · nk !
Ejemplo 7.14
En una urna hay 9 bolas, 3 blancas, 2 rojas y 4 negras. ¿De cuantas formas
distintas se pueden extraer las bolas de la urna?
Al tener tres bolas blancas, a efectos de ordenación se consideran iguales, lo
mismo ocurre con las rojas y las negras. Las posibles ordenaciones son:
3,2,4 9!
PR9 =
3! · 2! · 4!
362880
=
6 · 2 · 24
362880
=
288
= 1260
Ejemplo 7.15
En una competición deportiva participan 4 equipos de 3 atletas cada uno. ¿De
cuántas formas diferentes pueden llegar los equipos?.
A la hora de elaborar la clasificación por equipos los atletas se consideran
idénticos. El número de posibles clasificaciones es:
3,3,3,3 12!
PR12 =
3! · 3! · 3! · 3!·
479001600
=
6 · 6 · 6 · 6·
479001600
=
1296
= 369600
Ejemplo 7.16
¿Cuántos números de 5 cifras se pueden formar con 1, 1, 1, 2, 2?
3,2 5!
P5 =
3!2!
120
=
12
= 10
Ejemplo 7.17
En un pelotón militar de 12 soldados, el capitán del ejército quiere formar grupos
de 2 soldados para que se infiltren tras las líneas enemigas por distintos puntos,
¿cuántos grupos distintos podría formar?
Se debe que identificar el número total de elementos. En este caso son n = 12
soldados en total. Como el capitán quiere grupos de 2, ya sabemos cual es nuestra
r = 2. Sabiendo esto, podríamos sustituir en la fórmula y tener el número de
combinaciones de grupos de 2.
n n!
=
r (n − r)! · r!
12 12!
=
2 (12 − 2)! · 2!
12!
=
(10)! · 2!
1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10 · 11 · 12
=
(1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10) · 1 · 2
11 · 12
=
2
= 11 · 6
= 66
Ejemplo 7.18
A una reunión asisten 10 personas y se intercambian saludos entre todos. ¿Cuán-
tos saludos se han intercambiado?.
Tengamos en cuenta que:
No entran todos los elementos. Esto debido a que un saludo lo podemos
analizar como un grupo de dos personas (ya que solo se efectúa entre dos
personas).
n n!
=
r (n − r)! · r!
10 10!
=
2 (10 − 2)! · 2!
10!
=
(8)! · 2!
1 · 2 · 3 · 4 · 5 · 6 · 7 · 8 · 9 · 10
=
(1 · 2 · 3 · 4 · 5 · 6 · 7 · 8) · 1 · 2
9 · 10
=
2
= 9·5
= 45
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!
Ejemplo 7.19
En una bodega hay cinco tipos diferentes de botellas. ¿De cuántas formas se
pueden elegir cuatro botellas?
Se debe tener en cuenta que No entran todos los elementos. Sólo elije 4, no
importa el orden. Da igual que elija 2 botellas de anís y 2 de ron, que 2 de ron
y 2 de anís y sí se repiten los elementos. Puede elegir más de una botella del
mismo tipo. Entonces para n = 5 y r = 4
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!
(5 + 4 − 1)! 8!
C R45 = =
4!(5 − 1)! 4! · 4!
1·2·3·4·5·6·7·8
=
1·2·3·4·1·2·3·4
= 5 · 2 · 7 = 70
Ejemplo 7.20
¿Cuántas fichas tiene el juego del dominó?
Una ficha de dominó es un rectángulo en el que hay dos partes, en cada una
de ellas hay una serie de puntos que indican la puntuación de esa parte. Estas
puntuaciones van de blanca (0 puntos) a 6, es decir n = 6. Tenemos pares de
puntuaciones de 0 a 6, es decir r = 2. i.e. el total de fichas será:
n+r−1 (n + r − 1)!
C Rrn = =
r r!(n − 1)!
(7 + 2 − 1)! 8!
C R27 = =
2!(7 − 1)! 2! · 6!
1·2·3·4·5·6·7·8
= =
1·2·1·2·3·4·5·6
= 7 · 4 = 28
16. Una madre decide llamar a cenar 3 de sus 9 hijos (Carolina, Daniel, Esther,
Patricia, Federico, Amelia, Bertha, Daniela, y Gonzalo). De cuantas maneras
diferentes puede llamarlos?.
17. ¿Cuántos números diferentes pueden formarse con las cifras del número 458870?
21. De los 11 mejores estudiantes del grado 7º del Carrasquilla, se quieren se-
leccionar 5, para conformar una comisión que participará en un encuentro
intercolegial. De cuántas maneras diferentes se puede seleccionar la comi-
sión?.
22. Una chica tiene en su armario 8 vestidos y quiere elegir 5 para regalárselos
a una amiga. De cuántas maneras puede seleccionarlos?.
26. De cuántas formas pueden quedar clasificados 5 equipos de fútbol que parti-
cipan en un torneo?.
8. PROBABILIDAD.
Kimiko Osada Bowman cómo usar la estadística para mejorar las condiciones
laborales de las personas con discapacidades
Kimiko Osada Bowman nació en Japón en 1927 pero emigró a los Estados Unidos
en 1951. Comenzó estudiando economía doméstica en el Radford College (Virginia)
porque sabía que le resultaría fácil, pero pronto el decano le aconsejó cambiar a
ciencias donde, según él, “tendría mucho mejor futuro”. De modo que acabó cursando
matemáticas y química, y consiguió graduarse solo cinco años después de llegar a
América. Posteriormente consiguió una beca en estadística matemática en el Virgina
Tech, financiada por los Institutos Nacionales de Salud, y, en tres años, acabó un
Máster y un Doctorado en estadística por la reputada institución académica (1963).
Continuó una colaboración de gran éxito durante 45 años con su supervisor de tesis,
Leonard Shenton, que les llevó a publicar avances de gran relevancia estadística
como el método de momentos para la estimación de parámetros poblacionales. Tam-
bién implementaron un algoritmo de series divergentes para grandes computadoras
que, como Shenton reconoció en su momento, “funcionó gracias a la Dra. Bowman”.
Como investigadora senior en el Oak Ridge National Laboratory continuó su trabajo
en estimadores para datos no-normales y, gracias a su asociación profesional con
el Office of Naval Research, combinó su trabajo con viajes frecuentes a su Japón
natal. Después de 50 años de servicio, se jubiló en 1994, aunque seguiría realizando
colaboraciones esporádicas con la organización, donde siempre la recordaron como
una trabajadora incansable y entusiasta.
Bowman fue la autora o coautora de más de 200 artículos científicos y tres libros.
Fue elegida miembro de la American Association for the Advancement of Science
en 1970, miembro de la American Statistical Association en 1976, del International
8.1. Probabilidad.
La probabilidad es una medida de la certidumbre de que ocurra un evento. Su
valor es un número entre 0 y 1, donde un evento imposible corresponde a cero y
uno seguro corresponde a uno.
Una forma empírica de estimar la probabilidad consiste en obtener la frecuen-
cia con la que sucede un determinado acontecimiento mediante la repetición de
experimentos aleatorios, bajo condiciones suficientemente estables. En algunos ex-
perimentos de los que se conocen todos los resultados posibles, la probabilidad
1
Tomado de Stadler, M. M. (2021, septiembre 22). Kimiko Bowman o cómo usar la esta-
dística para mejorar las condiciones laborales de las personas con discapacidades. Mujeres
con ciencia. https://mujeresconciencia.com/2021/09/22/kimiko-bowman-o-como-usar-la-estadistica-
para-mejorar-las-condiciones-laborales-de-las-personas-con-discapacidades/
Ejemplo 8.1
Cuando se lanza una moneda, se sabe que solo puede aparecer cara o cruz. Sin
embargo no se puede predecir al momento de lanzar la moneda en cuál lado
caerá.
Ejemplo 8.2
Cuando se lanza un dado se sabe que en la cara superior puede aparecer cual-
quiera de los números 1,2,3,4,5, o 6 pero no se puede predecir cuál aparecerá.
Ejemplo 8.3
Cuando lanzamos un dado se puede obtener cualquier resultado del 1 al 6. Todos
los números posibles que pueden aparecer en la cara superior forman el Espacio
Muestral. El espacio muestral de una tirada de dados es
S = {1, 2, 3, 4, 5, 6}
Ejemplo 8.4
:
Ejemplo 8.5
Considérese el experimento de lanzar un dado. Aquí el espacio muestral
S = {1, 2, 3, 4, 5, 6}
E = {1, 2, 3}
Ejemplo 8.6
Algunos ejemplos de sucesos:
Ejemplo 8.7
Si el resultado de un experimento consiste en determinar el sexo de un recién
E = {niña, niño}
Ejemplo 8.8
Si el experimento se trata del lanzamiento de 2 monedas, una después de la otra,
entonces
E = {(cara, cara), (cara, cruz), (cruz, cara), (cruz, cruz)}
Ejemplo 8.9
En el lanzamiento de 3 monedas, una después de la otra, un suceso elemental es
Ejemplo 8.10
En el lanzamiento de 3 monedas, que en la primer moneda salga cara es un
suceso compuesto.
{(cara, cara, cara), (cara, cara, cruz), (cara, cruz, cara), (cara, cruz, cruz)}
Un suceso seguro, E, está formado por todos los posibles resultados (es decir,
por el espacio muestral).
Ejemplo 8.11
Que un recién nacido sea niño o niña es un suceso seguro
Ejemplo 8.12
Al tirar un dado obtener una puntuación igual a 7 es un suceso imposible.
Ejemplo 8.13
Supongamos que
P : A → [0, 1] ⊂ R
A ⊂ E, A ∈ A → 0 ≤ P [A] ≤ 1
P(∅) = 0
P(E) = 1
Axioma 3: Sea A1 · · · An sucesos tales que son disjuntos dos a dos (es
decir, la intersección es ∅) Ai ∩ Aj = ∅, la probabilidad es la suma de
X
n
P (∪Ai ) = P (Ai )
i=1
Las definiciones 8.10,8.11 y 8.12 son equivalentes entre tanto que la definición
de Laplace (8.11) sirve para realizar estimaciones sobre las posibilidades de un
suceso que no es muy frecuente, además es más fácil de calcular; esta será la que
trabajaremos de aquí en adelante.
Figura 8.2: Probabilidades de lanzar varios números con dos dados. De Tim Stell-
mach - Trabajo propio using Inkscape and Open Office Draw software., Dominio
público, https://commons.wikimedia.org/w/index.php?curid=1220091
Los Objetivistas asignan números para describir algún estado de cosas ob-
jetivo o físico. La versión más popular de la probabilidad objetiva es la pro-
babilidad frecuentista, que afirma que la probabilidad de un evento aleatorio
denota la frecuencia relativa de ocurrencia del resultado de un experimento
cuando este se repite indefinidamente. Esta interpretación considera que la
probabilidad es la frecuencia relativa a largo plazo de los resultados. Una
modificación de esto es la probabilidad de propensión, que interpreta la pro-
babilidad como la tendencia de algún experimento a producir un determinado
resultado, incluso si se realiza solo una vez.
b) Si A ⊆ B → P(A) ≤ P(B).
Ejemplo 8.14
¿Cuál es la probabilidad de obtener un 5 al lanzar un dado?
Si A es el evento obtener un 5 Al lanzar un dado, primero calculamos el número
total de casos posibles que se dan al lanzar un dado. En este problema, son 6
casos posibles, ya que el dado puede arrojar 1, 2, 3, 4, 5 o 6. Ahora, calculamos
el número de casos favorables. Si lanzamos un dado, tenemos 1 caso en el que
se obtiene 5. Por lo tanto:
Casos favorables 1
P(A) = = = 0, 166.. (8.1)
Total de casos 6
La respuesta sería: 0, 1667 o 16, 67 %.
) B1
P (B 1
A1 P (B
2)
B2
)
( A1
P
) B1
P (B 1
P(A2 )
Evento A2 P (B
2)
P B2
(A
3)
) B1
P (B 1
A3 P (B
2)
B2
Se debe tener en cuenta que la suma de las probabilidades de todas las ramas
que salen de un nudo debe ser igual a 1.
1. El primer paso para hacer un diagrama de árbol es dibujar una rama por cada
resultado posible. Estas serán las ramas de primera generación.
5. Repetir los pasos 3 y 4 hasta llegar a los nudos finales, es decir, a los posibles
finales del experimento.
Cabe destacar que el número de ramas de un nivel no tiene por qué ser igual
al número de ramas de un nivel diferente. Asimismo, el número de ramas que salen
de un posible resultado puede variar incluso dentro de un mismo nivel.
Ejemplo 8.15
Dado el lanzamiento de tres monedas independientes, calcular la probabilidad
de obtener cara en los tres lanzamientos.
En el lanzamiento de una moneda solo hay dos posibles resultados, podemos
obtener cara o cruz; sea A : obtener cara en el lanzamiento de la moneda y B :
obtener cruz; por lo tanto, la probabilidad de obtener cara o cruz al lanzar una
moneda es:
1
P(A) = = 0,5
2
1
P(B) = = 0,5
2
procedemos a representar el diagrama de árbol.
Como los lanzamientos de las monedas son independientes, la probabilidad
de sacar cara o cruz siempre será la misma en cada lanzamiento. Por lo tanto,
para construir el diagrama de árbol se deben representar dos ramas (cara y cruz)
con la misma probabilidad por cada lanzamiento que se realiza. Y una vez hemos
hecho el diagrama de árbol solo nos queda determinar la probabilidad de sacar
cara en los tres lanzamientos de monedas. Para calcular la probabilidad de un
posible resultado de un diagrama de árbol se deben multiplicar las probabilidades
de todas las ramas contiguas.
2 1
P(
2
1
Cruz
2
P (B
)
Lanzar 1
tres 2
Cruz (Cara,Cruz, Cruz)
monedas
Cara (Cruz,Cara, Cara)
indepen- )
dientes P (A
1
2
Cara
P(
) P (B
B)
P (A )
1
2
1
1 2
2 (Cruz, Cara, Cruz)
Cruz
Cruz
P (B Cara (Cruz,Cruz, Cara)
) )
1
P (A
2 1
2
Cruz
P (B
)
1
2
Cruz (Cruz,Cruz,Cruz)
debemos multiplicar todas las probabilidades de obtener cara, ya que son las pro-
babilidades del camino que nos lleva a nuestro resultado deseado.
1 1 1 1
P(C ara, C ara, C ara) = · · = = 0, 125
2 2 2 8
i.e., la probabilidad de conseguir tres veces cara de manera consecutiva es del
12,5
Ejemplo 8.16
En el barrio de Santa Clara solo hay 3 guarderías: en la guardería A van el 60 %
de los niños, en la guardería B el 30 % y en la guardería C el 10 %. Además, en las
tres guarderías el 55 % de los estudiantes son chicas, y el resto chicos. Construir
el diagrama de árbol y calcular las siguientes probabilidades:
Probabilidad de que al seleccionar al azar un estudiante, sea una chica de
la guardería B
Probabilidad de que al seleccionar al azar un estudiante de cualquier guar-
dería sea un chico.
Si la proporción de chicas en todas las guarderías es del 55 %, el porcentaje
de chicos se calcula simplemente restando 1 menos 0,55:
P(C hico) = 1 − 0,55 = 0,45
Ahora que se conocen todas las probabilidades, podemos hacer el diagrama
de árbol:
iña) niña (Guarderia A,Niña)
P (N
Guarderia 55
P (0N,
A iño)
0,45
niño (Guarderia A,Niño)
)
(A
P 6
0,
iña) niña (Guarderia B,Niña)
Estudiantes P(B) P (N
Guarderia 55
en guar- P (0N,
0,3 B iño)
derias 0,45
niño (Guarderia B,Niño)
P
(C
0, )
1
iña) niña (Guarderia C,Niña)
P (N
Guarderia 55
P (0N,
C iño)
0,45
niño (Guarderia C,Niño)
Por lo tanto, la probabilidad de seleccionar aleatoriamente una niña de la
guardería B se calcula de la siguiente manera:
P(chica guardería B) = 0, 30 · 0, 55 = 0, 165
9. SCRIPTS R.
George Edward Pelham Box (18 de octubre de 1919 – 28 de marzo de 2013) fue
un estadístico británico que trabajó en las áreas de control de calidad, análisis de
series temporales, diseño de experimentos, y la inferencia bayesiana, es considerado
como una de las mentes más brillantes de la estadística del siglo XX. Fue autor,
junto con George C. Tiao, del celebrado “Bayesian Inference in Statistical Analysis”
libro de cabecera de muchos estadísticos.