Estadistica 2
Estadistica 2
Estadistica 2
g presentación 3
g macroobjetivos 5
g programa 5
contenido módulos
g mapa conceptual 7
g agenda 8
g material 9
material básico
material complementario
g glosario 9
g módulos *
m1 | 12
m2 | 41
m3 | 83
g evaluación 119
La materia se estructura en tres módulos (con dos unidades cada uno) que con-
tienen temas que se vinculan a las dos ramas de la estadística, es decir la Esta-
dística Descriptiva y la Estadística Inferencial. Cabe señalar que los conceptos
básicos de la rama descriptiva de la estadística se vieron en Estadística I, es por
ello muy conveniente que usted recupere los esos contenidos, para que pueda
encarar adecuada y exitosamente el estudio de la presente.
¡Comencemos!
Albert Einstein
• Identificar y manejar los distintos tipos de muestreos para poder hacer una
selección adecuada de unidades de análisis (muestras) según la investiga-
ción o trabajo de campo a realizar en la disciplina.
p r o g ram a
Unidad 1: Muestreo
SEMANA MÓDULOS
I II III
1
2
3
4
5
6
7
8 1ra. Etapa de Evaluación Integradora
9
10
11
12
13
14
15 2da. Etapa de
Evaluación
Integradora
Material básico
Material complementario
g l osario
Censo: Estudio que abarca a las variables en toda una población a un momento
determinado.
Cuartiles: Los percentiles 25%, 50% y 75% se llaman primer cuartil, segundo
cuartil (mediana) y tercer cuartil, respectivamente. Se pueden usar los cuartiles
para dividir el conjunto de datos en cuatro partes, cada una de las cuales con-
tiene aproximadamente el 25% de los datos.
Regla empírica: Regla que establece los porcentajes de elementos que están
dentro de una, dos y tres desviaciones estándar de distancia del promedio, para
distribuciones con forma de campana.
Resumen de cinco datos: Técnica del AED que consiste en analizar los valores
mínimo y máximo y los cuartiles en un conjunto de datos.
m1
m1 microobjetivos
m1 contenidos
Sigamos transitando…
Muchas veces errores en la introducción de los datos en una base puede llevar-
nos a la construcción de gráficas incorrectas y si no se exploran más a fondo
los datos, se podría arribar a conclusiones muy equivocadas con sólo observar
un histograma, por ejemplo y por supuesto se arrastraría errores al calcular las
medidas descriptivas.
Esta gráfica es una de las técnicas más sencillas del análisis exploratorio; pro-
porciona el orden de clasificación de los elementos del conjunto de datos y la
forma de la distribución.
Se hace una lista vertical de los tallos (los primeros dígitos o bien en este caso
la parte entera de los elementos de los datos), como sigue:
7
8
9
10
11
Después se dibuja una línea vertical a la derecha de los tallos y se listan las hojas
(el siguiente dígito o en este caso la parte decimal de cada valor, para cada tallo) a
la derecha de la línea en el orden en que aparecen en el conjunto de datos original.
Si se gira la página en 90º en sentido contrario a las agujas del reloj, se obtiene
una figura que se asemeja al histograma, haciendo la salvedad que aquí con este
diagrama de tallo y hoja se mantienen todos los valores originales, tal como se
expresó y esto se convierte en una de las ventajas que presenta este diagrama
en la exploración de los datos.
Con este diagrama además es posible tener una idea de la forma que adoptan
los datos, detectar el valor de la variable, el mínimo, el máximo y el más fre-
cuente. En nuestro ejemplo el tiempo en segundos que más se presenta es 9,6
ya que 4 jugadores hicieron ese tiempo.
• Valor mínimo
• Primer cuartil
• Mediana
• Tercer cuartil
• Valor máximo
Como puede apreciar estos conceptos ya son conocidos por usted, en el módulo
3, de Estadística I, se presentaron las medidas de tendencia central y no central
que se podían calcular a los conjuntos de datos.
La manera más fácil de elaborar este resumen de datos es poner los mismos en
orden ascendente.
• Diagrama de caja
Vamos a construir este diagrama con los datos del ejemplo precedente, la dis-
tancia recorrida por sus 17 alumnos en la prueba de 6 minutos.
1.- Se traza un rectángulo (caja) con los extremos en el primer y el tercer cuartil.
Este rectángulo contiene al 50% central de las observaciones. En nuestro caso
esos extremos de la caja serán, 537,50 m (1er.Cuartil) y 622,50 m (3er.Cuartil).
Esta caja contendrá el 50% central de los datos.
3.- Se indican en el gráfico los límites. Los límites se encuentran a 1,5 veces el
rango intercuartílico por debajo del primer cuartil y 1,5 veces el rango intercuar-
tílico por encima del tercer cuartil. En nuestro ejemplo los límites son: 410 m.
(límite inferior) y 750 m (límite superior).
4.- Se trazan los brazos (o bigotes) mediante líneas punteadas (o bien línea entera)
que van desde los bordes de la caja (cuartil primero y tercero) hasta el valor mínimo
y máximo del conjunto de datos, respectivamente, dentro de los límites calculados.
En nuestro caso los brazos terminan en los valores de 410 m y 640 m
5.- Finalmente, se marca con un asterisco (*) la ubicación de los valores atípicos.
En el caso planteado se presenta un valor atípico, correspondiente a los 320 m
La siguiente figura muestra el diagrama de caja y brazos para los datos del caso
planteado.
• Regla empírica
En los conjuntos simétricos una parte considerable de los datos tiende a con-
centrarse en torno al valor de la media. Ya se vio que podemos determinar la asi-
metría de la distribución comparando tanto media y mediana (recuerde revisar el
módulo 3 de Estadística I), como del AED mediante el diagrama de caja y brazos.
Cuando no existe un sesgo extremo y se observa una alta concentración de los
datos en torno de las medidas de tendencia central (media y mediana) es posible
utilizar la llamada regla empírica para examinar la propiedad de variabilidad de
los datos y adquirir una idea más clara de lo que mide la desviación estándar.
Por lo tanto, la desviación estándar, como medida del promedio de variación alre-
dedor de la media aritmética, nos ayuda a comprender la distribución de las obser-
vaciones arriba o debajo de la media y detectar observaciones inusitadas o poco
usuales (valores atípicos), cuando analizamos un conjunto de datos cuantitativos.
Supongamos que se cuenta con los tiempos en minutos para recorrer 2400
metros, a fin de valorar el grado de entrenamiento de 50 atletas. Los valores de
la variable en estudio se presentan a continuación.
10,30 13,00 13,00 8,00 11,10 11,60 10,00 12,50 9,30 10,50
11,10 6,70 11,20 11,80 10,20 15,10 12,90 9,30 11,50 7,60
9,60 11,00 7,30 8,70 11,10 12,50 9,20 10,40 10,70 10,10
9,00 8,40 5,30 10,60 9,90 6,50 10,00 12,70 11,60 8,90
14,50 10,30 12,50 9,50 9,80 7,50 12,80 10,50 7,80 8,60
Tabla 3: conjunto de datos para los 50 atletas.
𝜎𝜎 = 2,045 𝑚𝑚𝑚𝑚𝑚𝑚.
Si nos fijamos en los datos presentados es posible advertir que 32 de los tiem-
pos (aproximadamente el 64%) se encuentran entre μ ± σ (es decir, entre los
8,24 y los 12,33 minutos), en tanto que 47 tiempos (alrededor del 94%) se hallan
a μ ± 2σ (es decir, entre 6,19 y 14,37 minutos).
Con frecuencia a quien toma decisiones le interesa la relación entre dos varia-
bles. Seguramente usted, como profesor de Educación Física, en más de una
oportunidad tuvo que relacionar variables cuantitativas.
Supongamos que usted posee los datos de un test de fuerza y los datos de un
test de velocidad referidos a 10 alumnos y le interesa averiguar el grado de rela-
ción que existe entre estas dos variables (fuerza y velocidad).
Fuerza Velocidad
60 120
67 127
74 140
83 166
58 119
85 170
71 137
69 130
77 150
80 166
- Covarianza
Con los datos de las dos variables calculamos la media aritmética tanto para la
variable fuerza como para la variable velocidad, dichas medias resultan ser:
1 Cabe aclarar que, si en lugar de trabajar con una muestra de pares de datos se trabaja con
la población, es decir con el total de parejas de datos para las variables de interés; en la fórmula de la
covarianza, la suma de los productos se debe dividir por N (tamaño de la población), en lugar de n-1.
𝑦𝑦� = 142,50 𝑚𝑚
Para el caso en que la covarianza asuma un valor negativo, ello estaría indicando
una relación inversa o negativa entre las variables, es decir a medida que aumen-
tan los valores de una, disminuyen los valores de la otra y viceversa.
- Coeficiente de correlación
172,89
𝑟𝑟 = = 0,97
9,17 ×19,46
Ante este se puede concluir que existe una alta correlación lineal positiva entre
las variables, en otras palabras, la mayor fuerza de los individuos se asocia con
mayor velocidad y el grado en que se relacionan las dos variables, es fuerte. 2
2 Si se está trabajando con los datos poblacionales, en la ecuación para calcular el coeficiente de
correlación se deberán tomar los valores de los parámetros, es decir la covarianza poblacional entre las dos
variables y se la dividirá por el producto de las desviaciones estándar poblacionales de las variables.
Esta tabla cruzada permite ver la distribución en término de las dos variables.
A partir de esta tabla es posible armar otras tablas cruzadas que contengan por-
centajes, tal como se presenta a continuación. Dependiendo el análisis que se
desee realizar convendrá calcular los porcentajes por columna, por fila o por el
total de casos.
Lo invito a que interprete los resultados presentados en las tablas que siguen.
Del análisis de las tablas cruzadas precedentes es evidente que podemos hablar
de una tendencia, es decir, en este caso las adolescentes que no están con-
formes con su cuerpo son las que mayoritariamente manifiestan que sí les inte-
resa la mirada u opinión de los demás y viceversa.
Cuando las variables que se cruzan son nominales y con dos categorías cada
una, como en este caso, es posible determinar el agrado de asociación entre
ellas mediante un coeficiente, se trata del Coeficiente fi (Ф).
Es recomendable leer sobre los temas de este módulo y otras cuestiones que le
serán de interés, en el material básico del autor Mario F. Triola, en capítulo referido
a “correlación”; como así también del texto complementario Haroldo Elorza Pérez
– Tejada, en el capítulo referido al análisis de datos categóricos, coeficiente fi.
información complementaria 1
información complementaria 2
ESTADÍSTICA II
Módulo I
Técnicas
Diagrama de Caja y
Brazos
Regla Empírica
(o Blox
Plot o Al explorar un conjunto de datos es necesario considerar aquellos
valores distantes ya que podrían revelar información importante o
Diagrama bien podría tratarse de errores en la medición o en la carga de los
de Caja y datos, lo que implicaría que se está trabajando con valores
erróneos que por supuesto deberían corregirse o eliminarse.
Bigotes)
Tanto el resumen de cinco números como el diagrama de caja y
brazos son útiles para hacer un análisis de la forma en que se
distribuye el conjunto de datos.
Análisis
Bivariado
Dos Dos
variables variables
cuantitativas cualitativas
y
140
40000
20
120
30000
100
10
20000
80
10000 0 60
10 20 30 40 50 60 70 80 0 10 20 30 10 20 30 40 50 60 70 80
x x x
En estos gráficos que se presentan tres diagramas de dispersión hipotéticos que muestran la
asociación entre dos variables cuantitativas, la covarianza resultante en cada caso será; en el primero
positiva, el segundo negativa y el último igual a cero o casi cero.
Covarianza
Relación positiva o directa
Positivo
Cero Relación negativa o indirecta
signo
Cov x; y
Indica el sentido de la relación lineal
r=
sx s y valor Indica el grado de la relación lineal
Material básico
Material complementario
m1 actividades
m1 | actividad 1
¡¡Ya pasó un año desde que decidió con sus amigos – María y Augusto- empren-
der!!! Y el emprendimiento del club viene muy bien.
Qué rápido se pasó….... piensa usted ... “Quizás sea porque me encuentro muy
a gusto trabajando en lo que me agrada y estudiando la licenciatura, avan-
zando cada cuatrimestre en conocimientos tan útiles para mi profesión”.
Hoy lunes, cuando llegó al club, sede de entrenamiento y consultó su correo elec-
trónico, encontró uno su socia, María -la nutricionista-; que le planteaba lo siguiente:
“El viernes pasado a última hora te envié los datos recopilados de mis pacien-
tes que tienen problemas de sobrepeso y a los que necesito que, vos como
profesor de Educación Física les diseñes un plan con actividad física adecuada.
Los datos que le fueran enviados el fin de semana pasado, son los siguientes:
25,56 28,71 27,44 26,47 28,15 29,07 26,79 28,56 27,67 28,28 27,95
25,40 26,49 28,39 27,76 30,96 45,95 29,98 26,53 26,40 25,50 25,85
C 1
m1 |actividad 1 | AA
asistente académico
Para esta actividad se le recomienda repasar todo lo relativo a las distintas técni-
cas del AED vistas en este módulo.
clave de corrección
tallo hoja
25 4558
26 44457
27 4679
28 12357
29 09
30 0
tallo hoja
25 45589
26 44457
27 4679
28 12357
29 09
30 9
Ya tiene los resultados del AED, ahora usted puede sacar las conclusiones y
generar el informe para su compañera, que le será de gran utilidad.
Hace un tiempo que viene entrenando a un grupo de estudiantes a los que les da
clases y estuvo recopilando datos de los mismos.
A ese grupo de 20 alumnos varones usted les realizó un test que mide el tiempo
y la velocidad en recorrer 100 metros. Para ello tomó mediciones pre y pos de un
entrenamiento intensivo de un mes.
Ahora está interesado en averiguar si existe una vinculación entre estas variables,
es decir la velocidad pre y pos entrenamiento; asimismo, quiere confirmar (si es
como se supone) que existe relación entre la velocidad alcanzada antes y des-
pués del entrenamiento y por último, conocer que tan fuerte es esa relación, para
poder estimar futuras velocidades pos entrenamiento en otro grupo de alumnos.
El análisis apropiado de los datos que realice le será más que útil. A 1
6,46 6,27
6,74 6,63
6,76 6,68
7,05 7,16
7,05 6,97
6,63 6,64
7,02 6,78
7,39 7,34
6,60 6,52
6,55 6,72
7,07 7,18
7,01 6,99
6,45 6,26
6,58 6,84
7,12 7,23
7,18 7,12
7,41 7,41
6,81 6,74
6,78 7,07
7,37 7,40
asistente académico
m1 |actividad 2 | CC
clave de corrección
A fin de detectar si existe entre las dos variables cuantitativas alguna relación,
corresponde hacer la representación gráfica.
Es posible apreciar que hay una relación directa entre las variables velocidad pre
y post entrenamiento.
A partir de los datos se calcularon las medias aritméticas y las desviaciones están-
dar para cada una de las variables. Las medidas resumen son las siguientes:
m1 | actividad 3
A trabajar.
m1 |actividad 3 | AA
asistente académico
Usted ya cuenta con los datos presentados en una tabla de doble entrada.
Le sugiero que revise en los contenidos del módulo para repasar todo lo que se
puede hacer, estadísticamente, con estos datos.
Recuerde que ahora se le presenta otro análisis bivariado, en este caso, de dos
variables cualitativas.
m1 |actividad 3 | CC
clave de corrección
A partir de ésta, es posible armar otras que contengan los porcentajes por
columna, por fila o por el total; las mismas se presentan a continuación.
Además, tratándose de una tabla que cruza dos variables dicotómicas, es posi-
ble calcular el coeficiente fi, que permitirá analizar la existencia de asociación
entre las variables.
Nota: Recuerde que, en el informe final, a las tablas que decida incorporar para
apoyar los resultados, les debe colocar su correspondiente título, fuente, etc.
Cuartiles: Los percentiles 25%, 50% y 75% se llaman primer cuartil, segundo
cuartil (mediana) y tercer cuartil, respectivamente. Se pueden usar los cuartiles
para dividir el conjunto de datos en cuatro partes, cada una de las cuales con-
tiene aproximadamente el 25% de los datos.
Regla empírica: Regla que establece los porcentajes de elementos que están
dentro de una, dos y tres desviaciones estándar de distancia del promedio, para
distribuciones con forma de campana.
Resumen de cinco datos: Técnica del AED que consiste en analizar los valores
mínimo y máximo y los cuartiles en un conjunto de datos.
m2 contenidos
1 Cabe señalar que esto curso trataremos los conceptos básicos que se necesitan manejar en
probabilidad, haciendo hincapié en una probabilidad aplicada, más que en la probabilidad matemática.
Espacio probabilístico
Eventos
En ese conjunto de resultados posibles del dado, todos son igualmente posibles
de presentarse, es exhaustivo dicho conjunto porque fuera de las seis caras
del dado no se puede presentar ninguna otra y los resultados son mutuamente
excluyentes ya que al salir cualquiera de las caras excluye a las restantes.
En símbolos:
Ω = {1; 2; 3; 4; 5; 6 }
𝑁𝑁 = 6 (𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒)
1 1
𝑃𝑃 (𝑐𝑐𝑐𝑐𝑐𝑐𝑎𝑎 𝑛𝑛°1) = 𝑃𝑃(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑛𝑛°2) = ⋯ 𝑃𝑃(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑛𝑛°6) = =6 = 1,1666
𝑁𝑁
• Teoría Clásica
Ejemplo:
• Teoría frecuencial
3 Debido a que este enfoque (cuando es aplicable) permite determinar los valores de probabilidad
antes de observar cualquier evento es que se conoce como “enfoque a priori”.
Por ejemplo, si lanzamos un dado seis veces es casi improbable que cada cara
salga una vez, pero si lo lanzamos repetidas veces un número grande de veces
(por ejemplo 100 veces, 500 veces, 1000 veces, etc.) podemos esperar que, en
promedio, cada una de las caras salga más o menos un sexto de las veces.
• Teoría subjetivista
Esta teoría tiene escaso rigor matemático y refleja sentimientos y opiniones res-
pecto a las posibilidades de que ocurra un resultado particular.
Eventos particulares
• Evento Cierto: Es aquel para el cual todos los eventos elementales le son
favorables.
Para el ejemplo que hemos venido planteando de arrojar un dado, suponga-
mos que se pidiera la presentación de cualquiera de las seis caras, tendre-
mos la seguridad que aparecerá alguna de las caras.
En símbolos:
P(Ω) = 1
Postulados fundamentales
Tipos de eventos
En símbolos:
Por lo tanto:
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0
Ejemplo:
Dos o más eventos son no mutuamente excluyentes si tienen algún punto del
espacio probabilístico en común, es decir pueden presentarse simultáneamente.
En símbolos:
Ejemplo:
𝐴𝐴 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝 𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑
𝐵𝐵 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 2 𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑
Probabilidad Condicional
En símbolos:
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)
𝑃𝑃�𝐴𝐴�𝐵𝐵 � =
𝑃𝑃(𝐵𝐵)
• Eventos Dependientes
Dos o más eventos son dependientes cuando la ocurrencia de uno de ellos en cual-
quier prueba afecta la probabilidad de ocurrencia de otros eventos en otras pruebas.
En símbolos:
• Eventos Independientes
En símbolos:
Además, se cumple:
𝑃𝑃�𝐴𝐴�𝐵𝐵 � = 𝑃𝑃(𝐴𝐴)
𝑃𝑃�𝐵𝐵�𝐴𝐴� = 𝑃𝑃(𝐵𝐵)
Veamos un ejemplo: Si arrojamos una moneda y sale cara, el hecho que haya
salido cara en la primera tirada de la moneda, no afecta a la probabilidad que en
tiradas sucesivas de la moneda pueda salir nuevamente cara. La probabilidad de
salida de cara sigue siendo ½= 0,50.
Reglas de adición
En símbolos:
Ejemplo:
𝐴𝐴 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎 4 = {5; 6}
𝐵𝐵 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎 3 = {1; 2}
Por lo tanto, la unión de esos dos eventos como no tienen puntos en común
será: 1; 2; 5; 6
2 2 4
𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = + = = 0,66
6 6 6
Ejemplo:
Por lo tanto, la unión de esos dos eventos como tienen punto en común será: {2;
4; 4; 5; 6; 6}, podemos observar que de esta forma estamos repitiendo los ele-
mentos en común de ambos conjuntos, por lo tanto, se debe restar la intersec-
ción entre ellos.
3 3 2 4
𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = + − = = 0,66
6 6 6 6
Tablas de contingencia
En el módulo 1 de esta materia, usted aprendió sobre asociación entre dos vari-
ables cualitativas. Ahora vamos a retomar esas tablas cruzadas y las vamos a ver
desde la probabilidad.
Cada una de estas variables tiene sus respectivas categorías, estas categorías
ahora son los “eventos” (resultados posibles); simbolizaremos a cada uno de
ellos con letras mayúsculas.
Probabilidades marginales
Si selecciona una adolescente al azar:
(Probabilidades simples)
Hay 0,63 de probabilidad que se trate de una
P (A) = 0,63
adolescente que está conforme con su cuerpo.
Hay un 37% de posibilidades que la adolescente
P (B) = 0,37
no esté conforme con su cuerpo.
Existe una probabilidad de 0,41 que a la
P (C) = 0,41 adolescente le interese la opinión de los demás
sobre su aspecto físico.
Hay un 59% de posibilidades que a la adolescente
P (D) = 0,59
no le interese la opinión de los demás.
58
𝑃𝑃(𝐴𝐴 ∩ 𝐷𝐷) = = 0,46
126
La distribución Normal
La imagen siguiente presenta la regla empírica. Este tema por supuesto se rela-
ciona con la distribución Normal, le sugiero que recupere lo visto en el módulo
anterior de la materia.
Para el estudio de este tema los invito a leer los apartados 1 y 2 del artículo
titulado “La distribución Normal” IC 1 de Pértegas Díaz S., Pita Fernández
S. También le recomiendo la lectura del apartado titulado “Regla empírica
para datos con distribución Normal” que lo encontrará en el material básico
Estadística de Mario F. Triola. Allí se presenta de manera muy clara de que
se trata y cómo se aplica la regla empírica.
información complementaria 1
La distribución normal
1. Introducción
Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección de
errores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, de
los datos numéricos. Además de las medidas descriptivas correspondientes, el comportamiento de estas
variables puede explorarse gráficamente de un modo muy simple. Consideremos, como ejemplo, los
datos de la Figura 1a, que muestra un histograma de la tensión arterial sistólica de una serie de pacientes
isquémicos ingresados en una unidad de cuidados intensivos. Para construir este tipo de gráfico, se divide
el rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo un
rectángulo con área proporcional al número de datos en ese rango1. Uniendo los puntos medios del
extremo superior de las barras, se obtiene el llamado polígono de frecuencias. Si se observase una gran
cantidad de valores de la variable de interés, se podría construir un histograma en el que las bases de los
rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias tendría una
apariencia cada vez más suavizada, tal y como se muestra en la Figura 1b. Esta curva suave "asintótica"
representa de modo intuitivo la distribución teórica de la característica observada. Es la llamada función
de densidad.
Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la
práctica es la distribución normal, también llamada distribución gaussiana2, 3, 4, 5. Su importancia se
debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y
cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso),
o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se
asume que siguen una distribución normal. No obstante, y aunque algunos autores6, 7 han señalado que el
comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una
distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo
de comportamiento.
El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por
otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad
de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de
la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de
datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. La
simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen
otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un
modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando
los datos no sean normales, podremos o bien transformarlos8 o emplear otros métodos estadísticos que no
exijan este tipo de restricciones (los llamados métodos no paramétricos).
2. La Distribución Normal
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754).
Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la
ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de
Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su
media y su desviación estándar, denotadas generalmente por y . Con esta notación, la densidad de
la normal viene dada por la ecuación:
Ecuación 1:
que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así, se dice que una
característica sigue una distribución normal de media y varianza , y se denota como
, si su función de densidad viene dada por la Ecuación 1.
Al igual que ocurría con un histograma, en el que el área de cada rectángulo es proporcional al número de
datos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontal
se levantan perpendiculares en dos puntos a y b, el área bajo la curva delimitada por esas líneas indica la
probabilidad de que la variable de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la
curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente
hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar un
dato cercano al valor medio que uno que se encuentre muy alejado de éste.
Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de
distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entre
todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de
media 0 y varianza 1. Así, la expresión que define su densidad se puede obtener de la Ecuación 1,
resultando:
Es importante conocer que, a partir de cualquier variable X que siga una distribución , se puede
obtener otra característica Z con una distribución normal estándar, sin más que efectuar la transformación:
Ecuación 2:
Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución
existen tablas publicadas (Tabla 1) a partir de las que se puede obtener de modo sencillo la probabilidad
de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad
acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución
aproximadamente normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de
una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y
una desviación estándar de 10 Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida
al azar, tenga un peso superior a 100 Kg?
Denotando por X a la variable que representa el peso de los individuos en esa población, ésta sigue una
distribución . Si su distribución fuese la de una normal estándar podríamos utilizar la Tabla 1
para calcular la probabilidad que nos interesa. Como éste no es el caso, resultará entonces útil
transformar esta característica según la Ecuación 2, y obtener la variable:
para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será:
Esta última probabilidad puede ser fácilmente obtenida a partir de la Tabla 1, resultando ser
. Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente
de esa población tenga un peso mayor de 100 Kg , es de 1–0.9772=0.0228, es decir, aproximadamente de
un 2.3%.
De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 Kg:
Por el ejemplo previo, se sabe que . Para la segunda probabilidad, sin embargo,
encontramos el problema de que las tablas estándar no proporcionan el valor de para valores
negativos de la variable. Sin embargo, haciendo uso de la simetría de la distribución normal, se tiene que:
Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg.,
es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que
se obtendría la misma conclusión recurriendo a la propiedad (III) de la distribución normal.
No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nos
encontramos en la práctica. Generalmente no se dispone de información acerca de la distribución teórica
de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al
azar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los
resultados obtenidos a la población de origen. En un ejemplo similar al anterior, supongamos que se
dispone del peso de n=100 individuos de esa misma población, obteniéndose una media muestral de
Kg, y una desviación estándar muestral Kg, querríamos extraer alguna conclusión
acerca del valor medio real de ese peso en la población original. La solución a este tipo de cuestiones se
basa en un resultado elemental de la teoría estadística, el llamado teorema central del límite. Dicho
axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas
una distribución normal con igual media que la de la población y desviación estándar la de la población
con lo cual, a partir de la propiedad (III) se conoce que aproximadamente un 95% de los posibles valores
de caerían dentro del intervalo
Puesto que los valores de y son desconocidos, podríamos pensar en aproximarlos por sus análogos
3. Contrastes de Normalidad
La verificación de la hipótesis de normalidad resulta esencial para poder aplicar muchos de los
procedimientos estadísticos que habitualmente se manejan. Tal y como ya se apuntaba antes, la simple
exploración visual de los datos observados mediante, por ejemplo, un histograma o un diagrama de cajas,
podrá ayudarnos a decidir si es razonable o no el considerar que proceden de una característica de
distribución normal. Como ejemplo, consideremos los histogramas que se muestran en la Figura 4a,
correspondientes a una muestra de 100 mujeres de las que se determinó su peso y edad. Para el caso del
peso, la distribución se asemeja bastante a la de una normal. P ara la edad, sin embargo, es claramente
asimétrica y diferente de la gaussiana.
Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinión meramente subjetiva
acerca de la posible distribución de nuestros datos, y que es necesario disponer de otros métodos más
rigurosos para contrastar este tipo de hipótesis. En primer lugar, deberemos plantearnos el saber si los
datos se distribuyen de una forma simétrica con respecto a su media o presentan algún grado de asimetría,
pues es ésta una de las características fundamentales de la distribución de Gauss. Aunque la simetría de
la distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas de la variable
en cuestión8 (comparando, por ejemplo, los valores de media, mediana y moda), resultará útil disponer de
algún índice que nos permita cuantificar cualquier desviación. Si se dispone de una muestra de tamaño n,
a partir del cual podemos considerar que una distribución es simétrica ( =0), asimétrica hacia la
izquierda ( <0) o hacia la derecha ( >0). En segundo lugar, podemos preguntarnos si la curva es más o
menos "aplastada", en relación con el grado de apuntamiento de una distribución gaussiana. El
coeficiente de aplastamiento o curtosis de Fisher, dado por:
permite clasificar una distribución de frecuencias en mesocúrtica (tan aplanada como una normal,
), leptocúrtica (más apuntada que una normal, ) o platicúrtica (más aplanada que una
normal, ).
Siguiendo con los ejemplos anteriores, y tal y como cabía esperar, el coeficiente de asimetría toma un
valor mayor para la distribución de la edad ( ) que para el peso observado ( ).
En cuanto a los niveles de curtosis, no hay apenas diferencias, siendo de –0.320 para el peso y de –0.366
para la edad.
Los gráficos de probabilidad normal constituyen otra importante herramienta gráfica para comprobar si
un conjunto de datos puede considerarse o no procedente de una distribución normal. La idea básica
consiste en enfrentar, en un mismo gráfico, los datos que han sido observados frente a los datos teóricos
que se obtendrían de una distribución gaussiana. Si la distribución de la variable coincide con la normal,
los puntos se concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempre
tenderá a observarse mayor variabilidad en los extremos (Figura 4a, datos del peso). En los gráficos P-P
se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Los
gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles respecto a los cuantiles
de la distribución normal. Además de permitir valorar la desviación de la normalidad, los gráficos de
probabilidad permiten conocer la causa de esa desviación. Una curva en forma de "U" o con alguna
curvatura, como en el caso de la edad en la Figura 4b, significa que la distribución es asimétrica con
respecto a la gaussiana, mientras que un gráfico en forma de "S" significará que la distribución tiene colas
mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas de
la distribución.
Parece lógico que cada uno de estos métodos se complemente con procedimientos de análisis que
cuantifiquen de un modo más exacto las desviaciones de la distribución normal. Existen distintos tests
estadísticos que podemos utilizar para este propósito. El test de Kolmogorov-Smirnov es el más
extendido en la práctica. Se basa en la idea de comparar la función de distribución acumulada de los
datos observados con la de una distribución normal, midiendo la máxima distancia entre ambas curvas.
Como en cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del estadístico supera un
cierto valor crítico que se obtiene de una tabla de probabilidad. Dado que en la mayoría de los paquetes
estadísticos, como el SPSS, aparece programado dicho procedimiento, y proporciona tanto el valor del
test como el p-valor correspondiente, no nos detendremos más en explicar su cálculo. Existen
modificaciones de este test, como el de Anderson-Darling que también pueden ser utilizados. Otro
procedimiento muy extendido es también el test chi-cuadrado de bondad de ajuste. No obstante, este tipo
de procedimientos deben ser utilizados con precaución. Cuando se dispone de un número suficiente de
datos, cualquier test será capaz de detectar diferencias pequeñas aún cuando estas no sean relevantes para
la mayor parte de los propósitos. El test de Kolmogorov-Smirnov, en este sentido, otorga un peso menor
a las observaciones extremas y por la tanto es menos sensible a las desviaciones que normalmente se
producen en estos tramos.
Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov a los datos de la Figura
4. Para el caso del peso, el valor del estadístico proporcionado por dicho test fue de 0.705, con un p-valor
correspondiente de p=0.702 que, al no ser significativo, indica que podemos asumir una distribución
normal. Por otra parte, para el caso de la edad, en el que la distribución muestral era mucho más
asimétrica, el mismo test proporcionó un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este
caso la hipótesis de una distribución gaussiana.
Bibliografía
1. Pértega Díaz S, Pita Fernández S. Representación gráfica en el análisis de datos. Cad Aten
Primaria 2001; 8: 112-117.
2. Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman &
Hall; 1997.
3. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la salud. Mexico: Limusa;
1995.
4. Elston RC, Johnson WD. Essentials of Biostatistics. Philadelphia: F.A. Davis Company; 1987.
5. Altman DG, Bland JM. Statistics notes: The normal distribution. BMJ 1995; 310: 298-298.
[Texto completo]
6. Elveback LR, Guilliver CL, Keating FR Jr. Health, Normality and the Gosth of Gauss. JAMA
1970; 211: 69-75. [Medline]
7. Nelson JC, Haynes E, Willard R, Kuzma J. The Distribution of Eurhyroid Serum Protein-Bound
Iodine Levels. JAMA 1971; 216: 1639-1641. [Medline]
8. Altman DG, Bland JM. Statistics notes: Detecting skewness from summary information. BMJ
1996; 313: 1200-1200. [Texto completo]
9. Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312: 770. [Texto
completo]
información complementaria 2
Estadística II
Módulo II
Teorías de Probabilidad
Determinan la forma de calcular la probabilidad de un evento
Teoría Frecuencial
Teoría Subjetiva
Postulados de Probabilidad
- La probabilidad de un evento es siempre positiva. P(A) 0
- La probabilidad de un evento es una cantidad entre cero y uno. 0 P(A) 1
- La probabilidad del espacio probabilístico es siempre uno. P() = 1
Mutuamente
Excluyentes
y
No Mutuamente Tener presente
Eventos cómo se calcula la
excluyentes
Probabilidad de la
UNIÓN
Y de la
Independientes
INTERSECCIÓN
y
en cada caso
Dependientes Situació
No traba
Trabaja
Trabaja
Turno
Situació
Situación Laboral Mañana Tarde
No trabaja 0,375 0,175 0,550 No traba
Trabaja 4 horas o menos 0,100 0,150 0,250 Trabaja
Trabaja más de 4 horas 0,025 0,175 0,200
0,500 0,500 1
Trabaja
Recordar que a partir de estas tablas es Como vemos una tabla de probabilidad conjunta
incluye todos los valores de probabilidad incondicional
posible calcular todo tipo de probabilidad:
como totales marginales, entonces podemos
Simple, Unión, Intersección y Condicional. determinar cualquier valor de probabilidad condicional.
Características de la distribución
X N (; σ)
Parámetros de la distribución
seguimos
avanzando…
Material básico
Material complementario
m2 actividades
m2 | actividad 1
El fin de semana encontró en el suplemento deportivo del diario local, una nota
que le interesó. La misma en el resumen decía:
“A partir del auge de los programas deportivos por T.V. se efectuó un estudio de
mercado a escala nacional para determinar la preferencia de los televidentes de
diversos grupos de edades por los diferentes deportes. Se seleccionó una mues-
tra aleatoria, realizándose una entrevista telefónica a 1000 televidentes y a cada
uno de ellos se le pidió indicar su deporte favorito”.
Usted se puso a analizar los datos y rápidamente comprendió que los mismos
estaban presentados a través de una tabla de contingencia, entonces le pareció
interesante, dado que se trataba de una muestra representativa de la población,
poder calcular probabilidades. A 1
Ahora usted mismo se encuentra ante la posibilidad de poder aplicar los cono-
cimientos sobre probabilidad a partir de información de su interés publicada en
un artículo periodístico. C 1
m2 |actividad 1 | AA
asistente académico
Recuerde asignarle a cada evento una letra mayúscula y luego plantear las pro-
babilidades de interés.
clave de corrección
Primero hay que identificar los eventos de la tabla de contingencia con letras
mayúsculas.
207
𝑃𝑃(𝐶𝐶) = = 0,207
1000
26
𝑃𝑃(𝐴𝐴 ∩ 𝐸𝐸) = = 0,26
1000
36
𝑃𝑃�𝐷𝐷�𝐸𝐸 � = = 0,24
150
Ahora Ud. puede sacar más las conclusiones con los datos publicados, ¿Acepta
el desafío?
Nota: recuerde que si desea puede trabajar con la tabla de probabilidades con-
junta, la puede obtener a partir de la de contingencia.
m2 | actividad 2
Cuando está llegando al club, para comenzar con otra jornada de entrenamiento
recibe un WhatsApp de su amigo y socio. Usted está apurado, pero lo atiende,
puede ser algo urgente.
Bueno, como verás este es un tema de probabilidades y ¡quién mejor que vos
para ayudarme con esto!
Te pido entonces este favor, me parece que estas probabilidades nos pueden ser
muy útiles para nuestras próximas acciones en el club. ¿Acordás conmigo?
asistente académico
Para resolver este caso, es importante que primero identifique los eventos que
se presentan, ellos son:
Una vez identificados los eventos y de qué tipo de eventos se trata, se encuentra
en condiciones de calcular las probabilidades solicitadas.
Recuerde que para calcular las probabilidades de los eventos empleará la fór-
mula: casos favorables al evento sobre el total de los casos posibles, es decir la
teoría clásica.
m2 |actividad 2 | CC
clave de corrección
• La probabilidad que una persona llame por una consulta sobre nutrición
solamente es:
50
𝑃𝑃(𝐴𝐴) = = 0,20
250
• La probabilidad que una persona llame por una consulta sobre actividad
física exclusivamente:
70
𝑃𝑃(𝐵𝐵) = = 0,28
250
• La probabilidad que una persona llame haciendo una consulta sobre nutrición
y actividad física es:
30
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = = 0,12
250
La primera probabilidad que se debe calcular, según lo que le solicita su amigo es:
𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0,20 + 0,28 − 0,12 = 0,36
Es decir que existe una probabilidad del 36% que la llamada al sea sobre nutrición
o sobre actividad física (es decir que sea por uno u otro motivo o por los dos).
m2 | actividad 3
Más probabilidades
Por supuesto que usted colaborará con su compañera, además todo ayudará a
posicionar mejor la actividad del emprendimiento.
A 1
C 1
asistente académico
Ante este caso, nuevamente deberá armar la tabla de doble entrada. Recuerde que
primero hay que identificar las variables que se cruzan y los eventos en cada una.
Debe asignar a cada evento una letra mayúscula y luego plantear las distintas
probabilidades y realizar los cálculos.
Por supuesto que le será de ayuda que revise todo lo concerniente a las tablas
de contingencia y de probabilidad conjunta visto en este módulo.
m2 |actividad 3 | CC
clave de corrección
Ya sea con una u otra tabla usted tiene la información necesaria para realizar el
cálculo de cualquiera de las probabilidades de su interés y el de su compañera.
Sólo le resta entregarle las tablas a ella y analizar juntos los datos y calcular las
probabilidades que a vuestro criterio resulten más relevantes y útiles.
m3 contenidos
Conceptos Clave
Por lo tanto, es esencial que los elementos que integran la muestra representen
lo más fielmente posible a todos los elementos de la población.
La ventaja del muestreo radica en que los errores que se pueden cometer con el
mismo se pueden cuantificar en términos de probabilidades.2
El error muestral es el que se comete al utilizar una muestra para sacar conclu-
siones acerca de una población.
1 En muchas ocasiones en las investigaciones los censos son costosos y difíciles de llevar a cabo,
hasta incluso imposibles de realizar por diferentes motivos.
2 ¿Entiende usted entonces, la importancia de poseer conocimientos de probabilidad?
- ¿qué mediremos? (o sea, ¿qué variables se medirán?: peso; edad; velocidad; etc.).
- ¿cómo mediremos? (es decir, ¿qué instrumentos de medición se utilizarán?).
Diseño de muestreo
1. Delimitación de la población
La población puede ser finita o infinita, según sea posible contar o no los ele-
mentos que la constituyen.
Es crítico identificar y delimitar adecuadamente en tiempo y espacio la población.
En el caso del ejemplo planteado, el marco para la muestra lo constituiría las listas
donde los profesores de educación física registran las notas de los alumnos.
3 Puede ser suficiente especificar el procedimiento por medio del cual cada unidad muestral puede
ser localizada. Por ejemplo, un miembro de una muestra probabilística de niños de una escuela podría ser
obtenido seleccionando aleatoriamente un distrito escolar, una escuela, un salón de clases y, finalmente, un
alumno.
5. Seleccionar la muestra
Métodos de muestreo
Usando estos números, una muestra de cinco sería la que incluiría a estos
poseedores de entradas:
56 25 24 78
12 14 25 54
45 78 45 76
76 59 07 83
47 10 37 49
77 41 29 60
00 16 93 47
54 58 47 62
Recuerde que puede, también emplear Excel para generar números aleatorios,
lo encontrará en la presentación resumen de este módulo resumen mod3 IC 2
• Muestreo sistemático
Esta técnica de selección de muestras aleatorias es una de las más usadas por
su sencillez en el procedimiento.
Para obtener una muestra sistemática, dentro del primer intervalo de muestreo
(cuyos elementos están enumerados entre 1 y k), se elige un arranque aleatorio
que llamaremos “r” que determina la unidad que se va a seleccionar en cada uno
de los intervalos de muestreo.
Una vez seleccionada la muestra por esta técnica, se calculan los estimadores
de igual manera que se lo hace para una muestra aleatoria simple.
• Muestreo estratificado
La manera en que la muestra total se distribuye entre los estratos se llama afija-
ción o asignación, esta puede ser:
Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad
de muestreo es un conjunto o conglomerado de elementos.
Hemos desarrollado hasta aquí, las distintas maneras que tenemos de seleccio-
nar las unidades de la muestra, ahora veremos el otro aspecto en el muestreo que
es determinar la cantidad de elementos que se deben seleccionar en la muestra.8
8 En rigor de verdad, primero se debe determinar el tamaño muestral y luego elegir el método
de selección, la presentación de estos temas en el desarrollo del módulo sólo responde a una decisión de
didáctica, considerada conveniente para un mejor aprendizaje de los mismos.
Los estimadores muestrales que se utilizarán para cada parámetro, son respec-
tivamente: y
Con respecto al parámetro media poblacional (μ), que ya es conocido por usted,
vamos a recordar que se calculaba de la siguiente manera:
∑ 𝑥𝑥𝑖𝑖
𝜇𝜇 =
𝑁𝑁
Habiendo planteado los dos parámetros a partir de los cuales y, cuya estimación
nos sirve para la determinación del tamaño muestral, la fórmula que se utiliza
para determinar la cantidad de unidades a seleccionar, teniendo en cuenta cuál
es el parámetro que se va a estimar en la investigación, es la siguiente:
𝑍𝑍 2 × 𝜎𝜎 2
𝑛𝑛 =
𝑒𝑒 2
Para cuando el parámetro a estimar es la proporción (P)
𝑍𝑍 2 × 𝑃𝑃 × 𝑄𝑄
𝑛𝑛 =
𝑒𝑒 2
A continuación, se presenta una tabla que relaciona los distintos niveles de con-
fianza más usados en las estimaciones para determinar el tamaño de muestra,
con los valores de la distribución Normal estandarizada, es decir los valores de
Z, que usted debe colocar en la fórmula del tamaño de muestra.
1-α Z
0,90 1,645
0,95 1,96
0,99 2,576
1,962 ×0,70×0,30
𝑛𝑛 = 0,04 2
= 504,21
Por lo tanto, al redondear esa cantidad, el tamaño muestral sería de por lo menos
601 individuos.
𝑛𝑛0 × 𝑁𝑁
𝑛𝑛 =
(𝑁𝑁 − 1) + 𝑛𝑛0
505 × 1500
𝑛𝑛 = = 377,99 ≥ 378
(1500 − 1) + 505
601 × 1500
𝑛𝑛 = = 429,28 ≥ 430
(1500 − 1) + 601
9 Cabe aclarar que en este módulo solamente veremos los conceptos teóricos acerca de Inferencia
Estadística, la parte práctica de Inferencia queda fuera del alcance de este curso.
10 Por lo tanto, cuando ustedes encuentren desarrollos matemáticos y ejemplos resueltos (con
cálculos) en el material de lectura sugerido, no los tengan en cuenta. En este módulo se hará hincapié en que
ustedes conozcan y sepan distinguir los procedimientos básicos de la Estadística Inferencial, como lo son la
estimación y la prueba de hipótesis y cuál es la función de cada uno.
Luego de leer los temas que se estudian en este módulo, le sugiero – como
se hizo en los módulos anteriores- ver el resumen resumen mod3 IC 2 que
le permitirá recordar y fijar los puntos y temas principales.
Me gustaría cerrar este módulo y la materia, con palabras de John Wilder Tukey
(1915-2000) quien fuera uno de los grandes talentos estadísticos del Siglo XX,
con importantes contribuciones, pudiendo ser considerado como el padre de la
aproximación exploratoria del análisis de datos.
información complementaria 1
75421 11182 31304 08036 86922 77941 88944 30226 60766 90951
06692 19591 14171 04356 06744 46546 99184 97684 43285 86345
06065 12379 70386 09035 90126 74677 39885 84335 09442 21772
01098 06343 88773 94702 07203 60936 54445 12423 64560 99694
93526 56837 42025 45578 95193 97695 53146 51370 79913 83145
85129 31088 36253 40011 32078 72245 58783 47555 55681 45450
74312 81501 94303 30800 60660 69979 57625 00050 69795 15120
67348 11345 13361 40573 75687 78415 42407 97830 98089 98605
29241 77892 67728 60876 53046 75840 18933 18108 73509 76958
04366 94984 95131 22993 17240 63185 54786 31607 50705 61581
54205 61584 99698 74013 88263 96563 18003 77390 05762 40975
52801 44366 19745 74219 20982 91400 50685 56541 68392 96624
02573 59494 26362 40769 39340 19677 16923 04761 65952 03630
15896 32426 64984 99029 58073 28814 44849 39871 00825 29966
26032 33340 54573 55786 75383 14546 27499 43894 86358 19706
41349 18921 50835 65861 79521 38319 33999 74851 97319 17221
31246 35797 89051 36319 38137 11101 02808 36771 63163 00816
55704 87671 81967 18984 94617 89097 91625 49172 07106 06218
09107 53117 75664 25300 38186 29702 73632 77044 08238 08097
53779 05917 99367 58743 33981 66547 45685 11168 81086 29458
05252 99475 70537 29636 46984 49231 73571 64092 26162 26361
92966 81458 79792 39399 19278 20247 45367 76937 64563 23930
08109 88529 70116 11782 24198 68334 83184 26202 49315 38471
53118 70359 28973 95173 29213 29969 00445 24846 50957 80443
60924 44136 71034 80642 62977 93957 21006 66422 96753 69814
11151 59784 77446 64703 22038 40357 57749 62349 88018 20160
32731 14203 36222 13436 16935 26412 09878 27931 54679 35275
04037 48341 95595 26036 57521 16245 71204 44232 09527 49083
75807 89169 30622 23911 73689 50718 33796 30145 97763 75437
93509 65893 82351 54938 26829 04823 71697 46159 43465 99159
93528 38008 53069 29029 36617 09019 95758 52955 75018 83253
10603 93078 11673 36373 71957 89710 15378 52022 57934 86236
99155 30214 58351 16606 08569 19665 22531 58753 22759 90501
97268 87653 40124 51615 27365 26827 70255 23368 78952 05514
93564 66965 91850 25093 53517 39997 17521 54074 76743 11610
06959 27612 66188 19351 17367 84340 00247 49881 01997 33756
13172 61241 53558 59919 15082 75692 41138 22677 55844 70034
03690 57173 38889 03032 69496 42566 23096 43416 78732 12420
38005 70085 74744 32644 88440 12489 39538 64712 92792 51310
28758 45596 59049 79799 68763 49827 52854 76334 99237 11388
84260 58136 31250 88953 04929 06903 21175 42463 15227 15205
77800 77252 68397 37935 53941 59771 92875 37004 57044 18210
99505 24764 22807 54083 90303 43362 71223 96233 88058 03268
53803 68932 38510 87838 68543 73671 57403 50077 63351 55781
68379 47885 33501 10666 74222 81999 16699 51745 84672 11640
30033 45809 69655 31679 56931 40579 53867 22586 00794 67305
73888 69685 91050 60898 06171 01165 04192 03700 27979 76516
50935 51867 76172 52543 38383 43396 67775 68868 15571 78654
04689 09839 31801 18560 21328 87664 08203 82426 23946 82792
65860 84568 88383 49927 52267 63736 01964 86914 14949 55467
Fuente: Robert Mason y Douglas Lind.- Estadística para administración y Economía.- Edición 10°.- Año
2001.-
información complementaria 2
ESTADÍSTICA II
Módulo III
DISEÑO Plan
significa
Diseño de muestreo
Plan de Muestreo:
Pasos
Delimitación de Elección del Determinación
la población marco de del tamaño
objetivo muestreo muestral
Definir los
procedimientos
de estimación
Muestreos Probabilísticos
Aleatorio
Simple
Sistemático
Por
Estratificado
Conglomerados
A propósito
Por
Conveniencia
Bola de De Juicio o
Nieve Criterio
a) Elección de uno o varios elementos para el inicio del “levantamiento”. Este punto es crucial
y ahí se define directa o indirectamente la composición final de la muestra.
Bola de b) A cada uno de los elementos encuestados o entrevistados se le pide referencia de otro
Nieve o elemento que cumpla con las características. Esas referencias son los siguientes integrantes
de la muestra.
Selección por c) Se sigue agregando referentes hasta cuando se considera que un nuevo referente no
redes aporta nada diferente.
Por tanto la composición de la muestra se conocerá al final.
Problemas de no respuesta
La falta de respuesta puede ser un serio problema.
Algunos integrantes de la muestra se Significa, desde luego, que el tamaño de la muestra
convierten en individuos que no responden tiene que ser lo suficientemente grande para dar
porque: espacio a la “no respuesta”. Si se necesita un tamaño
Se rehusan a contestar; muestral de 100 y sólo se espera que responda el
Falta de capacidad para contestar; 50%, entonces se necesitarán identificar a 200
No están en casa o personas como miembros posibles de la muestra.
Son inaccesibles. Segundo y más serio, es la posibilidad de que aquellos
que respondan difieran de los que no responden de
una forma significativa, creando de este modo sesgos
de los resultados.
Pasos …
Tamaño Muestral
Z2 2 Z2 PQ
n n
e2 e2
N n0
n
N 1 n0
Prueba de
Estimación
Hipótesis
Para una
Puntual
población
Para tres o
más
poblaciones
Estimación
Se abre un Intervalo de Confianza que con cierta probabilidad
contiene al valor del parámetro.
Por
Intervalos
Estructura del Intervalo de Confianza:
𝑰𝑰𝑰𝑰 = 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 ± 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆
Pruebas de Hipótesis
Error Tipo I
Bilaterales (Rechazar la
Hipótesis Nula
cuando es Verdadera)
• Comparar le estadístico observado con el valor crítico. Ver en qué zona cae (si de
6to. rechazo o no de la H0).
• Toma de decisión.
7mo. • Conclusión.
Situación
H0 Cierta H0 Falsa
No Rechazar H0 Decisión Decisión
Correcta Incorrecta
(Error Tipo II)
Decisión
Éxitos!!!
m3 material
Material básico
Material complementario
m3 | actividad 1
De muestreo se trata
Hoy fue un largo día, estudiando a la mañana y dando clases en el club hasta recién.
A usted le pareció muy buena la idea y, además, está muy contento puesto que
ve los frutos de su esfuerzo y además comprueba que la estadística es una cien-
cia aplicada, ¡¡qué cierto era lo que nos decía la profesora cuando nos presentó
la materia!! – piensa-
Usted sabe que esta tarea necesita de la estadística y por supuesto deberá
apelar al muestreo.
A los pocos días usted cuenta con una base de datos IC 1 que había armado
su amigo y que le va a servir para el marco muestral y seleccionar una muestra
para mandarle información de las actividades y promociones que lanzará el club.
C 1
m3 |actividad 1 | IC
información complementaria
asistente académico
La base de datos que le envía su amigo le sirve de marco muestral para selec-
cionar una muestra.
Dado que la base tiene información sobre una variable relevante (la práctica de
actividad física) se le sugiere que segmente la base según esa variable y luego
seleccione una muestra aleatoria simple, para ello recuerde que puede hacer
uso de la tabla de números aleatorios que se encuentra en este módulo.
m3 |actividad 1 | CC
clave de corrección
Recuerde que primero tiene que estratificar la base en quienes practican y quienes
no practican actividad física y podrá utilizar una afijación proporcional, por ejemplo.
Usted sugiere trabajar con un nivel de confianza del 90% y un error muestral del 3%.
¡Éxitos!
asistente académico
Para resolver este caso y calcular el tamaño de muestra le recomiendo revisar las fór-
mulas estadísticas para la determinación del tamaño muestral vistas en este módulo.
Tenga presente que para elegir la fórmula correcta debe identificar primero el
parámetro poblacional que se va a estimar; en este caso es la proporción pobla-
cional de personas usuarias de Internet que están dispuestas a concurrir al club.
Para esta ocasión se cuenta con información que puede tomarse como refe-
rencia en el cálculo, es decir se puede usar como parámetro poblacional en la
fórmula, el 40% de otro estudio que sirve a estos fines.
m3 |actividad 2 | CC
clave de corrección
Con los datos proporcionados para este caso la fórmula a utilizar en el tamaño
mínimo de muestra es:
𝑍𝑍 2 × 𝑃𝑃 × 𝑄𝑄
𝑛𝑛 =
𝑒𝑒 2
Le sugiero que prevea poder calcular otros tamaños alternativos de muestra igual-
mente representativos, que pueden determinarse cambiando los factores que
influyen en el cálculo, como por ejemplo en el error muestral o el nivel de confianza.
e v a l uac ión