Estadistica 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 119

E - II - E stad ístic a II

EDUBP | LEF | segundo cuatrimestre

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 1


í n dic e

g presentación 3

g macroobjetivos 5

g programa 5
contenido módulos

g mapa conceptual 7

g agenda 8

g material 9
material básico
material complementario

g glosario 9

g módulos *
m1 | 12
m2 | 41
m3 | 83

* cada módulo contiene:


microobjetivos
contenidos
actividades
glosario
material

g evaluación 119

impresión total del documento 119 páginas !

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 2


presentación

¡Bienvenido a Estadística II de la Licenciatura en Educación Física!

Continuemos con el recorrido que comenzamos en Estadística I.


Pero antes de comenzar lo invito a ver el siguiente video

Podrá visualizar el video presentación desde su plataforma

Usted está familiarizado con la asignatura y ahora lo invito a seguir descubriendo


y aprendiendo el fascinante mundo que le abre esta disciplina.
Estoy convencida que a esta altura dejó atrás el fantasma que asociaba esta
materia a la matemática, ¿verdad? Ya comprendió que esta ciencia es aplicada y
fue encontrando a lo largo del cursado, la utilidad para el campo de la actividad
física y el deporte.

Le propongo entonces continuar este camino que le redundará en muchos ben-


eficios para su perfil profesional.

Los cambios vertiginosos en la sociedad de la tecnología y comunicación nos


obligan a una adaptación permanente por ello, nuestra capacidad en la toma de
decisiones inteligentes a través de un adecuado y eficaz manejo de los datos
que a diario nos rodean y en especial en el campo en el que nos compete a
cada uno y, la posibilidad de realizar predicciones basadas en dicha informa-
ción, juegan un rol fundamental.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 3


El papel que tiene la estadística en la investigación
resulta imposible desconocer. En toda área en la
que cualquiera se desenvuelva, los fenómenos son
multicausales y existe una diversidad de aspectos en
los que sólo se tiene un control relativo, frente a esto,
resulta útil un método que permita el manejo de esos
datos con un grado de incertidumbre. La estadística
le brinda una serie de herramientas para organizar la
información y para tomar decisiones acerca de ella.

El objetivo principal de esta segunda parte de la disciplina, es que se convierta


en consumidor inteligente de la información ya sea generada por otros o por
usted mismo.

La materia se estructura en tres módulos (con dos unidades cada uno) que con-
tienen temas que se vinculan a las dos ramas de la estadística, es decir la Esta-
dística Descriptiva y la Estadística Inferencial. Cabe señalar que los conceptos
básicos de la rama descriptiva de la estadística se vieron en Estadística I, es por
ello muy conveniente que usted recupere los esos contenidos, para que pueda
encarar adecuada y exitosamente el estudio de la presente.

En el módulo I, se presentará todo lo relativo al análisis


exploratorio de datos y al análisis conjunto de dos variables.
Estos temas continúan el análisis descriptivo de los datos.
El módulo II nos introduce a la probabilidad, cabe aclarar
que este tema es nexo entre las dos ramas de la estadística,
la descriptiva y la inferencial.

Es importante señalar que la probabilidad se abordará desde una perspectiva neta-


mente aplicada, para comprender los fenómenos en el campo de la incertidumbre.

En el módulo III se presentarán las técnicas de muestreo, este tema le permi-


tirá conocer acerca de las formas de seleccionar las muestras para luego hacer
inferencia de manera técnica y éticamente correcta y se presentarán los procedi-
mientos principales en la inferencia estadística.

Me detengo en recomendarle lo importante de realizar las actividades propuestas en


la materia, en ellas podrá apreciar la transferencia de los contenidos desarrollados a
situaciones reales con las que usted se puede enfrentar en el campo de la actividad
física y el deporte y en las que deberá apelar a los conocimientos en estadística.

Recuerde también que, además de los contenidos propios de la materia y la


bibliografía básica y complementaria, a usted se le irá indicando lecturas, videos,
links, que buscan tanto el mayor aprovechamiento de los contenidos desarrolla-
dos como abordar con éxito los procesos de enseñanza y de aprendizaje.

¡Comencemos!

“La mente que se abre a una nueva idea


jamás volverá a su tamaño original”.

Albert Einstein

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 4


m a c r o o b j e t ivos

• Distinguir los aspectos principales del análisis exploratorio de datos, para


la detección de errores o de valores atípicos en la recolección y análisis de
datos en la actividad profesional.

• Comprender la asociación entre variables, a fin de medir la relación y el


grado de asociación de dos variables de interés (cuantitativas o cualitativas)
en la educación física y el deporte.

• Conocer y comprender los fundamentos básicos de probabilidad a fin de


desarrollar las habilidades para el cálculo de probabilidades de eventos apli-
cados al ámbito de la educación física.

• Identificar y manejar los distintos tipos de muestreos para poder hacer una
selección adecuada de unidades de análisis (muestras) según la investiga-
ción o trabajo de campo a realizar en la disciplina.

• Aplicar la terminología específica y los conceptos básicos de Inferencia


Estadística a situaciones reales del campo profesional que impliquen la
toma de decisión.

p r o g ram a

Módulo 1 - Análisis Exploratorio y análisis bivariado

Unidad 1: Análisis Exploratorio de Datos (AED)

Características importantes de los datos. Análisis exploratorio de los datos, téc-


nicas: Diagrama de tallo y hojas; Diagrama de caja; Regla empírica. Ejercicios
de aplicación. Casos.

Unidad 2: Análisis bivariado

Análisis de variables cuantitativas: medidas resumen entre dos variables cuanti-


tativas. Covarianza. Coeficiente de correlación. Ejemplos de aplicación. Casos.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 5


Análisis de variables cualitativas: tablas cruzadas, porcentajes por fila, por
columna y por el total. Coeficientes de asociación entre dos variables cualitati-
vas. Ejemplos de aplicación. Casos.

Módulo 2 - Probabilidad básica y distribución Normal

Unidad 1: Probabilidad básica

Introducción a la probabilidad. Concepto de probabilidad. Espacios muestrales.


Identificación de experimentos determinísticos y probabilísticos. Concepto de
evento. Teorías para el cálculo de probabilidades. Distinción entre los distintos tipos
de eventos y resultados de un experimento. Tablas de contingencia y probabilidad
conjunta. Independencia probabilística. Ejemplos y ejercicios de aplicación.

Unidad 2: Distribución de probabilidad Normal

Distribución de probabilidad Normal: concepto e importancia de su conocimiento


y uso. Ejemplos de aplicación.

Módulo 3 - Muestreo e Introducción a la Inferencia Estadística

Unidad 1: Muestreo

Nociones generales. Muestreo y tipos de muestreo. Diseño de muestreo. Méto-


dos de muestreo: Probabilístico y no probabilístico, ventajas y desventajas y
alcance de cada muestreo. Determinación del tamaño de la muestra. Selección
de muestras. Aplicaciones. Casos.

Unidad 2: Introducción a la estadística inferencial

Introducción a la inferencia estadística. Estimación y prueba de hipótesis. Con-


ceptos generales. Aplicaciones prácticas e importancia en la actividad física y el
deporte. Estudio de casos.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 6


m a p a c o nc e p t u al

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 7


a ge n da

El vertiginoso ritmo de vida actual nos encuen-


tra a todos con muchas responsabilidades y
múltiples actividades. Usted ya ha cursado
algunas materias de esta carrera y se ha ido
familiarizando con la modalidad a distancia y
ha comprendido la importancia de planificar
sus tiempos de estudio y compatibilizarlos
con el resto de las actividades cotidianas.

Como ya habíamos expresado en Estadística


I, los procesos de enseñanza y de aprendi-
zaje son diferentes para cada sujeto y cierto
es que, dichos procesos implican leer el
material básico y complementario, realizar
las actividades, comprender y aprender los
distintos temas, es por ello, que se hace
indispensable una organización adecuada
de los tiempos de estudio.

Las siguientes tablas presentan los módulos de la asignatura y la distribución de


los tiempos estimados, en porcentaje y por semanas.

MÓDULO % DE TIEMPO ESTIMADO


I 20%
II 45%
III 35%
Total 100%

SEMANA MÓDULOS
I II III
1
2
3
4
5
6
7
8 1ra. Etapa de Evaluación Integradora
9
10
11
12
13
14
15 2da. Etapa de
Evaluación
Integradora

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 8


m a te rial

Material básico

• TRIOLA, Mario F. Estadística. México, Pearson, 10ma. ed., 2009.

Material complementario

• ELORZA PÉREZ – TEJADA, Haroldo. Estadística para las ciencias sociales,


del comportamiento y de la salud. México, CENGAGE Learning, 3ra.ed., 2008.

• LEVINE, David, M. et al. Estadística para administración, México, Pearson


Educación, 4ta ed., 2006.

g l osario

Análisis bivariado: Análisis estadístico de


dos variables cualitativas o cuantitativas.

Análisis estadístico: Se emplea para resumir


e interpretar datos con la finalidad de obtener
información útil en la toma de decisión.

Análisis Exploratorio de Datos (AED): Técni-


cas que permiten un análisis de los datos para
explorar distintos aspectos de ellos, previo al
procesamiento estadístico definitivo.

Censo: Estudio que abarca a las variables en toda una población a un momento
determinado.

Coeficiente de asociación: Medida que mide el grado de asociación entre dos


variables cualitativas.

Coeficiente de correlación lineal: Medida de intensidad o grado de relación


lineal entre dos variables cuantitativas.

Covarianza: Medida de variabilidad conjunta. Permite determinar la relación


entre dos variables cuantitativas.

Cuartiles: Los percentiles 25%, 50% y 75% se llaman primer cuartil, segundo
cuartil (mediana) y tercer cuartil, respectivamente. Se pueden usar los cuartiles
para dividir el conjunto de datos en cuatro partes, cada una de las cuales con-
tiene aproximadamente el 25% de los datos.

Diagrama de caja y brazos: Técnica de AED que permite analizar la forma de


una distribución de frecuencias y permite la detección de valores atípicos o
extremos en dicha distribución.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 9


Diagrama de dispersión: Método gráfico para mostrar la relación entre dos
variables cuantitativas. Una variable se representa sobre el eje horizontal y la
otra sobre el eje vertical.

Diagrama de tallo y hoja: Técnica de AED que proporciona una representación


visual de la distribución de la variable. Cada dato se divide en dos partes, el tallo
y la hoja.

Distribución Normal: Distribución de probabilidad de variables aleatorias conti-


nuas con forma de campana y simétrica respecto de su media.

Error de muestreo: Variación debida al azar entre muestras elegidas de una


población.

Error Tipo I: Probabilidad de rechazar la hipótesis nula cuando es cierta.

Error Tipo II: Probabilidad de no rechazar la hipótesis nula cuando es falsa.

Espacio probabilístico: Conjunto de todos los resultados posibles de un expe-


rimento aleatorio.

Estadístico: Medida resumen calculada a partir de los datos muestrales.

Estimación por intervalos: Véase Intervalo de confianza.

Estimación puntual: Procedimiento de estimación estadística en el que se usa a


un valor individual (estimador) para inferir sobre un parámetro poblacional.

Evento: Cada uno de los resultados posibles de un experimento probabilístico


o aleatorio.

Eventos mutuamente excluyentes: Eventos que no pueden suceder simultá-


neamente.

Hipótesis Alternativa: Declaración que equivale a la negación de la hipótesis nula.

Hipótesis Nula: Aseveración hecha acerca de alguna característica o parámetro


de la población, que por lo general implica el caso de que no hay diferencias.

Hipótesis: Afirmación comprobable derivada lógicamente de la teoría o de la


observación, puede confirmarse (no rechazarse) o rechazarse. Se somete a
comprobación.

Inferencia: Proceso estadístico de extraer conclusiones respecto de la pobla-


ción a partir de los datos de una muestra.

Intervalo de confianza: Límites de dos valores, mínimo y máximo, entre los


cuales se considera que un parámetro poblacional está incluido con cierta con-
fianza o probabilidad.

Marco de muestreo: Lista de todos o casi todos los elementos de la población


de la que se selecciona la muestra.

Medidas de asociación: Herramientas estadísticas que permiten analizar e


interpretar la relación entre dos variables.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 10


Muestra: Subconjunto de una población objeto de estudio.

Muestra no probabilística: Aquellas muestras en las que no se conoce la pro-


babilidad de inclusión de los elementos y no se conoce el error de muestreo con
el que se trabaja.

Muestra probabilística: Muestra extraída de una población, de tal forma que


puede estimarse la probabilidad de inclusión de las unidades y en la que es
conocido el error de muestreo.

Nivel de confianza: Probabilidad estimada de que un parámetro de la población


esté dentro de un intervalo de confianza dado.

Nivel de significancia o significación: Probabilidad de cometer un error Tipo I


al realizar una prueba de hipótesis.

Parámetro: Medida descriptiva calculada a partir de los datos poblacionales.

Población: El conjunto de todos los elementos de interés en determinado estudio.

Probabilidad: Medida de qué tan posible es que ocurra un suceso dado; se


expresa como un número entre 0 y 1, inclusive.

Probabilidad condicional: Probabilidad de un suceso, dado que algún otro


evento ya ocurrió.

Prueba de hipótesis: Método para probar afirmaciones hechas acerca de una


o más poblaciones.

Rango intercuartílico: Diferencia o distancia entre el tercer y el primer cuartil.

Regla empírica: Regla que establece los porcentajes de elementos que están
dentro de una, dos y tres desviaciones estándar de distancia del promedio, para
distribuciones con forma de campana.

Resumen de cinco datos: Técnica del AED que consiste en analizar los valores
mínimo y máximo y los cuartiles en un conjunto de datos.

Tabla cruzada: Tabla de doble entrada, presenta y relaciona dos variables.

Tabla de contingencia: Presentación de los datos clasificados según las cate-


gorías de dos variables.

Tabla de números aleatorios: Tabla que contiene centenares de dígitos (de 0


a 9) dispuestos de tal manera que cada uno tenga la misma probabilidad de
ir después de cualquier otro, se usa para seleccionar muestras por el método
aleatorio simple.

Tabla de probabilidad conjunta: Presentación de los datos clasificados según


las categorías de dos variables que contiene las probabilidades marginales y
conjuntas de los eventos que se presentan en la tabla.

Teoría probabilística: Teoría que indica cómo calcular una probabilidad.

Valor atípico: Valor de un dato demasiado pequeño o demasiado grande.

Variable aleatoria: Variable cuyos valores surgen de un experimento aleatorio.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 11


m ó d u los

m1

m1 microobjetivos

• Entender la importancia del análisis exploratorio de datos, como complemen-


tario del análisis estadístico con medidas descriptivas vistas en el módulo 3
de Estadística I, a fin de sacar conclusiones integrales sobre los datos.

• Medir la relación y el grado de asociación de dos variables cuantitativas y/o


cualitativas de interés, vinculadas con la actividad física y el deporte para
poder concluir sobre el comportamiento de esas variables.

• Comprender utilidad del AED y el de asociación/correlación en la toma de


decisiones en el ámbito del deporte y la actividad física permitiendo reducir
el riesgo de un accionar incorrecto.

m1 contenidos

Sigamos transitando…

Ya nos conocemos… y usted, en este


punto del camino, está familiarizado
con la estadística. Lo invito a ver el
video de presentación del módulo.
Descubrirá nuevos temas y herramien-
tas que podrá aplicar y utilizar en su
actividad. Por ello, ahora los invitamos
a ver el siguiente video de la docente.

Podrá visualizar el video presentación desde su plataforma

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 12


Características importantes de los datos

La estadística descriptiva, que se abordó en la asignatura Estadística I nos pro-


porciona herramientas para entender mejor un conjunto de datos conociendo
sus características. Las siguientes tres características son muy importantes y
prestarles atención contribuye a aumentar el entendimiento sobre los conjuntos
de datos, de las distintas variables en estudio.

• La forma de distribución de datos; por ejemplo, con forma de campana, uni-


forme o asimétrica.
• Un valor representativo para el conjunto de datos, por ejemplo, el promedio.
• Una medida de variación o dispersión del conjunto de datos, por ejemplo, la
desviación estándar.

Estos tres aspectos de los datos usted los estudió en el módulo 3 de


Estadística I, ¿Recuerda los tres grupos de medidas … de posición, de dis-
persión, de forma?

En Estadística I, usted aprendió a organizar, presentar y resumir los datos de


manera adecuada a través de tablas, de gráficos y de medidas descriptivas.
En este módulo se presentan métodos estadísticos para explorar conjuntos
de datos y analizar la relación/asociación de dos variables.

Análisis Exploratorio de Datos (AED)

A veces recolectamos datos sobre determinada variable con un objetivo espe-


cífico, por ejemplo, velocidad (en segundos) en correr 100 metros; estatura (en
cm) de los alumnos de los últimos años en una determinada institución educa-
tiva, etc., etc. Pero en otras ocasiones simplemente queremos explorar los datos
para ver qué nos dicen.

Al organizar y luego presentar los datos a través de distribuciones de frecuencias


por intervalos y de histogramas, se pierde parte de la información, perdemos
el dato puntual ya que por ejemplo decimos: “En el intervalo 5 a 10 minutos se
encuentra el 5% de estudiantes para realizar una determinada prueba”, pero per-
demos la individualización del dato. El espíritu del análisis exploratorio de datos
(AED) es no limitarnos a mirar un histograma; debemos explorar...

Muchas veces errores en la introducción de los datos en una base puede llevar-
nos a la construcción de gráficas incorrectas y si no se exploran más a fondo
los datos, se podría arribar a conclusiones muy equivocadas con sólo observar
un histograma, por ejemplo y por supuesto se arrastraría errores al calcular las
medidas descriptivas.

Con el AED se pone énfasis en las exploraciones originales con el objetivo de


simplificar la forma en que se describen los datos y entender mejor la naturaleza
de los mismos.

Algunos métodos en la exploración de datos los desarrollaremos a continuación.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 13


• Diagrama de tallo y hoja

Esta gráfica es una de las técnicas más sencillas del análisis exploratorio; pro-
porciona el orden de clasificación de los elementos del conjunto de datos y la
forma de la distribución.

El siguiente conjunto de datos corresponde a los tiempos (en segundos) de 25


jugadores de fútbol para realizar una prueba de velocidad, ejemplo propio de su
área de desempeño profesional.

10.6 8.1 10.2 10.0 9.4


9.6 7.8 9.3 8.2 11.0
10.8 9.6 7.5 8.2 9.9
7.7 9.6 10.6 10.1 8.4
8.3 9.6 10.1 10.4 10.6

Tabla 1: Conjunto de datos de 25 jugadores de fútbol.

Veamos entonces cómo se procede en la construcción de esta gráfica.

Se hace una lista vertical de los tallos (los primeros dígitos o bien en este caso
la parte entera de los elementos de los datos), como sigue:

7
8
9
10
11

Después se dibuja una línea vertical a la derecha de los tallos y se listan las hojas
(el siguiente dígito o en este caso la parte decimal de cada valor, para cada tallo) a
la derecha de la línea en el orden en que aparecen en el conjunto de datos original.

Figura 1: Diagrama de Tallo y Hoja

Luego se ordenan todas las hojas en cada renglón en orden de clasificación.

Figura 2: Diagrama de Tallo y Hoja ordenado

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 14


Cada renglón en la gráfica corresponde a un tallo con sus correspondientes hojas;
de esta manera a partir de este diagrama es posible reconstruir todos y cada uno
de los valores originales de la variable estudiada, entonces se mantienen los datos
de origen, no se pierde información como podría ocurrir con una tabla de frecuen-
cias en la que un determinado intervalo condensa varios valores de la variable.

Si se gira la página en 90º en sentido contrario a las agujas del reloj, se obtiene
una figura que se asemeja al histograma, haciendo la salvedad que aquí con este
diagrama de tallo y hoja se mantienen todos los valores originales, tal como se
expresó y esto se convierte en una de las ventajas que presenta este diagrama
en la exploración de los datos.

Con este diagrama además es posible tener una idea de la forma que adoptan
los datos, detectar el valor de la variable, el mínimo, el máximo y el más fre-
cuente. En nuestro ejemplo el tiempo en segundos que más se presenta es 9,6
ya que 4 jugadores hicieron ese tiempo.

• Resumen de cinco números

En esta técnica descriptiva se utilizan cinco valores para describir a un conjunto


de datos, ellos son:

• Valor mínimo
• Primer cuartil
• Mediana
• Tercer cuartil
• Valor máximo

Como puede apreciar estos conceptos ya son conocidos por usted, en el módulo
3, de Estadística I, se presentaron las medidas de tendencia central y no central
que se podían calcular a los conjuntos de datos.

La manera más fácil de elaborar este resumen de datos es poner los mismos en
orden ascendente.

Veamos un ejemplo: Supongamos que Ud. cuenta con la información relativa a


17 de sus alumnos varones los cuales realizaron una carrera de 6 minutos. La
prueba consistía en recorrer la mayor distancia (en metros) posible en 6 minutos.
Los datos relevados fueron los siguientes:

525 570 610 550 612 630 633 510 510


570 600 614 600 320 615 632 640

Tabla 2: Conjunto de datos de 17 estudiantes

Como expresamos, lo primero que debemos hacer es ordenar los datos:

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 15


Recordemos que los cuartiles fueron estudiados en el módulo 3 de Estadís-
tica I; por lo que lo remito a revisarlo, de ser necesario.

Para nuestro ejemplo el resumen de cinco números es:

• Valor mínimo: 320 m


• Primer cuartil: 537,50 m
• Mediana: 600 m
• Tercer cuartil: 622,50 m
• Valor máximo: 640 m

A la interpretación de los cuartiles, podemos ahora agregar los valores mínimos


y máximo de la variable.

• Diagrama de caja

Este diagrama es útil para revelar la tendencia central, la dispersión, la forma de


la distribución de los datos y la presencia de valores distantes.

La base de la construcción de este diagrama es el cálculo de los tres cuartiles


(primero, segundo, coincidente con la mediana y tercero). También se utiliza el
rango intercuartílico (diferencia entre el tercer y el primer cuartil).

Vamos a construir este diagrama con los datos del ejemplo precedente, la dis-
tancia recorrida por sus 17 alumnos en la prueba de 6 minutos.

Los pasos para trazar este diagrama son los siguientes:

1.- Se traza un rectángulo (caja) con los extremos en el primer y el tercer cuartil.
Este rectángulo contiene al 50% central de las observaciones. En nuestro caso
esos extremos de la caja serán, 537,50 m (1er.Cuartil) y 622,50 m (3er.Cuartil).
Esta caja contendrá el 50% central de los datos.

2.- En el interior de la caja se traza una línea vertical en el lugar de la mediana.


En el ejemplo que venimos presentando es 600 m (2do Cuartil).

3.- Se indican en el gráfico los límites. Los límites se encuentran a 1,5 veces el
rango intercuartílico por debajo del primer cuartil y 1,5 veces el rango intercuar-
tílico por encima del tercer cuartil. En nuestro ejemplo los límites son: 410 m.
(límite inferior) y 750 m (límite superior).

4.- Se trazan los brazos (o bigotes) mediante líneas punteadas (o bien línea entera)
que van desde los bordes de la caja (cuartil primero y tercero) hasta el valor mínimo
y máximo del conjunto de datos, respectivamente, dentro de los límites calculados.
En nuestro caso los brazos terminan en los valores de 410 m y 640 m

5.- Finalmente, se marca con un asterisco (*) la ubicación de los valores atípicos.
En el caso planteado se presenta un valor atípico, correspondiente a los 320 m

En el ejemplo presentado se observa un valor inusitado o atípico, la medición de


320 m que se aleja demasiado de las restantes mediciones; además se puede

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 16


concluir que el 75% de las mediciones en metros recorridos en 6 minutos se pre-
sentan concentrados a la derecha de los 537,50 m (1er.cuartil).

La siguiente figura muestra el diagrama de caja y brazos para los datos del caso
planteado.

Figura 3: Diagrama de Caja y Brazos

• Regla empírica

En los conjuntos simétricos una parte considerable de los datos tiende a con-
centrarse en torno al valor de la media. Ya se vio que podemos determinar la asi-
metría de la distribución comparando tanto media y mediana (recuerde revisar el
módulo 3 de Estadística I), como del AED mediante el diagrama de caja y brazos.
Cuando no existe un sesgo extremo y se observa una alta concentración de los
datos en torno de las medidas de tendencia central (media y mediana) es posible
utilizar la llamada regla empírica para examinar la propiedad de variabilidad de
los datos y adquirir una idea más clara de lo que mide la desviación estándar.

La regla empírica establece que para un conjunto de datos simétrico o prácti-


camente simétrico, aproximadamente dos de cada tres observaciones (es decir
el 68%) se encuentra adentro de una distancia de una desviación estándar con
respecto de la media, y entre el 90 y el 95% de las observaciones se encuentran
a una distancia de dos desviaciones estándar alrededor de la media.

Por lo tanto, la desviación estándar, como medida del promedio de variación alre-
dedor de la media aritmética, nos ayuda a comprender la distribución de las obser-
vaciones arriba o debajo de la media y detectar observaciones inusitadas o poco
usuales (valores atípicos), cuando analizamos un conjunto de datos cuantitativos.

Supongamos que se cuenta con los tiempos en minutos para recorrer 2400
metros, a fin de valorar el grado de entrenamiento de 50 atletas. Los valores de
la variable en estudio se presentan a continuación.

10,30 13,00 13,00 8,00 11,10 11,60 10,00 12,50 9,30 10,50
11,10 6,70 11,20 11,80 10,20 15,10 12,90 9,30 11,50 7,60
9,60 11,00 7,30 8,70 11,10 12,50 9,20 10,40 10,70 10,10
9,00 8,40 5,30 10,60 9,90 6,50 10,00 12,70 11,60 8,90
14,50 10,30 12,50 9,50 9,80 7,50 12,80 10,50 7,80 8,60
Tabla 3: conjunto de datos para los 50 atletas.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 17


En este ejemplo los 50 atletas constituyen la población de atletas de la provincia
en el último año; por lo tanto, los datos son poblacionales.

Si a este conjunto de tiempos se les calcula las medidas descriptivas se llega a


los siguientes valores:
𝜇𝜇 = 10,28 𝑚𝑚𝑚𝑚𝑚𝑚.
𝑀𝑀𝑒𝑒(𝑥𝑥) = 10,30 𝑚𝑚𝑚𝑚𝑚𝑚.

𝜎𝜎 = 2,045 𝑚𝑚𝑚𝑚𝑚𝑚.

Es posible concluir, del análisis estadístico descriptivo, que la distribución de los


tiempos de los atletas es prácticamente simétrica (la media y la mediana son casi
iguales), entonces es factible aplicar la regla empírica.

Si nos fijamos en los datos presentados es posible advertir que 32 de los tiem-
pos (aproximadamente el 64%) se encuentran entre μ ± σ (es decir, entre los
8,24 y los 12,33 minutos), en tanto que 47 tiempos (alrededor del 94%) se hallan
a μ ± 2σ (es decir, entre 6,19 y 14,37 minutos).

Asociación entre dos variables

• Dos variables cuantitativas

Con frecuencia a quien toma decisiones le interesa la relación entre dos varia-
bles. Seguramente usted, como profesor de Educación Física, en más de una
oportunidad tuvo que relacionar variables cuantitativas.

A continuación, veremos herramientas estadísticas que permiten interpretar este


tipo de relación.

Supongamos que usted posee los datos de un test de fuerza y los datos de un
test de velocidad referidos a 10 alumnos y le interesa averiguar el grado de rela-
ción que existe entre estas dos variables (fuerza y velocidad).

La tabla siguiente presenta los pares de datos para los 10 alumnos.

Fuerza Velocidad
60 120
67 127
74 140
83 166
58 119
85 170
71 137
69 130
77 150
80 166

Tabla 4: Datos de fuerza y velocidad de 10 alumnos

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 18


El primer paso para investigar si existe o no relación entre estas variables, con-
siste en graficar un diagrama de dispersión o nube de puntos, tal como se mues-
tra en la figura siguiente.

Figura 4: Diagrama de dispersión

Al observar la nube de puntos o diagrama de dispersión se aprecia una relación


en sentido positivo entre las dos variables. Vamos a calcular a continuación una
medida descriptiva que refleje lo que se observa en el gráfico.

- Covarianza

En el caso de que se desee lograr una medida de variabilidad conjunta de dos


variables cuantitativas, la covarianza es una medida que nos permite analizar si
existe relación entre las variables en estudio, es una medida (absoluta) de aso-
ciación entre dos variables.

La covarianza de una muestra de pares de datos se calcula de la siguiente manera:


Sumatoria del producto de las diferencias entre los valores de una variable
respecto de su media y la diferencia de los valores de la otra variable respecto
de su media; dividido por el tamaño de la muestra menos uno. 1

∑(𝑥𝑥 − 𝑥𝑥̅ ) (𝑦𝑦 − 𝑦𝑦�)


𝐶𝐶𝐶𝐶𝐶𝐶 (𝑥𝑥; 𝑦𝑦) =
𝑛𝑛 − 1

En la tabla de los datos a cada valor de la variable fuerza le corresponde un valor


de la variable velocidad, aplicaremos la fórmula para calcular la covarianza a
este conjunto de datos.

Con los datos de las dos variables calculamos la media aritmética tanto para la
variable fuerza como para la variable velocidad, dichas medias resultan ser:

Media aritmética de la fuerza:


𝑥𝑥̅ = 72,40 𝑐𝑐𝑐𝑐

1 Cabe aclarar que, si en lugar de trabajar con una muestra de pares de datos se trabaja con
la población, es decir con el total de parejas de datos para las variables de interés; en la fórmula de la
covarianza, la suma de los productos se debe dividir por N (tamaño de la población), en lugar de n-1.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 19


Media aritmética de la velocidad:

𝑦𝑦� = 142,50 𝑚𝑚

En el archivo Excel que se acompaña Ejemplos desarrollados mod1 IC 1


encontrará el paso a paso para el cálculo de la covarianza.

Aplicando la fórmula de la covarianza, esta resulta ser:

𝐶𝐶𝐶𝐶𝐶𝐶 (𝑥𝑥; 𝑦𝑦) = 172,89

Analizando el valor obtenido para la covarianza, podemos concluir que el valor


distinto de cero indica que hay asociación lineal entre las variables. En este caso
un valor positivo de la covarianza está indicando una relación directa o positiva,
es decir a medida que una variable crece también lo hace la otra, en este caso a
medida que aumenta la fuerza aumenta la velocidad.

Para el caso en que la covarianza asuma un valor negativo, ello estaría indicando
una relación inversa o negativa entre las variables, es decir a medida que aumen-
tan los valores de una, disminuyen los valores de la otra y viceversa.

Cuando la covarianza es igual a cero está indicando que las variables no se


encuentran asociadas linealmente.

- Coeficiente de correlación

En la covarianza se presenta el problema de la magnitud en que están expresa-


das las variables ya que es una medida absoluta de variabilidad conjunta y se ve
afectada por la unidad en que estén expresadas las variables a relacionar. Este
inconveniente se subsana calculando una medida relativa de variación conjunta
que se llama coeficiente de correlación, la fórmula para su cálculo es la siguiente:

𝐶𝐶𝐶𝐶𝐶𝐶 (𝑥𝑥; 𝑦𝑦)


𝑟𝑟 =
𝑠𝑠𝑥𝑥 × 𝑠𝑠𝑦𝑦
El coeficiente de correlación (r) permite medir la intensidad en la asociación
lineal de las variables, su valor varía de –1 a 1. Valores de r próximos a –1 ó a 1
indican un alto grado de relación lineal entre las variables, en tanto que valores
cercanos a 0 están indicando ausencia de relación lineal entre las variables, lo
cual no significa que no existe algún otro tipo de relación no lineal.

Entonces, con el coeficiente de correlación se puede analizar no sólo el sentido


en que se relacionan las variables, lo que viene dado por el signo positivo o
negativo del coeficiente, sino que también podemos medir el grado en que se
vinculan las variables ya que cuanto más cercano a 1 ó a -1 sea el coeficiente,
mejor y más fuerte es la asociación y cuanto más cercano a 0, más débil resulta
la relación entre las variables.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 20


Veamos qué sucede con nuestro ejemplo, calculemos el coeficiente de correl-
ación para las variables fuerza y velocidad.

Ya habíamos visualizado a través del diagrama de dispersión que existía una


relación positiva o directa entre las variables. Además, al calcular la covarianza
entre las variables habíamos llegado a un valor positivo, lo que confirmaba la
existencia de una relación lineal positiva entre dichas variables; calculemos
entonces el coeficiente de correlación.

Necesitamos las desviaciones estándar para cada variable:

Desviación Estándar de la fuerza:


𝑠𝑠𝑥𝑥 = 9,17 𝑐𝑐𝑐𝑐

Desviación Estándar de la velocidad:


𝑠𝑠𝑦𝑦 = 19,46 𝑚𝑚

Por lo tanto, el valor del coeficiente de correlación lineal es:

172,89
𝑟𝑟 = = 0,97
9,17 ×19,46

Ante este se puede concluir que existe una alta correlación lineal positiva entre
las variables, en otras palabras, la mayor fuerza de los individuos se asocia con
mayor velocidad y el grado en que se relacionan las dos variables, es fuerte. 2

Es importante tener en cuenta lo siguiente con respecto al coeficiente de


correlación:

• Evitar concluir que la correlación implica causalidad. Cuando se con-


cluye que existe una correlación entre dos variables, esto significa que
las dos variables están vinculadas linealmente de manera positiva o neg-
ativa, pero esto no significa que una variable sea la causa de la otra.
• La conclusión de que no existe correlación lineal no implica que entre las
dos variables no existe otro tipo de relación diferente a la lineal.
• Este coeficiente mide la fuerza de una asociación lineal entre dos vari-
ables cuantitativas.

• Dos variables cualitativas

En otras ocasiones puede interesar relacionar dos variables cualitativas, por


ejemplo, el nivel de rendimiento en una prueba física y el nivel del IMC de los
estudiantes, entre otros.

2 Si se está trabajando con los datos poblacionales, en la ecuación para calcular el coeficiente de
correlación se deberán tomar los valores de los parámetros, es decir la covarianza poblacional entre las dos
variables y se la dividirá por el producto de las desviaciones estándar poblacionales de las variables.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 21


Cuando se cruzan dos variables cualitativas se las presenta a través de una tabla de
doble entrada – recordar que este tema se vio en el módulo 2 de Estadística I-, en
dichas tablas cruzadas se presentan se cruzan dos variables y se muestran las can-
tidades totales (o marginales) para cada categoría de la variable y las cantidades de
intersección entre las categorías de una variable con las categorías de la otra.

Le presento un ejemplo de una investigación realizada hace unos años por un


grupo de profesores de educación física y estudiantes de nutrición. En esa opor-
tunidad se cruzaron dos variables por las que fueron consultadas un grupo de
adolescentes entre 12 y 18 años de edad, las preguntas que generaron las res-
puestas fueron: ¿Está conforme con su cuerpo? y la otra: ¿Le interesa la opinión
de los demás sobre su constitución física? Con los datos relevados se presentó
la información en la siguiente tabla de doble entrada.

Distribución de las adolescentes según la conformidad con su cuerpo


y lo que piensan los demás
Conformidad con el cuerpo
Sí está conforme No está conforme Totales
Cant. Cant.
Interés por la Sí le interesa 21 30 51
opinión de
los demás No le interesa 58 17 75
Totales 79 47 126
Tabla 5: Tabla de doble entrada

Esta tabla cruzada permite ver la distribución en término de las dos variables.

A partir de esta tabla es posible armar otras tablas cruzadas que contengan por-
centajes, tal como se presenta a continuación. Dependiendo el análisis que se
desee realizar convendrá calcular los porcentajes por columna, por fila o por el
total de casos.

Lo invito a que interprete los resultados presentados en las tablas que siguen.

Distribución de las adolescentes según la conformidad con su cuerpo


y lo que piensan los demás
Conformidad con el cuerpo
Sí está conforme No está conforme Totales
Cant. % Cant. %
Interés por la Sí le interesa 21 27% 30 64% 51
opinión de
los demás No le interesa 58 73% 17 36% 75
Totales 79 100% 47 100% 126
Tabla 6: Tabla cruzada con porcentajes por columna

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 22


Distribución de las adolescentes según la conformidad con su cuerpo
y lo que piensan los demás
Conformidad con el cuerpo
Sí No Totales
está conforme está conforme
Interés por la Sí le interesa Cant. 21 30 51
opinión de % 41% 59% 100%
los demás No le interesa Cant. 58 17 75
% 77% 23% 100%
Totales 79 47 126

Tabla 7: Tabla cruzada con porcentajes por fila

Distribución de las adolescentes según la conformidad con su cuerpo


y lo que piensan los demás
Conformidad con el cuerpo
Sí está conforme No está conforme Totales
Cant. % Cant. % Cant. %
Interés por la Sí le interesa 21 17% 30 24% 51 40%
opinión de
los demás No le interesa 58 46% 17 13% 75 60%
Totales 79 63% 47 37% 126 100%

Tabla 8: Tabla cruzada con porcentajes sobre el total

Del análisis de las tablas cruzadas precedentes es evidente que podemos hablar
de una tendencia, es decir, en este caso las adolescentes que no están con-
formes con su cuerpo son las que mayoritariamente manifiestan que sí les inte-
resa la mirada u opinión de los demás y viceversa.

Cuando las variables que se cruzan son nominales y con dos categorías cada
una, como en este caso, es posible determinar el agrado de asociación entre
ellas mediante un coeficiente, se trata del Coeficiente fi (Ф).

Lo invito a leer y ver en el archivo Excel que se acompaña Ejemplos desar-


rollados mod1 IC 1, cómo se obtiene (calcula) este coeficiente de aso-
ciación. Su lectura y compresión, le permitirá poder aplicar este coeficiente
a otras situaciones de su actividad profesional.

Para el ejemplo presentado el valor del coeficiente Ф es 0,37


Se puede concluir que teóricamente estas dos variables se asocian en un 37%.

En esta segunda parte de este módulo se ha presentado un análisis descriptivo


bivariado que puede resultar de mucha utilidad en el campo de la educación
física y el deporte, puesto que en muchas ocasiones usted tendrá que analizar
la vinculación entre dos variables cuantitativas o dos cualitativas, cuyos datos
pueda obtener de distintos test o pruebas con los que sean tratados los sujetos

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 23


en estudio y en función de las relaciones que resulten serán las decisiones que
seguramente impliquen acciones en su vida profesional y/o laboral.

Es recomendable leer sobre los temas de este módulo y otras cuestiones que le
serán de interés, en el material básico del autor Mario F. Triola, en capítulo referido
a “correlación”; como así también del texto complementario Haroldo Elorza Pérez
– Tejada, en el capítulo referido al análisis de datos categóricos, coeficiente fi.

A modo de cierre lo invitamos a ver el resumen de este primer módulo:

En la siguiente presentación resumen mod1 IC 2 usted encontrará los con-


ceptos principales sobre los que venimos trabajando y su lectura le servirá
para realizar una síntesis y prepararse para recorrer el siguiente módulo.

Podrá visualizar la presentación desde su plataforma

Le recomiendo que realice las actividades propuestas para este módulo, le


ayudará a consolidar todos los temas a través de situaciones prácticas de
su área profesional. Encontrará que las actividades cuentan con asistentes
académicos y clave de corrección que les serán de gran utilidad.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 24


m1 | contenidos | IC

información complementaria 1

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 25


EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 26
m1 | contenidos | IC

información complementaria 2

ESTADÍSTICA II

Módulo I

Profesora: Carla Carrizo Stauffer

Diagrama de Tallo y Hoja


Análisis
Exploratorio de
Datos (AED)
Resumen de cinco números

Técnicas
Diagrama de Caja y
Brazos

Regla Empírica

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 27


Diagrama En la construcción del diagrama de caja y brazos es posible la
detección de valores inusitados, es decir aquellos datos distantes,
de caja y en el sentido de que están muy alejados de la mayor parte de los
brazos datos.

(o Blox
Plot o Al explorar un conjunto de datos es necesario considerar aquellos
valores distantes ya que podrían revelar información importante o
Diagrama bien podría tratarse de errores en la medición o en la carga de los
de Caja y datos, lo que implicaría que se está trabajando con valores
erróneos que por supuesto deberían corregirse o eliminarse.
Bigotes)
Tanto el resumen de cinco números como el diagrama de caja y
brazos son útiles para hacer un análisis de la forma en que se
distribuye el conjunto de datos.

Análisis
Bivariado

Dos Dos
variables variables
cuantitativas cualitativas

Coeficiente de Tablas de Coeficientes


Diagrama de
Covarianza Correlación doble de
dispersión Lineal entrada Asociación

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 28


Asociación entre variables cuantitativas
50000 30 160
y

y
140
40000

20
120

30000

100
10

20000
80

10000 0 60
10 20 30 40 50 60 70 80 0 10 20 30 10 20 30 40 50 60 70 80

x x x

Relación positiva o Relación negativa o


Sin relación lineal
directa indirecta

En estos gráficos que se presentan tres diagramas de dispersión hipotéticos que muestran la
asociación entre dos variables cuantitativas, la covarianza resultante en cada caso será; en el primero
positiva, el segundo negativa y el último igual a cero o casi cero.

Covarianza
Relación positiva o directa
Positivo
Cero Relación negativa o indirecta

Cov x; y  =  x  x y  y 


n 1 Negativo Sin relación lineal

Coeficiente de correlación lineal

signo
Cov x; y 
Indica el sentido de la relación lineal

r=
sx  s y valor Indica el grado de la relación lineal

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 29


Asociación entre variables cualitativas
Tablas con porcentajes por columnas
Permiten un análisis de la variable que está en las filas
dentro de las categorías de la variable que está en las
columnas
doble entrada
Tablas de

Tablas con porcentajes por columnas


Permiten un análisis de la variable que está en las filas
dentro de las categorías de la variable que está en las
columnas

Tablas con porcentajes por columnas


Permiten un análisis de la variable que está en las filas
dentro de las categorías de la variable que está en las
columnas

y este es el primer paso …


Lo invito al segundo módulo!!!

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 30


m1 material

Material básico

• TRIOLA, Mario F. Estadística. México, Pearson, 10ma. ed., 2009.

Material complementario

• ELORZA PÉREZ – TEJADA, Haroldo. Estadística para las ciencias sociales,


del comportamiento y de la salud. México, CENGAGE Learning, 3ra.ed., 2008.

m1 actividades

m1 | actividad 1

Explorando los datos

¡¡Ya pasó un año desde que decidió con sus amigos – María y Augusto- empren-
der!!! Y el emprendimiento del club viene muy bien.

Qué rápido se pasó….... piensa usted ... “Quizás sea porque me encuentro muy
a gusto trabajando en lo que me agrada y estudiando la licenciatura, avan-
zando cada cuatrimestre en conocimientos tan útiles para mi profesión”.

Hoy lunes, cuando llegó al club, sede de entrenamiento y consultó su correo elec-
trónico, encontró uno su socia, María -la nutricionista-; que le planteaba lo siguiente:

“El viernes pasado a última hora te envié los datos recopilados de mis pacien-
tes que tienen problemas de sobrepeso y a los que necesito que, vos como
profesor de Educación Física les diseñes un plan con actividad física adecuada.

Lo urgente ahora, es que me ayudes con el procesamiento estadístico de estos


datos referidos al Índice de Masa Corporal (IMC). La idea es que analices y
explores estos datos para poder sacar conclusiones a partir de los ellos.

Te cuento que, este fin de semana, revisando la información que te remití,


constaté un error de tipeo en uno de esos valores, ya que donde dice 45,95

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 31


debió decir 25,95. La tarea encomendada sigue siendo la misma, sólo que
ahora es inquietud mía saber si vos, a través del análisis de los datos, hubie-
ras detectado el error”.

Los datos que le fueran enviados el fin de semana pasado, son los siguientes:

25,56 28,71 27,44 26,47 28,15 29,07 26,79 28,56 27,67 28,28 27,95
25,40 26,49 28,39 27,76 30,96 45,95 29,98 26,53 26,40 25,50 25,85

Hoy tiene un gran desafío. Podrá demostrar a su amiga cómo el empleo de un


análisis exploratorio de datos (AED) resulta sumamente útil a la hora de detectar
posibles errores, como sucede en este caso. A 1

Procese la información y genere el informe correspondiente haciendo notar cómo


el AED es necesario y útil a la hora del análisis y previo a la toma de decisión.

C 1

m1 |actividad 1 | AA

asistente académico

Esta actividad lo enfrenta a la aplicación del análisis exploratorio de datos (AED) a


fin de explorar este conjunto de valores de la variable, que su amiga le envió por
correo. Se le recomienda que lo realice tanto para el primer conjunto de datos,
es decir el que le envío el fin de semana, como también para el conjunto con la
corrección que le menciona en el último correo. De esta manera podrá comparar
el efecto del error de tipeo en uno de los valores y hacer un informe completo.

Además, podrá demostrarle a su amiga, la importancia del AED como herra-


mienta estadística para detectar valores extremos o atípicos.

Para esta actividad se le recomienda repasar todo lo relativo a las distintas técni-
cas del AED vistas en este módulo.

Por supuesto que queda abierta la posibilidad de su parte de completar el


informe con el análisis descriptivo que usted ya conoce, para ello recupere lo
visto en Estadística I.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 32


m1 |actividad 1 | CC

clave de corrección

a) Análisis con los datos originales

• El resumen de los cinco números es el siguiente:

• El diagrama de Tallo y Hoja

tallo hoja
25 4558
26 44457
27 4679
28 12357
29 09
30 0

• El Diagrama de caja y brazos:

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 33


b) Análisis con los datos corregidos

• El resumen de los cinco números es el siguiente:

• El diagrama de Tallo y Hoja

tallo hoja
25 45589
26 44457
27 4679
28 12357
29 09
30 9

• El Diagrama de caja y brazos:

Ya tiene los resultados del AED, ahora usted puede sacar las conclusiones y
generar el informe para su compañera, que le será de gran utilidad.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 34


m1 | actividad 2

Haciendo un análisis bivariado

Nuevamente se enfrenta con la posibilidad de


aplicar sus conocimientos de estadística.

¡Usted está muy entusiasmado, ya que nunca


imaginó que esta disciplina le resultara de tanta
utilidad en su vida como profesional!

Hace un tiempo que viene entrenando a un grupo de estudiantes a los que les da
clases y estuvo recopilando datos de los mismos.

A ese grupo de 20 alumnos varones usted les realizó un test que mide el tiempo
y la velocidad en recorrer 100 metros. Para ello tomó mediciones pre y pos de un
entrenamiento intensivo de un mes.

Ahora está interesado en averiguar si existe una vinculación entre estas variables,
es decir la velocidad pre y pos entrenamiento; asimismo, quiere confirmar (si es
como se supone) que existe relación entre la velocidad alcanzada antes y des-
pués del entrenamiento y por último, conocer que tan fuerte es esa relación, para
poder estimar futuras velocidades pos entrenamiento en otro grupo de alumnos.

El análisis apropiado de los datos que realice le será más que útil. A 1

La información con la que cuenta es la siguiente:

Velocidad de 0 a 100 metros (en m/s)


Pretest Postest

6,46 6,27
6,74 6,63
6,76 6,68
7,05 7,16
7,05 6,97
6,63 6,64
7,02 6,78
7,39 7,34
6,60 6,52
6,55 6,72
7,07 7,18
7,01 6,99
6,45 6,26
6,58 6,84
7,12 7,23
7,18 7,12
7,41 7,41
6,81 6,74
6,78 7,07
7,37 7,40

¡Manos a la obra! Tiene los conocimientos estadísticos para este análisis. C 1

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 35


m1 |actividad 2 | AA

asistente académico

Para realizar el análisis bivariado, al tratarse de dos variables cuantitativas,


deberá primero realizar el diagrama de dispersión correspondiente y luego cal-
cular la medida de variabilidad conjunta y finalmente, de corresponder calcular
el coeficiente de correlación lineal.

m1 |actividad 2 | CC

clave de corrección

A fin de detectar si existe entre las dos variables cuantitativas alguna relación,
corresponde hacer la representación gráfica.

El gráfico de dispersión o nube de puntos es el siguiente:

Es posible apreciar que hay una relación directa entre las variables velocidad pre
y post entrenamiento.

A partir de los datos se calcularon las medias aritméticas y las desviaciones están-
dar para cada una de las variables. Las medidas resumen son las siguientes:

Para medir la asociación se debe calcular la covarianza y como se observa en el


gráfico que hay una relación de tipo lineal entre las variables, se calcula el coefi-
ciente de correlación lineal para medir el grado de correlación entre las mismas.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 36


El valor de la covarianza confirma, al ser un valor positivo, la relación directa
entre las velocidades pre y post entrenamiento.

El valor del coeficiente, que resulta de dividir la covarianza por el producto de


las desviaciones estándar de las variables, es 0,91. Al ser un valor positivo, nos
indica una correlación positiva o directa, y al ser un valor cercano a 1 nos indica
un alto grado de asociación lineal entre las variables.

m1 | actividad 3

Completando el análisis estadístico bivariado

Se entusiasmó tanto con la posibi-


lidad de aplicar todo lo que viene
aprendiendo en estadística y más
cuando lo aplicó a los propios datos,
los relevados por usted que, quiere
seguir practicando la “estadística”
con sus alumnos.

Ahora recuerda que hace un tiempo


a todo el curso le había pregun-
tado acerca de si sus padres hacían
alguna actividad física o deportiva.

A fin de analizar la actividad física de padres e hijos, es que rápidamente busca


en su computadora los archivos ya que sabía que había guardado esos datos.
Después de buscarlos bastante y prometerse que será más organizado con sus
archivos en la compu, los encuentra y los cruza. Ahora sabe que se pueden pre-
sentar a través de una tabla de doble entrada. A 1

La tabla que arma es la siguiente:

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 37


Ya tiene el primer paso, la tabla con el cruce de las variables. C 1

Ahora… ¡a realizar el análisis correspondiente!

¡¡Tiene mucho para explotar de estos datos!!

A trabajar.

m1 |actividad 3 | AA

asistente académico

Usted ya cuenta con los datos presentados en una tabla de doble entrada.

Le sugiero que revise en los contenidos del módulo para repasar todo lo que se
puede hacer, estadísticamente, con estos datos.

Recuerde que ahora se le presenta otro análisis bivariado, en este caso, de dos
variables cualitativas.

m1 |actividad 3 | CC

clave de corrección

La tabla cruzada original es la siguiente:

A partir de ésta, es posible armar otras que contengan los porcentajes por
columna, por fila o por el total; las mismas se presentan a continuación.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 38


Es posible detectar alguna tendencia que sugiere algún tipo de relación entre
la actividad física de los padres y la de los hijos. Lo invito a que interprete los
porcentajes que surgen de las tres tablas.

Además, tratándose de una tabla que cruza dos variables dicotómicas, es posi-
ble calcular el coeficiente fi, que permitirá analizar la existencia de asociación
entre las variables.

El coeficiente de asociación fi asume el siguiente valor: 0,50

¡¡Está en condiciones con toda esta información de redactar un completo


informe, estoy segura de que lo podrá hacer y muy bien!!

Nota: Recuerde que, en el informe final, a las tablas que decida incorporar para
apoyar los resultados, les debe colocar su correspondiente título, fuente, etc.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 39


m1 glosario

Análisis bivariado: Análisis estadístico de


dos variables cualitativas o cuantitativas.

Análisis estadístico: Se emplea para resumir


e interpretar datos con la finalidad de obtener
información útil en la toma de decisión.

Análisis Exploratorio de Datos (AED): Técnicas que permiten un análisis de los


datos para explorar distintos aspectos de ellos, previo al procesamiento estadís-
tico definitivo.

Coeficiente de asociación: Medida que mide el grado de asociación entre dos


variables cualitativas.

Coeficiente de correlación lineal: Medida de intensidad o grado de relación


lineal entre dos variables cuantitativas.

Covarianza: Medida de variabilidad conjunta. Permite determinar la relación


entre dos variables cuantitativas.

Cuartiles: Los percentiles 25%, 50% y 75% se llaman primer cuartil, segundo
cuartil (mediana) y tercer cuartil, respectivamente. Se pueden usar los cuartiles
para dividir el conjunto de datos en cuatro partes, cada una de las cuales con-
tiene aproximadamente el 25% de los datos.

Diagrama de caja y brazos: Técnica de AED que permite analizar la forma de


una distribución de frecuencias y permite la detección de valores atípicos o
extremos en dicha distribución.

Diagrama de dispersión: Método gráfico para mostrar la relación entre dos


variables cuantitativas. Una variable se representa sobre el eje horizontal y la
otra sobre el eje vertical.

Diagrama de Tallo y Hoja: Técnica de AED que proporciona una representación


visual de la distribución de la variable. Cada dato se divide en dos partes, el tallo
y la hoja.

Medidas de asociación: Herramientas estadísticas que permiten analizar e


interpretar la relación entre dos variables.

Rango intercuartílico: Diferencia o distancia entre el tercer y el primer cuartil.

Regla empírica: Regla que establece los porcentajes de elementos que están
dentro de una, dos y tres desviaciones estándar de distancia del promedio, para
distribuciones con forma de campana.

Resumen de cinco datos: Técnica del AED que consiste en analizar los valores
mínimo y máximo y los cuartiles en un conjunto de datos.

Tabla cruzada: Tabla de doble entrada, presenta y relaciona dos variables.

Valor atípico: Valor de un dato demasiado pequeño o demasiado grande.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 40


m2
m2 microobjetivos

• Comprender los conceptos básicos de probabilidad como base necesaria


para aplicar los procedimientos de inferencia estadística en la generalización
de resultados en el área deportiva y de la educación física.

• Valorar las probabilidades como parte de la vida cotidiana, resultando indis-


pensable el desarrollo de reglas para el cálculo de diferentes tipos de proba-
bilidad a ser aplicadas en la actividad física y el deporte.

• Aprender a construir tablas de contingencia con variables de interés y calcu-


lar las probabilidades para la toma de decisiones, en una investigación o en
un trabajo de campo.

• Conocer sobre la distribución Normal a fin de reconocer los fenómenos que


siguen este comportamiento y calcular probabilidades a futuro sobre even-
tos deportivos.

m2 contenidos

Comencemos a recorrer el camino de la incertidumbre en la estadística.

Lo invito a los temas de este módulo, conoceremos qué es esto de la probabili-


dad para ello, lo invito a comenzar viendo el video de presentación de la materia.

Podrá visualizar el video presentación desde su plataforma

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 41


A lo largo de los módulos de Estadística I, se presentó lo relativo a la rama de
la estadística descriptiva, se calcularon medidas que permitían caracterizar a
un conjunto de datos; también se distinguió entre los conceptos de Parámetro
poblacional y de Estadístico muestral.

Es importante que usted recuerde que cuando describimos una población y


calculamos las medidas descriptivas a partir de los datos poblacionales, esas
medidas resumen se denominan genéricamente parámetros y se simbolizan
con las letras griegas, en tanto que cuando describimos muestras y calculamos
medidas resumen con los datos muestrales, esas medidas genéricamente se
denominan estadísticos y se simbolizan con las letras de nuestro alfabeto.

Cuando, se selecciona una muestra representativa de una población objeto de


estudio, antes de tomar decisiones con respecto a toda la población, debemos
realizar la generalización de los resultados obtenidos a partir de la muestra, este
proceso de vinculación es lo que se llama Estadística inferencial.

La siguiente figura ilustra lo indicado.

Figura 1: Inferencia estadística

El resultado obtenido con la generalización basada en la muestra está sujeto a


errores, por lo cual se necesita conocer el tamaño del error para poder utilizar la
información obtenida de la muestra con cierta confianza.

En Estadística establecemos los límites aproximados de la diferencia entre el


parámetro que se desea estimar y el estadístico que se emplea, ello implica expre-
sar el riesgo y el error como una probabilidad asignándole un valor numérico.

La teoría de la probabilidad tiene gran importancia en todos aquellos problemas


donde interviene la incertidumbre.1

Es importante distinguir entre fenómenos o experimentos determinísticos y fenó-


menos o experimentos aleatorios (o probabilísticos).

El siguiente esquema presenta los dos tipos de fenómenos.

1 Cabe señalar que esto curso trataremos los conceptos básicos que se necesitan manejar en
probabilidad, haciendo hincapié en una probabilidad aplicada, más que en la probabilidad matemática.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 42


Figura 2: tipos de fenómenos o experimentos

Espacio probabilístico

Al espacio probabilístico lo simbolizaremos con la letra griega omega (Ω)2 y es el


conjunto que contiene todos los resultados posibles de un experimento o fenó-
meno aleatorio, cada uno de los resultados posibles recibe el nombre de evento.

La característica esencial de los eventos es que su presentación se puede veri-


ficar o no.

Cada evento a su vez tendrá asociado una posibilidad de ocurrencia que se


expresa a través de un número al que llamaremos probabilidad.

Los eventos elementales, constituyen todas las alternativas, igualmente posi-


bles, exhaustivas y mutuamente excluyentes.

Eventos

Cada uno de los resultados del espacio probabilístico es un evento elemental, y


cada uno es mutuamente excluyente del resto.

A su vez un subconjunto de resultados posibles de un experimento constituye


un evento compuesto.

En general, se trate de un evento elemental o compuesto, los llamamos “evento”.

2 Al espacio probabilístico también se lo suele llamar “espacio muestral” y se lo simboliza con la


letra “s”, que surge de su expresión en inglés “speace”.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 43


Los eventos se simbolizan con letras mayúsculas de nuestro alfabeto. Un
evento puede estar conformado por un solo punto del espacio probabilístico
o muestral o por un conjunto de puntos de dicho espacio. Es importante acla-
rar que los eventos y solamente los eventos tienen probabilidad asociada.

Vamos a ejemplificar lo anterior.

Supongamos que el experimento consiste en arrojar un dado y anotar la cara


que se presenta cada vez que lo arrojamos, en este caso el espacio probabilís-
tico está constituido por las seis caras del dado, cada una de las caras es un
evento elemental.

En ese conjunto de resultados posibles del dado, todos son igualmente posibles
de presentarse, es exhaustivo dicho conjunto porque fuera de las seis caras
del dado no se puede presentar ninguna otra y los resultados son mutuamente
excluyentes ya que al salir cualquiera de las caras excluye a las restantes.

Si luego cambiamos el experimento y anotamos la salida de una cara par, en


este caso a partir de las seis caras del dado definimos un subconjunto, confor-
mado por las caras pares del dado, es decir que los resultados que verifican la
condición de que sean caras pares son tres; ese subconjunto de tres resultados
constituye un evento compuesto o simplemente evento.

En símbolos:

Ω = {1; 2; 3; 4; 5; 6 }
𝑁𝑁 = 6 (𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒)

Para el primer ejemplo:

1 1
𝑃𝑃 (𝑐𝑐𝑐𝑐𝑐𝑐𝑎𝑎 𝑛𝑛°1) = 𝑃𝑃(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑛𝑛°2) = ⋯ 𝑃𝑃(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑛𝑛°6) = =6 = 1,1666
𝑁𝑁

Para el segundo ejemplo:

𝐴𝐴 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝 𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑜𝑜


𝐴𝐴 = {2; 4; 6}
3
𝑃𝑃(𝐴𝐴) = = 0,50
6

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 44


Teorías probabilísticas

Anteriormente se ha mencionado que cada uno de los resultados posibles de un


determinado experimento lleva asociado un número llamado probabilidad, ahora
¿cómo cuantificamos esa probabilidad?

A fin de determinar la forma de calcular la probabilidad es que surgieron distintas


escuelas o teorías de probabilidad; que se presentan a continuación.

• Teoría Clásica

Esta teoría sostiene que el valor de la probabilidad de un evento surge del


cociente entre el número de casos favorables a su presentación y el número de
casos igualmente posibles del espacio. Se hace la suposición de que los suce-
sos de un experimento son igualmente posibles.

Así, dado el evento A, la probabilidad del evento A será: 3

𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 𝑎𝑎𝑎𝑎 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝐴𝐴


𝑃𝑃(𝐴𝐴) =
𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝

Ejemplo:

𝐴𝐴 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚


1
𝑃𝑃(𝐴𝐴) = = 0,50
2
𝐵𝐵 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑜𝑜
3 1
𝑃𝑃(𝐵𝐵) = = = 0,50
6 2

• Teoría frecuencial

Esta teoría define a la probabilidad como el valor límite de la frecuencia relativa, de


un determinado suceso para cuando el número de observaciones tiende a infinito.

𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝑑𝑑𝑑𝑑 𝐴𝐴


𝑃𝑃(𝐴𝐴) = lim 𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓. 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 =
𝑛𝑛→∞ 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡ñ𝑜𝑜 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

Cuando el experimento se repite un número suficientemente grande veces en


condiciones uniformes, la frecuencia relativa de un evento será con alto grado
de aproximación igual a la probabilidad del evento.

Es importante destacar que la frecuencia relativa y la probabilidad no son lo


mismo, sólo que, cuando la cantidad de pruebas es lo suficientemente grande,
entonces la frecuencia relativa se usa como estimación de la probabilidad.

3 Debido a que este enfoque (cuando es aplicable) permite determinar los valores de probabilidad
antes de observar cualquier evento es que se conoce como “enfoque a priori”.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 45


En este enfoque se determina la probabilidad en base a la proporción de veces
que ocurre un resultado favorable en un determinado número de observaciones
o experimento. No hay implícita suposición previa de igualdad de posibilidades.4

Por ejemplo, si lanzamos un dado seis veces es casi improbable que cada cara
salga una vez, pero si lo lanzamos repetidas veces un número grande de veces
(por ejemplo 100 veces, 500 veces, 1000 veces, etc.) podemos esperar que, en
promedio, cada una de las caras salga más o menos un sexto de las veces.

En otros términos, podríamos decir que la frecuencia relativa se torna estable a


medida que aumenta el número de observaciones.

Determinamos con qué frecuencia algo ha ocurrido en el pasado, empleando este


dato para predecir que vuelva a ocurrir en el futuro. El principal inconveniente que
presenta esta teoría es la posibilidad de experimentar una cantidad grande de
veces y bajo las mismas condiciones que, muchas veces se torna imposible.

• Teoría subjetivista

Esta teoría sostiene que la probabilidad es producto de la apreciación que cada


individuo pudiese tener con relación a la posibilidad de que un evento suceda o
no suceda.

Esta teoría tiene escaso rigor matemático y refleja sentimientos y opiniones res-
pecto a las posibilidades de que ocurra un resultado particular.

En esta teoría la probabilidad es concebida como una medida de


la confianza que una persona razonable le asigna a un evento.
Por lo tanto, se puede aplicar este enfoque a eventos que aún no
han ocurrido o que ocurren una sola vez. Esta teoría admite que
distintas personas puedan diferir en sus grados de confianza aún,
cuando las evidencias que se les ofrezca sean las mismas.5

Eventos particulares

• Evento Cierto: Es aquel para el cual todos los eventos elementales le son
favorables.
Para el ejemplo que hemos venido planteando de arrojar un dado, suponga-
mos que se pidiera la presentación de cualquiera de las seis caras, tendre-
mos la seguridad que aparecerá alguna de las caras.
En símbolos:
P(Ω) = 1

• Evento Imposible: Es aquel para el cual ninguno de los eventos elementales


le es favorable.
En el caso de arrojar un dado sería el evento que salga la cara nº9. La pro-
babilidad de este evento lo simbolizaremos como:
0
𝑃𝑃(Ø) = =0
𝑁𝑁
4 En razón que para este enfoque para determinar los valores de probabilidad se necesita de la
observación y de la recopilación de datos, es que se lo conoce también como “enfoque empírico”.

5 Puesto que el valor de la probabilidad es un juicio personal, es que al enfoque subjetivista se lo


denomina también “enfoque personalista”.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 46


Donde Ø es el conjunto vacío. Por lo tanto, el evento imposible es aquel que no
tiene oportunidad de ocurrir.

Postulados fundamentales

Los postulados de probabilidad son relaciones o igualdades que siempre se


verifican en probabilidad, ellos son:

a) P (A) ≥ 0 La probabilidad de un evento es siempre positiva.

La probabilidad de un evento es una cantidad entre cero y


b) 0 ≤ P (A) ≤ 1
uno.

c) P (Ω) = 1 La probabilidad del espacio probabilístico es siempre uno.

Tipos de eventos

A continuación, se exponen y explican los distintos tipos de eventos o resultados


posibles que se pueden presentar en los experimentos probabilísticos.

• Eventos Mutuamente Excluyentes

Dos o más eventos son mutuamente excluyentes o disjuntos si no tienen ningún


punto del espacio probabilístico en común, es decir no pueden presentarse
simultáneamente.

En símbolos:

A y B son mutuamente excluyentes.

Por lo tanto:
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0

Ejemplo:

𝐴𝐴 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚


𝐵𝐵 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚

La salida de cara y ceca simultáneamente al arrojar una moneda es imposible; la


salida de cara y de ceca son eventos mutuamente excluyentes.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 47


• Eventos No Mutuamente Excluyentes

Dos o más eventos son no mutuamente excluyentes si tienen algún punto del
espacio probabilístico en común, es decir pueden presentarse simultáneamente.

En símbolos:

A y B son no mutuamente excluyentes, entonces. Por lo tanto:


𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) ≠ 0

Ejemplo:
𝐴𝐴 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝 𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑
𝐵𝐵 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 2 𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑

Los eventos A y B tienen elementos en común: la cara nº2

Probabilidad Condicional

Este tipo de probabilidad se presenta cuando tenemos información adicional


que permite conocer alguna característica de los eventos.

Se reduce el espacio probabilístico original a un subconjunto.

La probabilidad de un evento acerca del cual contamos con alguna información


será diferente a cuando no la tenemos.

La probabilidad de este evento en el subconjunto es mayor que en el espacio


original.

En símbolos:

𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)
𝑃𝑃�𝐴𝐴�𝐵𝐵 � =
𝑃𝑃(𝐵𝐵)

De dos eventos que no son mutuamente excluyentes y de antemano conocemos


que se produjo uno, nos interesa la probabilidad de que se verifique el otro.

• Eventos Dependientes

Dos o más eventos son dependientes cuando la ocurrencia de uno de ellos en cual-
quier prueba afecta la probabilidad de ocurrencia de otros eventos en otras pruebas.

En símbolos:

Si A y B son eventos dependientes, entonces:

𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 𝑃𝑃(𝐵𝐵) × 𝑃𝑃�𝐴𝐴�𝐵𝐵 � = 𝑃𝑃(𝐴𝐴) × 𝑃𝑃�𝐵𝐵�𝐴𝐴�

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 48


Ejemplo:

Supongamos que en una caja hay tres lápices


rojos y siete lápices azules, si se decide tomar una
muestra de dos lápices, extraemos el primer lápiz
y si ese es rojo y no se vuelve a colocar ese lápiz
extraído en la caja, han quedado dos lápices rojos
en la caja por lo tanto la probabilidad de extraer, en
una segunda extracción, un lápiz rojo será menor
que en la primera extracción, es decir que el hecho
que saliera rojo el primer lápiz, afecta la probabilidad
de salida de otro lápiz rojo en las próximas pruebas.

Este es un ejemplo de experimento sin reposición o sin reemplazo.

• Eventos Independientes

Dos o más eventos son independientes cuando la ocurrencia de uno de ellos en


cualquier prueba no afecta la probabilidad de ocurrencia de otros eventos en
otras pruebas.

En símbolos:

Si A y B son eventos independientes, entonces:


𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) × 𝑃𝑃(𝐵𝐵)

Además, se cumple:

𝑃𝑃�𝐴𝐴�𝐵𝐵 � = 𝑃𝑃(𝐴𝐴)

𝑃𝑃�𝐵𝐵�𝐴𝐴� = 𝑃𝑃(𝐵𝐵)

Veamos un ejemplo: Si arrojamos una moneda y sale cara, el hecho que haya
salido cara en la primera tirada de la moneda, no afecta a la probabilidad que en
tiradas sucesivas de la moneda pueda salir nuevamente cara. La probabilidad de
salida de cara sigue siendo ½= 0,50.

Reglas de adición

Las reglas de adición o suma se emplean cuando queremos determinar la proba-


bilidad de un evento u otro (o ambos) que ocurren en una sola observación. En
la teoría de conjuntos esto se denomina “Unión”.

En símbolos:

Sean los eventos A y B, la adición de los dos eventos se expresa como: A u B

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 49


Hay dos variaciones de la regla de adición según el tipo de eventos de que se trate:

• Si los eventos son mutuamente excluyentes, la probabilidad de la unión


de esos eventos se calcula:

𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵)

Ejemplo:
𝐴𝐴 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎 4 = {5; 6}
𝐵𝐵 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎 3 = {1; 2}

Por lo tanto, la unión de esos dos eventos como no tienen puntos en común
será: 1; 2; 5; 6

La probabilidad de la unión será:

2 2 4
𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = + = = 0,66
6 6 6

• Si los eventos son no mutuamente excluyentes, la probabilidad de la


unión de esos eventos se calcula:

𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)

Ejemplo:

𝐴𝐴 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑜𝑜 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑎𝑎 4 = {4; 5; 6}


𝐵𝐵 = 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝 = {2; 4; 6}

Por lo tanto, la unión de esos dos eventos como tienen punto en común será: {2;
4; 4; 5; 6; 6}, podemos observar que de esta forma estamos repitiendo los ele-
mentos en común de ambos conjuntos, por lo tanto, se debe restar la intersec-
ción entre ellos.

La probabilidad de la unión será, finalmente queda así:

3 3 2 4
𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = + − = = 0,66
6 6 6 6

Tablas de contingencia

Una tabla de contingencia es una tabla de doble entrada en la cual se relacionan


dos variables.

En el módulo 1 de esta materia, usted aprendió sobre asociación entre dos vari-
ables cualitativas. Ahora vamos a retomar esas tablas cruzadas y las vamos a ver
desde la probabilidad.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 50


Recuperemos esos cruces…

Distribución de las adolescentes según la conformidad con su cuerpo


y lo que piensan los demás
Conformidad con el cuerpo
Sí está conforme No está conforme Totales
Cant. Cant.
Interés por la Sí le interesa 21 30 51
opinión de
los demás No le interesa 58 17 75
Totales 79 47 126

Tabla 1: Tabla de contingencia

Esta tabla de doble entrada, desde la óptica de probabilidad, se la conoce como


tabla de contingencia.

En este caso, las variables que se cruzan son:

• Conformidad con el cuerpo


• Interés por la opinión de los demás

Cada una de estas variables tiene sus respectivas categorías, estas categorías
ahora son los “eventos” (resultados posibles); simbolizaremos a cada uno de
ellos con letras mayúsculas.

A = Sí está conforme con su cuerpo

B = No está conforme con su cuerpo

C = Sí le interesa la opinión de los demás

D = No le interesa la opinión de los demás

A partir de esta tabla de contingencia se puede obtener la:

Tabla de probabilidad conjunta, como la siguiente:

Conformidad con el cuerpo


Sí está conforme (A) No está conforme (B) Totales
Cant. Cant.
Interés por la Sí le interesa (C) 0,17 0,24 0,41
opinión de
los demás No le interesa (D) 0,46 0,13 0,59
Totales 0,63 0,37 1

Tabla 2: Tabla de probabilidad conjunta

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 51


En esta tabla podemos observar todas las probabilidades.

En el contexto de las tablas de probabilidad conjunta, la probabilidad marginal


se denomina así porque es el total marginal de una columna o de una fila. Mien-
tras que los valores de probabilidad dentro de las celdas son probabilidades
de ocurrencia conjunta; las probabilidades marginales son las probabilidades
incondicionadas de eventos particulares.

Para nuestro ejemplo, las probabilidades marginales que corresponden a cada


evento son:

Probabilidades marginales
Si selecciona una adolescente al azar:
(Probabilidades simples)
Hay 0,63 de probabilidad que se trate de una
P (A) = 0,63
adolescente que está conforme con su cuerpo.
Hay un 37% de posibilidades que la adolescente
P (B) = 0,37
no esté conforme con su cuerpo.
Existe una probabilidad de 0,41 que a la
P (C) = 0,41 adolescente le interese la opinión de los demás
sobre su aspecto físico.
Hay un 59% de posibilidades que a la adolescente
P (D) = 0,59
no le interese la opinión de los demás.

Tabla 3: Cálculo e interpretación de probabilidades simples

Supongamos se desea conocer cuál es la probabilidad de que la adolescente


esté conforme con su cuerpo y que no le interese la opinión de los demás. La
probabilidad que se debe calcular es la de la intersección. Entonces:

58
𝑃𝑃(𝐴𝐴 ∩ 𝐷𝐷) = = 0,46
126

Como se puede apreciar es posible calcular la probabilidad ya sea a partir de la


tabla de contingencia o de la tabla de probabilidad conjunta.

Si ahora se conociera que la adolescente seleccionada es una de las que no


están conformes con su cuerpo, ¿qué probabilidad hay que sí le interese la opin-
ión de los demás?

En este caso la probabilidad buscada sería una probabilidad condicionada y se


calcula de la siguiente manera:

Usando la tabla de contingencia Usando la tabla de probabilidad conjunta


30
30 𝑃𝑃(𝐶𝐶 ∩ 𝐵𝐵) 126 30
𝑃𝑃�𝐶𝐶�𝐵𝐵� = = 0,64 𝐶𝐶
𝑃𝑃� �𝐵𝐵 � = =
47
= = 0,64
47 𝑃𝑃(𝐵𝐵) 47
126

Como es posible apreciar en el ejemplo planteado, es indistinto trabajar con la


tabla de contingencia o con la tabla de probabilidades.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 52


Cada uno podrá usar para el cálculo de las probabilidades cualquiera de
las dos tablas. Si está armada la tabla de contingencia se puede usar ésta,
o bien a partir de ella y construir la tabla de probabilidad conjunta y, si se
posee la tabla de probabilidad conjunta, conociendo el total de los resulta-
dos posibles, se puede reconstruir la tabla de contingencia.

En clima de mundial, le sugiero el siguiente video disponible en https://www.


youtube.com/watch?v=2kNhp-nPLTk que habla sobre probabilidad y de otra
teoría que se vincula a lo que vemos en este módulo y que puede serle de
utilidad en su vida profesional, lo invito a bucear sobre la teoría de juegos.

Podrá visualizar el video desde su plataforma

La distribución Normal

Hasta ahora se han planteado los conceptos básicos de probabilidad y se presen-


taron los experimentos aleatorios con sus respectivos resultados y la probabilidad
de ocurrencia de dichos resultados. En muchas ocasiones es necesario manejar el
concepto de distribución de probabilidad, a partir de una variable aleatoria.

Es necesario aclarar qué es una variable aleatoria.

Una variable aleatoria es aquella variable cuyos valores surgen de un pro-


ceso aleatorio o probabilístico. En la práctica, en distintas áreas y disciplinas
se presentan variables aleatorias que responden a un patrón de comporta-
miento, es por ello que ese patrón de comportamiento se puede modelizar
a través de una función, una expresión matemática que recibe el nombre de
función de probabilidad.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 53


Las variables aleatorias pueden ser discretas o continuas. Nos centraremos en
estas últimas y presentaremos la distribución de probabilidad más importante de
la Estadística, la distribución de probabilidad Normal.

Es importante el conocimiento y manejo de esta distribución ya que hay muchas


variables asociadas a fenómenos naturales y en distintos ámbitos como el de
la actividad física, que siguen el modelo de la distribución Normal, ejemplos de
variables que tienen un comportamiento Normal, son:

• Caracteres morfológicos en personas, animales o plantas, como talla,


peso, diámetros, perímetros, etc.
• Variables de rendimiento en el deporte.
• Caracteres fisiológicos, por ejemplo, efecto de una misma dosis de
un medicamento sobre una población de pacientes.

La imagen siguiente presenta la regla empírica. Este tema por supuesto se rela-
ciona con la distribución Normal, le sugiero que recupere lo visto en el módulo
anterior de la materia.

Figura 3: Intervalos de la Regla Empírica en la distribución Normal

Para el estudio de este tema los invito a leer los apartados 1 y 2 del artículo
titulado “La distribución Normal” IC 1 de Pértegas Díaz S., Pita Fernández
S. También le recomiendo la lectura del apartado titulado “Regla empírica
para datos con distribución Normal” que lo encontrará en el material básico
Estadística de Mario F. Triola. Allí se presenta de manera muy clara de que
se trata y cómo se aplica la regla empírica.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 54


Lo invito a ver el siguiente video https://www.youtube.com/watch?v=8rvgQdc
CwQ4 de una manera amena y simple podrá comprender más sobre la distribu-
ción Normal y los fenómenos que siguen esa distribución.

Podrá visualizar el video desde su plataforma

Finalmente en la siguiente presentación resumen mod2 IC 2 usted encon-


trará los conceptos principales desarrollados en este módulo, tanto de proba-
bilidad básica como de la distribución Normal, nuevamente, su lectura le ser-
virá para realizar una síntesis y prepararse para recorrer el siguiente módulo.

Podrá visualizar la presentación desde su plataforma

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 55


Le recomiendo que realice las actividades propuestas para este módulo, le
ayudarán a consolidar todos los temas a través de situaciones prácticas de
su área profesional. Éstas cuentan con asistentes académicos y clave de
corrección que les serán de gran utilidad.

Hasta aquí hemos presentado lo relativo a probabilidad que se necesita manejar


para la materia, ya que tal como se expresó la finalidad de conocer y comprender
los conceptos de probabilidad es de poder usarla como nexo entre la estadística
descriptiva (estudiada en Estadística I) y la estadística inferencial, dado que en
el proceso de generalización de los resultados, de una muestra a la población,
se trabaja en el campo de la incertidumbre, por lo que hablaremos, siempre que
se haga inferencia, en términos probabilísticos.

Con lo visto en estos dos módulos de la materia, usted se encuentra en


condiciones, de realizar la primera parte de la evaluación integradora.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 56


m2 | contenidos | IC

información complementaria 1

Investigación: La distribución normal 1/12

La distribución normal

Pértegas Díaz S., Pita Fernández S.


Unidad de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A Coruña.
Cad Aten Primaria 2001; 8: 268-274.
Actualización 10/12/2001.
__________________________________

1. Introducción

Al iniciar el análisis estadístico de una serie de datos, y después de la etapa de detección y corrección de
errores, un primer paso consiste en describir la distribución de las variables estudiadas y, en particular, de
los datos numéricos. Además de las medidas descriptivas correspondientes, el comportamiento de estas
variables puede explorarse gráficamente de un modo muy simple. Consideremos, como ejemplo, los
datos de la Figura 1a, que muestra un histograma de la tensión arterial sistólica de una serie de pacientes
isquémicos ingresados en una unidad de cuidados intensivos. Para construir este tipo de gráfico, se divide
el rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo un
rectángulo con área proporcional al número de datos en ese rango1. Uniendo los puntos medios del
extremo superior de las barras, se obtiene el llamado polígono de frecuencias. Si se observase una gran
cantidad de valores de la variable de interés, se podría construir un histograma en el que las bases de los
rectángulos fuesen cada vez más pequeñas, de modo que el polígono de frecuencias tendría una
apariencia cada vez más suavizada, tal y como se muestra en la Figura 1b. Esta curva suave "asintótica"
representa de modo intuitivo la distribución teórica de la característica observada. Es la llamada función
de densidad.

Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la
práctica es la distribución normal, también llamada distribución gaussiana2, 3, 4, 5. Su importancia se
debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y
cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso),
o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se
asume que siguen una distribución normal. No obstante, y aunque algunos autores6, 7 han señalado que el
comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una
distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo
de comportamiento.

El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por
otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad
de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de
la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de
datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. La
simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen
otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un
modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando
los datos no sean normales, podremos o bien transformarlos8 o emplear otros métodos estadísticos que no
exijan este tipo de restricciones (los llamados métodos no paramétricos).

A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades más


relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística. En la sección
3 se describirán los métodos habituales para contrastar la hipótesis de normalidad.

2. La Distribución Normal

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754).
Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la
ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de
Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su
media y su desviación estándar, denotadas generalmente por y . Con esta notación, la densidad de
la normal viene dada por la ecuación:

www.fisterra.com Atención Primaria en la Red

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 57


Investigación: La distribución normal 2/12

Ecuación 1:

que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así, se dice que una
característica sigue una distribución normal de media y varianza , y se denota como
, si su función de densidad viene dada por la Ecuación 1.

Al igual que ocurría con un histograma, en el que el área de cada rectángulo es proporcional al número de
datos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontal
se levantan perpendiculares en dos puntos a y b, el área bajo la curva delimitada por esas líneas indica la
probabilidad de que la variable de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la
curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente
hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar un
dato cercano al valor medio que uno que se encuentre muy alejado de éste.

Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes que conviene destacar:

I. Tiene una única moda, que coincide con su media y su mediana.


II. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre y es
teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.
III. Es simétrica con respecto a su media . Según esto, para este tipo de variables existe una
probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato
menor.
IV. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una
desviación típica ( ). Cuanto mayor sea , más aplanada será la curva de la densidad.
V. El área bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones
estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un
valor comprendido en el intervalo .
VI. La forma de la campana de Gauss depende de los parámetros y (Figura 3). La media indica
la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo
largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento
de la curva. Cuanto mayor sea el valor de , más se dispersarán los datos en torno a la media y la
curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad
de obtener datos cercanos al valor medio de la distribución.

Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de
distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entre
todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de
media 0 y varianza 1. Así, la expresión que define su densidad se puede obtener de la Ecuación 1,
resultando:

Es importante conocer que, a partir de cualquier variable X que siga una distribución , se puede
obtener otra característica Z con una distribución normal estándar, sin más que efectuar la transformación:

Ecuación 2:

www.fisterra.com EDUBP | EDUCACIÓN FÍSICA| Estadística


AtenciónIIPrimaria
- pag. en la Red 58
Investigación: La distribución normal 3/12

Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución
existen tablas publicadas (Tabla 1) a partir de las que se puede obtener de modo sencillo la probabilidad
de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad
acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución
aproximadamente normal.

Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de
una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y
una desviación estándar de 10 Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida
al azar, tenga un peso superior a 100 Kg?

Denotando por X a la variable que representa el peso de los individuos en esa población, ésta sigue una
distribución . Si su distribución fuese la de una normal estándar podríamos utilizar la Tabla 1
para calcular la probabilidad que nos interesa. Como éste no es el caso, resultará entonces útil
transformar esta característica según la Ecuación 2, y obtener la variable:

para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será:

Como el área total bajo la curva es igual a 1, se puede deducir que:

Esta última probabilidad puede ser fácilmente obtenida a partir de la Tabla 1, resultando ser
. Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente
de esa población tenga un peso mayor de 100 Kg , es de 1–0.9772=0.0228, es decir, aproximadamente de
un 2.3%.

De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 Kg:

De la Figura 2, tomando a=-2 y b=2, podemos deducir que:

Por el ejemplo previo, se sabe que . Para la segunda probabilidad, sin embargo,
encontramos el problema de que las tablas estándar no proporcionan el valor de para valores
negativos de la variable. Sin embargo, haciendo uso de la simetría de la distribución normal, se tiene que:

www.fisterra.com EDUBP | EDUCACIÓN FÍSICA| Estadística


Atención IIPrimaria
- pag. en la Red 59
Investigación: La distribución normal 4/12

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg.,
es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que
se obtendría la misma conclusión recurriendo a la propiedad (III) de la distribución normal.

No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nos
encontramos en la práctica. Generalmente no se dispone de información acerca de la distribución teórica
de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al
azar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los
resultados obtenidos a la población de origen. En un ejemplo similar al anterior, supongamos que se
dispone del peso de n=100 individuos de esa misma población, obteniéndose una media muestral de
Kg, y una desviación estándar muestral Kg, querríamos extraer alguna conclusión
acerca del valor medio real de ese peso en la población original. La solución a este tipo de cuestiones se
basa en un resultado elemental de la teoría estadística, el llamado teorema central del límite. Dicho
axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas
una distribución normal con igual media que la de la población y desviación estándar la de la población

dividida por . En nuestro caso, podremos entonces considerar la media muestral

con lo cual, a partir de la propiedad (III) se conoce que aproximadamente un 95% de los posibles valores
de caerían dentro del intervalo

Puesto que los valores de y son desconocidos, podríamos pensar en aproximarlos por sus análogos

muestrales, resultando . Estaremos, por lo tanto, un


95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg y 80.3 Kg. Aunque
la teoría estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir
un intervalo de confianza para la media de una población.

3. Contrastes de Normalidad

La verificación de la hipótesis de normalidad resulta esencial para poder aplicar muchos de los
procedimientos estadísticos que habitualmente se manejan. Tal y como ya se apuntaba antes, la simple
exploración visual de los datos observados mediante, por ejemplo, un histograma o un diagrama de cajas,
podrá ayudarnos a decidir si es razonable o no el considerar que proceden de una característica de
distribución normal. Como ejemplo, consideremos los histogramas que se muestran en la Figura 4a,
correspondientes a una muestra de 100 mujeres de las que se determinó su peso y edad. Para el caso del
peso, la distribución se asemeja bastante a la de una normal. P ara la edad, sin embargo, es claramente
asimétrica y diferente de la gaussiana.

Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinión meramente subjetiva
acerca de la posible distribución de nuestros datos, y que es necesario disponer de otros métodos más
rigurosos para contrastar este tipo de hipótesis. En primer lugar, deberemos plantearnos el saber si los
datos se distribuyen de una forma simétrica con respecto a su media o presentan algún grado de asimetría,
pues es ésta una de las características fundamentales de la distribución de Gauss. Aunque la simetría de
la distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas de la variable
en cuestión8 (comparando, por ejemplo, los valores de media, mediana y moda), resultará útil disponer de
algún índice que nos permita cuantificar cualquier desviación. Si se dispone de una muestra de tamaño n,

de una característica X, se define el coeficiente de asimetría de Fisher como:

www.fisterra.com EDUBP | EDUCACIÓN FÍSICA| Estadística


AtenciónIIPrimaria
- pag. en la Red 60
Investigación: La distribución normal 5/12

a partir del cual podemos considerar que una distribución es simétrica ( =0), asimétrica hacia la
izquierda ( <0) o hacia la derecha ( >0). En segundo lugar, podemos preguntarnos si la curva es más o
menos "aplastada", en relación con el grado de apuntamiento de una distribución gaussiana. El
coeficiente de aplastamiento o curtosis de Fisher, dado por:

permite clasificar una distribución de frecuencias en mesocúrtica (tan aplanada como una normal,
), leptocúrtica (más apuntada que una normal, ) o platicúrtica (más aplanada que una
normal, ).

Siguiendo con los ejemplos anteriores, y tal y como cabía esperar, el coeficiente de asimetría toma un
valor mayor para la distribución de la edad ( ) que para el peso observado ( ).
En cuanto a los niveles de curtosis, no hay apenas diferencias, siendo de –0.320 para el peso y de –0.366
para la edad.

Los gráficos de probabilidad normal constituyen otra importante herramienta gráfica para comprobar si
un conjunto de datos puede considerarse o no procedente de una distribución normal. La idea básica
consiste en enfrentar, en un mismo gráfico, los datos que han sido observados frente a los datos teóricos
que se obtendrían de una distribución gaussiana. Si la distribución de la variable coincide con la normal,
los puntos se concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempre
tenderá a observarse mayor variabilidad en los extremos (Figura 4a, datos del peso). En los gráficos P-P
se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Los
gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles respecto a los cuantiles
de la distribución normal. Además de permitir valorar la desviación de la normalidad, los gráficos de
probabilidad permiten conocer la causa de esa desviación. Una curva en forma de "U" o con alguna
curvatura, como en el caso de la edad en la Figura 4b, significa que la distribución es asimétrica con
respecto a la gaussiana, mientras que un gráfico en forma de "S" significará que la distribución tiene colas
mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas de
la distribución.

Parece lógico que cada uno de estos métodos se complemente con procedimientos de análisis que
cuantifiquen de un modo más exacto las desviaciones de la distribución normal. Existen distintos tests
estadísticos que podemos utilizar para este propósito. El test de Kolmogorov-Smirnov es el más
extendido en la práctica. Se basa en la idea de comparar la función de distribución acumulada de los
datos observados con la de una distribución normal, midiendo la máxima distancia entre ambas curvas.
Como en cualquier test de hipótesis, la hipótesis nula se rechaza cuando el valor del estadístico supera un
cierto valor crítico que se obtiene de una tabla de probabilidad. Dado que en la mayoría de los paquetes
estadísticos, como el SPSS, aparece programado dicho procedimiento, y proporciona tanto el valor del
test como el p-valor correspondiente, no nos detendremos más en explicar su cálculo. Existen
modificaciones de este test, como el de Anderson-Darling que también pueden ser utilizados. Otro
procedimiento muy extendido es también el test chi-cuadrado de bondad de ajuste. No obstante, este tipo
de procedimientos deben ser utilizados con precaución. Cuando se dispone de un número suficiente de
datos, cualquier test será capaz de detectar diferencias pequeñas aún cuando estas no sean relevantes para

www.fisterra.com EDUBP | EDUCACIÓN FÍSICA| Estadística


Atención IIPrimaria
- pag. en la Red 61
Investigación: La distribución normal 6/12

la mayor parte de los propósitos. El test de Kolmogorov-Smirnov, en este sentido, otorga un peso menor
a las observaciones extremas y por la tanto es menos sensible a las desviaciones que normalmente se
producen en estos tramos.

Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov a los datos de la Figura
4. Para el caso del peso, el valor del estadístico proporcionado por dicho test fue de 0.705, con un p-valor
correspondiente de p=0.702 que, al no ser significativo, indica que podemos asumir una distribución
normal. Por otra parte, para el caso de la edad, en el que la distribución muestral era mucho más
asimétrica, el mismo test proporcionó un valor de 1.498, con p=0.022, lo que obligaría a rechazar en este
caso la hipótesis de una distribución gaussiana.

Recursos relacionados en Internet

• Normal Density Plotter (UCLA Department of Statistic)


Página que permite obtener la representación gráfica de la densidad de una distribución normal
de media y desviación estándar dados por el usuario.
• SurfStat Statistical Tables - Standard Normal Distribution (University of Newcastle)
Página que permite calcular, a partir de una distribución normal estándar, la probabilidad
acumulada hasta un cierto valor, o la probabilidad de tomar un valor en un intervalo. Así mismo,
permite realizar los cálculos inversos, es decir, obtener el p-cuantil de una distribución normal
estándar.
• Normal Density Calculator (UCLA Department of Statistic)
Permite obtener, bajo una distribución normal, la probabilidad de observar un valor mayor o
igual que uno dado. La ventaja es que permite hacerlo no sólo para la distribución normal
estándar, sino para valores de la media y desviación estándar dados por el usuario.
• Matt's spiffy normal plot maker (UCLA Department of Statistic)
Se introducen los datos de la variable de interes y produce el gráfico Q-Q de probabilidad
normal correspondiente, que puede ser fácilmente exportado a otros programas.
• Calculation of 95% Confidence Interval on a Sample Mean (Arizona State University)
A partir del valor de la media y la desviación estándar muestral, calcula el 95% intervalo de
confianza para la media poblacional.

Bibliografía

1. Pértega Díaz S, Pita Fernández S. Representación gráfica en el análisis de datos. Cad Aten
Primaria 2001; 8: 112-117.
2. Altman DA. Practical statistics for medical research. 1th ed., repr. 1997. London: Chapman &
Hall; 1997.
3. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la salud. Mexico: Limusa;
1995.
4. Elston RC, Johnson WD. Essentials of Biostatistics. Philadelphia: F.A. Davis Company; 1987.
5. Altman DG, Bland JM. Statistics notes: The normal distribution. BMJ 1995; 310: 298-298.
[Texto completo]
6. Elveback LR, Guilliver CL, Keating FR Jr. Health, Normality and the Gosth of Gauss. JAMA
1970; 211: 69-75. [Medline]
7. Nelson JC, Haynes E, Willard R, Kuzma J. The Distribution of Eurhyroid Serum Protein-Bound
Iodine Levels. JAMA 1971; 216: 1639-1641. [Medline]
8. Altman DG, Bland JM. Statistics notes: Detecting skewness from summary information. BMJ
1996; 313: 1200-1200. [Texto completo]
9. Bland JM, Altman DG. Statistics Notes: Transforming data. BMJ 1996; 312: 770. [Texto
completo]

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 62


www.fisterra.com Atención Primaria en la Red
Investigación: La distribución normal 7/12

Figura 1. Histograma de los valores de tensión arterial sistólica para


dos muestras de pacientes isquémicos ingresados en una unidad de
cuidados intensivos.
Figura 1a.- Valores de tensión arterial sistólica en una muestra de
1000 pacientes isquémicos ingresados en UCI.

Figura 1b.- Valores de tensión arterial sistólica de una muestra de


5000 pacientes ingresados en UCI.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 63

www.fisterra.com Atención Primaria en la Red


Investigación: La distribución normal 8/12

Figura 2. Gráfica de una distribución normal y significado del área


bajo la curva.

www.fisterra.com Atención Primaria en la Red

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 64


Investigación: La distribución normal 9/12

Tabla 1. Áreas bajo la curva normal estándar. Los valores de la tabla


que no se muestran en negrita representan la probabilidad de
observar un valor menor o igual a z. La cifra entera y el primer
decimal de z se buscan en la primera columna, y el segundo decimal
en la cabecera de la tabla.

Segunda cifra decimal del valor de z


z 0.00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .4878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 65


Investigación: La distribución normal 10/12

Figura 3. Ejemplos de distribuciones normales con diferentes parámetros.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 66

www.fisterra.com Atención Primaria en la Red


Investigación: La distribución normal 11/12

Figura 4. Histogramas y gráficos de probabilidad normal de los


valores de peso y edad en dos muestras de pacientes.
Figura 4a.- Histogramas

Figura 4b.- Gráficos Q-Q de probabilidad.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 67

www.fisterra.com Atención Primaria en la Red


Investigación: La distribución normal 12/12

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 68

www.fisterra.com Atención Primaria en la Red


m2 | contenidos | IC

información complementaria 2

Estadística II
Módulo II

Profesora: Carla Carrizo Stauffer

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 69


• Son aquellos de un comportamiento exacto
y previsible.
Fenómenos • Si vamos conduciendo nuestro vehículo a 80
Determinísticos km/h en forma constante, sabemos que en
media hora recorreremos 40 km.
exactamente.

• Son de resultado incierto, no tenemos seguridad de cuál será el


resultado final, sí conocemos todos los resultados posibles que
se pueden presentar pero no se sabe con exactitud cuál de esos
Fenómenos resultados va a ocurrir.
Aleatorios o • Si arrojamos un dado sabemos que los resultados que se
Probabilísticos pueden presentar son seis, es decir cualquiera de las seis caras,
pero no se sabe qué cara del dado va a presentarse
exactamente, sólo conocemos la posibilidad de que cada cara
se presente.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 70


Probabilidad es la posibilidad que un suceso
(evento) se presente.

La probabilidad se asocia a los resultados de los


experimentos aleatorios o probabilísticos.

La probabilidad se expresa a través de un número


que puede variar entre cero y uno inclusive.
𝟎𝟎 ≤ 𝑷𝑷 𝑨𝑨 ≤ 𝟏𝟏

Espacio Probabilístico (Ω) es el conjunto de


resultados posibles para un experimento aleatorio.

Evento Imposible: aquel que no se puede presentar en un


experimento aleatorio. P(Ꝋ)= 0
Evento Seguro: aquel que siempre se presenta P() = 1

Teorías de Probabilidad
Determinan la forma de calcular la probabilidad de un evento

Casos favorables al evento A


Teoría Clásica: 𝑃𝑃(𝐴𝐴) =
Total de casos posibles

Teoría Frecuencial

Teoría Subjetiva

Postulados de Probabilidad
- La probabilidad de un evento es siempre positiva. P(A)  0
- La probabilidad de un evento es una cantidad entre cero y uno. 0  P(A)  1
- La probabilidad del espacio probabilístico es siempre uno. P() = 1

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 71


Tipos de eventos

Mutuamente
Excluyentes
y
No Mutuamente Tener presente
Eventos cómo se calcula la
excluyentes
Probabilidad de la
UNIÓN
Y de la
Independientes
INTERSECCIÓN
y
en cada caso
Dependientes Situació
No traba
Trabaja
Trabaja

Tabla de contingencia y tabla de probabilidad conjunta


Turno
Situación Laboral Mañana Tarde
No trabaja 75 35 110
Trabaja 4 horas o menos 20 30 50
Trabaja más de 4 horas 5 35 40
100 100 200

Turno
Situació
Situación Laboral Mañana Tarde
No trabaja 0,375 0,175 0,550 No traba
Trabaja 4 horas o menos 0,100 0,150 0,250 Trabaja
Trabaja más de 4 horas 0,025 0,175 0,200
0,500 0,500 1
Trabaja

Recordar que a partir de estas tablas es Como vemos una tabla de probabilidad conjunta
incluye todos los valores de probabilidad incondicional
posible calcular todo tipo de probabilidad:
como totales marginales, entonces podemos
Simple, Unión, Intersección y Condicional. determinar cualquier valor de probabilidad condicional.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 72


DISTRIBUCIÓN NORMAL

Características de la distribución

 Es una distribución de probabilidad para variables aleatorias


continuas.
 Tiene forma de campana (... y por lo tanto es simétrica).
 Todas sus medidas de tendencia central son idénticas
(media = mediana= modo).
 La variable aleatoria asociada ( X ) tiene un intervalo infinito
( -  < X < +).
 Es necesario conocer la media y la desviación estándar para
identificar una distribución normal específica.
 Cada combinación de media y desviación estándar especifica una
distribución normal ÚNICA.
 La distribución normal se extiende hasta el infinito en ambas
direcciones a partir de la media.

La manera de presentar a una


variable con distribución
Normal, es la siguiente:

X  N (; σ)
Parámetros de la distribución

Esta expresión se lee:


La variable “x” se distribuye
Normal con media “μ” y
desviación “σ”

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 73


Variable Normal Estandarizada
𝒙𝒙 − 𝝁𝝁
z= Z  N (0 ; 1)
𝝈𝝈
Importante para trabajar con la Normal:
-Conocer las características de la distribución Normal
Estándar.
-Conocer los parámetros de la distribución Z
-Manejar la tabla de la distribución Normal estándar.
-Recordar que las probabilidades que presenta la tabla
son acumuladas hasta un valor particular de la
variable Z.
Recordar: Los cálculos de probabilidad
de la distribución Normal y el uso de la
tabla de la Normal estandarizada,
quedan fuera del alcance de este curso.
De esta distribución usted debe
manejar y conocer los aspectos
teóricos.

seguimos
avanzando…

Lo invito al tercer módulo!!!

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 74


m2 material

Material básico

• TRIOLA, Mario F. Estadística. México, Pearson, 10ma. ed., 2009.

Material complementario

• ELORZA PÉREZ – TEJADA, Haroldo. Estadística para las ciencias sociales,


del comportamiento y de la salud. México, CENGAGE Learning, 3ra.ed., 2008.

m2 actividades

m2 | actividad 1

Según lo publicado en un artículo

El fin de semana encontró en el suplemento deportivo del diario local, una nota
que le interesó. La misma en el resumen decía:

“A partir del auge de los programas deportivos por T.V. se efectuó un estudio de
mercado a escala nacional para determinar la preferencia de los televidentes de
diversos grupos de edades por los diferentes deportes. Se seleccionó una mues-
tra aleatoria, realizándose una entrevista telefónica a 1000 televidentes y a cada
uno de ellos se le pidió indicar su deporte favorito”.

Los resultados fueron los siguientes:

Grupo Edad\Deporte Tenis Fútbol Natación Hockey Total


Menos de 20 26 47 41 36 150
20-29 38 84 80 48 250
30-39 72 68 38 22 200
40-49 96 48 30 26 200
50 y más 134 44 18 4 200
Total 366 291 207 136 1000

Usted se puso a analizar los datos y rápidamente comprendió que los mismos
estaban presentados a través de una tabla de contingencia, entonces le pareció
interesante, dado que se trataba de una muestra representativa de la población,
poder calcular probabilidades. A 1

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 75


Se le ocurrió el cálculo de las siguientes:
• Que la persona prefiera natación.
• Que prefiera el tenis y tenga menos de 20 años.
• Que tenga más de 50 años o prefiera el tenis.
• Si la persona seleccionada tiene menos de 20 años, que prefiera el hockey.

Ahora usted mismo se encuentra ante la posibilidad de poder aplicar los cono-
cimientos sobre probabilidad a partir de información de su interés publicada en
un artículo periodístico. C 1

¡Adelante con su análisis!

m2 |actividad 1 | AA

asistente académico

Esta tabla de doble entrada publicada es una tabla de contingencia. Se cruzan


en ella dos variables, la edad (a través de los grupos etarios) y el deporte favo-
rito. Cada variable posee los resultados o eventos, hay cinco para la edad y
cuatro para el deporte.

Recuerde asignarle a cada evento una letra mayúscula y luego plantear las pro-
babilidades de interés.

Le recomiendo que revise todo lo relativo al cálculo de probabilidades (simples,


de unión, de intersección, condicionada).

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 76


m2 |actividad 1 | CC

clave de corrección

Primero hay que identificar los eventos de la tabla de contingencia con letras
mayúsculas.

Grupo Edad\ Deporte (A) (B) (C) (D) Total


Tenis Fútbol Natación Hockey
(E) Menos de 20 26 47 41 36 150
(F) 20-29 38 84 80 48 250
(G) 30-39 72 68 38 22 200
(H) 40-49 96 48 30 26 200
(I) 50 y más 134 44 18 4 200
Total 366 291 207 136 1000

Las probabilidades planteadas son las siguientes:

1. Que la persona prefiera natación.

207
𝑃𝑃(𝐶𝐶) = = 0,207
1000

Se puede decir entonces que hay un 20.7% de posibilidades que el deporte


favorito del televidente sea la natación.

2. Que prefiera el tenis y tenga menos de 20 años.

26
𝑃𝑃(𝐴𝐴 ∩ 𝐸𝐸) = = 0,26
1000

Entonces hay un 26% de posibilidad que el televidente prefiera el tenis y tenga


menos de 20 años.

3. Que tenga más de 50 años o prefiera el tenis.

200 366 134


𝑃𝑃(𝐼𝐼 ∪ 𝐴𝐴) = 𝑃𝑃(𝐼𝐼) + 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐼𝐼 ∩ 𝐴𝐴) = + − = 0,432
1000 1000 1000

Hay 43,2% de posibilidades que la persona televidente de programas deportivos


prefiera el tenis o tenga más de 50 años.

4. Si la persona seleccionada tiene menos de 20 años, que prefiera el hockey.

36
𝑃𝑃�𝐷𝐷�𝐸𝐸 � = = 0,24
150

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 77


Siendo que el televidente de programas deportivos tenga menos de 20 años hay
un 24% de posibilidades que su deporte favorito sea el hockey.

Ahora Ud. puede sacar más las conclusiones con los datos publicados, ¿Acepta
el desafío?

Nota: recuerde que si desea puede trabajar con la tabla de probabilidades con-
junta, la puede obtener a partir de la de contingencia.

m2 | actividad 2

Ayudando con probabilidades

Cuando está llegando al club, para comenzar con otra jornada de entrenamiento
recibe un WhatsApp de su amigo y socio. Usted está apurado, pero lo atiende,
puede ser algo urgente.

“Juan, me pasaron la información acerca de la cantidad de personas que consul-


taron en los últimos meses acerca de las actividades y servicios que prestamos
en el club y resulta que, de las 250 consultas, 50 de ellas fueron referidas a nutri-
ción y alimentación saludable solamente, 70 fueron referidas a la actividad física
que se brinda en el club, exclusivamente y otras 30 fueron consultas mixtas es
decir sobre nutrición y actividad física. La inquietud es calcular en base a estos
datos, qué tan probable es que un llamado al club sea por una consulta sobre
nutrición o sobre actividad física y además cuál es la probabilidad de que, si la
persona consultó previamente por actividad física solamente, lo haga por nutri-
ción en la próxima llamada”.

Bueno, como verás este es un tema de probabilidades y ¡quién mejor que vos
para ayudarme con esto!

Te pido entonces este favor, me parece que estas probabilidades nos pueden ser
muy útiles para nuestras próximas acciones en el club. ¿Acordás conmigo?

La tarea encomendada vuelve a ser interesante y sencilla para usted. A 1

Se prepara para su clase y después que termine


su hora se aprestará a hacer los cálculos.
Confía plenamente que en un rato tendrá la
información solicitada. C 1

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 78


m2 |actividad 2 | AA

asistente académico

Para resolver este caso, es importante que primero identifique los eventos que
se presentan, ellos son:

• Consulta sobre nutrición y alimentación saludable solamente, a ese evento


lo podríamos llamar “A”.
• Consulta sobre actividad física exclusivamente, a ese evento lo podríamos
llamar “B”.
• Consulta mixta (sobre nutrición y actividad física), sería la intersección de los
dos eventos A y B.

Los eventos A y B son no mutuamente excluyentes.

Una vez identificados los eventos y de qué tipo de eventos se trata, se encuentra
en condiciones de calcular las probabilidades solicitadas.

Recuerde que para calcular las probabilidades de los eventos empleará la fór-
mula: casos favorables al evento sobre el total de los casos posibles, es decir la
teoría clásica.

m2 |actividad 2 | CC

clave de corrección

• La probabilidad que una persona llame por una consulta sobre nutrición
solamente es:
50
𝑃𝑃(𝐴𝐴) = = 0,20
250

• La probabilidad que una persona llame por una consulta sobre actividad
física exclusivamente:
70
𝑃𝑃(𝐵𝐵) = = 0,28
250

• La probabilidad que una persona llame haciendo una consulta sobre nutrición
y actividad física es:

30
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = = 0,12
250

La primera probabilidad que se debe calcular, según lo que le solicita su amigo es:

𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0,20 + 0,28 − 0,12 = 0,36

Es decir que existe una probabilidad del 36% que la llamada al sea sobre nutrición
o sobre actividad física (es decir que sea por uno u otro motivo o por los dos).

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 79


Luego, si la persona consultó primero por la actividad física, la probabilidad que
haga una segunda consulta por nutrición es:
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) 0,12
𝑃𝑃�𝐴𝐴�𝐵𝐵 � = = = 0,43
𝑃𝑃(𝐵𝐵) 0,28
Entonces, habiendo realizado la persona un llamado sobre actividad física sola-
mente, la posibilidad que luego llame por nutrición es del 43%

m2 | actividad 3

Más probabilidades

La semana pasada en uno de los break, se encontró


con su compañero Rodrigo, también profesor
de educación física y con María la nutricionista,
conversando e intercambiando opiniones, ella le
plantea lo siguiente:

“He entrevistado a 40 mujeres en estos últimos


meses, en el grupo, 15 tienen más de 40 años,
de las cuales sólo 5 de ellas hacen una actividad
física diaria. Del total, 17 no realizan actividad física
diariamente. ¿Podrías ayudarme a confeccionar una
tabla para presentar los datos? Estoy convencida que
de esta manera podré sacar conclusiones útiles tanto
desde mi área como desde la tuya y seguramente nos
servirán pensar qué nuevas actividades y servicios se
pueden ofrecer en el club”.

Por supuesto que usted colaborará con su compañera, además todo ayudará a
posicionar mejor la actividad del emprendimiento.

¡Qué mejor oportunidad entonces de poner en juego lo aprendido sobre proba-


bilidades!

A 1

C 1

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 80


m2 |actividad 3 | AA

asistente académico

Ante este caso, nuevamente deberá armar la tabla de doble entrada. Recuerde que
primero hay que identificar las variables que se cruzan y los eventos en cada una.

Debe asignar a cada evento una letra mayúscula y luego plantear las distintas
probabilidades y realizar los cálculos.

Por supuesto que le será de ayuda que revise todo lo concerniente a las tablas
de contingencia y de probabilidad conjunta visto en este módulo.

m2 |actividad 3 | CC

clave de corrección

La tabla de contingencia quedaría armada de la siguiente manera:

Edad (C) (D) Totales


Actividad Física Menos de 40 años 40 o más años
(A) Realiza diariamente 18 5 23
(B) No realiza diariamente 7 10 17
Totales 25 15 40

La tabla de probabilidad conjunta que Ud. puede confeccionar a partir de la tabla


de contingencia anterior se presenta a continuación.

Edad (C) (D) Totales


Actividad Física Menos de 40 años 40 o más años
(A) Realiza diariamente 0,45 0,125 0,575
(B) No realiza diariamente 0,175 0,25 0,425
Totales 0,625 0,375 1

Ya sea con una u otra tabla usted tiene la información necesaria para realizar el
cálculo de cualquiera de las probabilidades de su interés y el de su compañera.
Sólo le resta entregarle las tablas a ella y analizar juntos los datos y calcular las
probabilidades que a vuestro criterio resulten más relevantes y útiles.

¡Manos a la obra! ¡Suerte!

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 81


m2 glosario

Distribución Normal: Distribución de probabili-


dad de variables aleatorias continuas con forma
de campana y simétrica respecto de su media.

Espacio probabilístico: Conjunto de todos los


resultados posibles de un experimento aleatorio.

Estadístico: Medida resumen calculada a partir de los datos muestrales.

Evento: Cada uno de los resultados posibles de un experimento probabilístico


o aleatorio.

Eventos mutuamente excluyentes: Eventos que no pueden suceder simultá-


neamente.

Parámetro: Medida descriptiva calculada a partir de los datos poblacionales.

Probabilidad condicional: Probabilidad de un suceso, dado que algún otro


evento ya ocurrió.

Probabilidad: Medida de qué tan posible es que ocurra un suceso dado; se


expresa como un número entre 0 y 1, inclusive.

Tabla de contingencia: Presentación de los datos clasificados según las cate-


gorías de dos variables.

Tabla de probabilidad conjunta: Presentación de los datos clasificados según


las categorías de dos variables que contiene las probabilidades marginales y
conjuntas de los eventos que se presentan en la tabla.

Teoría probabilística: Teoría que indica cómo calcular una probabilidad.

Variable aleatoria: Variable cuyos valores surgen de un experimento aleatorio.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 82


m3
m3 microobjetivos

• Familiarizarse con los aspectos básicos de la teoría de muestreo para saber


cuál es el método y tamaño adecuado de muestra a seleccionar en una
investigación específica en el ámbito de la educación física.

• Captar y comprender las ventajas y desventajas que presenta cada tipo de


muestreo y poder hacer una selección eficaz de una muestra que permita
obtener datos relevantes para concluir sobre la población en estudio.

• Conocer los procedimientos de inferencia estadística en la generalización de


resultados desde una muestra, en el área deportiva y de la educación física
para sacar conclusiones válidas sobre la población objetivo.

m3 contenidos

Quedan unos pocos pasos para llegar al final del recorrido…

Lo acompaño a transitar esta última parte de la materia y para


comenzar lo invito a acceder al video presentación.

Podrá visualizar el video presentación desde su plataforma

De manera cotidiana está presente la necesidad de tomar decisiones, en el


ámbito de la educación física también. Usted seguramente en más de una opor-
tunidad tiene que tomar decisiones. Si decide comenzar una investigación nece-
sitará recabar datos sobre las variables de estudio y le interesará, en definitiva,
poder sacar conclusiones útiles a partir de dichos datos.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 83


Desde que comenzamos con el estudio de la estadística, hemos manejado el
concepto de población y de muestra y planteamos la importancia de tener los
conocimientos básicos en la materia para poder seleccionar las unidades de
observación y poder procesar los datos que se releven para generar precisa-
mente “información útil”.

A esta altura del aprendizaje se hace necesario volver a plantear y diferenciar


conceptos para evitar cualquier confusión.

Conceptos Clave

• Población: Es el conjunto de todos los elementos (unidades) que constitu-


yen el objeto de una investigación o estudio.

• Censo: Es el intento de medir todos los elementos de una población de inte-


rés, a un momento determinado.1

• Muestra: Es un subconjunto seleccionado de unidades de la población a la


que se le mide la o las características (variables) de interés.

Debido a que a partir de la muestra se obtienen conclusiones sobre toda la


población bajo estudio es muy importante que la muestra sea representativa
de la misma, pues de lo contrario se podría arribar a conclusiones incorrectas
acerca del universo objetivo.

Por lo tanto, es esencial que los elementos que integran la muestra representen
lo más fielmente posible a todos los elementos de la población.

Toda la teoría de la inferencia estadística para ser aplicada en la práctica requiere


del muestreo.

La ventaja del muestreo radica en que los errores que se pueden cometer con el
mismo se pueden cuantificar en términos de probabilidades.2

Con una muestra, bien seleccionada, se puede lograr un grado de confiabilidad


adecuado para inferir sobre la población. Al trabajar con toda la población se
producen errores no muestrales que son más difíciles de controlar, por lo que
resulta más exacto trabajar con una muestra, siempre que ésta sea adecuada y
representativa.

Errores muestrales y no muestrales

El error muestral es el que se comete al utilizar una muestra para sacar conclu-
siones acerca de una población.

Cuando calculamos el tamaño de la muestra, “n”, usando las fórmulas que


provee la estadística, se está incluyendo/considerando el error de muestreo.

1 En muchas ocasiones en las investigaciones los censos son costosos y difíciles de llevar a cabo,
hasta incluso imposibles de realizar por diferentes motivos.
2 ¿Entiende usted entonces, la importancia de poseer conocimientos de probabilidad?

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 84


Los errores ajenos al muestreo surgen principalmente de las siguientes fuentes:
• La falta de respuesta de algunas unidades seleccionadas en la muestra.
• Errores de medición.
• Errores introducidos en la toma de datos.

La estadística se ha convertido en una ayuda fundamental tanto en la interpreta-


ción de los datos como en la producción de éstos.

Las preguntas que surgen cuando se deben relevar datos son:

- ¿qué mediremos? (o sea, ¿qué variables se medirán?: peso; edad; velocidad; etc.).
- ¿cómo mediremos? (es decir, ¿qué instrumentos de medición se utilizarán?).

Estas dos preguntas se deben responder en la etapa del diseño metodológico


de la investigación o trabajo de campo.

Diseño de muestreo

Un diseño responde a las siguientes preguntas:


- ¿Cuántos elementos (unidades) se debe seleccionar?
- ¿Cómo debo seleccionar a esos elementos (unidades)?

Para responder a estas preguntas se necesitan datos.

El Diseño de la muestra comprende:

Figura1: Diseño de muestra

Pasos para diseñar una muestra

1. Delimitación de la población

La población puede ser finita o infinita, según sea posible contar o no los ele-
mentos que la constituyen.
Es crítico identificar y delimitar adecuadamente en tiempo y espacio la población.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 85


En la delimitación de la población hay que considerar:
• Los Elementos que conforman la población.
• La Distribución de los elementos en la población.
• Las Unidades de Muestreo, éstas son un elemento o conjunto de elementos
definidos en una población para ser seleccionados en alguna etapa del pro-
ceso de muestreo. Una unidad de muestreo puede comprender personas,
casas, familias, etc.
• La Extensión del muestreo, es decir el lugar físico donde se llevará a cabo.
• El Tiempo, es decir el período en que se realizará la recolección de la infor-
mación.

Veamos lo anteriormente expresado a través de un ejemplo:

Se desea estudiar la reacción de los alumnos de un determinado colegio


secundario de la ciudad luego de haber implementado éste un plan de evaluación
para las clases de Educación Física. Para ello se debe establecer claramente:

¿Qué?: Elementos o individuos: alumnos del colegio secundario.


¿Cómo?: Unidad de muestreo: la lista de alumnos donde cada profesor de edu-
cación física registra las notas de los alumnos.
¿Dónde?: Extensión: en todos los turnos del colegio secundario (mañana y tarde).
Tiempo: Durante el mes de setiembre del corriente año.

2. Identificar y seleccionar el marco de la muestra

El marco de la muestra es una lista de todas las unidades de muestreo.

El marco debe ser adecuado y lo más completo posible.

Es importante distinguir entre una población y el marco muestral. El marco mues-


tral es generalmente una lista de miembros de la población usados para obtener
una muestra. Podría haber una lista de suscriptores de revistas deportivas, de
comercios de aparatos para gimnasios o de estudiantes universitarios. Un marco
muestral no siempre tiene que enumerar a todos los miembros de la población.3

En el caso del ejemplo planteado, el marco para la muestra lo constituiría las listas
donde los profesores de educación física registran las notas de los alumnos.

Ejemplos de otros marcos muestrales: listado de colegios primarios de la provin-


cia; guía telefónica; listado de suscriptores de revistas deportivas.

3 Puede ser suficiente especificar el procedimiento por medio del cual cada unidad muestral puede
ser localizada. Por ejemplo, un miembro de una muestra probabilística de niños de una escuela podría ser
obtenido seleccionando aleatoriamente un distrito escolar, una escuela, un salón de clases y, finalmente, un
alumno.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 86


3. Determinar el tamaño de la muestra

En este paso se utilizarán las fórmulas (provistas por la estadística, se verán


seguidamente…) para la obtención del tamaño mínimo de muestra. A la hora de
determinar el tamaño muestral, se sopesarán varios aspectos tales como:

• El número de grupos y de subgrupos que se analizarán.


• Importancia general del estudio.
• Costo de la muestra (análisis de costo-beneficio).
• Variabilidad de la población.
• La restricción de recursos para realizar el muestreo (recursos económicos,
financieros, humanos, tiempo, etc.)

4. Elegir el método de selección de la muestra

Más adelante se presentan los distintos tipos de muestreos.

5. Seleccionar la muestra

En este paso, la misma se seleccionará conforme al criterio adoptado (estrategia


de abordaje de las unidades que integrarán la muestra).

6. Definir el procedimiento de estimación

Aquí se decidirá qué métodos de inferencia estadística se aplicarán para la toma


de decisión posterior.4

Métodos de muestreo

Hay dos grandes grupos de muestreos, ellos son:

a) Muestreos probabilísticos               


• Cada muestra tiene una probabilidad conocida de ser seleccionada.
• Permite medir la precisión y por lo tanto la confianza de las estimaciones
realizadas en el proceso de generalización a la población objetivo.
• Permite demostrar la representatividad de la muestra.
• Hace posible la identificación más explícita de las posibles desviaciones.
• La teoría de probabilidad permite al investigador calcular cualquier sesgo
de estimación y determinar qué variación en la estimación se debe al
procedimiento de muestreo.

4 Los procedimientos troncales de inferencia se presentarán en la segunda parte de los contenidos


de este módulo.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 87


b) Muestreos no probabilísticos               
• Las unidades se eligen según el juicio del investigador, por lo tanto, no
se conoce la probabilidad que tiene la muestra de ser seleccionada.
• No se puede calcular el error de estimación en términos de probabilidad.
• No se puede saber si el estimador utilizado es preciso o no.
• No se necesita de un marco muestral ni de pasos de un determinado
procedimiento, pero ello elimina la precisión de la información resultante.
• Los problemas mencionados no se solucionan incrementando el tamaño
de la muestra.
• Los resultados pueden tener sesgos ocultos y dudas que los hacen más
peligrosos que el hecho de no contar con información.

A continuación, se presentan los distintos tipos de muestreos probabilísticos,


con sus características principales.

Tipos de muestreos probabilísticos

• Muestreo Aleatorio Simple

Es un método por el cual se seleccionan, unidades de una población, de manera


que cada una de las muestras posibles tengan la misma probabilidad de ser
seleccionadas.

Se utiliza una tabla de números aleatorios para seleccionar los elementos de


la muestra. Esta tabla de números aleatorios (o al azar) es una lista muy larga
de números, generados por computadora, seleccionándose aleatoriamente un
número del 0 al 9.

La implementación del método es clara. “Ponga el


nombre de cada persona en la población sobre una
tarjeta y coloque las tarjetas en una caja grande. Mezcle
el contenido del recipiente y posteriormente extraiga el
número deseado para la muestra”.5

El uso de una tabla de números aleatorios es generalmente mucho más práctico


que el uso de un recipiente grande, esta tabla tiene la propiedad de que el cono-
cimiento de una lista de una determinada cantidad de números no da informa-
ción acerca de lo que es cualquier otro número contenido en la tabla. Suponga
que desea una muestra de una lista de 5000 poseedores de entradas para los
distintos partidos que se jugarán en el mundial de fútbol. Un cuadro de números
aleatorios como el que se muestra en la figura 2 (que se presenta más abajo)
puede proporcionar los siguientes conjuntos de números:

            7659/ 0783/ 4710/ 3749/ 7741/ 2960/ 0016/ 9347

Usando estos números, una muestra de cinco sería la que incluiría a estos
poseedores de entradas:

            0783/ 4710/ 3749/ 2960/ 0016

5 Tal como ocurre en un evento cuando al final se hace un sorteo.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 88


Los números por arriba de 5000 son pasados por alto, porque no hay quien
tenga boletos de esa numeración.

56 25 24 78
12 14 25 54
45 78 45 76
76 59 07 83
47 10 37 49
77 41 29 60
00 16 93 47
54 58 47 62

Figura 2: Extracto de una tabla de números aleatorios

El investigador puede empezar en cualquier parte de la tabla de números alea-


torios, en tanto que la elección sea hecha antes de observar los números. No es
justo descartar algunos números del cuadro porque “no parezcan aleatorios” o
porque no sean convenientes por una razón u otra.

Las tablas de números aleatorios se pueden encontrar en general en los Anexos


de los textos de Estadística. Le sugiero que consulte la tabla de números alea-
torios IC 1 .

Recuerde que puede, también emplear Excel para generar números aleatorios,
lo encontrará en la presentación resumen de este módulo resumen mod3 IC 2

• Muestreo sistemático

Esta técnica de selección de muestras aleatorias es una de las más usadas por
su sencillez en el procedimiento.

Este enfoque implica esparcir sistemáticamente la muestra a lo largo de la lista


de miembros de la población.

En una muestra sistemática se fija la posición relativa de las unidades incluidas


en la muestra.

Se parte de una población de tamaño “N” y se desea tomar una muestra de


tamaño “n”.

Las N unidades de la población se enumeran de 1 a N.

Se llamará intervalo de muestreo a la fracción “N/n” y se simboliza con la letra “k”.

Para obtener una muestra sistemática, dentro del primer intervalo de muestreo
(cuyos elementos están enumerados entre 1 y k), se elige un arranque aleatorio
que llamaremos “r” que determina la unidad que se va a seleccionar en cada uno
de los intervalos de muestreo.

Por consiguiente, si la población contuviera 10000 personas y se deseara un


tamaño de muestra de 1000, cada décima persona sería seleccionada para la
muestra. Aunque en casi todos los ejemplos prácticos tal procedimiento genera-
ría una muestra equivalente a una muestra aleatoria simple, el investigador debe

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 89


estar consciente de las regularidades dentro de una lista. Suponga, por ejemplo,
que una lista de parejas en las clases de tango rutinariamente colocara primero
el nombre de la mujer. De este modo, la selección de cada décimo nombre daría
como resultado una muestra de todas las personas de sexo masculino.

Una vez seleccionada la muestra por esta técnica, se calculan los estimadores
de igual manera que se lo hace para una muestra aleatoria simple.

Este método no es adecuado aplicarlo cuando la población es periódica o


sigue un patrón de comportamiento, es decir cuando los elementos de la
población tienen una variación cíclica.

Ejemplo: Si se deseara estimar las ventas diarias promedio de un supermercado


de un shopping; estaríamos ante una población que es claramente periódica,
pues las ventas mayores se dan los fines de semana. En este caso la efectividad
de la muestra aleatoria dependerá de los valores que se seleccionen para k; por
ejemplo, si por esta técnica se muestrearan solo los días martes, estaríamos
subestimando las ventas en cambio, si se muestrearan sólo los días sábados
estaríamos sobrestimando las ventas diarias promedio.

• Muestreo estratificado

Al desarrollar un plan de muestreo, es aconsejable buscar subgrupos naturales


que sean más homogéneos que la población total. Tales subgrupos se denomi-
nan “estratos”; de aquí el término de muestreo estratificado.

Para aplicar este procedimiento son necesarios los siguientes pasos:

• Se divide a la población en subgrupos o estratos.


• Dentro de cada estrato se selecciona una muestra aleatoria simple
o sistemática.

Un ejemplo para aplicar este tipo de muestreo podría ser la población de un


colegio que se divide según el año de cursado, correspondiendo cada estrato a
un curso (de 1ro. a 5to. año).

Los estratos deben ser mutuamente excluyentes y conjuntamente exhausti-


vos. Al disminuir la variabilidad dentro de cada estrato aumenta la precisión
del estimador, siendo esta una de las principales ventajas de este muestreo.
A mayor homogeneidad entre los elementos de cada estrato, mayor será la
precisión del estimador.

En este procedimiento se tiene como objetivo obtener una mejor representación


de la población de la que se logra con el muestreo aleatorio simple.

La manera en que la muestra total se distribuye entre los estratos se llama afija-
ción o asignación, esta puede ser:

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 90


• Afijación proporcional.
• Afijación óptima.
• Afijación arbitraria.

Frecuentemente la estratificación se realiza sobre la base de variables demográ-


ficas, como sexo, edad e ingresos.

Es importante la elección de cuál será la variable de estratificación o segmenta-


ción, utilizando variables que sean relevantes según el estudio a efectuar.

La ventaja de la estratificación de una población antes del muestreo es que el tamaño


de la muestra y, por lo tanto, el costo, se pueden reducir sin sacrificar la exactitud.6

• Muestreo por conglomerados

Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad
de muestreo es un conjunto o conglomerado de elementos.

Ejemplo: Se desea realizar una encuesta en boca de urna en un día de elecciones.

La situación más conveniente consiste en formar los conglomerados de tal


manera que los elementos que lo componen sean lo más heterogéneos posible
para obtener el máximo de información.

En este muestreo se selecciona una muestra aleatoria de subgrupos y todos los


miembros de los subgrupos se vuelven parte de la muestra.7

Suponga que se quiere seleccionar una muestra de estudiantes del secundario


que asisten a clases de atletismo en el interior de la provincia. Hay 200 clases
de atletismo, durante el lapso de un año en los distintos centros deportivos del
interior, cada una de las clases contenía una muestra bastante representativa
con respecto a las opiniones de los estudiantes sobre el tema del estudio. Una
muestra de conglomerados seleccionaría aleatoriamente un número de días de
clases, por ejemplo 15, e incluiría a todos los miembros de esas clases en la
muestra. La gran ventaja del muestreo de conglomerados es que su costo es
más bajo. Los subgrupos o conglomerados son seleccionados de modo que el
costo para obtener la información deseada dentro del conglomerado sea mucho
más pequeño que si se obtuviera una muestra aleatoria simple.

Si una clase de atletismo tuviera en promedio 30


estudiantes, una muestra de 450 sería obtenida
contactando sólo a 15 clases. Si una muestra aleatoria
simple de 450 estudiantes se obtuviera a lo largo
de todas las clases de entrenamiento de atletismo,
el costo probablemente sería significativamente
mayor. La gran pregunta, desde luego, es si esas clases son representativas
de la población. Si las clases de algunas zonas geográficas de la provincia,
por ejemplo, tienen diferentes opiniones acerca del tema de estudio, que las
clases a las que asisten estudiantes de otras zonas geográficas, el supuesto que
fundamenta al enfoque no se mantendría.

6 Para estimar la media de la población y la varianza poblacional se utilizan fórmulas específicas,


incluyendo el tamaño de los estratos, estas fórmulas no se verán en el presente curso.
7 Para estimar la media y la varianza poblacional se utilizan fórmulas específicas, estas fórmulas no
se verán en el presente curso.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 91


Tipos de muestreos no probabilísticos

En el muestreo probabilístico, la teoría de probabilidad permite al investigador


calcular la naturaleza y el alcance de cualquier sesgo en la estimación y deter-
minar qué variación en la estimación se debe al procedimiento de muestreo.
Requiere de un marco de muestreo, una lista de unidades de muestreo o un
procedimiento para llegar a los entrevistados con una probabilidad conocida.

En el muestreo no probabilístico, los costos y los problemas para desarrollar


un marco de muestreo son eliminados, pero también lo es la precisión con la
cual puede ser presentada la información resultante. De hecho, los resulta-
dos pueden contener sesgos ocultos y dudas que los hacen peores que el no
tener ninguna información. Estos problemas, deben hacerse notar y, no quedan
resueltos incrementando el tamaño de la muestra. Por esta razón, los expertos
en estadística prefieren evitar los diseños del muestreo no probabilístico; sin
embargo, frecuentemente son usados en una forma legítima y efectiva, sobre
todo en una investigación exploratoria.

En la presentación resumen mod3 IC 2 encontrará más detalle sobre varios


de los muestreos no probabilísticos, lo invito a revisarlo.

Podrá visualizar la presentación desde su plataforma

Determinación del tamaño muestral

Hemos desarrollado hasta aquí, las distintas maneras que tenemos de seleccio-
nar las unidades de la muestra, ahora veremos el otro aspecto en el muestreo que
es determinar la cantidad de elementos que se deben seleccionar en la muestra.8

8 En rigor de verdad, primero se debe determinar el tamaño muestral y luego elegir el método
de selección, la presentación de estos temas en el desarrollo del módulo sólo responde a una decisión de
didáctica, considerada conveniente para un mejor aprendizaje de los mismos.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 92


Cabe aclarar que, en el cálculo del tamaño de la muestra, influyen tres factores,
a saber:

• El nivel de confianza con el que se harán las estimaciones de los pará-


metros poblacionales.
• El error tolerable máximo admitido en el muestreo.
• La variabilidad de la población.

Aclaremos un poco más estos aspectos

El nivel de confianza, que se lo simboliza 1- α, es una probabilidad cuyos valores


estándar (o más usados) son 0,90; 0,95 ó 0,99.

El nivel de confianza se lo suele expresar en términos de porcentaje, entonces,


se puede decir que la confianza en la estimación del parámetro se hará con un
95%, por ejemplo.

El error tolerable máximo, que se lo simboliza con “e”, se refiere a la máxima


cantidad en que difiere el estimador (del parámetro en cuestión) del valor del
parámetro.

Se refiere a la máxima diferencia que el investigador admite entre el estimador y


el parámetro.

La variabilidad de la población se refiere a la dispersión de la población, la


medida que lo refleja es la varianza (concepto que ya se estudió en el módulo 3
de la materia Estadística I).

Es importante destacar que se deberá decidir a partir de qué parámetro a estimar


se calculará el tamaño de muestra.

Los dos parámetros que se usan en el muestreo, para determinar el tamaño


muestral, son la μ (la media poblacional) o P (la proporción poblacional).

Los estimadores muestrales que se utilizarán para cada parámetro, son respec-
tivamente: y

A esta altura es necesario definir la proporción poblacional y la proporción muestral.

En muchas oportunidades es necesario estimar la proporción de individuos o


elementos que presentan cierta característica o cualidad en la población.

Supongamos por ejemplo que, en una investigación del área de la educación


física, el interés es estimar la proporción de profesores de educación física, de
la provincia de Córdoba, que les interesa hacer una especialización en salud.
Entonces el parámetro que se desea estimar es la proporción poblacional (P),
cuando se encara la investigación ese parámetro es desconocido y como tal se lo
quiere estimar a través de los datos muestrales; supongamos que por un estudio
similar que se realizó en otra provincia se conoce que el porcentaje de profesores
de educación física que desea especializarse en el área de salud fue del 60%.

La proporción se calcula haciendo el cociente entre los casos favorables sobre


el total de casos, es decir, en el ejemplo anterior, la proporción se calcula así:

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 93


120
𝑃𝑃 = = 0,60
200
En este caso si el total (N) de profesores de educación física es de 200, y 120
están interesados en especializarse en salud, la proporción es 0,60 o bien el 60%.

Con respecto al parámetro media poblacional (μ), que ya es conocido por usted,
vamos a recordar que se calculaba de la siguiente manera:
∑ 𝑥𝑥𝑖𝑖
𝜇𝜇 =
𝑁𝑁
Habiendo planteado los dos parámetros a partir de los cuales y, cuya estimación
nos sirve para la determinación del tamaño muestral, la fórmula que se utiliza
para determinar la cantidad de unidades a seleccionar, teniendo en cuenta cuál
es el parámetro que se va a estimar en la investigación, es la siguiente:

Para cuando el parámetro a estimar es la media (μ)

𝑍𝑍 2 × 𝜎𝜎 2
𝑛𝑛 =
𝑒𝑒 2
Para cuando el parámetro a estimar es la proporción (P)

   𝑍𝑍 2 × 𝑃𝑃 × 𝑄𝑄
𝑛𝑛 =
𝑒𝑒 2
    

Identifiquemos los elementos que incluyen estas fórmulas.

• Z es un valor de la distribución Normal Estándar, ese valor es fijo y se


relaciona con la probabilidad asociada al nivel de confianza elegido para
las estimaciones de los parámetros.
• σ² es la varianza (medida de dispersión)
• e² es el error de muestreo o error tolerable máximo que se definió en la
investigación.
• P es la proporción poblacional de interés en la investigación.
• Q es el complemento de la proporción poblacional. También lo puede
encontrar simbolizado con 1 - P

A continuación, se presenta una tabla que relaciona los distintos niveles de con-
fianza más usados en las estimaciones para determinar el tamaño de muestra,
con los valores de la distribución Normal estandarizada, es decir los valores de
Z, que usted debe colocar en la fórmula del tamaño de muestra.

1-α Z
0,90 1,645
0,95 1,96
0,99 2,576

Tabla 1: Valores Z asociados a los niveles de confianza

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 94


Veamos la aplicación de este tema en el siguiente ejemplo:

Una agencia de publicidad quiere medir la proporción de la población que res-


ponde de manera favorable a un nuevo comercial de bebida saborizada adi-
cionada con minerales, ideal para deportistas. Se desea estimar la proporción
de respuestas favorables con una diferencia máxima del 4% y un nivel de con-
fianza del 95%. Se conoce además de una investigación similar que la agencia
de publicidad había realizado un año atrás, sobre una bebida energizante, que
la proporción de respuestas favorables hacia este tipo de comerciales fue del
70%. Se desea entonces, determinar cuál sería el tamaño mínimo necesario de
individuos a muestrear.

Los datos en este caso son:

• El parámetro, a estimar es la Proporción Poblacional (P)


• El error tolerable máximo (e) es del 4% = 0,04
• El nivel de confianza (1- α) es de 0,95 ó 95%
• El valor de Z asociado al nivel de confianza es 1,96
• La proporción poblacional (P) que sirve de referencia es 0,70 ó 70%

Aplicando la fórmula de determinación de tamaño de muestra para el caso de


estimar la proporción poblacional, el tamaño será:

1,962 ×0,70×0,30
𝑛𝑛 = 0,04 2
= 504,21

El resultado obtenido siempre se redondea hacia arriba para asegurar que se


cumplan con los criterios de determinación de la muestra, entonces, en este
caso el tamaño mínimo de casos a seleccionar será de 505 individuos. Esto se
expresa de la siguiente manera:
𝑛𝑛 ≥ 505

Ahora bien, en el caso que no se conociera como dato la proporción de respues-


tas favorables de una investigación anterior o bien esa proporción no nos sirviera
como referente por tratarse de un valor surgido de una investigación de caracter-
ísticas muy diferentes a la que se encara, en ese caso se considera como valor
de la proporción el 50%.

Entonces la fórmula anterior quedaría:

1,962 × 0,50 × 0,50


𝑛𝑛 = = 600,25
0,042

Por lo tanto, al redondear esa cantidad, el tamaño muestral sería de por lo menos
601 individuos.

Como se puede apreciar cuando menos información conocemos de la población,


mayor es el tamaño de muestra que se necesita, justamente para asegurarnos
que los elementos que queden incluidos en la misma, cubran las características
de la población.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 95


Si se conoce el tamaño de la población, esto influye en la determinación del tamaño
muestral, de la siguiente manera, la fórmula anterior pasa a ser el paso previo y se
la simboliza con y el tamaño definitivo se calcula con la siguiente fórmula:

𝑛𝑛0 × 𝑁𝑁
𝑛𝑛 =
(𝑁𝑁 − 1) + 𝑛𝑛0

Calculemos ahora el tamaño muestral en nuestro ejemplo, considerando que el


tamaño de la población a la que va dirigido el comercial son 1500 personas (N=
1500):

• Si la proporción poblacional es conocida, el

505 × 1500
𝑛𝑛 = = 377,99 ≥ 378
(1500 − 1) + 505

• Si la proporción poblacional es desconocida, el

601 × 1500
𝑛𝑛 = = 429,28 ≥ 430
(1500 − 1) + 601

Lo invito a probar qué pasaría si se cambia alguno de los factores involucrados


en la fórmula de cálculo de la muestra -por ejemplo; si el error sube al 10%, o si
baja al 2%, si el nivel de confianza sube al 99%- manteniendo constante el resto
de los factores. ¿Se anima?

Cabe aclarar que la fórmula que se aplica cuando conocemos el tamaño de la


población (N) se usa tanto cuando determinamos el tamaño muestral, para esti-
mar la proporción poblacional, como para cuando se estima la media poblacional.

Le dejo como desafío revisar, en el material básico, en el capítulo sobre “esti-


mados y tamaño de muestras”, en apartado relativo a la “determinación del
tamaño de muestra requerido para estimar μ”; cómo determinar el tamaño
muestral para el caso en que el parámetro a estimar en la investigación se
trate de la media poblacional. De seguro le será sencillo, primera de las fór-
mulas (de cálculo de tamaño de muestra) es la que deberá utilizar.

En el módulo anterior y en la primera parte de éste, se presentaron temas vin-


culados al campo aleatorio o probabilístico, por ello se estudió lo relativo a la
probabilidad y al muestreo; ahora se plantearán los conceptos básicos de la otra
rama de la estadística, la Inferencial que trabaja con probabilidades y muestras.9

9 Cabe aclarar que en este módulo solamente veremos los conceptos teóricos acerca de Inferencia
Estadística, la parte práctica de Inferencia queda fuera del alcance de este curso.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 96


Recordemos qué es la Estadística Inferencial o Inferencia Estadística

Estadística Inferencial es aquella rama de la estadística mediante la cual se trata


de sacar conclusiones de una población en estudio, a partir de la información que
proporciona una muestra representativa de la misma. También es denominada
Estadística Inductiva o Inferencia Inductiva ya que usa procedimientos para
generar nuevo conocimiento científico.

El estudio de los temas de este módulo lo podrá hacer desde la bibliografía


recomendada como material complementario “Estadística para las ciencias
sociales, del comportamiento y de la salud” de Haroldo Elorza Pérez-Tejada,
en el capítulo correspondiente a “conceptos básicos de la inferencia”

No es la intención en este módulo enseñar la parte deductiva y algebraica de


manera exhaustiva, ya que usted será usuario de los métodos inferenciales y no
es preciso profundizar en aspectos meramente técnicos que pertenecen exclusi-
vamente al mundo de las matemáticas.10

Le recomiendo prestar atención a los conceptos básicos e indispensables


que debe conocer sobre la Inferencia Estadística, a saber:
• Qué es hacer inferencia estadística.
• Cuáles son los principales métodos hacer inferencia: Estimación versus
prueba de hipótesis, diferencias, qué busca cada procedimiento.
• Estimación puntual y por Intervalos.
• Nivel de confianza.
• Cómo se interpreta un Intervalo de Confianza.
• Tipos de pruebas estadísticas: unilaterales y bilaterales.
• Hipótesis Nula y Alternativa.
• Tipos de errores: Error Tipo I y Error tipo II.
• Nivel de significación de la prueba.
• Cómo se concluye en las pruebas de hipótesis.

10 Por lo tanto, cuando ustedes encuentren desarrollos matemáticos y ejemplos resueltos (con
cálculos) en el material de lectura sugerido, no los tengan en cuenta. En este módulo se hará hincapié en que
ustedes conozcan y sepan distinguir los procedimientos básicos de la Estadística Inferencial, como lo son la
estimación y la prueba de hipótesis y cuál es la función de cada uno.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 97


Lo invito a ver el siguiente video https://www.youtube.com/watch?v=1uPk_
zwd1J8 es breve y en él que se presentan de manera sencilla los temas de
este módulo. Si bien el video es realizado en Colombia (de allí los ejemplos)
presenta los conceptos básicos de la Estadística Inferencial.

Podrá visualizar la presentación desde su plataforma

Luego de leer los temas que se estudian en este módulo, le sugiero – como
se hizo en los módulos anteriores- ver el resumen resumen mod3 IC 2 que
le permitirá recordar y fijar los puntos y temas principales.

Podrá visualizar la presentación desde su plataforma

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 98


Le recomiendo que realice las actividades propuestas para este módulo, le
ayudarán a consolidar todos los temas con ejemplos y casos prácticos de su
área profesional. Recuerde que las mismas cuentan con asistentes académi-
cos y clave de corrección.

Usted ya está en condiciones con lo visto en este módulo de realizar la


segunda parte de la evaluación integradora.

Me gustaría cerrar este módulo y la materia, con palabras de John Wilder Tukey
(1915-2000) quien fuera uno de los grandes talentos estadísticos del Siglo XX,
con importantes contribuciones, pudiendo ser considerado como el padre de la
aproximación exploratoria del análisis de datos.

La máxima más importante a la que el análisis de datos debe prestar atención,


y una de las que muchos estadísticos parecen haber olvidado, es ésta: “Mucho
mejor una respuesta aproximada a una pregunta correcta, que es a menudo
vaga, que una respuesta exacta a la pregunta errónea, que puede hacerse
siempre de forma precisa”. El análisis de datos debe progresar aproximando
respuestas, en el mejor de los casos, ya que su conocimiento de lo que es
realmente el problema será, en el mejor de los casos, aproximado.

Habiendo terminado este recorrido lo invito a ver el video de cierre.

Podrá visualizar el video presentación desde su plataforma

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 99


m3 | contenidos | IC

información complementaria 1

TABLA DE NUMEROS ALEATORIOS

75421 11182 31304 08036 86922 77941 88944 30226 60766 90951
06692 19591 14171 04356 06744 46546 99184 97684 43285 86345
06065 12379 70386 09035 90126 74677 39885 84335 09442 21772
01098 06343 88773 94702 07203 60936 54445 12423 64560 99694
93526 56837 42025 45578 95193 97695 53146 51370 79913 83145
85129 31088 36253 40011 32078 72245 58783 47555 55681 45450
74312 81501 94303 30800 60660 69979 57625 00050 69795 15120
67348 11345 13361 40573 75687 78415 42407 97830 98089 98605
29241 77892 67728 60876 53046 75840 18933 18108 73509 76958
04366 94984 95131 22993 17240 63185 54786 31607 50705 61581
54205 61584 99698 74013 88263 96563 18003 77390 05762 40975
52801 44366 19745 74219 20982 91400 50685 56541 68392 96624
02573 59494 26362 40769 39340 19677 16923 04761 65952 03630
15896 32426 64984 99029 58073 28814 44849 39871 00825 29966
26032 33340 54573 55786 75383 14546 27499 43894 86358 19706
41349 18921 50835 65861 79521 38319 33999 74851 97319 17221
31246 35797 89051 36319 38137 11101 02808 36771 63163 00816
55704 87671 81967 18984 94617 89097 91625 49172 07106 06218
09107 53117 75664 25300 38186 29702 73632 77044 08238 08097
53779 05917 99367 58743 33981 66547 45685 11168 81086 29458
05252 99475 70537 29636 46984 49231 73571 64092 26162 26361
92966 81458 79792 39399 19278 20247 45367 76937 64563 23930
08109 88529 70116 11782 24198 68334 83184 26202 49315 38471
53118 70359 28973 95173 29213 29969 00445 24846 50957 80443
60924 44136 71034 80642 62977 93957 21006 66422 96753 69814
11151 59784 77446 64703 22038 40357 57749 62349 88018 20160
32731 14203 36222 13436 16935 26412 09878 27931 54679 35275
04037 48341 95595 26036 57521 16245 71204 44232 09527 49083
75807 89169 30622 23911 73689 50718 33796 30145 97763 75437
93509 65893 82351 54938 26829 04823 71697 46159 43465 99159
93528 38008 53069 29029 36617 09019 95758 52955 75018 83253
10603 93078 11673 36373 71957 89710 15378 52022 57934 86236
99155 30214 58351 16606 08569 19665 22531 58753 22759 90501
97268 87653 40124 51615 27365 26827 70255 23368 78952 05514
93564 66965 91850 25093 53517 39997 17521 54074 76743 11610
06959 27612 66188 19351 17367 84340 00247 49881 01997 33756
13172 61241 53558 59919 15082 75692 41138 22677 55844 70034
03690 57173 38889 03032 69496 42566 23096 43416 78732 12420
38005 70085 74744 32644 88440 12489 39538 64712 92792 51310
28758 45596 59049 79799 68763 49827 52854 76334 99237 11388
84260 58136 31250 88953 04929 06903 21175 42463 15227 15205
77800 77252 68397 37935 53941 59771 92875 37004 57044 18210
99505 24764 22807 54083 90303 43362 71223 96233 88058 03268
53803 68932 38510 87838 68543 73671 57403 50077 63351 55781
68379 47885 33501 10666 74222 81999 16699 51745 84672 11640
30033 45809 69655 31679 56931 40579 53867 22586 00794 67305
73888 69685 91050 60898 06171 01165 04192 03700 27979 76516
50935 51867 76172 52543 38383 43396 67775 68868 15571 78654
04689 09839 31801 18560 21328 87664 08203 82426 23946 82792
65860 84568 88383 49927 52267 63736 01964 86914 14949 55467

Fuente: Robert Mason y Douglas Lind.- Estadística para administración y Economía.- Edición 10°.- Año
2001.-

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 100


m3 | contenidos | IC

información complementaria 2

ESTADÍSTICA II

Módulo III

Profesora: Carla Carrizo Stauffer

DISEÑO Plan
significa

…como plan global de investigación que intenta


Se define: dar de una manera clara respuestas a preguntas
planteadas en la misma. Se acentúa el énfasis en
la dimensión estratégica del proceso de
investigación.

Lo importante no es ya qué investigar sino cómo hacerlo

El diseño de investigación es el Plan de Acción

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 101


¿Qué? ¿Cómo?
¿Con qué?

¿Cuántos ¿Cómo se Diseño de


elementos? seleccionarán? muestreo

Diseño de muestreo

Plan de Muestreo:
Pasos
Delimitación de Elección del Determinación
la población marco de del tamaño
objetivo muestreo muestral

Definir la Elección del


Seleccionar la
estrategia de método de
muestra
abordaje muestreo

Definir los
procedimientos
de estimación

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 102


Tipos de muestreos
Probabilísticos No probabilísticos
• Cada muestra tiene una • Las unidades se eligen según el
probabilidad conocida de ser juicio del investigador, por lo que no
seleccionada. se conoce la probabilidad que tiene
• Permite medir la precisión y la muestra de ser seleccionada.
por lo tanto la confianza de las • No se puede calcular el error de
estimaciones realizadas. estimación en términos de
• Permite demostrar la probabilidad.
representatividad de la • No se puede saber si el estimador
muestra. utilizado es preciso o no.
• Hace posible la identificación • No se necesita de un marco
más explícita de las posibles muestral ni de pasos en el diseño.
desviaciones. Esto elimina la precisión en los
• La teoría de probabilidades resultados.
permite al investigador calcular • Los problemas mencionados no se
cualquier sesgo de estimación solucionan incrementando el tamaño
y determinar qué variaciones de la muestra.
en la estimación se debe al • Los resultados pueden tener sesgos
procedimiento de muestreo. ocultos que los hacen más
peligrosos que el hecho de no
contar con información.

Muestreos Probabilísticos

Aleatorio
Simple
Sistemático

Por
Estratificado
Conglomerados

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 103


Muestreos No probabilísticos

A propósito

Por cuotas Accidental

Por
Conveniencia

Bola de De Juicio o
Nieve Criterio

Muestreos No -El tamaño de la muestra como la


Probabilísticos elección de los elementos están
sujetos al juicio del investigador.
De Juicio o - La experiencia y conocimiento juega
Criterio un papel importante.
- La muestra se conforma con los
elementos que a juicio del investigador
son representativos.

Por Conveniencia -Conformada sólo con los elementos disponibles


o con los más dispuestos, “los que se tenga a
mano”.
- Los resultados solo hacen referencia a las
unidades seleccionadas.
- Es útil en las pruebas piloto.
Accidental
- La muestra queda conformada por sujetos cuya
representatividad es limitada.
-Ej: programas de radio o de televisión que hacen encuestas y al
finalizar el programa dan los resultados.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 104


Muestreos No - Se utiliza cuando se considera que la distribución del tema de
estudio en un área más grande presenta la misma distribución
Probabilísticos que en un área más chica y ésta se toma como muestra.
- En ocasiones son los expertos los que hacen una selección a
A Propósito propósito cumpliendo el objetivo de que los integrantes de la
muestra cumplan algún requisito.

- Busca obtener muestras ciertamente representativas en cuanto a la distribución de algunas


variables relevantes en la investigación. Se construye un modelo a escala de la población.
Por cuotas - El procedimiento es:
a) Identificar las variables relevantes de posible influencia sobre el fenómeno en estudio.
(sexo, edad, escolaridad, etc.)
b) Recabar información sobre la distribución de dichas variables en la población.
c) Distribuir la cantidad de casos en función de las variables de manera porcentual.
El sesgo se introduce en la selección de los casos en estudio (sesgo del entrevistador)

a) Elección de uno o varios elementos para el inicio del “levantamiento”. Este punto es crucial
y ahí se define directa o indirectamente la composición final de la muestra.
Bola de b) A cada uno de los elementos encuestados o entrevistados se le pide referencia de otro
Nieve o elemento que cumpla con las características. Esas referencias son los siguientes integrantes
de la muestra.
Selección por c) Se sigue agregando referentes hasta cuando se considera que un nuevo referente no
redes aporta nada diferente.
Por tanto la composición de la muestra se conocerá al final.

Problemas de no respuesta
La falta de respuesta puede ser un serio problema.
Algunos integrantes de la muestra se Significa, desde luego, que el tamaño de la muestra
convierten en individuos que no responden tiene que ser lo suficientemente grande para dar
porque: espacio a la “no respuesta”. Si se necesita un tamaño
 Se rehusan a contestar; muestral de 100 y sólo se espera que responda el
 Falta de capacidad para contestar; 50%, entonces se necesitarán identificar a 200
 No están en casa o personas como miembros posibles de la muestra.
 Son inaccesibles. Segundo y más serio, es la posibilidad de que aquellos
que respondan difieran de los que no responden de
una forma significativa, creando de este modo sesgos
de los resultados.

Otras alternativas son:


¿Qué puede hacerse acerca del problema de la no - Repetir el contacto, para tratar de reducir la no
respuesta? respuesta por ejemplo, si se ha seleccionado
Una tendencia natural consiste en reemplazar a cada dentro de la muestra a una vivienda y en la
persona que no conteste con un miembro “similar” de la primera visita no se encuentra a nadie es
muestra. Por ejemplo, si se incluye una casa en la conveniente repetir esa visita dos o más veces
muestra pero, el residente no está en casa, puede o si la entrevista es telefónica y al primer
sustituirse por un vecino. llamado no se obtuvo respuesta convendrá
insistir nuevamente.
- Tratar de estimar el sesgo de no respuesta.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 105


Cómo generar números aleatorios con Excel para
seleccionar una muestra aleatoria simple

Pasos …

Tener en cuenta el tamaño de la


población.
Ejemplos:
Si N=500, entonces el valor superior
que se ingresa es 500
Si N=1200, entonces el valor superior
que se ingresa es 1200

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 106


Los números se actualizan cada
vez que se estira (hacia alguna
dirección, desde +

Tamaño Muestral

Nivel de confianza 1-α


Factores
Error tolerable máximo e

Variabilidad de la población Dispersión

Parámetro Media Poblacional Parámetro Proporción Poblacional


µ P

Z2  2 Z2  PQ
n n
e2 e2

N  n0
n
N  1  n0

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 107


Procedimientos de Inferencia
Estadística

Prueba de
Estimación
Hipótesis

Para una
Puntual
población

Por Para dos


Intervalos poblaciones

Para tres o
más
poblaciones

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 108


El valor del estadístico de la muestra se usa
Puntual como estimador directo del parámetro.

Estimación
Se abre un Intervalo de Confianza que con cierta probabilidad
contiene al valor del parámetro.

Por
Intervalos
Estructura del Intervalo de Confianza:
𝑰𝑰𝑰𝑰 = 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 ± 𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬𝑬 𝒅𝒅𝒅𝒅 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆

Pruebas de Hipótesis

Tipos de Pruebas Tipos de Errores

Error Tipo I
Bilaterales (Rechazar la
Hipótesis Nula
cuando es Verdadera)

Unilaterales Error Tipo II


(No rechazar la
(Derecha o Hipótesis Nula
Izquierda) cuando es Falsa)

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 109


Pasos para realizar una Prueba de Hipótesis

1ro. • Establecer las hipótesis: H0 (Hipótesis Nula) y H1(Hipótesis Alternativa)

• Establecer el nivel de significación.


2do.

• Establecer el estadístico de prueba.


3ro.

• Establecer las zonas de rechazo y de no rechazo de la Hipótesis Nula


4to. • Establecer el valor crítico del estadístico.

• Calcular el estadístico de prueba con los datos muestrales (valor


5to. observado).

• Comparar le estadístico observado con el valor crítico. Ver en qué zona cae (si de
6to. rechazo o no de la H0).

• Toma de decisión.
7mo. • Conclusión.

Decisiones en las Pruebas de Hipótesis

Situación
H0 Cierta H0 Falsa
No Rechazar H0 Decisión Decisión
Correcta Incorrecta
(Error Tipo II)
Decisión

Rechazar H0 Decisión Decisión


Incorrecta Correcta
(Error Tipo I)

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 110


La estadística le brinda
herramientas para la toma
de decisión en su profesión.

• Solo se abrieron algunas puertas…


• Quedan muchas más por abrir…

Éxitos!!!

m3 material

Material básico

• TRIOLA, Mario F. Estadística. México, Pearson, 10ma. ed., 2009.

Material complementario

• ELORZA PÉREZ – TEJADA, Haroldo. Estadística para las ciencias sociales,


del comportamiento y de la salud. México, CENGAGE Learning, 3ra.ed., 2008.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 111


m3 actividades

m3 | actividad 1

De muestreo se trata

Hoy fue un largo día, estudiando a la mañana y dando clases en el club hasta recién.

Llegando a la puerta presto a volver a su casa, se cruza con Augusto su amigo y


socio que le comenta que los últimos resultados que le envió a partir de la tabla
cruzada que le ayudó a armar a María sirvió mucho. Además, le dice que hace
unos días que tiene ganas de tener una reunión tanto con usted como con ella,
así charlan sobre el club, cómo captar más gente, qué cambios introducir en las
actividades, etc.

A usted le pareció muy buena la idea y, además, está muy contento puesto que
ve los frutos de su esfuerzo y además comprueba que la estadística es una cien-
cia aplicada, ¡¡qué cierto era lo que nos decía la profesora cuando nos presentó
la materia!! – piensa-

De camino a casa, va pensando en lo conversado con su amigo y se dice a sí


mismo: es cierto, el club viene funcionando muy bien, pero debemos pensar
cómo posicionarlo mejor en el mercado, los servicios que brindamos son muy
buenos y contamos con excelentes profesionales tanto en la actividad física
como en el área de nutrición, el capital humano con el que contamos es el mejor
pero, si queremos apuntar a diferentes nichos, sería bueno encarar una investi-
gación de mercados.

Usted sabe que esta tarea necesita de la estadística y por supuesto deberá
apelar al muestreo.

Le propongo entonces que piense en un posible


marco de muestreo desde su área (la actividad física
y el deporte) y que seleccione una muestra repre-
sentativa de personas a quienes destinaremos la
nueva promoción para que concurran al club.

¡¡¡Otro desafío en puerta!!!

Pensando en cómo armar el marco muestral, se acuerda que otro profesor


que trabaja en un centro recreativo de la ciudad, hace unos días cuando se
encontraron en un asado de amigos, le comentó que varias de las personas
que concurren al centro de recreación le habían realizado consultas más espe-
cíficas sobre nutrición, alimentación saludable asociadas a la actividad física.

De inmediato busca su número y le envía un mensaje por WhatsApp.

A los pocos días usted cuenta con una base de datos IC 1 que había armado
su amigo y que le va a servir para el marco muestral y seleccionar una muestra
para mandarle información de las actividades y promociones que lanzará el club.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 112


Para llevar adelante la tarea, tiene la posibilidad de aplicar las técnicas de mues-
treo. A 1

C 1

m3 |actividad 1 | IC

información complementaria

Base de datos para la muestra Actividad 1 módulo 3


Edad Sexo ¿Realiza Actividad Física?
20 masc. SI
27 masc. SI
37 masc. NO
18 masc. SI
17 fem. SI
18 masc. SI
22 masc. SI
31 masc. NO
38 masc. NO
32 masc. SI
35 masc. SI
19 fem. SI
16 fem. SI
37 fem. NO
27 masc. NO
52 fem. NO
59 fem. NO
34 fem. NO
28 masc. SI
50 masc. NO
20 masc. NO
20 masc. SI
33 masc. SI
64 masc. NO
34 fem. NO
24 masc. NO
25 fem. NO
23 masc. NO
32 masc. SI
55 masc. NO
21 masc. NO
40 fem. SI
59 masc. NO
26 masc. NO
30 masc. NO
21 masc. NO
23 masc. NO
22 masc. NO
33 masc. NO
54 masc. NO
21 fem. NO
33 fem. SI
24 fem. SI
22 masc. SI
23 masc. NO
28 fem. NO
49 fem. NO
31 fem. NO
24 fem. NO
29 fem. SI
45 fem. NO
33 masc. SI
64 masc. NO

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 113


34 fem. NO 23 fem. SI
20 fem. NO 22 fem. SI
60 fem. NO 25 fem. NO
22 masc. SI 38 fem. SI
21 masc. SI 31 fem. NO
34 masc. NO 30 masc. NO
30 masc. NO 22 masc. SI
38 fem. NO 23 masc. NO
26 masc. NO 27 masc. NO
60 masc. NO 27 masc. NO
22 masc. NO 25 masc. NO
21 masc. NO 28 fem. NO
31 fem. NO 29 fem. SI
23 masc. NO 47 fem. NO
38 masc. SI 22 fem. NO
26 masc. NO
31 masc. NO
35 fem. SI
20 fem. NO
21 fem. NO
21 fem. NO
29 masc. NO
22 masc. NO
29 masc. NO
24 fem. NO
44 masc. NO
45 masc. NO
42 masc. NO
23 fem. NO
36 fem. SI
20 masc. NO
45 masc. NO
22 masc. NO
21 fem. NO
20 fem. NO
45 fem. SI
24 fem. SI
27 masc. NO
21 fem. NO
31 masc. NO
42 masc. SI
31 masc. SI
28 fem. NO
21 fem. NO
45 fem. NO
32 masc. SI
22 masc. SI
35 masc. SI
45 masc. SI
20 masc. NO
24 masc. NO
20 masc. NO
23 masc. NO
63 masc. NO
20 masc. NO
28 masc. NO

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 114


m3 |actividad 1 | AA

asistente académico

La base de datos que le envía su amigo le sirve de marco muestral para selec-
cionar una muestra.

Se le sugiere que aplique las fórmulas estadísticas para la determinación del


tamaño muestral (para ello deberá decidir con qué nivel de confianza y con qué
error tolerable trabajará) y luego, seleccione la muestra.

Dado que la base tiene información sobre una variable relevante (la práctica de
actividad física) se le sugiere que segmente la base según esa variable y luego
seleccione una muestra aleatoria simple, para ello recuerde que puede hacer
uso de la tabla de números aleatorios que se encuentra en este módulo.

m3 |actividad 1 | CC

clave de corrección

A partir de una población determinada es posible seleccionar muchas muestras


de un mismo tamaño, es por ello que es usted quien deberá seleccionar la mues-
tra usando la tabla de números aleatorios sobre la base de datos de su amigo, la
que le servirá como marco de muestreo.

Recuerde que primero tiene que estratificar la base en quienes practican y quienes
no practican actividad física y podrá utilizar una afijación proporcional, por ejemplo.

Luego dentro de cada estrato seleccione una muestra aleatoria simple.

Si bien en este caso se le sugiere segmentar según la variable “práctica de acti-


vidad física”, usted puede hacerlo por otro criterio, por ejemplo, según la edad,
para lo cual primero será conveniente armar los estratos por grupos etarios.

Recuerde que en esta etapa es muy importante el criterio estadístico de la mano


de su experiencia en la disciplina que le es específica a su profesión.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 115


m3 | actividad 2

De tamaños muestrales se trata

Recientemente el club generó su propia


página de Internet y Facebook.

De la lluvia de ideas que realizaron en la


reunión con sus socios y amigos, surgió
la posibilidad de hacer un muestreo con
los que consultan la página y son amigos
en Facebook.

Todo esto en pro de consolidar al club en


el campo de la actividad física y la alimen-
tación saludable.

La idea es hacer un muestreo con los visitantes a la página de Internet y al Face-


book del club, para testear cómo están funcionando estas vías y para invitarlos a
visitar nuestro club con muy buenas promociones y descuentos.

Su amigo estuvo explorando y encontró que un estudio de mercado reciente da


cuenta que aproximadamente el 40% de los usuarios de Internet consultan pági-
nas relacionadas con temas de nutrición y actividad física. Él considera que sería
pertinente tomar este dato como referente y determinar la cantidad de casos que
necesitaríamos muestrear para estimar la proporción de usuarios de Internet que
se interesan por las actividades y servicios de nuestro club.

Usted sugiere trabajar con un nivel de confianza del 90% y un error muestral del 3%.

A esta altura se siente más que seguro


para encarar la tarea.

El tema de muestreo le interesa sobre-


manera. A 1

Enseguida se pone a trabajar. C 1

¡Éxitos!

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 116


m3 |actividad 2 | AA

asistente académico

Para resolver este caso y calcular el tamaño de muestra le recomiendo revisar las fór-
mulas estadísticas para la determinación del tamaño muestral vistas en este módulo.

Tenga presente que para elegir la fórmula correcta debe identificar primero el
parámetro poblacional que se va a estimar; en este caso es la proporción pobla-
cional de personas usuarias de Internet que están dispuestas a concurrir al club.

Para esta ocasión se cuenta con información que puede tomarse como refe-
rencia en el cálculo, es decir se puede usar como parámetro poblacional en la
fórmula, el 40% de otro estudio que sirve a estos fines.

Recuerde que, si no se posee este tipo de información previa o valor de referen-


cia, se trabaja con una proporción de 0,50.

El error tolerable máximo en este caso es el 3% y el nivel de confianza del 90%,


esta probabilidad está asociada a un valor de la distribución Normal Estandarizada.

m3 |actividad 2 | CC

clave de corrección

Con los datos proporcionados para este caso la fórmula a utilizar en el tamaño
mínimo de muestra es:

𝑍𝑍 2 × 𝑃𝑃 × 𝑄𝑄
𝑛𝑛 =
𝑒𝑒 2

Reemplazando en la fórmula los valores, queda:

1,6452 × 0,40 × 0,60


𝑛𝑛 = = 721,61
0,032

Como mínimo se necesita seleccionar a 722 visitantes a la página.

Tenga presente en este caso que no se conoce el tamaño de la población, ya


que de ser así debería corregir el valor anterior incluyendo “N” y por lo tanto el
valor encontrado hasta aquí pasaría a ser el paso previo para llegar al tamaño
definitivo de muestra.

Le sugiero que prevea poder calcular otros tamaños alternativos de muestra igual-
mente representativos, que pueden determinarse cambiando los factores que
influyen en el cálculo, como por ejemplo en el error muestral o el nivel de confianza.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 117


m3 glosario

Censo: Estudio que abarca a las variables en toda una


población a un momento determinado.

Error de muestreo: Variación debida al azar entre mues-


tras elegidas de una población.

Error Tipo I: Probabilidad de rechazar la hipótesis nula


cuando es cierta.

Error Tipo II: Probabilidad de no rechazar la hipótesis nula cuando es falsa.

Estadístico: Medida resumen calculada a partir de los datos muestrales.

Estimación por intervalos: Véase Intervalo de confianza.

Estimación puntual: Procedimiento de estimación estadística en el que se usa a


un valor individual (estimador) para inferir sobre un parámetro poblacional.

Hipótesis: Afirmación comprobable derivada lógicamente de la teoría o de la


observación, puede confirmarse (no rechazarse) o rechazarse. Se somete a
comprobación.

Hipótesis Alternativa: Declaración que equivale a la negación de la hipótesis nula.

Hipótesis Nula: Aseveración hecha acerca de alguna característica o parámetro


de la población, que por lo general implica el caso de que no hay diferencias.

Inferencia: Proceso estadístico de extraer conclusiones respecto de la pobla-


ción a partir de los datos de una muestra.

Intervalo de confianza: Límites de dos valores, mínimo y máximo, entre los


cuales se considera que un parámetro poblacional está incluido con cierta con-
fianza o probabilidad.

Marco de muestreo: Lista de todos o casi todos los elementos de la población


de la que se selecciona la muestra.

Muestra no probabilística: Aquellas muestras en las que no se conoce la pro-


babilidad de inclusión de los elementos y no se conoce el error de muestreo con
el que se trabaja.

Muestra probabilística: Muestra extraída de una población, de tal forma que


puede estimarse la probabilidad de inclusión de las unidades y en la que es
conocido el error de muestreo.

Muestra: Subconjunto de una población objeto de estudio.

Nivel de confianza: Probabilidad estimada de que un parámetro de la población


esté dentro de un intervalo de confianza dado.

Nivel de significancia o significación: Probabilidad de cometer un error Tipo I


al realizar una prueba de hipótesis.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 118


Parámetro: Medida descriptiva calculada a partir de los datos poblacionales.

Población: El conjunto de todos los elementos de interés en determinado estudio.

Prueba de hipótesis: Método para probar afirmaciones hechas acerca de una


o más poblaciones.

Tabla de números aleatorios: Tabla que contiene centenares de dígitos (de 0


a 9) dispuestos de tal manera que cada uno tenga la misma probabilidad de
ir después de cualquier otro, se usa para seleccionar muestras por el método
aleatorio simple.

e v a l uac ión

La versión impresa no incluye la actividad obligatoria. La misma se encuentra


disponible directamente en plataforma.

EDUBP | EDUCACIÓN FÍSICA| Estadística II - pag. 119

También podría gustarte