Distribuciones Fundamentales para El Muestreo: Unidad 1
Distribuciones Fundamentales para El Muestreo: Unidad 1
Distribuciones Fundamentales para El Muestreo: Unidad 1
INGENIERÍA INDUSTRIAL
ESTADÍSTICA INFERENCIAL I
INTEGRANTES:
DE JESÚS BASILIO GRETTEL ARLIN _ 202150480246
GRUPO: ID-0301
1
Introducción
Cuando hablamos de distribuciones muestrales, nos referimos a lo que resulta de considerar ciertas muestras tomadas
de una población, con el fin de efectuar una generalización del resultado de la muestra a la población. Dentro del marco
teórico, se incorporó información concreta referente al tema, fundamentada por diversos libros, revistas y algunos sitios
web, la cual decidimos distribuir en los subtemas anteriormente mencionados.
Bien, la finalidad que se tiene mediante el desarrollo del tema es conocer más acerca de las distribuciones de medias
y lo que las conforma, respecto al objetivo de poder crear un panorama general a los lectores acerca del tema y
fortalecer sus herramientas ante problemas de probabilidad.
2
Índice
Introducción ............................................................................................................................................................ 2
1.1 Introducción a la Estadística Inferencial ..................................................................................................... 4
Importancia de la Estadística Inferencial ....................................................................................................... 4
Importancia de la toma de muestras ............................................................................................................. 4
1.2 Muestreo: Introducción al muestreo y tipos de muestreo ......................................................................... 5
Tipos de muestreo .......................................................................................................................................... 6
1.3 Teorema del límite central ........................................................................................................................... 8
Principales propiedades del teorema central del límite ................................................................................ 8
Tipos de muestras dentro del teorema de límite central .............................................................................. 8
1.4 Distribuciones fundamentales para el muestreo ........................................................................................ 9
Razones para el muestreo ............................................................................................................................. 9
Razones de muestreo y bases teóricas del muestreo................................................................................ 10
Tipos de muestro .......................................................................................................................................... 10
1.4.1 Distribución muestral de la media.......................................................................................................... 10
1.4.2. Distribución muestral de diferencia de medias .................................................................................... 12
1.4.3. Distribución muestral de la proporción................................................................................................. 14
1.4.4. Distribución muestral de la diferencia de proporciones ...................................................................... 17
1.4.5 Distribución t de student......................................................................................................................... 18
Metodología de la t-Student ......................................................................................................................... 18
1.4.6 La Distribución Muestral de la Varianza ................................................................................................ 19
Varianza Muestral ......................................................................................................................................... 19
1.4.7. Distribución muestral de la relación de varianzas ............................................................................... 20
Conclusión ............................................................................................................................................................ 21
Referencias ........................................................................................................................................................... 21
3
1.1 Introducción a la Estadística Inferencial
La Estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra
representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de
algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más
que eso, es decir, es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la
salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones
gubernamentales.
La estadística descriptiva: se dedica a la descripción, visualización y resumen de datos originados a partir de los
fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros
estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional,
gráfico circular, entre otros.
La estadística inferencial; se dedica a la generación de los modelos, inferencias y predicciones asociadas a los
fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los
datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas
a preguntas si/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de
futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis
de regresión). Otras técnicas de modelamiento incluyen series de tiempo y minería de datos.
La Estadística Inferencial puede dar respuesta a muchas de las necesidades que la sociedad actual puede requerir. Su
tarea fundamental es el análisis de los datos que se obtienen a partir de experimentos, con el objetivo de representar
la realidad y conocerla. Permite la recolección de datos importantes para el estudio de situaciones que se presentan a
diario y permite dar respuesta a los problemas de una forma útil y significativa.
El hecho es que la ciencia se basa en todo aquello que se pueda constatar empíricamente, es medible, cuantificable y
se puede hacer acopio de la información para armar cuadros estadísticos... una vez con la información acumulada
resultado de diversos experimentos verificables, se puede inferir a partir de la información estadística… en las ciencias
sociales ocurre algo semejante en tanto es con los datos que dan las encuestas que se puede armar o articular la
información estadística e inferir resultados a partir de una muestra que deberá ser estadísticamente representativa.
Es de gran importancia ya que con un muestreo de toda la población se puede examinar y sacar conclusiones en base
a una pequeña parte de la misma, dando por sentado que los resultados obtenidos en la muestra es de hecho
representativa de toda la población, una ventaja muy grande es que es mucho más sencillo trabajar con una pequeña
parte de un todo que con su totalidad. Además, en ocasiones, el muestreo puede ser más exacto que el estudio de
toda la población porque el manejo de un menor número de datos provoca también menos errores en su manipulación.
4
b) Es más rápido y económico para conocer los parámetros (características) de interés de la población.
c) Existe metodología clara y confiable para el muestreo (y tamaño de muestra).
La Inferencia Paramétrica consiste en obtener información sobre el parámetro θ a partir de la Muestra Aleatoria Simple
de Principales procedimientos inferenciales: estimación y contraste de hipótesis En términos generales, hay dos
grandes tipos de procedimientos inferenciales: Los procedimientos de estimación y los procedimientos de contraste de
hipótesis.
Teniendo en cuenta que las técnicas estadísticas a utilizar con cada uno de ellos serán diferentes, es importante saber
distinguir claramente cuando estamos ante un problema de estimación y cuando estamos ante un problema de
contraste de hipótesis, procedimientos inferenciales: estimación y contraste de hipótesis
Procedimientos de estimación: Su finalidad es proporcionarnos las herramientas necesarias para poder determinar
buenas aproximaciones (a los que llamaremos estimaciones) a aquellos valores desconocidos en la población (a los
que técnicamente se les denomina parámetros)
Se denomina muestreo al proceso por el que generamos las muestras. Una muestra es una parte (un subconjunto) de
la población, y se desea que la muestra sea lo más representativa posible de la población de la que procede. Sin
embargo, por muy cuidadosa que sea la selección de la muestra difícilmente será una representación exacta de la
población. Esto significa que su tendencia central, variabilidad, etc., aproximarán las de la población, pero habrá cierta
diferencia, que interesa sea lo menor posible. Un concepto clave de muestreo es el de representatividad: Los
procedimientos de muestreo tienen por objeto generar muestras lo más representativas posible de las poblaciones
dados los objetivos de la investigación y las circunstancias que afectan al muestreo.
Desde un punto de vista aplicado, se denomina muestreo el proceso de selección de la muestra o muestras a utilizar
para la investigación. Esto supone generar una o pocas muestras. Actualmente es de interés la selección de muestras
para la simulación informática de los procesos de muestreo, particularmente para la obtención de distribuciones
muestrales. En estos casos el número de muestras generadas puede ser muy grande (10.000, 80.000, o más) y el
procedimiento de muestreo se realiza informáticamente y con procedimientos específicos.
Desde un punto de vista teórico, el concepto de muestreo es fundamental para la Inferencia Estadística. El hecho de
que las muestras no sean exactamente representativas de las poblaciones significa que las inferencias presentan cierto
margen de incertidumbre. Para cuantificarlo y definir técnicas inferenciales es necesario conocer cómo se comportan
los estadísticos obtenidos en las muestras, esto es, cómo son las distribuciones muestrales de los estadísticos
habitualmente utilizados para la inferencia.
Las muestras singulares generadas para investigación con sujetos suelen utilizarse para obtener algunos estadísticos
(Media, proporción, cuasivarianza, etc.) con los que se realiza el proceso de inferencia. En cambio, las muestras
simuladas por ordenador suelen ser utilizadas para obtener distribuciones muestrales y realizar inferencia. Esto es de
interés cuando se dan circunstancias especiales que no aconsejan utilizar los procedimientos habituales. Las
distribuciones muestrales son las distribuciones de estadísticos de muestras que pertenecen a la misma población
Sea un curso con 40 estudiantes (el número de datos es pequeño para facilitar la comprensión del ejemplo). Queremos
conocer la Media de las puntuaciones del curso, pero por diversas razones no tenemos acceso a todos los datos (que
5
se denomina población). Pero supongamos que podemos seleccionar cinco puntuaciones aleatoriamente y obtener la
Media de la muestra. Si repetimos el proceso y generamos más muestras tendremos más Medias muestrales y
podremos ver cómo se distribuyen:
Población: 2 2 0 2 10 5 4 5 1 5 4 3 7 4 2 0 2 3 0 4 0 5 5 8 4 3 5 5 8 4 3 5 5 7 2 7 7 0 2 7 4 6 5 3 0
La Media de los datos seleccionados aleatoriamente (son las señaladas en negrita) es:
2 + 10 + 2 + 2 + 5
𝑋̅ = = 4.2
5
Si repetimos el procedimiento 25 veces generamos 25 muestras. Las Medias de cada muestra son:
4.2 3.6 4.6 3.6 3.6 4.0 4.4 3.8 3.2 3.2 3.2 5.8 2.6 4.0 2.8 3.8 4.2 4.0 3.2 1.6 4.8 3.8 3.0 3.4 3.2
La forma del Histograma se acerca a la del modelo Normal cuanto mayor es el número de muestras. Esta es una
característica de la distribución muestral de Medias que permite conocer si la media obtenida en la muestra es muy
diferente a la media de la población, dado que tenemos la siguiente información:
Tipos de muestreo
Este tipo de muestreo es uno de los más utilizados en las investigaciones. Se comprende que aquí todos los sujetos o
6
elementos de la población pueden pasar a formar parte de la muestra, pues tienen la misma probabilidad de ser
escogidos.
Mediante esta técnica de muestreo, en comparación del muestreo probabilístico las muestras no se recogen por medio
de procesos donde a los sujetos se les brinden las mismas posibilidades de ser seleccionados.
7
1.3 Teorema del límite central
El teorema del límite central (TCL) es una teoría estadística que establece que, dada una muestra aleatoria
suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución normal.
Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa, la media muestral se acercará a la
media de la población. Por tanto, mediante el TCL podemos definir la distribución de la media muestral de una
determinada población con una varianza conocida. De manera que la distribución seguirá una distribución normal si el
tamaño de la muestra es lo suficientemente grande.
Fórmula
En la definición de esta teoría, se habla de número de variables grandes. Esto se debe a que, en su definición, se dice
que n tiende a infinito. De esta manera, se establece la siguiente fórmula:
𝑋̅ − 𝜇
𝑍𝑛 = 𝜎
√𝑛
Principales propiedades del teorema central del límite
El teorema central del límite tiene una serie de propiedades de gran utilidad en el ámbito estadístico y probabilístico.
Las principales son:
El teorema de límite central declara que, sin importar la distribución, la suma de todas las variables aleatorias generadas
va a tender a una distribución normal o gaussiana. También se dice que las variables estudiadas no necesitan ser
obligatoriamente normales, pudiendo trabajar con cualquier tipo, y obteniendo un resultado con esta misma
distribución.
Otras de las declaraciones en torno a este teorema, afirma que es necesario que el tamaño de la muestra sea grande,
utilizando un número grande de variables. Al realizar la suma de todas estas, se asegura que el teorema se cumple, si
y solo si es igual a una distribución de Gauss. Si durante el estudio, se trabaja con la media, es válida la aplicación del
teorema de límite central, ya que se realiza la suma de todos los datos, y se divide entre una constante.
Se sabe que dentro del teorema de límite central se puede trabajar con distintas distribuciones, tendiendo el resultado
8
final a una distribución normal. Así mismo, puede aplicarse en distintas muestras, destacándose:
• Muestra de una población uniforme: una de las características propias de este tipo de muestra, es que posee
una distribución uniforme, convirtiéndola en una población simétrica. Según el teorema de límite central, se
considera aproximadamente normal a la distribución de las medias comprendida por 1000 muestras de tamaño
5.
• Muestra de una población exponencial: las características que identifican a una población exponencial es que
son asimétricas y no normal. Pero en este caso, el teorema de límite central asegura que es aproximadamente
normal la distribución de las medias comprendida por una muestra de 1000 de tamaño 50.
1- Las bolsas de sal envasadas por una máquina tienen 𝜇 = 500𝑔 y 𝜎 = 35𝑔. Las bolsas se empaquetaron en
cajas de 100 unidades. Calcular la probabilidad de que la media de los pesos de las bolsas de un paquete sea
menor que 495g. Calcular la probabilidad de que una caja de 100 bolsas pese más de 51kg.
Esto es:
𝜇𝑋 = 𝜇 = 500𝑔
𝜎 35
𝜎𝑋 = = 3.5𝑔 N (500,3.5)
√𝑛 √100
Calculamos a probabilidad
495−500
𝑝(𝑋 < 495) = 𝑝 ( ) = 𝑝(𝑧 < −1.43) = 𝑝(𝑧 > 1.43)
3.5
𝑝(𝑋 < 398) = 1 − 𝑝(𝑧 ≤ 1.43) = 0.0764
Calculamos la probabilidad
51000−5000
𝑝 (∑ 𝑥𝑖 > 51000) = 𝑝(𝑧 > ) = 𝑝(𝑧 > 2.86)
350
𝑝(∑ 𝑥𝑖 > 51000) = (1 − 𝑝)(𝑧 > 2.86) = 0.0021
Existen múltiples razones por las cuales se analiza una población a partir de una muestra, desde razones de logística
del trabajo de campo, (recolección de datos), hasta razones económicas y de viabilidad y factibilidad de una
9
investigación. Entre las razones para usar un muestre y no el análisis de la población completa se citan:
a. Recursos limitados. Analizar la población completa no siempre es posible. Realizar un censo resulta
muy costoso en términos de recursos económicos, tiempo y recursos materiales. Esto imposibilita
tener a tiempo la información acerca del fenómeno que está estudiando y por tanto retrasa las
acciones necesarias para un mejor resultado.
b. Escasez. Cuando la población es infinita o tan grande que imposibilita el análisis completo de dicha
población.
c. A veces se desconoce la población total o no se tiene una ubicación exacta de los elementos que
forman dicha población.
d. Pruebas destructivas. Es el caso en el que realizar el estudio sobre toda la población levaría a la
destrucción misma de la población.
e. El muestreo puede ser más exacto. Esto es en el caso en el que el estudio sobre la población total
puede causar errores por su tamaño o, en el caso de los censos, que sea necesario utilizar personal
no lo suficientemente capacitado; mientras que, por otro lado, el estudio sobre la muestra podría ser
realizado con menos personal pero más capacitado
A partir de las muestras seleccionadas de una población pueden construirse variables aleatorias alternativas, de cuyo
análisis se desprenden interesantes propiedades estadísticas. Las dos formas más comunes de estas variables
corresponden a las distribuciones muestrales de las medias y de las proporciones.
Debido a factores tales como el tiempo y el costo, los parámetros de una población o de un proceso suelen estimarse
basándose en estadísticos muestrales. Un parámetro es un valor representativo de una población o de un proceso,
mientras que un estadístico muestral es un valor representativo de una muestra. Para usar un estadístico muestral
como estimador de un parámetro la muestra debe ser una muestra aleatoria obtenida de la población.
Tipos de muestro
Probabilístico: Es requisito que todos y c/u de los elementos de la población tengan lamisma probabilidad de ser selec
cionados (azar). Se debe tener disponible un listadocompleto de todos los elementos de la población, a esto se le lla
ma marco de muestreo
• Aleatorio Simple
• Estratificado
• Sistemático
• Por Conglomerado
No Probabilístico: No se conoce la probabilidad que tienen los diferentes elementos de
la población de estudio de ser seleccionados.
• Por conveniencia
• Por cuotas
1.4.1 Distribución muestral de la media
La inferencia estadística trata de averiguar características de una población, a partir del estudio de una muestra.
Es decir, para conocer tendencias o datos de una población, como por ejemplo puede ser un país, como no es posible
encuestar a todo el país, lo que se hace es encuestar un conjunto de individuos que pertenezca a esa población o lo
que es lo mismo, una muestra de la población.
10
Queremos conocer cuál es la estatura media en un determinado país.
¿Qué tendría que hacer para obtener esta estatura media?
Pues para hacerlo exacto, tendría que medir a todos los habitantes del país y obtener la media.
Como no es posible hacer esto, lo que se hace es obtener una muestra de los habitantes del país y de este conjunto
de individuos calculo su media. Supongamos que sabemos que la altura de un determinado país sigue una distribución
normal de media 170 y desviación típica 12 N (170,12):
𝜇 = 170 𝜎 = 12
Ahora imaginemos que tomamos una muestra de tamaño N,
donde N es el número de personas y a estas personas les
calculo su media muestral. Si tomamos diferentes muestras y
vamos calculando su media muestral, obteniendo diferentes
Si nos detenemos a analizar estas dos curvas de distribución normal (la de la población y la de las muestras) vemos
que ambas tienen la misma media (170).
También vemos que la forma en la que se distribuyen las medias de una muestra es una curva normal mucho más
compacta, donde los valores están más cerca del valor central, por lo que la desviación típica de la curva normal de
las muestras será menor y se calcula mediante la siguiente fórmula:
La distribución normal de las medias muestrales tendrá la misma media que la población, pero la desviación típica
estará dividida entre raíz de N
11
1.4.2. Distribución muestral de diferencia de medias
Suponga que se tienen dos poblaciones distintas, la primera con media µ1 y desviación estándar σ1, y la segunda con
media µ2 y desviación estándar σ2. Más aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una
muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada muestra
y la diferencia entre dichas medias. La colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico .
Entonces la fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de medias que estará
distribuida aproximadamente de forma normal con media y varianza dadas por:
De aquí,
Si tanto n1 como n2 son mayores que o iguales a 30, la aproximación normal para la distribución de es muy
buena cuando las distribuciones subyacentes no están tan alejadas de la normal. Sin embargo, aun cuando n1 y n2
sean menores que 30, la aproximación normal es razonablemente buena excepto cuando las poblaciones no son
definitivamente normales. Por supuesto, si ambas poblaciones son normales, entonces tiene una distribución
normal sin importar cuáles son los tamaños de n1 y n2.
En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una escuela primaria se usará
una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para niños como para niñas los pesos siguen
una distribución normal. El promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras y
su desviación estándar es de 14.142, mientras que el promedio de los pesos de todas las niñas del sexto grado de esa
escuela es de 85 libras y su desviación estándar es de 12.247 libras. Si ̅̅̅
𝑋1 representa el promedio de los pesos de 20
niños y 𝑋2 es el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de
̅̅̅
los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas.
12
Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a dos compañías. Los tubos de
la compañía A tienen una vida media de 7.2 años con una desviación estándar de 0.8 años, mientras que los de la B
tienen una vida media de 6.7 años con una desviación estándar de 0.7. Determine la probabilidad de que una muestra
aleatoria de 34 tubos de la compañía A tenga una vida promedio de al menos un año más que la de una muestra
aleatoria de 40 tubos de la compañía B.
Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación estándar de 1.23km/L para la
primera gasolina y una desviación estándar de 1.37km/L para la segunda gasolina; se prueba la primera gasolina en
35 autos y la segunda en 42 autos.
a) ¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio mayor de 0?45 km/L que la segunda
gasolina?
b) ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0?65 y 0.83 km/L a favor
de la gasolina 1?
13
En este ejercicio no se cuenta con los parámetros de las medias en ninguna de las dos poblaciones, por lo que se
supondrán que son iguales.
La probabilidad de que la
diferencia en rendimientos
promedio en las muestras se
encuentre entre 0.65 y 0.83
Km/L a favor de la gasolina 1 es
de 0.0117.
Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la
proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de
proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que
la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico
proporción (p=x/n en donde “x” es el número de éxitos u observaciones de interés y “n” el tamaño de la muestra) en
lugar del estadístico media.
La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada
en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para calcular la probabilidad del
comportamiento de la proporción en la muestra.
14
Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma una muestra
aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la muestra de la gente que fuma cigarrillos
sea menor que 0.55.
Este ejercicio se puede solucionar por dos métodos. El primero puede ser con la aproximación de la distribución normal
a la binomial y el segundo utilizando la fórmula de la distribución muestral de proporciones.
También se debe de tomar en cuenta que el factor de corrección de 0.5 se está dividiendo entre el tamaño de la
muestra, ya que estamos hablando de una proporción.
La interpretación en esta solución estaría enfocada a la proporción de la muestra, por lo que diríamos que la
probabilidad de que, al extraer una muestra de 800 estudiantes de esa universidad, la proporción de estudiantes que
fuman cigarrillos sea menor al 55% es del 0.17%.
15
Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden presentar una reacción
adversa a él, más aún, se piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una muestra aleatoria de
150 personas con malestar estomacal usa el medicamento, encuentre la probabilidad de que la proporción de la
muestra de los usuarios que realmente presentan una reacción adversa exceda el 4%.
Se sabe que la verdadera proporción de los componentes defectuosos fabricadas por una firma es de 4%, y encuentre
la probabilidad de que una muestra aleatoria de tamaño 60 tenga:
16
1.4.4. Distribución muestral de la diferencia de proporciones
Dado que la proporción es un caso especial de la media aritmética, las propiedades de la distribución de muestreo de
la diferencia entre medias se pueden hacer extensivas a la diferencia entre proporciones bajo los siguientes supuestos:
Cuando estos supuestos se cumplen, la distribución de la diferencia de proporciones también es una distribución
probabilística en la que se indica la medida de la probabilidad con que se presentan las distintas diferencias entre
medias, presentan las siguientes propiedades:
1.- 𝐸(∆𝑝 ) = ∆𝑝 = 𝑃1 − 𝑃2 = 0
𝑃1 (1−𝑃)
2.𝜎𝑝1−𝑝2 = √ + 𝑃2 ? ?
𝑛1
3.- La gráfica de la distribución muestral de la diferencia entre proporciones es una curva normal, Cuando n→∞ y
p→0.5.
Así se puede decir que:
Se conoce que en una población estudiantil la proporción de mujeres que fuman se ha incrementado hasta ser del
67%. Por otro lado, la proporción de hombres que fuman en esa población ha disminuido hasta ser del 48%. Calcular
la probabilidad de que esa diferencia se incremente, dadas unas muestras de 45 estudiantes de cada sexo. Se infiere
que Δp =cero. Primero convertir el porcentaje a probabilidades 67%/100 = 0.67, 48%/100 = 0.48.
17
DATOS
𝑃1 = 67% = 0.67
1 − 𝑃1 = 1 − 0.67 = 0.33
𝑃2 = 48% = 0.48
1 − 𝑃2 = 1 − 0.48 = 0.52
𝑛1 = 45
𝑛2 = 45
La distribución “t” de Student es una distribución de probabilidad que surge del problema de estimar la media de una
población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias
muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones
cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una
muestra.
• Z es una variable aleatoria distribuida según una normal típica (de media nula y varianza 1).
• V es una variable aleatoria que sigue una distribución χ² con grados de libertad.
• Z y V son independientes
Metodología de la t-Student
1. Probar que cada una de las muestras tiene una distribución normal
2. Obtener para cada una de las muestras:
a. el tamaño de las muestras (n1 y n2),
b. sus respectivas medias (m1 y m2),
c. sus varianzas (v1 y v2)
3. Probar que las varianzas sean homogéneas
4. En caso de homogeneidad en esas varianzas:
a. Establecer la diferencia entre las medias: m1-m2,
18
b. Calcular la varianza común de las dos muestras.
vc = ((n1-1) v1 + (n2-1) v2) / (n1 + n2 - 2)
Es decir, la varianza común (vc) es igual a un promedio pesado de las varianzas de las dos muestras
en donde los pesos para ese promedio son iguales al tamaño, menos uno (n-1) para cada una de las
muestras.
c. con esa varianza común, se calcula el error estándar de la diferencia de las medias ESM= √ ((vc) (n1
+ n2) /(n1n2))
5. Finalmente, la t-Student es igual al cociente de la diferencia de medias entre el ESM anterior
6. De acuerdo con nuestra hipótesis nula y alterna se debe demostrar que existe diferencia entre las medias de
las muestras, se consulta una tabla de t-Student con grado de libertad igual a n1 + n2-2 y se calcula el valor
de P.
1.4.6 La Distribución Muestral de la Varianza
La comprensión del concepto de la distribución de la Varianza Muestral es fundamental para el correcto entendimiento
de la inferencia estadística. Una distribución de la población es la distribución de la totalidad de las medidas individuales
de una población, en tanto que una distribución muestral es la distribución de los valores individuales incluidos en una
muestra.
Se debe tener en cuenta su uso, para ciertos casos donde conlleva como principio valorar o estimas diferentes
actividades como: las desigualdades en ingresos, rentas y los riesgos en las inversiones; tratándose de una variable
aleatoria, contara con media y varianza. Si se extraen todas las muestras posibles de una población normal y cada
muestra se le calcula su varianza, se obtendrá la distribución muestral de las varianzas.
Propiedades:
• Los valores de X2 son mayores o iguales que 0
• La forma de la distribución X2 depende del gl=n-1 siendo estos los grados de libertad
• El área bajo una curva ji. Cuadrada y sobre el eje horizontal es 1
• Las distribuciones X2 son asimétricas, tienen una pendiente positiva
• Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n.1)
• La varianza muestral es una variable aleatoria
El cálculo de probabilidad en una distribución muestral de varianzas nos sirve para saber cómo se va a comportar la
varianza o desviación estándar en una muestra que proviene de una distribución normal.
Formula:
(𝒏 − 𝟏)𝑠 2
𝟐
n: Tamaño de la muestra
𝑠 2 : Varianza Muestral
𝑿 =
𝜎2 𝜎 2 : Varianza de la población de donde se extrajo la muestral
Varianza Muestral
La razón para dividir por n-1 es que, de esta forma, como veremos más adelante (cuando se estudien los
procedimientos de estimación), la medida de variabilidad resultante es el mejor estimador de la varianza poblacional
(desconocida).
Cuando los datos están agrupados:
A los dos (cuando está dividido por n y cuando lo está por n-1) se los denomina varianza muestral. Difieren ligeramente
19
y, para valores grandes de n, la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al
de la población y el segundo es un estimador de la varianza de la población.
Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones de una población normal con varianza
igual a 6, tenga una varianza muestral:
A: Mayor que 9.1
B: Entre 3.462 y 10.745
Solución:
A. Al buscar este número en el renglón de 24 grados de libertad (n-1), nos da un área a la derecha de 0,05 por
lo tanto: P (S2>9,1) = 0,5
B. Al buscar estos valores, nos dan unas áreas de 0.95 y 0.01 respectivamente. Como se está pidiendo la
probabilidad entre dos valores se resta (0.95 – 0.01) quedando 0.94.
C. Por lo tanto, la P (3.462 S2 10.745) = 0.94
Pueden definirse como el estudio de determinadas características de una población se efectúa a través de diversas
muestras que pueden extraerse de ella. El muestreo puede hacerse con o sin reposición, y la población de partida
puede ser infinita o finita. Una población finita en la que se efectúa muestreo con reposición puede considerarse infinita
teóricamente. También, a efectos prácticos, una población muy grande puede considerarse como infinita. En todo
nuestro estudio vamos a limitarnos a una población de partida infinita o a muestreo con reposición.
• Población: Es la totalidad de los elementos los cuales contienen las características de interés
• Muestra: Es un subconjunto de observaciones que se seleccionan de una población y que tienen las
características de interés.
• Elemento: Es la unidad por la cual se solicita información o que son medidas. El elemento depende del objetivo
que persiga el estudio
• Unidad de muestreo: Corresponde al elemento o los elementos disponibles en la población susceptibles de ser
seleccionados en alguna etapa del proceso de muestreo.
• Unidades de enumeración: También conocidos como conglomerados, se utilizan cuando no es factible
muestrear las unidades de enumeración directamente.
• Conglomerado: Es un conjunto de unidades que se encuentran físicamente cerca.
• Población estadística: Es un conjunto de mediciones sobre todos los elementos del universo resultando en lo
que se conoce como poblaciones multivariadas
• Marco muestral: Es un listado de todas las unidades de muestreo disponibles para su elección.
20
• La varianza muestral: En muchos casos es importante conocer el valor de la varianza de la población.
a) Para aplicar el teorema central del limite
b) Para estimar riesgos en inversiones (el riesgo depende de la varianza)
c) Para estimar desigualdades en ingresos, rentas, etc.
d) Repetimos el estudio que hemos realizado para la media muestral.
e) Partimos de que la varianza muestral es una variable aleatoria.
f) Queremos relacionar sus momentos con los de la población.
Conclusión
El análisis del contenido ha mostrado la complejidad del teorema y la riqueza de sus variados campos de problemas y
representaciones. Se han identificado los elementos de significado más importantes de los teoremas, aunque muestra
que no todos se utilizan de manera significativa, debido a las orientaciones particulares de cada texto o aplicación
El teorema del límite central es uno de los teoremas más fuertes de la estadística pues este nos ayuda a analizar de
manera fácil y clara cómo se comporta cualquier distribución por medio de las medias muéstrales que como el teorema
menciona, toman una distribución normal.
A lo largo de esta investigación, hemos estudiado conceptos fundamentales, como son el concepto de variable y su
distribución de probabilidades, estudiamos diferentes modelos de distribuciones y sus características básicas (media,
varianza, etc.). A partir de ahí, no basamos en la información que se obtenga de un subconjunto o parte de esa
población que llamaremos muestra. Cuando realizamos una introducción general de la estadística decimos que uno de
los objetivos fundamentales es el obtener conclusiones basándonos en los datos que se han observado, proceso que
se conoce con el nombre de inferencia estadística, es decir utilizando la información que nos proporciona una muestra
de la población se obtienen conclusiones o se infieren valores sobre características poblacionales.
Los conceptos básicos que se abarcaron en estos temas serán fundamentales para el desarrollo de la inferencia
estadística.
Referencias
[1] K. . Rodríguez y G. . Ramírez, «Simulación de variables aleatorias continuas y el teorema del límite central,» ,
2018. [En línea]. Available: http://funes.uniandes.edu.co/9330. [Último acceso: 1 10 2022].
[2] L. E. Llamosa, «Utilización Del Teorema Del Límite Central En El Cálculo De La Incertidumbre De Medición,» ,
2011. [En línea]. Available: http://revcolfis.org/ojs/index.php/rcf/article/viewarticle/430329. [Último acceso: 1 10
2022].
[3] S. C. García, «Distribución normal. Teorema central del límite,» , 2011. [En línea]. Available:
https://riunet.upv.es/handle/10251/12932?tl=a. [Último acceso: 1 10 2022].
[4] A. . Sánchez, F. . Fernández, C. . Valero, M. . Muñoz, A. F. Rodríguez, M. . López y I. . Espejo, «Estadística
Descriptiva y Probabilidad: (Teoría y problemas),» , 2009. [En línea]. Available:
https://libros.metabiblioteca.org/handle/001/140. [Último acceso: 1 10 2022].
[5] Esquema. (s. f.). Universidad de València. https://www.uv.es/ceaces/tex1t/3%20infemues/esquema.htm
21