Introducción A La Estadística Inferencial

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 32

TECNOLÓGICO NACIONAL DE MÉXICO

INSTITUTO TECNOLÓGICO DEL VALLE DE ETLA

INGENIERIA EN GESTION EMPRESARIAL

ESTADISTICA INFERENCIAL I

Los conceptos relacionados con el muestreo y estimación

Reporte de investigación

Presenta

Andrea Michelle Morales Altamirano

Asesor

ING. Moisés López Márquez

Semestre: 4º

Santiago Suchilquitongo, Etla, Oaxaca, México Febrero 2020


INTRODU CCIÓN

2
3
INTRODUCCIÓN A LA ESTADÍSTICA
INFERENCIAL
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

La estadística inferencial es una parte de la estadística que comprende los métodos


y procedimientos que por medio de la inducción determina propiedades de una
población estadística, a partir de una pequeña parte de la misma. La Estadística
inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para
toda la población a partir del estudio de una muestra, y el grado de fiabilidad o
significación de los resultados obtenidos. Es la descripción de una característica
particular de un fenómeno a partir de datos numéricos; por ejemplo la estatura de
estudiantes, tamaño de plantas, tiempo de reacción de animales a cierto estimulo,
edad de la población escolar, cantidad de piezas fabricadas por hora, etc.,.

El proceso conocido como inferencia estadística, requiere consideraciones de cómo


fue seleccionada la muestra y cuánto varían las observaciones de una muestra a otra.
De esta manera, los métodos de
selección de los individuos que se
usarán en la investigación son de
considerable importancia para la
obtención de resultados y
conclusiones válidas. El requisito
fundamental de una buena muestra
es que sea representativa de la
población que se trata de describir.

4
Puede dar respuestas a muchas de las necesidades que la sociedad actual puede
requerir. Su tarea fundamental es el análisis
de los datos que se obtienen a partir de
experimentos, con el objetivo de representar
la realidad y conocerla. La estadística
inferencial se centra en tomar una pequeña
muestra representativa de la población y a
partir de ésta, infiere que el resto de la
población tiene el mismo comportamiento.

La estadística inferencial comprende aspectos importantes como:

 La toma de muestras o muestreo, que se refiere a la forma adecuada de


considerar una muestra que permita obtener conclusiones estadísticamente
válidas y significativas.
 La estimación de parámetros o variables estadísticas, que permite estimar
valores poblacionales a partir de muestras de mucho menor tamaño.
 El contraste de hipótesis, que permite decidir si dos muestras son
estadísticamente diferentes, si un determinado procedimiento tiene un efecto
estadístico significativo, etc.
 El diseño experimental(es una técnica estadística que permite identificar y
cuantificar las causas de un efecto dentro de un estudio experimental).
 La inferencia bayesiana (las evidencias u observaciones se emplean para
actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta.)
 Los métodos no paramétricos(Prueba de X2 de Bondad de Ajuste, Prueba de
Kolmogorov-Smirnov con una Muestra, Prueba de Kolmogorov-Smirnov con
dos Muestras, Prueba de Rangos de Wilcoxon, Prueba de Wilcoxon-Mann-
Whitney con Dos Muestras, Prueba de Kruskal-Wallis con k Muestras, Prueba
de los Signos, Prueba de la Mediana, entre otras).

5
MUESTREO: INTRODUCCIÓN AL MUESTREO Y TIPOS DE MUESTREO

Muestreo: Significa la Selección de un conjunto de personas o cosas que se


consideran representativos del grupo al que pertenecen, con la finalidad de estudiar
o determinar las características del grupo.

En estadística se conoce como muestreo a la técnica para la selección de una


muestra a partir de una población. Al elegir una muestra aleatoria se espera conseguir
que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar
recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se
realizase un estudio de toda la población.

El muestreo es por lo tanto una herramienta de la investigación científica, cuya función


básica es determinar que parte de una población debe examinarse, con la finalidad
de hacer inferencias sobre dicha población. La muestra debe lograr una
representación adecuada de la población, en la que se reproduzca de la mejor manera
los rasgos esenciales de dicha población que son importantes para la investigación.
Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las
similitudes y diferencias encontradas en la población, es decir ejemplificar las
características de ésta.

Los errores más comunes que se pueden cometer son:

 Hacer conclusiones muy generales a partir de la observación de sólo una parte


de la Población, se denomina error de muestreo.
 Hacer conclusiones hacia una Población mucho más grandes de la que
originalmente se tomo la muestra. Error de Inferencia.

Existen diferentes criterios de clasificación de los diferentes tipos de muestreo,


aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo
probabilísticos y métodos de muestreo no probabilísticos.

Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio
de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente,
todas las posibles muestras de tamaño n tienen la misma probabilidad de ser
6
seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables.
Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:

Muestreo aleatorio simple: Para obtener una muestra, se numeran los elementos
de la población y se seleccionan al azar los n elementos que contiene la muestra. El
procedimiento empleado es el siguiente: 1) se
asigna un número a cada individuo de la población
y 2) a través de algún medio mecánico (bolas dentro
de una bolsa, tablas de números aleatorios,
números aleatorios generados con una calculadora
u ordenador, etc.) se eligen tantos sujetos como sea
necesario para completar el tamaño de muestra
requerido. Este procedimiento, atractivo por su
simpleza, tiene poca o nula utilidad práctica cuando
la población que estamos manejando es muy
grande.

Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior,


numerar todos los elementos de la población, pero en lugar de extraer n números
aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número
elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares
i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el
resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n.
El número i que empleamos como punto de partida será un número al azar entre 1 y
k.

Suponemos que queremos saber la opinión sobre un profesor de una clase de 60


personas. Dichas personas están ordenadas por orden alfabético en la lista de
alumnos de clase. Para realizar la encuesta, seleccionamos a 12 personas. Por lo
tanto, N=60 y n=12. El intervalo fijo entre sujetos es: 𝑘 = 𝑁 𝑛 = 60 12 = 5 Ahora
elegimos al azar un
número entre 1 y k = 5.
Suponemos que nos
sale i = 2. La muestra
resultado mediante el
muestreo sistemático
será:

7
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad
constante (k) podemos introducir una homogeneidad que no se da en la población.

Muestreo aleatorio estratificado:

Se divide la población en clases o estratos y se escoge, aleatoriamente, un número


de individuos de cada estrato proporcional al número de componentes de cada estrato.
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los
procesos y suelen reducir el error muestral para un tamaño dado de la muestra.
Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen
gran homogeneidad respecto a alguna característica (se puede estratificar, por
ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.).
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos
de interés estarán representados adecuadamente en la muestra. Cada estrato
funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo
aleatorio simple o el estratificado para elegir los elementos concretos que formarán
parte de la muestra. En ocasiones las dificultades que plantean son demasiado
grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico,
sexos, edades,...).

La distribución de la muestra en función de los diferentes estratos se denomina


afijación, y puede ser de diferentes tipos:

 Afijación Simple: A cada estrato le corresponde igual número de elementos


muéstrales.
 Afijación Proporcional: La distribución se hace de acuerdo con el peso
(tamaño) de la población en cada estrato.
 Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados,
de modo que se considera la proporción y la desviación típica. Tiene poca
aplicación ya que no se suele conocer la desviación.

8
Ejemplo: En una fábrica que consta de 600 trabajadores queremos tomar una muestra
de 20. Sabemos que hay 200 trabajadores en la sección A, 150 en la B, 150 en la C
y 100 en la D.

Muestreo por etapas múltiples: Esta técnica es la única opción cuando no se


dispone de lista completa de la población de referencia o bien cuando por medio de
la técnica de muestreo simple o estratificado se obtiene una muestra con unidades
distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estadios
múltiples se subdivide la población en varios niveles ordenados que se extraen
sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla
en varias fases o extracciones sucesivas para cada nivel. (Otra muestra si se
necesitan más datos).

Por ejemplo: si tenemos que construir una muestra de profesores de primaria en un


país determinado, éstos pueden subdividirse en unidades primarias representadas
por circunscripciones didácticas y unidades secundarias que serían los propios
profesores. En primer lugar extraemos una muestra de las unidades primarias (para
lo cual debemos tener la lista completa de estas unidades) y en segundo lugar
extraemos aleatoriamente una muestra de unidades secundarias de cada una de las
primarias seleccionadas en la primera extracción.

9
Muestreo aleatorio por conglomerados: En el muestreo por conglomerados, en
lugar de seleccionar a todos los sujetos de la población inmediatamente, el
investigador realiza varios pasos para reunir su muestra de la población. Se utiliza
cuando la población se encuentra dividida, de manera natural, en grupos que se
supone que contienen toda la variabilidad de la población, es decir, la representan
fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de
estos grupos o conglomerados para la realización del estudio. Dentro de los grupos
seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a
encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es
decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos,
seleccionados al azar. Este método
tiene la ventaja de simplificar la
recogida de información muestral.
Cuando, dentro de cada
conglomerado seleccionado, se
extraen algunos individuos para
integrar la muestra, el diseño se llama
muestreo bietápico.

En el muestreo por conglomerados la


unidad muestral es un grupo de elementos de la población que forman una unidad, a
la que llamamos conglomerado. Las unidades hospitalarias, los departamentos
universitarios, una caja de determinado producto, etc., son conglomerados naturales.
En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo,
las urnas electorales. Cuando los conglomerados son áreas geográficas suele
hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en
seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para
alcanzar el tamaño muestral establecido) y en investigar después todos los elementos
pertenecientes a los conglomerados elegidos.

Métodos de muestreo no probabilísticos


Es aquél para el que no se puede calcular la probabilidad de extracción de una
determinada muestra. Por tal motivo, se busca seleccionar a individuos que tienen un
conocimiento profundo del tema bajo estudio y se considera que la información
aportada por esas personas es vital para la toma de decisiones. A veces, para
estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se
acude a métodos no probabilísticos, aun siendo consciente de que no sirven para
10
realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea
representativa, ya que no todos los sujetos de la población tienen la misma
probabilidad de ser elegidos.

Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta


generalmente sobre la base de un buen conocimiento de los estratos de la población
y/o de los individuos más "representativos" o "adecuados" para los fines de la
investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado,
pero no tiene el carácter de aleatoriedad de aquél. Es la técnica más difundida sobre
todo en estudios de mercado y sondeos de opinión. En primer lugar es necesario
dividir la población de referencia en varios estratos definidos por algunas variables de
distribución conocida (como el género o la edad). Posteriormente se calcula el peso
proporcional de cada estrato, es decir, la parte proporcional de población que
representan. Finalmente se multiplica cada peso por el tamaño de n de la muestra
para determinar la cuota precisa en cada estrato. Se diferencia del muestreo
estratificado en que una vez determinada la cuota, el investigador es libre de elegir a
los sujetos de la muestra dentro de cada estrato.

Ejemplo: En un estudio en donde el


investigador quiere comparar el rendimiento
académico de los diferentes niveles de
clases del secundario, su relación con el
género y la situación socioeconómica, el
investigador identifica primero los subgrupos.
Por lo general, los subgrupos son las
características o variables del estudio. El
investigador divide a toda la población en
niveles de clase, cruzados con el género y el
nivel socioeconómico. Luego, toma nota de
las proporciones de estos subgrupos en toda la población y a continuación hace un
muestreo de cada subgrupo.

Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por


un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión
en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en
sondeos preelectorales de zonas que en anteriores votaciones han marcado
11
tendencias de voto. También puede ser que el investigador seleccione directa e
intencionadamente los individuos de la población. El caso más frecuente de este
procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso
(los profesores de universidad emplean con mucha frecuencia a sus propios alumnos).

Muestreo de bola de nieve: Consiste en identificar sujetos que se incluirán en la


muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de
individuos que cumplen los requisitos necesarios. Se localiza a algunos individuos,
los cuales conducen a otros, y
estos a otros, y así hasta
conseguir una muestra
suficiente. Este tipo se emplea
muy frecuentemente cuando se
hacen estudios con poblaciones
"marginales", delincuentes,
sectas, determinados tipos de
enfermos, etc.

Muestreo subjetivo por decisión razonada


En este caso las unidades de la
muestra se eligen en función de
algunas de sus características de
manera racional y no casual. Una
variante de esta técnica es el muestreo
compensado o equilibrado, en el que
se seleccionan las unidades de tal
forma que la media de la muestra para
determinadas variables se acerque a la
media de la población. La cual funciona
en base a referencias o por recomendación después se reconoce por medio de la
estadística.

12
Muestreo Discrecional: Se lleva acabo de acuerdo el criterio del investigador, los
elementos son elegidos sobre lo que él cree que pueden aportar al estudio. Los
sujetos se seleccionan a base del
conocimiento y juicio del
investigador. El investigador
selecciona a los individuos a través
de su criterio profesional. Puede
basarse en la experiencia de otros
estudios anteriores o en su
conocimiento sobre la población y el
comportamiento de ésta frente a las
características que se estudian.

Muestreo de Conveniencia: Consiste en seleccionar a los individuos que convienen


al investigador para la muestra. Esta conveniencia se produce porque al investigador
le resulta más sencillo examinar a estos
sujetos, ya sea por proximidad geográfica,
por ser sus amigos, etc. Es el tipo de
muestreo que pretende seleccionar
unidades de análisis que cumplen los
requisitos de la población objeto de estudio,
sin embargo, no son seleccionadas al azar.
Se utiliza preferentemente en estudios
exploratorios. Las pruebas pilotos, también
usan con frecuencia éste tipo de muestreo.

TEOREMA DEL LÍMITE CENTRAL

El teorema del límite central o teorema central del límite indica que, en condiciones
muy generales, la distribución de la suma de variables aleatorias tiende a una
distribución normal cuando la cantidad de variables es muy grande. Este teorema,

13
perteneciente a la teoría de la probabilidad, encuentra aplicación en muchos campos
relacionados, tales como la inferencia estadística o la teoría de renovación.

El teorema en un curso de estadística inferencial para pregrado se puede enunciar de


la siguiente forma:

TEOREMA: Sea 𝑋1,2,……….., una muestra aleatoria de una población cuya


distribución tiene por media 𝜇 y por desviación estándar 𝜎. Entonces si n es
suficientemente grande la variable aleatoria:

Tiene una distribución aproximadamente normal con


media

De esta forma la variable:

Datos:
𝑍=𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑋̅=𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
𝜇=𝑚𝑒𝑑𝑖𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜎=𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟
𝑛=𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎

NOTA: Para poder determinar la probabilidad de una muestra aleatoria es preciso


hacer uso de las tablas de distribución normal estándar.

Ejemplo: Una empresa eléctrica industrial fabrica focos que tienen una duración que
se distribuye aproximadamente en forma normal, con media de 800 horas y
desviación estándar de 40 horas.

Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida
promedio de menos de 775 horas.

14
Solución:
De acuerdo con el enunciado, se conoce la variable 𝑋𝑖 como la duración del i-esimo
foco en la muestra tomada. Así la variable aleatoria 𝑋𝑖 proviene de una población con
media 𝜇=800 Horas y desviación 𝜎=40 ℎ𝑜𝑟𝑎𝑠. De esta forma por el teorema del límite
central, si se toman muestras de esta población de tamaño n = 16 y se calculan sus
promedios la variable aleatoria 𝑋̅ se distribuye aproximadamente normal con media
𝜇𝑋̅=800 y desviación 𝜎𝑋̅=40. El problema requiere el cálculo de la probabilidad.

Datos:
𝑋=725
𝜇=800
𝜎=40
𝑛=16

DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO

Si se consideran todas las posibles muestras de tamaño n que pueden extraerse con
o sin reemplazo de una población conocida, para cada muestra se puede calcular un
estadístico (media x, varianza s2, desviación típica s) que variara de una muestra a
otra. De esta forma obtenemos una distribución del estadístico, que se conoce como
distribución muestral. Así si el estadístico de que se trata es la media, se obtendrá la
distribución muestral de medias

Distribución muestral de la media


Una distribución muestral de medias se define como el conjunto de toda la media que
se pueden calcular en todas las muestras posibles que se pueden extraer con o sin
reemplazo de una determinada población. Recordemos que la media es el promedio
aritmético de las medias del conjunto de datos; ya sea de la población o de la muestra:

15
Varianza: Es el promedio de la suma de los cuadrados de las desviaciones. Se
entiende por desviación la diferencia de una media respecto a la media:

Como puede verse la varianza es una medida de dispersión, indica en promedio que
tan alejados están los datos respecto a la media.

Desviación estándar: Es la raíz cuadrada de la varianza:

Por simplicidad, en las expresiones anteriores se su prime el subíndice, así como


los límites de las sumatorias quedando de la siguiente manera:

Cuando la distribución de X es normal la distribución de la media muestral es normal


𝜎
con media m y desviación estándar sin importar el tamaño de la muestra:
√𝑛
El tamaño de la muestra depende del grado de no normalidad de la población. Sin
embargo, una regla empírica señala que una muestra de tamaño 30 es suficiente, en
la mayoría de las situaciones, para aplicar el teorema del límite central.

16
Distribución muestral de la diferencia de medias
En el uso de la distribución normal para este caso se basa en las mismas condiciones
que para la distribución muestral de medias, la única diferencia es que ahora se
analizarán 2 muestras. Suponga que se tienen dos poblaciones distintas, la primera
con media 𝜇1 y desviación estándar 𝜎1 , y la segunda con media 𝜇22 y desviación
estándar 𝜎2 . Más aún, se elige una muestra aleatoria de tamaño n1 de la primera
población y una muestra independiente aleatoria de tamaño n2 de la segunda
población; se calcula la media muestral para cada muestra y la diferencia entre dichas
medias. La colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico 𝑥̅1− 𝑥̅2

Suponga que se eligen muestra ordenadas de tamaño 2, con reemplazo, de la


población de valores 0, 2, 4 y 6.

17
Distribución muestral de la proporción
Las distribuciones muestrales que se han presentado centran su atención en la
distribución de la media de las variables cuantitativas, por otro lado, al examinar las
variables cualitativas la característica que se suele tomar en cuenta es la proporción
de éxitos. Probablemente en algunos casos se desee hacer una encuesta donde se
estuviese interesado en estimar la proporción de familias que tengan un auto
económico (4 cilindros); o a un político quizá le interese estimar la verdadera
proporción de votos que obtendrá un determinado candidato; en control de calidad
quizá al investigador le interese determinar la tasa real de ocurrencia de un defecto
en particular.

Para hacer un análisis de este tipo de estadísticos (características) se define lo


siguiente:

Proporción de éxitos en la población.

Numero de resultados exitosos


p 
Numero total de resultados

Proporción de éxitos en la muestra.

Numero de exitos en la muestra


p xn
s
 s

Tamaño de la muestra
18
La desviación de la proporción

p1  p 
 p

n
Y al suponer que la distribución muestral de la proporción tiene una
distribución normal se tiene que:


x  x
Z
 x

Y debido a que se está tratando con proporciones muestrales (y no media de


muestras) entonces se sustituye por el estadístico:

p  p

s
Z p(1  p)
n

Distribución muestral de la diferencia entre dos proporciones


La distribución muestral de Ps1-Ps2 , o diferencia entre dos proporciones muestrales,
donde Ps1 se calcula a partir de todas las muestras aleatorias simples de tamaño n 1
que se pueden extraer de una población con parámetro P1 y Ps2 se calcula a partir de
todas las muestras aleatorias simples e independientes de tamaño n2 que se pueden
extraer de una población con parámetro P2, tiene una media

p s1
 ps 2
 pp 1 2

19
Y una desviación típica

p 1  p  p 1  p 
p  ps 2
 1 1
 2 2

s1
n 1 n 2

Si n1 y n2 son grandes, la distribución muestral de Ps1-Ps2 es más o menos una


distribución normal.

En muchas situaciones prácticas el investigador necesita hacer inferencias sobre la


diferencia entre dos proporciones poblacionales. Un sociólogo puede querer saber si
las poblaciones urbanas y rurales difieren en cuanto a la proporción de gente que está
a favor de la pena capital. Un educador quiere saber si la población de alumnos
suspendidos en secundaria y la población de los que siguen en el colegio, son
diferentes en cuanto a la proporción de los que provienen de hogares disueltos. Un
investigador médico está interesado en saber si la proporción de los casos de cáncer
pulmonar es más alta en una población que fuma que en otra compuesta por no
fumadores. El gerente de un almacén podría estar interesado en saber si los clientes
que tienen tarjeta de crédito en dos áreas diferentes de la ciudad varían en cuanto a
la proporción de cuentas atrasadas.

Distribución t-student
Es una distribución de probabilidad. Se utiliza para hacer estimaciones de la media
de una variable, (que está distribuida normalmente), en una población, cuando el

20
tamaño de la muestra es pequeño. También se utiliza para hacer estimaciones de
parámetros de las poblaciones a partir de los valores de los estadísticos
correspondientes en las muestras, cuando desconoce el valor de la varianza o la
desviación estándar de la población.

En probabilidad y estadística, la distribución t (de Student) es una distribución de


probabilidad que surge del problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra es pequeño. Las
distribuciones t de Student fueron descubiertas por William S. Gosset (1876-1937) en
1908 cuando trabajaba para la compañía de cervezas Guinness en Dublín (Irlanda).
Aparece de manera natural al realizar la prueba t de Student para la determinación
de las diferencias entre dos medias muestrales y para la construcción del intervalo de
confianza para la diferencia entre las medias de dos poblaciones cuando se
desconoce la desviación típica de una población y ésta debe ser estimada a partir de
los datos de una muestra.

El estadístico T tiene una distribución que se denomina distribución T de Student, que


está tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se
calculó la desviación standard. La distribución T tiene en cuenta la incertidumbre en
la estimación de la desviación standard de la población, porque en realidad la tabla
de T contiene las distribuciones de probabilidades para distintos grados de libertad.
La distribución T es más ancha que la distribución normal tipificada Para un número
de grados de libertad pequeño. Cuando los grados de libertad tienden a infinito, la
distribución T tiende a coincidir con la distribución normal standard. Es decir, en la
medida que aumentemos el número de observaciones de la muestra, la desviación
standard calculada estará más próxima a la desviación standard de la población y
21
entonces la distribución T correspondiente se acerca a la distribución normal standard.
El uso de la distribución T presupone que la población con que estamos trabajando
tiene una distribución normal. Si el tamaño de la muestra es n entonces decimos que
la distribución t tiene n-1 grados de libertad. Hay una distribución t diferente para cada
tamaño de la muestra. Estas distribuciones son una familia de distribuciones de
probabilidad continuas. Las curvas de densidad son simétricas y con forma de
campana como la distribución normal estándar. Sus medias son 0 y sus varianzas
son mayores que 1 (tienen colas más pesadas). Las colas de las distribuciones t
disminuyen más lentamente que las colas de la distribución normal. Si los grados de
libertad son mayores más próxima a 1 es la varianza y la función de densidad es más
parecida a la densidad normal.

Definición de Grados de Libertad: Los valores de los estadísticos en una muestra


deben ser valores cercanos a los parámetros correspondientes en las poblaciones.
Los grados de libertad representan al número de datos independientes que se pueden
tomar de la población para construir la muestra, de tal manera que los valores de los
estadísticos en la muestra sean cercanos a los valores de los parámetros
correspondientes en la población.

Propiedades de la Distribución t – student:

 El valor de la media es 0
 Tiene forma de campana y es simétrica con respecto a la media
 La distribución t tiene una varianza mayor que 1, pero en la medida en que
aumentan los grados, el valor de la varianza se aproxima a 1, lo cual lleva a
que la distribución t se aproxime a la distribución normal estándar en la medida
en que aumenta el valor de los grados de libertad.
22
Distribución muestral de la varianza
Ahora estudiaremos la distribución de muestreo teórica de la varianza muestral de
muestras aleatorias de poblaciones normales. Como la varianza muestral S 2 no puede
ser negativa, deberíamos sospechar que esta distribución de muestreo no es una
curva normal; en efecto, se relaciona con la distribución chi-cuadrada, y se tiene lo
siguiente.

Si S2es la varianza de una muestra aleatoria de tamaño n tomada de una población


normal con la varianza 2, entonces:

 
n

n  1 s2  xi  x
2

 
2 i 1

 
2 2

Es la variable aleatoria con la distribución chi-cuadrada con el parámetro v=n-


1(grados de libertad).
Es un valor de una variable aleatoria
que tiene la distribución x-cuadrada
con el parámetro v = n -1
Ver tabla que contiene valores
seleccionados de x2 para distintos
valores de v, llamado de nuevo,
numero de grados de libertad, donde
x2 es tal que el área bajo la curva de
la distribución x – cuadrada(tomada a
la derecha) es igual a 𝛼.

En la tabla la columna de la izquierda contiene valores de v, los valores que


encabezan las columnas son áreas de la cola derecha de la curva de la distribución
x- cuadrada y las entradas son valores de 𝑥𝛼2. A diferencia de la distribución t, es
necesario tabular valores de 𝑥𝛼2 𝑝𝑎𝑟𝑎 𝛼>0.50, que la distribución x – cuadrada no es
simétrica.

23
Distribución muestral de la razón de varianzas
Si se extraen muestras independientes de tamaño n 1 y n2 respectivamente de dos
poblaciones normales con varianzas 21 y 22 respectivamente, y si; S21 y S22 son las
varianzas de las muestras aleatorias, entonces el estadístico de prueba es:

 S 1
F 2
S 2

Cuando se obtienen los valores S21 y S22 a partir de las muestras y se calcula el
cociente se concluye que la hipótesis de varianzas iguales es falsa si el valor de este
cociente es de manera suficiente, distinto de 1 (1 + .1) Se consideran las varianzas
iguales si se encuentran dentro de este rango.

Hipótesis:

H 0 : 1   2
2 2

H A : 1   2
2 2

24
ESTIMACION

El primer problema del cual se ocupa la estadística inferencial es la estimación, que


puede ser a través de un número simple, generalmente el estadístico correspondiente
llamado estimador puntual, o por medio de dos valores numéricos que definen un
intervalo llamado intervalo de confianza, el cual contiene al parámetro estimado con
cierto grado de confiabilidad.

A los estimadores generalmente se les denota con la misma letra que al parámetro,
pero con un acento circunflejo o “gorrito”; esto es, si el parámetro fuese  , su
ˆ
estimador sería  . Cabe hacer notar que también se acostumbra usar letras griegas
para parámetros y letras latinas para estimadores. Así, por ejemplo, como estimador
de la media  se usa ̂ , o X o Y ; de la varianza  se usa s o ˆ , etcétera.
2 2 2

CARACTERÍSTICAS DE UN ESTIMADOR

Las características de un buen estimador puntual son insesgabilidad, consistencia o


exactitud, eficiencia o precisión y suficiencia.

 Insesgabilidad: Un estimador puntual es insesgado si la media de la


distribución muestral del estadístico (esperanza matemática del estadístico) es
ˆ
igual al parámetro por estimar; es decir, si  es un estadístico cualquiera y 

es el parámetro correspondiente y si E    , entonces  es un estimador
ˆ ˆ
insesgado de  .
 
EX    X   y E s n21   2 , de donde se concluye que X y s n21 son

estimadores insesgados de  y  , respectivamente. Sin embargo, si se usa


2

s n2
para estimar la varianza de una muestra, entonces
 
E s n2   2
. Esto se
puede demostrar fácilmente como se ve a continuación

 ( X i  X )2   n 1  ( X i  X )2  n 1 2
 
E s  E
2
n   E
n 1
  
E s n21 
n 1 2
 2 
 n   n  n n n

25
2

El sesgo en este caso es n , el cual desaparecerá cuando n tienda a infinito.

 Consistencia o exactitud: Por lo general un estimador no es idéntico al


ˆ  
parámetro que se estima, existe una diferencia entre ellos que es el
error de muestreo, pero si se aumenta el tamaño de la muestra
suficientemente, la probabilidad de que esta diferencia sea mayor que un
número fijo   0 tenderá a cero. Esto es
 
P ˆ      0
cuando n  

Claramente, X y Md son estimadores consistentes de  , así como s n 1 y s n


2 2

lo son de  .
2

ˆ ˆ
 Eficiencia o precisión: Un estimador  1 es más eficiente que  2 de  , si la
 2   2ˆ2
varianza del primero es menor que la del segundo ( ˆ1 ). Como se vio en
el ejemplo 9.3 X y Md son estimadores insesgados de  y también
consistentes; sin embargo, X
 2   Md
2
, de donde X es un estimador más

eficiente que Md para estimar .

 Suficiencia: Se dice de manera intuitiva que un estimador es suficiente, si


transmite tanta información de la muestra como sea posible acerca del
parámetro, de modo que se proporciona mayor información por cualquier otro
estimador calculado de la misma muestra: y si se obtiene el valor de un
estadístico suficiente los valores de muestra mismos no proporcionan más
información sobre el parámetro. Por ejemplo, tanto la media ( X ) como la
mediana como el centro de amplitud (C.A.) se pueden usar como estimadores
de  ; sin embargo, sólo la media X toma en cuenta cada valor o toda la
información de la muestra, mientras que el centro de amplitud sólo toma en
cuenta el primer y último valor, y la mediana es una medida de tendencia
central de posición. Así pues, la media es un estimador suficiente para  .

26
E STIMACIÓN PUNTUAL

El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido


(tiempo medio de ejecución de un algoritmo, altura media de las mujeres de una
población, diferencia del resultado medio entre dos tratamientos médicos, proporción
de gente que mejora con un tratamiento médico…)

Para ello se utiliza la información de la muestra (x1,x2,…,xn) a través de un estimador.

Algunos estimadores frecuentes son:

 Media muestral, para estimar la media teórica de una variable X.

 Proporción muestral, para estimar una proporción p:


Siendo (x1,…,xn) una muestra aleatoria simple de la variable
es decir, son unos o ceros.
 Varianza muestral: para estimar la varianza teórica de una población, se
puede usar la varianza de una muestra:

 Cuasi-varianza muestral:
que corresponde a la
varianza de la muestra, pero
dividiendo por n−1, en lugar de dividir por n. En el capítulo de estadística
descriptiva, ya comentamos que el R, por defecto, al calcular la desviación
típica de una muestra, mediante el comando sd, calcula directamente la cuasi-
varianza y luego obtiene la raíz cuadrada.

27
ESTIMACIÓN POR INTERVALOS

Intervalo de confianza para la media


Nos centramos en la estimación de la media μ de una población o
variable Normal (altura media, peso medio, tiempo medio haciendo gimnasia…).
Inicialmente, consideramos que la desviación típica de la variable es conocida (es
un número que sabemos).

Por una vez, y sin que sirva de precedente, vamos a ver cómo es la construcción
matemática del intervalo de confianza. Consideremos la variable X ∈ N (μ,σ) que
representa a la característica que estamos midiendo (altura, peso…). Supongamos
que σ es conocida.

Consideramos una muestra aleatoria simple X1,…,Xn de la variable X. Dado el


nivel de confianza 1−α, elegimos el llamado estadístico pivote.

Un estadístico es una función de variables aleatorias y es también otra variable


aleatoria. En este caso, vamos a ver que distribución sigue esta variable T que
acabamos de definir (el término pivote es una nomenclatura utilizada en los test de
hipótesis).
Como vimos anteriormente, la media muestral verifica:
Por lo tanto, si tipificamos la variable (restamos la media
y dividimos por la desviación típica), obtenemos la variable T, lo que quiere decir
que esta variable sigue una distribución normal estándar (N(0,1)).

28
Intervalo de confianza para la diferencia de medias
El intervalo de confianza para el parámetro diferencia de medias μ1−μ2 es:

Siendo Δ el entero más próximo a (Corrección de Welch)

Intervalos de confianza para la proporción


El objetivo es construir un intervalo de confianza para la proporción de elementos
(p) de una población que poseen una determinada característica (votantes de un
partido político, alumnos que usan una determinada red social, elementos
defectuosos…) a partir de una muestra aleatoria simple de la población.

De esta forma, consideramos la variable:

Es decir, la variable aleatoria que toma los valores 1 y 0 (1 si tiene la característica,


con probabilidad p, 0 si no la tiene).

29
Tomamos entonces una muestra aleatoria simple X1,…,Xn de la
variable X∈B(1,p)
Dado el nivel de confianza 1−α,
El intervalo es:

30
CONCLUSION

31
REFERENCIAS DE CONSULTA

 ESTIMACION. (2020). Recuperado 15 Febrero 2020,desde


https://www2.ulpgc.es/hege/almacen/download/4/4762/Tema_4.pdf
 ESTIMACIÓN. (2020). Recuperado 15 Febrero 2020, desde
https://www.ugr.es/~bioestad/_private/Tema_7.pdf
 Estadística. (2019). Retrieved 15 February 2020, from
https://bookdown.org/aquintela/EBE/EBE.pdf
 Estimacion puntual. (2020). Retrieved 15 February 2020, from
http://www.mate.unlp.edu.ar/practicas/55_5_22102012132242.pdf
 Unidad 1 Introducción a La Estadística Inferencial | Muestreo (Estadísticas) | Estadísticas.
(2020). Retrieved 15 February 2020, from https://es.scribd.com/doc/229026092/Unidad-1-
Introduccion-a-La-Estadistica-Inferencial
 Unidad 1 Distribuciones Fundamentales Para El Muestreo | Muestreo (Estadísticas) |
Diferencia. (2020). Retrieved 15 February 2020, from
https://es.scribd.com/doc/162644357/Unidad-1-Distribuciones-Fundamentales-Para-El-
Muestreo

32

También podría gustarte