Introducción A La Estadística Inferencial
Introducción A La Estadística Inferencial
Introducción A La Estadística Inferencial
ESTADISTICA INFERENCIAL I
Reporte de investigación
Presenta
Asesor
Semestre: 4º
2
3
INTRODUCCIÓN A LA ESTADÍSTICA
INFERENCIAL
INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL
4
Puede dar respuestas a muchas de las necesidades que la sociedad actual puede
requerir. Su tarea fundamental es el análisis
de los datos que se obtienen a partir de
experimentos, con el objetivo de representar
la realidad y conocerla. La estadística
inferencial se centra en tomar una pequeña
muestra representativa de la población y a
partir de ésta, infiere que el resto de la
población tiene el mismo comportamiento.
5
MUESTREO: INTRODUCCIÓN AL MUESTREO Y TIPOS DE MUESTREO
Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio
de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente,
todas las posibles muestras de tamaño n tienen la misma probabilidad de ser
6
seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables.
Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:
Muestreo aleatorio simple: Para obtener una muestra, se numeran los elementos
de la población y se seleccionan al azar los n elementos que contiene la muestra. El
procedimiento empleado es el siguiente: 1) se
asigna un número a cada individuo de la población
y 2) a través de algún medio mecánico (bolas dentro
de una bolsa, tablas de números aleatorios,
números aleatorios generados con una calculadora
u ordenador, etc.) se eligen tantos sujetos como sea
necesario para completar el tamaño de muestra
requerido. Este procedimiento, atractivo por su
simpleza, tiene poca o nula utilidad práctica cuando
la población que estamos manejando es muy
grande.
7
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad
constante (k) podemos introducir una homogeneidad que no se da en la población.
8
Ejemplo: En una fábrica que consta de 600 trabajadores queremos tomar una muestra
de 20. Sabemos que hay 200 trabajadores en la sección A, 150 en la B, 150 en la C
y 100 en la D.
9
Muestreo aleatorio por conglomerados: En el muestreo por conglomerados, en
lugar de seleccionar a todos los sujetos de la población inmediatamente, el
investigador realiza varios pasos para reunir su muestra de la población. Se utiliza
cuando la población se encuentra dividida, de manera natural, en grupos que se
supone que contienen toda la variabilidad de la población, es decir, la representan
fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de
estos grupos o conglomerados para la realización del estudio. Dentro de los grupos
seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a
encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es
decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos,
seleccionados al azar. Este método
tiene la ventaja de simplificar la
recogida de información muestral.
Cuando, dentro de cada
conglomerado seleccionado, se
extraen algunos individuos para
integrar la muestra, el diseño se llama
muestreo bietápico.
12
Muestreo Discrecional: Se lleva acabo de acuerdo el criterio del investigador, los
elementos son elegidos sobre lo que él cree que pueden aportar al estudio. Los
sujetos se seleccionan a base del
conocimiento y juicio del
investigador. El investigador
selecciona a los individuos a través
de su criterio profesional. Puede
basarse en la experiencia de otros
estudios anteriores o en su
conocimiento sobre la población y el
comportamiento de ésta frente a las
características que se estudian.
El teorema del límite central o teorema central del límite indica que, en condiciones
muy generales, la distribución de la suma de variables aleatorias tiende a una
distribución normal cuando la cantidad de variables es muy grande. Este teorema,
13
perteneciente a la teoría de la probabilidad, encuentra aplicación en muchos campos
relacionados, tales como la inferencia estadística o la teoría de renovación.
Datos:
𝑍=𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑋̅=𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
𝜇=𝑚𝑒𝑑𝑖𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜎=𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟
𝑛=𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
Ejemplo: Una empresa eléctrica industrial fabrica focos que tienen una duración que
se distribuye aproximadamente en forma normal, con media de 800 horas y
desviación estándar de 40 horas.
Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida
promedio de menos de 775 horas.
14
Solución:
De acuerdo con el enunciado, se conoce la variable 𝑋𝑖 como la duración del i-esimo
foco en la muestra tomada. Así la variable aleatoria 𝑋𝑖 proviene de una población con
media 𝜇=800 Horas y desviación 𝜎=40 ℎ𝑜𝑟𝑎𝑠. De esta forma por el teorema del límite
central, si se toman muestras de esta población de tamaño n = 16 y se calculan sus
promedios la variable aleatoria 𝑋̅ se distribuye aproximadamente normal con media
𝜇𝑋̅=800 y desviación 𝜎𝑋̅=40. El problema requiere el cálculo de la probabilidad.
Datos:
𝑋=725
𝜇=800
𝜎=40
𝑛=16
Si se consideran todas las posibles muestras de tamaño n que pueden extraerse con
o sin reemplazo de una población conocida, para cada muestra se puede calcular un
estadístico (media x, varianza s2, desviación típica s) que variara de una muestra a
otra. De esta forma obtenemos una distribución del estadístico, que se conoce como
distribución muestral. Así si el estadístico de que se trata es la media, se obtendrá la
distribución muestral de medias
15
Varianza: Es el promedio de la suma de los cuadrados de las desviaciones. Se
entiende por desviación la diferencia de una media respecto a la media:
Como puede verse la varianza es una medida de dispersión, indica en promedio que
tan alejados están los datos respecto a la media.
16
Distribución muestral de la diferencia de medias
En el uso de la distribución normal para este caso se basa en las mismas condiciones
que para la distribución muestral de medias, la única diferencia es que ahora se
analizarán 2 muestras. Suponga que se tienen dos poblaciones distintas, la primera
con media 𝜇1 y desviación estándar 𝜎1 , y la segunda con media 𝜇22 y desviación
estándar 𝜎2 . Más aún, se elige una muestra aleatoria de tamaño n1 de la primera
población y una muestra independiente aleatoria de tamaño n2 de la segunda
población; se calcula la media muestral para cada muestra y la diferencia entre dichas
medias. La colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico 𝑥̅1− 𝑥̅2
17
Distribución muestral de la proporción
Las distribuciones muestrales que se han presentado centran su atención en la
distribución de la media de las variables cuantitativas, por otro lado, al examinar las
variables cualitativas la característica que se suele tomar en cuenta es la proporción
de éxitos. Probablemente en algunos casos se desee hacer una encuesta donde se
estuviese interesado en estimar la proporción de familias que tengan un auto
económico (4 cilindros); o a un político quizá le interese estimar la verdadera
proporción de votos que obtendrá un determinado candidato; en control de calidad
quizá al investigador le interese determinar la tasa real de ocurrencia de un defecto
en particular.
p1 p
p
n
Y al suponer que la distribución muestral de la proporción tiene una
distribución normal se tiene que:
x x
Z
x
p p
s
Z p(1 p)
n
p s1
ps 2
pp 1 2
19
Y una desviación típica
p 1 p p 1 p
p ps 2
1 1
2 2
s1
n 1 n 2
Distribución t-student
Es una distribución de probabilidad. Se utiliza para hacer estimaciones de la media
de una variable, (que está distribuida normalmente), en una población, cuando el
20
tamaño de la muestra es pequeño. También se utiliza para hacer estimaciones de
parámetros de las poblaciones a partir de los valores de los estadísticos
correspondientes en las muestras, cuando desconoce el valor de la varianza o la
desviación estándar de la población.
El valor de la media es 0
Tiene forma de campana y es simétrica con respecto a la media
La distribución t tiene una varianza mayor que 1, pero en la medida en que
aumentan los grados, el valor de la varianza se aproxima a 1, lo cual lleva a
que la distribución t se aproxime a la distribución normal estándar en la medida
en que aumenta el valor de los grados de libertad.
22
Distribución muestral de la varianza
Ahora estudiaremos la distribución de muestreo teórica de la varianza muestral de
muestras aleatorias de poblaciones normales. Como la varianza muestral S 2 no puede
ser negativa, deberíamos sospechar que esta distribución de muestreo no es una
curva normal; en efecto, se relaciona con la distribución chi-cuadrada, y se tiene lo
siguiente.
n
n 1 s2 xi x
2
2 i 1
2 2
23
Distribución muestral de la razón de varianzas
Si se extraen muestras independientes de tamaño n 1 y n2 respectivamente de dos
poblaciones normales con varianzas 21 y 22 respectivamente, y si; S21 y S22 son las
varianzas de las muestras aleatorias, entonces el estadístico de prueba es:
S 1
F 2
S 2
Cuando se obtienen los valores S21 y S22 a partir de las muestras y se calcula el
cociente se concluye que la hipótesis de varianzas iguales es falsa si el valor de este
cociente es de manera suficiente, distinto de 1 (1 + .1) Se consideran las varianzas
iguales si se encuentran dentro de este rango.
Hipótesis:
H 0 : 1 2
2 2
H A : 1 2
2 2
24
ESTIMACION
A los estimadores generalmente se les denota con la misma letra que al parámetro,
pero con un acento circunflejo o “gorrito”; esto es, si el parámetro fuese , su
ˆ
estimador sería . Cabe hacer notar que también se acostumbra usar letras griegas
para parámetros y letras latinas para estimadores. Así, por ejemplo, como estimador
de la media se usa ̂ , o X o Y ; de la varianza se usa s o ˆ , etcétera.
2 2 2
CARACTERÍSTICAS DE UN ESTIMADOR
s n2
para estimar la varianza de una muestra, entonces
E s n2 2
. Esto se
puede demostrar fácilmente como se ve a continuación
( X i X )2 n 1 ( X i X )2 n 1 2
E s E
2
n E
n 1
E s n21
n 1 2
2
n n n n n
25
2
El sesgo en este caso es n , el cual desaparecerá cuando n tienda a infinito.
lo son de .
2
ˆ ˆ
Eficiencia o precisión: Un estimador 1 es más eficiente que 2 de , si la
2 2ˆ2
varianza del primero es menor que la del segundo ( ˆ1 ). Como se vio en
el ejemplo 9.3 X y Md son estimadores insesgados de y también
consistentes; sin embargo, X
2 Md
2
, de donde X es un estimador más
eficiente que Md para estimar .
26
E STIMACIÓN PUNTUAL
Cuasi-varianza muestral:
que corresponde a la
varianza de la muestra, pero
dividiendo por n−1, en lugar de dividir por n. En el capítulo de estadística
descriptiva, ya comentamos que el R, por defecto, al calcular la desviación
típica de una muestra, mediante el comando sd, calcula directamente la cuasi-
varianza y luego obtiene la raíz cuadrada.
27
ESTIMACIÓN POR INTERVALOS
Por una vez, y sin que sirva de precedente, vamos a ver cómo es la construcción
matemática del intervalo de confianza. Consideremos la variable X ∈ N (μ,σ) que
representa a la característica que estamos midiendo (altura, peso…). Supongamos
que σ es conocida.
28
Intervalo de confianza para la diferencia de medias
El intervalo de confianza para el parámetro diferencia de medias μ1−μ2 es:
29
Tomamos entonces una muestra aleatoria simple X1,…,Xn de la
variable X∈B(1,p)
Dado el nivel de confianza 1−α,
El intervalo es:
30
CONCLUSION
31
REFERENCIAS DE CONSULTA
32