Estadística Aplicada

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 56

ESTADISTICA APLICADA

CB - 412
ESTADISTICA
ESTADÍSTICA
Conceptos Básicos
Estadística
Población Descriptiva Muestra

Parámetro Estimador
PROBABILIDAD
Conceptos Básicos

Distribuciones de Continuas, Normal, ji-


Probabilidad cuadrado, t de
Discretas, Student
Binomial, otras
Distribuciones en
el Muestreo

Desigualdad de Tchebysheff, Ley


de los grandes Números, Teorema
Central del Limite.

INFERENCIA

Estimación Prueba de Hipótesis


para una y dos
Puntual Por intervalos poblaciones
muestra

Población
Inferencia Estadística: Proceso
Mediante el cual se utiliza la
Información de una muestra
Para extraer conclusiones
De la población

ESTIMACIÓN DE PRUEBAS DE
PARAMETROS HIPOTESIS
Areas de Estimación de
Parámetros
ESTIMACION POR PUNTOS

ESTIMACION

ESTIMACION DE INTERVALOS DE
CONFIANZA
PROCESO INFERENCIAL
POBLACIÓN

Parámetros
µ,σ 2 , p

Diseño
Muestral [ ]
P θˆ − θ < ε = 1 − α
TIPO DE MUESTREO
TAMAÑO DE MUESTRA Estimadores
x, S 2 , p MUESTRA
Ejemplo: Media
POBLACION

f(t) = N[µ, σ 2]
OBSERVACION

MUESTRA θ1= µ =?

σ 2=?
2,4,6,8,5,
) θ2=
θ =x
Definiciones
Muestra aleatoria de tamaño n de una
población X , es una sucesión de n variables
aleatorias, independientes, X1 , X2 ,..., Xn , con
idéntica ley de probabilidad que X .
Estimador: es una variable aleatoria, es una
función de las n variables aleatorias de la
muestra
θˆ = f ( X 1 , X 2 , X 3 .... X n )
Método de Máxima Verosimilitud
Distribución Bernoulli
(1− x )
P( X = x) = p q x

X : 0,1
¿parámetro que se estimará? Æp
Función de Probabilidad de la
muestra
n

L(p) = Π
i=1
p q i
x i 1-x

o bien

L(p)= p Σx (1-p)n- Σx
i i

Ln L(p) = {Σxi}Ln p + Ln (1-p)n- Σxi]


Ln L(p) = {Σxi}Ln p + (n- Σxi) Ln (1-p)]
Ln L(p) = {Σxi}Ln p + (n- Σxi) Ln (1-p)]

df(p)
------- = D’=0 Σxi n- Σxi
dp -------- - ----------- =0
p 1-p
(1-p) Σxi - p [n- Σxi ]=0
Σxi
Σxi –p n = 0 p = --------
n
MÉTODOS DE ESTIMACIÓN PUNTUAL: MÁXIMA VEROSIMILITUD Y MÉTODO DE LOS
MOMENTOS
ESTIMADOR DE UN PARÁMETRO
INSESGADEZ. ERROR CUADRÁTICO MEDIO
CONSISTENCIA
EFICIENCIA
SUFICIENCIA
Intervalos de confianza
Estimadores puntuales comunes
Población Muestra
Media µ _
X
Varianza: σ2 S2
Proporción P
De objetos q’ pertenecen a p= X/n
una clase de interés X= No. Objetos en la muestra
q’ están en la clase
µ1 - µ2 _ _
X1 – X 2
P1-P2
p1 - p2
Estimación Puntual
• Una estimación puntual del valor de un
parámetro poblacional desconocido
(como puede ser la media , µ, o la
desviación estándar , σ), es un número
que se utiliza para aproximar el
verdadero valor de dicho parámetro
poblacional.

• Una estimación puntual es el valor de la


estadística de la muestra
correspondiente.
Estimadores puntuales de los parámetros
de una población normal

Sea una muestra aleatoria simple, X1, X2, ......


, Xn de una población con distribución N(µ,
σ2).
• Estimador de la media n x
µ̂ = x = ∑ i
i =1 n

La distribución muestral de la media es :


σ
x ≡ Ν(µ , )
n
Estimadores puntuales de los parámetros
de una población normal

S σ
n
estima a la desviación típica de la
n
media
y se denomina error estándar de la media muestral,
por esta razón se dice que el error estándar de la
media mide la variabilidad de la media en el
muestreo.
Estimadores puntuales de los parámetros
de una población normal

• Estimador de la Varianza es la Varianza


muestral
n
( x − x ) 2
σ =S =∑ i
ˆ 2 2

i =1 ( n − 1)
Estimadores puntuales de los parámetros
de una población normal

Sea X1, X2, ... , Xn , una muestra aleatoria


simple de una población X ≡ N(µ, σ2),
entonces la variable aleatoria
n

∑ (x − x)
i =1
i

σ 2

sigue una ji-cuadrado con n-1 grados de libertad.


Estimadores puntuales de los
parámetros de una población normal

Del resultado anterior se deduce que la variable

(n − 1) S 2

σ 2

sigue una distribución ji-cuadrado con n-1 grados de


libertad.
Estimadores (continuación)
Realizada la estimación de un parámetro cabe
preguntarse:
• ¿ Es exacta la estimación?
• ¿Es probable que la estimación sea alta o baja?
• ¿Con otra muestra se obtendría el mismo resultado, o
bastante diferente?
• La calidad de un procedimiento de estimación ¿mejora
bastante si la estadística de la muestra es menos variable e
insesgada a la vez?
Estimadores y propiedades
deseables de los estimadores
• La distancia entre el estimador y el parámetro
a estimar puede medirse mediante los que se
denomina el error cuadrático medio, que se
define como el valor esperado del cuadrado de
la diferencia entre el estimador y el verdadero
parámetro. ECM (θˆ ) = E (θˆ − θ ) 2
El ECM es importante ya que puede escribirse como
ECM (θ ) = VAR (θ ) + [θ − E (θ )]
ˆ ˆ ˆ 2

una es la varianza del estimador y otra el cuadrado del sesgo.


Estimadores y propiedades deseables de los
estimadores
• Ausencia de sesgo
Se dice que un estimador es insesgado (o centrado) si la
esperanza del estimador coincide con el parámetro a estimar
En caso contrario se dice que es sesgado.
• Consistencia E (θˆ) = θ
Se dice que un estimador es consistente si se aproxima
cada vez más al verdadero valor del parámetro a medida que
se aumenta el tamaño muestral.
La distribución del estimador se concentra más alrededor del
verdadero parámetro cuando el tamaño muestral aumenta.

Pr[( θˆ − θ ) > ε ] → 0 n → ∞, ε > 0


Estimadores y propiedades deseables
de los estimadores
• Eficiencia
Es claro que un estimador será tanto mejor cuanto
menor sea su varianza, ya que se concentra más
alrededor del verdadero valor del parámetro. Se
dice que un estimador insesgado es eficiente si
tiene varianza mínima.
• Suficiencia
Un estimador es suficiente si utiliza una cantidad de
la información contenida en la muestra de manera
que ningún otro estimador podría extraer
información adicional de la muestra sobre el
parámetro de la población que se está estimando.
Estimadores y propiedades
deseables de los estimadores
Estimación por Intervalos

Dada una muestra aleatoria X1, X2, ... , Xn , de


una población con función de densidad f(x;θ) Un
intervalo de confianza, de extremos Linferior y
Lsuperior, para el parámetro θ de la población es
un par ordenado de funciones reales de las n
medidas de la muestra
I θ = [Linferior (X1,...,Xn);Lsuperior (X1,..., Xn)]

Construidas de forma que la probabilidad de que


los extremos contengan al verdadero valor del
parámetro es un valor prefijado (1 - α). Al
número (1 - α) se le denomina “nivel de
confianza”.
Estimación por Intervalos
• El nivel de confianza suele ser 0,95 (95%) ó 0,99 (99%).
La interpretación práctica es sencilla, por ejemplo si el
nivel de confianza es del 95%, significa que en el 95%
de las veces que repitiéramos el experimento, el
intervalo de confianza calculado contendría al verdadero
valor del parámetro y en el 5% restante el intervalo no
contendría el verdadero valor.
• Una vez que el intervalo de confianza ha sido calculado
para una muestra concreta, el intervalo obtenido
contiene o no contiene al verdadero valor del parámetro,
con probabilidad 1, por esa razón, cuando ya tenemos
un valor concreto hablamos de confianza y no de
probabilidad. Confiamos en que el intervalo que hemos
calculado sea del 95% que contiene el verdadero valor.
Nivel de confianza gráficamente
Intervalo de confianza para la media
poblacional, σ conocido
Supongamos que disponemos de una población en la que tenemos
una v.a. con distribución N(µ,σ) con σ conocida (de estudios
previos, por ejemplo).
Obtenemos una muestra de tamaño n y deseamos estimar la media µ
de la población. El estimador puntual de la misma es la media
muestral cuya distribución muestral es conocida
σ
x ≡ Ν(µ , )
n
x−µ
Z= tendrá distribución
la cantidad
σ normal estándar
n
Intervalo de confianza para la media
poblacional, σ conocido

Sobre la distribución N(0 , 1) podremos seleccionar dos


puntos simétricos –z 1-α/2 y z 1-α/2 , tales que
P(-z 1-α/2 ≤ Z ≤ z 1-α/2 ) = 1-α
Intervalo de confianza para la media
poblacional, σ conocido

Sustituyendo Z por su valor en este caso


particular ⎧ ⎫
⎪⎪ x−µ ⎪⎪
P ⎨− z1−α / 2 ≤ ≤ z1−α / 2 ⎬ = 1 − α
⎪ σ ⎪
⎪⎩ n ⎪⎭
Despejando nos queda el intervalo de confianza,
⎧ σ σ ⎫
P ⎨ x − z1−α / 2 ≤ µ ≤ x + z1−α / 2 ⎬ = 1−α
⎩ n n⎭
Intervalo de confianza para la media
poblacional, σ conocido

Ejemplo:Un grupo de inversionistas quiere determinar la


media del rendimiento anual medida en porcentajes de
ciertos valores. Para esto se seleccionó una muestra
aleatoria de 25 de tales valores observando una media de
x
8.71. Si se sabe que los rendimientos tiene una
distribución normal con desviación estándar de 2.1.Estime
la media del rendimiento anual de tales valores mediante
un intervalo de confianza del 95% .

⎧ 2 .1 2.1 ⎫
⎨8.71 − 1.96 ≤ µ ≤ 8.71 + 1.96 ⎬
⎩ 25 25 ⎭
7.8868 ≤ µ ≤ 9.5332
Intervalo de confianza para la media
poblacional, σ desconocido

Recordemos que si la varianza poblacional es


desconocida y la variable es normal o se
puede aproximar a la distribución normal por
el Teorema central del límite, entonces se
usaría la t de Student con n –1 grados de
libertad y la desviación estándar muestral.
El intervalo de confianza que resulta,
⎧ s s ⎫
P ⎨ x − t(1−α / 2;n −1) ≤ µ ≤ x + t(1−α / 2;n −1) ⎬ = 1−α
⎩ n n⎭
Intervalo de confianza para la media poblacional,
σ desconocido

Ejemplo: En un establecimiento dedicado a la


elaboración de alimentos balanceados para aves, se
afirma que su producto aumenta el peso promedio
de las aves en 30 gs diarios. En una muestra de 9
aves tomadas al azar, se obtuvo un aumento
promedio de 35 grs. con desviación de 3,04 grs.
Estimar el intervalo de confianza del 95% para el
verdadero aumento promedio
⎧ 3.04 3.04 ⎫
⎨35 − 2.306 ≤ µ ≤ 35 + 2.306 ⎬
⎩ 9 9 ⎭
{32.66 ≤ µ ≤ 37.34}
Determinación del tamaño de muestra n para un grado de
precisión dado
σ
z1-ε/2 es la mitad del ancho del intervalo de confianza
n
(producto del coeficiente y el error estándar) y se
denomina error máximo de estimación E.

Dado un valor de error y un cierto nivel de confianza,


puedo estimar cuál sería el tamaño de la muestra

z 1-ε/2 σ
2 2

2
=n
E
Intervalo de confianza para la varianza
poblacional
Sea X una variable aleatoria con distribución
normal con µ y σ desconocidos y sea X1, X2, ...,
Xn una muestra aleatoria de tamaño n.
El intervalo de confianza se construye a partir de
la variable (n − 1) S 2
2
χ =
Que tiene una distribución
σ2
ji-cuadrado
con n-1 grados de
libertad y dos valores tales que delimiten el 100(1 - α)%

{ 2 2 2
}
Pr χ ( n−1);α / 2 ≤ χ ( n−1) ≤ χ ( n−1);1−α / 2 = 1 − α
Intervalo de confianza para la
varianza poblacional
Reemplazando la variable χ2 en el intervalo
⎧ 2 (n − 1) S 2

Pr ⎨ χ ( n−1);α / 2 ≤ ≤ χ ( n−1);1−α / 2 ⎬ = 1 − α
2

⎩ σ 2

Despejando el intervalo de confianza queda,

⎧⎪ (n − 1) S 2 (n − 1) S ⎪ 2⎫
Pr ⎨ 2 ≤σ ≤ 2
2
⎬ = 1−α
⎪⎩ χ ( n−1);1−α / 2 χ ( n−1);α / 2 ⎪⎭
Intervalo de confianza para la varianza poblacional

Ejemplo: Una gran corporación que realiza ventas de productos de


consumo masivo decidió analizar la dispersión de las ventas semanales de
un producto específico en sus 400 tiendas. Tales ventas se distribuyen
aproximadamente normal. Si en una muestra aleatoria de 15 de sus
tiendas se encontró las siguientes ventas semanales en dólares
700,739,695,710,724,715,720,723,700,750,695,760,689,735,670
Obtenga el intervalo de confianza al 95% de la media y la desviación
estándar de las ventas del producto.

X = 715, S = 24.454
De los datos se tiene

⎧ (14)24.454 2 (14)24.454 ⎫
2

⎨ ≤σ ≤
2

⎩ 26.12 5.63 ⎭
{320.5196 ≤ σ 2 ≤ 1487.028 }
17.9 ≤ σ ≤ 38.562
Intervalo de confianza para la
Diferencia de Medias

X se distribuye según N (µ1 , σ 2 )

Y se distribuye según N (µ 2 , σ 2 )

Ambas variables miden el mismo atributo, pero


en distintas poblaciones
Caso 1: Varianzas Poblacionales conocidas –
Muestras Independientes
El Intervalo de confianza con (1 - α) % para la diferencia de medias es:

σ 12 σ 2
X 1 ≈ N (µ1, ) X 2 ≈ N (µ 2 , 2
)
n1 n2
σ 12 σ 2
X 1 − X 1 ≈ N (µ1 − µ 2 , + 2
)
n1 n2

σ12 σ 22 σ12 σ 22
X1 − X 2 − Z(1−α / 2) + ≤ µ1 − µ2 ≤ X1 − X 2 + Z(1−α / 2) +
n1 n2 n1 n2
Ejemplo: Un alto dirigente del emporio comercial Gamarra afirma que el
salario promedio por semana de los hombres supera en S/42 al salario
promedio de las mujeres. Para comprobar la afirmación un grupo de
trabajo escogió una muestra aleatoria de 20 hombres y otra de 25
mujeres encontrando los promedios S/ 356.4 y S/.324 respectivamente.
Aplicando un intervalo de confianza del 95% para la diferencia de
medias,¿es consistente la afirmación del dirigente? . El grupo supone
que los salarios en cada caso siguen el modelo de probabilidad normal
con varianzas 400 y 225 soles2 respectivamente.

XH = 356.4 XM = 324
⎡ 400 225⎤
µH − µH ∈⎢356.4 − 324±1.96 + ⎥
⎣ 20 25 ⎦
[32.4 ±10.55] 21.85≤ µH − µH ≤ 42.95
Cociente de varianzas

X se distribuye según N (µ1 , σ12 )

Y se distribuye según N (µ 2 , σ 22 )

Ambas variables miden el mismo atributo, pero


en distintas poblaciones
Intervalo de confianza para el
Cociente de Varianzas

X se distribuye según N (µ1 , σ12 )


X 1 = x1 , X 2 = x 2 , L , X n 1 = x n 1
(n1 − 1) S X2
χ1 = se distribuye según una Ji - cuadrado con n1 - 1 g.l.
σ 2
1

Y se distribuye según N (µ 2 , σ 22 )

Y1 = y1 , Y2 = y2 , L , Yn 2 = yn 2
(n2 − 1) SY2
χ2 = se distribuye según una Ji - cuadrado con n 2 - 1 g.l.
σ 2
2
Intervalo de confianza para el
Cociente de Varianzas

(n1 − 1) S X2
χ1 = se distribuye según una Ji - cuadrado con n1 - 1 g.l.
σ 2
1

(n2 − 1) SY2
χ2 = se distribuye según una Ji - cuadrado con n 2 - 1 g.l.
σ 2
2

Ambas son independientes. Entonces

χ1 /(n1 − 1)
F=
χ 2 /(n2 − 1)

Sigue una distribución F de Fisher con (n1 - 1) grados de libertad en


el numerador y (n2 - 1) grados de libertad en el denominador.
Intervalo de confianza para el
Cociente de Varianzas

F( n −1, m −1)

1− α
0
0 5 10 15 20 25 30
F( n1−1, n 2 −1,α / 2 ) F( n1−1, n 2 −1,1−α / 2 )

⎧ S Xσ 2
2 2

Pr ⎨ F( n1−1,n 2−1,α / 2 ) ≤ 2 2 ≤ F( n1−1,n 2−1,1−α / 2 ) ⎬ = 1 − α
⎩ SY σ 1 ⎭
Intervalo de confianza para el
Cociente de Varianzas

F( n −1, m −1)

1− α
0
0 5 10 15 20 25 30
F( n1−1, n 2 −1,α / 2 ) F( n1−1, n 2 −1,1−α / 2 )

⎛ S 2
/ S 2
S 2
/ S 2 ⎞
⎜ X Y
, X Y ⎟
⎜F F ⎟
⎝ ( n1−1,n 2−1,1−α / 2 ) ( n1−1,n 2−1,α / 2 ) ⎠
σ12
Intervalo de confianza para la razón σ 22
Caso 2:Intervalo de confianza para la
Diferencia de Medias-Varianzas
Poblacionales Desconocidas

X se distribuye según N (µ1 , σ 2 )


X 1 = x1 , X 2 = x2 , L , X n1 = xn1
n n

∑X i ∑(X − X ) i
2

X= i =1 S =
2 i =1
n1 − 1
X
n1
Y se distribuye según N (µ 2 , σ 2 )
Y1 = y1 , Y2 = y2 , L , Yn 2 = yn 2
m

∑Y i
m

∑ i
(Y − Y ) 2
Y= i =1
n2 SY2 = i =1
n2 − 1
Intervalo de confianza para la Diferencia de Medias:
Varianzas Desconocidas pero iguales

Un estimador de la varianza basada en las dos muestras es


(n1 − 1) S X2 + (n2 − 1) SY2
Sp =
2

n1 + n2 − 2
Por otro lado, se demuestra que

X − Y se distribuye como N ( µ1 − µ 2 , σ 2 (1 / n1 + 1 / n2 ))

( X − Y ) − ( µ1 − µ 2 )
T=
S p 1 / n1 + 1 / n2

Sigue una distribución t-student con n1+n2-2 grados de libertad


Intervalo de confianza para la
Diferencia de Medias

Por lo tanto un intervalo de confianza (1- α) para la diferencia de


medias está dado por

( X − Y ) ± t( n1 + n2 − 2 ) S p2 (1 / n1 + 1 / n2 )

Percentil (1-α/2)100 de la distribución t-student con n1+n2-2 grados


de libertad
Intervalo de confianza para la Diferencia de Medias con Varianzas
desconocidas pero diferentes
Un intervalo de confianza (1- α) para la diferencia de medias
cuando las varianzas poblacionales no se conocen y son diferentes
es:
S 12 S 22
( X − Y ) ± t ( v ,1 − α / 2 ) +
n1 n2
2
⎡S S ⎤ 2 2

⎢n + n ⎥
1 2

v = ⎣ 1 2 ⎦
2 2
⎡ S1 ⎤
2
⎡ S2 ⎤
2

⎢n ⎥ ⎢n ⎥
⎣ 1 ⎦ + ⎣ 2 ⎦
n1 − 1 n2 − 1
Percentil (1-α/2)100 de la distribución t-student con v grados de libertad
Intervalo de Confianza para la diferencia entre
dos medias de observaciones pareadas
( X 1 , Y1 ), ( X 2 , Y2 ),...( X n , Yn )
Una muestra aleatoria de n datos emparejados, escogida
de la población bivariada (X, Y) donde

X se distribuye según N (µ1 , σ ) 2

Y se distribuye según N (µ 2 , σ 2 )
X 1 , X 2 ,.. X n 1 e Y 1 , Y 2 ,.. Y n 2

Son dos muestras correlacionadas D1 = X1 −Y1, D2 = X2 −Y2,...Dn = Xn −Yn

Una muestra aleatoria de tamaño n, seleccionada de la


población de diferencias D=X-Y cuya distribución es normal
Intervalo de Confianza para la diferencia entre
dos medias de observaciones pareadas
D ≈ N (µ D ,σ 2
D )
µ D = µ 1 − µ 2

σ 2
D = σ 1
2
+ σ 2
2 − 2 Cov ( X ,Y )

d − µD
T = ≈ t ( n −1 )
Sd / n

SD SD
d − t ( n −1,1− α / 2 ) ≤ µ D ≤ d + t ( n −1,1− α / 2 )
n n

También podría gustarte