Estadística Aplicada

ESTADISTICA APLICADA
CB - 412
ESTADISTICA
ESTADÍSTICA
Conceptos Básicos
Estadística
Población Descriptiva Muestra
Parámetro Estimador
PROBABILIDAD
Conceptos Básicos
Distribuciones de Continuas, Normal, ji-

Probabilidad cuadrado, t de
Discretas, Student
Binomial, otras
Distribuciones en
el Muestreo
Desigualdad de Tchebysheff, Ley

de los grandes Números, Teorema
Central del Limite.
INFERENCIA
Estimación Prueba de Hipótesis

para una y dos
Puntual Por intervalos poblaciones
muestra
Población
Inferencia Estadística: Proceso
Mediante el cual se utiliza la
Información de una muestra
Para extraer conclusiones
De la población
ESTIMACIÓN DE PRUEBAS DE
PARAMETROS HIPOTESIS
Areas de Estimación de
Parámetros
ESTIMACION POR PUNTOS
ESTIMACION
ESTIMACION DE INTERVALOS DE
CONFIANZA
PROCESO INFERENCIAL
POBLACIÓN
Parámetros
µ,σ 2 , p
Diseño
Muestral [ ]
P θˆ − θ < ε = 1 − α
TIPO DE MUESTREO
TAMAÑO DE MUESTRA Estimadores
x, S 2 , p MUESTRA
Ejemplo: Media
POBLACION
f(t) = N[µ, σ 2]
OBSERVACION
MUESTRA θ1= µ =?
σ 2=?
2,4,6,8,5,
) θ2=
θ =x
Definiciones
Muestra aleatoria de tamaño n de una
población X , es una sucesión de n variables
aleatorias, independientes, X1 , X2 ,..., Xn , con
idéntica ley de probabilidad que X .
Estimador: es una variable aleatoria, es una
función de las n variables aleatorias de la
muestra
θˆ = f ( X 1 , X 2 , X 3 .... X n )
Método de Máxima Verosimilitud
Distribución Bernoulli
(1− x )
P( X = x) = p q x
X : 0,1
¿parámetro que se estimará? Æp
Función de Probabilidad de la
muestra
n
L(p) = Π
i=1
p q i
x i 1-x
o bien
L(p)= p Σx (1-p)n- Σx
i i
Ln L(p) = {Σxi}Ln p + Ln (1-p)n- Σxi]

Ln L(p) = {Σxi}Ln p + (n- Σxi) Ln (1-p)]
Ln L(p) = {Σxi}Ln p + (n- Σxi) Ln (1-p)]
df(p)
------- = D’=0 Σxi n- Σxi
dp -------- - ----------- =0
p 1-p
(1-p) Σxi - p [n- Σxi ]=0
Σxi
Σxi –p n = 0 p = --------
n
MÉTODOS DE ESTIMACIÓN PUNTUAL: MÁXIMA VEROSIMILITUD Y MÉTODO DE LOS
MOMENTOS
ESTIMADOR DE UN PARÁMETRO
INSESGADEZ. ERROR CUADRÁTICO MEDIO
CONSISTENCIA
EFICIENCIA
SUFICIENCIA
Intervalos de confianza
Estimadores puntuales comunes
Población Muestra
Media µ _
X
Varianza: σ2 S2
Proporción P
De objetos q’ pertenecen a p= X/n
una clase de interés X= No. Objetos en la muestra
q’ están en la clase
µ1 - µ2 _ _
X1 – X 2
P1-P2
p1 - p2
Estimación Puntual
• Una estimación puntual del valor de un
parámetro poblacional desconocido
(como puede ser la media , µ, o la
desviación estándar , σ), es un número
que se utiliza para aproximar el
verdadero valor de dicho parámetro
poblacional.
• Una estimación puntual es el valor de la

estadística de la muestra
correspondiente.
Estimadores puntuales de los parámetros
de una población normal
Sea una muestra aleatoria simple, X1, X2, ......

, Xn de una población con distribución N(µ,
σ2).
• Estimador de la media n x
µ̂ = x = ∑ i
i =1 n
La distribución muestral de la media es :

σ
x ≡ Ν(µ , )
n
S σ
n
estima a la desviación típica de la
n
media
y se denomina error estándar de la media muestral,
por esta razón se dice que el error estándar de la
media mide la variabilidad de la media en el
muestreo.
• Estimador de la Varianza es la Varianza

muestral
n
( x − x ) 2
σ =S =∑ i
ˆ 2 2
i =1 ( n − 1)
Sea X1, X2, ... , Xn , una muestra aleatoria

simple de una población X ≡ N(µ, σ2),
entonces la variable aleatoria
n
∑ (x − x)
i =1
i
σ 2
sigue una ji-cuadrado con n-1 grados de libertad.

Estimadores puntuales de los
parámetros de una población normal
Del resultado anterior se deduce que la variable
(n − 1) S 2
σ 2
sigue una distribución ji-cuadrado con n-1 grados de

libertad.
Estimadores (continuación)
Realizada la estimación de un parámetro cabe
preguntarse:
• ¿ Es exacta la estimación?
• ¿Es probable que la estimación sea alta o baja?
• ¿Con otra muestra se obtendría el mismo resultado, o
bastante diferente?
• La calidad de un procedimiento de estimación ¿mejora
bastante si la estadística de la muestra es menos variable e
insesgada a la vez?
Estimadores y propiedades
deseables de los estimadores
• La distancia entre el estimador y el parámetro
a estimar puede medirse mediante los que se
denomina el error cuadrático medio, que se
define como el valor esperado del cuadrado de
la diferencia entre el estimador y el verdadero
parámetro. ECM (θˆ ) = E (θˆ − θ ) 2
El ECM es importante ya que puede escribirse como
ECM (θ ) = VAR (θ ) + [θ − E (θ )]
ˆ ˆ ˆ 2
una es la varianza del estimador y otra el cuadrado del sesgo.

Estimadores y propiedades deseables de los
estimadores
• Ausencia de sesgo
Se dice que un estimador es insesgado (o centrado) si la
esperanza del estimador coincide con el parámetro a estimar
En caso contrario se dice que es sesgado.
• Consistencia E (θˆ) = θ
Se dice que un estimador es consistente si se aproxima
cada vez más al verdadero valor del parámetro a medida que
se aumenta el tamaño muestral.
La distribución del estimador se concentra más alrededor del
verdadero parámetro cuando el tamaño muestral aumenta.
Pr[( θˆ − θ ) > ε ] → 0 n → ∞, ε > 0

Estimadores y propiedades deseables
de los estimadores
• Eficiencia
Es claro que un estimador será tanto mejor cuanto
menor sea su varianza, ya que se concentra más
alrededor del verdadero valor del parámetro. Se
dice que un estimador insesgado es eficiente si
tiene varianza mínima.
• Suficiencia
Un estimador es suficiente si utiliza una cantidad de
la información contenida en la muestra de manera
que ningún otro estimador podría extraer
información adicional de la muestra sobre el
parámetro de la población que se está estimando.
Estimadores y propiedades
deseables de los estimadores
Estimación por Intervalos
Dada una muestra aleatoria X1, X2, ... , Xn , de

una población con función de densidad f(x;θ) Un
intervalo de confianza, de extremos Linferior y
Lsuperior, para el parámetro θ de la población es
un par ordenado de funciones reales de las n
medidas de la muestra
I θ = [Linferior (X1,...,Xn);Lsuperior (X1,..., Xn)]
Construidas de forma que la probabilidad de que

los extremos contengan al verdadero valor del
parámetro es un valor prefijado (1 - α). Al
número (1 - α) se le denomina “nivel de
confianza”.
Estimación por Intervalos
• El nivel de confianza suele ser 0,95 (95%) ó 0,99 (99%).
La interpretación práctica es sencilla, por ejemplo si el
nivel de confianza es del 95%, significa que en el 95%
de las veces que repitiéramos el experimento, el
intervalo de confianza calculado contendría al verdadero
valor del parámetro y en el 5% restante el intervalo no
contendría el verdadero valor.
• Una vez que el intervalo de confianza ha sido calculado
para una muestra concreta, el intervalo obtenido
contiene o no contiene al verdadero valor del parámetro,
con probabilidad 1, por esa razón, cuando ya tenemos
un valor concreto hablamos de confianza y no de
probabilidad. Confiamos en que el intervalo que hemos
calculado sea del 95% que contiene el verdadero valor.
Nivel de confianza gráficamente
Intervalo de confianza para la media
poblacional, σ conocido
Supongamos que disponemos de una población en la que tenemos
una v.a. con distribución N(µ,σ) con σ conocida (de estudios
previos, por ejemplo).
Obtenemos una muestra de tamaño n y deseamos estimar la media µ
de la población. El estimador puntual de la misma es la media
muestral cuya distribución muestral es conocida
σ
x ≡ Ν(µ , )
n
x−µ
Z= tendrá distribución
la cantidad
σ normal estándar
n
Sobre la distribución N(0 , 1) podremos seleccionar dos

puntos simétricos –z 1-α/2 y z 1-α/2 , tales que
P(-z 1-α/2 ≤ Z ≤ z 1-α/2 ) = 1-α
Sustituyendo Z por su valor en este caso

particular ⎧ ⎫
⎪⎪ x−µ ⎪⎪
P ⎨− z1−α / 2 ≤ ≤ z1−α / 2 ⎬ = 1 − α
⎪ σ ⎪
⎪⎩ n ⎪⎭
Despejando nos queda el intervalo de confianza,
⎧ σ σ ⎫
P ⎨ x − z1−α / 2 ≤ µ ≤ x + z1−α / 2 ⎬ = 1−α
⎩ n n⎭
Ejemplo:Un grupo de inversionistas quiere determinar la

media del rendimiento anual medida en porcentajes de
ciertos valores. Para esto se seleccionó una muestra
aleatoria de 25 de tales valores observando una media de
x
8.71. Si se sabe que los rendimientos tiene una
distribución normal con desviación estándar de 2.1.Estime
la media del rendimiento anual de tales valores mediante
un intervalo de confianza del 95% .
⎧ 2 .1 2.1 ⎫
⎨8.71 − 1.96 ≤ µ ≤ 8.71 + 1.96 ⎬
⎩ 25 25 ⎭
7.8868 ≤ µ ≤ 9.5332
poblacional, σ desconocido
Recordemos que si la varianza poblacional es

desconocida y la variable es normal o se
puede aproximar a la distribución normal por
el Teorema central del límite, entonces se
usaría la t de Student con n –1 grados de
libertad y la desviación estándar muestral.
El intervalo de confianza que resulta,
⎧ s s ⎫
P ⎨ x − t(1−α / 2;n −1) ≤ µ ≤ x + t(1−α / 2;n −1) ⎬ = 1−α
⎩ n n⎭
Intervalo de confianza para la media poblacional,
σ desconocido
Ejemplo: En un establecimiento dedicado a la

elaboración de alimentos balanceados para aves, se
afirma que su producto aumenta el peso promedio
de las aves en 30 gs diarios. En una muestra de 9
aves tomadas al azar, se obtuvo un aumento
promedio de 35 grs. con desviación de 3,04 grs.
Estimar el intervalo de confianza del 95% para el
verdadero aumento promedio
⎧ 3.04 3.04 ⎫
⎨35 − 2.306 ≤ µ ≤ 35 + 2.306 ⎬
⎩ 9 9 ⎭
{32.66 ≤ µ ≤ 37.34}
Determinación del tamaño de muestra n para un grado de
precisión dado
σ
z1-ε/2 es la mitad del ancho del intervalo de confianza
n
(producto del coeficiente y el error estándar) y se
denomina error máximo de estimación E.
Dado un valor de error y un cierto nivel de confianza,

puedo estimar cuál sería el tamaño de la muestra
z 1-ε/2 σ
2 2
2
=n
E
Intervalo de confianza para la varianza
poblacional
Sea X una variable aleatoria con distribución
normal con µ y σ desconocidos y sea X1, X2, ...,
Xn una muestra aleatoria de tamaño n.
El intervalo de confianza se construye a partir de
la variable (n − 1) S 2
2
χ =
Que tiene una distribución
σ2
ji-cuadrado
con n-1 grados de
libertad y dos valores tales que delimiten el 100(1 - α)%
{ 2 2 2
}
Pr χ ( n−1);α / 2 ≤ χ ( n−1) ≤ χ ( n−1);1−α / 2 = 1 − α
Intervalo de confianza para la
varianza poblacional
Reemplazando la variable χ2 en el intervalo
⎧ 2 (n − 1) S 2
⎫
Pr ⎨ χ ( n−1);α / 2 ≤ ≤ χ ( n−1);1−α / 2 ⎬ = 1 − α
2
⎩ σ 2
⎭
Despejando el intervalo de confianza queda,
⎧⎪ (n − 1) S 2 (n − 1) S ⎪ 2⎫
Pr ⎨ 2 ≤σ ≤ 2
2
⎬ = 1−α
⎪⎩ χ ( n−1);1−α / 2 χ ( n−1);α / 2 ⎪⎭
Intervalo de confianza para la varianza poblacional
Ejemplo: Una gran corporación que realiza ventas de productos de

consumo masivo decidió analizar la dispersión de las ventas semanales de
un producto específico en sus 400 tiendas. Tales ventas se distribuyen
aproximadamente normal. Si en una muestra aleatoria de 15 de sus
tiendas se encontró las siguientes ventas semanales en dólares
700,739,695,710,724,715,720,723,700,750,695,760,689,735,670
Obtenga el intervalo de confianza al 95% de la media y la desviación
estándar de las ventas del producto.
X = 715, S = 24.454
De los datos se tiene
⎧ (14)24.454 2 (14)24.454 ⎫
2
⎨ ≤σ ≤
2
⎬
⎩ 26.12 5.63 ⎭
{320.5196 ≤ σ 2 ≤ 1487.028 }
17.9 ≤ σ ≤ 38.562
Diferencia de Medias
X se distribuye según N (µ1 , σ 2 )
Y se distribuye según N (µ 2 , σ 2 )
Ambas variables miden el mismo atributo, pero

en distintas poblaciones
Caso 1: Varianzas Poblacionales conocidas –
Muestras Independientes
El Intervalo de confianza con (1 - α) % para la diferencia de medias es:
σ 12 σ 2
X 1 ≈ N (µ1, ) X 2 ≈ N (µ 2 , 2
)
n1 n2
σ 12 σ 2
X 1 − X 1 ≈ N (µ1 − µ 2 , + 2
)
n1 n2
σ12 σ 22 σ12 σ 22
X1 − X 2 − Z(1−α / 2) + ≤ µ1 − µ2 ≤ X1 − X 2 + Z(1−α / 2) +
n1 n2 n1 n2
Ejemplo: Un alto dirigente del emporio comercial Gamarra afirma que el
salario promedio por semana de los hombres supera en S/42 al salario
promedio de las mujeres. Para comprobar la afirmación un grupo de
trabajo escogió una muestra aleatoria de 20 hombres y otra de 25
mujeres encontrando los promedios S/ 356.4 y S/.324 respectivamente.
Aplicando un intervalo de confianza del 95% para la diferencia de
medias,¿es consistente la afirmación del dirigente? . El grupo supone
que los salarios en cada caso siguen el modelo de probabilidad normal
con varianzas 400 y 225 soles2 respectivamente.
XH = 356.4 XM = 324
⎡ 400 225⎤
µH − µH ∈⎢356.4 − 324±1.96 + ⎥
⎣ 20 25 ⎦
[32.4 ±10.55] 21.85≤ µH − µH ≤ 42.95
Cociente de varianzas
X se distribuye según N (µ1 , σ12 )
Ambas variables miden el mismo atributo, pero

en distintas poblaciones
Intervalo de confianza para el
Cociente de Varianzas
X se distribuye según N (µ1 , σ12 )

X 1 = x1 , X 2 = x 2 , L , X n 1 = x n 1
(n1 − 1) S X2
χ1 = se distribuye según una Ji - cuadrado con n1 - 1 g.l.
σ 2
1
Y1 = y1 , Y2 = y2 , L , Yn 2 = yn 2
(n2 − 1) SY2
χ2 = se distribuye según una Ji - cuadrado con n 2 - 1 g.l.
σ 2
2
(n1 − 1) S X2
χ1 = se distribuye según una Ji - cuadrado con n1 - 1 g.l.
σ 2
1
(n2 − 1) SY2
χ2 = se distribuye según una Ji - cuadrado con n 2 - 1 g.l.
σ 2
2
Ambas son independientes. Entonces
χ1 /(n1 − 1)
F=
χ 2 /(n2 − 1)
Sigue una distribución F de Fisher con (n1 - 1) grados de libertad en

el numerador y (n2 - 1) grados de libertad en el denominador.
F( n −1, m −1)
1− α
0
0 5 10 15 20 25 30
F( n1−1, n 2 −1,α / 2 ) F( n1−1, n 2 −1,1−α / 2 )
⎧ S Xσ 2
2 2
⎫
Pr ⎨ F( n1−1,n 2−1,α / 2 ) ≤ 2 2 ≤ F( n1−1,n 2−1,1−α / 2 ) ⎬ = 1 − α
⎩ SY σ 1 ⎭
F( n −1, m −1)
1− α
0
0 5 10 15 20 25 30
F( n1−1, n 2 −1,α / 2 ) F( n1−1, n 2 −1,1−α / 2 )
⎛ S 2
/ S 2
S 2
/ S 2 ⎞
⎜ X Y
, X Y ⎟
⎜F F ⎟
⎝ ( n1−1,n 2−1,1−α / 2 ) ( n1−1,n 2−1,α / 2 ) ⎠
σ12
Intervalo de confianza para la razón σ 22
Caso 2:Intervalo de confianza para la
Diferencia de Medias-Varianzas
Poblacionales Desconocidas
X se distribuye según N (µ1 , σ 2 )

X 1 = x1 , X 2 = x2 , L , X n1 = xn1
n n
∑X i ∑(X − X ) i
2
X= i =1 S =
2 i =1
n1 − 1
X
n1
Y1 = y1 , Y2 = y2 , L , Yn 2 = yn 2
m
∑Y i
m
∑ i
(Y − Y ) 2
Y= i =1
n2 SY2 = i =1
n2 − 1
Intervalo de confianza para la Diferencia de Medias:
Varianzas Desconocidas pero iguales
Un estimador de la varianza basada en las dos muestras es

(n1 − 1) S X2 + (n2 − 1) SY2
Sp =
2
n1 + n2 − 2
Por otro lado, se demuestra que
X − Y se distribuye como N ( µ1 − µ 2 , σ 2 (1 / n1 + 1 / n2 ))
( X − Y ) − ( µ1 − µ 2 )
T=
S p 1 / n1 + 1 / n2
Sigue una distribución t-student con n1+n2-2 grados de libertad

Diferencia de Medias
Por lo tanto un intervalo de confianza (1- α) para la diferencia de

medias está dado por
( X − Y ) ± t( n1 + n2 − 2 ) S p2 (1 / n1 + 1 / n2 )
Percentil (1-α/2)100 de la distribución t-student con n1+n2-2 grados

de libertad
Intervalo de confianza para la Diferencia de Medias con Varianzas
desconocidas pero diferentes
Un intervalo de confianza (1- α) para la diferencia de medias
cuando las varianzas poblacionales no se conocen y son diferentes
es:
S 12 S 22
( X − Y ) ± t ( v ,1 − α / 2 ) +
n1 n2
2
⎡S S ⎤ 2 2
⎢n + n ⎥
1 2
v = ⎣ 1 2 ⎦
2 2
⎡ S1 ⎤
2
⎡ S2 ⎤
2
⎢n ⎥ ⎢n ⎥
⎣ 1 ⎦ + ⎣ 2 ⎦
n1 − 1 n2 − 1
Percentil (1-α/2)100 de la distribución t-student con v grados de libertad
Intervalo de Confianza para la diferencia entre
dos medias de observaciones pareadas
( X 1 , Y1 ), ( X 2 , Y2 ),...( X n , Yn )
Una muestra aleatoria de n datos emparejados, escogida
de la población bivariada (X, Y) donde
X se distribuye según N (µ1 , σ ) 2
X 1 , X 2 ,.. X n 1 e Y 1 , Y 2 ,.. Y n 2
Son dos muestras correlacionadas D1 = X1 −Y1, D2 = X2 −Y2,...Dn = Xn −Yn
Una muestra aleatoria de tamaño n, seleccionada de la

población de diferencias D=X-Y cuya distribución es normal
Intervalo de Confianza para la diferencia entre
dos medias de observaciones pareadas
D ≈ N (µ D ,σ 2
D )
µ D = µ 1 − µ 2
σ 2
D = σ 1
2
+ σ 2
2 − 2 Cov ( X ,Y )
d − µD
T = ≈ t ( n −1 )
Sd / n
SD SD
d − t ( n −1,1− α / 2 ) ≤ µ D ≤ d + t ( n −1,1− α / 2 )
n n

Estadística Aplicada

Cargado por

Copyright:

Formatos disponibles

Estadística Aplicada

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Aplicada

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA APLICADA

Distribuciones de Continuas, Normal, ji-

Desigualdad de Tchebysheff, Ley

Estimación Prueba de Hipótesis

Ln L(p) = {Σxi}Ln p + Ln (1-p)n- Σxi]

• Una estimación puntual es el valor de la

Sea una muestra aleatoria simple, X1, X2, ......

La distribución muestral de la media es :

• Estimador de la Varianza es la Varianza

Sea X1, X2, ... , Xn , una muestra aleatoria

sigue una ji-cuadrado con n-1 grados de libertad.

Del resultado anterior se deduce que la variable

sigue una distribución ji-cuadrado con n-1 grados de

una es la varianza del estimador y otra el cuadrado del sesgo.

Pr[( θˆ − θ ) > ε ] → 0 n → ∞, ε > 0

Dada una muestra aleatoria X1, X2, ... , Xn , de

Construidas de forma que la probabilidad de que

Sobre la distribución N(0 , 1) podremos seleccionar dos

Sustituyendo Z por su valor en este caso

Ejemplo:Un grupo de inversionistas quiere determinar la

Recordemos que si la varianza poblacional es

Ejemplo: En un establecimiento dedicado a la

Dado un valor de error y un cierto nivel de confianza,

Ejemplo: Una gran corporación que realiza ventas de productos de

X se distribuye según N (µ1 , σ 2 )

Ambas variables miden el mismo atributo, pero

X se distribuye según N (µ1 , σ12 )

Ambas variables miden el mismo atributo, pero

X se distribuye según N (µ1 , σ12 )

Ambas son independientes. Entonces

Sigue una distribución F de Fisher con (n1 - 1) grados de libertad en

X se distribuye según N (µ1 , σ 2 )

Un estimador de la varianza basada en las dos muestras es

Sigue una distribución t-student con n1+n2-2 grados de libertad

Por lo tanto un intervalo de confianza (1- α) para la diferencia de

Percentil (1-α/2)100 de la distribución t-student con n1+n2-2 grados

X se distribuye según N (µ1 , σ ) 2

Son dos muestras correlacionadas D1 = X1 −Y1, D2 = X2 −Y2,...Dn = Xn −Yn

Una muestra aleatoria de tamaño n, seleccionada de la

También podría gustarte