Dia Positi Vas 2
Dia Positi Vas 2
Dia Positi Vas 2
LIC. EN ESTADÍSTICA
2018
2
Índice general
1. Presentación 1
3. Introducción 13
3.1. Definición de conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1. Pasos para realizar una encuesta por muestreo . . . . . . . . . . . . . 19
3.2. Objetivos del muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Otras definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.1. Propiedades deseables de un estimador . . . . . . . . . . . . . . . . . 22
3.3.2. Primera ley de los grandes números . . . . . . . . . . . . . . . . . . . 23
3.3.3. Segunda ley de los grandes números . . . . . . . . . . . . . . . . . . . 24
3.3.4. Teorema Central del Lı́mite . . . . . . . . . . . . . . . . . . . . . . . 24
7. Muestreo estratificado 65
7.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3. Estimador del Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.4. Estimador de la Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.5. Estimador de una Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.6. Distribución de la muestra a los estratos . . . . . . . . . . . . . . . . . . . . 72
7.7. Tamaño de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
9. Muestreo sistemático 83
9.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
9.2. Muestreo sistemático (con arranque aleatorio) . . . . . . . . . . . . . . . . . 83
9.3. Estimador de la Media poblacional . . . . . . . . . . . . . . . . . . . . . . . 86
9.3.1. Comparación con m.a.s. . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.4. EJEMPLOS SISTEMÁTICO . . . . . . . . . . . . . . . . . . . . . . . . . . 89
10.Muestreo de conglomerados 97
10.1. Tamaño de los conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.2. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.3. Estimador del Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . 100
10.4. Estimador de la Media poblacional (por elemento) . . . . . . . . . . . . . . . 100
10.5. Estimadores de Razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.5.1. Estimador de la Media poblacional por elemento. (Razón) . . . . . . 101
10.5.2. Estimador del Total poblacional. (Razón) . . . . . . . . . . . . . . . . 102
10.5.3. Estimador de una Proporción poblacional. (Razón) . . . . . . . . . . 102
ÍNDICE GENERAL iii
Bibliografı́a. 127
iv ÍNDICE GENERAL
Capı́tulo 1
Presentación
UNIVERSIDAD AUTÓNOMA CHAPINGO
DIVISIÓN DE CIENCIAS FORESTALES
Departamento de Estadística, Matemática y Cómputo
Licenciatura en Estadística
Maestría en Ciencias Forestales
Datos generales:
INTRODUCCIÓN
Una muestra debe ser representativa si va a ser usada para estimar las
características de la población. Los métodos para seleccionar una muestra
representativa son numerosos, dependiendo del tiempo, dinero y habilidad
disponibles para tomar una muestra y la naturaleza de los elementos
individuales de la población. Por lo tanto, se requiere una gran volumen para
incluir todos los tipos de métodos de muestreo.
PRESENTACIÓN
2
Por este motivo, en este curso se proporcionan las herramientas básicas para el
conocimiento de los principales tipos de muestreo que se le pueden aplicar a
una población. Dicha población puede ser considerada ya sean personas,
animales, plantas, etc. Se estimarán sus principales estadísticos como lo son la
media, el total y proporciones.
OBJETIVO
CONTENIDO
Unidad 1: Introducción.
Unidad 2: Muestreo aleatorio simple (mas).
Unidad 3: Muestreo aleatorio estratificado (mae).
Unidad 4: Muestreo sistemático (ms).
Unidad 5: Muestreo de conglomerados.
3
Unidad 6. Muestreo por conglomerados en dos etapas.
UNIDADES TEMÁTICAS
Unidad 1. Introducción
Contenido:
1.1 ¿Qué es el muestreo? Breve historia de su desarrollo
1.2 Población, marco y muestra
1.3 Fases de la investigación por muestreo
1.4 Tipos de errores en una encuesta por muestreo
1.5 El cuestionario
1.6 Diseños
1.7 Estimadores y distribución muestral
4
3.4 Tamaño de muestra para la estimación de una media y el total
poblacional
3.5 Estimación de una proporción poblacional
3.6 Tamaño de muestra para la estimación de una proporción poblacional
Contenido:
6.1 Como seleccionar una muestra en dos etapas
6.2 Como seleccionar una muestra por conglomerados en dos etapas.
6.3 Muestreo conglomerados con estratificación
6.4 Estimación de una media y un total poblacionales
6.5 Estimación de una proporción poblacional
6.6 Selección de tamaños de muestra
5
6.7 Muestreo por conglomerados en dos etapas con probabilidades
proporcionales al tamaño
Bibliografía recomendada:
• Chaudhuri, A., and Stenger, H. (2005). Survey Sampling. Theory and Methods,
2nd ed. Chapman and Hall.
• Cochran, William G. (1998). Técnicas de Muestreo. CECSA. México.
• Heringa, S.G., West, B., and Berglund P. (2010). Applied Survey Data
Analysis. CRC Press.
• Pérez, Cesar. (2000). Técnicas de Muestreo Estadístico. ALFAOMEGA.
México.
• Scheaffer, Richard L. Mendenhall, William y Ott Lyman. (1987). Elementos de
muestreo. Grupo Editorial Iberoamérica. México.
• Sharon L. (2000). Muestreo: Diseño y análisis. International Thompson
Editores.
• Casal, J. & Meteu, E. (2003). Tipos de muestreo. Rev. Epidem. Med. Prev,
1(1), 3-7.
• Cochran, W. G. (2007). Sampling techniques. John Wiley & Sons.
• González, A. R. (2006). Ecología: Métodos de muestreo y análisis de
poblaciones y comunidades. Pontificia Universidad Javeriana.
• Mostacedo, B., & Fredericksen, T. (2000). Manual de métodos básicos de
muestreo y análisis en ecología vegetal. Proyecto de Manejo Forestal
Sostenible (BOLFOR).
EVALUACIÓN
Tareas………………. 30%
Ejercicios …………… 15%
Proyecto…………….. 15%
Exámenes….……….. 30%
Participación………… 5%
Asistencia……………. 5%
6
8 Presentación
Capı́tulo 2
Se llega a conclusiones acerca de peces, árboles, lagos, comida, etc., con base en muestras
no estructuradas relativamente pequeñas que tenemos disponibles en la vida diaria.
Edmun Halley estima la mortalidad de la raza humana con base en las curiosas tablas
de nacimientos y funerales en la ciudad de Breslay, en 1693.
Sir John Lawes uso el registro anual de producción de trigo en Rothamsted en 5 parcelas
de 33 acres de 1852 a 1879 para Inglaterra y Gales.
Kiaer en 1895 en una reunión del ISI (International Statistical Institute) propuso el
Método Representativo. Explicó que una investigación parcial podrı́a dar resultados
confiables si las observaciones formaban una pintura representativa de todo el campo
de estudio. Tuvo una feroz crı́tica por parte de los defensores de los conteos exhaustivos.
Arthur Lyon Bowley (1906) promovió activamente sus ideas sobre muestreo en general
y aleatorización en particular.
Para la reunión del ISI de 1925 el método representativo era aceptado. Surgieron dos
formas de selección de la muestra:
Neyman (1934) demuestra, entre otras cosas, que la distribución óptima en muestreo
estratificado debe ser proporcional a la varianza del estrato, lo que lleva a probabilidades
de inclusión desiguales, impulsó un rápido desarrollo de las técnicas de Muestreo.
Godambe (1955) demuestra que no existe el estimador “óptimo” sino que depende del
diseño de muestra.
Población finita.
El principal objetivo es la estimación de ciertas caracterı́sticas de la población bajo
estudio.
X1 ,X2 ,...,XN fijas, desconocidas.
Lo aleatorio es introducido por el investigador a través del diseño muestral (probabilidad
de selección de la muestra).
En este curso usaremos la inferencia basada en diseño.
Bibliografı́a
1. Bellhouse, D.R. (1988). A Brief History of Random Sampling Methods. P.R. Krishnaiah
y C. R. Rao, eds.
2. Handbook of Statistics, Vol 6 Elsevier Science Publishers B.V. pp 1-14.
3. Godambe,V.P. (1955). A Unified Theory of Sampling from Finite Populations. JRSS,
Series B, 17, No. , pp 269-278.
4. Horvitz, D.G. & Thompson, D.J. (1952). A Generalization of Sampling Without Re-
placement from a Finite Universe. JASA, 47, No. 260, pp 663-685.
5. Kiaer, A. (1897). The representative method of statisticalsurveys (1976 English trans-
lation of the original Norwegian). Oslo: Central Bureau of Statistics of Norway.
6. Neyman, J. (1934). On the Two Different Aspects of the Representative Method: The
Method of Stratified Sampling and the Method of Purposive Selection. JRSS, 97, No.
4, pp 558-625.
7. Royal, R.M. (1970). On finite population sampling theory under certain linear regression
models. Biometrika, 57, pp 377-387.
8. Stephan, F.F. (1948). History of the Uses of Modern Sampling Procedures. JASA 43,
No. 24, pp 12-39.
12 Historia del muestreo
Capı́tulo 3
Introducción
¿Dónde se usa?
14 Introducción
Encuestas de opinión
Ratings de televisión
Industria. Control de calidad
Laboratorios. Estudios de sangre
Encuestas electorales
Encuestas de INEGI. (Ingreso-Gasto, Empleo, Turismo, etc.)
Estudios de mercado
Costo
Confiabilidad en la información
Pruebas destructivas
Rapidez en reunir la información
Depende de:
La variabilidad de lo que queremos estudiar.
La precisión con que queremos hacer la inferencia.
El presupuesto que tengamos.
El tamaño de la población.
Personas mayores de 18 años que han vivido los últimos 6 meses en el D.F.
Escuelas primarias que dependen del sector público ubicadas en el D.F.
No se puede usar este marco. Se puede redefinir la población a que coincida con el marco o
complementar el marco con otro(s):
1. No probabilı́stica.
Fuentes de error
1. Error de muestreo.
| θ − θ̂ | .
Se controla el diseño.
Información falsa:
Los errores que no son de muestreo se pueden controlar poniendo especial atención a la
construcción del cuestionario y a los detalles en el trabajo de campo a través de una buena
supervición.
3.1 Definición de conceptos 19
1. Establecimiento de objetivos
5. Método de medición
7. Prueba piloto. Sirve para probar cuestionario, trabajo de campo, estimar varianzas.
Supervisores
Encuestadores
Logı́stica
El objetivo del muestreo es estimar caracterı́sticas generales de la población bajo estudio, tales
como promedio, totales o porcentajes. Esta estimación se hace a través de haber observado
el valor de algunas variables en una muestra:
X1 , X2 , . . . , XN
x1 , x2 , . . . , xn .
Estimación. Es el valor que toma el estimador una vez observados los valores de la muestra.
Ejemplo 3.3.1
Se tiene una población de 6 personas a las cuales se les mide cierta caracterı́stica Y .
Ui U1 U2 U3 U4 U5 U6
A B C D E F
Yi 0 1 2 3 4 5
Suponga que con una muestra de tamaño 2 se desea estimar este promedio. Se selecciona
esta muestra aleatoria de tal manera que cualquier muestra de tamaño 2 tenga la misma
probabilidad de ser seleccionada.
muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
elementos A A A A A B B B B C C C D D E
B C D E F C D E F D E F E F F
valores 0 0 0 0 0 1 1 1 1 2 2 2 3 3 4
1 2 3 4 5 2 3 4 5 3 4 5 4 5 5
ȳ 0.5 1 1.5 2 2.5 1.5 2 2.5 3 2.5 3 3.5 3.5 4 4.5
El procedimiento de selección implica que cualquiera de estas muestras tiene la misma pro-
babilidad de ser seleccionada, es decir, no se favorecen más de una de estas muestras sobre
otras.
1
P(cualquier muestra) =
15
5 1
P( A en muestra) = = = P(B en muestra) = etc.
15 3
22 Introducción
Como vimos con la función de distribución muestral del estimador “promedio muestral”, los
valores que puede tomar varı́an de muestra a muestra. Una propiedad deseable de este esti-
mador es que el promedio de los valores que puede tomar coincida con el verdadero valor del
parámetro, es decir, que las esperanza del estimador sea el parámetro, en otras palabras que
sea un estimador insesgado.
X
E(X)= xp(x).
x
En el ejemplo:
Valor de ȳ probabilidad
0.5 1
15
1 1
15
1.5 2
15
2 2
15
2.5 3
15
3 2
15
3.5 2
15
4 1
15
4.5 1
15
1
E(ȳ) = [0.5 + 1 + 2(1.5) + 2(2) + 3(2.5) + 2(3) + 2(3.5) + 4 + 4.5]
15
1
= (37.5) = 2.5 = Ȳ .
15
Pedir que el estimador sea insesgado no es suficiente. Otra propiedad que se pide es que tenga
varianza mı́nima, es decir, que su distribución muestral esté muy concentrada en su media.
E(Xi ) = p
V(Xi ) = p(1-p).
E(θ̂) = θ.
V(θ̂) = E[θ̂ − E(θ̂)]2 = E[(θ̂ − θ)]2 .
P[θ − δ ≤ θ̂ ≤ θ + δ] = 1 − α.
Diseño de muestra
Procedimiento para seleccionar una muestra de una población de una forma especı́fica.
26 Introducción
Capı́tulo 4
4.1. Motivación
El segundo ejemplo que se puede dar es el siguiente: suponiendo que en un bosque montano
húmedo de Tarija, en una propiedad privada de 200ha, se conoce que a través de una senda
de 5 km existen 500 árboles de Junglas Bolivianas y se quiere determinar cuál es el número
promedio de frutos producidos por árbol. Para emplear este tipo de muestreo de los 500
árboles, se debe elegir al azar un determinado número de árboles (p.e. 20 ó 40 árboles) en
los que se medirá la producción de frutos. El número de árboles se determina dependiendo
de la variación en la producción de frutos que tuviera la especie en estudio.
28 Muestreo Aleatorio Simple
De una población de N unidades, se selecciona una muestra de tal manera que todas las
unidades de la población tienen igual probabilidad de ser seleccionadas.
Población={U1 , U2 , . . . , UN }
Muestra={u1 , u2 , . . . , un }
Muestra ⊆ Población
Caracterı́sticas de interés:
{X1 , X2 , . . . , XN }
{Y1 , Y2 , . . . , YN }
{Z1 , Z2 , . . . , ZN }
4.1 Motivación 29
Explicación.
La primera extracción puede producir cualquier Ui con probabilidad 1/N.
j6=i
1 1 1
= (N − 1) = , etc.
N −1N N
Por lo tanto,
1
P (cualquier muestra) = N .
n
Mediante el proceso de muestreo lo que se desea es hacer inferencia a una población, especı́fi-
camente se desea calcular una estimación de un parámetro de la población.
Media
1 XN
Ȳ = Yi
N i=1
30 Muestreo Aleatorio Simple
Total
N
Y =
X
Yi
i=1
Proporción
1 XN
P = Yi
N i=1
donde
1 Ui tiene la caracterı́stica
(
Yi =
0 Ui no tiene la caracterı́stica
Razón
Y
R=
X
para ciertas variables X y Y .
Varianza
N
(Yi − Ȳ )2
σ 2 = E(Y ) =
X
i=1 N
N −1XN
(Yi − Ȳ )2
=
N i=1 N − 1
N −1 2
= S ,
N
N
(Yi − Ȳ )2
con S = .
X
2
i=1 N −1
con varianza
n S2
V (ȳ) = E(ȳ − Ȳ )2 = 1 − .
N n
4.2 Estimador para la Media 31
Demostración: Sean
1 Ui está en la muestra
(
Zi = (4.1)
0 Ui no está en la muestra i = 1, . . . , N
Para i 6= j,
E[Zi Zj ] = P [Zi = 1 y Zj = 1]
= P [Zj = 1 | Zi = 1]P [Zi = 1]
n−1 n
= .
N −1 N
Para i 6= j,
Entonces,
"N #
yi
E(ȳ) = E
X
Zi
i=1 n
N
yi
= E(Zi )
X
i=1 n
N
n yi
= = Ȳ .
X
i=1 N n
1X N
!
V(ȳ) = V Zi yi
n i=1
1 N
!
=
X
V Zi yi
n2 i=1
1 XN N X N
= y V(Zi ) +
2
yi yj Cov(Zi , Zj )
X
n2 i=1 i i=1 j6=i
1 n n N
1 n n N X
N
X X
= 1− yi2 − 1− yi yj
2
n N N i=1 N −1 N N i=1 j6=i
1 n n N
1 N
N X
X
= 1− y2
X
− yi yj .
N − 1 i=1 j6=i
2 i
n N N i=1
Sabemos que:
N
!2 N N X
N
= yi2 +
X X X
yi yi yj .
i=1 i=1 i=1 j6=i
Luego
!2
1 n 1 N N N
V(ȳ) = 1− (N − 1) yi2 − + yi2 .
X X X
yi
n N N (N − 1) i=1 i=1 i=1
Y además,
1 X N
1 N
" #
S =
2
(yi − Ȳ ) =
2
yi2 − N Ȳ 2 .
X
N − 1 i=1 N − 1 i=1
4.2 Estimador para la Media 33
Entonces,
!2
1 n 1 N N
V(ȳ) = 1− yi2 −
X X
N yi
N (N − 1)
n N i=1 i=1
1 1 N
!
n
= 1− yi2 − N Ȳ 2
X
N
n N N (N − 1) i=1
n S2
= 1− .
N n
V(ȳ) se estima insesgadamente con:
n Ŝ 2
V̂ (ȳ) = 1 − .
N n
Ŝ 2 S2
Para mostrar que V̂ (ȳ) = 1 − n
N n
es un estimador insesgado de V (ȳ) = 1 − n
N n
basta
demostrar que E(Sˆ2 ) = S 2 .
1 X n
1 X N
Ŝ 2 = (yi − ȳ)2 ; S2 = (Yi − Ȳ )2
n − 1 i=1 N − 1 i=1
n
" #
2
=
X
1
E n−1
yi − ȳ
i=1
" n #
= {(yi − Ȳ ) − (ȳ − Ȳ )} 2
X
1
n−1
E
i=1
" n n n
#
= (yi − Ȳ ) − 2 2
(yi − Ȳ )(ȳ − Ȳ ) + (ȳ − Ȳ ) 2
X X X
1
n−1
E
i=1 i=1 i=1
"N n
#
= Zi (yi − Ȳ ) − 2(ȳ − Ȳ )
2
(yi − Ȳ ) + n(ȳ − Ȳ ) 2
X X
1
n−1
E
i=1 i=1
"N #
= Zi (yi − Ȳ ) − 2n(ȳ − Ȳ ) + n(ȳ − Ȳ )
2 2 2
X
1
n−1
E
i=1
"N #
n
= (yi − Ȳ )2 − nV(ȳ)
X
1
n−1
i=1 N
34 Muestreo Aleatorio Simple
N
" #
n
= (yi − Ȳ ) − 1 −
2
S2
X
1 n
n−1 N
i=1 N
h i
n(N −1) 2
= 1
n−1 N
S − 1− n
N
S2
n(N −1)
= 1
n−1
S2 N
− N −n
N
= 1
n−1
S2 n(N −1)−N
N
+n
= 1
n−1
S2 N (n−1)
N
= S2
donde Nn es la fracción de muestreo o porcentaje de la población que se muestrea. 1 − Nn es
el factor de correción por finitud, que ajusta por muestrear de una población finita. Toma en
cuenta el hecho de que un estimador basado en una muestra con n = 10 de una población de
N = 20 contiene más información acerca de la población que una muestra de tamaño n = 10
de una población de N = 20000.
1− 10
20
= 1
2
mitad de la varianza.
1− 10
20000
= 0.9995 misma varianza que poblaciones infinitas.
Si n = N entonces V(ȳ) = 0 se está haciendo un censo por lo que el estimador del parámetro
tiene varianza cero.
Por el Teorema Central del Lı́mite podemos suponer que, con n suficientemente grande:
ȳ ∼ N (Ȳ , V(ȳ))
ȳ−Ȳ
√ ∼ N(0, 1)
V (ȳ
4.2 Estimador para la Media 35
P | ȳ − Ȳ |< δ = 1 − α
1 − α confianza y δ precisión.
P −δ < ȳ − Ȳ < δ = 1 − α
P √−δ < √ȳ−Ȳ < √δ = 1 − α.
V(ȳ) V(ȳ) V(ȳ)
De tablas de la N (0, 1)
n Ŝ 2
V̂ (ȳ) = 1 −
N n
donde n
(yi − ȳ)2
X
Ŝ 2 = i=1
n−1
V̂ (ȳ) es un estimador insesgado de V (ȳ).
Intervalo de confianza:
ȳ − Ȳ
q ∼ tn−1
V (ȳ)
N
Y = Yi = N Ȳ
X
i=1
n
1
( )
= N Ȳˆ = N ȳ =
XN N
Ŷ yi Note que: = n
i=1 n n N
E(Ŷ ) = Y
n S2
V(Ŷ ) = V (N ȳ) = N V (ȳ) = N 2 2
1−
N n
n Sˆ2
V̂ (Ŷ ) = N 2
1− es insesgado para V (Ŷ ).
N n
n N
= yi +
X X
Ŷ Ŷi
i=1 i=n+1
n N
= yi +
X X
ȳ
i=1 i=n+1
= nȳ + (N − n)ȳ
= N ȳ.
Sea:
1 Ui tiene la caracterı́stica A
(
Yi = (4.2)
0 Ui no tiene la caracterı́stica A
38 Muestreo Aleatorio Simple
N
X
Yi
no. de elementos que tienen la caracteristica A
P = = i=1
.
total de elementos N
Un estimador insesgado de P es:
n
X
yi
P̂ = i=1
= ȳ.
n
Con varianza:
n
V (P̂ ) = 1 − S 2.
N
Observe que, con la definición de Yi :
N N
Yi = Yi2 = N P.
X X
i=1 i=1
Luego,
N N
(Yi − Ȳ ) 2
Yi2 − N Y¯2
X X
S2 = i=1
= i=1
N −1 N −1
N N
!2
Yi2 −
X X
Yi /N
NP − NP 2
= i=1 i=1
=
N −1 N −1
N P (1 − P )
= .
N −1
Luego
n 1 N
V (P̂ ) = 1 − P (1 − P ),
N nN −1
y su estimador es:
n P̂ (1 − P̂ )
V̂ (P̂ ) = 1 − .
N n−1
Suponiendo normalidad, el intervalo del 100(1 − α) % de confianza es:
v
P̂ (1 − P̂ ) 1
u
n
u
P̂ ± z1− 2 1− +
α
t
N n−1 2n
|{z}
factor de corrección
4.5 Determinación del tamaño de muestra 39
N̂0 = N P̂
V(N̂0 ) = N 2 V (P̂ )
n =?
n pequeña:
inferencias inútiles
poca precisión.
n grande:
costos elevados
P(| ȳ − Ȳ |< δ) = 1 − α
P(ȳ − δ < Ȳ < ȳ + δ) = 1 − α.
Por lo tanto,
q
δ = z1− α2 V (ȳ)
s
1 1
s
n S2
δ = z 1− α 1− = z1− α2 − S2
2
N n n N
1 1
δ 2 = z1−
2
α − S 2.
2 n N
Despejando n
1
n= δ2
2
S 2 z1− α
+ 1
N
2
4.5 Determinación del tamaño de muestra 41
Si N es grande
S 2 z1−
2
α
n0 = 2
δ2
δ es el error absoluto.
Si N no es grande
1 n0
n= =
1
n0
+ 1
N
1 + nN0
Opciones:
δ2
si N es grande
(
n0
n= n0
n si N no es grande
1+ N0
α P (1 − P )
2
z1−
n0 = 2
δ2
42 Muestreo Aleatorio Simple
si N es grande
(
n0
n= n0
n si N no es grande
1+ N0
Por ejemplo, si fijamos una confianza del 95 %, entonces z1− α2 = 1.96, y si consideramos que
N es muy grande, entonces,
(1.96)2 P (1 − P ) 22 (0.25) 1
n= 2
≈ 2
= 2,
δ δ δ
Es importante mencionar que esta forma de cálculo del tamaño de muestra supone que el
valor de P está entre 0.2 y 0.8, es decir, estamos estudiando una caracterı́stica que no es muy
rara en la población.
Si la caracterı́stica es muy rara, habrı́a que utilizar otra forma de diseño de muestra (muestreo
inverso, por ejemplo).
4.6 Ejemplo MAS 43
δ δ en porcentaje n
0.2 20 % 25
0.1 10 % 100
0.09 9% 124
0.08 8% 156
0.07 7% 205
0.06 6% 278
0.05 5% 400
0.04 4% 625
0.03 3% 1112
0.02 2% 2500
0.01 1% 10000
Se obtuvo una muestra aleatoria simple de 30 familias de un área de la ciudad que contiene
14,848 familias. Se midió el número de personas por familia con los siguientes resultados:
5;6;3;3;2;3;3;3;4;4;3;2;7;4;3;5;4;4;3;3;4;3;3;1;2;4;3;4;2;4
c) Suponga que esta es una prueba piloto y se desea calcular el tamaño de muestra necesario
para estimar el promedio de personas por familia con una precisión de 0.05 y una
confianza del 95 %.
Programa en R.
## ejemplo 1
## y es el número de personas por familia
44 Muestreo Aleatorio Simple
## ejercicio 2
# con una confianza del 95%
z95 <- qnorm(0.975)
delta <-seq(0.10,0.01,-0.01)
n <- z95ˆ2*s2/(deltaˆ2)
resultado <- cbind(delta,n)
resultado
Suponga que para cada unidad muestral, además de obtener información acerca de una varia-
ble Y , se obtiene información de una variable X, y se sabe que Y y X están correlacionadas.
El estimador de razón dará una estimación de Y con más precisión que el estimador usual
Ŷm.a.s .
N
X
Yi
Y Ȳ
R= i=1
N
= =
X X X̄
Xi
i=1
entonces,
Y = RX ó Ȳ = RX̄.
Ŷ = R̂X
Ȳˆ = R̂X̄
donde,
n
X
yi
ȳ
R̂ = = X
i=1
n .
x̄
xi
i=1
Yi ∝ Xi
Yi ∼
= RXi
Yi = RXi + εi
εi = Yi − RXi .
47
Ejemplo 5.0.1
Suponga que se tiene una m.a.s de 49 ciudades de un total de 196 de cierta región del paı́s,
de las que se conoce el número de habitantes en el año 2010 y se quiere estimar el total de
habitantes en la región en 2014.
i=1 i=1
49
X
yi
6262
ŶR = R̂X = X= (22919) = 28397.
49
X 5054
xi
Por ejemplo, en una encuesta de familias, se mide el ingreso total familiar (yi ) y el número
de miembros de la familia (xi ), entonces, se podrı́a obtener el ingreso per cápita:
X
yi
R̂ = X .
xi
48 Estimadores de Razón (bajo m.a.s)
Ejemplos de este tipo surgen cuando la unidad de muestreo (en el ejemplo, la familia),
comprende un conjunto de elementos (miembros de la familia) y nuestro interés es estimar
la Media por elemento.
Por ejemplo:
total de votos al partido q
% votos al partido q =
total de votos
donde
total de votos = votos al partido 1 + votos al partido 2 + . . .
donde Sesgo(θ̂, θ) = |E(θ̂) − θ|. Denotemos al sesgo como B(R̂) = E(R̂ − R), luego
|B(R̂)|
√ %[R ∈ I95 % ]
V(R̂)
0 0.95
0.01 0.95
0.10 0.9481
0.30 0.9396
0.50 0.9210
1 0.83
Tenemos que R = Ȳ
X̄
, luego V ar(R) = 1
X̄ 2
V (Ȳ ),
1 n (SY − RSX )2
V (R) = 1 −
X̄ 2 N n
1 1 1
= − [SY2 − 2RSXY + R2 SX
2
]
X̄ 2 n N
donde
i=1 (Xi
PN
− X̄)2
2
SX =
N −1
N
(Yi − Ȳ )2
X
SY2 = i=1
N −1
N
(Xi − X̄)(Yi − Ȳ )
X
SXY = i=1
,
N −1
y su estimador es:
1 1 1 h 2
i
V̂ (R̂) = 2 − ŜY − 2R̂ŜXY + R̂2 ŜX
2
.
x̄ n N
Se estima con:
n 1 1 X n
(yi − R̂xi )2
V̂ (R̂) = 1 − .
N n x̄2 i=1 n−1
n 1 1 X N
(Yi − R̂Xi )2
V (R̂) = 1−
N n X̄ 2 i=1 N −1
n 1 1 X n
(yi − R̂xi )2
V̂ (R̂) = 1− .
N n x̄2 i=1 n−1
5.1.1. Total
Ŷ = R̂X
V (Ŷ ) = X 2 V (R̂)
1 1 X N
(Yi − R̂Xi )2
" #
n
= X 2
1−
N n X̄ 2 i=1 N −1
5.1 Resumen Estimador de razón 51
como X̄ = X
N
, luego
N
(Yi − R̂Xi )2
X
n 1 i=1
V (Ŷ ) = N 2 1− .
N n N −1
Luego
n
(yi − R̂xi )2
X
n 1 i=1
V̂ (Ŷ ) = N 2 1− .
N n n−1
5.1.2. Media
Ȳˆ = R̂X̄
N
(Yi − R̂Xi )2
X
1 i=1
V (Ȳˆ ) = X̄ 2 V (R̂) = 1 −
n
N n N −1
n
(yi − R̂xi )2
X
1 i=1
V̂ (Ȳˆ ) =
n
1− .
N n n−1
δ2
5.4 Ejemplo de Razón MAS 53
donde
1 X N
Sε2 = (Yi − RXi )2 .
N − 1 i=1
Una corporación está interesada en estimar el total de ganancias por las ventas de televisiones
de color al final de un periodo de tres meses.
Se tienen las cifras del total de ganancias de todas las sucursales de la corporación para el
periodo de tres meses correspondiente al año anterior.
Se selecciona una muestra aleatoria simple de 13 sucursales del total de 123 sucursales de la
corporación. Los datos son:
a) Utilice un estimador de razón para estimar el total de ganancias por las ventas de televi-
siones. Calcule un intervalo del 95 % de confianza. Tome en cuenta que el total de ganancias
por las ventas de todas las sucursales para el trimestre del año anterior es de 128,200.
Sean:
xi = ganancias de la sucursal i en el trimestre del año anterior.
yi = ganancias de la sucursal i en el trimestre de este año.
N = 123; n = 13; X = 128200
15422
Pn
yi
R̂ = Pni=1 = = 1.138407
i=1 xi 13547
es decir, el total de ganancias por las ventas de televisiones en el trimestre de este año es de
145,943.78.
b) Utilice el estimador usual del total del muestreo aleatorio simple para estimar el total de
ganancias por las ventas de televisiones. Calcule un intervalo del 95 % de confianza.
NX n
123
Ŷ = N ȳ = yi = (15422) = 145915.8.
n 13
Por lo tanto, el total de ganancias por las ventas de televisiones es de 145,915.85.
n Ŝ 2
V̂ (Ŷ ) = N 2
1−
N n
231543.06
= (123)2 (1 − 13/123) = 2409828996.72
13
56 Estimadores de Razón (bajo m.a.s)
La precisión observada, δ: q
z0.975 V̂ (Ŷ ) = 30425.69
entonces el intervalo del 95 % de confianza para el total de ganancias es:
c) ¿Cuál de los dos estimadores fue más preciso para estimar el total de ganancias por las
ventas de televisiones?
n=13
N=123
X= 128200
#ganancias
datos<-matrix(c(550, 610,720, 780,1500, 1600,1020, 1030,620,
600,980, 1050,928, 977,1200, 1440,1350, 1570,
1750, 2210,670, 980,729, 865,1530, 1710),
nrow=n,byrow=T)
# Trimestre anterior
x<-datos[,1]
# Trimestre actual
y<-datos[,2]
# Correlación
cor(x,y)
# Gráfica
plot(x,y)
# Razón
# utilizando medias
xbarra=mean(x)
ybarra=mean(y)
Rest=ybarra/xbarra
5.4 Ejemplo de Razón MAS 57
# utilizando totales
xtot=sum(x)
ytot=sum(y)
Rest=ytot/xtot
# Precisión
delta=qnorm(0.975)*sqrt(VYgorro)
cateto opuesto
b = tan θ =
cateto adyacente
ȳ − Ȳ
b =
x̄ − X̄
b(x̄ − X̄) = ȳ − Ȳ .
Donde b̂ es la pendiente
n
(yi − ȳ)(xi − x̄)
X
ŜXY
b̂ = i=1
n = 2
.
ŜX
(xi − x̄)2
X
i=1
N
(Xi − X̄)(Yi − Ȳ )
X
SXY
ρ= =" i=1
# 21 .
SX SY N N
(Xi − X̄)2 (Yi − Ȳ )2
X X
i=1 i=1
Se examinó a 486 candidatos a ingresar a una escuela. De éstos se tomó una m.a.s de 10
estudiantes a los que se les midió su calificación en Cálculo al final del primer semestre.
Datos:
N = 486 X̄ = 52 x̄ = 46
n = 10 ȳ = 76 ŜY2 = 228.444
b̂ = 0.766 ρ̂ = 0.84
n ŜY2
V̂ (Ȳˆreg ) =
1− (1 − ρ̂2 )
N n
10 228.444
= 1− (1 − 0.842 )
486 10
= (0.9794)(22.844)(0.2944)
= 6.586.
datos<-matrix(c( 39 , 65,
43,78,
21,52,
64,82,
57,92,
47,89,
28,73,
75,98,
34,56,
52,75),ncol=2,byrow=T)
datos
# calificación de admisión
x<-datos[,1]
# calificación de cálculo
y<-datos[,2]
# medias muestrales
xbarra=mean(x)
ybarra=mean(y)
# varianzas muestrales
64 Estimadores de Regresión (bajo m.a.s)
s2x=var(x)
s2y=var(y)
rho=cor(x,y)
bgorro=rho*sqrt(s2y/s2x)
# con varianza
VgorroYgorrobarraREG=(1-n/N)*(s2y/n)*(1-rhoˆ2)
# precision
delta=qnorm(0.975)*sqrt(VgorroYgorrobarraREG)
# Intervalo de confianza
li=YgorrobarraREG-delta
ls=YgorrobarraREG+delta
P | Ȳˆreg − Ȳ |< δ = 1 − α.
α S (1 − ρ )
2 2 2
z1− Y
n= 2
.
δ2
Si ρ es grande, n es pequeña.
Muestreo estratificado
7.1. Motivación
Continuando con los ejemplos del m.a.s. en el primer caso, el Jardı́n Botánico de Santa Cruz
puede llegar a tener hasta 3 tipos de bosque: bosque semideciduo pluviestacional, bosque
chaqueño, y zona de transición entre estos tipos de bosque. Eso quiere decir que no todo
el jardı́n es homogéneo. Puede ser que en alguno de los tipos de bosque la abundancia de
A. Macrocarpa sea mayor, o viceversa. Si se conoce los tipos de bosque, se podrı́a aplicar
el muestreo aleatorio estratificado, donde los estratos serı́an los tipos de bosque y en los
cuales se debe muestrear aleatoriamente. En el caso de producción de frutos de J. Boliviana,
la estratificación puede ser de acuerdo a los pisos altitudinales. Aunque la senda, donde se
encuentran los 500 árboles de J. Boliviana sea una lı́nea recta, por ser una zona montañosa,
la producción de frutos podrı́a ser afectada por la pendiente o la altitud. Considerando que
en zonas con mayor pendiente los suelos son más pobres en nutrientes en comparación a
zonas planas, puede ser interesante ver estas diferencias que conocer sólamente la producción
total. Si esto fuera cierto, la pendiente podrı́a determinar el número de estratos (en este caso
pueden ser dos: zonas planas, zonas con más de 20 % de pendiente). Dentro de cada estrato,
se debe calcular el número de árboles a muestrear aleatoriamente.
66 Muestreo estratificado
Los estratos son subconjuntos de la población que agrupan unidades. Cada estrato se mues-
trea por separado y se obtienen los estimadores de parámetros (media, total, proporción)
para cada estrato, luego se combinan para tener los estimadores de toda la población.
Los estratos forman una partición de la población y se selecciona muestra en cada estrato en
forma independiente.
1. Estadı́stica. Para reducir la varianza de los estimadores, es decir, tener más precisión.
Cuando la población está constituı́da por unidades heterogéneas y tenemos una idea
previa de los grupos de unidades más homogéneas entre sı́, entonces es conveniente
formar estratos.
Considere una población finita de 20 unidades en las cuales Y toma los valores:
{6, 3, 4, 4, 5, 3, 6, 2, 3, 2, 2, 6, 5, 3, 5, 2, 4, 6, 4, 5.}
20
(Yi − Ȳ )2
X
40
Ȳ = 4, S2 = i=1
= = 2.11.
19 19
Si tomamos una muestra aleatoria simple de tamaño 5 y usamos ȳ como estimador de
Ȳ , tenemos:
n S2 5 2.11
V (ȳ) = 1 − = 1− = 0.316.
N n 20 5
Dada la estructura de la población, se puede ordernar como:
2, 2, 2, 2 3, 3, 3, 3 4, 4, 4, 4 5, 5, 5, 5 6, 6, 6, 6
| {z }| {z }| {z }| {z }| {z }
{2, 3, 4, 5, 6} cuya ȳ = 4 = Ȳ
Este estimador tendrı́a varianza cero ya que la varianza dentro de cada estrato es
cero y no hay fluctuaciones muestrales y, además, el estimador siempre serı́a igual al
parámetro.
3. Costo. Cuando hay diferentes costos de localizar y levantar la información de las uni-
dades muestrales.
Por ejemplo, en una encuesta en predios agrı́colas hay una región cuyo acceso es difı́cil
(sólo por avioneta ó a caballo).
Esta región puede constituir un estrato, que será muestreado con un tamaño de muestra
más pequeño.
Ésta se puede reducir mucho si las unidades dentro de cada estrato son muy homogéneas
y heterogéneas entre estratos.
7.2. Notación
A nivel poblacional:
L es el número de estratos.
h=1
Nh
Yh = Yhi = Nh Ȳh total poblacional estrato h.
X
i=1
L Nh
L X
Y = Yh = Yhi total poblacional.
X X
Nh
L X
X
Yhi
Ȳ = Y
N
= h=1 i=1
L
media poblacional.
X
Nh
h=1
Nh
(Yhi − Ȳh )2
X
Sh2 = i=1
Nh −1
es la varianza poblacional en el estrato h.
Wh = Nh
N
es el peso del estrato.
7.3 Estimador del Total 69
L
Wh = 1.
X
h=1
A nivel muestral:
L
n= nh es el tamaño de la muestra.
X
h=1
nh
Ȳˆh = ȳh = yhi estimador media estrato h.
X
1
nh
i=1
nh
Ŷh = Nh ȳh = Nh
yhi estimador total estrato h.
X
nh
i=1
L L
Ŷ = Ŷh =
X X
Nh ȳh
h=1 h=1
L nh
yhi
=
X X
Nh
h=1 i=1 nh
L n h
Nh
= yhi .
XX
h=1 i=1 nh
Donde Nh
nh
es el factor de expansión.
70 Muestreo estratificado
h=1
L
= V (Nh ȳh )
X
h=1
L
= Nh2 V (ȳh ).
X
h=1
donde,
nh
(yhi − ȳh )2
X
Ŝh2 = i=1
.
nh − 1
Si el tamaño de muestra en cada estrato es grande y podemos hacer la aproximación a la
normal del estimador del total, el intervalo aproximado del (1 − α) × 100 % de confianza para
el total poblacional es: q
Ŷ ± z1− α2 V̂ (Ŷ ).
Sea
1 Uhi tiene la caracterı́stica
(
Yhi = (7.1)
0 Uhi no tiene la caracterı́stica
El estimador de la proporción P de unidades que tienen cierta caracterı́stica es:
L nh
yhi
P̂ = Wh p̂h con p̂h =
X X
.
h=1 i=1 nh
con estimador:
L
nh p̂h (1 − p̂h )
V̂ (P̂ ) = Wh2 1 −
X
.
h=1 Nh nh − 1
72 Muestreo estratificado
Suponga que se tiene un tamaño de muestra n determinado. ¿Cómo se reparte n entre los L
estratos?
1. Distribución óptima.
Sea Ch el costo de obtener información de una unidad en el estrato h. Se tiene una
función de costo de la forma:
Costo C = C0 + C h nh .
X
Observe que,
Nh Sh
nh ∝ √ .
Ch
Esto quiere decir que en un estrato dado, se toma más muestra si:
El estrato es más grande.
El estrato es más variable.
El costo es menor.
2. Distribución de Neyman.
Si se considera que los costos Ch son constantes en todos los estratos:
Nh Sh
nh = n L
.
X
Nh Sh
h=1
7.7 Tamaño de muestra 73
3. Distribución proporcional
Si se considera que tanto los costos como las varianzas Sh son constantes en todos los
estratos, entonces:
Nh
nh = n = nWh .
N
Esta distribución produce muestras autoponderadas:
nh n Nh N
= ⇒ = ,
Nh N nh n
factor de expansión.
Valor de n que produce costo mı́nimo paraq una varianza fija, o equivalentemente
para un error de estimación fijo δ = z α V (Ȳˆ ).
1− 2
74 Muestreo estratificado
h=1 Nh nh
L
Nh2 1 1
= Sh2 . (7.2)
X
2
−
h=1 N nh Nh
n= h=1 i=1
L
+
2
Nh Sh2
X
N 2 z2δ
1− α
2 h=1
h=1 Nh nh
r
δ2
δ = z1− α2 V (Ȳˆ ) ⇒ V (Ȳˆ ) = 2 (7.6)
z1− α
2
" L #−1
Nh Sh X Ni Si
nh = n √ √ . (7.7)
Ch i=1 Ci
Sustituyendo (7.6) y (7.7) en (7.5) y despejando n:
L q " L q #
X X
Nh Sh Ch Ni Si / Ci
n= h=1 i=1
L
δ2
+ Nh Sh2
X
2
z1− α
2 h=1
ˆ
L
Nh2 1 1
V (Ȳ ) = Sh2
X
2
−
h=1 N nh Nh
r
δ2
δ = z1− α2 V (Ȳˆ ) ⇒ V (Ȳˆ ) = 2
z1− α
2
L
Nh Sh2
X
N
n= h=1
L
+
2
Nh Sh2
X
N 2 z2δ
1− α
2 h=1
Nota. Para estimar proporciones utilicé las expresiones de tamaño de muestra para
estimar la media con Sh2 = Ph (1 − Ph ).
Estima la razón en cada estrato y luego los suma, ponderando con los pesos de los estratos.
L
Nh
R̂S =
X
R̂h
h=1 N
L
Nh Ŷh
=
X
.
h=1 N X̂h
L
Nh2
V̂ (R̂S ) = V̂ (R̂h ).
X
2
h=1 N
L
Nh2 nh 1 1 X nh
(yhi − R̂h xhi )2
V̂ (R̂S ) = 1−
X
.
h=1 N
2 Nh nh x̄2h i=1 nh − 1
L
Nh2 2
V̂ (ȲˆS ) = X̄ V̂ (R̂h ).
X
2 h
h=1 N
h=1
L
V̂ (ŶS ) = Xh2 V̂ (R̂h ).
X
h=1
El estimador de razón separado se usa cuando se tienen pocos estratos y/o los tamaños de
muestra en cada estrato son grandes. Supone que las razones en cada estrato no son similares.
Los sesgos de los estimadores de la razón en cada estrato se suman, por lo que este estimador
puede tener un sesgo muy grande. Por esto es conveniente usarlo cuando los tamaños de
muestra en cada estrato sean grandes.
8.2 Estimador de razón combinado Rc 79
1 X L
1 1 1 X Nh
V (R̂c ) = N 2
− × [(Yhi − Ȳh ) − Rc (Xhi − X̄h )]2
X 2 h=1 h nh Nh Nh − 1 i=1
nh 2
(yhj − R̂c xhj )
X
1 XL
1 1 1 X nh
j=1
V̂ (R̂c ) = 2
Nh − × yhi − R̂c xhi −
nh − 1 i=1
2
X̂ h=1 nh Nh nh
V (Ȳˆc ) = X̄ 2 V (R̂c )
V̂ (Ȳˆc ) = X̄ 2 V̂ (R̂c )
V (Ŷc ) = X 2 V (R̂c )
V̂ (Ŷc ) = X 2 V̂ (R̂c )
El estimador de razón combinado se usa cuando se tienen muchos estratos y/o los tamaños de
muestra en cada estrato son pequeños. Supone que las razones en cada estrato son similares.
Para una muestra de 100 ranchos, calcule los tamaños de muestra en cada estrato bajo
a) distribución proporcional
b) distribución óptima y
a) Distribución proporcional
Nh
nh = n
N
n1 = 20, n2 = 23, n3 = 19, n4 = 17, n5 = 8, n6 = 6, n7 = 7.
8.3 EJEMPLOS ESTRATIFICADO 81
b) Distribución óptima
Nh Sh
nh = n PL
h=1 Nh Sh
n1 = 10, n2 = 18, n3 = 17, n4 = 19, n5 = 12, n6 = 9, n7 = 15.
c) Comparación de las precisiones de estos dos métodos con la del m.a.s. Primero, se de-
mostrará que la varianza total se puede escribir como la varianza dentro de estratos más la
varianza entre estratos.
N Nn
L X
(N − 1)S 2 = (Yi − Ȳ )2 = (Yhi − Ȳ )2
X X
h=1 i=1
L XNn Nn
L X
= (Yhi − Ȳh )2 + (Ȳh − Ȳ )2
X X
h=1 i=1
Pero
Nn
L X Nn
L X
(Yhi − Ȳh )(Ȳh − Ȳ ) = (Yhi Ȳh − Yhi Ȳ − Ȳh2 + Ȳh Ȳ )
X X
= Nh Ȳh2 + Ȳ
X X XX X X
Ȳh Yhi − Ȳ Yhi − Nh Ȳh
h i h i h h
= Nh Ȳh2 − N Ȳ 2 − Nh Ȳh2 + N Ȳ 2
X X
h h
= 0.
Por lo tanto
" #
(N − 1)S 2 = (Yhi − Ȳh )2 + Nh (Ȳh − Ȳ )2
X X X
h i h
= (Nh − 1)Sh2 + Nh (Ȳh − Ȳ )2
X X
h h
(Nh − 1)Sh2 X Nh
S2 = + (Ȳh − Ȳ )2 .
X
h N −1 h N −1
S2 = Wh Sh2 + Wh (Ȳh − Ȳ )2 .
X X
h h
| {z } | {z }
82 Estimadores de Razón en Muestreo Estratificado (bajo m.a.s)
Regresando al ejercicio
S 2 = 343.28 + 332.76 = 676.04.
La varianza del estimador del promedio con m.a.s. es:
S2 100 676.04
Vmas (Ȳˆ ) = 1 −
n
= 1− = 6.424.
N n 2010 100
La varianza del estimador del promedio en muestreo estratificado y m.a.s. en cada estrato es:
L
nh Sh2
Vest (Ȳˆ ) =
Wh2 1 −
X
.
h=1 Nh nh
y sustituimos nh , entonces
( Wh Sh )2 Wh Sh2
Vopt (Ȳˆ ) =
P P
h h
−
n N
sustituyendo valores
289.625 343.279
Vopt (Ȳˆ ) = − = 2.725.
100 2010
Luego
Vopt (Ȳˆ ) 2.725
= = 0.4241.
Vmas (Ȳˆ ) 6.424
1 − 0.4241 = 0.576; es decir, 57.6 % de reducción de varianza.
Luego
Vprop (Ȳˆ ) 3.262
= = 0.5077.
ˆ
Vmas (Ȳ ) 6.424
1 − 0.5077 = 0.492; es decir, 49.2 % de reducción de varianza.
Capı́tulo 9
Muestreo sistemático
9.1. Motivación
El muestreo sistemático puede realizarse a partir de un punto determinado al azar, del cual
se establece una cierta medida para medir los subsiguientes puntos. Este tipo de muestreo a
diferencia del m.a.s. se puede planificar en el mismo lugar donde se realizará el estudio y la
aplicación del diseño es más rápida.
Población={U1 , U2 , . . . , UN }
Muestra={u1 , u2 , . . . , un }
84 Muestreo sistemático
Sea k = N
n
el intervalo de muestreo (suponga que k es entero).
1 2 ... i ... k
1+k 2+k ... i+k ... 2k
1+2k 2+2k ... i+2k ... 3k
: : ... : ... :
1+(j-1)k 2+(j-1)k ... i+(j-1)k ... jk
: : ... : ... :
1+(n-1)k 2+(n-1)k ... i+(n-1)k ... nk=N
2. Una muestra sistemática se dispersa más uniformemente entre toda la población, por
lo que es más factible producir una muestra “representativa” que en m.a.s.
Ȳˆsis = ȳ
9.3 Estimador de la Media poblacional 87
Con varianza:
k k
(Ȳi − Ȳ )2 (Ȳi − Ȳ )2
X X
k − 1 i=1 k−1 2
V (Ȳˆsis ) = i=1
= = Sb
k k k−1 k
donde Sb2 es la varianza entre conglomerados (between).
No hay forma de estimar V (Ȳˆsis ), usualmente se utilizan las expresiones del m.a.s.
Sw2 > S 2 .
Entonces, el muestreo sistemático es más preciso que el m.a.s. cuando la varianza dentro de
las muestras sistemáticas (conglomerados) es mayor que la varianza de la población entera.
Es decir, se requieren unidades heterogéneas dentro de la muestra.
S2 N −1
V (Ȳˆsis ) =
[1 + (n − 1)ρ]
n N
k n
(Yrj − Ȳ )(Yrj 0 − Ȳ )
X X
r=1 j 0 6=j=1
ρ= .
(n − 1)(N − 1)S 2
Ya que V (Ȳˆsis ) ≥ 0 ⇒
−1
≤ ρ ≤ 1.
n−1
⇒ V (Ȳˆsis ) ≤ V (Ȳˆmas ) :
9.4 EJEMPLOS SISTEMÁTICO 89
N = nk + r, r < k,
Suponga una población de tamaño N = 100 en la cual el ı́ndice de la unidad muestral coincide
con el valor de la caracterı́stica de interés en esa unidad.
Veremos cómo se comporta la varianza del estimador del total de la caracterı́stica de interés
al modificar el orden de las unidades muestrales en el marco.
Muestra
1 2 3 4 5 6 7 8 9 10
yk 1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
460 470 480 490 500 510 520 530 540 550
P
k yk
Muestra
1 2 3 4 5 6 7 8 9 10
yk 1 2 3 4 5 6 7 8 9 10
20 19 18 17 16 15 14 13 12 11
21 22 23 24 25 26 27 28 29 30
40 39 38 37 36 35 34 33 32 31
41 42 43 44 45 46 47 48 49 50
60 59 58 57 56 55 54 53 52 51
61 62 63 64 65 66 67 68 69 70
80 79 78 77 76 75 74 73 72 71
81 82 83 84 85 86 87 88 89 90
100 99 98 97 96 95 94 93 92 91
505 505 505 505 505 505 505 505 505 505
P
k yk
V (Ŷsis ) = 0
V (Ŷmas ) = 7.57 × 105
Muestra
1 2 3 4 5 6 7 8 9 10
yk 1 11 21 31 41 51 61 71 81 91
2 12 22 32 42 52 62 72 82 92
3 13 23 33 43 53 63 73 83 93
4 14 24 34 44 54 64 74 84 94
5 15 25 35 45 55 65 75 85 95
6 16 26 36 46 56 66 76 86 96
7 17 27 37 47 57 67 77 87 97
8 18 28 38 48 58 68 78 88 98
9 19 29 39 49 59 69 79 89 99
10 20 30 40 50 60 70 80 90 100
55 155 255 355 455 555 655 755 855 955
P
k yk
Muestra
1 2 3 4 5 6 7 8 9 10
yk 48 14 71 13 40 59 18 45 6 53
38 23 11 58 70 22 24 88 77 84
10 51 98 65 93 68 25 32 99 9
17 26 8 78 34 87 96 39 20 54
56 79 31 86 43 66 2 62 57 5
73 7 80 27 60 89 76 81 85 83
3 28 33 90 55 1 21 69 61 92
74 37 44 94 12 72 100 30 63 97
75 41 16 82 35 95 67 50 64 29
49 42 15 19 46 36 47 91 52 4
443 348 407 612 488 595 476 587 584 510
P
k yk
Muestra
1 2 3 4 5 6 7 8 9 10
yk 2 4 6 8 10 12 14 16 18 20
22 24 26 28 30 32 34 36 38 40
42 44 46 48 50 52 54 56 58 60
62 64 66 68 70 72 74 76 78 80
82 84 86 88 90 92 94 96 98 100
99 97 95 93 91 89 87 85 83 81
79 77 75 73 71 69 67 65 63 61
59 57 55 53 51 49 47 45 43 41
39 37 35 33 31 29 27 25 23 21
19 17 15 13 11 9 7 5 3 1
505 505 505 505 505 505 505 505 505 505
P
k yk
V (Ŷsis ) = 0
V (Ŷmas ) = 7.57 × 105
# o bien
k=10
barYi=sumYi/k
# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
9.4 EJEMPLOS SISTEMÁTICO 93
varTotalsis=(N*2)*varMediasis
varTotalsis
# varianza m.a.s.
s2<-var(mu[,10])
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas
varTotalmas
# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
varTotalsis=(N*2)*varMediasis
# varianza m.a.s.
s2<-var(mu[,2])
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas
ma<-seq(1,100,1)
mu<-matrix(ma,nrow=n,ncol=n,byrow=F)
# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
varTotalsis=(N*2)*varMediasis
# varianza m.a.s.
s2<-var(mu[,1])
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas
# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
varTotalsis=(N*2)*varMediasis
# varianza m.a.s.
s2<-var(mu[,1])
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas
mu<-c(p1,p2)
mu=matrix(mu,n,n,byrow=T)
# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
varTotalsis=(N*2)*varMediasis
# varianza m.a.s.
mu<-seq(1,100,1)
muestra_aleatoria_simple=sample(mu,n)
s2<-var(muestra_aleatoria_simple)
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas
96 Muestreo sistemático
Capı́tulo 10
Muestreo de conglomerados
Una muestra de conglomerados es una muestra aleatoria en la cual cada unidad muestral
es una colección o conglomerado de elementos.
Por ejemplo, una m.a.s. de 600 casas cubre una ciudad más uniformemente que una m.a.s.
de 20 manzanas con un promedio de 30 casas en cada manzana.
Pero se incurre en mayores gastos al localizar 600 casas y viajar entre ellas, que en la locali-
zación de 20 manzanas y la visita a todas las casas en esas manzanas.
Además, el m.a.s. de las 600 casas supone que tenemos un marco de casas. En cambio, sı́
podemos tener un marco de manzanas.
98 Muestreo de conglomerados
En otros casos, nosotros definimos el tamaño de los conglomerados, por ejemplo, si queremos
estimar la proporción de árboles muertos en cierto bosque, debemos definir el área de bosque
de cada conglomerado.
Si existe variabilidad en la densidad de árboles muertos a lo largo del bosque, entonces, serı́a
deseable muestrear áreas pequeñas seleccionadas al azar o sistemáticamente.
En muestreo estratificado queremos que los estratos contengan unidades muy homogéneas
dentro y heterogéneas entre estratos.
En muestreo por conglomerados queremos que los conglomerados contengan unidades muy
heterogéneas dentro y homogéneas entre ellos.
10.2 Notación 99
10.2. Notación
A nivel poblacional:
N
M= Mi es el total de elementos en la población
X
i=1
Mi
Yi = Yij total del conglomerado i (a veces es lo que tenemos)
X
j=1
Mi
Ȳi = Yij Promedio del conglomerado i
X
1
Mi
j=1
N Mi
N X
Y = Yi = Yij Total poblacional
X X
N
Ȳ = Yi Promedio de totales de conglomerados (generalmente no interesa)
X
1
N
i=1
N
X
Yi
Ȳe = Y
M
= i=1
N
es el promedio por elemento (es el que interesa)
X
Mi
i=1
N
= (Yi − Ȳ )2 Varianza entre totales de conglomerados.
X
1
Sb2 N −1
i=1
100 Muestreo de conglomerados
j=1
1
V̂ (Ȳˆe ) = 2 V̂ (Ŷ ).
M
1. Estos dos estimadores, el del total poblacional y de la media poblacional por elemento,
son insesgados, pero frecuentemente tienen varianzas grandes, ya que si el número de
elementos en los conglomerados (Mi ) es muy diferente, genera variabilidad entre los
totales de los conglomerados.
2. Si el tamaño del conglomerado Mi está fuertemente relacionado con el total del con-
glomerado, lo que generalmente sucede, entonces se prefieren estimadores de razón.
n
X n
X
N
n
yi yi
Ȳˆe =
Ŷ
= i=1
n = i=1
n
M̂ N
X X
n
Mi Mi
i=1 i=1
con varianza:
1 1 X N
(Yi − Ȳe Mi )2
V (Ȳˆe ) = 1 −
n
N n M̄ 2 i=1 N −1
donde, M̄ = M
N
es el tamaño promedio de los conglomerados.
Estimador de varianza:
1 1 X n
(yi − Ȳˆe Mi )2
V̂ (Ȳˆe ) = 1 −
n
N ˆ 2 i=1
n M̄ n−1
donde
n
X
N
n
Mi n
ˆ = M̂ =
M̄ i=1
=
X Mi
.
N N i=1 n
102 Muestreo de conglomerados
Ŷ = M Ȳˆe
con M conocida.
V (Ŷ ) = M 2 V (Ȳˆe )
V̂ (Ŷ ) = M 2 V̂ (Ȳˆe ).
Sea
1 Uij tiene la caracterı́stica
(
Yij =
0 Uij no tiene la caracterı́stica.
1 1 1 2
δ 2 = z1−
2
α − Sb .
2 n N M̄ 2
10.7 EJEMPLOS CONGLOMERADOS 103
Despejando n:
2 2
N z1− αS
b N Sb2
n= 2
= .
N δ 2 M̄ 2 + z1−
2 2
α Sb
N δ 2 M̄ 2
z1− α
+ Sb2
2
2
10.7.1. Ejemplo 1
M M N n
2
yi − Ȳˆ y Ȳˆ = n1 ni yi . Sustituyendo valores
con Ŝb2 = n−1
1 Pn P
i
4002 4 3.5833
V̂ (Ȳˆe ) =
1 − = 0.00887,
40002 400 4
104 Muestreo de conglomerados
V̂ (Ȳˆe ) = 0.0942.
q
ası́
El intervalo del 95 % de confianza para el promedio de periódicos comprados por casa es:
1.875 ± 1.96(0.0942) = (1.69, 2.06).
Sustituyendo valores
2
yi − Ȳˆe Mi
4 1 n
V̂ (Ȳˆe ) = 1 −
= 0.00887.
X
400 4(10)2 i 4−1
El intervalo del 95 % de confianza para el promedio de periódicos comprados por casa es:
1.875 ± 1.96(0.0942) = (1.69, 2.06).
Ası́ pues, SALE LO MISMO!!! Por que todos los conglomerados son del mismo tamaño. Si
i Mi = N k.
Mi = k, para toda i = 1, . . . , N , entonces M = N
P
n n
Ȳˆe1 = Ȳˆe2 = Pni
P
Ŷ N X yi
= yi ,
M nM i i Mi
n Pn
Ȳˆe1 = Ȳˆe2 =
N X i yi
yi ,
nN k i nk
entonces, si Mi = k, para i = 1, . . . , N los dos estimadores son iguales.
Ȳˆe1 =
Ŷ
M
N2 n Sb2
V (Ȳˆe1 ) =
1 −
M2 N n
N
(Yi − Ȳ )2 .
X
i
10.7 EJEMPLOS CONGLOMERADOS 105
Estimador 2:
n
Ȳˆe2 = Pni
P
yi
i Mi
N2 1 1 X N
V (Ȳˆe2 ) =
n
1− (Yi − Ȳe Mi )2
M 2 N nN −1 i
N
(Yi − Ȳe Mi )2
X
i
N
= (Yi − k Ȳe )2 , si Mi = k, ∀i
X
i
N PN !2
Yi
= k PNi
X
Yi −
i i Mi
N PN !2
Yi
= i
X
Yi − k
i Nk
N PN !2
Yi
= i
X
Yi −
i N
N 2
=
X
Yi − Ȳ .
i
10.7.2. Ejemplo 2.
Una compañı́a de taxis quiere estimar la proporción de llantas en mal estado de sus 175 taxis
(ignore la llanta de refacción).
Es impráctico seleccionar una MAS de llantas, por lo que se usó un muestreo de conglome-
rados, con cada taxi como conglomerado.
La proporción de llantas en mal estado que usan los taxis de la compañı́a se estima con:
Ŷ N Ȳˆ N Xn
P̂ = = = yi ,
M M Mn i
sustituyendo valores
175
P̂ = (40) = 0.4,
700(25)
N2 n Ŝb2
V̂ (P̂ ) = 1 −
M2 N n
175 2
25 1.583
= 1−
7002 175 25
= .003392.
q
Luego V̂ (P̂ ) = 0.058.
El intervalo del 95 % de confianza para la proporción de llantas en mal estado es (0.286, 0.514).
10.7 EJEMPLOS CONGLOMERADOS 107
10.7.3. Ejemplo 3.
Una firma tiene 80 tiendas en Florida y 140 en California. Se desea estimar el tiempo promedio
de incapacidad por empleado. Se decide estratificar por estado. Las tiendas se pueden ver
como conglomerados donde se determina el tiempo total de incapacidad de los archivos.
Entonces
2
Ȳˆe =
X Mh ˆ
Ȳhe
h M
y
2 2
V̂ (Ȳˆe ) = V̂ (Ȳˆhe ).
X Mh
M 2
h
Sustituyendo valores
ˆ N1 X n1
140
Ȳ1e = y1i = (355) = 2.485 dı́as/empleado
M1 n1 i 2000(10)
n2
80
Ȳˆ2e =
N2 X
y2i = (337) = 3.064 dı́as/empleado
M2 n2 i 1100(8)
N2 2
1402 10 247.17
V̂ (Ȳˆ1e ) = 12 1 −
n1 Ŝ1b
= 1− = 0.1125
M1 N1 n1 2000 2 140 10
N2 2
802 8 230.25
V̂ (Ȳˆ2e ) = 22 1 −
n2 Ŝ2b
= 1− = 0.137.
M2 N2 n2 1100 2 80 8
Por lo tanto
2000(2.485) + 1100(3.064)
Ȳˆe = = 2.69
2000 + 1100
ˆ 20002 (0.1125) + 11002 (0.137)
V̂ (Ȳe ) = = 0.05653
33002
Luego, el intervalo de confianza del 95 % para el promedio por empleado de tiempo de inca-
pacidad es: (2.224, 3.156).
Sustituyendo valores
1 1 1
V̂ (Ȳˆe ) =
1402 − (1337.13)
3106.4 2 10 140
1 1
+ 802 − (1225.69) = 0.3437
r
8 80
V̂ (Ȳˆe ) = 0.5862.
El intervalo del 95 % de confianza para el promedio de incapacidad por empleado es: (1.536, 3.834).
110 Muestreo de conglomerados
Capı́tulo 11
Muestreo Bietápico
No se censan los conglomerados en muestra, sino que se toma una muestra de sus elementos.
Para remediar esto, se forman nuevas unidades de muestreo llamadas Unidades Primarias
112 Muestreo Bietápico
de Muestreo (UPM). Para el ejemplo, las UPM podrı́an ser las manzanas, de las cuales
sı́ se tiene marco (mapas de la ciudad).
También se puede combinar con muestreo estratificado, por ejemplo, las UPM se pueden
agrupar en colonias o sectores según nivel socioeconómico.
11.1. Notación
Mi Número de USM en la U P Mi
Yi = Yij Total de la U P Mi .
PMi
j=1
Ȳe = Y
M
= PNY Media por elemento.
i=1
Mi
PMi
(Yij −Ȳi )2
2
Swi = j=1
Mi −1
Varianza entre USM de la U P Mi .
n
¯ NX
Ŷ = N Ŷ = Ŷi
n i=1
NX n
NX n
1 X mi
= Mi ȳi = Mi yij
n i=1 n i=1 mi j=1
mi
n X
N Mi
=
X
yij
i=1 j=1 n mi
mi
n X
=
X
fij yij ,
i=1 j=1
Si m ∝ Mi , es decir, M
mi
i
= k el diseño es autoponderado, es decir, los factores de expansión
son iguales fij = f = n k, ∀j, ∀i.
N
Es común que los valores de Yij sean semejantes dentro de cada UPM. Esto hace que los
2
Swi sean pequeños. Los totales Yi de UPM difieren mucho si los números Mi de USM dentro
de cada UPM son diferentes. Además, Sb2 es una varianza entre totales, no entre valores
individuales. Todo esto hace que la primera parte de V (Ȳ ) constituya gran parte de su valor.
Como los valores de las Yij tienden a ser parecidos dentro de cada una de las UPM, entonces
se genera una correlación, llamada correlación intraconglomerado.
Esta correlación hace que la información tenga cierta redundancia, lo que se refleja en varianza
de los estimadores mayor que la que se obtendrı́a con un muestreo directo unietápico de las
unidades.
Estimador de la varianza
Ȳˆe =
Ŷ
M̂
N Pn
i=1 Ŷi
= n
N Pn
n i=1 Mi
Pn
i=1 Ŷi
= Pn
i=1 Mi
Pn
i=1 Mi ȳi
= Pn .
i=1 Mi
Si se conoce M , el total de USM en la población, otra forma de estimar la media por elemento
es:
n
Ȳˆe =
Ŷ N X
= Mi ȳi .
M M n i=1
Con varianza y estimador de varianza:
1
V (Ȳˆe ) = 2 V (Ŷ )
M
116 Muestreo Bietápico
1
V̂ (Ȳˆe ) = 2 V̂ (Ŷ ).
M
11.5. Proporción
1 1 X n
Mi2 (p̂i − P̂ )2 1 X n
p̂i (1 − p̂i )
!
n mi
V̂ (P̂ ) = 1 − + Mi2 1 − .
N ˆ 2 i=1
n M̄ n−1 ˆ 2 i=1
nN M̄ Mi mi − 1
Si se desprecia la varianza entre USM dentro de las UPM y se fija la precisión δ y la confianza
1 − α entonces,
1 1
s
q
δ = z1−α/2 V (Ŷ ) = z1−α/2 N 2 − Sb2
n N
despejando n:
2
N z1−α/2 Sb2
n=
N δ 2 + z1−α/2
2
Sb2
n es el número de UPM a muestrear.
Raj (1998) demuestra que si Mi = M para toda i y se van a muestrear m USM en cada una
de las n UPM, y además se tiene un costo C = Ci n + C2 nm, entonces los mejores valores
11.7 EJEMPLOS BIETÁPICO 117
de n y m para los cuales V (Ŷ ) es mı́nima para un costo C dado, se calculan utilizando el
método de multiplicadores de Lagrange, construyendo la función
2
Swi
donde Sw2 = i=1 N .
PN
Y n se calcula de:
C = C1 n + C2 nm = n(C1 + C2 m),
C
n=
C1 + C2 m
Ejemplo 1
Ejemplo tomado del libro Model Assisted Survey Sampling, de Sarndal, C.E. et. al, Springer
Series in Statistics, 1991. En Suecia hay 284 municipios, éstos se agrupan en 50 conjuntos
(UPM), se toma una m.a.s. de n = 5 conjuntos y dentro de cada uno de éstos se toma una
m.a.s. de mi = 3 municipios. Se desea estimar Y = población total en todo el paı́s. Los datos
son:
(yij −ȳi )2
(i) Ŷi = Mi ȳi =
P3 1
2
Ŝwi j=1 2
Mi2 mi
− M1 i Ŝwi
2
¯ NX n
50
Ŷ = N Ŷ = Ŷi = (1507.99) = 15, 079.90.
n i=1 5
El estimador del total poblacional es 15,080 personas en el paı́s.
Para calcular la varianza estimada de este estimador, necesitamos calcular primero la varianza
entre UPM.
1 X n
¯
Ŝb2 = (Ŷi − Ŷ )2 = 11, 413.71.
n − 1 i=1
Luego,
1 1 NX n
1 1
V̂ (Ŷ ) = N 2
− Ŝb +
2
Mi2 − 2
Ŝwi
n N n i=1 mi Mi
2 1 1 50
= 50 − 5134910 + (3732.444)
5 50 5
= 5172234,
q
ası́ V̂ (Ŷ ) = 2274.25 y 5172234
5134910
= 0.99, es decir, el 99 % del valor de la varianza estimada del
estimador del total lo compone la parte de varianza entre UPM. El intervalo aproximado del
95 % de confianza para el total de habitantes es:
q
Ŷ ± 1.96 V̂ (Ŷ )
(10622.54; 19537.46).
Ejemplo 2
Una empresa que manufactura ropa tiene 90 plantas localizadas por todo EEUU y quiere
estimar el número promedio de horas que las máquinas de coser estuvieron fuera de servicio
el mes pasado.
11.7 EJEMPLOS BIETÁPICO 119
Debido a que las plantas están muy diseminadas, se decidió hacer un muestreo de conglome-
rados, definiendo a cada planta como un conglomerado de máquinas de coser y seleccionar
una muestra aleatoria simple de plantas.
Cada planta tiene muchas máquinas y checar el registro de reparación de cada una de ellas
es muy tardado. Por lo tanto, se usó un muestreo bietápico, es decir, se decidió seleccionar
una muestra aleatoria simple de máquinas en cada una de las plantas seleccionadas.
donde
1 X n
¯ 1 X n
1X n
Ŝb2 = (Ŷi − Ŷ )2 = Mi ȳi − Mj ȳj = 768.38,
n − 1 i=1 n − 1 i=1 n j=1
120 Muestreo Bietápico
por lo tanto
902 1 1 90
V̂ (Ȳˆe ) =
− (768.38) + (21987.06)
4500 10 90
2 45002 ∗ 10
= 0.02732 + 0.009772
= 0.037092.
el número promedio de horas que las máquinas de coser estuvieron fuera de servicio el mes
pasado es:
4.80 ± 1.96(0.1925)
4.80 ± 0.3775
(4.42 , 5.18)
2400.59
Ȳˆe =
P
Ŷ Mi ȳi
= Pi = = 4.598.
M̂ i Mi 522
Con varianza estimada
10 1
V̂ (Ȳˆe ) =
1− 1236.572
90 10(52.2)2
1
+ (21987.06)
10(90)(52.2)2
= 0.040339 + 0.008966
= 0.049305.
V̂ (Ȳˆe ) = 0.22205.
q
Luego
El intervalo aproximado del 95 % de confianza para el número promedio de horas que las
máquinas de coser estuvieron fuera de servicio el mes pasado es:
11.7 EJEMPLOS BIETÁPICO 121
4.60 ± 1.96(0.2221)
4.60 ± 0.4352
(4.16 , 5.04).
Ejemplo 3.
La misma firma quiere estimar la proporción de máquinas que han requerido reparaciones
mayores. Los datos son de las máquinas muestreadas en el ejercicio anterior.
176.08
P
Mi p̂i
P̂ = Pi = = 0.34.
i Mi 522
Con varianza estimada
1 i Mi (p̂i − p̂)
2 2
P
n
V̂ (P̂ ) = 1−
N nM̄ ˆ2 n−1
1 X 2 n
p̂i (1 − p̂i )
!
mi
+ M 1−
nN ˆ 2 i=1 i
M̄ Mi mi − 1
10 1 1
= 1− (18.44827) + (505.91)
90 10(52.2) 2 10(90)(52.2)2
= 0.000602 + 0.000206
= 0.00081.
q
V̂ (P̂ ) = 0.0285.
El intervalo aproximado del 95 % de confianza para la proporción de máquinas que han
requerido reparaciones mayores es:
122 Muestreo Bietápico
0.34 ± 1.96(0.0285)
0.34 ± 0.056
(0.284 , 0.396).
Ejemplo 4.
En la primera etapa, se selecciona por m.a.s. una muestra de carreteras de la lista de todas
las carreteras del Departamento del Estado.
En la segunda etapa, se seleccionan un número de tramos de 1 milla por m.a.s. del total de
tramos que tiene cada carretera seleccionada.
Una vez seleccionada la muestra, los ingenieros expertos en carreteras visitaron los tramos
seleccionados, estudiaron la condición del pavimento, calificaron la condición del segmento y
estimaron el costo de las reparaciones necesarias.
Para los propósitos de este ejercicio, suponga que hay 352 carreteras en el estado, con una
longitud total de 28,950 millas. Se selecciona una muestra aleatoria simple de 7 carreteras.
Para cada carretera seleccionada, aproximadamente el 10 % de los tramos de 1 milla que la
forman fueron seleccionados. Los resultados de las evaluaciones fueron los siguientes:
Por ejemplo, la carretera 155 tiene una longitud de 102 millas. Se seleccionaron e inspeccio-
naron 10 tramos de 1 milla de esta carretera. Uno de estos tramos fue calificado excelente.
El costo total de las reparaciones de los 10 tramos fue de $96,000.
11.7 EJEMPLOS BIETÁPICO 123
a) Estime la proporción de millas de las carreteras del estado que están en excelentes condi-
ciones. Obtenga un intervalo del 95 % de confianza para esta proporción.
N = 352
n = 7
M = 28950
Carr. Long Tramos No. tramos p̂i Mi p̂i Mi2 (p̂i − P̂ )2 Mi2 (1 − Mi
) mi −1
mi p̂i (1−p̂i )
80.47
P
Mi p̂i
P̂ = Pi = = 0.133.
i Mi 606
Con varianza
1 i Mi (p̂i − p̂)
2 2
P
n
V̂ (P̂ ) = 1−
N nM̄ ˆ2 n−1
1 X 2 n
p̂i (1 − p̂i )
!
mi
+ M 1−
ˆ 2 i=1 i
nN M̄ Mi mi − 1
= 0.00102 + 0.0000363
= 0.00106,
q
luego V̂ (P̂ ) = 0.0325. Intervalo del 95 % de confianza para la proporción de segmentos de
milla en excelentes condiciones en las carreteras es: (0.069, 0.196).
b) Estime el costo promedio por milla y el costo total de las reparaciones. Obtenga intervalos
de 95 % de confianza para estos costos.
124 Muestreo Bietápico
¯
Carr. Long Tramos Costo ȳi Mi ȳi (Ŷi − Ŷ )2
no. (millas) seleccionados (miles) Ŷi
155 102 10 96 9.6 979.2 66147.64
489 144 14 120 8.57 1234.29 262428.3
283 56 6 60 10 560 26246.64
698 118 12 108 9 1062 115594.4
311 41 4 36 9 369 124614.8
358 76 8 50 6.25 475 61013.03
423 69 7 38 5.43 374.57 120712.3
606 5054.06 776757.1
NX NX
Ŷ = Ŷi = Mi ȳi .
n i n i
Con varianza
1 1
V̂ (Ŷ ) = N 2 − Ŝb2
n N
NX 2 1 1
+ Mi − 2
Ŝwi
n i mi Mi
donde
1 X n
¯
Ŝb2 = (Ŷi − Ŷ )2
n − 1 i=1
y
1 X mi
2
Ŝwi = (yij − ȳi )2 .
mi − 1 j=1
Luego,
352
Ŷ = (5054.06) = 254146.87
7
1
Ŝb2 = (776757.1) = 129459.5
6
2 1 1
V̂ (Ŷ ) = 352 − (129459.5) = 2245937686
q
7 352
V̂ (Ŷ ) = 47391.33.
Intervalo del 95 % de confianza para el costo total de reparaciones en las 352 carreteras del
estado: (161259.88, 347033.87).
11.7 EJEMPLOS BIETÁPICO 125
Para estimar el costo promedio por milla, sabemos que M = 28950, entonces usaremos la
expresión:
Ȳˆe =
Ŷ
= 8.78.
M
Cuya varianza es
254146.87
V̂ (Ȳˆe ) = = 2.68
289502
i.e. V̂ (Ȳˆ ) = 1.637.
q
e
Intervalo del 95 % de confianza para el costo promedio de reparaciones por milla: (5.57, 11.99)
126 Muestreo Bietápico
11.7 EJEMPLOS BIETÁPICO 127
Referencias
1. Chaudhuri, A., and Stenger, H. (2005). Survey Sampling. Theory and Methods, 2nd
ed. Chapman and Hall.
3. Heringa, S.G., West, B., and Berglund P. (2010). Applied Survey Data Analysis. CRC
Press.
5. Ojeda Ramı́rez, Mario Miguel y Dı́az Camacho, Julián Felipe. (2012). Introducción a
las Técnicas de muestreo. Editorial académica española.
9. Casal, J. & Meteu, E. (2003). Tipos de muestreo. Rev. Epidem. Med. Prev, 1(1), 3-7.
12. Mostacedo, B., & Fredericksen, T. (2000). Manual de métodos básicos de muestreo y
análisis en ecologı́a vegetal. Proyecto de Manejo Forestal Sostenible (BOLFOR).