Dia Positi Vas 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 133

Universidad Autónoma Chapingo

Muestreo Forestal / Muestreo I

MAESTRÍA EN CIENCIAS FORESTALES

LIC. EN ESTADÍSTICA

Dra. Luz Judith Rodrı́guez Esparza

2018
2
Índice general

1. Presentación 1

2. Historia del muestreo 9

3. Introducción 13
3.1. Definición de conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1. Pasos para realizar una encuesta por muestreo . . . . . . . . . . . . . 19
3.2. Objetivos del muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3. Otras definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.1. Propiedades deseables de un estimador . . . . . . . . . . . . . . . . . 22
3.3.2. Primera ley de los grandes números . . . . . . . . . . . . . . . . . . . 23
3.3.3. Segunda ley de los grandes números . . . . . . . . . . . . . . . . . . . 24
3.3.4. Teorema Central del Lı́mite . . . . . . . . . . . . . . . . . . . . . . . 24

4. Muestreo Aleatorio Simple 27


4.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2. Estimador para la Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2.1. Intervalo de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3. Estimador del Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4. Estimador de una Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4.1. Estimador del total de elementos con cierta caracterı́stica . . . . . . . 39
4.5. Determinación del tamaño de muestra . . . . . . . . . . . . . . . . . . . . . 39
4.5.1. n para estimar una Media . . . . . . . . . . . . . . . . . . . . . . . . 40
4.5.2. Tamaño de muestra m.a.s . . . . . . . . . . . . . . . . . . . . . . . . 41
4.5.3. n para un Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.5.4. n para estimar una Proporción . . . . . . . . . . . . . . . . . . . . . 41
4.6. Ejemplo MAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
ii ÍNDICE GENERAL

5. Estimadores de Razón (bajo m.a.s) 45


5.1. Resumen Estimador de razón . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.1. Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1.2. Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2. Comparación estimador de razón con el usual de m.a.s . . . . . . . . . . . . 52
5.3. Tamaño de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.4. Ejemplo de Razón MAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6. Estimadores de Regresión (bajo m.a.s) 59


6.1. Estimador de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2. Resumen Estimador de regresión . . . . . . . . . . . . . . . . . . . . . . . . 61
6.3. Tamaño de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

7. Muestreo estratificado 65
7.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3. Estimador del Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.4. Estimador de la Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.5. Estimador de una Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.6. Distribución de la muestra a los estratos . . . . . . . . . . . . . . . . . . . . 72
7.7. Tamaño de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

8. Estimadores de Razón en Muestreo Estratificado (bajo m.a.s) 77


8.1. Estimador de razón separado RS . . . . . . . . . . . . . . . . . . . . . . . . 77
8.2. Estimador de razón combinado Rc . . . . . . . . . . . . . . . . . . . . . . . . 79
8.3. EJEMPLOS ESTRATIFICADO . . . . . . . . . . . . . . . . . . . . . . . . . 80

9. Muestreo sistemático 83
9.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
9.2. Muestreo sistemático (con arranque aleatorio) . . . . . . . . . . . . . . . . . 83
9.3. Estimador de la Media poblacional . . . . . . . . . . . . . . . . . . . . . . . 86
9.3.1. Comparación con m.a.s. . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.4. EJEMPLOS SISTEMÁTICO . . . . . . . . . . . . . . . . . . . . . . . . . . 89

10.Muestreo de conglomerados 97
10.1. Tamaño de los conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.2. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.3. Estimador del Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . 100
10.4. Estimador de la Media poblacional (por elemento) . . . . . . . . . . . . . . . 100
10.5. Estimadores de Razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.5.1. Estimador de la Media poblacional por elemento. (Razón) . . . . . . 101
10.5.2. Estimador del Total poblacional. (Razón) . . . . . . . . . . . . . . . . 102
10.5.3. Estimador de una Proporción poblacional. (Razón) . . . . . . . . . . 102
ÍNDICE GENERAL iii

10.6. Tamaño de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102


10.7. EJEMPLOS CONGLOMERADOS . . . . . . . . . . . . . . . . . . . . . . . 103
10.7.1. Ejemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
10.7.2. Ejemplo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
10.7.3. Ejemplo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

11. Muestreo Bietápico 111


11.1. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
11.1.1. A nivel poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
11.1.2. A nivel muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
11.2. Estimador del Total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . 113
11.3. Media por elemento (Razón) . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
11.4. Media por elemento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
11.5. Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
11.6. Tamaño de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
11.7. EJEMPLOS BIETÁPICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

Bibliografı́a. 127
iv ÍNDICE GENERAL
Capı́tulo 1

Presentación
UNIVERSIDAD AUTÓNOMA CHAPINGO
DIVISIÓN DE CIENCIAS FORESTALES
Departamento de Estadística, Matemática y Cómputo
Licenciatura en Estadística
Maestría en Ciencias Forestales

Datos generales:

Programa educativo: Licenciatura en Estadística


Maestría en Ciencias Forestales
Nivel educativo: Licenciatura
Maestría en Ciencias
Asignatura: Muestreo I/ Muestreo Forestal
Clave: CF-603
Carácter: Obligatoria/Programa especial
Tipo: Teórico-práctico
Prerequisitos: Estadística
Profesor: Luz Judith Rodríguez Esparza
Sesión: Primavera
Créditos: 3

INTRODUCCIÓN

Llevar a cabo una investigación en base a cualquier tipo de análisis


estadístico requiere de una cuidadosa selección del método y del diseño de un
muestreo. Las muestras que no se hacen en forma aleatoria, aunque pueden
ser fáciles y de bajo costo, no son útiles para el análisis estadístico inferencial.
Sin embargo, las muestras aleatorias pueden proporcionar resultados más
precisos y se prestan para una serie de análisis estadísticos. Las diferentes
técnicas de muestreo aleatorio se ajustan a situaciones específicas de
investigación, y son fundamentales para una investigación eficaz. Hay dos tipos
principales de muestreo: el muestreo aleatorio y el no aleatorio. A su vez, hay
tres métodos de muestreo aleatorio: el muestreo aleatorio simple, el muestreo
aleatorio estratificado y el muestreo aleatorio por conglomerados.
El cálculo del tamaño de la muestra aleatoria debe ser el correcto para
obtener resultados precisos que se puedan generalizar. Esto es muy importante
en el diseño del método de muestreo.

Una muestra debe ser representativa si va a ser usada para estimar las
características de la población. Los métodos para seleccionar una muestra
representativa son numerosos, dependiendo del tiempo, dinero y habilidad
disponibles para tomar una muestra y la naturaleza de los elementos
individuales de la población. Por lo tanto, se requiere una gran volumen para
incluir todos los tipos de métodos de muestreo.

El resultado de un buen análisis es producto también de un buen


muestreo. Si el muestreo no se realiza de manera adecuada, el resultado del
análisis de la muestra puede ser erróneo.

Dependiendo la población a estudiar son las áreas de aplicación del


muestreo estadístico. Por ejemplo en el área de agricultura se tienen estudios
sobre métodos de muestreo para encuestas agrícolas, otro ejemplo es el
muestreo de plagas, o el muestreo de alimentos, muestreo forestal, entre
muchas otras aplicaciones.

PRESENTACIÓN

En la actualidad resulta costoso evaluar características de una población, de


ahí que surja el muestreo como una opción viable estadísticamente hablando y
que económicamente resulta beneficiosa, además de las cuestiones del tiempo.
En la investigación actual el muestreo juega un papel fundamental, ya que a
partir de su análisis se toman criterios de decisión de la población donde se
tomó la muestra. Así pues, una muestra debe ser representativa si se van a
estimar parámetros de una población.

  2  
Por este motivo, en este curso se proporcionan las herramientas básicas para el
conocimiento de los principales tipos de muestreo que se le pueden aplicar a
una población. Dicha población puede ser considerada ya sean personas,
animales, plantas, etc. Se estimarán sus principales estadísticos como lo son la
media, el total y proporciones.

Se comenzará, pues, con una breve introducción sobre el muestreo. Se


continuará entonces con cinco unidades considerando los tipos de muestreo
básicos en la literatura: Muestreo Aleatorio Simple, Estratificado, Sistemático,
por Conglomerados y Conglomerados por dos etapas. En cada una de las
unidades se verán aplicaciones, y esto se hará mediante el análisis de artículos
de investigación.

Se podrá utilizar cualquier lenguaje de programación para implementar las


funciones probabilísticas y estadísticas, aunque el uso del lenguaje R es
altamente recomendado.

OBJETIVO

El estudiante obtendrá los conocimientos teóricos y prácticos para el diseño,


ejecución y análisis de los esquemas de muestreo de mayor uso en aspectos
agropecuarios, forestales, biológicos, sociales e industriales, etc. basado en la
inferencia que se puede hacer sobre una población, a partir de una muestra.

CONTENIDO

Unidad 1: Introducción.
Unidad 2: Muestreo aleatorio simple (mas).
Unidad 3: Muestreo aleatorio estratificado (mae).
Unidad 4: Muestreo sistemático (ms).
Unidad 5: Muestreo de conglomerados.

  3  
Unidad 6. Muestreo por conglomerados en dos etapas.

UNIDADES TEMÁTICAS

Unidad 1. Introducción
Contenido:
1.1 ¿Qué es el muestreo? Breve historia de su desarrollo
1.2 Población, marco y muestra
1.3 Fases de la investigación por muestreo
1.4 Tipos de errores en una encuesta por muestreo
1.5 El cuestionario
1.6 Diseños
1.7 Estimadores y distribución muestral

Unidad 2. Muestreo aleatorio simple (mas)


Contenido:
2.1 Selección de muestra
2.2 Estimadores de totales, medias y proporciones
2.3 Tamaño de muestra
2.3.1 Tamaño de muestra para estimar la media poblacional
2.3.2 Tamaño de muestra para estimar el total poblacional
2.3.3 Tamaño de muestra para estimar una proporción poblacional
2.4 Estimadores de razón y regresión (bajo m.a.s.)
2.4.1 Uso de variable auxiliar
2.4.2 Estimadores

Unidad 3. Muestreo aleatorio estratificado (mae)


Contenido:
3.1 Afijación de la muestra
3.2 Estimación de la media poblacional
3.3 Estimación del total poblacional

  4  
3.4 Tamaño de muestra para la estimación de una media y el total
poblacional
3.5 Estimación de una proporción poblacional
3.6 Tamaño de muestra para la estimación de una proporción poblacional

Unidad 4. Muestreo sistemático (ms)


Contenido:
4.1 Descripción del muestreo sistemático
4.2 Ventajas e inconvenientes en el muestreo sistemático
4.3 Tamaño de muestra para muestreo sistemático

Unidad 5. Muestreo por conglomerados.


Contenido:
5.1 Muestreo por conglomerados en una etapa
5.2 Descripción del muestreo por conglomerados
5.3 Como seleccionar una muestra por conglomerados
5.4 Estimación de una media y un total poblacionales
5.5 Selección del tamaño de muestra para la estimación de medias y totales
poblacionales
5.6 Estimación de una proporción poblacional
5.7 Selección del tamaño de muestra para la estimación de proporciones
5.8 Muestreo por conglomerados con probabilidades proporcionales

Unidad 6. Muestreo de conglomerados es dos etapas

Contenido:
6.1 Como seleccionar una muestra en dos etapas
6.2 Como seleccionar una muestra por conglomerados en dos etapas.
6.3 Muestreo conglomerados con estratificación
6.4 Estimación de una media y un total poblacionales
6.5 Estimación de una proporción poblacional
6.6 Selección de tamaños de muestra

  5  
6.7 Muestreo por conglomerados en dos etapas con probabilidades
proporcionales al tamaño
Bibliografía recomendada:

• Chaudhuri, A., and Stenger, H. (2005). Survey Sampling. Theory and Methods,
2nd ed. Chapman and Hall.
• Cochran, William G. (1998). Técnicas de Muestreo. CECSA. México.
• Heringa, S.G., West, B., and Berglund P. (2010). Applied Survey Data
Analysis. CRC Press.
• Pérez, Cesar. (2000). Técnicas de Muestreo Estadístico. ALFAOMEGA.
México.
• Scheaffer, Richard L. Mendenhall, William y Ott Lyman. (1987). Elementos de
muestreo. Grupo Editorial Iberoamérica. México.
• Sharon L. (2000). Muestreo: Diseño y análisis. International Thompson
Editores.
• Casal, J. & Meteu, E. (2003). Tipos de muestreo. Rev. Epidem. Med. Prev,
1(1), 3-7.
• Cochran, W. G. (2007). Sampling techniques. John Wiley & Sons.
• González, A. R. (2006). Ecología: Métodos de muestreo y análisis de
poblaciones y comunidades. Pontificia Universidad Javeriana.
• Mostacedo, B., & Fredericksen, T. (2000). Manual de métodos básicos de
muestreo y análisis en ecología vegetal. Proyecto de Manejo Forestal
Sostenible (BOLFOR).

EVALUACIÓN
Tareas………………. 30%
Ejercicios …………… 15%
Proyecto…………….. 15%
Exámenes….……….. 30%
Participación………… 5%
Asistencia……………. 5%

  6  
8 Presentación
Capı́tulo 2

Historia del muestreo

El muestreo es tan antiguo como el hombre.

Se llega a conclusiones acerca de peces, árboles, lagos, comida, etc., con base en muestras
no estructuradas relativamente pequeñas que tenemos disponibles en la vida diaria.

Estadı́sticas sociales y económicas tienen una larga historia de estudios muestrales, en


el sentido de cobertura parcial de la población relevante.

Edmun Halley estima la mortalidad de la raza humana con base en las curiosas tablas
de nacimientos y funerales en la ciudad de Breslay, en 1693.

En 1754 se hicieron estimaciones de la poblacion de Inglaterra basadas en el número


de casas en la lista de impuestos más una estimación burda del número de cabañas; el
total de viviendas se multiplico por 6 (personas por vivienda).

Otras estimaciones se basaron en el número de bautismos, matrimonios y entierros.

En 1800 Sir Frederick Morton estimó la poblacion de Gran Bretaña en 9 millones de


habitantes, usando datos muestrales del numero promedio de habitantes por casa, asi
como el número de nacimientos. El primer censo de 1801 confirmó su estimación.

Sir John Lawes uso el registro anual de producción de trigo en Rothamsted en 5 parcelas
de 33 acres de 1852 a 1879 para Inglaterra y Gales.

Posteriormente se calcularon otras estimaciones como el número de caballos, ganado,


ovejas y puercos, asi como el area cultivada.
10 Historia del muestreo

Estudios de muestreo de cultivos; estadisticas económicas de precios, salarios, empleo;


estudios sobre salud y opinión pública.

En el siglo XIX con el nacimiento de sistemas nacionales de estadı́stica y el desarrollo


de estudios sociológicos, se crean dos movimientos, el primero de cobertura total y el
segundo de casos de estudio (unas pocas familias, una sola ciudad, etc.).

Kiaer en 1895 en una reunión del ISI (International Statistical Institute) propuso el
Método Representativo. Explicó que una investigación parcial podrı́a dar resultados
confiables si las observaciones formaban una pintura representativa de todo el campo
de estudio. Tuvo una feroz crı́tica por parte de los defensores de los conteos exhaustivos.

Kiaer (1897) La muestra debe reflejar la población objetivo en caracterı́sticas impor-


tantes.

Arthur Lyon Bowley (1906) promovió activamente sus ideas sobre muestreo en general
y aleatorización en particular.

Realizó una prueba empı́rica del Teorema del Lı́mite Central.

En un artı́culo mencionó ”...podemos obtener tan buenos resultados como queramos


muestreando, y muy frecuentemente pequeñas muestras son suficientes; la única difi-
cultad es el asegurar que cada persona o cosa tenga la misma oportunidad de inclusión
en la investigación”.

Para la reunión del ISI de 1925 el método representativo era aceptado. Surgieron dos
formas de selección de la muestra:

• Selección aleatoria (probabilidades de inclusión iguales)


• Selección por intención (que refleje la población en ciertas variables)

Neyman (1934) demuestra, entre otras cosas, que la distribución óptima en muestreo
estratificado debe ser proporcional a la varianza del estrato, lo que lleva a probabilidades
de inclusión desiguales, impulsó un rápido desarrollo de las técnicas de Muestreo.

La I y II Guerras Mundiales ampliaron el alcance de las estadı́sticas oficiales pero al


costo de usar muestras en lugar de medir a la población completa.

Horvitz y Thompson (1952) formularon el muestreo con probabilidades desiguales (es-


timador π).

Godambe (1955) demuestra que no existe el estimador “óptimo” sino que depende del
diseño de muestra.

Mucho de la investigación en Muestreo se inició por estadı́sticos trabajando en la Oficina


del Censo (Deming, Hansen, Hurwitz, Madow).
11

Richard Royall (1970) da mucho impulso a la inferencia basada en modelo, que no ha


reemplazado al enfoque de aleatorización o inferencia basada en diseño. Sigue el debate
entre estos dos enfoques.

El Muestreo es diferente a las otras técnicas estadı́sticas.

Población finita.
El principal objetivo es la estimación de ciertas caracterı́sticas de la población bajo
estudio.
X1 ,X2 ,...,XN fijas, desconocidas.
Lo aleatorio es introducido por el investigador a través del diseño muestral (probabilidad
de selección de la muestra).
En este curso usaremos la inferencia basada en diseño.

Bibliografı́a

1. Bellhouse, D.R. (1988). A Brief History of Random Sampling Methods. P.R. Krishnaiah
y C. R. Rao, eds.
2. Handbook of Statistics, Vol 6 Elsevier Science Publishers B.V. pp 1-14.
3. Godambe,V.P. (1955). A Unified Theory of Sampling from Finite Populations. JRSS,
Series B, 17, No. , pp 269-278.
4. Horvitz, D.G. & Thompson, D.J. (1952). A Generalization of Sampling Without Re-
placement from a Finite Universe. JASA, 47, No. 260, pp 663-685.
5. Kiaer, A. (1897). The representative method of statisticalsurveys (1976 English trans-
lation of the original Norwegian). Oslo: Central Bureau of Statistics of Norway.
6. Neyman, J. (1934). On the Two Different Aspects of the Representative Method: The
Method of Stratified Sampling and the Method of Purposive Selection. JRSS, 97, No.
4, pp 558-625.
7. Royal, R.M. (1970). On finite population sampling theory under certain linear regression
models. Biometrika, 57, pp 377-387.
8. Stephan, F.F. (1948). History of the Uses of Modern Sampling Procedures. JASA 43,
No. 24, pp 12-39.
12 Historia del muestreo
Capı́tulo 3

Introducción

En todas las encuestas por muestreo, el principal objetivo es estimar caracterı́sticas de


la población usando los datos de una muestra.

Mahalanobis (1965,p45) resumió las ventajas de las encuestras por muestreo:


”...encuestas por muestreo a grandes escalas, cuando se realizan de la manera apropiada
con un diseño muestral satisfactorio, pueden proporcionar, rápidamente y a un menor
costo, información con suficiente precisión para fines prácticos y con la posibilidad de
evaluar el margen de incertidumbre con una base objetiva.”

¿Qué es una muestra?


Es una parte de la una población de interés. Un subconjunto de ésta.

¿Qué es la población de interés?


Es un conjunto finito de objetos (elementos) identificables con ubicación en tiempo y
espacio.

Muestreo en la vida diaria.


Utilizamos el muestreo en nuestra vida diaria. Por ejemplo: cocinar, comprar, comer.

Objetivos del muestreo


Las técnicas del muestreo se utilizan para conocer las caracterı́sticas generales de la
población de interés, al estudiar solo una parte de ésta.

¿Dónde se usa?
14 Introducción

Encuestas de opinión
Ratings de televisión
Industria. Control de calidad
Laboratorios. Estudios de sangre
Encuestas electorales
Encuestas de INEGI. (Ingreso-Gasto, Empleo, Turismo, etc.)
Estudios de mercado

¿Porqué una muestra?

Costo
Confiabilidad en la información
Pruebas destructivas
Rapidez en reunir la información

Objetivos del muestreo


Seleccionar ”buenas” muestras de un tamaño ”apropiado”, considerando la información
que tenemos de la población que estamos estudiando y el presupuesto con que contamos.

¿Qué es una ”buena” muestra?


Es una muestra representativa de la población, es decir, que las variables de interés en
la muestra presenten una disribución semejante a las de la población.
3.1 Definición de conceptos 15

¿Qué es un tamaño ”apropiado” de una muestra?

Depende de:
La variabilidad de lo que queremos estudiar.
La precisión con que queremos hacer la inferencia.
El presupuesto que tengamos.
El tamaño de la población.

3.1. Definición de conceptos

Población objetivo. Conjunto de elementos identificables con ubicación en tiempo y espa-


cio. La población se define al especificar qué elementos son (a veces también cuáles no son)
y qué caracterı́sticas deben tener.

Personas mayores de 18 años que han vivido los últimos 6 meses en el D.F.
Escuelas primarias que dependen del sector público ubicadas en el D.F.

Los elementos de la población pueden ser personas, familias, hospitales, etc.

Marco de muestreo. Es la lista que identifica a los elementos de la población. En la figura


la población objetivo es igual a la población muestreada:

En este caso se desechan los elementos que no son parte de la población:


16 Introducción

No se puede usar este marco. Se puede redefinir la población a que coincida con el marco o
complementar el marco con otro(s):

Obliga a usar muestreo con estratos:


3.1 Definición de conceptos 17

Eliminar de algunos de los dos marcos las unidades que se repiten:

Una muestra es un conjunto de elementos de la población seleccionados del marco. Las


formas de tomar una muestra:

1. No probabilı́stica.

A juicio. Se usa la experiencia del investigador.


Puede resultar una muestra sesgada.
No hay forma de estimar el error.

2. Probabilı́stica. Todos los elementos de la población tienen una probabilidad conocida


y mayor que cero de ser seleccionados.

Hay forma de estimar el error.


18 Introducción

Se tiene apoyo de herramientas de probabilidad.

Fuentes de error

1. Error de muestreo.

2. Errores que no son de muestreo.

Error de muestreo. Es el error de estimación:

| θ − θ̂ | .

Se controla el diseño.

Se debe a que tenemos una muestra sólamente y no toda la población.

Errores que no son de muestreo

No respuesta. Puede introducir sesgo a la información.

Información falsa:

• Encuesta de salida en elecciones. Veracidad de la información.


• Preguntas sensitivas (hay métodos). Veracidad de la información.
• Preguntas mal redactadas.
• Términos mal definidos.

Sustitución arbitraria de los elementos de la muestra.

Los errores que no son de muestreo se pueden controlar poniendo especial atención a la
construcción del cuestionario y a los detalles en el trabajo de campo a través de una buena
supervición.
3.1 Definición de conceptos 19

3.1.1. Pasos para realizar una encuesta por muestreo

1. Establecimiento de objetivos

2. Definición de la población objetivo

3. Construcción del marco de muestreo

4. Diseño de la muestra. ¿Cómo se va a seleccionar la muestra?

5. Método de medición

Entrevistas personales (entrevistador)


Entrevistas telefónicas
Cuestionarios autoadministrados
Por correo
Observación directa

6. Instrumento de medición. Diseño del cuestionario

Orden de las preguntas


Redacción de las preguntas
Omitir dobles negaciones
Preguntas sensitivas
¿Preguntas abiertas o cerradas?
Definición de términos y conceptos (lealtad, amor)

7. Prueba piloto. Sirve para probar cuestionario, trabajo de campo, estimar varianzas.

8. Organización del trabajo de campo.

Supervisores
Encuestadores
Logı́stica

9. Organización del manejo de la información

¿Qué tipo de resultados se van a pedir?


Tablas
control de la calidad de la información

10. Análisis de datos y reporte final.


20 Introducción

3.2. Objetivos del muestreo

El objetivo del muestreo es estimar caracterı́sticas generales de la población bajo estudio, tales
como promedio, totales o porcentajes. Esta estimación se hace a través de haber observado
el valor de algunas variables en una muestra:

X1 , X2 , . . . , XN

x1 , x2 , . . . , xn .

3.3. Otras definiciones

Estimador. Es una función de la muestra que no tiene involucrados parámetros descono-


cidos y que se construye para estimar un parámetro desconocidos y que se construye para
estimar un parámetro de la población (su valor varı́a de muestra a muestra).

Estimación. Es el valor que toma el estimador una vez observados los valores de la muestra.

Distribución muestral. Es la función de distribución de un estimador.


3.3 Otras definiciones 21

Ejemplo 3.3.1

Se tiene una población de 6 personas a las cuales se les mide cierta caracterı́stica Y .

Ui U1 U2 U3 U4 U5 U6
A B C D E F
Yi 0 1 2 3 4 5

El promedio de la caracterı́stica en toda la población es:


15
Ȳ = = 2.5.
6

Suponga que con una muestra de tamaño 2 se desea estimar este promedio. Se selecciona
esta muestra aleatoria de tal manera que cualquier muestra de tamaño 2 tenga la misma
probabilidad de ser seleccionada.

¿Cuántas muestras posibles hay?


6 6! 30
!
= = = 15.
2 2!4! 2

Cuadro 3.1: 15 muestras posibles

muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
elementos A A A A A B B B B C C C D D E
B C D E F C D E F D E F E F F
valores 0 0 0 0 0 1 1 1 1 2 2 2 3 3 4
1 2 3 4 5 2 3 4 5 3 4 5 4 5 5
ȳ 0.5 1 1.5 2 2.5 1.5 2 2.5 3 2.5 3 3.5 3.5 4 4.5

El procedimiento de selección implica que cualquiera de estas muestras tiene la misma pro-
babilidad de ser seleccionada, es decir, no se favorecen más de una de estas muestras sobre
otras.
1
P(cualquier muestra) =
15
5 1
P( A en muestra) = = = P(B en muestra) = etc.
15 3
22 Introducción

Cuadro 3.2: Distribución muestral

Valor del promedio frecuencia (No. de muestras frecuencia


muestral con este promedio) relativa
0.5 1 1
15
1 1 1
15
1.5 2 2
15
2 2 2
15
2.5 3 3
15
3 2 2
15
3.5 2 2
15
4 1 1
15
4.5 1 1
15

Figura 3.1: Ejemplo de distribución muestral

3.3.1. Propiedades deseables de un estimador

Como vimos con la función de distribución muestral del estimador “promedio muestral”, los
valores que puede tomar varı́an de muestra a muestra. Una propiedad deseable de este esti-
mador es que el promedio de los valores que puede tomar coincida con el verdadero valor del
parámetro, es decir, que las esperanza del estimador sea el parámetro, en otras palabras que
sea un estimador insesgado.

Definición 3.3.1 Sea X∼ pX (x).


3.3 Otras definiciones 23

X
E(X)= xp(x).
x

En el ejemplo:

Valor de ȳ probabilidad
0.5 1
15
1 1
15
1.5 2
15
2 2
15
2.5 3
15
3 2
15
3.5 2
15
4 1
15
4.5 1
15

1
E(ȳ) = [0.5 + 1 + 2(1.5) + 2(2) + 3(2.5) + 2(3) + 2(3.5) + 4 + 4.5]
15
1
= (37.5) = 2.5 = Ȳ .
15

Pedir que el estimador sea insesgado no es suficiente. Otra propiedad que se pide es que tenga
varianza mı́nima, es decir, que su distribución muestral esté muy concentrada en su media.

3.3.2. Primera ley de los grandes números

Sean X1 , X2 , . . . , Xn variables aleatorias independientes e idénticamente distribuidas (va iid),


tales que Xi = {0, 1}, y
24 Introducción

E(Xi ) = p

V(Xi ) = p(1-p).

Sea Sn = X1 + X2 + · · · + Xn , n ≥ 1. Se dice que Sn puede tomar valores 0,1,...,n y tiene


distribución binomial con media y varianza dados por:
E(Sn ) = np; V(Sn ) = np(1-p).
Entonces,
Sn
 
lı́m P < c = 1, ∀c > 0.

− p
n→∞ n

3.3.3. Segunda ley de los grandes números

Sea Xi , i ≥ 1, una secuencia de va iid con E(Xi ) = µ y V(Xi ) = σ 2 . Sea Sn = X1 + X2 +


· · · + Xn y X̄ = Snn entonces
lı́m P[| X̄ − µ |< c] = 1,
n→∞
∀c > 0.

3.3.4. Teorema Central del Lı́mite

Sea Xi , i ≥ 1, una secuencia de va iid con E(Xi ) = µ y V(Xi ) = σ 2 . Sea Sn = X1 + X2 +


· · · + Xn y X̄ = Snn y sean a y b con a < b, dos números cualquiera, entonces
 
X̄ − µ 1 Z b −x2 /2
lı́m P a < < b = √ e dx.
n→∞ √σ
n 2π a
Es decir, X̄ tiende a tener una distribución N(µ, σ 2 /n).
3.3 Otras definiciones 25

En general, en la población se tendrá un parámetro θ, que al tomar muchas muestras posibles


con un diseño de muestra especı́fico y una forma de estimador dada, produce muchos valores
de θ̂.

Por el Teorema Central de Lı́mite:

E(θ̂) = θ.
V(θ̂) = E[θ̂ − E(θ̂)]2 = E[(θ̂ − θ)]2 .
P[θ − δ ≤ θ̂ ≤ θ + δ] = 1 − α.

En palabras, la probabilidad de una discrepancia de a lo más δ entre θ y θ̂ es 1 − α.

A δ se le conoce como precisión del muestreo o error de estimación, y a 1 − α como


confianza.

Diseño de muestra

Procedimiento para seleccionar una muestra de una población de una forma especı́fica.
26 Introducción
Capı́tulo 4

Muestreo Aleatorio Simple

4.1. Motivación

Es Muestreo Aleatorio Simple (MAS) es el esquema de muestreo más sencillo de todos y de


aplicación más general. Este tipo de muestreo se emplea en aquellos casos en que se dispone
de poca información previa acerca de las caracterı́sticas de la población a medirse.

Por ejemplo, si se quiere conocer la abundancia promedio de Anadenanthera macrocarpa en


el Jardı́n Botánico de Santa Cruz, una información simple serı́a el croquis con la superficie
del Jardı́n. Previa a la entrada al bosque, se debe cuadricular el croquis o mapa y, del total
de cuadros se debe seleccionar, aleatoriamente un determinado número de cuadros que serán
muestreados.

El segundo ejemplo que se puede dar es el siguiente: suponiendo que en un bosque montano
húmedo de Tarija, en una propiedad privada de 200ha, se conoce que a través de una senda
de 5 km existen 500 árboles de Junglas Bolivianas y se quiere determinar cuál es el número
promedio de frutos producidos por árbol. Para emplear este tipo de muestreo de los 500
árboles, se debe elegir al azar un determinado número de árboles (p.e. 20 ó 40 árboles) en
los que se medirá la producción de frutos. El número de árboles se determina dependiendo
de la variación en la producción de frutos que tuviera la especie en estudio.
28 Muestreo Aleatorio Simple

De una población de N unidades, se selecciona una muestra de tal manera que todas las
unidades de la población tienen igual probabilidad de ser seleccionadas.

Se mide la unidad seleccionada y se regresa a la población. Si se hace esta operación n


veces, se obtiene una muestra aleatoria simple seleccionada con reemplazo.

Se mide la unidad seleccionada y ya no se regresa a la población. Se seleccionan las


siguientes unidades con igual probabilidad de las unidades que quedan en la población.
Si se hace esta operación n veces, se obtiene una muestra aleatoria simple seleccionada
sin reemplazo. Este es el procedimiento que vamos a estudiar.

Población={U1 , U2 , . . . , UN }

Muestra={u1 , u2 , . . . , un }

Muestra ⊆ Población

Caracterı́sticas de interés:

{X1 , X2 , . . . , XN }

{Y1 , Y2 , . . . , YN }

{Z1 , Z2 , . . . , ZN }
4.1 Motivación 29

A cada Ui se le asocia una o varias caracterı́sticas de interés Xi , Yi , Zi .

Una muestra aleatoria simple se define de dos maneras equivalentes:

1. Una muestra aleatoria donde cualquier elemento Uj , j = 1, . . . , N tiene una probabili-


dad 1/N de ser seleccionado en cualquiera de las n extracciones.
Como consecuencia, la probabilidad de que un elemento Uj , j = 1, . . . , N esté incluido
en la muestra es n/N .

πj = n/N es la probabilidad de inclusión de primer orden


1/πj = N/n es el factor de expansión o peso muestral.

Explicación.
La primera extracción puede producir cualquier Ui con probabilidad 1/N.

P (Ui en 1ra. extracción) = 1/N


N
P (Ui en 2da. extracción) = P (Ui en 2da. | Uj en 1ra.)P (Uj en 1ra.)
X

j6=i
1 1 1
= (N − 1) = , etc.
N −1N N

Por lo tanto,

P(Ui en muestra ) = P(Ui en 1a. ó Ui en 2a. ó · · · ó Ui en n-ésima)


1 1 1 n
= + + ··· + = .
N N N N
 
2. Cualquiera de las N
n
muestras posibles tiene la misma probabilidad de ser seleccionada.

1
P (cualquier muestra) = N  .
n

Mediante el proceso de muestreo lo que se desea es hacer inferencia a una población, especı́fi-
camente se desea calcular una estimación de un parámetro de la población.

Media
1 XN
Ȳ = Yi
N i=1
30 Muestreo Aleatorio Simple

Total
N
Y =
X
Yi
i=1

Proporción
1 XN
P = Yi
N i=1
donde
1 Ui tiene la caracterı́stica
(
Yi =
0 Ui no tiene la caracterı́stica

Razón
Y
R=
X
para ciertas variables X y Y .

Varianza
N
(Yi − Ȳ )2
σ 2 = E(Y ) =
X

i=1 N
N −1XN
(Yi − Ȳ )2
=
N i=1 N − 1
N −1 2
= S ,
N

N
(Yi − Ȳ )2
con S = .
X
2

i=1 N −1

Se usa S 2 en lugar de σ 2 por facilidad ya que tenemos un estimador insesgado de la varianza.

4.2. Estimador para la Media

Un estimador insesgado de Ȳ es:


n
Ȳˆ =
X yi
= ȳ
i=1 n

con varianza
n S2
 
V (ȳ) = E(ȳ − Ȳ )2 = 1 − .
N n
4.2 Estimador para la Media 31

Demostración: Sean
1 Ui está en la muestra
(
Zi = (4.1)
0 Ui no está en la muestra i = 1, . . . , N

{Z1 , Z2 , . . . , ZN } son variables aleatorias Bernoulli ( Nn )

{ Bernoulli f (x | π) = π x (1 − π)1−x , 0 ≤ π ≤ 1, x ∈ {0, 1}}


n
E(Zi ) = 0(1 − π) + 1(π) = π =
N
n
E(Zi2 ) = 02 (1 − π) + 12 (π) = π =
N
n n
 
V(Zi ) = E(Zi2 ) − [E(Zi )]2 = π − π 2 = π(1 − π) = 1− .
N N

Para i 6= j,

E[Zi Zj ] = P [Zi = 1 y Zj = 1]
= P [Zj = 1 | Zi = 1]P [Zi = 1]
n−1 n
  
= .
N −1 N

Para i 6= j,

Cov[Zi , Zj ] = E[Zi Zj ] − E[Zi ]E[Zj ]


n−1 n
   2
n
= −
N −1 N N
2 2
n −n n
= − 2
N −N
2 N
n n−1 n
 
= −
N "N − 1 N
n N (n − 1) − n(N − 1)
#
=
N N (N − 1)
n N n − N − nN + n
" #
=
N N (N − 1)
" #
n n−N
=
N N (N − 1)
1 n n
 
= − 1− .
N −1 N N
No son independientes.
32 Muestreo Aleatorio Simple

Entonces,

"N #
yi
E(ȳ) = E
X
Zi
i=1 n
N
yi
= E(Zi )
X

i=1 n
N
n yi
= = Ȳ .
X

i=1 N n

Por lo tanto, ȳ es un estimador insesgado de Ȳ .

1X N
!
V(ȳ) = V Zi yi
n i=1
1 N
!
=
X
V Zi yi
n2 i=1
 
1 XN N X N
= y V(Zi ) +
2
yi yj Cov(Zi , Zj )
X
n2 i=1 i i=1 j6=i
 
1 n n N
1 n n N X
N
 X   X
= 1− yi2 − 1− yi yj 
2
n N N i=1 N −1 N N i=1 j6=i
 
1 n n N
1 N
N X
  X
= 1− y2
X
− yi yj  .
N − 1 i=1 j6=i

2 i
n N N i=1

Sabemos que:
N
!2 N N X
N
= yi2 +
X X X
yi yi yj .
i=1 i=1 i=1 j6=i

Luego
 !2 
1 n 1 N N N
 
V(ȳ) = 1− (N − 1) yi2 − + yi2  .
X X X
yi
n N N (N − 1) i=1 i=1 i=1

Y además,
1 X N
1 N
" #
S =
2
(yi − Ȳ ) =
2
yi2 − N Ȳ 2 .
X
N − 1 i=1 N − 1 i=1
4.2 Estimador para la Media 33

Entonces,
 !2 
1 n 1 N N
 
V(ȳ) = 1− yi2 −
X X
N yi
N (N − 1)

n N i=1 i=1

1 1 N
!
n
 
= 1− yi2 − N Ȳ 2
X
N
n N N (N − 1) i=1
n S2
 
= 1− .
N n
V(ȳ) se estima insesgadamente con:

n Ŝ 2
 
V̂ (ȳ) = 1 − .
N n

   
Ŝ 2 S2
Para mostrar que V̂ (ȳ) = 1 − n
N n
es un estimador insesgado de V (ȳ) = 1 − n
N n
basta
demostrar que E(Sˆ2 ) = S 2 .

1 X n
1 X N
Ŝ 2 = (yi − ȳ)2 ; S2 = (Yi − Ȳ )2
n − 1 i=1 N − 1 i=1

n
" #
2
=
X
1
E n−1
yi − ȳ
i=1

" n #
= {(yi − Ȳ ) − (ȳ − Ȳ )} 2
X
1
n−1
E
i=1

" n n n
#
= (yi − Ȳ ) − 2 2
(yi − Ȳ )(ȳ − Ȳ ) + (ȳ − Ȳ ) 2
X X X
1
n−1
E
i=1 i=1 i=1

"N n
#
= Zi (yi − Ȳ ) − 2(ȳ − Ȳ )
2
(yi − Ȳ ) + n(ȳ − Ȳ ) 2
X X
1
n−1
E
i=1 i=1

"N #
= Zi (yi − Ȳ ) − 2n(ȳ − Ȳ ) + n(ȳ − Ȳ )
2 2 2
X
1
n−1
E
i=1

"N #
n
= (yi − Ȳ )2 − nV(ȳ)
X
1
n−1
i=1 N
34 Muestreo Aleatorio Simple

N
" #
n
 
= (yi − Ȳ ) − 1 −
2
S2
X
1 n
n−1 N
i=1 N
h   i
n(N −1) 2
= 1
n−1 N
S − 1− n
N
S2

 
n(N −1)
= 1
n−1
S2 N
− N −n
N

= 1
n−1
S2 n(N −1)−N
N
+n

= 1
n−1
S2 N (n−1)
N
= S2

 
donde Nn es la fracción de muestreo o porcentaje de la población que se muestrea. 1 − Nn es
el factor de correción por finitud, que ajusta por muestrear de una población finita. Toma en
cuenta el hecho de que un estimador basado en una muestra con n = 10 de una población de
N = 20 contiene más información acerca de la población que una muestra de tamaño n = 10
de una población de N = 20000.

 
1− 10
20
= 1
2
mitad de la varianza.

 
1− 10
20000
= 0.9995 misma varianza que poblaciones infinitas.

Si n = N entonces V(ȳ) = 0 se está haciendo un censo por lo que el estimador del parámetro
tiene varianza cero.

4.2.1. Intervalo de confianza

Por el Teorema Central del Lı́mite podemos suponer que, con n suficientemente grande:

ȳ ∼ N (Ȳ , V(ȳ))

ȳ−Ȳ
√ ∼ N(0, 1)
V (ȳ
4.2 Estimador para la Media 35

 
P | ȳ − Ȳ |< δ = 1 − α

1 − α confianza y δ precisión.

 
P −δ < ȳ − Ȳ < δ = 1 − α
 
P √−δ < √ȳ−Ȳ < √δ = 1 − α.
V(ȳ) V(ȳ) V(ȳ)

Por el Teorema del lı́mite central


 
ȳ − Ȳ
P z− α2 < q < z α2  = 1 − α
V(ȳ)
 q q 
P z −α
2
V(ȳ) < ȳ − Ȳ < z α
2
V(ȳ) = 1 − α
 q q 
P −ȳ + z −α
2
V(ȳ) < −Ȳ < −ȳ + z α
2
V(ȳ) = 1 − α
 q q 
P ȳ − z −α
2
V(ȳ) > Ȳ > ȳ − z α
2
V(ȳ) = 1 − α
 q q 
P ȳ − z α
2
V(ȳ) < Ȳ < ȳ − z −α
2
V(ȳ) = 1 − α

como z−α/2 = −zα/2 , se tiene que


 q q 
P ȳ − z α2 V(ȳ) < Ȳ < ȳ + z α2 V(ȳ) = 1 − α.
36 Muestreo Aleatorio Simple

El intervalo del (1 − α) × 100 % de confianza para Ȳ es:


 q q 
ȳ − z α
2
V(ȳ, ȳ + z α
2
V(ȳ .

De tablas de la N (0, 1)

99 % de confianza =⇒ 1 − α = 0.99 α = 0.01 α/2 = 0.005 z.005 = 2.57


95 % de confianza =⇒ 1 − α = 0.95 α = 0.05 α/2 = 0.025 z.025 = 1.96
90 % de confianza =⇒ 1 − α = 0.90 α = 0.1 α/2 = 0.05 z.05 = 1.64.

Estimador de la varianza del estimador

V(ȳ) se tiene que estimar ya que, en general, no conocemos S2

n Ŝ 2
 
V̂ (ȳ) = 1 −
N n
donde n
(yi − ȳ)2
X

Ŝ 2 = i=1
n−1
V̂ (ȳ) es un estimador insesgado de V (ȳ).

Intervalo de confianza:

Cuando no se conoce V (ȳ) y se estima con V̂ (ȳ) entonces,

ȳ − Ȳ
q ∼ tn−1
V (ȳ)

y el intervalo aproximado del (1 − α) × 100 % de confianza para Ȳ es:


1− α
q
ȳ ± tn−12 V̂ (ȳ).

En general, como n es grande, el valor de la t se aproxima a la normal y se usa como intervalo


de confianza: q
ȳ ± z1− α2 V̂ (ȳ).
4.3 Estimador del Total 37

4.3. Estimador del Total

N
Y = Yi = N Ȳ
X

i=1
n
1
( )
= N Ȳˆ = N ȳ =
XN N
Ŷ yi Note que: = n
i=1 n n N

E(Ŷ ) = Y
n S2
 
V(Ŷ ) = V (N ȳ) = N V (ȳ) = N 2 2
1−
N n
n Sˆ2
 
V̂ (Ŷ ) = N 2
1− es insesgado para V (Ŷ ).
N n

Intervalo del 100(1 − α) % de confianza para Y es:


q
Ŷ ± z1− α2 V̂ (Ŷ ).

Otra forma de ver el estimador:


N n N
Y= Yi = Yi +
X X X
Yi
i=1 i=1 i=n+1

n N
= yi +
X X
Ŷ Ŷi
i=1 i=n+1
n N
= yi +
X X

i=1 i=n+1
= nȳ + (N − n)ȳ
= N ȳ.

4.4. Estimador de una Proporción

Sea:
1 Ui tiene la caracterı́stica A
(
Yi = (4.2)
0 Ui no tiene la caracterı́stica A
38 Muestreo Aleatorio Simple

N
X
Yi
no. de elementos que tienen la caracteristica A
P = = i=1
.
total de elementos N
Un estimador insesgado de P es:
n
X
yi
P̂ = i=1
= ȳ.
n
Con varianza:
n
 
V (P̂ ) = 1 − S 2.
N
Observe que, con la definición de Yi :

N N
Yi = Yi2 = N P.
X X

i=1 i=1

Luego,

N N
(Yi − Ȳ ) 2
Yi2 − N Y¯2
X X

S2 = i=1
= i=1
N −1 N −1
N N
!2
Yi2 −
X X
Yi /N
NP − NP 2
= i=1 i=1
=
N −1 N −1
N P (1 − P )
= .
N −1

Luego
n 1 N
 
V (P̂ ) = 1 − P (1 − P ),
N nN −1
y su estimador es:
n P̂ (1 − P̂ )
 
V̂ (P̂ ) = 1 − .
N n−1
Suponiendo normalidad, el intervalo del 100(1 − α) % de confianza es:
v
P̂ (1 − P̂ ) 1
u
n
u 
P̂ ± z1− 2 1− +
α
t
N n−1 2n
|{z}
factor de corrección
4.5 Determinación del tamaño de muestra 39

4.4.1. Estimador del total de elementos con cierta caracterı́stica

El estimador de N0 = N P , el total de unidades que tienen la caracterı́stica A es:

N̂0 = N P̂

Es un estimador insesgado, con varianza:

V(N̂0 ) = N 2 V (P̂ )

4.5. Determinación del tamaño de muestra

n =?

n pequeña:

inferencias inútiles

intervalos de confianza muy grandes

poca precisión.

n grande:

costos elevados

se puede descuidar la calidad de la información.

Suponiendo normalidad en el estimador:


40 Muestreo Aleatorio Simple

4.5.1. n para estimar una Media

Se fija una precisión δ y una confianza 1 − α. De la gráfica anterior,

P(| ȳ − Ȳ |< δ) = 1 − α
P(ȳ − δ < Ȳ < ȳ + δ) = 1 − α.

Por otro lado, sabemos que:


 
ȳ − Ȳ
P −z1− α2 < q < z1− α2  = 1 − α
V (ȳ)
 q q 
P ȳ − z 1− α
2
V (ȳ) < Ȳ < ȳ + z 1− α
2
V (ȳ) = 1 − α.

Por lo tanto,
q
δ = z1− α2 V (ȳ)
s
1 1
s
n S2
 
δ = z 1− α 1− = z1− α2 − S2
2
N n n N
1 1
 
δ 2 = z1−
2
α − S 2.
2 n N

Despejando n
1
n= δ2
2
S 2 z1− α
+ 1
N
2
4.5 Determinación del tamaño de muestra 41

Si N es grande
S 2 z1−
2
α
n0 = 2

δ2
δ es el error absoluto.

Si N no es grande
1 n0
n= =
1
n0
+ 1
N
1 + nN0

4.5.2. Tamaño de muestra m.a.s

Necesitamos conocer S 2 para calcular el tamaño de muestra.

Opciones:

1. Usar estimadores de S 2 de encuestas similares anteriores o de censos.

2. Estimar S 2 usando una encuesta piloto.

4.5.3. n para un Total

Suponiendo normalidad en el estimador:


2 2 2
z1− αN S
n0 = 2

δ2

si N es grande
(
n0
n= n0
n si N no es grande
1+ N0

4.5.4. n para estimar una Proporción

Recordemos que con la definición de la variable a medir Yi como 0 ó 1, tenemos que P = Ȳ ,


entonces, suponiendo normalidad en el estimador P

α P (1 − P )
2
z1−
n0 = 2

δ2
42 Muestreo Aleatorio Simple

si N es grande
(
n0
n= n0
n si N no es grande
1+ N0

En la práctica, se utiliza el siguiente procedimiento para calcular el tamaño de muestra para


estimar una proporción. Si graficamos los valores de la proporción vs. su varianza, tenemos:

La varianza es máxima cuando P = 0.5.

Por ejemplo, si fijamos una confianza del 95 %, entonces z1− α2 = 1.96, y si consideramos que
N es muy grande, entonces,

(1.96)2 P (1 − P ) 22 (0.25) 1
n= 2
≈ 2
= 2,
δ δ δ

y se calcula n con una precisión fijada de antemano.

Es importante mencionar que esta forma de cálculo del tamaño de muestra supone que el
valor de P está entre 0.2 y 0.8, es decir, estamos estudiando una caracterı́stica que no es muy
rara en la población.

Si la caracterı́stica es muy rara, habrı́a que utilizar otra forma de diseño de muestra (muestreo
inverso, por ejemplo).
4.6 Ejemplo MAS 43

Cuadro 4.1: Tamaños de muestra para diferentes precisiones

δ δ en porcentaje n
0.2 20 % 25
0.1 10 % 100
0.09 9% 124
0.08 8% 156
0.07 7% 205
0.06 6% 278
0.05 5% 400
0.04 4% 625
0.03 3% 1112
0.02 2% 2500
0.01 1% 10000

4.6. Ejemplo MAS

Se obtuvo una muestra aleatoria simple de 30 familias de un área de la ciudad que contiene
14,848 familias. Se midió el número de personas por familia con los siguientes resultados:
5;6;3;3;2;3;3;3;4;4;3;2;7;4;3;5;4;4;3;3;4;3;3;1;2;4;3;4;2;4

a) Estime el número promedio de personas por familia y calcule su intervalo del 90 % de


confianza.

b) Estime el número total de personas en el área y calcule su intervalo del 90 % de confianza.

c) Suponga que esta es una prueba piloto y se desea calcular el tamaño de muestra necesario
para estimar el promedio de personas por familia con una precisión de 0.05 y una
confianza del 95 %.

Programa en R.

## este programa hace los cálculos


## correspondientes a los ejemplo
## de m.a.s.

## ejemplo 1
## y es el número de personas por familia
44 Muestreo Aleatorio Simple

## de una m.a.s. de 30 familias


N <- 14848
n <- 30
y <- c(5,6,3,3,2,3,3,3,4,4,3,2,7,4,3,5,4,4,3,3,4,3,3,1,2,4,3,4,2,4)

# Estime el n?mero promedio de personas por familia


ybarra <- mean(y)
s2 <- var(y)
# intervalo del 90% de confianza
eeybarra <- sqrt((1-n/N)*s2/n)
prec <- qnorm(0.95)*eeybarra
li <- ybarra - prec
ls <- ybarra + prec

# Estime el número total de personas en el área y calcule


# un intervalo del 90% de confianza
Yest <- N*ybarra
eeYest <- sqrt(Nˆ2*(1-n/N)*s2/n)
precYest <- qnorm(0.95)*eeYest
liY <- Yest - precYest
lsY <- Yest + precYest

## ejercicio 2
# con una confianza del 95%
z95 <- qnorm(0.975)
delta <-seq(0.10,0.01,-0.01)
n <- z95ˆ2*s2/(deltaˆ2)
resultado <- cbind(delta,n)
resultado

# con una precisión de 0.05


delta1 <- 0.05
confianza <- c(80,90,95,98,99)
z <- c(qnorm(0.90),qnorm(0.95),qnorm(0.975),qnorm(0.99),qnorm(0.995))
n1 <- zˆ2*s2/delta1
resultado1 <- cbind(z,confianza,n1)
resultado1
Capı́tulo 5

Estimadores de Razón (bajo m.a.s)

Se hace uso de información auxiliar.

Suponga que para cada unidad muestral, además de obtener información acerca de una varia-
ble Y , se obtiene información de una variable X, y se sabe que Y y X están correlacionadas.

El estimador de razón dará una estimación de Y con más precisión que el estimador usual
Ŷm.a.s .

Caso 1. Se quiere estimar Y ó Ȳ bajo el supuesto que Yi ∝ Xi y se conoce X ó X̄.


46 Estimadores de Razón (bajo m.a.s)

N
X
Yi
Y Ȳ
R= i=1
N
= =
X X X̄
Xi
i=1
entonces,
Y = RX ó Ȳ = RX̄.

Un estimador basado en una m.a.s de n elementos es:

Ŷ = R̂X

Ȳˆ = R̂X̄
donde,
n
X
yi

R̂ = = X
i=1
n .

xi
i=1

Yi ∝ Xi
Yi ∼
= RXi
Yi = RXi + εi
εi = Yi − RXi .
47

Como conocemos X̄, conocemos la tasa de error X̄



, entonces
!
Ȳˆ = R̂X̄ = X̄ = ȳ
ȳ X̄
x̄ x̄
| {z }
ajuste

Si, por ejemplo, X̄



= 1.2 ⇒ X̄ = 1.2x̄ estamos subestimando, i.e. x̄ < X̄.

Ejemplo 5.0.1

Suponga que se tiene una m.a.s de 49 ciudades de un total de 196 de cierta región del paı́s,
de las que se conoce el número de habitantes en el año 2010 y se quiere estimar el total de
habitantes en la región en 2014.

Se conoce el total de habitantes en 2010, X = 22919. Y además se conoce lo siguiente:


49 49
xi = 5054; yi = 6262
X X

i=1 i=1
49
X
yi
6262
ŶR = R̂X = X= (22919) = 28397.
49
X 5054
xi

Si consideramos el estimador usual del total bajo m.a.s.:


6262
 
Ŷm.a.s = N ȳ = 196 = 25048.
49
El total real en el año 2014 es 29351.

Caso 2. Se quiere estimar R (estimador de la razón)


X
yi

R̂ = = X .
x̄ xi

Por ejemplo, en una encuesta de familias, se mide el ingreso total familiar (yi ) y el número
de miembros de la familia (xi ), entonces, se podrı́a obtener el ingreso per cápita:
X
yi
R̂ = X .
xi
48 Estimadores de Razón (bajo m.a.s)

Ejemplos de este tipo surgen cuando la unidad de muestreo (en el ejemplo, la familia),
comprende un conjunto de elementos (miembros de la familia) y nuestro interés es estimar
la Media por elemento.

También cuando se quiere estimar la Proporción de cierta caracterı́stica en relación al total


de todas las caracterı́sticas.

Por ejemplo:
total de votos al partido q
% votos al partido q =
total de votos
donde
total de votos = votos al partido 1 + votos al partido 2 + . . .

R̂ es consistente para R en el sentido de que R̂ = R cuando el tamaño de muestra es N.

R̂ es un estimador sesgado, i.e. E(R̂) 6= R.

Sabemos que el Error Cuadrático Medio está dado por

ECM (θ̂) = E(θ̂ − θ)2


= V ar(θ̂) + Sesgo(θ̂, θ)2

donde Sesgo(θ̂, θ) = |E(θ̂) − θ|. Denotemos al sesgo como B(R̂) = E(R̂ − R), luego

ECM(R̂) = V(R̂) + [B(R̂)]2 .

Se puede demostrar que


q
| B(R̂) |=| E(R̂) − R |≤ CV (x̄) V(R̂)

donde el CV es el coeficiente de variación, ası́


q
| E(R̂) − R | V(x̄
q ≤ CV (x̄) =
V(R̂) x̄

En estudios de simulación se ha visto que:


49

|B(R̂)|
√ %[R ∈ I95 % ]
V(R̂)
0 0.95
0.01 0.95
0.10 0.9481
0.30 0.9396
0.50 0.9210
1 0.83

Si n es grande y/o el CV (x̄) ≤ 0.1 el sesgo es despreciable y se toma V (R̂) en lugar de


ECM (R̂).

Además, la distribución muestral de R̂ se aproxima a la normal.

Tenemos que R = Ȳ

, luego V ar(R) = 1
X̄ 2
V (Ȳ ),

1 n (SY − RSX )2
 
V (R) = 1 −
X̄ 2  N  n
1 1 1
= − [SY2 − 2RSXY + R2 SX
2
]
X̄ 2 n N

donde
i=1 (Xi
PN
− X̄)2
2
SX =
N −1
N
(Yi − Ȳ )2
X

SY2 = i=1
N −1
N
(Xi − X̄)(Yi − Ȳ )
X

SXY = i=1
,
N −1
y su estimador es:
1 1 1 h 2
  i
V̂ (R̂) = 2 − ŜY − 2R̂ŜXY + R̂2 ŜX
2
.
x̄ n N

Sin embargo, tiene una expresión más operativa:


n 1 1 X N
(Yi − RXi )2
 
V (R̂) = 1−
N n X̄ 2 i=1 N −1
n 1 1
 
= 1− V (i ) con i = Yi − RXi .
N n X̄ 2
50 Estimadores de Razón (bajo m.a.s)

La varianza depende la varianza de los errores. Si hay buena proporcionalidad entre X y Y ,


es decir, si Yi ∼
= RXi , la varianza del estimador de R es pequeña.

Se estima con:
n 1 1 X n
(yi − R̂xi )2
 
V̂ (R̂) = 1 − .
N n x̄2 i=1 n−1

5.1. Resumen Estimador de razón

Para estimar la razón poblacional:


X
yi

R̂ = =X
x̄ xi

n 1 1 X N
(Yi − R̂Xi )2
 
V (R̂) = 1−
N n X̄ 2 i=1 N −1
n 1 1 X n
(yi − R̂xi )2
 
V̂ (R̂) = 1− .
N n x̄2 i=1 n−1

Si n es suficientemente grande para que aplique la aproximación Normal, el intervalo aproxi-


mado de (1 − α) × 100 % de confianza para R̂ es:
q
R̂ ± z 1− α
2
V̂ (R̂).

5.1.1. Total

Para estimar el total poblacional (con X fijo y conocido):

Ŷ = R̂X
V (Ŷ ) = X 2 V (R̂)
1 1 X N
(Yi − R̂Xi )2
" #
n

= X 2
1−
N n X̄ 2 i=1 N −1
5.1 Resumen Estimador de razón 51

como X̄ = X
N
, luego

N
(Yi − R̂Xi )2
X
n 1 i=1
 
V (Ŷ ) = N 2 1− .
N n N −1

Luego

n
(yi − R̂xi )2
X
n 1 i=1
 
V̂ (Ŷ ) = N 2 1− .
N n n−1

Si n es suficientemente grande para que aplique la aproximación Normal, el intervalo aproxi-


mado de (1 − α) × 100 % de confianza para Ŷ es:
q
Ŷ ± z1− α2 V̂ (Ŷ ).

5.1.2. Media

Para estimar la media poblacional (con X̄ fijo y conocido):

Ȳˆ = R̂X̄
N
(Yi − R̂Xi )2
X
1 i=1
V (Ȳˆ ) = X̄ 2 V (R̂) = 1 −
n
 

N n N −1
n
(yi − R̂xi )2
X
1 i=1
V̂ (Ȳˆ ) =
n
 
1− .
N n n−1

Si n es suficientemente grande para que aplique la aproximación Normal, el intervalo aproxi-


mado de (1 − α) × 100 % de confianza para Ȳˆ es:
r
Ȳˆ ± z1− α2 V̂ (Ȳˆ ).
52 Estimadores de Razón (bajo m.a.s)

5.2. Comparación estimador de razón con el usual de


m.a.s

Total m.a.s Ŷm.a.s = N ȳ


Total razón ŶR = R̂X
n SY2
 
Varianza del Total m.a.s V (Ŷm.a.s ) = N 2
1−
N n
N2 n
 
Varianza del Total razón V (ŶR ) = 1− (SY2 − 2RSXY + R2 SX
2
)
n N
N2 n
 
= 1− (SY2 − 2RρSX SY + R2 SX2
)
n N
donde,
SXY
ρ= .
SX SY

El estimador de razón es más preciso que el estimador usual de MAS si


V (ŶR ) ≤ V (Ŷm.a.s ).
Si
SY2 + R2 SX
2
− 2RρSX SY ≤ SY2 ⇒
R2 SX
2
− 2RρSX SY ≤ 0 ⇒
R2 SX
2
ρ> ⇒
2RSX SY
RSX CV (X)
ρ> = .
2SY 2CV (Y )

5.3. Tamaño de muestra

Si se especifica una δ para el error de estimación en (Ȳ ), esto es,


ˆ
 
< δ = 1 − α.

P ȲR
− Ȳ

Se obtendrá que el tamaño de muestra adecuado, si N es grande, es:


z1− α 2 Sε2
n= 2

δ2
5.4 Ejemplo de Razón MAS 53

donde
1 X N
Sε2 = (Yi − RXi )2 .
N − 1 i=1

Recordemos que en el caso del estimador usual del m.a.s.:


2 2
z1− αS
Y
n= 2
.
δ2

5.4. Ejemplo de Razón MAS

Una corporación está interesada en estimar el total de ganancias por las ventas de televisiones
de color al final de un periodo de tres meses.

Se tienen las cifras del total de ganancias de todas las sucursales de la corporación para el
periodo de tres meses correspondiente al año anterior.

Se selecciona una muestra aleatoria simple de 13 sucursales del total de 123 sucursales de la
corporación. Los datos son:

Sucursal trimestre anterior trimestre actual


1 550 610
2 720 780
3 1500 1600
4 1020 1030
5 620 600
6 980 1050
7 928 977
8 1200 1440
9 1350 1570
10 1750 2210
11 670 980
12 729 865
13 1530 1710

Cuadro 5.1: Ganancias

Correlación entre X y Y : 0.973.


54 Estimadores de Razón (bajo m.a.s)

a) Utilice un estimador de razón para estimar el total de ganancias por las ventas de televi-
siones. Calcule un intervalo del 95 % de confianza. Tome en cuenta que el total de ganancias
por las ventas de todas las sucursales para el trimestre del año anterior es de 128,200.

Sean:
xi = ganancias de la sucursal i en el trimestre del año anterior.
yi = ganancias de la sucursal i en el trimestre de este año.
N = 123; n = 13; X = 128200

15422
Pn
yi
R̂ = Pni=1 = = 1.138407
i=1 xi 13547

Ŷ = R̂X = 1.138407(128200) = 145943.780911

es decir, el total de ganancias por las ventas de televisiones en el trimestre de este año es de
145,943.78.

Para calcular el intervalo del 95 % de confianza, tenemos que:


5.4 Ejemplo de Razón MAS 55

Sucursal xi yi R̂xi yi − R̂xi (yi − R̂xi )2


1 550 610 626.12 -16.12 259.98
2 720 780 819.65 -39.65 1572.37
3 1500 1600 1707.61 -107.61 11580.03
4 1020 1030 1161.18 -131.18 17206.93
5 620 600 705.81 -105.81 11196.26
6 980 1050 1115.64 -65.64 4308.46
7 928 977 1056.44 -79.44 6310.99
8 1200 1440 1366.09 73.91 5462.92
9 1350 1570 1536.85 33.15 1098.96
10 1750 2210 1992.21 217.79 47431.48
11 670 980 762.73 217.27 47205.08
12 729 865 829.90 35.10 1232.10
13 1530 1710 1741.76 -31.76 1008.87

El estimador de la varianza del estimador del total es:


n 1X n
(yi − R̂xi )2
 
V̂ (Ŷ ) = N 2
1− .
N n i=1 n−1
Sustituyendo valores
V̂ (Ŷ ) = 13519107.52.
Precisión observada δ, con 95 % de confianza:
q
z0.975 V̂ (Ŷ ) = 1.96(3676.83) = 7206.45

El intervalo de confianza tiene la forma: (Ŷ − δ; Ŷ + δ). El intervalo del 95 % de confianza


para Y , el total de ganancias por la venta de televisiones en el trimestre de este año es:
(138, 737.33; 153, 150.23).

b) Utilice el estimador usual del total del muestreo aleatorio simple para estimar el total de
ganancias por las ventas de televisiones. Calcule un intervalo del 95 % de confianza.
NX n
123
Ŷ = N ȳ = yi = (15422) = 145915.8.
n 13
Por lo tanto, el total de ganancias por las ventas de televisiones es de 145,915.85.
n Ŝ 2
 
V̂ (Ŷ ) = N 2
1−
N n
231543.06
= (123)2 (1 − 13/123) = 2409828996.72
13
56 Estimadores de Razón (bajo m.a.s)

La precisión observada, δ: q
z0.975 V̂ (Ŷ ) = 30425.69
entonces el intervalo del 95 % de confianza para el total de ganancias es:

(115, 490.15; 176, 341.55).

c) ¿Cuál de los dos estimadores fue más preciso para estimar el total de ganancias por las
ventas de televisiones?

Estimador Precisión observada


Estimador de Razón: 7206.45
Estimador usual m.a.s: 30425.70

# Ejemplo de Razon: muestreo

n=13
N=123
X= 128200

#ganancias
datos<-matrix(c(550, 610,720, 780,1500, 1600,1020, 1030,620,
600,980, 1050,928, 977,1200, 1440,1350, 1570,
1750, 2210,670, 980,729, 865,1530, 1710),
nrow=n,byrow=T)

# Trimestre anterior
x<-datos[,1]
# Trimestre actual
y<-datos[,2]
# Correlación
cor(x,y)
# Gráfica
plot(x,y)

# Razón
# utilizando medias
xbarra=mean(x)
ybarra=mean(y)
Rest=ybarra/xbarra
5.4 Ejemplo de Razón MAS 57

# utilizando totales
xtot=sum(x)
ytot=sum(y)
Rest=ytot/xtot

# Estimación del total de ganancias


Ygorro=Rest*X

# Varianza del estimador del total


VYgorro=Nˆ2*(1-n/N)*(1/n)*(1/(n-1))*sum((y-Rest*x)ˆ2)

# Precisión
delta=qnorm(0.975)*sqrt(VYgorro)

# Intervalo de confianza del 95%


li=Ygorro-delta
ls=Ygorro+delta

# Comparación con el m.a.s


YgorroMAS=N*ybarra
VYgorroMAS=(Nˆ2)*(1-n/N)*var(y)/n
deltaMAS=qnorm(0.975)*sqrt(VYgorroMAS)
liMAS=YgorroMAS-deltaMAS
lsMAS=YgorroMAS+deltaMAS
58 Estimadores de Razón (bajo m.a.s)
Capı́tulo 6

Estimadores de Regresión (bajo m.a.s)


60 Estimadores de Regresión (bajo m.a.s)

6.1. Estimador de regresión

Variable de interés Yi . Variable auxiliar Xi .

cateto opuesto
b = tan θ =
cateto adyacente
ȳ − Ȳ
b =
x̄ − X̄
b(x̄ − X̄) = ȳ − Ȳ .

El estimador de regresión de la media poblacional es:

Ȳˆreg = ȳ − b̂(x̄ − X̄) = ȳ + b̂(X̄ − x̄) = Ȳˆm.a.s + b̂(X̄ − X̄


ˆ
m.a.s ).

El estimador de regresión del total poblacional es:

N Ȳˆ = N ȳ + N b̂(X̄ − x̄)


Ŷreg = Ŷm.a.s + b̂(X − X̂m.a.s. ).

Donde b̂ es la pendiente
n
(yi − ȳ)(xi − x̄)
X
ŜXY
b̂ = i=1
n = 2
.
ŜX
(xi − x̄)2
X

i=1

Además, el estimador de mı́nimos cuadrado minimiza la V (Ȳˆreg ). Es difı́cil encontrar expre-


siones exactas para la varianza o los ECM de estos estimadores (son sesgados). Sin embargo
si n es grande:
ˆ SY2 n
 
V (Ȳ ) = (1 − ρ ) 1 −
2
,
n N
donde ρ es el coeficiente de correlación entre X y Y .

N
(Xi − X̄)(Yi − Ȳ )
X
SXY
ρ= =" i=1
# 21 .
SX SY N N
(Xi − X̄)2 (Yi − Ȳ )2
X X

i=1 i=1

Ası́ pues, b̂ = ρ̂ ŜŜY .


X
6.2 Resumen Estimador de regresión 61

6.2. Resumen Estimador de regresión

Para estimar la media poblacional, con X̄ conocido:

Ȳˆreg = ȳ + b̂(X̄ − x̄)


ˆ SY2 n
 
V (Ȳreg ) = (1 − ρ ) 1 −
2
n N
ˆ ŜY2 n
 
V̂ (Ȳreg ) = (1 − ρ̂ ) 1 −
2
.
n N
Si n es suficientemente grande para que aplique la aproximación Normal, el intervalo aproxi-
mado de (1 − α) × 100 % de confianza para Ȳ es:
r
Ȳˆreg ± z1− α2 V̂ (Ȳˆreg ).

Para estimar el total poblacional, con X conocido:


Ŷreg = N ȳ + b̂(X − N x̄)
S2 n
 
V (Ŷreg ) = N 2 Y (1 − ρ2 ) 1 −
n N
Ŝ 2 n
 
V̂ (Ŷreg ) = N 2 Y (1 − ρ̂2 ) 1 − .
n N

Si n es suficientemente grande para que aplique la aproximación Normal, el intervalo aproxi-


mado de (1 − α) × 100 % de confianza para Y es:
q
Ŷreg ± z1− α2 V̂ (Ŷreg ).
Ejemplo 6.2.1 Ejemplo estimador de regresión

Se examinó a 486 candidatos a ingresar a una escuela. De éstos se tomó una m.a.s de 10
estudiantes a los que se les midió su calificación en Cálculo al final del primer semestre.

Se sabe que X̄ = 52 para las 486 estudiantes.

Se desea estimar Ȳ , el promedio de calificación en Cálculo de todos los estudiantes al final


del primer semestre.
62 Estimadores de Regresión (bajo m.a.s)

Estudiante Calificación admisión (X) Calificación Cálculo (Y)


1 39 65
2 43 78
3 21 52
4 64 82
5 57 92
6 47 89
7 28 73
8 75 98
9 34 56
10 52 75

Datos:

N = 486 X̄ = 52 x̄ = 46

n = 10 ȳ = 76 ŜY2 = 228.444

b̂ = 0.766 ρ̂ = 0.84

Ȳˆreg = ȳ + b̂(X̄ − x̄)


= 76 + (0.766)(52 − 46)
= 80.596.
6.2 Resumen Estimador de regresión 63

n ŜY2
V̂ (Ȳˆreg ) =
 
1− (1 − ρ̂2 )
N n
10 228.444
 
= 1− (1 − 0.842 )
486 10
= (0.9794)(22.844)(0.2944)
= 6.586.

Si hacemos la aproximación a normalidad, el intervalo del 95 % de confianza para Ȳ es:



Ȳˆreg ± 1.96 6.586
80.596 ± 1.96(2.566)
80.596 ± 5.029
(75.567 , 85.625).

# Ejemplo de Regresión: muestreo


n=10
N=486
Xbarra= 52

datos<-matrix(c( 39 , 65,
43,78,
21,52,
64,82,
57,92,
47,89,
28,73,
75,98,
34,56,
52,75),ncol=2,byrow=T)
datos
# calificación de admisión
x<-datos[,1]
# calificación de cálculo
y<-datos[,2]

# medias muestrales
xbarra=mean(x)
ybarra=mean(y)

# varianzas muestrales
64 Estimadores de Regresión (bajo m.a.s)

s2x=var(x)
s2y=var(y)
rho=cor(x,y)
bgorro=rho*sqrt(s2y/s2x)

# Estimación de la media bajo Regresión


YgorrobarraREG=ybarra+bgorro*(Xbarra-xbarra)

# con varianza
VgorroYgorrobarraREG=(1-n/N)*(s2y/n)*(1-rhoˆ2)

# precision
delta=qnorm(0.975)*sqrt(VgorroYgorrobarraREG)

# Intervalo de confianza
li=YgorrobarraREG-delta
ls=YgorrobarraREG+delta

6.3. Tamaño de muestra

Si se especifica una δ para el error de estimación en Ȳ , esto es,

P | Ȳˆreg − Ȳ |< δ = 1 − α.
 

Se obtendrá que el tamaño de muestra adecuado, si N es grande, es:

α S (1 − ρ )
2 2 2
z1− Y
n= 2
.
δ2

Si ρ es grande, n es pequeña.

Recordemos que en el caso del estimador usual del m.a.s.


2 2
z1− αS
Y
n= 2
.
δ2
Capı́tulo 7

Muestreo estratificado

7.1. Motivación

En este tipo de muestreo, la población en estudio se separa en subgrupos o estratos que


tienen cierta homogeneidad. Después de la separación, dentro de cada subgrupo se hace un
m.a.s. El requisito principal para aplicar este método de muestreo es el conocimiento previo
de la información que permite subdividir a la población.

Continuando con los ejemplos del m.a.s. en el primer caso, el Jardı́n Botánico de Santa Cruz
puede llegar a tener hasta 3 tipos de bosque: bosque semideciduo pluviestacional, bosque
chaqueño, y zona de transición entre estos tipos de bosque. Eso quiere decir que no todo
el jardı́n es homogéneo. Puede ser que en alguno de los tipos de bosque la abundancia de
A. Macrocarpa sea mayor, o viceversa. Si se conoce los tipos de bosque, se podrı́a aplicar
el muestreo aleatorio estratificado, donde los estratos serı́an los tipos de bosque y en los
cuales se debe muestrear aleatoriamente. En el caso de producción de frutos de J. Boliviana,
la estratificación puede ser de acuerdo a los pisos altitudinales. Aunque la senda, donde se
encuentran los 500 árboles de J. Boliviana sea una lı́nea recta, por ser una zona montañosa,
la producción de frutos podrı́a ser afectada por la pendiente o la altitud. Considerando que
en zonas con mayor pendiente los suelos son más pobres en nutrientes en comparación a
zonas planas, puede ser interesante ver estas diferencias que conocer sólamente la producción
total. Si esto fuera cierto, la pendiente podrı́a determinar el número de estratos (en este caso
pueden ser dos: zonas planas, zonas con más de 20 % de pendiente). Dentro de cada estrato,
se debe calcular el número de árboles a muestrear aleatoriamente.
66 Muestreo estratificado

Estrato: es un subconjunto de unidades muestrales de la población.

Los estratos son subconjuntos de la población que agrupan unidades. Cada estrato se mues-
trea por separado y se obtienen los estimadores de parámetros (media, total, proporción)
para cada estrato, luego se combinan para tener los estimadores de toda la población.

Los estratos forman una partición de la población y se selecciona muestra en cada estrato en
forma independiente.

Razones para utilizar este tipo de diseño de muestra:

1. Estadı́stica. Para reducir la varianza de los estimadores, es decir, tener más precisión.
Cuando la población está constituı́da por unidades heterogéneas y tenemos una idea
previa de los grupos de unidades más homogéneas entre sı́, entonces es conveniente
formar estratos.

Ejemplo 7.1.1 Ejemplo de un caso ideal

Considere una población finita de 20 unidades en las cuales Y toma los valores:

{6, 3, 4, 4, 5, 3, 6, 2, 3, 2, 2, 6, 5, 3, 5, 2, 4, 6, 4, 5.}
20
(Yi − Ȳ )2
X
40
Ȳ = 4, S2 = i=1
= = 2.11.
19 19
Si tomamos una muestra aleatoria simple de tamaño 5 y usamos ȳ como estimador de
Ȳ , tenemos:
n S2 5 2.11
   
V (ȳ) = 1 − = 1− = 0.316.
N n 20 5
Dada la estructura de la población, se puede ordernar como:

2, 2, 2, 2 3, 3, 3, 3 4, 4, 4, 4 5, 5, 5, 5 6, 6, 6, 6
| {z }| {z }| {z }| {z }| {z }

Suponga que tenemos un mecanismo por el cual podemos seleccionar un elemento al


azar de cada grupo para formar nuestra muestra de tamaño 5.
Obtenemos, en cada una de las posibles muestras, los valores:
7.1 Motivación 67

{2, 3, 4, 5, 6} cuya ȳ = 4 = Ȳ

Este estimador tendrı́a varianza cero ya que la varianza dentro de cada estrato es
cero y no hay fluctuaciones muestrales y, además, el estimador siempre serı́a igual al
parámetro.

Ejemplo 7.1.2 Ejemplo uso muestreo estratificado

Suponga un estudio donde interesa conocer alguna caracterı́stica de los hogares en el


Ciudad de México.
Se sabe que esa caracterı́stica depende fuertemente del nivel socioeconómico de las
familias.
Se construyen estratos considerando áreas de la ciudad con niveles socioeconómicos
semejantes. Ası́ las colonias se pueden clasificar en relación al nivel socioeconómico
como: muy alto, alto, medio, medio-bajo y bajo, formando ası́ 5 estratos.
La encuesta se planea para cada estrato por separado.

2. Disponibilidad de marcos. Si la población está identificada a través de dos o más


marcos, cada marco define un estrato.
Si para una parte de la población se tiene un buen marco, éste se usa para el muestreo
de ese estrato; y las otras partes de la población se muestrean usando otros marcos, tal
vez más imprecisos, y posiblemente con otros diseños de muestra.
Por ejemplo, en una encuesta de hogares se cuenta con un buen marco para la zona
urbana de construcción antigua, pero las zonas rurales y las urbanas nuevas no tienen
un marco adecuado.
Entonces, se podrı́an usar los planos catastrales para las zonas urbanas antiguas (un
estrato), fotografı́as aéreas para zonas rurales (otro estrato) y en las zonas urbanas
nuevas se podrı́a construir un marco de manzanas, seleccionar manzanas y construir el
marco de viviendas en las manzanas en muestra (muestreo en dos etapas).

3. Costo. Cuando hay diferentes costos de localizar y levantar la información de las uni-
dades muestrales.
Por ejemplo, en una encuesta en predios agrı́colas hay una región cuyo acceso es difı́cil
(sólo por avioneta ó a caballo).
Esta región puede constituir un estrato, que será muestreado con un tamaño de muestra
más pequeño.

El efecto de la formación de estratos es reducir la variabilidad de los estimadores.


68 Muestreo estratificado

Ésta se puede reducir mucho si las unidades dentro de cada estrato son muy homogéneas
y heterogéneas entre estratos.

Se pueden usar diferentes diseños de muestra en cada estrato.

No interesa tener estimaciones por estrato.

7.2. Notación

A nivel poblacional:

L es el número de estratos.

Nh es el número de unidades en el estrato h, h = 1, . . . , L.


L
N= Nh número de unidades en la población.
X

h=1

Yhi es el valor de la medición en Uhi , h = 1, . . . , L y i = 1, . . . , Nh .


Nh
X
Yhi
Ȳh = i=1
Nh
es la media poblacional del estrato h.

Nh
Yh = Yhi = Nh Ȳh total poblacional estrato h.
X

i=1

L Nh
L X
Y = Yh = Yhi total poblacional.
X X

h=1 h=1 i=1

Nh
L X
X
Yhi
Ȳ = Y
N
= h=1 i=1
L
media poblacional.
X
Nh
h=1

Nh
(Yhi − Ȳh )2
X

Sh2 = i=1
Nh −1
es la varianza poblacional en el estrato h.

Wh = Nh
N
es el peso del estrato.
7.3 Estimador del Total 69

L
Wh = 1.
X

h=1

Consideremos que tenemos una m.a.s en cada estrato.

A nivel muestral:

nh es el tamaño de muestra en el estrato h.

L
n= nh es el tamaño de la muestra.
X

h=1

nh
Ȳˆh = ȳh = yhi estimador media estrato h.
X
1
nh
i=1

nh
Ŷh = Nh ȳh = Nh
yhi estimador total estrato h.
X
nh
i=1

7.3. Estimador del Total

El estimador del total poblacional es:

L L
Ŷ = Ŷh =
X X
Nh ȳh
h=1 h=1
L nh
yhi
=
X X
Nh
h=1 i=1 nh
L n h
Nh
= yhi .
XX

h=1 i=1 nh

Donde Nh
nh
es el factor de expansión.
70 Muestreo estratificado

La varianza del estimador del total es:


L
V (Ŷ ) = V (Ŷh ) muestras en cada estrato
X

h=1
L
= V (Nh ȳh )
X

h=1
L
= Nh2 V (ȳh ).
X

h=1

Como tenemos una m.a.s. en cada estrato,


L
nh Sh2
 
V (Ŷ ) = Nh2 1−
X
.
h=1 Nh nh

El estimador de la varianza del estimador del total es:


L
nh Ŝh2
 
V̂ (Ŷ ) = Nh2 1−
X
,
h=1 Nh nh

donde,
nh
(yhi − ȳh )2
X

Ŝh2 = i=1
.
nh − 1
Si el tamaño de muestra en cada estrato es grande y podemos hacer la aproximación a la
normal del estimador del total, el intervalo aproximado del (1 − α) × 100 % de confianza para
el total poblacional es: q
Ŷ ± z1− α2 V̂ (Ŷ ).

7.4. Estimador de la Media

El estimador de la media poblacional es:


L
X
Nh ȳh
ˆ
Ȳ =

= h=1
N N
L L
Nh
= ȳh =
X X
Wh ȳh .
h=1 N h=1
7.5 Estimador de una Proporción 71

Ȳˆ es una suma ponderada de los promedios muestrales en cada estrato.

La varianza del estimador de la media es:


L
!
V (Ȳˆ ) = V
X
Wh ȳh
h=1
L
nh Sh2
 
= Wh2 1 −
X
.
h=1 Nh nh

El estimador de la varianza del estimador de la media es:


L
ˆ nh Ŝh2
 
V̂ (Ȳ ) = Wh 1 −
2
X
.
h=1 Nh nh

Si el tamaño de muestra en cada estrato es grande y podemos hacer la aproximación a la


normal del estimador de la media, el intervalo aproximado del (1 − α) × 100 % de confianza
para la media poblacional es: r
Ȳ ± z α V̂ (Ȳˆ )
ˆ
1− 2

7.5. Estimador de una Proporción

Sea
1 Uhi tiene la caracterı́stica
(
Yhi = (7.1)
0 Uhi no tiene la caracterı́stica
El estimador de la proporción P de unidades que tienen cierta caracterı́stica es:
L nh
yhi
P̂ = Wh p̂h con p̂h =
X X
.
h=1 i=1 nh

La varianza de este estimador:


L
nh Ph (1 − Ph ) Nh
 
V (P̂ ) = Wh2 1 −
X
,
h=1 Nh nh Nh − 1

con estimador:
L
nh p̂h (1 − p̂h )
 
V̂ (P̂ ) = Wh2 1 −
X
.
h=1 Nh nh − 1
72 Muestreo estratificado

Si el tamaño de muestra en cada estrato es grande y podemos hacer la aproximación a la


normal del estimador de la media, el intervalo aproximado del (1 − α) × 100 % de confianza
para la proporción poblacional es:
q
P̂ ± z
1− α
2
V̂ (P̂ ).

7.6. Distribución de la muestra a los estratos

Suponga que se tiene un tamaño de muestra n determinado. ¿Cómo se reparte n entre los L
estratos?

1. Distribución óptima.
Sea Ch el costo de obtener información de una unidad en el estrato h. Se tiene una
función de costo de la forma:

Costo C = C0 + C h nh .
X

La varianza del estimador Ȳˆ se minimiza cuando:


L
" #−1
Nh Sh X Nh Sh
nh = n √ √ .
Ch h=1 Ch

Observe que,
Nh Sh
nh ∝ √ .
Ch
Esto quiere decir que en un estrato dado, se toma más muestra si:
El estrato es más grande.
El estrato es más variable.
El costo es menor.
2. Distribución de Neyman.
Si se considera que los costos Ch son constantes en todos los estratos:
Nh Sh
nh = n L
.
X
Nh Sh
h=1
7.7 Tamaño de muestra 73

3. Distribución proporcional
Si se considera que tanto los costos como las varianzas Sh son constantes en todos los
estratos, entonces:
Nh
nh = n = nWh .
N
Esta distribución produce muestras autoponderadas:
nh n Nh N
= ⇒ = ,
Nh N nh n
factor de expansión.

7.7. Tamaño de muestra


1. Consideremos la distribución óptima:
L
" #−1
Nh Sh X Ni Si
nh = n √ √ .
Ch i=1 Ci

Valor de n que produce varianza mı́nima para un costo total fijo.


L
C = C0 +
X
nh C h
h=1

sustituyendo la expresión para nh y despejando n:


L
C − C0 =
X
Ch nh
h=1
L

L
!−1 
Nh Sh X Ni Si
=
X
C − C0 Ch n √ √ 
h=1 Ch i=1 Ci
L L
!−1
Ch Nh Sh X Ni Si
= n
X
√ √
h=1 Ch i=1 Ci
L
Nh Sh
(C − C0 )
X

Ch
n = L
h=1
q
.
X
Nh Sh Ch
h=1

Valor de n que produce costo mı́nimo paraq una varianza fija, o equivalentemente
para un error de estimación fijo δ = z α V (Ȳˆ ).
1− 2
74 Muestreo estratificado

a) Para estimar la media


L
ˆ nh Sh2
 
V (Ȳ ) = Wh 1 −
2
X

h=1 Nh nh
L
Nh2 1 1
 
= Sh2 . (7.2)
X
2

h=1 N nh Nh

La asignación óptima es:


L
" #−1
Nh Sh X Ni Si
nh = n√ √ (7.3)
Ch i=1 Ci
r
δ2
δ = z1− α2 V (Ȳˆ ) ⇒ V (Ȳˆ ) = 2 . (7.4)
z1− α
2

Sustituyendo (7.3) y (7.4) en (7.2) y despejando n:


L q L q
Nh Sh Ch [ Ni Si / Ci ]
X X

n= h=1 i=1
L
+
2
Nh Sh2
X
N 2 z2δ
1− α
2 h=1

b) Para estimar el total:


L
nh Sh2
 
V (Ŷ ) = Nh2 1− (7.5)
X

h=1 Nh nh
r
δ2
δ = z1− α2 V (Ȳˆ ) ⇒ V (Ȳˆ ) = 2 (7.6)
z1− α
2
" L #−1
Nh Sh X Ni Si
nh = n √ √ . (7.7)
Ch i=1 Ci
Sustituyendo (7.6) y (7.7) en (7.5) y despejando n:
L q " L q #
X X
Nh Sh Ch Ni Si / Ci
n= h=1 i=1
L
δ2
+ Nh Sh2
X
2
z1− α
2 h=1

2. Considerando la asignación de Neyman (costos Ch constantes):


Nh Sh
nh = n L
X
Ni Si
i=1
7.7 Tamaño de muestra 75

Para estimar la media: " L #2


X
Nh Sh
n= h=1
L
δ2
+ Nh Sh2
X
N2 2
z1− α
2 h=1

Para estimar el total: " L #2


X
Nh Sh
n= h=1
L
δ2
+ Nh Sh2
X
2
z1− α
2 h=1

3. Si consideramos la distribución proporcional:


Nh
nh = n
N
Para estimar la media:

ˆ
L
Nh2 1 1
 
V (Ȳ ) = Sh2
X
2

h=1 N nh Nh

r
δ2
δ = z1− α2 V (Ȳˆ ) ⇒ V (Ȳˆ ) = 2
z1− α
2

L
Nh Sh2
X
N
n= h=1
L
+
2
Nh Sh2
X
N 2 z2δ
1− α
2 h=1

Para estimar el total:


L
Nh Sh2
X
N
n= h=1
L
δ2
+ Nh Sh2
X
2
z1− α
2 h=1

Nota. Para estimar proporciones utilicé las expresiones de tamaño de muestra para
estimar la media con Sh2 = Ph (1 − Ph ).

Se puede demostrar que:

Vopt (Ȳˆ ) ≤ Vprop (Ȳˆ ) ≤ Vm.a.s (Ȳˆ ).


76 Muestreo estratificado
Capı́tulo 8
Estimadores de Razón en Muestreo
Estratificado (bajo m.a.s)

Hay dos tipos: el separado y el combinado.

8.1. Estimador de razón separado RS

Estima la razón en cada estrato y luego los suma, ponderando con los pesos de los estratos.
L
Nh
R̂S =
X
R̂h
h=1 N
L
Nh Ŷh
=
X
.
h=1 N X̂h

En el caso de m.a.s en cada estrato:


L
Nh ȳh
R̂S =
X
.
h=1 N x̄h

Con varianza y estimador de la varianza:


L
Nh2
V (R̂S ) = V (R̂h ),
X
2
h=1 N
78 Estimadores de Razón en Muestreo Estratificado (bajo m.a.s)

L
Nh2
V̂ (R̂S ) = V̂ (R̂h ).
X
2
h=1 N

Si tenemos una m.a.s. en cada uno de los estratos:


L
Nh2 nh 1 1 X Nh
(Yhi − Rh Xhi )2
 
V (R̂S ) = 1−
X
,
h=1 N
2 Nh nh X̄h2 i=1 Nh − 1

L
Nh2 nh 1 1 X nh
(yhi − R̂h xhi )2
 
V̂ (R̂S ) = 1−
X
.
h=1 N
2 Nh nh x̄2h i=1 nh − 1

Estimador de la Media poblacional con razón separado


L
ȲˆS =
Nh
{X̄h conocida en cada estrato}
X
R̂h X̄h
h=1 N

Con varianza y estimador de varianza:


L
Nh2 2
V (ȲˆS ) = X̄ V (R̂h ),
X
2 h
h=1 N

L
Nh2 2
V̂ (ȲˆS ) = X̄ V̂ (R̂h ).
X
2 h
h=1 N

Estimador del Total poblacional con razón separado


L
ŶS = {Xh conocida en cada estrato }
X
R̂h Xh
h=1

Con varianza y estimador de varianza:


L
V (ŶS ) = Xh2 V (R̂h ),
X

h=1

L
V̂ (ŶS ) = Xh2 V̂ (R̂h ).
X

h=1

El estimador de razón separado se usa cuando se tienen pocos estratos y/o los tamaños de
muestra en cada estrato son grandes. Supone que las razones en cada estrato no son similares.

Los sesgos de los estimadores de la razón en cada estrato se suman, por lo que este estimador
puede tener un sesgo muy grande. Por esto es conveniente usarlo cuando los tamaños de
muestra en cada estrato sean grandes.
8.2 Estimador de razón combinado Rc 79

8.2. Estimador de razón combinado Rc

Combina la información de los estratos y después hace el cociente.


L
X
Ŷh

R̂c = = h=1
L
.
X̂ X
X̂h
h=1

En caso de tener un m.a.s. en cada estrato


L
X
Nh ȳh
R̂c = h=1
L
.
X
Nh x̄h
h=1

La varianza, y su estimador, en caso de tener una m.a.s. en cada estrato:

1 X L
1 1 1 X Nh
 
V (R̂c ) = N 2
− × [(Yhi − Ȳh ) − Rc (Xhi − X̄h )]2
X 2 h=1 h nh Nh Nh − 1 i=1

 nh 2
(yhj − R̂c xhj ) 
X

1 XL
1 1 1 X nh 
  
j=1

V̂ (R̂c ) = 2
Nh − × yhi − R̂c xhi −
 
nh − 1 i=1 

2
X̂ h=1 nh Nh  nh 

Estimador de la Media poblacional con razón combinado

Ȳˆc = R̂c X̄ {X̄ conocida}

Con varianza y estimador de varianza:

V (Ȳˆc ) = X̄ 2 V (R̂c )

V̂ (Ȳˆc ) = X̄ 2 V̂ (R̂c )

Estimador del Total poblacional con razón combinado


Ŷc = R̂c X {X conocido}
80 Estimadores de Razón en Muestreo Estratificado (bajo m.a.s)

Con varianza y estimador de varianza:

V (Ŷc ) = X 2 V (R̂c )

V̂ (Ŷc ) = X 2 V̂ (R̂c )

El estimador de razón combinado se usa cuando se tienen muchos estratos y/o los tamaños de
muestra en cada estrato son pequeños. Supone que las razones en cada estrato son similares.

8.3. EJEMPLOS ESTRATIFICADO

La información que aparece a continuación representa la estratificación de todas las propie-


dades agrı́colas en un estado, clasificadas por tamaño.

Para una muestra de 100 ranchos, calcule los tamaños de muestra en cada estrato bajo

a) distribución proporcional

b) distribución óptima y

c) compare las precisiones de estos métodos con la del m.a.s.

Tamaño de la Número de Promedio de Desviación


propiedad propiedades has. de maı́z estándar
(has.) Nh Ȳh Sh
0-40 394 5.4 8.3
41-80 461 16.3 13.3
81-120 391 24.3 15.1
121-160 334 34.5 19.8
161-200 169 42.1 24.5
201-240 113 50.1 26.0
241 - 148 63.8 35.2

a) Distribución proporcional
Nh
nh = n
N
n1 = 20, n2 = 23, n3 = 19, n4 = 17, n5 = 8, n6 = 6, n7 = 7.
8.3 EJEMPLOS ESTRATIFICADO 81

b) Distribución óptima
Nh Sh
nh = n PL
h=1 Nh Sh
n1 = 10, n2 = 18, n3 = 17, n4 = 19, n5 = 12, n6 = 9, n7 = 15.

c) Comparación de las precisiones de estos dos métodos con la del m.a.s. Primero, se de-
mostrará que la varianza total se puede escribir como la varianza dentro de estratos más la
varianza entre estratos.
N Nn
L X
(N − 1)S 2 = (Yi − Ȳ )2 = (Yhi − Ȳ )2
X X

i=1 h=1 i=1


L XNn
= (Yhi − Ȳh + Ȳh − Ȳ )2
X

h=1 i=1
L XNn Nn
L X
= (Yhi − Ȳh )2 + (Ȳh − Ȳ )2
X X

h=1 i=1 h=1 i=1


L X Nn
+ 2 (Yhi − Ȳh )(Ȳh − Ȳ )
X

h=1 i=1

Pero
Nn
L X Nn
L X
(Yhi − Ȳh )(Ȳh − Ȳ ) = (Yhi Ȳh − Yhi Ȳ − Ȳh2 + Ȳh Ȳ )
X X

h=1 i=1 h=1 i=1

= Nh Ȳh2 + Ȳ
X X XX X X
Ȳh Yhi − Ȳ Yhi − Nh Ȳh
h i h i h h

= Nh Ȳh2 − N Ȳ 2 − Nh Ȳh2 + N Ȳ 2
X X

h h
= 0.

Por lo tanto
" #
(N − 1)S 2 = (Yhi − Ȳh )2 + Nh (Ȳh − Ȳ )2
X X X

h i h
= (Nh − 1)Sh2 + Nh (Ȳh − Ȳ )2
X X

h h
(Nh − 1)Sh2 X Nh
S2 = + (Ȳh − Ȳ )2 .
X

h N −1 h N −1

Si Nh , y por lo tanto N son grande, entonces Nh − 1 ≈ Nh y N − 1 ≈ N , entonces

S2 = Wh Sh2 + Wh (Ȳh − Ȳ )2 .
X X

h h
| {z } | {z }
82 Estimadores de Razón en Muestreo Estratificado (bajo m.a.s)

Regresando al ejercicio
S 2 = 343.28 + 332.76 = 676.04.
La varianza del estimador del promedio con m.a.s. es:

S2 100 676.04
Vmas (Ȳˆ ) = 1 −
n
   
= 1− = 6.424.
N n 2010 100
La varianza del estimador del promedio en muestreo estratificado y m.a.s. en cada estrato es:
L
nh Sh2
Vest (Ȳˆ ) =
 
Wh2 1 −
X
.
h=1 Nh nh

Si la distribución de la muestra a los estratos es la óptima, es decir,


Nh Sh
nh = n P
h Nh Sh

y sustituimos nh , entonces

( Wh Sh )2 Wh Sh2
Vopt (Ȳˆ ) =
P P
h h

n N
sustituyendo valores
289.625 343.279
Vopt (Ȳˆ ) = − = 2.725.
100 2010
Luego
Vopt (Ȳˆ ) 2.725
= = 0.4241.
Vmas (Ȳˆ ) 6.424
1 − 0.4241 = 0.576; es decir, 57.6 % de reducción de varianza.

Si la distribución de la muestra a los estratos es proporcional, es decir,


Nh
nh = n
N
entonces
Wh Sh2
Vprop (Ȳˆ ) = 1 −
P
n

h
= 3.262.
N n

Luego
Vprop (Ȳˆ ) 3.262
= = 0.5077.
ˆ
Vmas (Ȳ ) 6.424
1 − 0.5077 = 0.492; es decir, 49.2 % de reducción de varianza.
Capı́tulo 9

Muestreo sistemático

9.1. Motivación

El muestreo sistemático consiste en ubicar muestras o unidades muestrales en un patrón regu-


lar en toda la zona de estudio. Este tipo de muestreo permite detectar variaciones espaciales
en la comunidad. Sin embargo, no se puede tener una estimación exacta de la precisión de la
media de la variable considerada.

El muestreo sistemático puede realizarse a partir de un punto determinado al azar, del cual
se establece una cierta medida para medir los subsiguientes puntos. Este tipo de muestreo a
diferencia del m.a.s. se puede planificar en el mismo lugar donde se realizará el estudio y la
aplicación del diseño es más rápida.

9.2. Muestreo sistemático (con arranque aleatorio)

Es la forma de seleccionar la muestra en la cual solamente la primera unidad de la muestra


es tomada al azar y el resto se selecciona sistemáticamente.

Población={U1 , U2 , . . . , UN }

Muestra={u1 , u2 , . . . , un }
84 Muestreo sistemático

Sea k = N
n
el intervalo de muestreo (suponga que k es entero).

Método: Se selecciona un número aleatorio (arranque aleatorio), i tal que i ≤ i ≤ k. La


muestra consiste de las unidades:

Ui , Ui+k , Ui+2k , . . . , Ui+(n−1)k .

Se dice que se selecciona una unidad de cada k unidades, “1 en k” ó “1 de cada k”.

Lo que se hace, en realidad, es dividir la población de N elementos en k muestras (conglo-


merados) de tamaño n.

1 2 ... i ... k
1+k 2+k ... i+k ... 2k
1+2k 2+2k ... i+2k ... 3k
: : ... : ... :
1+(j-1)k 2+(j-1)k ... i+(j-1)k ... jk
: : ... : ... :
1+(n-1)k 2+(n-1)k ... i+(n-1)k ... nk=N

¿Cuántas muestras posibles hay?


N
. k=
n
Cada una de estas muestras tiene la misma probabilidad de ser seleccionada:
1 n
P (cualquier muestra) = =
k N
Además,
1 n
πi = P (Ui en muestra) = = , i = 1, . . . , N.
k N
, Ui , Uj ∈ mismo conglomerado
(
n
πij = P (Ui , Uj en muestra) = N (9.1)
0 , Ui , Uj ∈
/ mismo conglomerado.

Ventajas del muestreo sistemático:

1. Es más fácil seleccionar la muestra que en m.a.s, especialmente en diseños de muestra


polietápicos, donde el encuestador tiene que hacer la selección de unidades de última
etapa in situ.
9.2 Muestreo sistemático (con arranque aleatorio) 85

2. Una muestra sistemática se dispersa más uniformemente entre toda la población, por
lo que es más factible producir una muestra “representativa” que en m.a.s.

Desventajas del muestreo sistemático:

1. Un mal arreglo de las unidades en el marco puede producir muestras ineficientes.

2. No se pueden calcular estimadores de la varianza con una sola muestra sistemática.

Orden de las unidades en el marco:

Cuando las unidades de la población están en un orden aleatorio en el marco, con


respecto a los valores de Yi , el muestreo sistemático es equivalente al m.a.s.

Cuando las unidades de la población están ordenadas en el marco en relación a los


valores de Yi , el muestreo sistemático produce varianzas de los estimadores menores
que los correspondientes en el m.a.s. Esto se debe a que la muestra queda más dispersa
sobre la población.
86 Muestreo sistemático

Si las unidades de la población tienen un orden que se refleja en cambios periódicos de


los valores de yi y el periodo coincide con el valor de k, el muestreo sistemático puede
producir varianzas mayores de los estimadores que el m.a.s.
En este caso el problema es que la muestra puede coincidir con todos los valores bajos
(o altos) de Yi , siendo de esta manera poco representativa y con fuertes fluctuaciones
de muestra a muestra.

9.3. Estimador de la Media poblacional

Ȳˆsis = ȳ
9.3 Estimador de la Media poblacional 87

Con varianza:
k k
(Ȳi − Ȳ )2 (Ȳi − Ȳ )2
X X
k − 1 i=1 k−1 2
V (Ȳˆsis ) = i=1
= = Sb
k k k−1 k
donde Sb2 es la varianza entre conglomerados (between).

No hay forma de estimar V (Ȳˆsis ), usualmente se utilizan las expresiones del m.a.s.

9.3.1. Comparación con m.a.s.

Se puede demostrar que:


N − 1 2 k(n − 1) 2
V (Ȳˆsis ) = S − Sw
N N
donde,
1 k X n
Sw2 = (Yij − Ȳi )2
X
k(n − 1) i=1 j=1
es la varianza dentro de conglomerados.

El estimador de la media de una muestra sistemática es más preciso que el estimador de la


media de una m.a.s. si y sólo si:
Sw2 > S 2 .
Demostración:
N − n S2
V (Ȳˆmas ) =
N n
entonces
V (Ȳˆsis ) < V (Ȳˆmas )
si y sólo si
N − 1 2 k(n − 1) 2 N − n S2
S − Sw <
N N N n
N −n
 
k(n − 1)Sw > N − 1 −
2
S2 =
n
Nn − n − N + n N
 
S 2 = (n − 1)S 2 =
n n
k(n − 1)S ⇒2
88 Muestreo sistemático

Sw2 > S 2 .

Entonces, el muestreo sistemático es más preciso que el m.a.s. cuando la varianza dentro de
las muestras sistemáticas (conglomerados) es mayor que la varianza de la población entera.
Es decir, se requieren unidades heterogéneas dentro de la muestra.

Otra forma de la varianza:

S2 N −1
V (Ȳˆsis ) =
 
[1 + (n − 1)ρ]
n N

con ρ el coeficiente de correlación intraclase:

k n
(Yrj − Ȳ )(Yrj 0 − Ȳ )
X X

r=1 j 0 6=j=1
ρ= .
(n − 1)(N − 1)S 2

Ya que V (Ȳˆsis ) ≥ 0 ⇒
−1
≤ ρ ≤ 1.
n−1

1. Si ρ está cercano a 1 ⇒ los elementos de la muestra son muy parecidos ⇒ V (Ȳˆsis ) ≥


V (Ȳˆmas ) :

2. Si ρ < 0 ⇒ los elementos son diferentes

⇒ V (Ȳˆsis ) ≤ V (Ȳˆmas ) :
9.4 EJEMPLOS SISTEMÁTICO 89

3. Si ρ = 0 ⇒ V (Ȳˆsis ) ≈ V (Ȳˆmas ) población con orden aleatorio, por lo tanto el muestreo


sistemático es equivalente al m.a.s.

Cuando N no es divisible entre n, es decir,

N = nk + r, r < k,

el tamaño de muestra será n ó n + 1 dependiendo de la semilla aleatoria seleccionada.

En este caso la media muestral es un estimador sesgado de la media poblacional, pero el


sesgo es negligible.

9.4. EJEMPLOS SISTEMÁTICO

Suponga una población de tamaño N = 100 en la cual el ı́ndice de la unidad muestral coincide
con el valor de la caracterı́stica de interés en esa unidad.

Veremos cómo se comporta la varianza del estimador del total de la caracterı́stica de interés
al modificar el orden de las unidades muestrales en el marco.

Considere una muestra de tamaño n = 10.

Orden creciente en los valores de Y .


90 Muestreo sistemático

Muestra
1 2 3 4 5 6 7 8 9 10
yk 1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
460 470 480 490 500 510 520 530 540 550
P
k yk

V (Ŷsis ) = 8.25 × 104


V (Ŷmas ) = 7.57 × 105

Orden óptimo en las unidades.

Muestra
1 2 3 4 5 6 7 8 9 10
yk 1 2 3 4 5 6 7 8 9 10
20 19 18 17 16 15 14 13 12 11
21 22 23 24 25 26 27 28 29 30
40 39 38 37 36 35 34 33 32 31
41 42 43 44 45 46 47 48 49 50
60 59 58 57 56 55 54 53 52 51
61 62 63 64 65 66 67 68 69 70
80 79 78 77 76 75 74 73 72 71
81 82 83 84 85 86 87 88 89 90
100 99 98 97 96 95 94 93 92 91
505 505 505 505 505 505 505 505 505 505
P
k yk

V (Ŷsis ) = 0
V (Ŷmas ) = 7.57 × 105

Otro orden en las unidades.


9.4 EJEMPLOS SISTEMÁTICO 91

Muestra
1 2 3 4 5 6 7 8 9 10
yk 1 11 21 31 41 51 61 71 81 91
2 12 22 32 42 52 62 72 82 92
3 13 23 33 43 53 63 73 83 93
4 14 24 34 44 54 64 74 84 94
5 15 25 35 45 55 65 75 85 95
6 16 26 36 46 56 66 76 86 96
7 17 27 37 47 57 67 77 87 97
8 18 28 38 48 58 68 78 88 98
9 19 29 39 49 59 69 79 89 99
10 20 30 40 50 60 70 80 90 100
55 155 255 355 455 555 655 755 855 955
P
k yk

V (Ŷsis ) = 8.25 × 106


V (Ŷmas ) = 7.57 × 105

Orden aleatorio de las unidades.

Muestra
1 2 3 4 5 6 7 8 9 10
yk 48 14 71 13 40 59 18 45 6 53
38 23 11 58 70 22 24 88 77 84
10 51 98 65 93 68 25 32 99 9
17 26 8 78 34 87 96 39 20 54
56 79 31 86 43 66 2 62 57 5
73 7 80 27 60 89 76 81 85 83
3 28 33 90 55 1 21 69 61 92
74 37 44 94 12 72 100 30 63 97
75 41 16 82 35 95 67 50 64 29
49 42 15 19 46 36 47 91 52 4
443 348 407 612 488 595 476 587 584 510
P
k yk

V (Ŷsis ) = 7.17 × 105


V (Ŷmas ) = 7.57 × 105

Orden óptimo de las unidades.


92 Muestreo sistemático

Muestra
1 2 3 4 5 6 7 8 9 10
yk 2 4 6 8 10 12 14 16 18 20
22 24 26 28 30 32 34 36 38 40
42 44 46 48 50 52 54 56 58 60
62 64 66 68 70 72 74 76 78 80
82 84 86 88 90 92 94 96 98 100
99 97 95 93 91 89 87 85 83 81
79 77 75 73 71 69 67 65 63 61
59 57 55 53 51 49 47 45 43 41
39 37 35 33 31 29 27 25 23 21
19 17 15 13 11 9 7 5 3 1
505 505 505 505 505 505 505 505 505 505
P
k yk

V (Ŷsis ) = 0
V (Ŷmas ) = 7.57 × 105

# EJEMPLOS MUESTREO SISTEMÁTICO


# Tamaño de la Población
N=100
# Tamaño de muestra
n=10

############ CASO NO.1. ######################


# Orden creciente de los valores de Y
ma<-seq(1,100,1)
mu<-matrix(ma,nrow=n,ncol=n,byrow=T)

# suma de los elementos de la muestra i, i=1... 10


sumYi<-apply(mu,2,sum)
barYi<-apply(mu,2,mean)
barY<-mean(barYi)

# o bien
k=10
barYi=sumYi/k

# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
9.4 EJEMPLOS SISTEMÁTICO 93

varTotalsis=(N*2)*varMediasis
varTotalsis

# varianza m.a.s.
s2<-var(mu[,10])
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas
varTotalmas

############ CASO NO.2. ######################


# Orden optimo de las unidades
mu<-matrix(0,nrow=n,ncol=n)
mu[1,]<-seq(1,10,1)
mu[2,]<-seq(20,11,-1)
mu[3,]<-seq(21,30,1)
mu[4,]<-seq(40,31,-1)
mu[5,]<-seq(41,50,1)
mu[6,]<-seq(60,51,-1)
mu[7,]<-seq(61,70,1)
mu[8,]<-seq(80,71,-1)
mu[9,]<-seq(81,90,1)
mu[10,]<-seq(100,91,-1)
mu

# suma de los elementos de la muestra i, i=1... 10


sumYi<-apply(mu,2,sum)
barYi<-apply(mu,2,mean)
barY<-mean(barYi)

# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
varTotalsis=(N*2)*varMediasis

# varianza m.a.s.
s2<-var(mu[,2])
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas

############ CASO NO.3. ######################


# Otro orden de las unidades
94 Muestreo sistemático

ma<-seq(1,100,1)
mu<-matrix(ma,nrow=n,ncol=n,byrow=F)

# suma de los elementos de la muestra i, i=1... 10


sumYi<-apply(mu,2,sum)
barYi<-apply(mu,2,mean)
barY<-mean(barYi)

# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
varTotalsis=(N*2)*varMediasis

# varianza m.a.s.
s2<-var(mu[,1])
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas

############ CASO NO.4. ######################


# orden aleatorio de las unidades
mu<-seq(1,100,1)
mu<-sample(mu,N,replace=F)
mu=matrix(mu,n,n,byrow=T)

# suma de los elementos de la muestra i, i=1... 10


sumYi<-apply(mu,2,sum)
barYi<-apply(mu,2,mean)
barY<-mean(barYi)

# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
varTotalsis=(N*2)*varMediasis

# varianza m.a.s.
s2<-var(mu[,1])
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas

############ CASO NO.5. ######################


# orden optimo de las unidades
p1<-seq(2,100,2)
p2=seq(99,1,-2)
9.4 EJEMPLOS SISTEMÁTICO 95

mu<-c(p1,p2)
mu=matrix(mu,n,n,byrow=T)

# suma de los elementos de la muestra i, i=1... 10


sumYi<-apply(mu,2,sum)
barYi<-apply(mu,2,mean)
barY<-mean(barYi)

# varianza sis
varMediasis=(1/k)*sum((barYi-barY)ˆ2)
varTotalsis=(N*2)*varMediasis

# varianza m.a.s.
mu<-seq(1,100,1)
muestra_aleatoria_simple=sample(mu,n)
s2<-var(muestra_aleatoria_simple)
varMediamas<-(1-n/N)*s2/n
varTotalmas<-(N*2)*varMediamas
96 Muestreo sistemático
Capı́tulo 10

Muestreo de conglomerados

Un conglomerado es un conjunto de elementos de la población a los que se les mide algo.

Una muestra de conglomerados es una muestra aleatoria en la cual cada unidad muestral
es una colección o conglomerado de elementos.

El uso de conglomerados se debe a dos razones principalmente:

1. No existen marcos de elementos, o son muy caros de construir, o es imposible cons-


truirlos.

2. Muestrear conglomerados es menos constoso que un m.a.s. de elementos, sobre todo


cuando el costo de obtener información se incrementa al aumentar la distancia entre
los elementos.

Por ejemplo, una m.a.s. de 600 casas cubre una ciudad más uniformemente que una m.a.s.
de 20 manzanas con un promedio de 30 casas en cada manzana.

Pero se incurre en mayores gastos al localizar 600 casas y viajar entre ellas, que en la locali-
zación de 20 manzanas y la visita a todas las casas en esas manzanas.

Además, el m.a.s. de las 600 casas supone que tenemos un marco de casas. En cambio, sı́
podemos tener un marco de manzanas.
98 Muestreo de conglomerados

10.1. Tamaño de los conglomerados

En algunas situaciones el tamaño de los conglomerados (número de elementos que lo compo-


nen) está dado. Por ejemplo, si los conglomerados son las casillas electorales y los elementos
de cada conglomerado son los votantes de la casilla, el tamaño está fijo.

En otros casos, nosotros definimos el tamaño de los conglomerados, por ejemplo, si queremos
estimar la proporción de árboles muertos en cierto bosque, debemos definir el área de bosque
de cada conglomerado.

Si existe variabilidad en la densidad de árboles muertos a lo largo del bosque, entonces, serı́a
deseable muestrear áreas pequeñas seleccionadas al azar o sistemáticamente.

Muchas áreas pequeñas ⇒ control variabilidad.


Pocas áreas grandes ⇒ economı́a.
Elementos dentro del conglomerado pueden estar correlacionados.
Balance entre tamaño y número de conglomerados.
Pruebas pilotos con varios tamaños de conglomerado.

En muestreo estratificado queremos que los estratos contengan unidades muy homogéneas
dentro y heterogéneas entre estratos.

En muestreo por conglomerados queremos que los conglomerados contengan unidades muy
heterogéneas dentro y homogéneas entre ellos.
10.2 Notación 99

10.2. Notación

A nivel poblacional:

N es el número de conglomerados en la población

n es el número de conglomerados en muestra

Mi número de elementos en el conglomerado i, i = 1, . . . , N

N
M= Mi es el total de elementos en la población
X

i=1

Yij es el valor de la medición del elemento j del conglomerado i (a veces no lo tenemos)

Mi
Yi = Yij total del conglomerado i (a veces es lo que tenemos)
X

j=1

Mi
Ȳi = Yij Promedio del conglomerado i
X
1
Mi
j=1

N Mi
N X
Y = Yi = Yij Total poblacional
X X

i=1 i=1 j=1

N
Ȳ = Yi Promedio de totales de conglomerados (generalmente no interesa)
X
1
N
i=1

N
X
Yi
Ȳe = Y
M
= i=1
N
es el promedio por elemento (es el que interesa)
X
Mi
i=1

N
= (Yi − Ȳ )2 Varianza entre totales de conglomerados.
X
1
Sb2 N −1
i=1
100 Muestreo de conglomerados

10.3. Estimador del Total poblacional

Suponga que tenemos una m.a.s. de n conglomerados.

El estimador del promedio por conglomerado es:


1X n
Ȳˆ = yi
n i=1
Mi
donde yi = yij es el total observado del conglomerado i.
X

j=1

El estimador del total poblacional Y es:


n XMi
Ŷ = N Ȳˆ =
NX
yij .
n i=1 j=1

Con varianza y estimador de varianza:


n Sb2
 
V (Ŷ ) = N 2 1 −
N n
n Ŝb2
 
V̂ (Ŷ ) = N 2
1−
N n
donde
1 X n
Ŝb2 = (yi − Ȳˆ )2 .
n − 1 i=1

10.4. Estimador de la Media poblacional (por elemen-


to)

Si se conoce M , el total de elementos en la población, entonces, el estimador de la Media


poblacional por elemento es:
n
Ȳˆe =
Ŷ N X
= yi .
M M n i=1
Con varianza y estimador de varianza:
1
V (Ȳˆe ) = 2 V (Ŷ )
M
10.5 Estimadores de Razón 101

1
V̂ (Ȳˆe ) = 2 V̂ (Ŷ ).
M

Caracterı́sticas de estos estimadores:

1. Estos dos estimadores, el del total poblacional y de la media poblacional por elemento,
son insesgados, pero frecuentemente tienen varianzas grandes, ya que si el número de
elementos en los conglomerados (Mi ) es muy diferente, genera variabilidad entre los
totales de los conglomerados.

2. Si el tamaño del conglomerado Mi está fuertemente relacionado con el total del con-
glomerado, lo que generalmente sucede, entonces se prefieren estimadores de razón.

10.5. Estimadores de Razón

10.5.1. Estimador de la Media poblacional por elemento. (Razón)

n
X n
X
N
n
yi yi
Ȳˆe =

= i=1
n = i=1
n
M̂ N
X X
n
Mi Mi
i=1 i=1

con varianza:
1 1 X N
(Yi − Ȳe Mi )2
V (Ȳˆe ) = 1 −
n
 

N n M̄ 2 i=1 N −1

donde, M̄ = M
N
es el tamaño promedio de los conglomerados.

Estimador de varianza:

1 1 X n
(yi − Ȳˆe Mi )2
V̂ (Ȳˆe ) = 1 −
n
 

N ˆ 2 i=1
n M̄ n−1

donde
n
X
N
n
Mi n
ˆ = M̂ =
M̄ i=1
=
X Mi
.
N N i=1 n
102 Muestreo de conglomerados

10.5.2. Estimador del Total poblacional. (Razón)

Ŷ = M Ȳˆe
con M conocida.

Con varianza y estimador de varianza:

V (Ŷ ) = M 2 V (Ȳˆe )

V̂ (Ŷ ) = M 2 V̂ (Ȳˆe ).

10.5.3. Estimador de una Proporción poblacional. (Razón)

Sea
1 Uij tiene la caracterı́stica
(
Yij =
0 Uij no tiene la caracterı́stica.

El estimador de la proporción de unidades con la caracterı́stica es:


n
X
yi
P̂ = i=1
Xn
Mi
i=1

con varianza estimada:


n 1 1 X n
(yi − P̂ Mi )2
 
V̂ (P̂ ) = 1 − .
N ˆ 2 i=1
n M̄ n−1

10.6. Tamaño de muestra

Se fijan la precisión δ y la confianza 1 − α,


r
δ = z1− α2 V (Ȳˆe )

1 1 1 2
 
δ 2 = z1−
2
α − Sb .
2 n N M̄ 2
10.7 EJEMPLOS CONGLOMERADOS 103

Despejando n:
2 2
N z1− αS
b N Sb2
n= 2
= .
N δ 2 M̄ 2 + z1−
2 2
α Sb
N δ 2 M̄ 2
z1− α
+ Sb2
2
2

10.7. EJEMPLOS CONGLOMERADOS

10.7.1. Ejemplo 1

El gerente de circulación de un periódico desea estimar el número promedio de periódicos


comprados por casa en cierta localidad. Los costos de traslado de casa a casa son grandes,
por lo tanto las 4000 casas en la localidad se agruparon en 400 conglomerados de 10 casas
cada uno y se seleccionó una MAS de 4 conglomerados. Se realizaron las entrevistas con los
siguientes resultados.

Conglomerado Total de periódicos Mi


1 19 10
2 20 10
3 16 10
4 20 10

Estime el promedio de periódicos por casa para la comunidad.

Conocemos M el total de casas en la comunidad, M = 4000. N = 400 conglomerados, n = 4


conglomerados en muestra. El promedio de periódicos por casa se estima con:
N Ȳˆ n
Ȳˆe =
Ŷ N X
= = yi ,
M M Mn i
sustituyendo valores
400
Ȳˆe = (19 + 20 + 16 + 20) = 1.875,
(4000)(4)
con varianza estimada
1 N2 n Ŝb2
V̂ (Ȳˆe ) = 2 V̂ (Ŷ ) = 2 1 −
 

M M N n
2
yi − Ȳˆ y Ȳˆ = n1 ni yi . Sustituyendo valores

con Ŝb2 = n−1
1 Pn P
i

4002 4 3.5833
V̂ (Ȳˆe ) =
 
1 − = 0.00887,
40002 400 4
104 Muestreo de conglomerados

V̂ (Ȳˆe ) = 0.0942.
q
ası́

El intervalo del 95 % de confianza para el promedio de periódicos comprados por casa es:
1.875 ± 1.96(0.0942) = (1.69, 2.06).

Supongamos que no conocemos M , el total de viviendas en la comunidad.


n
75
Ȳˆe = Pni
P
yi
= = 1.875,
i Mi 40
con varianza estimada
2
yi − Ȳˆe Mi

1 n
V̂ (Ȳˆe ) = 1 −
n
  X
N ˆ2
nM̄ i n−1
ˆ =
donde M̄ 1 Pn
Mi = 40
= 10.
n i 4

Sustituyendo valores
2
yi − Ȳˆe Mi

4 1 n
V̂ (Ȳˆe ) = 1 −
 
= 0.00887.
X
400 4(10)2 i 4−1
El intervalo del 95 % de confianza para el promedio de periódicos comprados por casa es:
1.875 ± 1.96(0.0942) = (1.69, 2.06).
Ası́ pues, SALE LO MISMO!!! Por que todos los conglomerados son del mismo tamaño. Si
i Mi = N k.
Mi = k, para toda i = 1, . . . , N , entonces M = N
P

n n
Ȳˆe1 = Ȳˆe2 = Pni
P
Ŷ N X yi
= yi ,
M nM i i Mi
n Pn
Ȳˆe1 = Ȳˆe2 =
N X i yi
yi ,
nN k i nk
entonces, si Mi = k, para i = 1, . . . , N los dos estimadores son iguales.

Lo mismo pasa con las varianzas. Estimador 1:

Ȳˆe1 =

M
N2 n Sb2
V (Ȳˆe1 ) =
 
1 −
M2 N n
N
(Yi − Ȳ )2 .
X

i
10.7 EJEMPLOS CONGLOMERADOS 105

Estimador 2:

n
Ȳˆe2 = Pni
P
yi
i Mi
N2 1 1 X N
V (Ȳˆe2 ) =
n
 
1− (Yi − Ȳe Mi )2
M 2 N nN −1 i
N
(Yi − Ȳe Mi )2
X

i
N
= (Yi − k Ȳe )2 , si Mi = k, ∀i
X

i
N PN !2
Yi
= k PNi
X
Yi −
i i Mi
N PN !2
Yi
= i
X
Yi − k
i Nk
N PN !2
Yi
= i
X
Yi −
i N
N  2
=
X
Yi − Ȳ .
i

10.7.2. Ejemplo 2.

Una compañı́a de taxis quiere estimar la proporción de llantas en mal estado de sus 175 taxis
(ignore la llanta de refacción).

Es impráctico seleccionar una MAS de llantas, por lo que se usó un muestreo de conglome-
rados, con cada taxi como conglomerado.

Se tomó una MAS de 25 taxis con la siguiente información.


106 Muestreo de conglomerados

Taxi No. llantas en Taxi No. llantas en


mal estado Yi mal estado Yi
1 2 14 1
2 4 15 2
3 0 16 2
4 1 17 4
5 2 18 1
6 0 19 0
7 4 20 0
8 1 21 3
9 3 22 1
10 1 23 2
11 2 24 2
12 0 25 1
13 1

N = 175 Taxis. n = 25. Mi = 4. M = 700 llantas.

La proporción de llantas en mal estado que usan los taxis de la compañı́a se estima con:

Ŷ N Ȳˆ N Xn
P̂ = = = yi ,
M M Mn i

sustituyendo valores
175
P̂ = (40) = 0.4,
700(25)

con varianza estimada

N2 n Ŝb2
 
V̂ (P̂ ) = 1 −
M2 N n
175 2 
25 1.583

= 1−
7002 175 25
= .003392.
q
Luego V̂ (P̂ ) = 0.058.

El intervalo del 95 % de confianza para la proporción de llantas en mal estado es (0.286, 0.514).
10.7 EJEMPLOS CONGLOMERADOS 107

10.7.3. Ejemplo 3.

Una firma tiene 80 tiendas en Florida y 140 en California. Se desea estimar el tiempo promedio
de incapacidad por empleado. Se decide estratificar por estado. Las tiendas se pueden ver
como conglomerados donde se determina el tiempo total de incapacidad de los archivos.

Se toma una MAS de 10 tiendas en California y 8 en Florida.

Estime el promedio de tiempo de incapacidad por empleado y dé un intervalo de confianza


del 95 % de confianza.

Cuadro 10.1: California

Tienda No. empleados Mi Dı́as totales de incapacidad Yi


1 16 51
2 8 32
3 4 11
4 3 10
5 12 33
6 17 39
7 24 61
8 30 37
9 21 40
10 9 41

Cuadro 10.2: Florida

Tienda No. empleados Mi Dı́as totales de incapacidad Yi


1 12 40
2 20 52
3 8 30
4 14 36
5 24 71
6 15 48
7 10 39
8 6 21

1. Suponga que conocemos el total de empleados en cada estrato. California: N1 = 140


tiendas, M1 = 2000 empleados y n1 = 10 tiendas. Florida: N2 = 80 tiendas, M2 = 1100
empleados y n2 = 8 tiendas.
108 Muestreo de conglomerados

Entonces
2
Ȳˆe =
X Mh ˆ
Ȳhe
h M
y
2 2
V̂ (Ȳˆe ) = V̂ (Ȳˆhe ).
X Mh
M 2
h
Sustituyendo valores

ˆ N1 X n1
140
Ȳ1e = y1i = (355) = 2.485 dı́as/empleado
M1 n1 i 2000(10)
n2
80
Ȳˆ2e =
N2 X
y2i = (337) = 3.064 dı́as/empleado
M2 n2 i 1100(8)
N2 2
1402 10 247.17
V̂ (Ȳˆ1e ) = 12 1 −
n1 Ŝ1b
   
= 1− = 0.1125
M1 N1 n1 2000 2 140 10
N2 2
802 8 230.25
V̂ (Ȳˆ2e ) = 22 1 −
n2 Ŝ2b
   
= 1− = 0.137.
M2 N2 n2 1100 2 80 8

Por lo tanto
2000(2.485) + 1100(3.064)
Ȳˆe = = 2.69
2000 + 1100
ˆ 20002 (0.1125) + 11002 (0.137)
V̂ (Ȳe ) = = 0.05653
33002

Luego, el intervalo de confianza del 95 % para el promedio por empleado de tiempo de inca-
pacidad es: (2.224, 3.156).

2. Suponga que no conocemos el total de empleados. Usando el estimador de razón combinado


P2 P2 ˆ P2
ˆ
Ȳe =

= P2h Ŷh
=P h Nh Ȳh
= P2h
Nh ȳh
M̂ h M̂h
2 ˆ h Nh m̄h
h Nh M̄h
Pnh
Mhi
donde m̄h = i
nh
.

Con varianza estimada


1 X2
1 1 1
V̂ (Ȳˆe ) =
 
2
Nh −
2
M̂ h nh Nh nh − 1

(yhj − Ȳˆe Mhj )


 Pnh  2
nh
− Ȳˆe Mhi − j
X
yhi  .
i nh
10.7 EJEMPLOS CONGLOMERADOS 109

Sustituyendo valores

140(35.5) + 80(42.13) 8340.4


Ȳˆe = = = 2.685
140(14.4) + 80(13.63) 3106.4

1 1 1
V̂ (Ȳˆe ) =
  
1402 − (1337.13)
3106.4 2 10 140
1 1
  
+ 802 − (1225.69) = 0.3437
r
8 80
V̂ (Ȳˆe ) = 0.5862.

El intervalo del 95 % de confianza para el promedio de incapacidad por empleado es: (1.536, 3.834).
110 Muestreo de conglomerados
Capı́tulo 11

Muestreo Bietápico

No se censan los conglomerados en muestra, sino que se toma una muestra de sus elementos.

Por ejemplo, se quiere estimar el número de personas “desocupadas” en la Ciudad de México.

La población es el conjunto de personas en edad productiva, de la cual no hay marco. Si


tuviéramos el marco y seleccionáramos una m.a.s. de personas, serı́a muy costoso que la
muestra quedara dispersa en toda la ciudad.

Para remediar esto, se forman nuevas unidades de muestreo llamadas Unidades Primarias
112 Muestreo Bietápico

de Muestreo (UPM). Para el ejemplo, las UPM podrı́an ser las manzanas, de las cuales
sı́ se tiene marco (mapas de la ciudad).

Se selecciona al azar (m.a.s.) cierto número de manzanas y de cada manzana seleccionada


se construye el marco de viviendas, del cual se selecciona una muestra (m.a.s.) de viviendas
que serán las Unidades de Segunda Etapa (USM) para, posteriormente, censar las personas
en edad productiva de estas viviendas seleccionadas.

También se puede combinar con muestreo estratificado, por ejemplo, las UPM se pueden
agrupar en colonias o sectores según nivel socioeconómico.

11.1. Notación

11.1.1. A nivel poblacional

N Número de UPM. (Se cuenta con un marco).

Mi Número de USM en la U P Mi

M= Mi Total de USM (Generalmente no se conoce).


PN
i=1

Yij Valor de la medición en la U SMj de la U P Mi .

Yi = Yij Total de la U P Mi .
PMi
j=1

Ȳi = Yij promedio de la U P Mi .


1 PMi
Mi j=1

Y = Yi = Yij Total poblacional.


PN PN PMi
i=1 i=1 j=1

Ȳ = Yi Promedio de los totales de la UPM.


1 PN
N i=1

Ȳe = Y
M
= PNY Media por elemento.
i=1
Mi

PMi
(Yij −Ȳi )2
2
Swi = j=1
Mi −1
Varianza entre USM de la U P Mi .

Sb2 = i=1 (Yi − Ȳ )2 Varianza entre totales de la UPM.


1 PN
N −1

Sb2 >> Swi


2
11.2 Estimador del Total poblacional 113

11.1.2. A nivel muestral

Si se considera una m.a.s. para UPM y una m.a.s. para USM:

n Número de UPM en muestra.

mi Número de USM muestreadas en la U P Mi .

yij Medición de la U SMj en muestra de la U P Mi en muestra.

Ȳˆ = ȳi = yij Promedio muestral de la USM de la U P Mi .


1 Pmi
mi j=1

Ŷi = Mi Ȳˆ Total estimado de la U P Mi , Mi es conocido ya que se refiere a la U P Mi en


muestra.
Pmi
(yij −ȳi )2
2
Ŝwi = j=1
mi −1
Varianza estimada entre USM dentro de la U P Mi .
¯
Ŷ = Ŷi = Mi Ȳˆi Promedio de totales estimados de UPM.
1 Pn 1 Pn
n i=1 n i=1

11.2. Estimador del Total poblacional

n
¯ NX
Ŷ = N Ŷ = Ŷi
n i=1
NX n
NX n
1 X mi
= Mi ȳi = Mi yij
n i=1 n i=1 mi j=1
mi
n X
N Mi
=
X
yij
i=1 j=1 n mi
mi
n X
=
X
fij yij ,
i=1 j=1

donde fij es le factor de expansión.

Recordando el ejemplo anterior.

P (vivienda j de la manzana i) = P (vivienda j | manzana i) × P (manzana i)


mi n
= .
Mi N
114 Muestreo Bietápico

Si m ∝ Mi , es decir, M
mi
i
= k el diseño es autoponderado, es decir, los factores de expansión
son iguales fij = f = n k, ∀j, ∀i.
N

Varianza del estimador del Total:


1 1 NX N
1 1
   
V (Ŷ ) = N 2 − Sb2 + Mi2 − 2
Swi
n N n i=1 mi Mi

La primer suma es el 90 %-95 % del valor de V (Ŷ ). La segunda suma es cero si mi = Mi , es


decir, si se censan las UPM. Es el caso del muestreo de conglomerados.

Es común que los valores de Yij sean semejantes dentro de cada UPM. Esto hace que los
2
Swi sean pequeños. Los totales Yi de UPM difieren mucho si los números Mi de USM dentro
de cada UPM son diferentes. Además, Sb2 es una varianza entre totales, no entre valores
individuales. Todo esto hace que la primera parte de V (Ȳ ) constituya gran parte de su valor.

Como los valores de las Yij tienden a ser parecidos dentro de cada una de las UPM, entonces
se genera una correlación, llamada correlación intraconglomerado.

Esta correlación hace que la información tenga cierta redundancia, lo que se refleja en varianza
de los estimadores mayor que la que se obtendrı́a con un muestreo directo unietápico de las
unidades.

Estimador de la varianza

La varianza del estimador del Total se estima con:


1 1 NX N
1 1
   
V̂ (Ŷ ) = N 2
− Ŝb +
2
M 2
− 2
Ŝwi
n N n i=1 i mi Mi
donde
1 X n
¯
Ŝb2 = (Ŷi − Ŷ )2
n − 1 i=1
!2
1 X n
1X n
= Mi Ȳˆi − Mi ȳi
n − 1 i=1 n i=1
!2
1 X n
1X n
= Mi ȳi − Mi ȳi .
n − 1 i=1 n i=1

El intervalo aproximado del (1 − α)100 % de confianza para Y :


q
Ŷ ± z1−α/2 V̂ (Ŷ ).
11.3 Media por elemento (Razón) 115

11.3. Media por elemento (Razón)

Estimador de la Media por elemento (Razón)

Ȳˆe =


N Pn
i=1 Ŷi
= n
N Pn
n i=1 Mi
Pn
i=1 Ŷi
= Pn
i=1 Mi
Pn
i=1 Mi ȳi
= Pn .
i=1 Mi

Varianza del estimador de la Media por elemento


1 X N
Mi2 (Ȳi − Ȳe ) 1 X N  2
V (Ȳˆe ) = 1 −
n mi Swi
  
+ Mi 1 −
2
N nM̄ 2 i=1 N −1 nN M̄ 2 i=1 Mi mi
con estimador
1 X n
Mi2 (ȳi − Ȳˆe ) 1 X n  2
V̂ (Ȳˆe ) = 1 −
n mi Ŝwi
  
+ M 1−
2
N ˆ 2 i=1
nM̄ n−1 ˆ 2 i=1 i
nN M̄ Mi mi
ˆ = Pn
donde M̄ Mi
.
i=1 n

11.4. Media por elemento

Estimador de la Media por elemento

Si se conoce M , el total de USM en la población, otra forma de estimar la media por elemento
es:
n
Ȳˆe =
Ŷ N X
= Mi ȳi .
M M n i=1
Con varianza y estimador de varianza:
1
V (Ȳˆe ) = 2 V (Ŷ )
M
116 Muestreo Bietápico

1
V̂ (Ȳˆe ) = 2 V̂ (Ŷ ).
M

11.5. Proporción

Estimador de una Proporción


Pn
Mi p̂i
P̂ = Pi=1
n
i=1 Mi
Pmi yij
donde p̂i es la proporción en la U P Mi , es decir, p̂i = j=1 mi y

1 Uij tiene la caracterı́stica A


(
yij =
0 Uij no tiene la caracterı́stica A.

El estimador de la varianza del estimador de la proporción es:

1 1 X n
Mi2 (p̂i − P̂ )2 1 X n
p̂i (1 − p̂i )
!
n mi
   
V̂ (P̂ ) = 1 − + Mi2 1 − .
N ˆ 2 i=1
n M̄ n−1 ˆ 2 i=1
nN M̄ Mi mi − 1

11.6. Tamaño de muestra

Una forma de calcular el tamaño de muestra, que se utiliza en la práctica es la siguiente:

Si se desprecia la varianza entre USM dentro de las UPM y se fija la precisión δ y la confianza
1 − α entonces,
1 1
s  
q
δ = z1−α/2 V (Ŷ ) = z1−α/2 N 2 − Sb2
n N
despejando n:
2
N z1−α/2 Sb2
n=
N δ 2 + z1−α/2
2
Sb2
n es el número de UPM a muestrear.

¿Cuántas USM? Lo menos posible (de 2 a 5).

Raj (1998) demuestra que si Mi = M para toda i y se van a muestrear m USM en cada una
de las n UPM, y además se tiene un costo C = Ci n + C2 nm, entonces los mejores valores
11.7 EJEMPLOS BIETÁPICO 117

de n y m para los cuales V (Ŷ ) es mı́nima para un costo C dado, se calculan utilizando el
método de multiplicadores de Lagrange, construyendo la función

G(n, m, λ) = V (Ŷ ) + λ(C1 n + C2 nm − C)

derivando G con respecto a n y m, e igualando a cero, y eliminando λ se tiene:


q
C1 /C2
m = M Sw
(Sb2 − M Sw2 )1/2

2
Swi
donde Sw2 = i=1 N .
PN

Y n se calcula de:
C = C1 n + C2 nm = n(C1 + C2 m),

C
n=
C1 + C2 m

y se sustituye la expresión para m.

11.7. EJEMPLOS BIETÁPICO

Ejemplo 1

Ejemplo tomado del libro Model Assisted Survey Sampling, de Sarndal, C.E. et. al, Springer
Series in Statistics, 1991. En Suecia hay 284 municipios, éstos se agrupan en 50 conjuntos
(UPM), se toma una m.a.s. de n = 5 conjuntos y dentro de cada uno de éstos se toma una
m.a.s. de mi = 3 municipios. Se desea estimar Y = población total en todo el paı́s. Los datos
son:

(i) Mi mi yij , j = 1, 2, 3 ȳi


19 5 3 41,49,49 46.33
45 8 3 49,49,45 47.67
47 5 3 31,31,35 32.33
50 9 3 39,41,61 47.00
31 7 3 49,51,33 44.33
118 Muestreo Bietápico

(yij −ȳi )2
 
(i) Ŷi = Mi ȳi =
P3 1
2
Ŝwi j=1 2
Mi2 mi
− M1 i Ŝwi
2

19 231.65 21.33 71.11


45 381.36 5.33 71.11
47 161.65 5.33 17.77
50 423 148 2664
31 310.33 97.33 908.44

¯ NX n
50
Ŷ = N Ŷ = Ŷi = (1507.99) = 15, 079.90.
n i=1 5
El estimador del total poblacional es 15,080 personas en el paı́s.

Para calcular la varianza estimada de este estimador, necesitamos calcular primero la varianza
entre UPM.
1 X n
¯
Ŝb2 = (Ŷi − Ŷ )2 = 11, 413.71.
n − 1 i=1
Luego,

1 1 NX n
1 1
   
V̂ (Ŷ ) = N 2
− Ŝb +
2
Mi2 − 2
Ŝwi
n N n i=1 mi Mi
2 1 1 50
 
= 50 − 5134910 + (3732.444)
5 50 5
= 5172234,

q
ası́ V̂ (Ŷ ) = 2274.25 y 5172234
5134910
= 0.99, es decir, el 99 % del valor de la varianza estimada del
estimador del total lo compone la parte de varianza entre UPM. El intervalo aproximado del
95 % de confianza para el total de habitantes es:
q
Ŷ ± 1.96 V̂ (Ŷ )

(10622.54; 19537.46).

Ejemplo 2

Una empresa que manufactura ropa tiene 90 plantas localizadas por todo EEUU y quiere
estimar el número promedio de horas que las máquinas de coser estuvieron fuera de servicio
el mes pasado.
11.7 EJEMPLOS BIETÁPICO 119

Debido a que las plantas están muy diseminadas, se decidió hacer un muestreo de conglome-
rados, definiendo a cada planta como un conglomerado de máquinas de coser y seleccionar
una muestra aleatoria simple de plantas.

Cada planta tiene muchas máquinas y checar el registro de reparación de cada una de ellas
es muy tardado. Por lo tanto, se usó un muestreo bietápico, es decir, se decidió seleccionar
una muestra aleatoria simple de máquinas en cada una de las plantas seleccionadas.

Se dispone de suficiente tiempo y dinero para muestrear n = 10 plantas y aproximadamente


el 20 % de las máquinas de cada planta. El dueño sabe que tiene un total de 4500 máquinas
en todas las plantas.

Planta en horas fuera


muestra Mi mi de servicio ȳi 2
Ŝwi
1 50 10 5,7,9,0,11,2,8,4,3,5 5.40 11.38
2 65 13 4.00 10.67
3 45 9 5.67 16.75
4 48 10 4.80 13.29
5 52 10 4.30 11.12
6 58 12 3.83 14.88
7 42 8 5.00 5.14
8 66 13 3.85 4.31
9 40 8 4.85 6.13
10 56 11 5.00 11.80

Primera forma de solución. Ya que conocemos M = total de máquinas en la población,


usamos:
n
90
Ȳˆe =
Ŷ N X
= Mi ȳi = (240.059) = 4.80.
M M n i=1 4500
Con varianza estimada
1
V̂ (Ȳˆe ) = V̂ (Ŷ )
M2
N2 1 1 N X n
1 1
   
= 2
− Ŝb + 2
2 2
Mi − 2
Ŝwi
M n N M n i=1 mi Mi

donde  
1 X n
¯ 1 X n
1X n
Ŝb2 = (Ŷi − Ŷ )2 = Mi ȳi − Mj ȳj  = 768.38,
n − 1 i=1 n − 1 i=1 n j=1
120 Muestreo Bietápico

por lo tanto
902 1 1 90
V̂ (Ȳˆe ) =
 
− (768.38) + (21987.06)
4500 10 90
2 45002 ∗ 10
= 0.02732 + 0.009772
= 0.037092.

Calculando su raı́z V̂ (Ȳˆe ) = 0.1925. El intervalo aproximado del 95 % de confianza para


q

el número promedio de horas que las máquinas de coser estuvieron fuera de servicio el mes
pasado es:

4.80 ± 1.96(0.1925)
4.80 ± 0.3775
(4.42 , 5.18)

Segunda forma de solución.

Si no conocemos M = total de máquinas en la población, o no queremos usar ese dato,


estimamos el promedio de horas fuera de servicio por máquina con un estimador de razón:

2400.59
Ȳˆe =
P
Ŷ Mi ȳi
= Pi = = 4.598.
M̂ i Mi 522
Con varianza estimada

1 X Mi2 (ȳi − Ȳˆe )2


V̂ (Ȳˆe ) =
n
 
1−
N ˆ2 i
nM̄ n−1
1 mi 2
Ŝwi
 
+ Mi2 1−
X
ˆ2
nN M̄ i Mi mi

10 1
V̂ (Ȳˆe ) =
 
1− 1236.572
90 10(52.2)2
1
+ (21987.06)
10(90)(52.2)2
= 0.040339 + 0.008966
= 0.049305.

V̂ (Ȳˆe ) = 0.22205.
q
Luego

El intervalo aproximado del 95 % de confianza para el número promedio de horas que las
máquinas de coser estuvieron fuera de servicio el mes pasado es:
11.7 EJEMPLOS BIETÁPICO 121

4.60 ± 1.96(0.2221)
4.60 ± 0.4352
(4.16 , 5.04).

Ejemplo 3.

La misma firma quiere estimar la proporción de máquinas que han requerido reparaciones
mayores. Los datos son de las máquinas muestreadas en el ejercicio anterior.

Planta Mi mi p̂i = Proporción de máquinas


con reparaciones mayores
1 50 10 0.40
2 65 13 0.38
3 45 9 0.22
4 48 10 0.30
5 52 10 0.50
6 58 12 0.25
7 42 8 0.38
8 66 13 0.31
9 40 8 0.25
10 56 11 0.36

176.08
P
Mi p̂i
P̂ = Pi = = 0.34.
i Mi 522
Con varianza estimada
1 i Mi (p̂i − p̂)
2 2
P
n
 
V̂ (P̂ ) = 1−
N nM̄ ˆ2 n−1
1 X 2 n
p̂i (1 − p̂i )
!
mi
 
+ M 1−
nN ˆ 2 i=1 i
M̄ Mi mi − 1
10 1 1
 
= 1− (18.44827) + (505.91)
90 10(52.2) 2 10(90)(52.2)2
= 0.000602 + 0.000206
= 0.00081.
q
V̂ (P̂ ) = 0.0285.
El intervalo aproximado del 95 % de confianza para la proporción de máquinas que han
requerido reparaciones mayores es:
122 Muestreo Bietápico

0.34 ± 1.96(0.0285)
0.34 ± 0.056
(0.284 , 0.396).

Ejemplo 4.

Con el propósito de conocer la condición de las carreteras y el costo de su reparación, el De-


partamento de Transportes de California dividió a las carreteras que tiene bajo su jurisdicción
en tramos de 1 milla.

Posteriormente se seleccionó una muestra de tramos de 1 milla utilizando muestreo bietápico.

En la primera etapa, se selecciona por m.a.s. una muestra de carreteras de la lista de todas
las carreteras del Departamento del Estado.

En la segunda etapa, se seleccionan un número de tramos de 1 milla por m.a.s. del total de
tramos que tiene cada carretera seleccionada.

Una vez seleccionada la muestra, los ingenieros expertos en carreteras visitaron los tramos
seleccionados, estudiaron la condición del pavimento, calificaron la condición del segmento y
estimaron el costo de las reparaciones necesarias.

Para los propósitos de este ejercicio, suponga que hay 352 carreteras en el estado, con una
longitud total de 28,950 millas. Se selecciona una muestra aleatoria simple de 7 carreteras.
Para cada carretera seleccionada, aproximadamente el 10 % de los tramos de 1 milla que la
forman fueron seleccionados. Los resultados de las evaluaciones fueron los siguientes:

Carretera Longitud Tramos No. de tramos Costo


No. (millas) seleccionados en excelentes condiciones (en miles)
155 102 10 1 96
489 144 14 3 120
283 56 6 0 60
698 118 12 2 108
311 41 4 1 36
358 76 8 1 50
423 69 7 0 38

Por ejemplo, la carretera 155 tiene una longitud de 102 millas. Se seleccionaron e inspeccio-
naron 10 tramos de 1 milla de esta carretera. Uno de estos tramos fue calificado excelente.
El costo total de las reparaciones de los 10 tramos fue de $96,000.
11.7 EJEMPLOS BIETÁPICO 123

a) Estime la proporción de millas de las carreteras del estado que están en excelentes condi-
ciones. Obtenga un intervalo del 95 % de confianza para esta proporción.

N = 352
n = 7
M = 28950

Carr. Long Tramos No. tramos p̂i Mi p̂i Mi2 (p̂i − P̂ )2 Mi2 (1 − Mi
) mi −1
mi p̂i (1−p̂i )

no. (millas) seleccionados excelentes


155 102 10 1 0.1 10.2 11.19 93.84
489 144 14 3 0.214 30.86 137.70 242.45
283 56 6 0 0 0 55.30 0
698 118 12 2 0.167 19.67 15.98 157.93
311 41 4 1 0.25 10.25 23.09 94.81
358 76 8 1 0.125 9.5 0.35 680.75
423 69 7 0 0 0 83.96 0
606 80.47 327.57 669.78

80.47
P
Mi p̂i
P̂ = Pi = = 0.133.
i Mi 606

Con varianza

1 i Mi (p̂i − p̂)
2 2
P
n
 
V̂ (P̂ ) = 1−
N nM̄ ˆ2 n−1
1 X 2 n
p̂i (1 − p̂i )
!
mi
 
+ M 1−
ˆ 2 i=1 i
nN M̄ Mi mi − 1
= 0.00102 + 0.0000363
= 0.00106,
q
luego V̂ (P̂ ) = 0.0325. Intervalo del 95 % de confianza para la proporción de segmentos de
milla en excelentes condiciones en las carreteras es: (0.069, 0.196).

b) Estime el costo promedio por milla y el costo total de las reparaciones. Obtenga intervalos
de 95 % de confianza para estos costos.
124 Muestreo Bietápico

¯
Carr. Long Tramos Costo ȳi Mi ȳi (Ŷi − Ŷ )2
no. (millas) seleccionados (miles) Ŷi
155 102 10 96 9.6 979.2 66147.64
489 144 14 120 8.57 1234.29 262428.3
283 56 6 60 10 560 26246.64
698 118 12 108 9 1062 115594.4
311 41 4 36 9 369 124614.8
358 76 8 50 6.25 475 61013.03
423 69 7 38 5.43 374.57 120712.3
606 5054.06 776757.1

NX NX
Ŷ = Ŷi = Mi ȳi .
n i n i
Con varianza
1 1
 
V̂ (Ŷ ) = N 2 − Ŝb2
n N
NX 2 1 1
 
+ Mi − 2
Ŝwi
n i mi Mi

donde
1 X n
¯
Ŝb2 = (Ŷi − Ŷ )2
n − 1 i=1
y
1 X mi
2
Ŝwi = (yij − ȳi )2 .
mi − 1 j=1
Luego,

352
Ŷ = (5054.06) = 254146.87
7
1
Ŝb2 = (776757.1) = 129459.5
6 
2 1 1

V̂ (Ŷ ) = 352 − (129459.5) = 2245937686
q
7 352
V̂ (Ŷ ) = 47391.33.

Intervalo del 95 % de confianza para el costo total de reparaciones en las 352 carreteras del
estado: (161259.88, 347033.87).
11.7 EJEMPLOS BIETÁPICO 125

Para estimar el costo promedio por milla, sabemos que M = 28950, entonces usaremos la
expresión:
Ȳˆe =

= 8.78.
M
Cuya varianza es
254146.87
V̂ (Ȳˆe ) = = 2.68
289502
i.e. V̂ (Ȳˆ ) = 1.637.
q
e

Intervalo del 95 % de confianza para el costo promedio de reparaciones por milla: (5.57, 11.99)
126 Muestreo Bietápico
11.7 EJEMPLOS BIETÁPICO 127

Referencias

1. Chaudhuri, A., and Stenger, H. (2005). Survey Sampling. Theory and Methods, 2nd
ed. Chapman and Hall.

2. Cochran, William G. (1998). Técnicas de Muestreo. CECSA. México.

3. Heringa, S.G., West, B., and Berglund P. (2010). Applied Survey Data Analysis. CRC
Press.

4. Kish, L. (1977) Statistical Design for Research. Wiley

5. Ojeda Ramı́rez, Mario Miguel y Dı́az Camacho, Julián Felipe. (2012). Introducción a
las Técnicas de muestreo. Editorial académica española.

6. Pérez, Cesar. (2000). Técnicas de Muestreo Estadı́stico. ALFAOMEGA. México.

7. Scheaffer, Richard L. Mendenhall, William y Ott Lyman. (1987). Elementos de mues-


treo. Grupo Editorial Iberoamérica. México.

8. Sharon L. (2000). Muestreo: Diseño y análisis. International Thompson Editores.

9. Casal, J. & Meteu, E. (2003). Tipos de muestreo. Rev. Epidem. Med. Prev, 1(1), 3-7.

10. Cochran, W. G. (2007). Sampling techniques. John Wiley & Sons.

11. González, A. R. (2006). Ecologı́a: Métodos de muestreo y análisis de poblaciones y


comunidades. Pontificia Universidad Javeriana.

12. Mostacedo, B., & Fredericksen, T. (2000). Manual de métodos básicos de muestreo y
análisis en ecologı́a vegetal. Proyecto de Manejo Forestal Sostenible (BOLFOR).

También podría gustarte