Puebla 2017

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 228

MODELACIÓN CON

ESTADÍSTICA Y
PROBABILIDAD

Editores:
Hugo Adán Cruz Suárez
Bulmaro Juárez Hernández
Francisco Solano Tajonar Sanabria
Hortensia Josefina Reyes Cervantes
Fernando Velasco Luna
José Dionicio Zacarías Flores
Víctor Hugo Vázquez Guevara.
Modelación con Estadística y Probabilidad

BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA


Dirección General de Fomento Editorial
2017
BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA
José Alfonso Esparza Ortiz
Rector
José Jaime Vázquez López
Secretario General
Ygnacio Martínez Laguna
Vicerrector de Investigación y Estudios de Posgrado
Flavio Marcelino Guzmán Sánchez
E.D. Vicerrectoría de Extensión y Difusión de la Cultura
Ana María Dolores Huerta Jaramillo
Directora de Fomento Editorial
Martha Alicia Palomino Ovando
Director de la Facultad de Ciencias Físico Matemáticas

Primera Edición, 2017

ISBN: 978-607-525-442-5
© Benemérita Universidad Autónoma de Puebla
Dirección de Fomento Editorial
2 Norte 1404, C.P. 72000
Puebla, Puebla.
Teléfono y fax: 01 222 246 8559
Impreso y hecho en México
Printed and made in Mexico
Comité Editorial

Hugo Adán Cruz Suárez


Bulmaro Juárez Hernández
Francisco Solano Tajonar Sanabria
Hortensia Josefina Reyes Cervantes
Fernando Velasco Luna
José Dionicio Zacarías Flores
Víctor Hugo Vázquez Guevara.
PRÓLOGO

Esta obra recopila las investigaciones realizadas por investigadores y académicos de diferentes
instituciones de Educación Superior, se abarcan distintas áreas del conocimiento relacionadas con
temáticas diversas de la Probabilidad y Estadística.

En este libro tenemos 15 capítulos en los cuales se tratan temas de aplicaciones y trabajos teóricos,
en particular hay cuatro de ellos en el área de Probabilidad y once en el área de Estadística. En el
capítulo 1 se presenta una aplicación de los modelos de decisión de Markov, en el capítulo 2 se
presenta una aplicación de la probabilidad a la mecánica cuántica, en el capítulo 3 está relacionado
con los modelos de ecuaciones estructurales. En el capítulo 4 se presenta una aplicación de modelos
de crecimiento a estudios económicos. Un estudio relacionado a la salud sexual y reproductiva y
fecundidad de adolescentes es presentado en el capítulo 5. Un análisis de puntos de cambio en
espacio tiempo es llevado a cabo en el capítulo 6, se presenta una revisión del punto de cambio
tratado sobre el enfoque de máxima verosimilitud. En el capítulo 7 se realiza un análisis de regresión
logística para estudiar las elaciones en relación con educación sexual y el conocimiento de
preservativos. En el capítulo 8 se lleva a cabo un análisis de componentes principales para construir
un indicador de calidad de viviendas. En el capítulo 9 se presenta la caracterización de los efectos
aleatorios en términos del modelo lineal mixto. El capítulo 10 presenta el tema de la teoría de
respuesta al Ítem aplicada n el análisis de un cuestionario de bienestar familiar. Una aplicación de
modelos de ecuaciones estructurales es llevada a cabo en el capítulo 11, se estudian las principales
características de la construcción de la satisfacción estudiantil. En el capítulo 12 e presenta una
introducción a la estadística bayesiana y dos Aplicaciones en elecciones electorales en México. En
el capítulo 13 se utiliza la técnica de credit scoring usando regresión logística para la evaluación del
riesgo crediticio. Un estudio sobre sostenibilidad empresarial es llevado en el capítulo 14, este
estudio se realiza a través de la implementación de la metodología Biplot. Finalmente, en el capítulo
15 una aplicación del modelo Weibull en el análisis de supervivencia es llevada a cabo.

Los trabajos fueron sometidos a un arbitraje coordinado por el Comité Editorial del Cuerpo de
Probabilidad y Estadística. Se les agradece a los revisores el gran esfuerzo que hicieron para lograr
a tiempo sus sugerencias que se incluyeron en el trabajo final de esta obra.

Los integrantes del Cuerpo Académico de Probabilidad y Estadística esperan que el presente libro
logre evidenciar que el trabajo multidisciplinario es necesario a fin de abordar problemas reales.

Comité Editorial
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

Índice general

Índice general I

1. Un Modelo de Inventario con Demanda Estocástica y Dinámica


Tipo Lindley 3
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Modelo de Inventarios . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Caminata de Lindley Controlada . . . . . . . . . . . . . . . . . . . . 5
1.4. Valor Óptimo y Polı́tica Óptima . . . . . . . . . . . . . . . . . . . . 6
1.4.1. Polı́ticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5. PDM Aplicado a la Caminata Controlada de Lindley . . . . . . . . . 7
1.6. Aproximación a las Polı́ticas Óptimas . . . . . . . . . . . . . . . . . 13
1.6.1. Aproximación Numérica al Valor Óptimo . . . . . . . . . . . 15
1.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Distribución Probabilı́stica en el Oscilador Isotónico 19


2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Factorización del Hamiltoniano del Oscilador Armónico . . . . . . . 20
2.3. Oscilador Isotónico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. Operadores de Segundo Orden . . . . . . . . . . . . . . . . . . . . . 23
2.5. El Estado Base del Oscilador de Dongpei . . . . . . . . . . . . . . . 24
2.6. La Factorización del Halmitoniano . . . . . . . . . . . . . . . . . . . 25
2.7. Las Funciones de Onda del Oscilador Isotónico . . . . . . . . . . . . 25
2.8. Densidad de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 28
2.9. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3. Modelos de Ecuaciones Estructurales con Mı́nimos Cuadrados


Parciales 31
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2. Modelos de Ecuaciones Estructurales . . . . . . . . . . . . . . . . . . 32
3.2.1. Indicadores Reflexivos y Formativos . . . . . . . . . . . . . . 33
3.3. Mı́nimos Cuadrados Parciales . . . . . . . . . . . . . . . . . . . . . . 33

i
3.3.1. El Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.2. Los Pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.3. El Algoritmo de MCP . . . . . . . . . . . . . . . . . . . . . . 35
3.4. Evaluación del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.1. Evaluación del Modelo de Medición . . . . . . . . . . . . . . 35
3.4.2. Evaluación del Modelo Estructural . . . . . . . . . . . . . . . 36
3.5. Modelo de Satisfacción INSPOCH . . . . . . . . . . . . . . . . . . . 37
3.6. Modelo de Satisfacción INSPOCH . . . . . . . . . . . . . . . . . . . 37
3.6.1. Ecuaciones del Modelo . . . . . . . . . . . . . . . . . . . . . . 39
3.6.2. Cálculo del ı́ndice de Satisfacción . . . . . . . . . . . . . . . . 40
3.7. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4. Aplicación de la Función Secante Hiperbólica al Ajuste Numérico


del Producto Interno Bruto 45
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2. Datos del Producto Interno Bruto de Brasil, México y China . . . . 48
4.2.1. Ajuste Numérico de los datos del PIB de Brasil, México y China 49
4.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5. Salud Sexual y Reproductiva y Fecundidad de las Adolescentes


según su Condición de Indigenismo en México 59
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.3. Metodologı́a del Trabajo y Fuente de Datos . . . . . . . . . . . . . . 61
5.3.1. Significancia Estadı́stica: la ji-Cuadrada (ξ 2 ) . . . . . . . . . 61
5.3.2. Fuente de Datos . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6. Análisis de Puntos de Cambio en Espacio Tiempo 73


6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.2. Formulación del Punto de Cambio . . . . . . . . . . . . . . . . . . . 74
6.3. Puntos de Cambio en Estadı́stica Paramétrica, Proceso Basado en la
Razón de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4. Distribución Nula Asintótica de la Estadı́stica de Prueba usando
Puentes Brownianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.5. Puntos de Cambio en Regresión Lineal . . . . . . . . . . . . . . . . . 82
6.6. Problemas de Puntos de Cambio en Espacio Tiempo . . . . . . . . . 83
6.6.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.6.2. Aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

7. Educación sexual y conocimiento del preservativo de los alumnos


de Nuevo León 93
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.1.1. Educación sexual . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.2. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.2.1. Construcción del Indicador del Buen Conocimiento del Condón 95

ii
7.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.3.1. Algunas Caracterı́sticas de Educación Sexual que Recibieron
los Alumnos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.3.2. Educación Sexual y Buen Conocimiento del Condón. Análisis
Bi-variado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.3.3. Educación Sexual y Buen Conocimiento del Condón. Modelos
de Regresión Logı́stica . . . . . . . . . . . . . . . . . . . . . . 98
7.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8. Componentes Principales. Análisis de datos sobre calidad de la


vivienda en el estado de Morelos 103
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.2. Especificaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.2.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.2.2. Fuente de Información . . . . . . . . . . . . . . . . . . . . . . 105
8.3. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.3.1. Unidad de Análisis . . . . . . . . . . . . . . . . . . . . . . . . 105
8.3.2. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.4. Análisis de Componentes Principales . . . . . . . . . . . . . . . . . . 106
8.4.1. Descripción de la Metodologı́a de Componentes Principales . 106
8.4.2. Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.4.3. Desarrollo Analı́tico . . . . . . . . . . . . . . . . . . . . . . . 107
8.4.4. Caracterı́sticas de las Componentes Principales . . . . . . . . 109
8.4.5. Pruebas de Significancia . . . . . . . . . . . . . . . . . . . . . 109
8.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

9. Efectos Aleatorios en el Modelo Lineal Mixto 115


9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
9.2. Modelo de un Criterio de Clasificación . . . . . . . . . . . . . . . . . 116
9.2.1. Modelo con Efectos Fijos . . . . . . . . . . . . . . . . . . . . 117
9.2.2. Modelo con Efectos Aleatorios . . . . . . . . . . . . . . . . . 118
9.3. Modelo Lineal Mixto . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
9.3.1. Modelos Lineales Jerárquicos . . . . . . . . . . . . . . . . . . 118
9.3.2. Modelo Lineal Mixto . . . . . . . . . . . . . . . . . . . . . . . 123
9.4. Caracterización de Efectos Aleatorios del Modelo de un Criterio de
Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.4.1. Efectos Fijos . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
9.4.2. Efectos Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . 124
9.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

10.Teorı́a de Respuesta al Ítem en el Análisis de un Cuestionario de


Bienestar Familiar 127
10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
10.2. Teorı́a de Respuesta al Ítem (TRI) . . . . . . . . . . . . . . . . . . . 128
10.2.1. Supuestos de la TRI . . . . . . . . . . . . . . . . . . . . . . . 130
10.2.2. Modelos de la TRI . . . . . . . . . . . . . . . . . . . . . . . . 131
10.2.3. Estimación de los Parámetros de los Modelos de la TRI . . . 132

iii
10.2.4. Bondad del Ajuste de los Modelos de la TRI . . . . . . . . . 132
10.2.5. Criterios para la Aplicación de la TRI . . . . . . . . . . . . . 132
10.2.6. Posibles Softwares: el Paquete ltm . . . . . . . . . . . . . . . 134
10.3. Aplicación de la TRI al Cuestionario de Bienestar Familiar . . . . . 134
10.3.1. Presentación del Cuestionario y su Elaboración . . . . . . . . 134
10.3.2. Aplicación de la Teorı́a de Respuesta al Ítem (TRI) a las
Subescalas del Cuestionario Bienestar Familiar y Selección de
los Mejores Ítems. . . . . . . . . . . . . . . . . . . . . . . . . 135
10.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.5. Anexo: Cuestionario de Bienestar Familiar . . . . . . . . . . . . . . . 144

11.Satisfacción Estudiantil: Análisis a través de Modelos de


Ecuaciones Estructurales 145
11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
11.2. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
11.2.1. Modelos de Ecuaciones Estructurales . . . . . . . . . . . . . . 147
11.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
11.3.1. Diseño Muestral . . . . . . . . . . . . . . . . . . . . . . . . . 151
11.3.2. Cuestionario Utilizado . . . . . . . . . . . . . . . . . . . . . . 151
11.3.3. Modelo Estructural . . . . . . . . . . . . . . . . . . . . . . . . 152
11.3.4. Modelo de Medida . . . . . . . . . . . . . . . . . . . . . . . . 154
11.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
11.5. Anexo - Formulario . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

12.Inferencia Bayesiana Aplicada a las Elecciones Presidenciales del


2018
163

12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164


12.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
12.3. Distribución beta a Priori . . . . . . . . . . . . . . . . . . . . . . . . 166
12.3.1. Ejemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12.4. Distribución Dirichlet a Priori . . . . . . . . . . . . . . . . . . . . . . 168
12.4.1. Ejemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
12.5. Distribución Predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . 170
12.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

13.Evaluación del Riesgo Crediticio, a través de Credit Scoring


mediante Regresión Logı́stica: Un Caso de Estudio
175

13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176


13.1.1. Modelo de Regresión Logı́stica . . . . . . . . . . . . . . . . . 176
13.2. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
13.3. Selección de Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 178
13.4. Evaluación del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . 178
13.4.1. Medidas de Confiabilidad del Modelo . . . . . . . . . . . . . . 178
13.4.2. Estadı́sticos Influenciales . . . . . . . . . . . . . . . . . . . . 179

iv
13.4.3. Valoración de la Capacidad Predictiva del Modelo . . . . . . 179
13.5. Credit Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
13.5.1. Ventajas del Scoring . . . . . . . . . . . . . . . . . . . . . . . 181
13.5.2. Desventajas del Scoring . . . . . . . . . . . . . . . . . . . . . 182
13.6. Caso práctico: Análisis de Datos . . . . . . . . . . . . . . . . . . . . 183
13.7. Descripción de la Base . . . . . . . . . . . . . . . . . . . . . . . . . . 183
13.8. Estimación del Modelo en SPSS . . . . . . . . . . . . . . . . . . . . . 185
13.8.1. Ajuste del Modelo . . . . . . . . . . . . . . . . . . . . . . . . 185
13.8.2. Poder Predictivo . . . . . . . . . . . . . . . . . . . . . . . . . 185
13.8.3. Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
13.8.4. Poder Discriminatorio . . . . . . . . . . . . . . . . . . . . . . 186
13.8.5. Interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
13.8.6. Validación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
13.9. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

14.Sostenibilidad Empresarial: Análisis desde una Perspectiva


Multivariante a través de la Metodologı́a HJ-Biplot
191
14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
14.2. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
14.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
14.3.1. Análisis Descriptivo . . . . . . . . . . . . . . . . . . . . . . . 196
14.3.2. HJ-Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
14.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

15.Una aplicación del modelo Weibull en el análisis de supervivencia207


15.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
15.2. Teorı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
15.3. Modelo Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
15.3.1. Parte Experimental . . . . . . . . . . . . . . . . . . . . . . . 212
15.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
15.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

1
2
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 1

Un Modelo de Inventario con Demanda Estocástica y


Dinámica Tipo Lindley

Rubén Blancas-Rivera, Hugo Cruz-Suárez, Bulmaro Juárez-Hernández


Benemérita Universidad Autónoma de Puebla,
Facultad de Ciencias Fı́sico Matemáticas,
Av. San Claudio y 18 Sur, Col. San Manuel,
C.P. 72570, Puebla, Puebla,
[email protected], [email protected], [email protected]

Resumen. En el artı́culo se presenta una aplicación de los Procesos de Decisión


de Markov (PDMs) a un modelo de inventarios cuya dinámica es regida por una
versión adecuada de la caminata aleatoria de Lindley. Primeramente, se lleva a
acabo la construcción del modelo y se muestra la necesidad de agregar una nueva
componente, la cual se denomina variable de control (producción). De esta manera,
debido a la presencia de una demanda aleatoria, es necesario controlar el nivel de
producción y en consecuencia determinar su valor óptimo de operación. En una
segunda etapa, vı́a programación dinámica se caracteriza a la solución óptima del
sistema de inventarios. Finalmente se presentan algunos ejemplos numéricos.

Abstract. In this paper an application of Markov Decision Processes (MDPs) to


inventory systems is presented. In this case, it is assumed that the Dynamic of the
system is induced by an adequate versión of the Lindley’s random walk. Firstly, it
is introduced an inventory model, which is not-controlled then it is aggregated an
additional variable to the dynamic of the model, hence a stochastic control system
is induced. Secondly, via dynamic programming, it is characterized the optimal
solution of the inventory system. Finally, we present some numerical examples.
Palabras clave: Programación Dinámica, Procesos de Decisión de Markov,
Teorı́a de Inventarios.

3
1.1. Introducción
En este artı́culo se presenta un sistema de inventarios, el cual es observado de
forma discreta a través del tiempo y cuya dinámica presenta incertidumbre, en
este caso debido a la demanda del producto de interés. Además, suponemos que el
sistema se encuentra inmerso en una dinámica markoviana, en especı́fico se propone
una dinámica de tipo caminata aleatoria de Lindley (o proceso de Lindley). Dicho
proceso fue propuesto por David Lindley para el estudio de sistemas de lı́neas de
espera ([10]). Ahora, en este trabajo se propone una versión modificada, en la cual
introducimos una variable de control, cuya finalidad es minimizar una función de
costo a un horizonte infinito, bajo un factor de descuento.
La metodologı́a para resolver el problema anterior es programación dinámica, para
ello primeramente se identifica al problema de inventarios con un Proceso de
Decisión de Markov (PDM). Los PDMs son adecuados para modelar esta clase
de problemas, los cuales son dinámicos y presentan incertidumbre en alguna de
sus componentes [2]. En la literatura es posible encontrar diversos trabajos que
estudian sistemas de inventarios utilizando como herramienta de los PDMs. Algunos
de ellos se pueden consultar en [4], [6] y [11], por ejemplo. Ahora nos enfocamos a un
sistema de inventarios cuya producción posiblemente no es acotada y la dinámica
del sistema es inducida por una caminata tipo Lindley. En el documento se procede,
en una primera etapa, a garantizar la existencia de una solución vı́a programación
dinámica. Posteriormente, se presentan algunos ejemplos numéricos, en los cuales
se encuentra explı́citamente la solución del problema de control.
El trabajo se encuentra organizado de la siguiente manera. En la Sección 1 se
presenta una explicación breve de los componentes en un sistema de inventarios y
se expone el modelo de inventarios regido por la caminata aleatoria de Lindley. En
la siguiente sección se muestra la necesidad de agregar una variable de control al
modelo, de este modo se propone el modelo controlado de Lindley. En la tercera
sección se aborda el problema principal del trabajo, el cual consiste en encontrar
una polı́tica óptima que minimice los costos por cada etapa del proceso y encontrar
el valor óptimo de costo. Después, en la cuarta sección, se demuestra la existencia
de la polı́tica óptima para el modelo. Finalmente, se presentan las aproximaciones
a las polı́ticas óptimas mediante un ejemplo numérico.

1.2. Modelo de Inventarios


Un inventario es un conjunto de mercancı́as o artı́culos acumulados en un
almacén en espera de ser vendidos o utilizados en un proceso de producción. En este
caso estamos interesados en la modelación del flujo de mercancı́a en el inventario,
observándolo como un sistema dinámico estocástico. Las componentes a destacar
en un sistema de inventarios son las siguientes:

Demanda: Cantidad de bienes o servicios que se ofrecen.

Tiempo de espera: El tiempo que transcurre desde que se hace el pedido hasta
que la empresa recibe el producto.

Tamaño del pedido: Número de artı́culos que conforman el orden del pedido.

4
Nivel de inventario: Número de artı́culos que se encuentran en el inventario.
Punto de reorden: Nivel de inventario en el que la empresa define en que
momento hacer un nuevo pedido.
Como una primera aproximación para el estudio de nuestro sistema de inventarios,
considere la siguiente situación.
Sea xt ≡ stock al tiempo t y ξt la demanda del producto en el tiempo t, cuya
dinámica es regida por la siguiente ecuación en diferencias:
xt+1 = (xt − ξt+1 )+ , (1.1)
+
con t ∈ N ∪ {0} y la notación r := max(r, 0).
Observación 1.2.1 El sistema estocástico anterior fue propuesto por primera vez
por David Lindley en [10] para estudiar un modelo de lı́neas de espera. Además de
inventarios cuenta con diversas aplicaciones, por ejemplo en el área de presas [4],
economı́a [6] y teorı́a de riesgo [14]. En la literatura se conoce como proceso de
Lindley.
De acuerdo al modelo de inventarios cada xt se encuentran en el conjunto
X := [0, ∞) con una ley de transición Q o también llamado kérnel estocástico,
inducido por (1.1). Además suponemos que {ξt } es una sucesión variables aleatorias
independientes e idénticamente distribuidas (v.a.i.i.d.) sobre [0, ∞) con esperanza
finita definidas en un espacio de probabilidad (Ω, F, γ).
Una de las desventajas del modelo (1.1) se debe a que no se considera un tamaño de
pedido o producción. En consecuencia, ocurre que el estado 0 es absorbente, como
a continuación se ilustra:
Q[x1 = 0|x0 = 0] = γ[(−ξ0 )+ = 0]
= γ[−ξ0 < 0]
(1.2)
= γ[ξ0 ≥ 0]
= 1,
la última ecuación se debe a que la variable aleatoria ξ0 tiene rango [0, ∞).
Por lo tanto, la relación (1.2) demuestra que con probabilidad 1 el sistema de
inventarios en algún tiempo t ≥ 0 se mantendrá con un nivel de 0 productos, con esto
el sistema colapsarı́a ante la demanda. Por lo cual en la práctica no es un modelo
conveniente de implementar ya que se busca tener un nivel mı́nimo en inventario
con la finalidad de suplir demandas en cada periodo y no caer en pérdidas. Por esta
razón, se considera el punto de reorden y es agregada una nueva variable. Lo anterior
resuelve el problema de no caer en el estado absorbente cero, sin embargo, queda
por responder cual es la cantidad óptima de producto solicitado en cada periodo
de observación, esta problemática puede ser abordada desde el punto de vista de
la teorı́a de control, lo cual se presenta en la siguiente sección, considerando a la
variable de control como la cantidad de productos solicitados o producidos.

1.3. Caminata de Lindley Controlada


En la sección anterior observamos la necesidad de agregar una variable de control
al modelo, a este nuevo modelo adaptado lo denominamos: Caminata de Lindley

5
Controlada, el cual se expresa mediante la siguiente ecuación en diferencias:

xt+1 = (xt + at − ξt+1 )+ , (1.3)

con t ∈ N ∪ {0} y x0 = x.
Tenemos que xt ∈ X = [0, ∞), y at ∈ A := [0, θ] denota la cantidad de producto
ordenada que se proporciona al principio del periodo t con θ el nivel máximo de
almacenaje en el sistema.
En cada tiempo t es natural considerar los costos y ganancias de la siguiente manera:
costo de producción + costo de almacenaje - ingresos de ventas,
de esta forma se define la función de costo:

c(x, a) := pa + m(x + a) − kE[min(x + a, ξ)], (1.4)

donde
p es el costo de producción por unidad,
m es el costo de almacenaje por unidad,
k es el precio de venta por unidad,
con k, p, m constantes positivas y satisfacen que,

m + p ≤ k. (1.5)

Naturalmente (1.5) ı́ndica que los costos son menores al precio de venta por unidad.
Observe que la función de costo dada en (1.4) no necesariamente es positiva. Si la
función toma valores negativos se consideran ganancias. Además, si ξ representa un
valor genérico de la sucesión {ξt }, suponemos que:
Tienen rango [0, ∞) y función de densidad continua y acotada ∆ con función
de distribución F .
θ < µ := E[ξ] < ∞, es decir, su valor promedio se supone mayor que la
cantidad de producto solicitado.
Para el modelo controlado de Lindley hemos construido la quı́ntupla

(X, A, {A(x)|x ∈ X}, Q, c) ,

denominado Modelo de Control de Markov (véase [9]).

1.4. Valor Óptimo y Polı́tica Óptima


En la sección anterior definimos el modelo de control de Markov para el sistema
de inventarios. Lo que corresponde en esta sección es resolver el problema de decidir
que cantidad de productos se van a solicitar en cada tiempo para cumplir la demanda
y minimizar los costos que se generan. Para que lo anterior ocurra se necesita
una polı́tica o estrategia que satisfaga lo anterior mencionado, a tal polı́tica la
llamaremos óptima.

6
1.4.1. Polı́ticas
En general existen diversas polı́ticas que se pueden utilizar, a continuación se
define formalmente lo que consideraremos como una polı́tica.
Primeramente, se define el espacio de historias observadas en un modelo de control
hasta un tiempo t, el cual se denota por Ht , y se define como:

H0 = X,

Ht = K × Ht−1 = Kt × X,
donde K := {(x, a)|x ∈ X, a ∈ A(x)}. Cada ht ∈ Ht es un vector de la forma
(x0 , a0 , x1 , a1 , . . . , at−1 , xt ), donde (xi , ai ) ∈ K para i = 0, ..., t − 1 y xt ∈ X.

Definición 1.4.1 Una polı́tica es una sucesión π = {πt } de kérneles estocásticos


(véase [8]), donde cada πt está definido sobre A dado Ht y satisface que:
πt (A(xt )|ht ) = 1 para cada ht ∈ Ht con t ≥ 0. El conjunto de todas las polı́ticas se
denota por Π.

Existen diversos tipos de polı́ticas, pero en este trabajo se hace mención a dos.
Definición 1.4.2 Sea Φ el conjunto de todas las probabilidades condicionales ϕ en
P(A|X) tal que para toda x ∈ X se tiene ϕ(A(x)|x) = 1. Una polı́tica π ∈ Π es:
1. Markoviana Aleatorizada (ΠRM ). Si existe una sucesión {ϕt } ⊆ Φ
(definidas sobre A dado X), tal que πt (·|ht ) = ϕt (·|xt ) para toda ht ∈ Ht
y t ≥ 0.
2. Markoviana Aleatorizada Estacionaria (ΠRS ). Si existe ϕ ∈ Φ, tal que:
πt (·|ht ) = ϕ(·|xt ) para toda ht ∈ Ht y t ≥ 0.
Una vez definido el concepto de polı́tica, procederemos a la construcción del Proceso
de Decisión de Markov.
Sea (Ω, F) el espacio medible que consiste del espacio muestral canónico Ω := H∞ =
(X × A)∞ y F su correspondiente σ-álgebra producto.
Sea π = {πt } una polı́tica de control. Por el teorema de Ionescu-Tulcea [8], existe
una única medida de probabilidad Pxπ en (Ω, F) tal que, para cada B ∈ B(X),
C ∈ B(A) y ht ∈ Ht

Pxπ (x0 ∈ B) = ν(B),


Pxπ (at ∈ C|ht ) = πt (C|ht ),
π
Px (xt+1 ∈ B|ht , at ) = Q(B|xt , at ).

El proceso estocástico (Ω, F, Pxπ , {xt }) es llamado Proceso de Decisión de


Markov a tiempo discreto.

1.5. PDM Aplicado a la Caminata Controlada de


Lindley
Como se mencionó anteriormente uno de los problemas a considerar es el tipo
de estrategia (el número de producto solicitado en cada estado) que se debe

7
implementar para minimizar los costos y satisfacer la demanda en cada estado.
Resulta que tenemos un problema de optimización y para esto se requiere una
función objetivo. Si requerimos minimizar los costos en cada estado una propuesta
de función es:
"N −1 #
X
π t
vα,N (π, x) := Ex α (pa + m(x + a) − kE[min(x + a, ξ)]) , x ∈ [0, ∞),
t=0
(1.6)
donde α ∈ (0, 1) es llamado valor de descuento, el cual representa la traslación a
tiempo actual del valor de costo. Se denomina horizonte del problema, al último
tiempo que sea desea estudiar el procesos estocástico, el cual puede ser finito o
infinito y se denota por N . El caso de horizonte infinito se denotará a la función vα
en lugar de vα,∞ . A (1.6), le llamaremos Criterio Descontado.
La función de valor óptimo se define como:
Vα∗ (x) := inf vα (π, x), x ∈ [0, ∞). (1.7)
π∈Π

El problema de control óptimo descontado consiste en encontrar una polı́tica π ∗ ∈ Π


que cumpla,
Vα∗ (x) = vα (π ∗ , x), x ∈ [0, ∞). (1.8)
a tal polı́tica que satisfaga (1.8) se le llamará óptima.
La metodologı́a básica para resolver esta clase de problemas es Programación
Dinámica, técnica basada en el principio de optimalidad de Bellman [2].
En [8] para cualquier PDM con criterio de costo descontado y horizonte finito
se demuestra la existencia de una polı́tica óptima estacionara pero se requiere
condiciones sobre el modelo, mismas que demostramos que cumple la Caminata
Controlada de Lindley.
Lema 1.5.1 Para cada estado x ∈ [0, ∞).
a) La función de costo, pa + m(x + a) − kE[min(x + a, ξ)] es inferiormente
semicontinua para cada a ∈ [0, θ].
b) La función µ0 (x, a) := [0,∞) µ(y)Q(dy|x, a) es continua en [0, θ] para cada
R

función µ ∈ B([0, ∞)), donde B([0, ∞)) denota el espacio de Banach de


funciones medibles, continuas y acotadas en [0, ∞), con la norma supremo,
k µ k∞ := sup |µ(x)|.
x≥0

Demostración. Primeramente se demuestra que la función de costo es continua,


en efecto, recordando que
x + y − |x − y|
min(x, y) = , x, y ∈ R.
2
Ası́,
x + a + ξ − |x + a − ξ|
kE[min(x + a, ξ)] = kE[ ]
2 (1.9)
k k k
= (x + a) + µ − E[|x + a + ξ|],
2 2 2

8
con (x, a) ∈ K. Veamos que la función la función g(x, a) := E[|x + a + ξ|] es continua
en K.
Considere {xn } y {an } sucesiones convergentes en [0, ∞) y [0, θ], con lı́mites x y a,
respectivamente. Ahora, definimos hn y h como:
hn (s) = |xn + an − s|∆(s),
h(s) = |x + a − s|∆(s),
note que hn (s) → h(s), cuando n → ∞ para s ∈ [0, ∞).
Por otra parte,
hn (s) ≤ (|xn | + |an | + s)∆(s)
≤ (M + a)∆(s).
La última desigualdad se cumple ya que {xn } y {an } son convergentes, por tanto,
son acotadas ambas por alguna constante positiva M , ası́
Z Z
hn (s)∆(s)ds ≤ (M + s)∆(s)ds
[0,∞) [0,∞)

= M + µ < ∞.
Ahora por el Teorema de Convergencia Dominada [7], tenemos que
Z
lim g(xn , an ) = lim |xn + an − s|∆(s)ds
n→∞ n→∞ [0,∞)
Z
= lim |xn + an |∆(s)ds
[0,∞) n→∞
Z
= |x + a − s|∆(s)ds
[0,∞)

= g(x, a).
Ası́, g es continua en K. Por lo tanto la función de costo, (1.4), es continua en
K, con lo cual (a) se cumple.
Procederemos a demostrar que (b) se satisface. Sean x ∈ X fijo y µ ∈ B([0, ∞)),
para a ∈ [0, θ] se tiene,
Z ∞
µ(x, a) = µ[(x + a − s)+ ]ds
0
Z x+a (1.10)
= µ(0)[1 − F (x + a)] + µ(x + a − s)∆(s)ds .
0

Haciendo un cambio de variable en la última integral obtenemos que


Z x+a
0
µ (x, a) = µ(0)[1 − F (x + a)] + µ(s)∆(x + a − s)ds ,
0

para cada a ∈ A(x). Sea {an } una sucesión convergente en [0, θ], donde su lı́mite es
a ∈ A(x), luego
 Z x+an 
lim µ0 (x, an ) = lim µ(0)[1 − F (x + an )] + µ(s)∆(x + an − s)ds
n→∞ n→∞ 0

9
 Z ∞ 
= lim µ(0)[1 − F (x + an )] + I[0,x+an ] µ(s)∆(x + an − s)ds .
n→∞ 0
Como ∆ es continua y acotada entonces F también lo es, en consecuencia,
Z ∞
0
lim µ (x, an ) = µ(0)[1 − F (x + a)] + lim I[0,xn ,an ] u(s)∆(x + an − s)ds.
n→∞ n→∞ 0

Debido a que se satisface la siguiente propiedad,

liminf[0, x + an ] ⊂ limsup[0, x + an ] ⊂ [0, x + a],

se tiene que I[0,x+an ] converge a I[0,x+a] casi seguramente, por tanto,

lim µ0 (x, an ) = µ(x, a),


n→∞

es decir, µ0 es continua en A(x).


Por lo tanto el Lema 1.5.1 queda demostrado.

Teorema 1.5.2 Existe una polı́tica óptima aleatorizada Markoviana para la


Caminata Controlada de Lindley utilizando el criterio de costo descontado con
horizonte finito.

Demostración. Por el Lema 1.5.1 y el Teorema de Existencia de Polı́ticas


Óptimas Aleatorizada Markoviana con criterio descontado en [8] se tiene la
conclusión del teorema.

Para resolver el problema con horizonte infinito en los PDM se requieren más
suposiciones al modelo (véase [8]) además del Lema 1.5.1. Se consideran condiciones
sobre el crecimiento de la función de costo.
Lema 1.5.3 Dado la Caminata Controlada de Lindley existen constantes no
negativas M β, b con 1 ≤ β ≤ α1 y una función de peso w ≥ 1 sobre [0, ∞) tal
que para cada estado x ≥ 0,
a) supa∈[0,θ] |pa + m(x + a) − kE[min(x + a, ξ)]| ≤ M w(x),
R
b) supa∈[0,θ] [0,∞) w(y)Q(dx|x, a) ≤ βw(x) + b.

c) Para cada estado x ∈ [0, ∞) la función,


Z
w0 (x, a) := w(y)Q(dx|x, a).
[0,∞)

es continua.
Demostración. Se busca una función de peso w : X → [1, ∞) que satisfaga las
condiciones descritas en este lema.
Para esto considere la función generadora de momentos ψza de la variable aleatoria
za := a − ξ, con a ∈ [0, θ],

ψza (r) = E[exp(r(a − ξ))], r ≥ 0.

10
Como ψa (0) = 1 y ψz0 a (0) < 1 entonces existe un número positivo ρ tal que

ψza (ρ) < 1.

Se define para x ∈ [0, ∞),


w(x) := exp(ρx), (1.11)
Note que w ≥ 1, ya que ρ ≥ 0 y x ≥ 0. Entonces de (1.10) con µ := w, se tiene
Z x+a
w0 (x, a) = w(0)[1 − F (x + a)] + w(x) exp(ρ(a − s))∆(s)ds,
0

como w(0) = 1, [1 − F (x + a)] ≤ 1 y ρ(a − s) ≤ ρ(θ − s), para cada a ∈ [0, θ], se
obtiene
w0 (x, a) ≤ [1 − F (x + a)] + ψzθ (ρ)w(x)
≤ τ w(x) + b, ∀x ≤ 0,
con
β := ψzθ (ρ), b := 1.
Por lo tanto, (a) se cumple. Por otro lado, usando (1.4) se tiene,

|pa + m(x + a) − kE[min(x + a, ξ)]| ≤ |pa + m(x + a) − E[min(x + a, ξ)]|


≤ (p + m)a + mx + µ
≤ (p + m)θ + mx + µ.

Por (1.5) y como θ < µ,

sup |c(x, a)| ≤ k(x + 2µ),


a∈[0,θ]

para cada x ≥ 0. Por lo tanto, para una constante positiva M1 suficientemente


grande,
sup |c(x, a)| ≤ M1 exp(ρ(x + 2µ)),
a∈[0,θ]

para cada x ≥ 0. Sea M := M1 exp(2ρµ), en consecuencia

|pa + m(x + a) − kE[min(x + a, ξ)]| ≤ M w(x), x ≥ 0.

Ası́, (b) se satisface.


La demostración de (c) del lema, es análogo a la demostración del Lema 1.5.1 (b),
tomando µ = w.
Con la función de peso w dada en (1.11) se realiza la construcción del espacio de
funciones con norma ponderada denotado por Bw ([0, ∞)), donde cada función µ
definida sobre [0, ∞) se encuentra en el conjunto Bw ([0, ∞)) si,
 
µ |µ(x)|
k k∞ = sup < ∞.
w x≥0 w(x)

donde k · k es la norma supremo. Se define la w − norma en el espacio Bw (X),


 
µ |µ(x)|
k µ kw :=k k∞ = sup .
w x≥0 w(x)

11
El conjunto Bw ([0, ∞)) es Banach (véase [7]), ya que si {µn } es una sucesión de
Cauchy con la w − norma, entonces { µwn } es sucesión de Cauchy con la norma
uniforme, como B([0, ∞)) es un espacio de Banach, entonces se puede encontrar
una función µ ∈ B([0, ∞)) la cual sea w− lı́mite de {µn }.
Definimos el siguiente operador Tα sobre Bw ([0, ∞)),
( Z )
Tα (µ(x)) := inf pa + m(x + a) − kE[min(x + a, ξ)] + α µ(y)Q(dy|x, a) .
a∈[0,θ] [0,∞)

El operador Tα es contracción sobre el espacio Banach Bw ([0, ∞) entonces existe


un único punto fijo. Aseveramos que tal punto fijo es la función de valor óptimo,
lo cual garantiza la siguiente ecuación conocida en la literatura como ecuación de
valor óptimo.

( Z )
Vα∗ (x) = min pa + m(x + a) − kE[min(x + a, ξ)] + α Vα∗ (y)Q(dy|x, a) .
[0,θ] [0,∞)
(1.12)
Mediante el teorema de Banach y su demostración [13], se encuentran
aproximaciones al punto fijo, de esta manera podemos encontrar una aproximación
a la función de valor óptimo, llamada algoritmo de iteración de valores óptimos α
descontada,
( Z )
vn (x) := min pa + m(x + a) − kE[min(x + a, ξ)] + α vn−1 (y)Q(dy|x, a) ,
a∈[0,θ]) [0,∞)
(1.13)
para cada n ≥ 1 y x ≥ 0, con v0 (·) ≡ 0.
Si n ≥ 1, vn es el costo óptimo en el n-ésimo paso, i.e.,
vn (x) := inf Vn (π, x), x ≥ 0,
π∈Π

donde "n−1 #
X
Vn (π, x) := Exπ t
α (pa + m(x + a) − kE[min(x + a, ξ)]) .
t=0
Finalmente se tiene el teorema de existencia de polı́ticas óptimas.
Teorema 1.5.4 Sea β dada en Lema 1.5.3 (a). Se define γ = αβ, entonces para
la Caminata Controlada de Lindley se cumple:
a) la función de valor óptimo Vα∗ es la única solución de la ecuación de valor
óptimo (1.12) en el espacio Bw ([0, ∞), y
M γn
k vn − Vα∗ kw ≤ , n = 0, 1, ... (1.14)
(1 − γ)
donde M es la constante dada en el Lema 1.5.3.
b) Existe una polı́tica óptima para la Caminata Controlada de Lindley.
Demostración. Utilizando el teorema de existencia de una polı́tica óptima
markoviana con criterio descontado y horizonte infinito presentado en [8] y por
el Lema 1.5.3, se tiene la conclusión de nuestro teorema.

12
1.6. Aproximación a las Polı́ticas Óptimas
En la sección anterior demostramos la existencia de una polı́tica óptima para el
modelo. Para aproximar a tal polı́tica óptima se requiere el algoritmo de iteración
de valores óptimos con la función de costo dada en (1.4), para cada n ≥ 1 y x ≥ 0.

vn (x) = min pa + m(x + a) − kL(x + a) + αE[vn−1 (x + a − ξt )+ ] , (1.15)



a∈[0,θ]

con v0 (·) ≡ 0, donde


Z y
L(y) = kE[min{y, ξ}] = ky[1 − F (y)] + k s∆(s)ds (1.16)
0

y Z
+
E[vn−1 (x + a − ξt ) ] = vn−1 (y)Q(dy|x, a).
X

La ecuación (1.15), es equivalente a

(p + m)y − L(y) + αE[vn−1 (x + a − ξ)+ − px,


 
vn (x) = min (1.17)
y∈[0,θ+x]

donde y := x + a, para cada x ≥ 0, a ∈ [0, θ].


Se define Gn (y) := py +my −L(y)+αE[vn−1 (y −ξ)+ ], para cada n ∈ N. El siguiente
lema demuestra que cada función Gn es convexa.
Lema 1.6.1 Para cada n ∈ N, Gn es una función convexa en X.
Demostración. La prueba se hará por inducción. Para n = 1,

G1 (y) = (p + m)y − L(y), (1.18)

para cada y ∈ [x, θ + x] es una función convexa, ya que la función L(y) es cóncava
y por tanto, −L(y) es convexa en [0, θ + x] y la recta (p + m)y tambien lo es, ası́,
G1 es convexa en [x, x + θ].
Supongamos que vn−1 es convexa, entonces para n tenemos,

vn (x) = min [pa + m(x + a) − L(x + a) + αE[vt−1 (x + a − ξt )+ ]]


a∈[0,θ]

(p + m)y − L(y) + αE[vt−1 (y − ξ)+ ] − px,


 
= min
y∈[x,θ+x]

donde y = x + a. Se debe mostrar que

Gn (y) = (p + m)y − kL(y) + αE[vn−1 (y − ξ)+ ],

y ∈ [x, x + θ] y x ∈ X es convexa. Sabemos que (p + m) − L(y) es una función


convexa, por el caso n = 1, solo falta ver que E[vt−1 (y − ξ)+ ] también lo es. Para
ello sea,

W (y) := E[vn−1 (y − ξ)+ ],


Z
= [vn−1 (y − s)+ ]∆(s)ds.
X

13
Sean y1 , y2 ∈ [0, ∞) y 0 < λ < 1, entonces,
Z
W (λy1 + (1 − λ)y2 ) = [vn−1 (λy1 + (1 − λ)y2 − s)+ ]∆(s)ds
X
= vn−1 (0)[1 − F (λy1 + (1 − λ)y2 )]
Z λy1 +(1−λ)y2
+ vn−1 (λy1 + (1 − λ)y2 )s∆(s)ds,
0

como s = λs + (1 − λ)s vn−1 (0) = λvn−1 (0) + (1 − λ)vn−1 (0) y usando la hipótesis
inductiva que vn−1 es una función convexa tenemos,
Z Z
W (λy1 + (1 − λ)y2 ) = λ vn−1 (y1 − s)+ ∆(s)ds + (1 − λ) vn−1 (y2 − s)+ ∆(s)ds
X X
= λW (y1 ) + (1 − λ)W (y2 ).

Por lo tanto vn es convexa y de esta manera ası́ cada función Gn para n ≥ 1.

Lema 1.6.2 Las polı́ticas óptimas para la Caminata Controlada de Lindley son:

 0, si sn < x,
fn (x) = sn − x, si sn ∈ [x, x + θ], (1.19)
θ, si sn > θ + x.

y el algoritmo de iteración de valores óptimos α son:



 mx − L(x) + αE[vn (x − ξn )+ ], si sn < x,
vn (x) = p(sn − x) + msn − L(sn ) + αE[vn−1 (sn − ξn )+ ], si sn ∈ [x, x + θ],
pθ + m(θ + x) − L(θ + x) + αE[vn−1 (θ + x − ξn )+ ], si sn > θ + x.

Demostración. Utilizando el lema anterior se tiene que cada función Gn es convexa


entonces alcanzan un mı́nimo. Para n = 1, tenemos de (1.15),

v1 (y) = min {G1 (y)} − px.


y∈[x,θ+x]

Derivando G1 (y) con respecto a y, se obtiene,

G01 (y) = p + m − L0 (y).

Por consiguiente, usando (1.16) se tiene que

L0 (y) = k[1 − F (y)] − ky∆(y) + ky∆(y).


= k[1 − F (y)].

Por lo tanto,
G01 (y) = p + m − k[1 − F (y)]. (1.20)
Igualando a cero, la ecuación (1.20),
 
k − (p + m)
F (s1 ) = .
k

14
Dado que F es creciente, existe F −1 , ası́ el punto,
 
−1 k − (p + m)
s1 = F ,
k

minimiza a G1 , y el valor mı́nimo de v1 es y ∗ ,



 x, si s1 < x,
y∗ = s1 , si s1 ∈ [x, x + θ],
θ + x, si s1 > θ + x.

Equivalentemente,

 0, si s1 < x,
f1 (x) = s1 − x, si s1 ∈ [x, x + θ],
θ, si s1 > θ + x.

Sustituyendo en v1 , se tiene,

 mx + L(x), si s1 < x,
v1 (x) = p(s1 − x) + ms1 − L(s1 ), si s1 ∈ [x, x + θ],
pθ + m(θ + x) − L(x + θ), si s1 > θ + x.

Por otra parte, para cada n ∈ N, la función Gn (y), n ∈ N es convexa para cada
y ∈ [x, x + θ] y se tiene un mı́nimo en un punto sn debido a la Lema 1.6.1. Por lo
tanto al minimizar cada función Gn , se obtiene que los minimizadores son,

 0, si sn < x,
fn (x) = sn − x, si sn ∈ [x, x + θ], (1.21)
θ, si sn > θ + x.

y
mx − L(x) + αE[vn (x − ξn )+ ],

 si sn < x,
vn (x) = p(sn − x) + msn − L(sn ) + αE[vn−1 (sn − ξn )+ ], si sn ∈ [x, x + θ],
pθ + m(θ + x) − L(θ + x) + αE[vn−1 (θ + x − ξn )+ ], si sn > θ + x.

Con lo cual se concluye la demostración del lema. 

1.6.1. Aproximación Numérica al Valor Óptimo


Considere un sistema de inventario con demandas distribuidas exponencialmente con
parámetro λ > 0. En la práctica es común considerar una demanda tipo exponencial, (ver
[5]).
El inventario tiene una capacidad θ = 10, entonces el espacio de acciones y acciones
admisibles están dados por

A = A(x) = [0, 10], x ∈ X.

Supóngase que λ = 2, es decir, en promedio se venden 2 productos por cada tiempo en el


que se observa el sistema. Los parámetros de la función de costo dada en (1.4), son k = 60,
p = 30 y m = 20, por lo tanto, la función de costo es de la forma,

c(x, a) = 30p + 20(x + a) − 60E[min(x + a, ξ)].

15
Usando el software Mathematica 10.1, se aproximaron los valores sn dados en (1.21), de
tal forma que buscamos una T ∈ N tal que,

|vT (x0 ) − vT −1 (x)| < ,

donde x = 0 es el estado inicial, o el número de productos que tenemos al inicio en el


inventario y  > 0 es el error de aproximación. Por tanto, para los siguientes valores de ,
se obtuvo lo siguiente.

 T vT (x0 ) sT
.0001 3 -0.488312 0.0881961
.00001 8 -0.488319 0.0881961

En este ejemplo, el valor sT , se estabiliza a partir de T = 3. Ya conocidos los valores


sn se procede a simular el proceso estocástico que depende de una variable distribuida
exponencialmente. En la siguiente tabla se muestra el comportamiento del nivel de
inventarios y sus costos que se generan en algunas etapas.

Tiempo xt Costo
1 12.45 719.13
2 22.31 916.39
3 31.59 1101.98
5 50.52 1480.46
10 99.58 2460.49
20 187.30 4216.08

Donde la primera columna representa el tiempo t, la segunda xt , el valor del estado en el


tiempo t y la tercera columna el costo correspondiente en cada tiempo presentado.

1.7. Conclusiones
En este trabajo se presenta un ejemplo de sistema de inventarios el cual llamamos
Caminata Controlada de Lindley. Se resolvió el problema de control óptimo para el modelo
en estudio y además encontramos las polı́ticas óptimas y aproximaciones al valor óptimo.
En el ejemplo numérico se observa la rapidez de convergencia del procedimiento de iteración
de valores óptimos, ya que a partir de la etapa T = 3 se estabiliza debido a la ecuación
(1.14) además toman valores negativos, lo cual significa ganancias. Finalmente, se observa
que los costos van teniendo un aumento uniforme en relación al tiempo.

Referencias
1. Ash, R. B. y Doléans-Dade, C.A., Probability and Measure Theory, Academic Press
Elsevier, San Diego, 2005.
2. Bellman R., Dynamic Programming, Dover, 2003.
3. Bhat, U. N., An introduction to queueing theory, modeling and analysis in
applications, Birkhauser, 2015.
4. Blomquist, N., A heavy traffic result for the finite dam. Journal of Applied
Probability, 223-228, 1973.
5. Choy Murphy, Cheong L.F., Identification of Demand through Statistical
Distribution Modeling for Improved Demand, School of Information Systems,
Singapore Management University, 2011.

16
6. Ghosal, A., Some aspects of queueing and storage systems, Vol. 23. Springer Science
and Business Media, 2012.
7. Hernández-Lerma, O., Lasserre, J.B., Further Topics on Discrete-Time Markov
Control Processes, Springer, New York, 1999.
8. Hernández-Lerma, O., Lasserre, J.B., Discrete-Time Markov Control Processes,
Basic Optimality Criteria, Springer, New York, 1989.
9. Hernández-Lerma, O., Adaptive Markov Control Processes, Springer, New York,
1989.
10. Lindley D.V., The theory of queues with single server, Proc. Cambridge Philos. Soc.
48, p.p. 277-289, 1952.
11. Moran, P.A.P., The theory of Storage, Metheun and Co., London, 1959.
12. Schal, M., For optimality and for the limit of n-stage optimal policies to be optimal,
Z. Whars. Verw. Geb. 32, p.p. 179-196, 1975.
13. Stromberg K.R., Introduction to Classical Real Analysis, Wadsworth International
Group, Belmont, California, 1981.
14. Tang Q., Gurami T., Precise estimates fot the ruin probability in finite horizon in a
discrete-time model with heavy-tailes insurance and financial risks, Vol. 108, No. 2,
p.p. 299-325, 2003.

17
18
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 2

Distribución Probabilı́stica en el Oscilador Isotónico

Miriam Arenas-Alvarez, Mario Alberto Maya-Mendieta


Facultad de Ciencias Fı́sico Matemáticas
Benemérita Universidad Autónoma de Puebla
Puebla, Pue., Código Postal72000, México
[email protected], [email protected]

Resumen. La mecánica cuántica es una rama de la fı́sica cuyas predicciones se basan


en la probabilidad matemática. La ecuación de Schrodinger, que es fundamental en la
teorı́a, incorpora esa naturaleza probabilı́stica. Lo anterior se pone de manifiesto en el
problema del llamado oscilador isotónico, el cual es un oscilador cuántico con una barrera
centrı́peta en el centro de fuerzas. En este trabajo damos la solución a este sistema cuántico.
La novedad es que el método de solución que presentamos es diferente a los que aparecen
en la literatura, con la ventaja de que es esencialmente algebraico, por lo que es muy
fácil y claro. Como una aplicación de nuestros resultados calculamos la probabilidad de
localización de la partı́cula como función de la posición, con un análisis de los resultados.
Abstract. Quantum mechanics is a branch of physics whose predictions are based on
the mathematical probability. The Schrodinger’s equation, which is fundamental to the
theory, is of probabilistic nature. The above is reflected in the problem of the so-called
isotonic oscillator, which is a quantum oscillator with a centripetal barrier in the center of
forces. In this paper, we give the solution to this quantum system. The novelty is that the
method of solution presented here is different to those that appear in the literature, with
the advantage that is essentially algebraic, so it is very easy and clear. As an application of
our results we estimate the probability of finding the particle as a function of the position,
with an analysis of the results.
Palabras clave: Oscilador, operadores, funciones de onda, espectro de energı́a.

2.1. Introducción
El nombre de oscilador isotónico debe su nombre a que su espectro de energı́as es
idéntico al del oscilador armónico [1], excepto por una constante aditiva. También recibe el
nombre de oscilador singular debido a que su potencial tiene un término que representa una

19
pared infinita [2]. Este sistema cuántico tiene aplicaciones prácticas importantes; aquı́ sólo
mencionamos una de ellas: sirve para diseñar trampas cuánticas para atrapar partı́culas
cargadas en ciertos materiales [3]. Este tipo de aplicaciones puede ser útil, por ejemplo,
en nanotecnologı́a. Se ha encontrado solución exacta para este sistema cuántico por el
método tradicional de series de potencias, pero también por el método de factorización [4].
En este trabajo empleamos el método algebraico de factorización para resolver de nuevo
el problema del oscilador isotónico, particularmente el empleado en la Ref. [4], por lo que
nos referiremos de aquı́ en adelante como oscilador de Dongpei, por el autor de dicha
referencia. La novedad consiste en que empezamos con dicho método de factorización
del hamiltoniano por medio de operadores diferenciales de primer orden, como ocurre
con el oscilador armónico lineal, como se reporta en muchos textos de introducción a
la mecánica cuántica [5], pero a diferencia de éste oscilador lineal, los operadores que
factorizan al hamiltoniano del oscilador de Dongpei no sirven como operadores de escalera
es decir, operadores que suben y bajan de nivel cuántico, pues es necesario introducir
otros operadores para ese papel de operadores de escalera, y además, estos operadores son
de segundo orden en las derivadas, lo cual complica el álgebra necesaria para encontrar
la solución. Lo que hemos encontrado y que reportamos en este artı́culo, es que esos
operadores de segundo orden
- se reducen a operadores de primer orden,
- se encuentra un mecanismo que evita realizar las derivadas, incluso las de primer
orden.
El proceso se basa en asegurarse de que en la solución aparezcan los polinomios
asociados de Laguerre, para que entonces se utilicen las propiedades de dichos polinomios,
las cuales se encuentran en la literatura sobre el tema de funciones especiales de la
fı́sica o de polinomios ortogonales de tipo Sturm-Liouville. El trabajo se desarrolla de
la siguiente manera: En la Sección 2 hacemos un repaso del método de factorización
aplicado al oscilador armónico. En la Sección 3 introducimos al oscilador isotónico y sus
principales propiedades. A continuación, en la Sección 4 introducimos los operadores de
segundo orden y algunas de sus propiedades, para que en la Sección 5 los apliquemos al
estado base o estado de mı́nima energı́a. En la Sección 6 construimos los operadores que
factorizan al hamiltoniano y comprobamos que coinciden con los de la Ref. [4]. Después,
en la Sección 7 demostramos la reducción de los operadores de escalera de segundo orden
a operadores de primer orden y luego, utilizando algunas propiedades de los polinomios
asociados de Laguerre, encontramos las funciones de onda y el espectro de energı́as para
el oscilador isotónico. En la Sección 8 calculamos la densidad de probabilidad para este
sistema isotónico y mostramos algunas gráficas para los primeros estados cuánticos que
muestran los lugares donde la partı́cula puede estar. Finalmente en la Sección 9 damos
algunas conclusiones.

2.2. Factorización del Hamiltoniano del Oscilador


Armónico
El método algebraico para resolver la ecuación de Schrodinger

1 d2 ψ
− + V (x) ψ = Eψ, (2.1)
2 dx2

se empleó por primera vez y con éxito (en los primeros años de la mecánica cuántica)
para el problema del oscilador armónico. Es un método de solución algebraico muy claro
y elegante. Desafortunadamente no se puede aplicar a cualquier potencial, por lo que
se emplea para pocos sistemas cuánticos. Aquı́ damos una descripción muy breve para el

20
oscilador armónico para que en las siguientes secciones lo apliquemos en detalle al oscilador
isotónico de Dongpei.
El hamiltoniano del oscilador armónico y su factorización están dados por
2
b OA = − 1 d + 1 x2 = b
H ab
1
a+ − , (2.2)
2 dx2 2 2
donde bayb a+ son respectivamente los operadores de ascenso y descenso [5]:
 
1 d
a= √
b +x (2.3)
2 dx
 
1 d
a+ = √
b − +x . (2.4)
2 dx
Cada uno de estos operadores son el adjunto uno del otro. Aquı́ debemos recalcar que
los operadores ba+ y ba cumplen las dos condiciones mencionadas arriba:
1) factorizan al hamiltoniano de acuerdo con (2.2),
2) son operadores de escalera en el sentido de que si φn es la función de onda
correspondiente al estado cuántico n, entonces

a+ φn
φn+1 = b (2.5)
φn−1 = b
aφn . (2.6)
Es decir, si se conoce la función de onda de algún estado, con los operadores de escalera
se pueden encontrar absolutamente todas las funciones de onda de todos los estados
propios del hamiltoniano (2.2). Normalmente se encuentra el conjunto de soluciones φ0 ,
φ1 , φ3 ,...,φn ,... de la siguiente manera: Debido a la forma del potencial, el cual es positivo
definido, debe existir un estado de energı́a mı́nima E0 y su función de onda correspondiente
φ0 . Esto se puede representar por

aφ0 = 0
b (2.7)
lo cual indica que ya no hay estados por abajo de E0 . La solución de la ecuación diferencial
(2.7) de primer orden es
2
φ0 (x) = e−x /2
.
Luego, los estados llamados estados excitados E1 , E2 ,..., En ,... se encuentran por la acción
del operador de ascenso de acuerdo a (2.5), empezando con φ0 :

φ1 = a+ φ0
b
φ2 = a+ φ1 = b
b a+ b
a+ φ0
···

El resultado final para la función de onda del estado n es


2
φn (x) = e−x /2
Hn (x) , (2.8)
mientras que la energı́a es
1
En = n + . (2.9)
2
En (2.8) Hn (x) es el polinomio de Hermite de grado n, el cual se construye por
inducción, aplicando sucesivamente (2.5) a partir del estado base. La expresiones (2.8)
y (2.9) representan la solución completa al problema del oscilador armónico cuántico.

21
2.3. Oscilador Isotónico
Como mencionamos en la introducción, este sistema cuántico está definido por un
potencial del tipo
1 2 g
V (x) = x + 2. (2.10)
2 2x
Este potencial tiene un término que es el del oscilador armónico mas un término que
representa una barrera infinita de potencial en el origen, como lo muestra la Figura 1 para
g = 1.

Figura 1: 12 x2 en verde. 1
2x2 en rojo. V (x) = 12 x2 + 1
2x2 en negro

Debido a que es completamente simétrico bajo la transformación x → −x, es suficiente


con estudiar la región 0 < x < ∞, ver la Figura 2. En la literatura se acostumbra identificar
el término cuadrático inverso con una barrera de potencial en un sistema con un potencial
de simetrı́a esférica, como el oscilador armónico tridimensional, por lo que se acostumbra
tomar

g = l (l + 1) ,
donde l > 0 puede representar el momento angular de la partı́cula en ese potencial esférico.
En nuestro caso l es una constante positiva. Entonces el potencial de este oscilador isotónico
es

1 2 l (l + 1)
Vl (x) = x + (2.11)
2 2x2
De la Figura 2 concluimos que las condiciones de frontera que debe cumplir la función
de onda ψ (x), solución de la ecuación de Schrodinger:
2
 
b = Eψ =⇒ − 1 d ψ + 1 x2 + l (l + 1) ψ = Eψ,
Hψ (2.12)
2 dx2 2 2x2
son

lim ψ (x) = 0, (2.13)


x→0

lim ψ (x) = 0. (2.14)


x→∞

22
Figura 2: Potencial isotónico

La solución de (2.12) debe incorporar estas condiciones de frontera,


independientemente del método de solución.

2.4. Operadores de Segundo Orden


En esta sección desarrollamos un método algebraico como el de la Sección 2, pero ahora
aplicado al oscilador isotónico de Dongpei. Empezamos escribiendo la relación entre los
hamiltonianos del oscilador armónico (OA) y el oscilador isotónico

H
b =H b OA + l (l + 1) . (2.15)
2x2
El segundo término de (2.15) sugiere una forma para los nuevos operadores de escalera
mas compleja que (2.3) y (2.4). Tratamos con operadores de segundo orden. En la literatura
se han propuesto varias formas de operadores que contienen segundas derivadas. Tomando
en cuenta la forma del hamiltoniano (2.15), nosotros proponemos al operador

l (l + 1)
Ab=b a−
ab , (2.16)
2x2
que coincide con la que aparece en la Ref. [4], excepto por el denominador (consideramos
que se cometió un error en esa referencia). Sin embargo esta forma no nos permite crear el
estado base o estado de mı́nima energı́a. Una forma mas apropiada para este propósito es
  
1 1
Ab= b a + √ g2 (x) b a + √ g1 (x) , (2.17)
2 2
donde ba es el operador de descenso (2.3) del oscilador armónico. La expresión (2.17) es
una factorización de (2.15). Las funciones gi (x) , i = 1, 2, dependen solo de la variable
x, sujetas a la condición (2.16). A continuación vamos a ver cómo son esas funciones.
Desarrollando (2.17) encontramos
 
1 dg1 1 d 1
Ab=b ab
a+ + (g1 + g2 ) + x + g1 g2 . (2.18)
2 dx 2 dx 2
Comparando (2.16) y (2.18), observamos que en el lado derecho de (2.16) no existe el
operador derivada, por lo que g1 + g2 = 0. Esto nos permite concluir que

g1 = −g2 = g,

23
y (2.18) se convierte en
 
1 dg
Ab=b aba+ − g2 . (2.19)
2 dx
La comparación de (2.16) y (2.19) da lugar a una ecuación tipo Ricatti

dg l (l + 1)
− g2 = − . (2.20)
dx 2x2
Es suficiente con encontrar una solución particular para g (x); sólo debemos cuidar
que se cumplan las condiciones de frontera (2.13) y (2.14). Observando (2.20) podemos
proponer la siguiente forma para g (x):
c
g (x) = . (2.21)
x
Al sustituir (2.21) en (2.20) obtenemos la ecuación algebraica

c2 + c = l (l + 1) ,
con soluciones

l
c= (2.22)
−l − 1
Ası́, la forma deseada de A
b es
  
c c
A
b= a− √
b a+ √
b . (2.23)
2x 2x
Tenemos entonces dos posibilidades para la constante c. Como hemos dicho antes las
soluciones fı́sicamente aceptables deben cumplir las condiciones de frontera (2.13) y (2.14).
Esto es lo que nos permitirı́a elegir el valor correcto para c.

2.5. El Estado Base del Oscilador de Dongpei


Si queremos que A b sea un operador de descenso, debe servir para obtener estados de
energı́a sucesivamente más bajos:

ψn−1 (x) = Aψ
b n (x) .
En particular, si ψ0 (x) es la función de onda del estado de mı́nima energı́a (ya vimos
que debe existir este estado), entonces


b 0 (x) = 0,
lo cual es equivalente, utilizando la forma (2.3) para ba, a la ecuación diferencial de primer
orden
 
d c
+x+ ψ0 (x) = 0,
dx x
cuya solución es
1 2
ψ0 (x) = x−c e− 2 x .
De los valores (2.22) para c, debemos elegir c = −l − 1 para que se cumpla la condición
de frontera (2.13). Ası́ pues, la función de onda del estado base del oscilador de Dongpei
es
1 2
ψ0 (x) = xl+1 e− 2 x . (2.24)

24
2.6. La Factorización del Halmitoniano
Aunque estamos construyendo un operador de descenso A b y su adjunto A b+ , el cual
servirı́a de operador de ascenso, debemos enfatizar que estos operadores no factorizan
al hamiltoniano (2.15) a la manera del oscilador armónico, (2.2). Aunque para nuestro
propósito no es necesario tener estos operadores, por completez vamos a demostrar a
continuación que existen. Con la elección correcta para la constante c, el operador A b es
  
l+1 l+1
Ab= b a+ √ a− √
b . (2.25)
2x 2x
La expresión anterior sugiere definir el operador

l+1
b=b
b a− √ . (2.26)
2x
Se encuentra fácilmente que su adjunto es

l+1
bb+ = b
a+ − √ . (2.27)
2x
Para demostrar que factorizan al hamiltoniano del oscilador isotónico (2.15), hacemos
b+b
el producto b a+ y b
b. En términos de b a ese producto es

l (l + 1)
b+b
b b=b a+ b
a+ − l − 1.
2x2
Pero de la ecuación (2.2) obtenemos

1 d2 1 1
a+ b
a=− + x2 − ,
2 dx2
b
2 2
por lo que

1 d2 1 l (l + 1) 3 b − l − 3.
b+b
b b=− + x2 + −l− =H
2 dx2 2 2x2 2 2
De la ecuación (2.2) para el hamiltoniano obtenemos finalmente la factorización de H
b

3
Hb =bb+bb+l+ . (2.28)
2
La ecuación (2.28) coincide con la ecuación (2.4) de Dongpei [4], aunque con diferente
notación. Como una nota final de esta sección, podemos afirmar que la idea común de
que los operadores que factorizan al hamiltoniano son también los operadores de ascenso
y descenso, no es correcta, al menos en este oscilador isotónico de Dongpei.

2.7. Las Funciones de Onda del Oscilador


Isotónico
El operador de descenso definido por (2.16) tiene como adjunto a

b+ = b l (l + 1)
A a+ b
a+ − , (2.29)
2x2
lo cual se demuestra con un cálculo sencillo. Al sustituir la expresión diferencial (2.4) de
a+ en (2.29) obtenemos
 2 
b+ = 1 d − 2x d + x2 − 1 − l (l + 1) .

A (2.30)
2 dx2 dx x2

25
Apliquemos este operador al estado base,
1 2
ψ0 (x) = xl+1 e− 2 x ,
obteniéndose
 
b+ ψ0 = −2 −x2 + l + 1 + 1 ψ0 .
A (2.31)
2
El polinomio asociado de Laguerre de grado 1 es Ref. [6]


1 (ξ) = −ξ + α + 1. (2.32)
La identificación de (2.31) y (2.32) nos permite escribir a (2.31), con el cambio de
variable ξ = x2 y con α = l + 21 , ası́:

b+ ψ0 = −2Lα
A 1 x
2
ψ0 .
b+ es el operador de ascenso, entonces la función de onda del primer
Si efectivamente A
estado excitado del oscilador isotónico es
l+ 1
b+ ψ0 = C1 L x2 ψ0 (x) ,
2

ψ1 (x) = c1 A 1 (2.33)
donde c1 y C1 son constantes de fase que no tienen ningún papel relevante en lo que sigue.
Se puede demostrar que ψ1 (x) se puede escribir ası́:

1 d2 Lα 2α dLα
   
0 0 α α
ψ1 (x) = + −4x + − 4L1 L 0 ψ0 ,
2 dx2 x dx
siendo Lα0 el polinomio de Laguerre de grado cero. De la misma manera se demuestra que

1 d2 Lα 2α dLα
   
1 1 α α
ψ2 (x) = + −4x + − 4L1 L 1 ψ0 ,
2 dx2 x dx
y, en general que

1 d2 Lα 2α dLα
   
n n α α
ψn+1 (x) = + −4x + − 4L 1 L n ψ0 . (2.34)
2 dx2 x dx
Ahora vamos a reducir el orden de la segunda derivada. Recordando que ξ = x2 , la
relación entre derivadas es

dLαn dLα d2 Lα d2 Lα dLα


= 2x n , 2
n
= 4ξ 2
n
+2 n. (2.35)
dx dξ dx dξ dξ
La ecuación asociada de Laguerre es, de acuerdo con [6]

d2 Lα dLα
ξ 2
n
+ (α + 1 − ξ) n
+ nLα n = 0. (2.36)
dξ dξ
Combinando (2.35) y (2.36) encontramos que la segunda derivada en términos de
variable x es

d2 Lα dLα
 
2α + 1
2
n
= − + 2x n
− 4nLα n. (2.37)
dx x dx
Uno de los usos que se le puede dar a esta última igualdad es transformar al operador
b+ , que en su versión original (2.30) es un operador diferencial de segundo orden, a un
A
operador de primer orden pero aplicado únicamente a polinomios de Laguerre

2α + 1 dLα
   2 
b+ Lα x −1 l (l + 1)
A n = − n
+ − − 2n Lα
n.
2x dx 2 2x2

26
Sin embargo no es éste nuestro propósito. Sustituyendo (2.37) en (2.34) conseguimos
una nueva manera de calcular ψn+1 (x):

dLα
 
ψn+1 (x) = −x n − (2n + 2Lα α
1 ) Ln ψ0 . (2.38)
dx
Hemos reducido el orden de la derivada, pero no nos quedamos ası́. En [6] se encuentra
la siguiente propiedad de los polinomios asociados de Laguerre

d α
ξ Ln (ξ) = (n + 1) Lα α
n+1 (ξ) − (n + α + 1 − ξ) Ln (ξ) .

De nuevo cambiamos de variable ξ = x2 y entonces la expresión anterior se convierte
en

d α 2
Ln x − 2n + 2Lα 2  α
Ln x2 = −2 (n + 1) Lα 2

−x 1 x n+1 x .
dx
Sustituyendo la expresión dentro del paréntesis cuadrado de la Ec. (2.38) llegamos
finalmente a la función de onda del estado n:

ψn+1 (x) = Cn+1 Lαn+1 x


2
ψ0 , (2.39)
en la que hemos puesto una constante de normalización Cn , de la cual hablaremos en
la siguiente Sección. La Ec. (2.39) es la función de onda para la partı́cula dentro del
potencial isotónico de Dongpei. Ahora nos dedicamos a calcular el espectro de energı́a.
Para ello utilizamos la siguiente propiedad del operador de ascenso
h i
H,
b Ab+ = 2A b+ ,
de la cual se deriva la igualdad

Ab+ H
b =H bA b+ − 2Ab+ . (2.40)
Aplicamos el operador hamiltoniano, Ec. (2.28), a la función del estado base
   
3 3

b 0= b b+b b+l+ ψ0 = l + ψ0 , (2.41)
2 2
pues ya vimos que
 
l+1
bψ0 = b
b a− √ ψ0 = 0.
2x
Ahora aplicamos el operador de ascenso a (2.41) quedando
   
A b 0 = l+ 3 A
b+ Hψ b+ ψ0 = l + 3 ψ1 . (2.42)
2 2
Ahora sustituimos (2.40) en el lado izquierdo de (2.42) y con la relación de valor propio

b 1 = E1 ψ1 encontramos la energı́a del primer estado excitado

3
E1 = 2 + l +.
2
Repitiendo el mismo procedimiento encontramos el espectro de energı́a
3
En = 2n + l + , n = 0, 1, 2, . . . (2.43)
2
Con la función de onda (2.39) para el estado n y su correspondiente energı́a (2.43),
hemos resuelto el problema del oscilador isotónico de Dongpei. Enfatizamos el hecho de
que para encontrar la función de onda (2.39) no tuvimos que hacer derivaciones en ningún
momento; únicamente utilizamos propiedades del polinomio asociado de Laguerre.

27
2.8. Densidad de Probabilidad
En esta sección vamos a analizar algunas consecuencias que se derivan de los resultados
obtenidos en las secciones anteriores, en relación con el aspecto probabilı́stico de la función
de onda, la cual expresamos, mediante (2.22) y (2.37), como
1 2
ψn (x) = Cn xl+1 e− 2 x Lα
n x
2
. (2.44)
Como toda teorı́a probabilı́stica, la mecánica cuántica tiene una función de distribución,
la cual es, para el estado cuántico n:
2 2
ρln (x) = |ψn (x)|2 = Cn2 x2l+2 e−x Lα 2

n x (2.45)
y con la condición
Z ∞
ρln (x) dx = 1. (2.46)
−∞

Al igual que la función de onda, la función de distribución, llamada en mecánica


cuántica densidad de probabilidad, depende de dos parámetros reales: uno es el número
cuántico n, que establece el estado dinámico de la partı́cula; el otro es el número l > 0, el
cual determina al conjunto de estados que puede tener un sistema cuántico, determinado
por esa constante l. En otras palabras ρln (x) es la densidad de probabilidad para el estado
cuántico n de la familia l de osciladores de Dongpei, la cual está definida por el potencial
(Ec. (2.11))

1 2 l (l + 1)
Vl (x) = x + .
2 2x2
A continuación vamos a graficar la densidad de probabilidad para los estados n = 0, 1, 2
de la familia l = 1. El potencial para la familia de sistemas l = 1 es
1 2 2
x + 2
Vl=1 (x) =
2 2x
y la densidad de probabilidad correspondiente es
2 2
ρ1n (x) = x4 e−x Lα 2

n x .
Estado cuántico n = 0
 2
1 2 2
ρ00 (x) = L02 x2 e−x = x2 e−x .

Estado cuántico n = 1
 2  2
3 2 5 2
ρ11 (x) = L12 x4 e−x = −x2 + x4 e−x .
2
Estado cuántico n = 2
 2  2
3 2 1 35 2
ρ12 (x) = L22 x4 e−x = x4 − 5x2 + x4 e−x .
2 4
Observamos alguno hechos que son comunes a los tres estados cuántico de la familia
l = 1: Al acercarse a x = 0 la densidad de probabilidad se anula, lo cual es un reflejo de la
condición de frontera para la función de onda

limx→0 ψ (x) = 0.
y lo mismo ocurre para la segunda condición de frontera en −→ ∞

28
Figura 3: Gráfica de ρ10 (x)

Figura 4: Gráfica de ρ11 (x)

lim ψ (x) = 0.
x→∞

El segundo hecho que se observa en las gráficas es que existen picos o máximos, lo
mismo que valles o mı́nimos. Esto es un reflejo del carácter ondulatorio de los objetos
cuánticos. Los máximos se pueden interpretar como aquellos lugares donde la partı́cula
puede estar con mayor probabilidad. Para los mı́nimos la probabilidad de localización es
menor.

2.9. Conclusiones
En este trabajo hemos analizado algunos aspectos del oscilador isotónico de Dongpei,
como la naturaleza del potencial que presenta una pared infinita en el origen, el método
algebraico de solución, en el que hemos realizado una contribución que permite encontrar
esa solución de manera clara y rápida, y finalmente hemos hecho un análisis gráfico de las
soluciones que resaltan la naturaleza probabilistica de la mecánica cuántica.

29
Figura 5: Gráfica de ρ12 (x)

Referencias
1. F. Calogero, Solution of a three-body problem in one dimension, Journal of
Mathematical Physics 10, 1969.
2. P. Camiz et al, Exact solution of a time-dependent quantal harmonic oscilator with
a singular perturbation, Journal of Mathematical Physics 12, 1971.
3. V. V. Dodonov et al. Quantum singular oscillator as a model of a two-ion trap: An
amplification of transition probabilities due to a small-time variations of the binding
potential, Physical Review A 57, 1998.
4. Z. Dongpei. A new potential with the spectrum of an isotonic oscillator, Journal of
Physics 20, 1897.
5. D. J. Griffiths, Introduction to Quantum Mechanics, 2nd ed., Prentice Hall, N.J.,
2005.
6. I. S. Gradshtein and I. M. Ryzhik, Table of Integrals, Series and Products, Seventh
Edition, D. Zwillinger, Editor, Academic Press, Amsterdam, 2007.

30
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 3

Modelos de Ecuaciones Estructurales con Mı́nimos Cuadrados


Parciales

Alexandra Viñán-Andino, Sergio Juárez-Cerrillo


Facultad de Ciencias,
Escuela Superior Politécnica de Chimborazo,
Panamericana Sur km 1 1/2,
Riobamba, Chimborazo 060188, Ecuador,
[email protected], [email protected]
Resumen. Los modelos de ecuaciones estructurales permiten estimar el efecto y las
relaciones entre múltiples variables latentes proponiendo el tipo y dirección de las relaciones
entre éstas. Mı́nimos cuadrados parciales (MCP) es una técnica de ajuste de estos modelos.
Se presenta la metodologı́a de los modelos ajustados con MCP. Se ilustra la modelación con
un estudio para medir la satisfacción de los estudiantes de la Escuela Superior Politécnica
del Chimborazo (Ecuador) con lo que la institución les ofrece académicamente.
La estructura de causa-efecto que se usa considera siete variables latentes: Imagen,
Expectativa, Hardware, Software, Valor Percibido, Satisfacción y Lealtad.

Abstract. Structural equation models allow estimating the effect and relationships
between multiple latent variables by proposing the type and direction of relations between
them. Partial least squares (PLS) is an fit technique of these models. The methodology of
the adjusted models with PLS is presented. The modeling is illustrated with a study to
measure the satisfaction of the students’Polytechnic University of Chimborazo (Ecuador).
The cause-effect structure used considers seven latent variables: Image, Expectation,
Hardware, Software, Perceived Value, Satisfaction and Loyalty.

Palabras clave: Modelos causales, Satisfacción Estudiantil, variables latentes.

3.1. Introducción
Los modelos de ecuaciones estructurales (MEE) son modelos estadı́sticos que nacen de
la necesidad de dar de mayor flexibilidad a los modelos de regresión y su uso se ha extendido

31
entre las ciencias sociales en particular esta difusión se ha observado en el campo de la
economı́a y la dirección de empresas (Cepeda y Roldan, 2004).
Los MEE implican generalizaciones y extensiones de las técnicas de análisis
multivariado de primera generación (Chin, 1998), tales como el análisis de regresión, el
análisis de trayectorias, el análisis factorial, el análisis de correlación canónico, ANOVA,
MANOVA, ANCOVA, MANCOVA, los sistemas de ecuaciones simultáneas y el análisis de
las matrices multiconcepto-multimétodo.
Los MEE, superan considerablemente a las diversas técnicas del análisis multivariado
de primera generación ya que permiten estimar una serie de relaciones de dependencia
interrelacionadas simultáneamente por medio de la combinación de aspectos de la regresión
múltiple y el análisis factorial. Por tanto, esta técnica estadı́stica posibilita analizar de
forma única, sistemática e integrada, el modelo de medición, que vincula a un constructo
latente con sus variables observables y el modelo estructural, que relaciona a los diferentes
constructos entre sı́ (Cepeda y Roldan, 2006).
Hernan Wold desarrolló en 1957 un enfoque de estimación conocido como Mı́nimos
Cuadrados Parciales (MCP). Los procedimientos matemáticos y estadı́sticos subyacentes
a MCP son rigurosos y robustos pero a la vez permiten que el modelo sea flexible en el
sentido de que no establece premisas relativas a los niveles de medición, la distribución de
los datos ni al tamaño de la muestra.
Como consecuencia de su habilidad para modelar constructos latentes bajo condiciones
de no normalidad y con tamaños muestrales pequeños y medianos (Chin et al., 2003), la
utilización de esta técnica de optimización de MCP ha sido objeto de un interés creciente
entre los investigadores en ciencias sociales en los últimos años (Campeau y Higgins, 1995;
Aubert, et al., 1994; Chin y Gopal, 1995).
Para realizar el análisis a través de MEE podemos utilizar dos tipos de técnicas
estadı́sticas y sus correspondientes programas informáticos de referencia: Métodos basados
en el análisis de covarianzas y los Métodos basados en MCP.
La elección de un método u otro dependerá básicamente de los objetivos de la
investigación, del conocimiento que se tenga de la teorı́a, de las propiedades de los datos
y del desarrollo de medidas (Chin, 1998a).
En este sentido, no se trata de procedimientos excluyentes, sino complementarios, al
ser técnicas de análisis multivariado que tratan de modelar las relaciones entre variables
latentes dependientes e independientes de manera simultánea (Chin et al., 1996; Gefen et
al., 2000).
Finalmente, ilustramos esta metodologı́a con un estudio para medir la calidad de la
educación en la Escuela Superior Politécnica del Chimborazo (Ecuador), desde la visión
de la satisfacción de los estudiantes. Presentamos una propuesta para construir ı́ndices
compuestos con Modelos de Ecuaciones Estructurales (MEE) ajustados con Mı́nimos
Cuadrados Parciales (MCP), usando el paquete Plspm de R.

3.2. Modelos de Ecuaciones Estructurales


Los modelos de ecuaciones estructurales tienen dos componentes definidos por dos
sistemas de ecuaciones lineales. Uno es el modelo estructural o modelo interno y el otro es
el modelo de medición o externo.
El modelo estructural establece las relaciones entre las variables latentes y el modelo de
medición postula las relaciones entre las variables latentes con sus indicadoras. El modelo
estructural se expresa por
η = Bη + Γξ + ε,
donde η es un vector p × 1 de variables latentes endógenas, ξ es un vector q × 1 de variables
latentes exógenas, B y Γ son matrices de parámetros desconocidos, de tamaños p × p y

32
p × q, respectivamente. El componente ε es un vector p × 1 de errores aleatorios.
Los supuestos del modelo estructural es que sus componentes estocásticos satisfacen
las condiciones E (ε) = 0, Var (ε) = Σε , Cov (η, ε) = 0, Cov (ξ, ε) = 0, lo que tiene como
consecuencia la especificación predictiva

E (η | η, ξ) = Bη + Γξ.

El modelo estructural es un sistema causal con errores no correlacionados. Las


ecuaciones del modelo de medición para las variables latentes endógenas están dadas por

Y = ΛY η + δY

donde y es un vector ηY × 1 de variables observables relacionadas linealmente con


las variables latentes endógenas η. La matriz ΛY η es de tamaño ηY × p y contiene
los coeficientes de la estructura lineal entre las variables latentes endógenas con sus
indicadoras. El término δY es un vector de errores del modelo de medición que satisface
E (δY ) = 0, Var (δY ) = ΣδY y Cov (η, δY ) = 0. La otra parte del modelo de medición son
las que relacionan a las variables latentes exógenas con sus indicadoras

X = ΛXη + δX

donde X es un vector ηX × 1 con las variables observables asociadas linealmente a las


variables latentes exógenas. La matriz LambdaXη es de dimensión ηX × q y tiene a los
coeficientes de la estructura lineal entre ξ con sus indicadoras X. El vector δX es un término
de error que satisface E (δX ) = 0, Var (δX ) = ΣδX y Cov (η, δX ) = 0.

3.2.1. Indicadores Reflexivos y Formativos


El primer paso en la modelación con ecuaciones estructurales es especificar el modelo
estructural y las relaciones entre variables latentes con sus indicadoras. Cuando una
variable latente se expresa como función de sus indicadoras se dice que los indicadores
son formativos. En esta situación las variables observadas causan o preceden a la
variable latente. La variable latente queda determinada por una combinación lineal de
sus indicadores. Bollen (1989) llama a los indicadores formativos indicadores causales,
puesto que provocan la existencia de la variable latente. De esta forma la variable latente
se considera un efecto del indicador y por lo tanto, la evaluación de validez y confiabilidad
de la variable latente no tiene sentido.
Por otro lado, cuando las indicadoras se expresan como una función de la variable
latente se dice que son indicadoras reflexivas. En este caso, las indicadoras “reflejan” o son
manifestaciones de la variable latente, ésta da origen o causa las mediciones observadas. La
variable latente precede a los indicadores en un sentido causal. Las indicadoras reflexivas
están determinadas por la variable latente y en consecuencia covarı́an con ésta. Bollen
(1989) denomina a estos indicadores como indicadores “efecto”.
Es muy importante tener clara la noción de causalidad, ası́ como las posibles relaciones
que pueden existir entre variables en los modelos de ecuaciones estructurales ya que existen
variables que tienden a moverse conjuntamente, sin que la asociación estadı́stica entre
variables sea una condición suficiente para que exista causalidad.

3.3. Mı́nimos Cuadrados Parciales


3.3.1. El Modelo
En esta sección volvemos a plantear el MEE pero de una forma que conviene al
algoritmo de MCP.

33

Sea ξ = ξ1 , . . . , ξp el vector de variables latentes (tanto exógenas como endógenas).
Cada variable latente ξj tiene sus variables de medición o indicadoras, estas variables se
observan en n elementos, lo que resulta en p matrices X1 , . . . , XP de tamaño n × kj , (j =
1, . . . , p). El modelo estructural tiene p ecuaciones que describen las relaciones entre ellas
X
ξj = βj0 + i → j βji ξi + εj
i→j

donde significa que la variable latente ξi es predictora para la variable latente ξj . Los
coeficientes βji se llaman coeficientes estructurales, βj0 es el intercepto y εj es un término
de error aleatorio. En el algoritmo de MCP la especificación estructural del modelo debe
ser recursiva, esto significa que no debe contener ciclos causales, es decir que en alguna
ecuación del modelo una variable latente sea explicatoria de otra y en otra ecuación del
modelo los roles se inviertan. Los supuestos distribucionales son
X
E (ξj | ξi ) = Bj0 + βji ξi .
i→j

El modelo de medición postula las relaciones entre las variables latentes con sus
respectivas variables de medición, es decir, el modelo de medición relaciona a ξj con sus
respectiva matriz Xj . Como ya se vio en la sección anterior, esto puede ser de forma
reflexiva o formativa. Si la especificación es reflexiva se tiene:

Xjk = λ0jk + λjk ξj + δjk , k = 1, . . . , kj

y el suspuesto E (δjk ) = 0 por lo que

E (Xjk ) = λ0jk + λjk ξj

Si la especificación es formativa se tiene

ξj = λ0j + λ1j Xj1 + . . . + λkj j Xjkj + δj

y el suspuesto E (δj ) = 0 por lo que

E(ξj ) = λ0j + λ1j Xj1 + . . . + λkj j Xjkj .

En ambas especificaciones, reflexiva o formativa, los coeficientes λjk se llaman cargas y los
λ0 son interceptos.

3.3.2. Los Pesos


En MCP las variables latentes se estiman con combinaciones lineales de sus indicadoras

ξˆj = ωj1 Xj1 + ωj2 Xj2 + . . . + ωjkj Xjkj .

Los coeficientes ωjk se llaman pesos y las variables latentes estimadas ξˆj se llaman scores.
Este aspecto es fundamental en MCP y estimación de las variables latentes mediante los
scores se hace en términos de sus indicadoras sin importar si la especificación del modelo
de medición es reflexiva o formativa.

34
3.3.3. El Algoritmo de MCP
Los enfoques más conocidos para analizar MEE, y por tanto más utilizados, son los
basados en el Análisis de Estructuras de Covarianzas, estos enfoques buscan proporcionar
una descripción de los mecanismos causales.
Wold desarrolló en 1957 un enfoque de estimación conocido como Mı́nimos Cuadrados
Parciales (MCP).
El algoritmo de MCP tiene tres etapas:
1. Producir los pesos ωjk para construir los scores ξˆj .
2. Estimar los coeficientes estructurales βji del modelo estructural.
3. Estimar las cargas λjk del modelo de medición.
La etapa clave del algoritmo es la primera: obtener los escores ξˆj . Esta etapa se lleva a
cabo mediante un proceso iterativo. Este proceso inicia con valores arbitrarios iniciales de
los pesos, con estos valores se producen otros valores de los pesos y ası́ sucesivamente
hasta que se alcanza un criterio de convergencia numérica y se obtienen los scores |
ξˆj , (j = 1, . . . , p). Notemos que cada ξˆj es un vector n × 1, es decir, ξˆj = ξˆ1j , ξˆ2j , . . . , ξˆnj
y que ξˆij es el score de la variable latente j del elemento i. Wold, H. (1980).
En la etapa 2 se obtiene al modelo estructural estimando a los coeficientes estructurales
βji de cada ecuación del modelo estructural
X
ξj = βj0 + βji ξi + ξi
i→j

mediante regresión lineal múltiple con mı́nimos cuadrados ordinarios. Si Zj es la matriz


con los scores de las variables latentes asociadas con ξj y βj es el correspondiente vector
de coeficientes estructurales, entonces
−1 |
β̂j = Zj| Zj Zj ξˆj .

Finalmente en la etapa 3 se estima al modelo de medición. Esto se hace estimando a


las cargas de las ecuaciones del modelo de medición. Las cargas λjk se estiman con las
correlaciones entre las variables latentes con sus indicadoras
 
λ̂jk = corr Xjk , ξˆj .

3.4. Evaluación del Modelo


Cuando se postula un MEE que se va a ajustar con MCP hay que tener en cuenta tres
consideraciones metodológicas:
1. Determinar la naturaleza apropiada de las relaciones entre variables latentes y
variables observadas. Es decir, determinar si se tendrán indicadoras reflexivas o
indicadoras formativas.
2. Valorar y evaluar el modelo de medición.
3. Valorar y evaluar el modelo estructural.

3.4.1. Evaluación del Modelo de Medición


Indicadores Reflexivos
La evaluación confiabilidad busca determinar la unidimensionalidad de las indicadoras.
Esto se hace de tres formas:

35
1. La unidimensionalidad de ξj se verifica con un análisis de componentes principales
de Xj , si el primer eigenvalor es mayor que 1 y el segundo eigenvalor es menor que
1 se considera que hay unidimensionalidad.
2. El alfa de Cronbach
P
h6=h0 Corr(Xhj , Xh0 j ) kj
αj = P × .
kj + h6=h0 Corr(Xhj , Xh0 j ) kj − 1
Valores de αj mayores que 0.7 se consideran indicativos de unidimensionalidad.
3. La ρ de Dillon-Goldstein
P 2
kj
k=1 λkj Var(ξj )
ρ j = P 2 .
kj Pkj
k=1 λkj Var(ξj ) + k=1 Var(εkj )

Valores de ρj mayores que 0.7 se consideran indicativos de unidimensionalidad.


La evaluación de validez busca determinar que la variable latente se esté midiendo por
sus indicadoras. Esto se mide con tres cantidades
1. Los pesos de las variables latentes
ξˆj = ωj1 Xj1 + ωj2 Xj2 + . . . + ωjkj Xjkj .

2. Las cargas λ̂ij . Son las correlaciones de cada variable de medición con las
variables latentes construidas con el modelo ajustado y las cargas cruzadas son
las correlaciones entre una variable latente con las restantes variables de medición.
En este caso, las cargas son mayores que las cargas cruzadas.
3. Los ı́ndices de comunalidad cuantifican la calidad de medición de cada variable
latente ξj en términos de sus indicadoras Xj
kj
1 X  
ICj = Corr2 Xkj , ξˆj .
kj
k=1

Un ICj mayor que 0.5 es lo ideal ya que esto señala que las indicadoras explican
más del 50 % de varianza de ξj .

3.4.2. Evaluación del Modelo Estructural


Posteriormente a la evaluación del modelo de medición se pasa a la evaluación del
modelo estructural. Esto se hace evaluando cada una de las ecuaciones de regresión
estimadas del modelo estructural, para ello se deben revisar las cantidades siguientes:
1. Coeficientes de determinación.
2. Índices de redundancia.

Una medida de ajuste global del modelo de AFC es GoF = CxR̄2
3. Índice GoF . P
q
donde C = j=1 kj ICj/p es el promedio de todos los ı́ndices de comunalidad de
R̄2 es el promedio de los R2 correspondientes a las q − 1 regresiones del modelo
estructural.

Validación con Bootstrap


Finalmente se pasa al cálculo de la precisión de todos los parámetros estimados. Eso
se hace con un método no paramétrico que se llama bootstrap. Con este método se
construyen intervalos de confianza para los pesos, las cargas, los coeficientes estructurales
y los coeficientes de determinación.

36
3.5. Modelo de Satisfacción INSPOCH
El ı́ndice de satisfacción INSPOCH está anidado en una estructura de relaciones que
inicia con la Imagen y la Calidad Percibida, ésta se divide en dos variables:

Variables latentes exógenas: son los elementos humanos y no humanos de la


institución.

Variables latentes endógenas: las Expectativas, el Valor Percibido, la Satisfacción y


la Lealtad con la institución.

Validación con Bootstrap

Finalmente se pasa al cálculo de la precisión de todos los parámetros estimados. Eso


se hace con un método no paramétrico que se llama bootstrap. Con este método se
construyen intervalos de confianza para los pesos, las cargas, los coeficientes estructurales
y los coeficientes de determinación.

3.6. Modelo de Satisfacción INSPOCH


El ı́ndice de satisfacción INSPOCH está anidado en una estructura de relaciones que
inicia con la Imagen y la Calidad Percibida, ésta se divide en dos variables:

Variables latentes exógenas: son los elementos humanos y no humanos de la


institución.

Variables latentes endógenas: las Expectativas, el Valor Percibido, la Satisfacción y


la Lealtad con la institución.

En la Figura 1 se muestra el diagrama estructural del modelo y en el Cuadro 1. Las


variables manifiestas que operacionalizan cada variable latente.

37
38
3.6.1. Ecuaciones del Modelo
Se proponen las ecuaciones para los modelos: Estructural y de Medición de las
siguientes variables latentes:

LV1 : Imagen
LV2 : Expectativa
LV3 : Hardware
LV4 : Software
LV5 : Valor Percibido
LV6 : Satisfacción
LV7 : Lealtad

El modelo estructural está dado por dado por:


X
LVj = β0 + βji LVi + ej
i=j

Sus especificaciones distribucionales son


X
E (LVj | LVi ) = β0 + βji LVi
i=j

Cov (LVj , ej ) = 0

Para el cálculo del INSPOCH las ecuaciones del modelo estructural son

LV2 = β20 + β21 LV1 + e2


LV5 = β50 + β52 LV2 + β53 LV3 + β54 LV4 + e5
LV6 = β60 + β61 LV1 + β62 LV2 + β64 LV4 + β65 LV5 + e6
LV7 = β70 + β71 LV1 + β76 LV6 + e7

El modelo de medición está dado por dado por:

Xjk = λ0jk + λjk LVj + ejk

donde Xjk son las variables manifiestas del modelo. Sus especificaciones distribucionales
son
E (Xjk | LVj ) = λ0jk + λjk LVj
Para el cálculo del INSPOCH las ecuaciones del modelo la medición son
X11 = λ011 + λ11 LV1 + e11




X12 = λ012 + λ12 LV1 + e12
Para LV1
X13 = λ013 + λ13 LV1 + e13



X14 = λ014 + λ14 LV1 + e14


 X21 = λ021 + λ21 LV2 + e21

X22 = λ022 + λ22 LV2 + e22






X23 = λ023 + λ23 LV2 + e23
Para LV2


 X24 = λ024 + λ24 LV2 + e24

X25 = λ025 + λ25 LV2 + e25




X26 = λ026 + λ26 LV2 + e26

39

 X31 = λ031 + λ31 LV3 + e31





 X32 = λ032 + λ32 LV3 + e32

X33 = λ033 + λ33 LV3 + e33



Para LV3 X34 = λ034 + λ34 LV3 + e34

X35 = λ035 + λ35 LV3 + e35






 X
 36
 = λ036 + λ36 LV3 + e36


X37 = λ037 + λ37 LV3 + e37

X41 = λ041 + λ41 LV4 + e41

Para LV4 X42 = λ042 + λ42 LV4 + e42

X43 = λ043 + λ43 LV4 + e43


X51 = λ051 + λ51 LV5 + e51

Para LV5 X52 = λ052 + λ52 LV5 + e52

X53 = λ053 + λ53 LV5 + e53


X61 = λ061 + λ61 LV6 + e61

Para LV6 X62 = λ062 + λ62 LV6 + e62

X63 = λ063 + λ63 LV6 + e63



X71 = λ071 + λ71 LV7 + e71

X
 72

 = λ072 + λ72 LV7 + e72
Para LV7 X73 = λ073 + λ73 LV7 + e73

X74

 = λ074 + λ74 LV7 + e74



X75 = λ075 + λ75 LV7 + e75

3.6.2. Cálculo del ı́ndice de Satisfacción


Una vez ajustado el modelo se procede a calcular el ı́ndice, con la metodologı́a siguiente:
El ı́ndice se calcula con la expresión

E (Sat) − min (Sat)


I= × 100
max (Sat) − min (Sat)

donde Sat es la variable latente “Satisfacción”.

Sat = ω1 S1 + ω2 S2 + ω3 S3

Cada cantidad I se estima ası́:

Ê(Sat) = ŵ1 S̄1 + ŵ2 S̄2 + ŵ3 S̄3 + . . . + ŵn S̄n


min(Sat) = ŵ1 min S1 + ŵ2 min S2 + ŵ3 min S3 + . . . + ŵn min Sn
max(Sat) = ŵ1 max S1 + ŵ2 max S2 + ŵ3 max S3 + . . . + ŵn max Sn

donde S̄1 , S̄2 , S̄3 , . . . , S̄n son los promedios de las variables indicadoras de satisfacción y
ŵ1 , ŵ2 , ŵ3 , . . . , ŵn son los pesos estimados.

40
3.7. Resultados

Partimos por evaluar el modelo de medición mediante las alfas de Cronbach y Rho
de Dillon, resultando ser mayores a 0.7 el cual indica que existe unidimensionalidad, esto
significa que las variables manifiestas describen adecuadamente a su respectiva variable
latente, como se muestran en la cuadro 1.

Cuadro 3.1: Fiabilidad compuesta de las Variables Latentes INSPOCH.

Variable Latente Alfas de Cronbach Rho de Dillon


Imagen 0.87 0.91
Expectativa 0.89 0.92
Hardware 0.93 0.94
Software 0.87 0.92
Valor Percibido 0.90 0.94
Satisfacción 0.93 0.95
Lealtad 0.82 0.88

Evaluando los resultados de las cargas exteriores que resultan ser mayores que las
cargas transversales para todas las variables latentes y las variables de medición. Además,
al recorrer las correlaciones de cada variable de medición con las variables latentes, las
variables de medición están más correlacionadas con su variable latente que con las otras
variables latentes, existiendo una validez discriminante a nivel de variable de medición,
como se muestran en la cuadro 3.2.

41
Cuadro 3.2: Cargas exteriores y Cargas transversales para el modelo de medición
INSPOCH

VL VM Imagen Expec- Hardware Software V. Per- Sat Leal-


tativa cibido tad
I1 0.84 0.56 0.53 0.42 0.44 0.50 0.40
I2 0.89 0.61 0.57 0.51 0.51 0.55 0.47
Imagen
I3 0.86 0.55 0.53 0.47 0.45 0.50 0.45
I4 0.82 0.51 0.48 0.41 0.44 0.49 0.41
E1 0.55 0.76 0.63 0.57 0.55 0.57 0.51
E2 0.53 0.79 0.65 0.54 0.47 0.52 0.43
Expec- E3 0.51 0.83 0.66 0.57 0.49 0.54 0.45
tativa E4 0.54 0.82 0.66 0.55 0.48 0.54 0.46
E5 0.53 0.81 0.66 0.62 0.58 0.59 0.55
E6 0.51 0.80 0.65 0.69 0.51 0.58 0.50
HW1 0.54 0.68 0.85 0.69 0.69 0.67 0.58
HW2 0.53 0.66 0.85 0.67 0.68 0.65 0.58
HW3 0.44 0.58 0.77 0.58 0.60 0.59 0.52
Hardware HW4 0.50 0.66 0.84 0.69 0.64 0.63 0.59
HW5 0.52 0.71 0.82 0.65 0.59 0.63 0.54
HW6 0.54 0.73 0.85 0.68 0.62 0.67 0.58
HW7 0.52 0.69 0.82 0.65 0.59 0.61 0.51
SW1 0.48 0.66 0.71 0.89 0.75 0.73 0.68
Software SW2 0.51 0.69 0.73 0.92 0.69 0.72 0.65
SW3 0.45 0.62 0.68 0.88 0.65 0.66 0.59
P1 0.52 0.61 0.73 0.74 0.90 0.75 0.69
V. PercibidoP2 0.50 0.56 0.68 0.70 0.93 0.70 0.64
P3 0.46 0.59 0.67 0.69 0.91 0.71 0.68
S1 0.58 0.66 0.73 0.74 0.75 0.93 0.71
Sat S2 0.57 0.64 0.72 0.74 0.75 0.95 0.75
S3 0.53 0.65 0.69 0.73 0.72 0.93 0.78
L1 0.40 0.48 0.52 0.57 0.54 0.63 0.82
L2 0.52 0.60 0.66 0.69 0.72 0.79 0.91
Lealtad L3 0.39 0.47 0.55 0.59 0.63 0.64 0.84
L4 0.34 0.37 0.39 0.44 0.38 0.45 0.54
L5 0.27 0.35 0.42 0.44 0.50 0.51 0.70

Finalmente, el ı́ndice GoF, en este caso resulta ser de 0.66, lo que nos describe la
calidad general del modelo de interior y exterior considerando la comunalidad y los valores
de R2 satisfactoriamente.

Cálculo del Índice de Satisfacción


Una vez ajustado el modelo se obtiene los valores de los promedios de las variables
indicadoras de satisfacción y los pesos estimados S̄1 = 7.63, S̄2 = 7.52, S̄3 = 7.55,
ŵ1 = 0.36, ŵ2 = 0.36, ŵ3 = 0.35

E(Sat) − min (Sat)


INSPOCH = × 100 = 72.94 %
max (Sat) − min (Sat)

42
Se puede identificar al Valor Percibido como el principal motor de la Satisfacción. La
calidad percibida de los elementos humanos y no-humanos son los conductores más débiles
con efecto similar en la Satisfacción.

3.8. Conclusiones
Los Modelos de Ecuaciones Estructurales resultan ser de gran utilidad puesto que
permiten proponer el tipo y dirección de las relaciones que se espera encontrar entre
las diversas variables contenidas en él, permitiendo estimar los parámetros que vienen
especificados por las relaciones propuestas teóricamente. Denominados también modelos
confirmatorios, ya que el interés fundamental es çonfirmar”mediante el análisis de la
muestra las relaciones propuestas entre las variables en estudio.
El campo de aplicación de los MEE ajustados con MCP se evidencian en el
ámbito social y educativo. Existen varios estudios a nivel mundial se han utilizado esta
metodologı́a. En este estudio se presentó la metodologı́a explicada que permitió estimar el
modelo de satisfacción, reflejando un bajo porcentaje de percepción de la satisfacción de
los estudiantes, con un ı́ndice compuesto llamado INSPOCH del 72.94.

Referencias
1. Bollen K. A., Structural equations with latent variables, Wiley, New York, 1989.
2. Cepeda, G.; y Roldán, J.L., Aplicando la Técnica PLS en la Administración
de Empresas. Conocimiento y Competitividad. Congreso ACEDE (14). Núm. 14.
Murcia, 2004.
3. Cepeda, G.; y Roldán, J.L., Aplicando en la practica la técnica PLS en la
administración de empresas. Libro Actas XIV, Congreso de ACEDE, Murcia, 2006.
4. Campeau, D.R., and Higgins, C.A., Computer Self-Efficacy: Development of a
Measure and Initial Test, MIS Quarterly, Vol. 19, No. 2, pp. 189-211, 1995.
5. Chin, W.W., The partial least squares approach for structural equation modeling. In:
Marcoulides, G.A. (Ed.), Modern Methods for Business Research. Lawrence Erlbaum
Associates, London, 1998.
6. Wold, H., Soft Modeling: Intermediate between Traditional Model Building and Data
Analysis?, Mathematical Statistics, 6, pp. 33-346, 1980.

43
44
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 4

Aplicación de la Función Secante Hiperbólica al Ajuste


Numérico del Producto Interno Bruto

Ana Marı́a Islas-Cortés1 , Gabriel Guillén-Buendı́a2 , Yolanda Montoya-Vargas1


1
Instituto Politécnico Nacional, ESIT, Av. IPN s/n, 07320,
Lindavista GAM, Ciudad de México,
2
Instituto Politécnico Nacional, ESIME Azcapotzalco,
Av. de las Granjas 682, Azcapotzalco, Ciudad de México,
[email protected], [email protected], yolanda [email protected]

Resumen. En los estudios económicos es frecuente el uso de modelos de crecimiento


como el exponencial y logı́sticos de base exponencial y cuadrática, todos ellos con niveles
de ajuste numérico altamente significativos. En el presente se usa además de los modelos
antes citados, un modelo logı́stico con base en la función secante hiperbólica al cuadrado,
lo que enriquece las posibilidades de los analistas en esta área. Se concluye que el modelo
de base hiperbólica logra bondades de ajuste numérico significativos al 95 % de confianza
estadı́stica para los datos de Producto Interno Bruto per cápita de Brasil, México y China
para el periodo de 1960 al 2013.
Abstract. In economics, growth models with highly significant numerical fit levels
such as exponential and logistic with quadratic basis are commonly used. In the present
work a logistic model based on the squared hyperbolic secant function is used in addition
to the aforementioned models in order to enrich the analysis of this area. It is concluded
that the hyperbolic base model achieves significant numerical fit benefits at 95 % statistical
confidence for the data of Gross Domestic Product per capita of Brazil, Mexico and China
from 1960 to 2013
Palabras clave: Producto interno Bruto, Modelos econométricos, Funciones
hiperbólicas.

4.1. Introducción
En el pasado, el análisis de datos, de manera cualitativa buscaba encontrar patrones
que le ayudarán a tomar decisiones acertadas en los negocios y/o actividades humanas,

45
sin usar planteamientos rigurosos. En la actualidad no se concibe el buen juicio, ni crı́tica
en el pronóstico de negocios, actividades comerciales e industria, sin Matemáticas.
En el estudio de datos econométricos con frecuencia se usan modelos matemáticos como
instrumentos de análisis [1], algunos de ellos, son los modelos de crecimiento exponencial,
logı́sticos y/o Gompertz. Sin embargo, el uso de modelos alternativos enriquece las
posibilidades de los analistas económicos.
En este sentido, el presente inicia con la exposición de modelos de crecimiento
ampliamente conocidos en la literatura de la especialidad, que permitieron comparar los
resultados obtenidos con éstos y el modelo logı́stico de base secante hiperbólica al cuadrado,
que es el modelo objetivo de este trabajo.
En muchas aplicaciones, la velocidad de cambio de una variable es proporcional al valor
de P (t). Cuando es una función de tiempo, la proporción se escribe [2]:

dP (t)
= −kP (t). (4.1)
dt
Aplicando el método de separación de variables:
Z P (t) dP (t)
Z t
=k dt
P (t)0 P (t) 0
.
Integrando, resulta el modelo exponencial:

P (t) = P (t)0 ekt , (4.2)


en donde k es la constante de proporcionalidad. El crecimiento exponencial ocurre cuando
k es mayor que cero, y el decrecimiento exponencial cuando k es menor que cero.
Otro modelo que describe crecimiento, es la ecuación diferencial logı́stica [3] de
expresión:

!
dP (t) P (t)
= kP (t) 1 − , (4.3)
dt P (t)∞
en donde k y P son constantes positivas, pero la segunda no crece indefinidamente, sino
que se aproxima a P∞ (valor asintótico) que se determina por progresión geométrica.
Al aplicar el método de separación de variables y, fracciones parciales:

dP (t) dP (t)
Z Z Z
− =k dt
dt P (t)∞ − P (t)
.
Integrando

LN |P (t)| − LN |P (t)∞ − P (t)| = kt + C, (4.4)


y reduciendo la expresión anterior, se llega a

P (t)∞
P (t) = , (4.5)
1 + C1 e−kt
en donde C1 y k son constantes.
Modificando el modelo anterior para incrementar la bondad de ajuste numérico sobre
datos económicos, se puede escribir el modelo logı́stico de base cuadrática [4] como:

46
P (t)∞
P (t) = , (4.6)
1 + ea2 t2 +a1 t+a0
en donde a1 , a2 y a3 son constantes y P (t)∞ es el valor máximo asintótico de la variable
P (t).

Como se indicó al principio del presente, el objetivo fue usar un modelo logı́stico
fundamentado en la secante hiperbólica [6], ya que su gráfica corresponde a una campana
envolvente y, ésta es más sensible al usar el cuadrado de la misma. Resulta interesante el uso
de la mitad del modelo citado para ajustar datos que describan una evolución sigmoidal,
como es el caso que nos ocupa.
Entonces, la función secante hiperbólica al cuadrado se escribe:

P = secht. (4.7)
Adicionando los respectivos parámetros de cambio de desplazamiento y escala, el
modelo resulta:

P (t) = P (t)2m k1 (t − tm ) , (4.8)


en donde
P (t) es la frecuencia dimensional correspondiente a la observación del tamaño t.
P (t)m es la moda estadı́stica en la distribución de peso estadı́stico de muestra.
k1 es la constante de esbeltez de la ya citada distribución.
tm es la media aritmética de la distribución de peso estadı́stico de muestra.
Al integrar la expresión anterior:

Z t P (t)m
Z t
P (t)dt = sech2 k1 (t − tm ) dt
−∞ k1 −∞

Y por lı́mites, el valor P (t)C∞ es el máximo asintótico de la curva de frecuencias


cumulativa:

2P (t)m
P (t)C∞ = , (4.9)
k1 ∆t
en donde ∆t es el intervalo usado para en la distribución de peso estadı́stico y 0.5 es
su valor numérico.
Entonces, la ecuación funcional cumulativa es:

P (t)C∞
P (t)C = [1 + tanh (t − tm )] , (4.10)
2
en donde P (t)C es el número cumulativo de individuos.
En base a lo anterior, el modelo logı́stico corresponde a la mitad de la función
cumulativa, es decir:

" #
P (t)C∞ k
P (t)C = 1 + tanh (t − tm ) . (4.11)
2 2

47
4.2. Datos del Producto Interno Bruto de Brasil,
México y China
De acuerdo con estudios económicos, se espera que para el año 2020 haya un cambio
importante en el equilibrio global del poder económico mundial en comparación con el
actual. Las economı́as emergentes crecerán con gran importancia y la República Popular
de China habrá superado a los Estados Unidos de Norteamérica para liderar la lista de las
diez economı́as más grandes del mundo con relación al producto Interno Bruto PIB [6], el
cual expresa el valor monetario de la producción de bienes y servicios de demanda final de
un paı́s o región durante un periodo de tiempo determinado.

Para el desarrollo del presente fueron considerados los datos del PIB per cápita de
tres paı́ses, un paı́s emergente como Brasil, la República Popular de China que en el
futuro próximo se espera encabece la lista de las economı́as más importantes del orbe,
y desde luego México. Los datos de PIB per cápita corresponden al periodo de 1960 al
año 2013, obtenidos de una fuente económica [7]. En la Figura 1 se ilustran los datos
señalados para los tres paı́ses en estudio, el tiempo fue codificado para simplificar los
cálculos t = fecha − 1960 .

Figura 1: Datos de producto Interno Bruto (PIB) per cápita de Brasil, México y
China del periodo de 1960 al año 2013.

Se procedió a ajustar el modelo de crecimiento exponencial a los datos de la figura


anterior, usando mı́nimos cuadrados. Con la finalidad de realizar un estudio comparativo
también fueron ajustados los modelos logı́sticos de base exponencial y cuadrática, a
través de su correspondiente transformación lineal algebraica [8], la ası́ntota máxima
fue determinada por progresión geométrica. Finalmente, para dar cabal cumplimiento al
objetivo de trabajo, fue ajustado el modelo de secante hiperbólica al cuadrado a los datos
en estudio, también aplicando mı́nimos cuadrados a su correspondiente transformación
lineal algebraica.

48
4.2.1. Ajuste Numérico de los datos del PIB de Brasil,
México y China

El ajuste numérico del modelo exponencial (2), indicado en antecedentes, para los
datos del PIB de Brasil, condujo al modelo numérico-funcional siguiente:

PIB(t)Brasil = 275.3106e0.0711t ,
(4.12)
r = 0.99998.

La Figura 2 muestra la bondad de ajuste numérico alcanzado con el modelo (11), y de


acuerdo al coeficiente de correlación, resultó significativo al 99 % de confianza estadı́stica.
Mientras que señala un crecimiento del PIB.

Figura 2: Ajuste numérico del modelo exponencial sobre el PIB de Brasil


correspondiente al periodo de 1960 al año 2013.

En cuanto al modelo numérico-funcional del PIB para México, el resultado fue:

PIB(t)México = 410.0176e0.0661t ,
(4.13)
r = 0.949370.

Dicho ajuste se ilustra en la Figura 3, en ella se observa una bondad de ajuste numérico
significativa la 95 % de confianza estadı́stica, de acuerdo al coeficiente de correlación r , y
k = 0.0661 que indica un crecimiento del PIB per cápita.

49
Figura 3: Ajuste numérico del modelo exponencial sobre el PIB de México
correspondiente al periodo de 1960 al año 2013.

Para el PIB per cápita de la República Popular de China, el ajuste exponencial condujo
al modelo numérico-funcional siguiente:

PIB(t)China = 45.9843e0.0817t ,
(4.14)
r = 0.9182071.
Se observa en la Figura 4, la bondad de ajuste significativa al 90 % de confianza
estadı́stica, de acuerdo al coeficiente de correlación r, en cuanto al crecimiento del PIB per
cápita, se observa que China muestra un mayor crecimiento que Brasil y México.

Figura 4: Ajuste numérico del modelo exponencial sobre el PIB de China


correspondiente al periodo de 1960 al año 2013.

Continuando con el estudio, se procedió a ajustar el modelo logı́stico (4) a los datos
que dan pie al documento. Lo anterior, aplicando mı́nimos cuadrados a la correspondiente
transformación lineal, determinando previamente el valor numérico de la ası́ntota P =
12600 mediante progresión geométrica.

50
La ecuación siguiente corresponde al modelo numérico- funcional logı́stico base
exponencial para los datos de Brasil:

12600
PIB(t)Brasil = ,
1 + 88.3929e−0.1201t (4.15)
r = 0.8413829.

De acuerdo al coeficiente de correlación r anterior, la bondad de ajuste es de 90 % de


confianza estadı́stica, y se ilustra en la Figura 5. En cuanto a k se observa un decrecimiento
del PIB per cápita.

Figura 5: Ajuste numérico del modelo logı́stico base exponencial sobre el PIB de
Brasil correspondiente al periodo de 1960 al año 2013.

El resultado correspondiente para el Producto Interno Bruto per cápita de México fue:

10350
PIB(t)México = ,
1 + 54.861e−0.12878t (4.16)
r = 0.9424026.

El nivel de ajuste numérico del modelo anterior se ilustra en la Figura 6 y es significativo


al 95 % de confianza estadı́stica. También se observa un decrecimiento del PIB per cápita
similar a Brasil.

51
Figura 6: Ajuste numérico del modelo logı́stico base exponencial sobre el PIB de
México correspondiente al periodo de 1960 al año 2013.

La ecuación numérico-funcional siguiente corresponde al PIB per cápita para la


República Popular de China:

6850
PIB(t)China = ,
1 + 269.4873e−0.12026t (4.17)
r = 0.926456.
El nivel de ajuste del modelo logı́stico base exponencial para los datos del PIB per
cápita de China se muestran en la Figura 7, se observó una significancia del 90 % de
confianza estadı́stica. Igual que en los casos de Brasil y México, se observa k = −0.12, es
decir un decrecimiento del PIB per cápita.

Figura 7: Ajuste numérico del modelo logı́stico base exponencial sobre el PIB de
China correspondiente al periodo de 1960 al año 2013.

Con la finalidad de incrementar la bondad de ajuste numérico hasta ahora logrado, el

52
modelo logı́stico fue modificado usando una base cuadrática. Los resultados a continuación
se presentan, el modelo numérico-funcional para los datos del PIB de Brasil fue:

12600
PIB(t)Brasil = ,
1 + e−00024t2 −0.0117t+3.5678 (4.18)
r = 0.86541514.

Como se observa en el coeficiente de correlación r, la bondad de ajuste numérico es


del 90 % de confianza estadı́stica, en la Figura 8 se ilustra.

Figura 8: Ajuste numérico del modelo logı́stico base cuadrática sobre el PIB de
Brasil correspondiente al periodo de 1960 al año 2013.

El resultado del mismo modelo, pero con los datos del PIB de México para el periodo
en estudio, fue:

10350
PIB(t)México = ,
1+ e−00023t2 −0.0048t+2.9602 (4.19)
r = 0.9669989.

En la Figura 9 se aprecia la bondad de ajuste numérico que resultó significativa al 95 %


de confianza estadı́stica.

53
Figura 9: Ajuste numérico del modelo logı́stico base cuadrática sobre el PIB de
México correspondiente al periodo de 1960 al año 2013.

En cuanto al modelo numérico-funcional para el PIB de China, éste fue:

6850
PIB(t)México = ,
1 + e−00041t2 −0.1004t+3.7372 (4.20)
r = 0.95323176.

La bondad de ajuste numérico del modelo anterior, es significativa al 95 % de confianza


estadı́stica, como se observa en la Figura 10.

Figura 10: Ajuste numérico del modelo logı́stico base cuadrática sobre el PIB de
China correspondiente al periodo de 1960 al año 2013.

Finalmente, el ajuste del modelo logı́stico de base hiperbólica para los datos del PIB
per cápita de Brasil se indica en la ecuación siguiente:

54
" #
12600 0.1201
PIB(t)Brasil = 1 + tanh (t − 37.3151) ,
2 2 (4.21)
r = 0.841382905.

En la Figura 11 se ilustra la bondad de ajuste numérico del modelo logı́stico base


hiperbólica anterior, significativa al 10 % de confianza estadı́stica.

Figura 11: Ajuste numérico del modelo logı́stico base hiperbólica sobre el PIB de
Brasil correspondiente al periodo de 1960 al año 2013.

La ecuación numérico-funcional del PIB per cápita de México para el periodo de 1960
a 2013 fue:

" #
10350 0.1288
PIB(t)México = 1 + tanh (t − 31.097) ,
2 2 (4.22)
r = 0.9424026.

En la Figura 12 se ilustra la bondad de ajuste numérico significativa al 95 % de


confianza estadı́stica del modelo logı́stico (21).

55
Figural 12: Ajuste numérico del modelo logı́stico base hiperbólica sobre el PIB de
México correspondiente al periodo de 1960 al año 2013.

La ecuación numérico-funcional (22) corresponde al Producto Interno Bruto per cápita


de la República Popular de China para el periodo en estudio, la cual fue:

" #
6850 0.1203
PIB(t)China = 1 + tanh (t − 46.539) ,
2 2 (4.23)
r = 0.905843.

En la Figura 13 se ilustra la bondad de ajuste numérico del modelo logı́stico base


hiperbólica para PIB per cápita de China, que es significativa al 90 % de confianza
estadı́stica.

Figura 13: Ajuste numérico del modelo logı́stico base hiperbólica sobre el PIB de
China correspondiente al periodo de 1960 al año 2013.

56
4.3. Conclusiones
Del presente trabajo se concluye que el modelo logı́stico de base hiperbólica ajustado
a los datos del Producto Interno Bruto per cápita de Brasil, México y la República
Popular de China presentó un nivel de ajuste numérico similar a los realizados con
modelos de crecimiento, como el modelo exponencial y/o los modelos logı́sticos de base
exponencial y cuadrática. Cabe destacar, que la evaluación numérica del modelo logı́stico
de base hiperbólica se realizó a través de aplicar mı́nimos cuadrados a la correspondiente
transformación lineal algebraica del modelo. Por ello, para realizar el estudio se requiere
de una calculadora escolar que disponga de regresión lineal simple. En cuanto a la
interpretación de las constantes numéricas de los modelos usados en el estudio, se puede
decir que en el caso del modelo exponencial para el PIB per cápita de Brasil y México el
crecimiento fue del orden de 0.07, aunque para China fue del orden de 0.08; en cuanto al
modelo logı́stico, en los tres casos se presenta un decrecimiento similar, que es del orden
de 0.12, cada uno con sus respectivos cambios de escala. En cuanto al modelo logı́stico
de base hiperbólica, se presentan constantes de crecimiento similar, al igual que el caso
anterior respetando los cambios ya señalados, propios de cada economı́a.

Referencias
1. beta.inegi.org.mx
2. Guillén, G., et al. (2005). Ajuste a modelos no lineales sin el uso de computadoras,
Revista Contactos, UAMI, No. 58, pp. 11-20.
3. Guillén, G., Islas, A. M.; (2004), El modelo de campana de Phillips como función
densidad de muestra en ingenierı́a textil, ContactoS, No. 52, p. 53.
4. https://megaricos.com/.../las-10-economias-mas-grandes-del-mundo-2013.
5. Islas, A. M., et al., (2016), El ingreso per cápita de los mexicanos, Revista electrónica
Humanidades, Tecnologı́a y Ciencia del IPN, ISSN 2007-1957, Julio-diciembre.
6. Larson, R., (2014), Cálculo Tomo I. Décima Edición, CENGAGE Learning, ISBN
978-1-285-05709-5, p. 408.
7. Lorı́a Dı́az de Guzmán, E. G., (2007), Econometrı́a con aplicaciones. Primera edición,
Pearson Prentice Hall, ISBN 13: 978-970-26-1023-6, pp. 35-36.
8. Lorı́a Dı́az de Guzmán, E. G., Econometrı́a con aplicaciones. Primera edición,
Pearson Prentice Hall, ISBN 13:978-970-26-1023-6, 2007.

57
58
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 5

Salud Sexual y Reproductiva y Fecundidad de las


Adolescentes según su Condición de Indigenismo en México

Itzel A. Sosa-Sánchez
Centro Regional de Investigaciones Multidisciplinarias,
Universidad Autónoma de México,
Av. universidad s/n, Circuito 2, Col. Chamilpa
Ciudad Univesitaria de la UAEM, Cuernavaca Morelos
C.P. 62210, México.
[email protected]

Resumen. Una significativa proporción de la población indı́gena en México se


encuentra en edad adolescente. Si bien la población indı́gena en este paı́s no es un
grupo homogéneo, los diferentes grupos indı́genas en México tienden a compartir diversas
condiciones estructurales de desigualdad social y de rezago socioeconómico y demográfico lo
cual incide sobre sus patrones de fecundidad y sobre su salud reproductiva. La fecundidad
a edades tempranas en México es un problema importante no sólo de salud sexual y
reproductiva sino de derechos sexuales, y humanos. A partir de los datos de la Encuesta
Nacional de la Dinámica Demográfica (2014) se documenta la fecundidad y la salud sexual
y reproductiva en adolescentes indı́genas en México. Los resultados muestran que existen
diferencias significativas en las condiciones socio-económicas y en los indicadores de salud
reproductiva de las jóvenes según su condición de indigenismo. Los resultados muestran las
particularidades en el comportamiento de la fecundidad adolescente indı́gena y evidencian
el importante rezago en materia de salud sexual y reproductiva de esta población
visibilizando el efecto de diversas desigualdades estructurales sobre el comportamiento
reproductivo.
Abstract. The adolescents are a significant proportion of the indigenous population
in Mexico. Although this population in this country is not homogenous, the different
indigenous groups in Mexico share diverse structural conditions of social inequality which
affects its patterns of fertility and their reproductive health. Fertility in early stages of
life in Mexico is an important problem of sexual and reproductive health and of sexual
and reproductive and human rights. Using data of the National Survey of Demographic
Dynamics (ENADID, 2014) we document the fertility and sexual and reproductive health

59
trends among indigenous female adolescents in Mexico. The results show that exist
significant differences in the socioeconomic conditions and the reproductive health trends
among this population according to their ethnic (indigenous) condition. The results show
the specificities of the indigenous adolescent fertility and reproductive trends making
visible the effect of diverse structural inequalities on the reproductive behavior among
this population.
Palabras clave: desigualdad social, indı́genas, adolescentes, fecundidad, salud
reproductiva.

5.1. Introducción
México ocupa el octavo lugar en el mundo entre los paı́ses con mayor número de
pueblos indı́genas en su territorio [10]. Si bien la población indı́gena en este paı́s no es
un grupo homogéneo en general, la población indı́gena forma parte de los estratos más
pobres, discriminados y desfavorecidos, y tiene niveles de vida por debajo de los promedios
nacionales y regionales, tiene un acceso limitado a los mı́nimos de bienestar estipulados
internacionalmente [5], [6], [10]. Lo antes mencionado, impacta negativamente sus derechos
humanos fundamentales ası́ como su calidad de vida, su salud, su dinámica demográfica
y por ende su comportamiento reproductivo. La fecundidad de las mujeres indı́genas en
México continúa siendo elevada. Esta población presenta una mayor demanda insatisfecha
de métodos anticonceptivos, un menor conocimiento y acceso a métodos anticonceptivos,
un menor uso de los mismos, tienen una menor atención relativa a la salud materno-infantil
y patrones de fecundidad más tempranos que las mujeres no indı́genas [3], [9], [26]. Los
patrones de fecundidad temprana en esta población en México urgen a profundizar en el
conocimiento y estudio de los mismos visibilizando la persistencia de diversas problemáticas
en materia de salud sexual y reproductiva en esta población ası́ como su especificidad y
su heterogeneidad [4], [9].

Paralelamente, si se compara la estructura de edad de la población hablante y no


hablante de una lengua indı́gena en México, se torna evidente que en la primera, predomina
una estructura más envejecida (un menor peso relativo de niños, adolescentes y jóvenes y
un peso mayor de población de 60 años y más).
Lo anterior no necesariamente es resultado del comportamiento demográfico de las
poblaciones indı́genas sino más bien de tendencias sociales que se reflejan en el criterio
usado para identificar a estas poblaciones a partir de hablar una lengua indı́gena [3].
La población indı́gena adolescente en México
Una significativa proporción de la población indı́gena en México se encuentra en edad
adolescente [9]. Ası́, se ha señalado que en México existen 1.4 millones de adolescentes
hablantes de lengua indı́gena (y 3.5 millones de adolescentes indı́genas según el criterio de
auto adscripción) [16], [25].
Ası́, según el censo del 2010 en México, 20.1 % del total de la población de hablantes de
lengua indı́gena corresponde a adolescentes de 10 a 19 años de edad [10]. Cabe señalar, que
el último censo registró un incremento significativo de adolescentes hablantes de lengua
indı́gena que además hablan español al pasar de 88 % en el año 2000 a 92.5 % en 2010 [9].
Paralelamente, ser indı́gena se asocia a mayores niveles de precariedad y si se toma
en consideración como se mencionó precedentemente, que casi el 80 % de la población
hablantes de lengua indı́gena es pobre en términos socioeconómicos (la mitad de ellos,
pobres extremos o indigentes) [6], se podrı́a afirmar que una buena proporción de los
adolescentes indı́genas vive en contextos de precariedad económica y social, lo que restringe
significativamente su acceso a la salud y a la educación (por mencionar algunos) e impacta
negativamente como veremos su comportamiento reproductivo.

60
Igualmente, con la finalidad de evitar el efecto de truncamiento el presente análisis
se basa en las mujeres de 20 a 24 años de edad, dado que un indicador para analizar el
embarazo adolescente, es la proporción de mujeres que se embarazaron en la adolescencia;
sin embargo, es importante tomar en cuenta que con este indicador no es correcto tomar
como unidad de análisis a las menores de 20 años, ya que no sabemos si la niña que
tenı́a 15 años al momento de la encuesta, se iba o no a embarazar en el transcurso de su
adolescencia.

5.2. Objetivos
A partir de los datos de la Encuesta Nacional de la Dinámica demográfica (ENADID,
2014) se compara el porcentaje de jóvenes adolescentes HLI, auto-adscritas y no indı́genas
que se embarazaron en la adolescencia según diferentes indicadores socio- demográficos
utilizando la prueba de ji-cuadrada.

Objetivos especı́ficos
Identificar las caracterı́sticas de las mujeres que se embarazaron en la adolescencia
según su condición de indigenismo

5.3. Metodologı́a del Trabajo y Fuente de Datos


Se analiza el comportamiento sexual y reproductivo de mujeres de 20 a 24 años
según su condición de indigenismo. Se realizó un análisis bi-variado de datos utilizando
la prueba de la ji-cuadrada de indicadores de salud sexual y reproductiva (prevalencia
anticonceptiva, uso de preservativo, etc.) de mujeres jóvenes de acuerdo con sus
caracterı́sticas sociodemográficas (escolaridad por ejemplo) y su condición de indigenismo.
Paralelamente, se realizó un análisis de diferentes eventos demográficos según la condición
de indigenismo.

5.3.1. Significancia Estadı́stica: la ji-Cuadrada (ξ 2 )


Con la finalidad de saber, si las diferencias encontradas en los análisis bi-
variados (tablas de contingencia) que se presentan en este trabajo son estadı́sticamente
significativas, calculamos la ji cuadrada.
La distribución de Pearson llamada también ji-cuadrada o chi-cuadrado(a) (ξ 2 ), es
una distribución de probabilidad continua con un parámetro que representa los grados de
libertad de la variable aleatoria [13].

X = Z12 + · · · + Zn2

Sea X1 , X2 , X3 , ...., Xn variables aleatorias que se distribuyen como normales


esdtándar, y se define una nueva variable, se dice que X se distribuye como una chi-
Cuadrado o ji-cuadrado con n grados de libertad, en donde n es el número de variables
aleatorias normales independientes elevadas al cuadrado que se han sumado. Esta se
representa como [13]

X → ξ2
y su función de densidad es de la forma [13]:

2−n/2 −x/2 n/2−1


f (x) = e x si x > 0,
Γ(n/2)

61
y además f (x) = 0 para x ≤ 0.
Propiedades de la función de densidad:
1. Es asimétrica.

2. Su esperanza es igual a n (E[X] = n).

3. Su varianza es igual a 2n (V [X] = 2n).

4. Si X1 y X2 son variables aleatorias con distribución ji-cuadrado con n y m grados


de libertad respecivamente entonces la variable aleatoria Y = X1 + X2 se distribuye
como una ji-cuadrada con n + m grados de libertad.

5. Cuando el número de variables aleatorias es muy grande, es decir, cuando n → ∞,


la variable X se puede aproximar a través de una normal [13].
La distribución ji-cuadrada, es una distribución de probabilidad y tiene un sesgo
positivo como se aprecia en la Figura 1:

Figura 1. Distribución ji-cuadrada

Igualmente, la distribución ji-cuadrada tiende a la normalidad, en la medida en que


aumentan los grados de libertad.

La distribución ji-cuadrada tiene muchas aplicaciones en inferencia estadı́stica. La


más conocida es la de la denominada prueba ji-cuadrada utilizada como: a) prueba de
independencia entre dos variables categóricas, b) como prueba de bondad de ajuste para
evaluar la credibilidad de que los datos muestrales, que vienen de una población cuyos
elementos se ajustan a un tipo especı́fico de distribución de probabilidad, c) y en la
estimación de varianzas [18].
Es preciso señalar que en Ciencias Sociales, el nivel de significación (riesgo de error
que se está dispuesto a asumir en caso de rechazar la hipótesis nula), suele ser del 0.05 ; es
decir, con un 5 % de errores posibles (como máximo) en el momento de rechazar la hipótesis
nula (intervalo o margen de confianza del 95 %, e intervalo o margen de error del 5 %).
Este es el criterio que se asume en este documento cuando se afirma que las diferencias
encontradas en las tablas de contingencia presentadas en este análisis son estadı́sticamente
significativas.

5.3.2. Fuente de Datos


El análisis presentado en este capı́tulo se originó a partir de los resultados la ENADID
2014. La ENADID 2014 es una encuesta realizada por el INEGI (Instituto Nacional de
Estadı́stica y Geografı́a) y cuenta con representatividad a nivel nacional. El tamaño de la
muestra fue de 101 mil 389 viviendas a nivel nacional y la unidad de observación fue la

62
vivienda seleccionada, sus hogares, residentes habituales, migrantes internacionales en los
últimos cinco años y las mujeres de 15 a 54 años de edad. El diseño de la muestra en esta
encuesta fue probabilı́stico, bietápico, estratificado y por conglomerados. Los instrumentos
de recolección de datos comprenden dos cuestionarios: uno del hogar y otro dirigido a
mujeres de 15 a 54 años de edad.
La ENADID incluyó dos preguntas con el objeto de captar a la población indı́gena:
aquella referida a los que se auto-reconocen como pertenecientes a una etnia y aquella que
se refiere a los hablantes de alguna lengua indı́gena. Si bien la condición de hablante de
lengua indı́gena (como un marcador étnico fundamental) es el criterio que ha prevalecido
tanto en los censos como en los análisis sobre fecundidad indı́gena, a efectos de este trabajo
consideramos importante incluir de manera separada a las Hablantes de lengua indı́gena y
a aquellas mujeres que se auto-reconocen como indı́genas (pertenencia étnica) asumiendo
que la pérdida de la lengua indı́gena no implica necesariamente perder la identidad étnica
[3], [7], [15]. Igualmente, consideramos que la auto-pertenencia étnica (auto adscripción)
puede aportar información pertinente sobre la dinámica demográfica de las poblaciones
indı́genas en México. Paralelamente, con la finalidad de evitar el efecto de truncamiento
el presente análisis se basa en las mujeres de 20 a 24 años de edad.
Es preciso señalar que el análisis de los estratos socioeconómicos de los hogares de las
mujeres de 20 a 24 años, se realizó a partir de la construcción de los mismos siguiendo los
estratos propuestos por Echarri [8] ya que se ha demostrado que el estrato socioeconómico
del hogar refleja tanto los condicionantes estructurales, económicos y sociales como las
condiciones socioculturales que configuran los comportamientos y prácticas en salud
reproductiva, lo que aportará información relevante sobre la fecundidad y la salud
reproductiva en esta población.
Finalmente, cabe agregar, que el análisis cuantitativo se realizó usando el software
SPSS.

5.4. Resultados
Los resultados muestran que existen diferencias significativas en las condiciones socio-
económicas de las jóvenes según su condición de indigenismo. Por ejemplo, mientras que
el 62.7 % de las jóvenes de 20 a 24 años hablantes de lengua indı́gena (HLI) pertenecen al
estrato muy bajo sólo el 18.8 % de las que no hablan una lengua indı́gena pertenecen a este
estrato. Asimismo, los contrastes en los niveles de escolaridad son muy importantes: 40.1 %
de las que hablan lengua indı́gena cuentan con un año de primaria o menos, mientras que
este porcentaje es de 8.5 % entre las no indı́genas. Las que declararon pertenecer a un
grupo indı́gena, se encuentran en una situación intermedia, ya que 32.4 % pertenece al
estrato muy bajo y el 16.5 % cuenta sólo con un grado de primaria o menos (Cuadro 1)1 .
La diferencia más importante en la edad media en los distintos eventos demográficos se
observa en la edad a la primera unión de las jóvenes HLI, ya que el promedio en la edad de la
primera unión es más de medio año respecto a las no indı́genas. Estos resultados confirman
que hay un mayor número de mujeres de hablantes no indı́genas que se inician sexualmente
estando solteras, mientras que en el caso de las hablantes indı́genas, la gran mayorı́a de
las relaciones sexuales se dan al interior de la unión. De hecho, en las no indı́genas la edad
media en la primera relación sexual es menor que la edad media en la primera unión, y
entre las jóvenes HLI sucede al revés. Es decir, en promedio, la primera unión precede la
primera relación sexual. Cabe resaltar también que las jóvenes que declararon pertenecer
a una etnia presentan promedios más cercanos a las jóvenes no hablantes de una lengua
indı́gena que a las sı́ hablantes (Cuadro 2).
1 Todos los cuadros de este documento son de elaboración propia a partir de datos obtenidos

de la ENADID, 2014.

63
La protección sexual es también muy deficiente, particularmente en las jóvenes de
habla indı́gena. Al analizar el uso del preservativo en la primera relación sexual, (único
método anticonceptivo que previene a la vez un embarazo no deseado y una infección de
transmisión sexual) se observa que únicamente el 19.7 % de las mujeres HLI se protegieron
con un preservativo en su primera relación sexual cuando esta sucedió en la adolescencia.
Cabe señalar que estos porcentajes son similares a los observados dos décadas atrás en las
adolescentes mexicanas, lo que muestra un rezago muy importante en la salud sexual
y reproductiva de las mujeres de habla indı́gena. Este porcentaje en las mujeres que
declararon pertenecer a una etnia es de 25 % y el 50.3 % de las no indı́genas respectivamente
(Cuadro 3).

La unión más temprana y la no protección sexual, llevan a que un porcentaje mayor


de las jóvenes HLI que en el momento de la encuesta tenı́an de 20 a 24 años ya se habı́an
embarazado en la adolescencia (44.3 %), porcentaje significativamente superior respecto a
las no hablantes indı́genas (31.7 %), y también respecto a las que se auto-adscriben a un
grupo indı́gena (37.1 %) (Cuadro 4).
Como consecuencia de lo antes mencionado, el porcentaje de mujeres que no han sido
madres y que reportan alguna vez haber estado embarazadas difiere significativamente
según la condición de indigenismo entre este grupo quinquenal, siendo significativamente
mayores los porcentajes de no maternidad y de no embarazo entre las jóvenes no hablantes
de lengua indı́gena (Cuadro 5).

64
Sobresale que estas diferencias se mantienen en este grupo (mujeres de 20 a 24 años)
según condición de indigenismo, nunca embarazadas como se aprecia en el cuadro 6, siendo
menores los porcentajes en el caso de las hablantes de lengua indı́gena y las auto-adscritas
(pertenencia étnica).

Lo que es más, como puede apreciarse en el cuadro siguiente (Cuadro 7) el peso


del estrato y de la condición de indigenismo queda aún más evidenciado si se analiza
(de manera complementaria) el porcentaje de jóvenes de 20 a 24 años que nunca ha
estado embarazada (según su condición de indigenismo y el estrato socioeconómico al
que pertenecen). De tal suerte, en el cuadro 7 se observa cómo la tendencia es inversa a lo
presentado en el Cuadro 3.

Ası́, el porcentaje de mujeres nunca embarazadas tiende a ser menor entre las mujeres
hablantes de lengua indı́gena en todos los estratos, comparados con las mujeres de
pertenencia indı́gena y no indı́genas del mismo estrato de referencia. Por el contrario,
los porcentajes de nunca embarazadas de las no hablantes de lengua indı́gena tienden a
ser superiores en todos los estratos, manteniéndose la tendencia a porcentajes intermedios
en todos los estratos según la pertenencia étnica.

Cuando se analiza la salud reproductiva y la fecundidad de las adolescentes, es


también importante saber si las mujeres que se embarazaron en la adolescencia deseaban
embarazarse o no, para saber si el embarazo se trata de un problema de conocimientos
o acceso a métodos anticonceptivos, de una falta de planeación, o bien de que la joven
deseaba tener un hijo (embarazarse).
Como se observa en el cuadro siguiente (Cuadro 8) de las mujeres de 20 a 24 años que
se embarazaron en la adolescencia y no usaron un método el 21.9 % de las hablantes de
lengua indı́gena querı́a embarazarse, ası́ como el 24.4 % de las de pertenencia étnica y el
19.6 % de las no hablantes de lengua indı́gena.
Estos porcentajes indican que a grandes rasgos una de cada cinco jóvenes que
se embarazaban en la adolescencia querı́an embarazarse. Sin embrago es importante
problematizar este “deseo”; de embarazo visibilizando los contextos sociales y culturales
donde tiene lugar y que lo tornan posible dado que este deseo de embarazo con frecuencia

65
refleja (como hemos venido viendo en este capı́tulo) situaciones de precariedad social que
condicionan el acceso a oportunidades vinculadas a otros proyectos de vida socialmente
valorados más allá del matrimonio y la maternidad en contextos sociales poco favorecidos.
Sin embargo, es también relevante que una buena proporción de estas jóvenes no
conocı́a métodos, no sabı́a donde obtenerlos y/o cómo usarlos, lo que es especialmente
cierto en el caso de las hablantes de lengua indı́gena en cuyo caso representa más del 50 %
de las mismas contra el 20.8 % de las no hablantes de lengua indı́gena.
Esto visibiliza el recrudecimiento de la desigualdad social en el caso de la población
indı́gena y el importante papel que juega en el embarazo adolescente el oportuno y eficaz
acceso a información y a métodos anticonceptivos modernos. Adicionalmente, estos datos
ponen de relieve, la necesidad de redoblar esfuerzos para lograr una educación sexual
de calidad y mayor acceso a los servicios de planificación familiar, entre la población
adolescente en México.
Por su parte, sobresale que los porcentajes sugieren una relación a la inversa de lo
antes mencionado, en lo que se refiere a los motivos relativos al no uso de método: no
creyó quedar embarazada y no planeaba tener relaciones sexuales, donde los porcentajes
mayores se concentran en las jóvenes no hablantes de lengua indı́gena y decrecen entre las
hablantes de lengua indı́gena.
Al respecto, sobresale que entre las no hablantes de lengua indı́gena casi una de cada
cinco no creyó quedar embarazada y por eso no usó protección lo que evidencia los pocos
conocimientos en materia de biologı́a de la reproducción entre esta población.
También sobresale que entre las no hablantes y las de pertenencia étnica los porcentajes
relativos a la no planeación de las relaciones sexuales constituyan el 30.8 % para las
primeras y el 19.8 % para las segundas, lo cual evidencia el importante peso de la falta de
lógica de planeación entre esta población.

Se ha argumentado que el embarazo y la fecundidad adolescente truncan el desarrollo


personal de las jóvenes asumiendo que éstas se vean obligadas a dejar la escuela a causa
del embarazo. Si bien es cierto que con frecuencia las estudiantes que se embarazan o bien
abortan o bien abandonan la escuela, se ha mostrado que la mayorı́a de las mujeres que se
embarazaron en la adolescencia ya habı́an dejado la escuela antes de embarazarse [11], [12],
[21], [23], [27]. En el caso de la población analizada, el resultado es consistente con otros
trabajos realizados en México y América Latina, dado que más del 90 % de las mujeres de
20 a 24 años que se embarazaron en la adolescencia ya habı́an dejado la escuela antes de
embarazarse como se aprecia en el Cuadro 9, lo que es especialmente cierto en el caso de
las hablantes de lengua indı́gena con el 95 %.

66
Sin embargo, sobresale que entre estas últimas el porcentaje de jóvenes que dejaron
la escuela a causa del embarazo es menor al 3 % mientras que entre las no hablantes de
lengua indı́gena este porcentaje es del 11.6 % (una de cada diez) y para las de pertenencia
étnica es de 7.7 %.

Esto implica visibilizar que el embarazo en la adolescencia refleja la falta de


oportunidades y de alternativas de desarrollo personal de muchas jovencitas y es producto
de la combinación de diversas condiciones estructurales sociales y culturales, y no como
suele generalmente presentársele: un accidente que se puede prevenir [1], [11], [12], [14], [21]
y para el caso de la muestra analizada se evidencia el importante peso de la condición de
indigenismo, del contexto social y cultural asociado a dicha condición en la configuración
de embarazos que ocurren en la adolescencia.
Ası́, pese a que no existe ninguna encuesta que permita obtener esta información
actualizada, sı́ es posible conocer los motivos por los cuales las mujeres de 20 a 24 años
con experiencias de embarazo en la adolescencia (Cuadro 10) y sin experiencia de embarazo
en la adolescencia abandonaron la escuela (Cuadro 11).

A grandes rasgos, ambos cuadros (Cuadros 10 y 11) evidencian que el principal


motivo de deserción escolar en las mujeres de 20-24 años lo constituye la falta de
recursos económicos, lo que evidencia que la principal causa de deserción escolar en este
grupo lo constituye la desigualdad socioeconómica y no como suele pensarse el embarazo
adolescente.
Esto es particularmente cierto para las jóvenes indı́genas que experimentaron un
embarazo en la adolescencia hablantes de lengua indı́gena ya que poco más de cuatro
de cada diez reportaron haber dejado la escuela por falta de recursos (43.7 %) lo que
representa casi el doble (23 %) de las no hablantes de lengua indı́gena que reportan haber
dejado la escuela por esta causa. El segundo motivo de deserción escolar en este grupo,
lo constituye la unión conyugal la cual es cuatro puntos porcentuales más alta entre las
jóvenes con pertenencia étnica (22.9 %) y las no hablantes de lengua indı́gena (22.7 %) que
entre las HLI (16.1 %).
Por su parte, resalta que si bien entre las hablantes de lengua indı́gena (con experiencias
de embarazo) el embarazo adolescente representa sólo el 4.5 % de las causas de deserción

67
entre las de pertenencia étnica este porcentaje se eleva a 13.5 % y entre las no hablantes
de lengua indı́gena esta causa representa el 20.7 %, causa sólo superada en este último
grupo por la unión conyugal con 22.7 % y por la falta de recursos económicos con 23.2 %.
Es también relevante entre las jóvenes con experiencia de embarazo en la adolescencia que
una de las causas de deserción principales lo constituye el no haber querido estudiar/no
le gustaba estudiar representando el 16.8 %, 16.6 % y 17.5 % para las hablantes de lengua
indı́gena, las de pertenencia étnica y las no hablantes de lengua indı́gena respectivamente
(Cuadro 10).
En cuanto a las causas de deserción escolar en las mujeres de 20 a 24 años (con y sin
experiencias de embarazo en la adolescencia) como se aprecia en el cuadro 11, el embarazo
sólo representa el 2.5 % de las deserciones de la escuela entre las HLI y constituye el 9.3 %
entre las no hablantes de lengua indı́gena.
Como en el grupo anterior (Cuadro 10) la principal causa de deserción lo constituye
la falta de recursos económicos cobre todo entre las hablantes de lengua indı́gena donde
representan más de la mitad de las deserciones escolares, siendo la segunda causa el que
no les gustó estudiar donde el mayor porcentaje se concentra entre las HLI con 19.5 %,
segundo por las de pertenencia étnica con 18.1 % y las no hablantes de lengua indı́gena
con 16.6 %.

Ası́, los datos antes presentados visibilizan cómo el embarazo adolescente está
estrechamente vinculado con las condiciones objetivas de vida y con la falta de alternativas
reales que tienen las jóvenes para acceder a proyectos de vida alternativos a la maternidad
y/o la unión conyugal.

5.5. Conclusiones
Los resultados muestran las particularidades en el comportamiento de la fecundidad
adolescente indı́gena y el importante rezago en materia de salud sexual y reproductiva
de esta población. Estos resultados deben ser leı́dos no sólo a partir del impacto de los
factores de ı́ndole cultural sobre el comportamiento reproductivo sino también y sobre
todo a partir del efecto de diversas desigualdades sociales de carácter estructural sobre el
comportamiento reproductivo.
Esto implica visibilizar las condiciones estructurales de pobreza y aislamiento que
afectan sobre todo (pero no exclusivamente) a las jóvenes hablantes de lengua indı́gena
restringiendo sus posibilidades de acceso a la educación formal, dificultando su inserción
en el mercado de trabajo (o su inserción y acceso a trabajos bien remunerados) y limitando
sus proyectos de vida significativamente.
Esto significa reconocer que no sólo las dimensiones culturales de la identidad étnica
(vinculadas con la condición de indigenismo) sino las condiciones de exclusión y de miseria

68
estructural dificultan proyectos de vida alternativos a la maternidad y al matrimonio/unión
en México [11], [12], [21], [22], [24].
En este sentido, las condiciones objetivas de vida de las adolescentes restringen
significativamente la posibilidad real (dejando de lado discursos meritocráticos) de acceso
a otros proyectos de vida vinculados con el desarrollo personal a través de los estudios con
el fin de mejorar las condiciones de vida. Esto, repercute significativamente en la deserción
escolar y en la incidencia de uniones tempranas que en muchas ocasiones como vimos,
preceden y dotan de sentido al embarazo en la adolescencia.
Igualmente, los resultados evidencian que, frecuentemente el embarazo en la
adolescencia en contextos marginales, es parte y continuidad de un proyecto de vida
centrado en la conyugalidad (unión o matrimonio) y la maternidad lo que torna necesario
problematizar el “deseo de embarazo”(que reportan algunas jóvenes con experiencias de
embarazo en la adolescencia) lo que sugiere que éste no es necesariamente accidental en
muchos contextos sino que es un acto potencialmente estratégico de identidad que sólo es
sociológicamente comprensible a partir de analizar el contexto social, económico y cultural
que lo torna posible.
También los resultados urgen a redoblar esfuerzos en materia de educación sexual
y biologı́a de la reproducción entre la población indı́gena en particular (dado que como
vimos anteriormente más de la mitad de las jóvenes que experimentaron un embarazo en la
adolescencia (hablantes de lengua indı́gena) no usó un método de protección en su primera
relación sexual porque no los conocı́a, no sabı́a donde obtenerlos o no sabı́a cómo usarlos)
y entre las población joven en general, con la finalidad de garantizar que toda aquella joven
que quiere prevenir un embarazo no deseado, tenga la posibilidad real de hacerlo.
Lo antes mencionado, implica cuestionar y desmantelar la visión adultocrática de la
sexualidad adolescente ya que, en términos generales, puede afirmarse que en amplios
sectores de la población mexicana, todavı́a tiende a prevalecer cierto rechazo (cuando no,
negación) frente a la actividad sexual de los y las adolescentes.
Esto impacta de manera directa e indirecta en la existencia de mensajes sociales sobre
anticoncepción y prácticas de sexo seguro que van desde la ambigüedad hasta el franco
rechazo [2] y condicionando la información que se considera pertinente y relevante de
ser socializada a los y las adolescentes a través de campañas, talleres, etc. dirigidos a
esta población, y repercute en las decisiones y representaciones en torno al cómo deben
de ser o bajo qué circunstancias ocurren los primeros encuentros sexuales. Si bien los
hallazgos de este análisis evidencian que el embarazo en la adolescencia no puede reducirse
a un único modelo de comprensión debido a su complejidad y al hecho de que resulta de
la combinación, interacción e intersección de diversos factores (y desigualdades sociales
muchas de ellas estructurales), es innegable el peso de las desigualdades sociales sobre este
evento en la población adolescente en general y en la población indı́gena en particular.

Referencias
1. Adaszko, A. Perspectivas socio-antropológicas sobre la adolescencia en ((Embarazo y
maternidad en la adolescencia)). Estereotipos, evidencias y propuestas para polı́ticas
públicas. UNICEF-CEDES: Buenos Aires, 2006.
2. Atkin, Lucille, et al. Sexualidad y fecundidad adolescente, ((Mujer: sexualidad y
salud reproductiva en México)), The Population Council, pp. 39-84, México, 1999.
3. Bertely, M., G. Saravı́ y G. Abrantes, Adolescentes Indı́genas en México: Derechos
e Identidades Emergentes. FNUI-UNICEF, México, 2013.
4. Bonfil, P. Introducción, ((Derechos y salud sexual y reproductiva entre jóvenes
indı́genas: hacia la construcción de una agenda necesaria)). GIMTRAP, México, 2014.

69
5. CONAPRED. Dı́a internacional de los pueblos indı́genas, CONAPRED, México,
2012.
6. CONEVAL. La pobreza en la población indı́gena de México 2012. CONEVAL,
México, 2014.
7. Del Popolo, F., M. López y M. Acuna. ((Juventud indı́gena y afrodescendiente en
América Latina: inequidades sociodemográficas y desafı́os de polı́ticas)), CELADE,
UNFPA, 2009.
8. Echarri, C. Desigualdad socioeconómica y salud reproductiva: una propuesta de
estratificación social aplicable a las encuestas, ((Salud reproductiva y condiciones de
vida en México, tomo I)). Colmex: México, 2008.
9. Hernández, M., M. Hernández y M. Sánchez. La salud sexual y reproductiva de
las mujeres hablantes de lengua indı́gena, 1997-2009, La situación demográfica de
México, pp. 21-41, México, 2013.
10. INEGI, Mujeres hombres en México. INEGI, México, 2011.
11. Menkes C. y L. Suárez. Sexualidad y embarazo adolescente en México, Papeles de
Población, vol. 9, núm. 35, pp.1-31, 2006.
12. Menkes C., Velázquez, M. e I. Sosa-Sánchez. Embarazo adolescente, desigualdad
social y derechos sexuales y reproductivos. Resultados de un estudio en el estado de
Morelos, México, e-book de las Memorias de las XIII jornadas nacionales de debate
interdisciplinario en salud y población: salud, sexualidades y derechos: cruces entre
investigación, polı́ticas y prácticas, Mesa 2.3: Sexualidades, derechos y cuidados,
sostenida del 3 al 5 de agosto del 2016, Universidad de Buenos Aires, 2016.
13. Montero-Alonso M. Apuntes de Estadı́stica II. Ed. Vicerrectorado de Planificación,
Calidad y Evaluación Docente. Universidad de Granada. Melilla. España, 2007.
[14.] auar, A. Ser alguém na vida: uma análise sócio-antropológica
da gravidez/maternidade na adolescencia, em Belém do Pará, Brasil, Cad. Saúde
Pública, Rio de Janeiro, 19 (Sup. 2): S335-S343, 2003.
15. Pla, D. Más desindianización que mestizaje. Una relectura de los censos generales
de población, Dimensión Antropológica, 18(53): 70-94., 2011.
16. Rodrı́guez, L., J. Sánchez. Esfuerzos para el avance en la investigación demográfica
sobre la población afro-descendiente e indı́gena en América Latina: rezagados entre
los rezagados - Una introducción, en Laura L. Rodriguez Wong y Jhon Antń
Sánchez (organizadores). Situación de la población afro-descendiente e indı́gena en
América Latina puntos de reflexión para el debate sobre Cairo + 20, Asociación
Latinoamericana de Población (ALAP-ebook). Serie e-investigaciones-ALAP, Belo
Horizonte, pp. 161-176, 2015.
17. Sosa-Sánchez, I. Significados del cuerpo y del riesgo en el marco de la sexualidad y
de la reproducción: un estudio de caso con jóvenes en Cuernavaca, Tesis de Maestrı́a,
FLACSO-CLACSO: Buenos Aires, 2010.
18. Serrano, F. y P. Sánchez. Análisis cuantitativo de datos en Ciencias sociales con el
SPSS. Tablas de contingencia y pruebas de asociación, Universidad de Murcia, 2017
Acceso en lı́nea el 17 de septiembre del 2017:
https://digitum.um.es/jspui/bitstream/10201/27921/3/SPSST CON T IN GEN CIA.pdf
19. Sosa-Sánchez, I. Los Significados de la Salud y la Sexualidad en Jóvenes. Un Estudio
de Caso en Escuelas Públicas en Cuernavaca. México, DF: INMUJERES, 2005.
20. Sosa-Sánchez, I. A. y Catherine Menkes. Algunas reflexiones acerca de los obstáculos
en el uso del condón. Un estudio en Morelos, ponencia presentada en la VII Reunión
de Investigación Demográfica en México, 2-5 de diciembre, 2003.

70
21. Stern, C. y C. Menkes. Embarazo adolescente y estratificación social, ((Salud
Reproductiva y condiciones de vida en México)). México: El Colegio de México,
2008.
22. Stern, C. Reflexiones finales, ((Adolescentes en México . Investigación, experiencia y
estrategias para mejorar su salud sexual y reproductiva)), Colmex, México, 2008.
23. Stern C. El embarazo en la adolescencia como problema público: una visión crı́tica.
Salud Publica México, (39):137-143, 1997.
24. Stern, C. Estereotipos de género, relaciones sexuales y embarazo adolescente en
las vidas de jóvenes de diferentes contextos socio culturales en México. Estudios
Sociológicos, vol. XXV, núm. 73, pp. 105-129, México, 2007.
25. UNICEF. Panorama de la Adolescencia Indı́gena en México desde una Perspectiva
de Derechos. UNICEF-CIESAS, México, 2012.
26. Vázquez, G. Demografı́a étnica un balance del perı́odo 1986-2011. Coyuntura
demográfica, vol. 3, pp. 97-101, 2013.
27. Velázquez, Menkes, Sosa-Sánchez et al. Embarazo adolescente en el estado de
Morelos: un análisis de corte interseccional, Informe técnico de proyecto presentado
a la Dirección General de Información Estratégica, al Consejo estatal de población
(COESPO, Morelos) y a la Subsecretarı́a de Planeación (Secretarı́a de Hacienda),
2016.

71
72
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 6

Análisis de Puntos de Cambio en Espacio Tiempo

Lucila Muñiz Merino, Bulmaro Juárez Hernández, Hugo Cruz-Suárez


Facultad de Ciencias Fı́sico Matemáticas
Benemérita Universidad Autónoma de Puebla
Av San Claudio S/N, San Manuel, Ciudad Universitaria
Puebla, Puebla, C.P. 72570 México,
[email protected], [email protected], [email protected]

Resumen. En este trabajo se hace una revisión del punto de cambio, en general se
presenta la formulación del problema del punto de cambio, los problemas que surgieron
desde sus inicios en tamaños de muestras pequeñas y grandes, y como se llego a la
forma asintótica para obtener el estadı́stico de prueba en series temporales para variables
independientes, posteriormente se analizan los puntos de cambio en espacio tiempo, todo
esto tratado sobre el enfoque de máxima verosimilitud.

Abstract. In this work, a review of the change point is made, in general presents itself
the formulation of the problem of the change point, the problems that have arisen from
its beginnings in small and large sample sizes, and how the asymptotic form was obtained
to obtain the test statistic in time series for independent variables, we later analyze the
points of change in space-time, all of this dealt with the maximum likelihood approach.

Palabras clave: Pruebas de hipótesis, Estimación, Máxima verosimilitud, Puntos de


cambio, espacio-tiempo.

6.1. Introducción
El punto de cambio es considerado como uno de los problemas centrales de inferencia
estadı́stica, pues relaciona a la teorı́a de control estadı́stico, a las pruebas de hipótesis
(al detectar si existe algún cambio en la sucesión de variables aleatorias observadas)
y a la teorı́a de estimación (al estimar el número de cambios y sus correspondientes
localizaciones). Los problemas de puntos de cambio originalmente surgieron en control
de calidad y en general pueden encontrarse en diversas disciplinas experimentales y

73
matemáticas tales como medio ambiente, epidemiologı́a, procesos de señal sı́smica,
economı́a, finanzas, geologı́a, medicina, biologı́a, fı́sica, etc. (Chen and Gupta, 4). Los
puntos de cambio se presentan en forma abrupta y gradual (Brodsky y Darkhovsky, ([2],
[3]), su análisis es realizado sobre variables aleatorias independientes y dependientes sobre
el tiempo y el espacio.

En la sección 1 se presenta la formulación del problema de puntos de cambio, su clasificación


y métodos de diagnóstico, en la sección 2 son presentados algunos de los resultados más
importantes logrados a través del tiempo en el caso de puntos de cambio considerando
variables aleatorias independientes, en la sección 3 se trata la distribución asintótica de
la estadı́stica de prueba bajo la hipótesis nula usando puentes Brownianos, en la sección
4 se presentan resultados sobre puntos de cambio en regresión lineal y finalmente puntos
de cambio para variables dependientes sobre el tiempo y el espacio. En éste último punto
se revisa un problema de puntos de cambio con un modelo autorregresivo simultáneo,
el cual es aplicado para encontrar los puntos de cambio en tomografı́as computarizadas
correspondientes a un análisis sobre cáncer de pulmón.

6.2. Formulación del Punto de Cambio


Cuando se escucha decir punto de cambio, la primer pregunta que surge es ¿qué es un
punto de cambio? Chen and Gupta ([4]) lo definen como el sitio, o punto en el tiempo t,
en una sucesion de datos {xti } i = 1, . . . , n observados y ordenados respecto al tiempo
tal que dichas observaciones siguen una distribución F1 , antes de un punto, y en otro
punto posterior a éste la distribución es F2 . Es decir, desde el punto de vista estadı́stico
la sucesión de observaciones muestra un comportamiento no homogéneo.
En general el problema de puntos de cambio según Chen y Gupta ([4]) se visualiza de la
forma siguiente:

Sea X1 , X2 , . . . , Xn una sucesión de vectores (o variables) aleatorios independientes con


funciones de distribución de probabilidad F1 , F2 , . . . , Fn , respectivamente. Entonces el
problema de puntos de cambio consiste en probar la hipótesis nula H0 de la no existencia
de cambio contra la alternativa Ha de que existe al menos un punto de cambio:
H0 : F1 = F2 = . . . = Fn , vs

Ha : F1 = · · · = F(k1 ) 6= F(k1+1 ) = · · · = F(kq ) 6= F(kq+1 ) = · · · = Fn ,

donde 1 < k1 < k2 < · · · < kq < n, q es el número desconocido de puntos de cambio y
k1 , k2 , · · · , kq son las posiciones desconocidas respectivas que tienen que ser estimadas. Si
las distribuciones F1 , F2 , . . . , Fn llegan a ser una familia paramétrica común F (θ), donde
θ ∈ Rp , entonces el problema de puntos de cambio consiste en probar la hipótesis nula H0
sobre la no existencia de cambio en los parámetros θi , i = 1, . . . , n de la población contra
la alternativa Ha de que existe al menos un punto de cambio:
H0 : θ1 = θ2 = · · · = θn = θ (desconocidos), vs

Ha : θ1 = · · · = θ(k1 ) 6= θ(k1+1) ) = · · · = θ(kq ) 6= θ(kq+1 ) = · · · = θn ,

donde q y k1 , k2 , . . . , kq tienen que ser estimados. Estas hipótesis juntas revelan los aspectos
de inferencia de puntos de cambio para determinar si cualquier punto de cambio existe en
el proceso, estimar el número de ellos y sus respectivas posiciones.

74
En diversos casos se asume que las observaciones son independientes e idénticamente
distribuidas (i.i.d.), pero el análisis resulta más complejo si se presenta dependencia entre
las observaciones. En el caso de series de tiempo la dependencia está presente entre las
observaciones dentro de cada segmento de tiempo; en el caso de datos espacio-temporales,
la dependencia sucede sobre el espacio y el tiempo.

De acuerdo con Brodsky and Darkhovsky ([2], [3]), los problemas y métodos de diagnóstico
de puntos de cambio se pueden clasificar de la manera siguiente:

Por el carácter de la información sobre el objeto de diagnóstico: Análisis restrospectivo


(a posteriori) y análisis secuencial ; Por el carácter de métodos de diagnóstico estadı́stico:
Métodos paramétricos, no paramétricos y semiparamétricos; Por el carácter del objeto
de diagnóstico: Problemas de diagnóstico estadı́stico para procesos aleatorios (en tiempo
discreto o continuo) y problemas de diagnóstico estadı́stico para campos aleatorios; Por el
carácter de dependencia estadı́stica entre observaciones: se pueden formular problemas de
puntos de cambio para sucesiones aleatorias con observaciones independientes, y problemas
de puntos de cambio para observaciones dependientes en el tiempo o espacio, en forma uni-
dimensional y multidimensional, un solo punto de cambio o múltiples puntos de cambio;
Por el mecanismo de cambio en el estado del objeto de diagnóstico: Detección de cambio
abrupto (problemas de puntos de cambio), detección de cambio gradual, detección en
relaciones de regresión. Dichos cambios son observados en las caracterı́sticas probabilı́sticas
de las observaciones.

6.3. Puntos de Cambio en


Estadı́stica Paramétrica, Proceso Basado en
la Razón de Verosimilitud
Las primeras publicaciones sobre análisis de puntos de cambio sucedieron hacia la mitad
del siglo pasado. Uno de los primeros trabajos sobre el problema de punto de cambio
secuencial abrupto incluye a Page ([17]) quien propuso dicho método. Él asumió una
sucesión de variables aleatorias independientes observadas con un cambio abrupto, se
planteó la hipótesis nula H0 que las observaciones provenı́an de una sola distribución y la
hipótesis alternativa Ha que las primeras m observaciones provenı́an de una distribución
y el resto de otra distribución, supuso además que los parámetros de tales distribuciones
eran conocidos. Para probar la hipótesis nula H0 que se planteó, dividió el espacio muestral
en n subconjuntos a los cuales les asignó una hipótesis, la hipótesis Hi i = 1, . . . , n,
es la hipótesis que las primeras i observaciones son extraı́das de F (x|θ1 ) y el resto de
F (x|θ2 ), Hi fue aceptada para x en la región Ri si la verosimilitud en esa región era
mayor que la de otra región en comparación. El estimador del punto de cambio fue
k
X
t̂ = inf {k : Sk−1 ≥ Sj , j = 2, . . . , n}, donde Sk = [lnf (xt |θ1 ) − lnf (xt |θ2 )].
t=1

Por otra parte, Hinkley ([11]) mediante el uso de caminatas aleatorias, obtuvo las
estadı́sticas de prueba bajo diferentes suposiciones respecto a los parámetros, los cuales
consideró correspondian a una distribución normal. Obtuvo las distribuciones asintóticas de
las estadı́sticas de prueba y la del estimador de máxima verosimilitud del punto de cambio.
Su método lo condujo a distribuciones asintóticas basadas en integrales extremadamente
complejas, y al comparar las varianzas del estimador empı́rico de punto de cambio con los
resultados de sus aproximaciones, determinó que sus resultados fueron pobres, ya que los

75
valores no fueron parecidos uno del otro, principalmente en muestras de tamaño pequeñas.
Los tamaños de muestra que tomó fueron T = 50, 100, 200. Por su parte Hawkins ([10]) por
medio de un proceso de Markov obtuvo la distribución nula de la estadı́stica de prueba de
la razón de log verosimilitud de un solo punto de cambio sobre la media de una sucesión de
variables aleatorias independientes e idénticamente distribuidas con distribución normal,
supuso a la varianza σ conocida e igual a 1. Ası́ mismo, proporcionó la distribución nula
del punto de cambio, sus resultados de simulación mostraron que la aproximación es buena
cuando el tamaño de muestra n y el nivel de significancia α son pequeños pero con errores
moderados.

Más tarde Yao and Davis ([24]) mostraron que la estadı́stica de prueba cuando cambia la
media de una distribución normal y la varianza es igual a uno, es igual en distribución al
máximo de un puente Browniano normalizado. Derivaron también la convergencia débil
de la distribución nula de la estadı́stica de prueba de razón de verosimilitud del punto
de cambio sobre la media de una distribución normal cuando la varianza es conocida y
desconocida; por su parte Horvárth ([13]) obtuvo la distribución nula asintótica de la
estadı́stica de prueba de la razón de verosimilitud en el caso de una normal univariada
cuando ambas media y varianza pueden cambiar, en éstos tres casos la convergencia fue
hacia la distribución doble exponencial. Yao and Davis ([24]), determinaron que dicha
distribución para n pequeña no provee una buena aproximación a la distribución nula,
para esto ellos se basaron en resultados de la teorı́a de valores extremos expuesta en Hall
([9]), la cual dice que si se tiene una sucesión de variables aleatorias provenientes de una
distribución normal estándar, entonces el máximo de tal sucesión de variables aleatorias
estandarizado por funciones an y bn converge en distribución a la distribución de valores
extremos Gumbel, y la tasa de convergencia es aproximadamente de 1/ log n la cual indica
convergencia muy lenta principalmente en muestras pequeñas. Horvárth ([13]) determinó
también por medio de simulación que la convergencia es lenta para muestras pequeñas, el
tomó muestras de tamaños n = 20, 50 y 100.

La estadı́stica de prueba para la media, la convergencia en distribución a puentes


Brownianos y la distribución Gumbel bajo H0 , son dadas a continuación:

Estadı́stica de prueba de máxima verosimilitud

√ √ Xk
U= Vk∗ = max |Tk | donde n
Vk = Tk == ( k(n−k) )1/2 (Xi − X̄).
1≤k≤n−1
i=1

Convergencia en distribución a puentes Brownianos

Sean W = X1 +X2 +. . .+Xk , donde X1 , X2 , . . . , Xk son variables aleatorias, 1 ≤ k ≤ n−1


y {B(t); 0 ≤ t < ∞} un movimiento Browniano estándar; entonces bajo H0 , de las
propiedades de la variable aleatoria normal,

     
Wk − kµ D k
√ ;1 ≤ k ≤ n = B ;1 ≤ k ≤ n ,
n n

76
D
= significa igualdad en distribución. Además,

 1/2
Wk k Wn k k
U = max √ − √ / (1 − )
1≤k≤n−1 n n n n n

Wk
√ − tW n
√ /[(t(1 − t)]1/2

= max
nt=1,...,n−1 n n

Wk ku Wn nu
= max √ − √ − t( √ − √ ) /[t(1 − t)]1/2
nt=1,...,n−1 n n n n
D
= max |B(t) − tB(1)| /[t(1 − t)]1/2
nt=1,...,n−1

= max |B0 (t)| /[t(1 − t)]1/2 ,


nt=1,...,n−1

k
donde t = n
, B0 (t) = B(t) − tB(1) es un puente Browniano.

Distribución de valores extremos Gumbel

lim P [a−1
n (U − bn ) ≥ x] = exp{−2π
1/2 −x
e },
n→∞

para −∞ < x < ∞, donde an = (2 log log n)−1/2 , bn = a−1 1


n + 2 an log3 n.

En lo que respecta a la estadı́stica multivariada Srivastava and Worsley ([20]) usaron


una prueba de razón de verosimilitud para probar un cambio en el vector de medias
de una distribución normal multivariada suponiendo varianzas iguales pero desconocidas.
La prueba de razón de verosimilitud para t (punto de cambio desconocido) esta basada
en el máximo de la T 2 de Hotelling. Srivastava and Worsley ([20]) encontraron una
técnica conservativa para la distribución nula de la estadı́stica de prueba Tt̂2 , basada
en una desigualdad Bonferroni mejorada. Para su aporte, la desigualdad Bonferroni
mejorada, ellos se basaron en dos propuestas anteriores. Mediante integración numérica
obtuvieron la distribución de la estadı́stica de prueba Tt̂2 = max yr0 Wt yt , para p = 2, 4, 6
(número de variables usadas) y N = 10, 20, 40 (N tamaño de muestra), los niveles de
significancia utilizados fueron α = 0.10, 0.05, 0.01. Calcularon también los lı́mites para las
dos propuestas en las que ellos se basaron y los resultados mostraron que: el lı́mite para la
primera debı́a ser usado para v < 8 (v parámetro de forma de la distribución Beta usada
en su aproximación), su propuesta fue razonablemente exacta para N = 20, 40 y v ≥ 8
y ambos fueron conservativos para N > 40. El segundo lı́mite en el que ellos se basaron
fue exacto para N < 50 y conservativo para N > 50. Además notaron que la exactitud
parece incrementar cuando el número de variables p crece. Mencionan que su método es útil
cuando se tienen múltiples puntos de cambio pues puede aplicarse el método de bisección.

Debido a que las distribuciones de las diferentes estadı́sticas de prueba resultaron


ser adecuadas para muestras pequeñas y en algunos casos con errores; para muestras
suficientemente grandes en donde la convergencia resultó ser lenta y en otro caso los
lı́mites resultaron ser conservativos, se creó una metodologı́a nueva para convergencia
asintótica en donde se utilizan puentes Brownianos. Ésta nueva metodologı́a demostró
tener una convergencia asintótica rápida, ser no conservativa y ser apropiada para tamaños
de muestra pequeños, moderados y grandes.

77
6.4. Distribución Nula Asintótica de la Estadı́stica
de Prueba usando Puentes Brownianos
Gombay and Horvárth ([7]) establecieron el siguiente contraste de hipótesis para un solo
punto de cambio con observaciones provenientes de cualquier distribución considerando
vectores aleatorios:

Sean X1 , X2 , X3 , ..., Xn vectores aleatorios independientes en Rn con función de


distribución F (x; θ1 , η1 ), . . . , F (x; θn , ηn ), donde θi ∈ Θ(1) ⊆ Rd y ηi ∈ Θ(2) ⊆ Rp para
todo 1 ≤ i ≤ n. Se quiere probar la hipótesis nula H0 contra la alternativa Ha :

H0 : θ1 = · · · = θn ; η1 = · · · = ηn
vs
Ha : existe un entero k∗ , 1 ≤ k∗ ≤ n tal que θ1 = · · · = θk∗ 6= θk∗ +1 = · · · = θn ;
η1 = · · · = ηn

donde los η 0 s no cambian, son parámetros de ruido, mientras que θ cambia bajo la
alternativa en un tiempo desconocido, todos los parámetros se consideran desconocidos.
Asumiendo que el tiempo de cambio k∗ es conocido se aplica la prueba de razón
de verosimilitud, se asume que: X1 , X2 , X3 , ..., Xn tienen densidades de probabilidad
f (x; θ1 , η1 ), ..., f (x; θn , ηn ) con respecto a v, donde v es una medida de probabilidad
σ-finita en Rn , se establece una condición de consistencia sobre la distribución acumulada.

Si el cambio ocurre en k∗ = k, entonces se rechaza H0 para valores pequeños de la razón


de verosimilitud Λk , donde
Y
sup f (xi ; θ, η)
(θ,η)∈Θ(1) ×Θ(2) 1≤i≤n
Λk = Y Y .
sup f (xi ; θ, η) f (xi ; τ, η)
(θ,τ,η)∈Θ(1) ×Θ(2) 1≤i≤k k<i≤n

Para obtener los estimadores se aplica logaritmo a la función de verosimilitud, se deriva


respecto a cada uno de los parámetros, la derivada se iguala a cero y se obtienen los
estimadores, bajo las restricciones dadas en el cociente de la razón de verosimilitud. Ası́
mismo de la razón de log verosimilitud se obtiene el estadı́stico de prueba.

Dado que el punto de cambio k∗ es desconocido entonces es natural usar la razón de


máxima verosimilitud y rechazar H0 , si Zn = max (−2 log Λk ) es grande, el estadı́stico
1≤k<n
Zn es un funcional especial del proceso {−2 log Λk , 1 ≤ k < n}.

Gombay and Horvárth ([7]) establecieron condiciones de regularidad las cuales permiten
mostrar las convergencias en probabilidad y en distribución de algunos estadı́sticos de
prueba para puntos de cambio, tales condiciones indican: la existencia de la derivada en
un cierto intervalo; acotamientos para las funciones a derivar. Para la matriz de Fisher
compuesta de las esperanzas de las funciones usadas en la derivación debe existir su inversa
y ser continua para todo parámetro ζ ∈ Θ0 donde Θ0 es el espacio paramétrico: la varianza
de las funciones utilizadas en la derivación debe ser finita y los u-ésimos momentos para
las funciones en la derivación deben ser finitos.

El objetivo principal de Gombay and Horvárth ([7]) fue obtener aproximaciones para
la distribución de Zn y probar información sobre la tasa de convergencia de estas
aproximaciones. Ellos observaron que −2 log Λk puede ser aproximado con formas

78
cuadráticas de sumas parciales Rk de sumas de vectores aleatorios independientes. Dado
que Rk esta basado en sumas parciales de vectores aleatorios i.i.d. puede ser reemplazado
por formas cuadráticas de vectores aleatorios Gaussianos para aproximar −2 log Λk .
Para ello se definió el proceso de razón de verosimilitud Vn (t) = −2 log Λ[(n+1)t] si
1 n 1 n
n+1
≤ t < n+1 y Vn (t) = 0 si, 0 ≤ t < n+1 y Vn (t) = 0 si n+1 ≤ t ≤ 1. La aproximación
Gaussiana para Vn (t) implica condiciones necesarias y suficientes para la convergencia débil
de funcionales ponderados, para ello se hace uso de puentes Brownianos independientes
{Bi (t), 0 ≤ t ≤ 1}, 1 ≤ i ≤ d, donde B es unX proceso Gaussiano continuo con E(B(t)) = 0 y
E[B(t)B(s)] = min(t, s) − ts y B (d) (t) = Bi2 (t). Lo siguiente implica la convergencia
1≤i≤d
débil en distribución de t(1 − t)Vn (t) y la convergencia de funcionales ponderados en
distribución de Vn (t).

Si H0 y las condiciones de regularidad se cumplen, entonces se puede definir una sucesión


(d)
de procesos estocásticos {Bn (t), 0 ≤ t ≤ 1} tal que

D
{Bn(d) (t), 0 ≤ t ≤ 1} = {B (d) (t), 0 ≤ t ≤ 1}
para cada n,

(d)
Bn (t)

α α
n sup (t(1 − t)) Vn (t) − = Op(1)

λ ≤t≤1− λ t(1 − t)
n n

1 1
para todo λ > 0 y 0 ≤ λ < 2
− µ
y

sup |t(1 − t)Vn (t) − Bn(d) (t)| = op (n((1/µ)−(1/2)) ).


0≤t≤1

Al utilizar lo que se acaba de establecer Gombay and Horvárth ([7]) obtuvieron


aproximaciones y lı́mites para la tasa de convergencia de la raı́z cuadrada del estadı́stico
1/2 3/n
de prueba Zn . Determinado que mediante el uso de la función h(n) = l(n) = (log n) n
,
la cual define el intervalo para t, en el que sucede la convergencia en probabilidad de
1/2
Zn , mediante el supremo de puentes Brownianos ponderados se logra una convergencia
adecuada, ésto se establece de la forma siguiente:

Si
H0 y las condiciones de regularidad se cumplen, entonces se tiene

1/2 (d)
Z n − sup (Bn (t)/(t(1 − t))1/2 = Op (exp(−(log n)1− )),

1 ≤t≤1− 1
n n
(d)
para 0 <  < 1 y {Bn (t), 0 ≤ t ≤ 1} una sucesión de procesos Gausianos.

1 1
También si h(n) ≥ n
, l(n) ≥ n
y

lim sup n(h(n) + l(n))exp(−(log n)1− ) < ∞,
n→∞

para
algún 0 < ∗ ≤ 1, entonces se tiene
(d)

1/2
Z n − sup ( Bt(1−t)
n (t) 1/2
) = Op (exp(−(log n)1− ))
h(n)≤t≤1−l(n)
para todo 0 <  < ∗ .
Gombay and Horvárth ([7]) obtuvieron para 0 < α < 1 valores crı́ticos y regiones de
1/2
rechazo para Zn . Los valores crı́ticos fueron obtenidos con:

79
!1/2
(d)
Bn (t)
u(h, l) = sup(x : P ( sup ≤ x) = 1 − α),
h≤t≤1−l t(1 − t)
la cual es una aproximación asintótica de tamaño α al valor crı́tico

zn = zn (1 − α) = sup[x : P [Zn1/2 ≤ x] = 1 − α].


Con la finalidad de comparar sus resultados Gombay and Horvárth ([7]) utilizaron valores
crı́ticos de la distribución de valores extremos siguiente:
Si H0 y las condiciones de regularidad se cumplen, entonces se tiene
lim P (A(log n)Zn1/2 ≤ t + Dd (log n)) = exp(−2e−t )
n→∞

para todo
R ∞ t,t−1donde A(x) = (2 log x)1/2 y Dd (x) = 2 log x + d
2
log log x − log Γ(d/2),
−y
Γ(t) = 0 y e dy, t > 0.

Con los resultados mencionados de la convergencia, utilizando puentes Brownianos,


Gombay and Horvárth ([7]) desarrollaron simulación Monte Carlo y compararon valores
crı́ticos de observaciones provenientes de distribuciones exponencial, Poisson y normal
con varianza desconocida y conocida; y de una normal bivariada e ilustraron que la
1/2
aproximación de Zn es mejor usando puentes Brownianos que usando la aproximación con
la doble exponencial, ya que en este caso los intervalos son conservativos, además de que
su convergencia es lenta. La única excepción de la convergencia con puentes Brownianos
fue el caso de la normal univariada con cambio en medias y varianzas, en donde los valores
1/2
crı́ticos de Zn son muy grandes para tamaños de muestra pequeñas. Para su simulación
ellos se basaron en 5000 repeticiones, tamaños de muestra de n = 20, 50, 100, 500 y niveles
de confianza de 1−α = 90, 95, 99 y sus resultados se muestran en las tablas 1 y 2 siguientes:

Tabla 1. Comparación de valores crı́ticos para la prueba de razón de


verosimilitud (un parámetro puede cambiar bajo la alternativa), tabla
tomada de Csörgö and Horváth([5]).

80
Tabla 2. Comparación de valores crı́ticos para la prueba de razón de
verosimilitud (dos parámetros de cambio bajo la alternativa), Csörgö and
Horváth ([5]).

La información en las tablas muestra que la aproximación a la distribución asintótica


del estadı́stico de prueba por medio de puentes Brownianos es adecuada para tamaños
de muestra pequeños, moderados y grandes, excepto para la Normal univariada cuando
ambos parámetros cambian.

Casi en forma paralela a como se dió el aporte de la convergencia a puentes Brownianos,


Gombay and Horvárth ([8]) propusieron un estimador de máxima verosimilitud para el
tiempo de cambio bajo la alternativa Ha , tal estimador fue dado por k̂ = min{k : Zn =
−2 log Λk } y corresponde a la estadı́stica de prueba

Zn = max (−2 log Λk ).


1≤k<n

Para tal punto de cambio se obtuvo bajo H0 la siguiente convergencia en distribución: si


las condiciones de la convergencia a puentes Brownianos se satisfacen, entonces

k̂ D 1
= ξ0 , y P {ξ0 = 0} = P {ξ0 = 1} = .
n 2
Gombay and Horvárth ([8]) obtuvieron también algunas otras aproximaciones asintóticas
para la estadı́stica de prueba bajo la alternativa Ha y mediante simulación Monte Carlo
ellos determinaron la exactitud de sus aproximaciones, para observaciones provenientes
de una distribución normal cuando cambia la media y la varianza permanece constante;
observaciones exponenciales, Poisson y vectores aleatorios normales cuando cambia
el vector de medias y la covarianza permanece constante y conocida. Hicieron 2000
repeticiones para n=50, 100 y 500 y cambios en k∗ = nλ con λ = 0.1, 0.2, . . . , 0.5 para varios
valores de los parámetros antes y después del cambio, los resultados fueron muy exactos lo
cual pudó observarse al comparar los valores de la función potencia asintóticos y simulados.
Cuando la media µ∗ de la distribución normal fue bastante grande las proposiciones de
lı́mites dieron valores muy cercanos a los simulados. Se presentaron diferencias entre las

81
potencias verdaderas y asintóticas cuando la media µ∗ fue pequeña.

Hasta aquı́ lo correspondiente a puntos de cambio tratados para variables aleatorias


independientes. El siguiente apartado corresponde a puntos de cambio para variables
conectadas por medio de una regresión lineal.

6.5. Puntos de Cambio en Regresión Lineal


El modelo general en regresión es el siguiente

T T ∗
Xi,1 β + Xi,2 γ + ξi si 1 ≤ i ≤ k ,

Yi =
 T ∗
γ + ξi si k∗ < i ≤ n,
 T
Xi,1 β + Xi,2

donde Xi,1 ∈ Rd , Xi,2 ∈ Rp , 1 ≤ i ≤ n, son vectores de columna conocidos, β, β ∗ y γ son


vectores columna desconocidos. El punto de cambio es respecto al vector de parámetros β.
Los vectores β, β ∗ y γ son llamados los coeficientes de regresión desconocidos del modelo
y ξ1 , ξ2 , . . . , ξn son variables aleatorias independientes normales con E(ξi ) = 0, 1 ≤ i ≤ n.

El contraste de hipótesis es el siguiente:

H0 : k∗ ≥ n y 0 < σ 2 = var(ξi ) < ∞,


para todo 1 ≤ i ≤ k∗ ,
vs
Ha : 1 ≤ k∗ < n, y 0 < σ 2 = var(ξi ) < ∞,
para todo k∗ < i ≤ n.

Lo cual dice que bajo la hipótesis nula los coeficientes de regresión permanecen estables
sobre el tiempo y bajo la alternativa existe un cambio en al menos uno de los d parámetros
especificados del vector β en un tiempo desconocido. La varianza de las observaciones
permanece constante pero desconocida sobre el tiempo.

En general el análisis de puntos de cambio en regresión lineal cubre varios casos desde
probar hipótesis sobre cambios en los coeficientes de la regresión, el intercepto, la pendiente,
la tendencia, los residuales. En un principio el análisis se enfocó en los cambios de los
coeficientes de la regresión lineal simple para muestras pequeñas, en cuyo caso se llegó a
que la distribución de la estadı́stica de prueba es una distribución F ([18], [19]); también
se analizaron cambios por medio del intercepto, el resultado fue una distribución χ2
para la estadı́stica de prueba (Hinkley, [12]); en lo que respecta al estudio de puntos de
cambio en regresión multiple Worsley ([23]) aportó lı́mites conservativos para la función
de distribución nula de la estadı́stica de prueba, él se basó en la desigualdad Bonferroni,
se consideraron los casos para cuando la varianza es conocida y desconocida. En general
la teorı́a asintótica para obtener la distribución de la estadı́stica de prueba de puntos de
cambio en regresión es tratada en Csörgö y Horvart ([5]).

Finalmente en lo que respecta a cambios estudiados en espacio-tiempo, la metodologı́a


asintótica con puentes Brownianos aún no ha sido estudiada, como puede observarse en
algunos trabajos actuales que se mencionan enseguida.

82
6.6. Problemas de Puntos de Cambio en Espacio
Tiempo
En general el problema de puntos de cambio en espacio-tiempo analiza diferentes tipos de
cambios según Zhou et al. ([25]) los cambios espacio temporales se clasifican de diferentes
formas: cambio en parámetros estadı́sticos; cambio en el valor, es decir la diferencia entre
un valor de un dato y sus vecinos en localización o tiempo; cambio en el modelo ajustado a
los datos, el cual se refleja en el cambio del comportamiento de la tendencia la cual puede
ser lineal y polinomial; y cambio en los atributos de la derivada, es decir la diferencia entre
la predicción y el valor actual es considerada un cambio.

Según Zhou et al. ([25]) los tipos de modelado en estadı́stica espacial son de tres clases:
modelado Geoestadı́stico; modelado lattice (o modelo areal), en éste tipo de modelado se
utilizan procesos de los datos tales como el autorregresivo espacial y los campos aleatorios
de Markov; y finalmente procesos puntuales.

Tipos de cambios espaciales basado en imágenes: estos cambios incluyen una sola imagen,
un conjunto de imágenes (mas de 2 imágenes). Basado en raster: cambio en el patrón de
escala la cual puede ser local, focal o zonal. Basado en vectores, los cambios pueden ser
entre: puntos, lı́neas, polı́gonos y redes.

Patrones de cambio espacio temporales: se refiere al cambio de volumen (polı́gonos


con intervalos de tiempo), el cual representa un cambio del proceso que ocurre en una región
espacial ( caracterizada por un polı́gono) durante un intervalo de tiempo. Cuantifica ambas
cubierta espacial y duración temporal de un proceso no estacionario.

Un trabajo en modelado lattice con procesos autorregresivos simultáneos para estudiar


puntos de cambio de forma espacial es el de Otto and Wolfgang ([16]), quienes analizan
cambios en los parámetros media y covarianza de tal proceso. Los datos lattice pueden ser
modelados como un proceso autorregresivo. El proceso autorregresivo simultáneo SAR (en
inglés Simultaneously Autoregressive Model), es considerado proceso estacionario según
Whittle ([22]). Tal proceso tiene un punto inicial el cual es considerado como el centro de
origen s0 ∈ Ds , Ds denota la región de estudio y desde el cual evoluciona en toda dirección
del espacio q-dimensional, los cambios en los parámetros ocurren a una cierta distancia
desde el centro predefinido, el objetivo principal del trabajo es detectar tales cambios en
el espacio. En particular se analiza el enfoque sobre cambios en la media y los parámetros
autorregresivos. El procedimiento de prueba propuesto se basa en el enfoque de máxima
verosimilitud. La distribución empı́rica del estadı́stico de prueba de razón de verosimilitud
se obtiene vı́a simulación Monte Carlo. Además, se muestra que la distribución Gumbel
generalizada es una adecuada distribución lı́mite de la estadı́stica de prueba propuesta.
Finalmente se da un ejemplo de puntos de cambio de la detección de cáncer de pulmón en
tomografı́a computarizada.

Otho y Wolfgang ([16]) consideran que para el análisis en el espacio hay tres diferentes
normas la de Manhattan, la Euclidiana, y la norma del máximo, estas son:

q
X
DM (s) = ||s||1 = |s(i) |,
i=1
q
X 2
DE (s) = ||s||2 = ( |s(i) |)1/2 ,
i=1

83
DQ (s) = ||s||∞ = maxi=1,...,q |s(i) |.

El proceso autorregresivo simultáneo espacial se define como: sean s1 , . . . , sn que denotan


localizaciones en Ds , las cuales son ordenadas con respecto a su distancia desde el origen
como 0 < d(s1 , s0 ) ≤ d(s2 , s0 ) ≤ · · · ≤ d(sn , s0 ), sea Yi (s) la i-ésima componente de Y (s)
y Y i = (Yi (s1 ), . . . , Yi (sn ))T . El proceso autoregresivo simultáneo considerado es dado
por:
Y i = ui 1n + ρi B(Y i − ui 1n ) + ξi , i = 1, . . . , p,

donde 1n es un vector de unos, {ξ1 , . . . , ξp } es una sucesión de vectores aleatorios


independientes, ρi es un parámetro autorregresivo de ponderación de BY i , µi es la
media de Y i , B es una matriz de ponderamientos espaciales. Asumiendo que cada
ξi ∼ Nn (0, σξ2i I n )) , se sigue que Y i ∼ Nn (ui I n , (I n −ρi B)−1 σξ2i [(I n −ρi B)T ]−1 ), I n es la
matriz identidad n-dimensional. Se asume que los vectores ξ1 , . . . , ξp son independientes,
los vectores Y 1 , . . . , Y p , también son independientes , pero los componentes de cada uno
de los Y i son correlacionados. Por otra parte la distribución de la l-ésima observación
es Y (sl ) ∼ Np (u, Σ(sl )), donde Σ(sl ) = diag(σ12 (sl ), . . . , σp2 (sl )) y u = (u1 , . . . , up )T .
Todos los componentes de Y (sl ) se asume que independientemente siguen un proceso
autorregresivo espacial. La varianza σi2 (sl ) es obtenida como la u-ésima entrada de la
diagonal de la matriz de covarianza (I n − ρi B)−1 σξ2i [(I n − ρi B)T ]−1 .

Se considera que puede ocurrir un cambio en los parámetros del modelo a una distancia
desconocida δ desde el origen s0 = 0. Se asume que δ ∈ Dn = {D(s1 ), . . . , D(sn ), ∞}, y
Dn tiene dos elementos si todas las estaciones tienen la misma distancia positiva desde
el origen (i.e. 0 = D(s0 ) < D(s1 ) = · · · = D(sn ) < ∞) y tiene n + 1 elementos
si todas las estaciones tienen una distancia positiva diferente desde el origen ( i.e.
0 = D(s0 ) < D(s1 ) < · · · < D(sn ) < ∞) donde δ = ∞ se refiere al caso en que no
existe un cambio estructural. En particular el enfoque es sobre cambios en la media y los
parámetros autoregresivos ρ = (ρ1 , . . . , ρp )T .

Los datos lattice y los datos espaciales son caracterizados por dependencia (autocorrelación
espacial) y heterogeneidad (estructura espacial). La dependencia espacial es propiamente
determinada en pesos y la heterogeneidad espacial es tomada en cuenta para la
especificación del modelo (Anselin, [1]). La estructura de covarianza se sigue indirectamente
de la especificación de la matriz de pesos espaciales. Para el proceso estocástico SAR se
define la estructura de la matriz B de pesos, para ello se supone que el proceso tiene algúna
localización inicial s0 desde la cual el proceso evoluciona en toda dirección. Inicialmente
se define una matriz binaria W = (wηl )η,l=1,...,n de pesos espaciales,


 1, si D(sη − sl ) ∈ (o, c] y D(sη ) > D(sl ),
wηl =
0, d.o.f. ,

el escalar c es alguna constante positiva que restringe la distancia maximal de dos


localizaciones las cuales se asume se influencian una de otra. Se asume que minη,l d(sη , sl ) <
c ≤ maxη,l d(sη , sl )

De la matriz W se obtiene la matriz B, la cual es denotada por B = (bηl )η,l=1,...,n con

84
 n
wηl
X
wηl 6= 0,



 n , si
 X
w l=1



 ηl
bηl = l=1



 n
X

 0, si wηl = 0.



l=1

Los cambios que se analizan son en la media µ y en los parámetros autorregresivos


ρ = (ρ1 , . . . , ρp )0 .

Si {X(s) : s ∈ Ds } es el proceso observado y se supone que ocurre un cambio


a = (a1 , . . . , ap )T ∈ Rp n{0} a una distancia δ, entonces el proceso observado y su esperanza
son:

Y (s), si D(s) < δ,
X(s) =
a + Y (s), si D(s) ≥ δ,


u, si D(s) < δ,
E(X(s)) =
u + a, si D(s) ≥ δ,

para cada localización s.

Modelo de punto de cambio


Se define una función indicadora ψ(d) = (ID(sl )≥d )l=1,...,n para la distancia y al incluir el
cambio en la media del proceso autorregresivo, el proceso observado se reescribe como:
X i = ui 1n + ai (I n − ρi B)ψ(δ) + ρi B(X i − ui 1n ) + ξi ,
i = 1, . . . , p.
Además puede haber cambios en los parámetros autorregresivos del proceso y si r =
(r1 , . . . , rp )T ∈ Rp n{0} denota la magnitud de dicho cambio el cual ocurre a la distancia
δ, entonces el proceso se especifica como:
X i = ui 1n + (ρi I n + ri diag(ψ(δ))B(X i − ui 1n ) + ξi ,
i = 1, . . . , p.

Nota: Los cambios en los parámetros autorregresivos conducen a cambios en la matriz de


covarianza del proceso.

El contraste de hipótesis sobre la decisión de si existe un cambio estructural dentro del


proceso a una distancia maximal δ de todas las localizaciones se especifica como:

H0 : δ > D(sn ) vs H1 : δ ≤ D(sn ),

donde D(sn ) son todas las posibles distancias medidas a partir del origen a cualesquiera
localizaciones de la región de estudio. La decisión de si existe un cambio se basa en la
razón de verosimilitud entre el modelo con δ = ∞ y el modelo mejor ajustado con δ > 0.

85
6.6.1. Estimación
Los parámetros del modelo autorregresivo sin cambios estructurales pueden ser estimados
vı́a el enfoque de máxima verosimilitud. Esto puede especificarse como
(0)
(ρ̂, σ̂ ε , µ̂) = argmax(ρ,µ∈Rp )(σ∈Rp ) (fY 1 ,...,Y p (X 1 , . . . , X p ; ρ, σ  , µ)),
+

(0)
donde fY 1 ,...,Y p es la función de distribución conjunta y X 1 , . . . , X p son las realizaciones
de Y .

El vector σε = (σε1 , . . . , σεp ) consiste de la desviación estándar residual para todos los
componentes de Y (s).
Asumiendo que los ξi son distribuidos normalmente, las log verosimilitudes son:
p p
X X 1 (0)T (0) (0)
Bajo H0 : L(0) (ρ, σ ξ , u; X 1 , . . . , X p ) = − n2 ln(2πσξ2i ) − ξ ξi donde ξi =
2σξ2i i
l=1 l=1
(I n − ρi B)(X i − ui 1n ).

Para cambio en la media:


p p
X X 1 (1)T (1)
L(1) (ρ, σ ξ , u, a, δ; X 1 , . . . , X p ) = − n2 ln(2πσξ2i ) − ξ ξiδ
2σξ2i iδ
l=1 l=1
(1)
donde ξiδ = (I n − ρi B)(X i − ui I n − ai ψ(δ)).

Para cambio en el parámetro autorregresivo:


p p
X X 1 (2)T (2)
L(2) (ρ, σ ξ , u, r, δ; X 1 , . . . , X p ) = − n2 ln(2πσξ2i ) − ξ ξiδ
2σξ2i iδ
l=1 l=1
(2)
donde ξiδ = (I n − (ρi I n + r0 diag(ψ(δ)))B)(X i − ui 1n ).

Se obtienen los estimadores bajo H0 y se obtiene la razón de verosimilitud.

La razón de log verosimilitud es:


(1)
−2Λn (X 1 , . . . , X p ) = max 2(L(1) (θ̂δ ; X 1 , . . . , X p ) − L(0) (θ̂(0) ; X 1 , . . . , X p )).
δ∈Dn

(0)
donde θ̂ denota el punto donde el máximo de la log verosimilitud L(0) es alcanzado y
(1)
θ̂δ denota el máximo de la log verosimilitud del modelo de punto de cambio para algún
punto de cambio dado δ.

De acuerdo a la teorı́a clásica, la diferencia entre las funciones de la log-verosimilitud L(1)


y L(0) debe converger en probabilidad a una distribución χ2 con p grados de libertad si el
punto de cambio δ es conocido (Davies, [6]). Además el máximo de una sucesión de nχ2p
de variables aleatorias distribuidas ξi asintóticamente siguen una distribución Gumbel:

an (maxi ξi − bn ) → λ, P (λ ≤ x) = exp(−exp(−x))

con an = 2 y bn = 12 (ln n + (p − 1) ln ln n − ln Γ(p)). Este resultado es válido si {ξi }


son estacionarios. Sin embargo en este caso la razón de verosimilitud no es el máximo
de una sucesión de variables aleatorias independientes χ2p , en vez de esto, ellas dependen
de n, tienen una estructura de dependencia complicada y únicamente son asintóticamente
distribuidas χ2 . La distribución lı́mite exacta no puede ser obtenida en una manera sencilla.

86
La distribución estimada de −2λn es comparada con una distribución de valor extremo
generalizada. Una variable aleatoria M sigue este tipo de distribución si su función de
distribución es dada por

( 1
−γ
exp(−(1 + γ m−v ) , 1 + γ m−v > 0, γ 6= 0,
P (M ≤ m) = Gγ,v,ζ = ζ ζ
exp(− m−v
ζ
), m∈R γ = 0.

Para γ = 0 la distribución de valor extremo generalizada es equivalente a la distribución


Gumbel. Además esta distribución de valor extremo generalizada depende de los
parámetros v y ζ. Los parámetros v y ζ pueden ser estimados por el método de momentos
(Yousef and Al-Subh, [14]) . Los estimadores son dados por


Sm 6
v̂ = m̄ − ζ̂γ ∗ y ζ̂ = ,
φ

donde γ ∗ es la constante de Euler-PMascheroni, m̄ = n1 n


P
i=1 mi es el promedio de todas
1 n 2
las observaciones mi , y Sm = n−1 i=1 (mi − m̄) es la desviación estándar muestral.
Dado que la distribución lı́mite exacta de la razón de log verosimilitud no podı́a ser
obtenida de una manera sencilla, se realizó un estudio de simulación del proceso por medio
de Monte Carlo y los cuantiles de la distribución estimada de Λn fueron comparados con
los de la distribución Gumbel. La simulación se redujo de d = 200 a 104 para reducir el
tiempo y memoria y ρ =0.8 para cambio en la media, se seleccionó ρ =0.8 debido a que
una autocorrelación positiva parece ser una suposición razonable para muchas aplicaciones
(Wall, [21]), mientras que para cambios en la autocorrelación se consideró ρ = 0, d es la
distancia desde el centro de origen s0 , tal que s ∈ {(i, j) ∈ Z2 : −d ≤ i, j ≤ d}, p = 3,
un punto en Z2 es asignado a un pixel 3-dimensional, se seleccionó la norma del máximo
para medir la distancia desde el centro, el conjunto Dn consiste de los números naturales
menores o iguales a d, se realizaron 104 replicas. B es una matriz de (2d+1)q ×(2d+1)q , ası́
su dimensión incrementa rápidamente con el incremento de d y es prácticamente imposible
calcular ésta matrices para imágenes de resolución alta. Sin embargo, el cálculo de la
lag espacial By puede ser completado relativamente rápido usando matrices de ı́ndices y
calcular cada entrada de By separadamente (Otto,[15]).

Se calcularon los cuantiles 0.95 de la razón de verosimilitud Λn y cuantiles teóricos 0.95


del mejor ajuste de la distribución Gumbel la cual resulto ser una distribución lı́mite
razonable, se utilizó un kernel Gaussiano para estimar la densidad de Λn , los resultados
se muestran en la tabla 3 tomada de Otto y Wolfgang ([16]).

Tabla 3. Estimación de cuantiles 0.95 de Λn (p = 3) y cuantiles teóricos 0.95


de la distribución Gumbel para d ∈ {10, 20, 50, 100, 200} y ρ =0.8.

Para los estimadores de máxima verosimilitud los parámetros r y a se seleccionaron


relativos al error estándar σξ de los residuales y el parámetro autorregresivo ρ,
respectivamente donde ambos son constantes (σξi = σξ = 1 y ρi = ρ =0.5) para todo
i. Se asumió ai = a ∈ {0.1, 0.5, 1} para todo i, ri = r ∈ {0.125, 0.25, 0.45} las cuales son
constantes para todo i. El punto de cambio δ se seleccionó como 10.

87
Se calculó con la distribución Gumbel la potencia de la prueba de la razón de log
verosimilitud para d ∈ {10, 20, 50}, p = 3. ρ =0.8 para cambio en la media figura izquierda
y ρ = 0 para cambio en el parámetro ρ a la derecha. La probabilidad de rechazar la
hipótesis nula es dada para cambios en la media y el parámetro autorregresivo que ocurren
en δ =[0.05d], la potencia de la prueba se muestra en la figura 1 tomada de Otto y Wolfgang
([16]).

Figura 1: Potencia de la prueba de razón de verosimilitud para d ∈ {10, 20, 50},


p = 3, ρ =0.8 (izquierda) y ρ = 0 (derecha).

El error tipo I es menor que o igual a α =0.05 para todas las especificaciones, en
consecuencia se concluye que los cuantiles Gumbel son valores crı́ticos adecuados del
esquema de prueba. Debido a las diferentes magnitudes de los cambios, no es posible
juzgar cuál prueba tiene más potencia estadı́stica.

Sus resultados fueron aplicados para analizar los cambios en un tumor de cáncer de pulmón,
para medir las distancias utilizaron la norma euclidiana, consideraron adecuada a tal
norma debido a la forma del crecimiento del tumor. Según Otto y Wolfgang ([16]) su
metodologı́a puede ser aplicada a diferentes problemas que suceden en el espacio tal que
su comportamiento muestre un inicio al que se considerará como centro y a partir del cual
se expanda en todas las diferentes direcciones.

88
6.6.2. Aplicación
En esta aplicación se consideran escaneos de tomografı́as computarizadas que muestran un
tumor en el pulmón izquierdo, los escaneos son de alta relevancia clı́nica para diagnostico
médico. En sus figuras grafican dos rebanadas de un escaneo de tomografı́a de pulmón (el
plano transverso y el coronal) el color del carcinoma se detecta en color rojo. La tomografı́a
fue usada para diagnóstico clı́nico y diagnóstico radiológico de cáncer, en particular el
cáncer se clasifica en estados y los parámetros son: el tamaño del tumor primario (son
cuatro mediciones T1, T2, T3, y T4 dependiendo del tipo de cáncer), la extensión de los
nodos regionales de la linfa y la presencia de distintas metástasis. Los estados del cáncer
son una herramienta importante para dar un pronóstico y dar un tratamiento o evaluar
los resultados del tratamiento. Se analizan seis imágenes de tomografı́a computarizada
toráxicas paralelas del pulmón izquierdo. En la figura 2 tomada de Otto y Wolfgang ([16])
muestra una rebanada de la tomografı́a computarizada completa en el plano transverso y
coronal es graficada, además el análisis detallado de las seis rebanadas muestra el carcinoma
pulmonar. Los registros son disponibles en una escala de grises de un formato de 8 bits,
ası́ los valores de los voxeles de la tomografı́a pueden ser vistos como un proceso aleatorio
univariado en un espacio tres dimensional de enteros, esto es el parámetro p es igual a uno
y el dominio espacial Ds es un subconjunto de Z3 , los voxeles de tal proceso en el área del
hueso tienen una media diferente que los voxeles en el tejido suave, el proceso tendrá una
media tres dimensional especı́fica debida a la estructura anatómica.

Figura 2: Cancer de pulmon

Las imágenes fueron tomadas de un paciente masculino usando una tomografı́a en la


configuración de 64 rebanadas (120 kV, 75 mAs, tamaño de voxel de 0.5x0.5x0.5 mm3 ).
Para determinar el primer parámetro fue importante medir la extensión/tamaño del
tumor. Se considera el carcinoma pulmonar como un proceso aleatorio en un espacio tres
dimensional que tiene algún centro de origen. El cáncer se extiende sobre el tejido desde
el centro en toda dirección. El objetivo del trabajo fue detectar cambios estructurales de
tal proceso, el cual ocurre en un punto desconocido en el espacio. Los cambios en los
parámetros ocurren a una cierta distancia δ desde el centro, ésto se muestra en la figura 3

89
inciso a) tomada de Otto y Wolfgang (2016)).

El carcinoma tiene una forma circular, ası́ que la norma fue seleccionada a que sea la
norma Euclidiana. El centro del proceso (Figura 3 inciso b)) fue estimado por maximizar
la función de verosimilitud con respecto a todos los parámetros, el punto de cambio, y el
centro de origen. Se observa un cambio abrupto con un lı́mite claro del cáncer tal que el
punto de cambio estimado δ̂ = 9.75 coincide con la forma obvia del tumor.

(a) Expansión de proceso (b) Centro s0


autorregresivo

Figuar 3

Nota: La distribución asintótica del estadı́stico de prueba no fue obtenida analı́ticamente.

6.7. Conclusiones
Como resultado del análisis realizado se concluye que debido al problema presentado con
la distribución de la estadı́stica de prueba obtenida por máxima verosimilitud cuando se
analizan puntos de cambio para muestras pequeñas y grandes, y debido a que se presenta
algunas veces un comportamiento conservativo, se creó una herramienta para obtener la
distribución asintótica de la estadı́stica de prueba con Puentes Brownianos para analizar
puntos de cambio en series de tiempo para variables independientes.

En lo que respecta al análisis de puntos de cambio en observaciones dependientes espacio


tiempo, aún no se obtiene la distribución asintótica de la estadı́stica de prueba como se
mostró al final de éste trabajo.

Referencias
1. Anselin, L., Spatial econometrics: Methods and Models, Volume 1. Kluwer Academic
Publishers, Dordrecht, NL, 1988.
2. Brodsky B. E. and Darkhovsky B. S., Mathematics and its Applications,
Noparametric Methods in Change-Point Problems. Kluer Academic Publishers.
Volume 243. ISBN:0-7923-2122-7, 1993.
3. Brodsky B. E. and Darkhovsky B. S., Non-Parametric Statistical Diagnostic
Problems and Methods. Mathematics and Its Aplications 509. Kluwer Academic,
Dordrecht, 2000.
4. Chen, J. and A. K. Gupta, Parametric Statistical Changepoint Analysis. Second
Edition. Boston: Birkhauser, 2012.
5. Csörgo, M. and Horváth, L., Limit Theorems in Change-Point Analysis. Chichester,
N. Y.:John Wiley, 1997.

90
6. Davies, R. B., Hypothesis testing when a nuisance parameter is present only under
the alternative. Biometrika, 74, 33-43, 1987.
7. Gombay, E. and Horvárt, L., On the rate of approximations for maximum likelihood
test for the time and change and the power function in change-points models. J.
Multivariate Analysis, 56, 120-152, 1996.
8. Gombay, E. and Horvárt, L., Approximations for the time and change and the power
function in change point models. J. Statist. Pla, Inf., 52, 43-66, 1996.
9. Hall, P., On the rate of convergence of normal extremes. J. Appl. Probab., 16, 433-
439, 1979.
10. Hawkins, D. M., Testing a sequence of observations for a shift in location. Journal
of the American Statistical Association, 72, 180-186, 1977.
11. Hinkley, D. V., Inference about the point in a sequence of random variables,
Biometrika, 571, 1-17, 1970.
12. Hinkley, D. V., Inference about the intersection in two-phase regression. Biometrika,
56, 495-504, 1969.
13. Horvath, L., The maximum likelihood method for testing changes in the parameters
of normal observations. The Annals of Statistics, Vol. 21, No. 2, 671-680, 1993.
14. Yousef, Omar M. and Al-Subh, Sameer A., Estimation of Gumbel Parameters under
Ranked Set Sampling, Journal of Modern Applied Statistical Methods: Vol. 13, No.
2, 2014.
15. Otto, P., A note on efficiente simulation of multidimensional spatial autoregressive
processess. Comunicationns in Statistics-Simulation and Computation, 2015.
16. Otto, P. and Wolfgang, S., Detection of spatial change points in the mean and
covariances of multivariate simultaneous autoregressive models. J. Biometrical, 58,
1113-1137, 2016.
17. Page, E. S., On problem in which a change in a parameter ocurring at an unknown
point. Biometrika, 44, 248-252, 1957.
18. Quant, R. E., The estimation of parameters of a linear regression system obeying
two separate regimes. J. Amer. Statist. Assoc., 50, 853-880, 1958.
19. Quant, R. E., Test of the hypothesis that a linear regression system obeys two
separate regimes. J. Amer. Statist. Assoc., 55, 324-330, 1960.
20. Srivastava, M. S. and Worsley K. J., Likelihood ratio tests for a change in the
multivariate normal mean. Journal of the American Statistical Association, Vol. 81,
No. 393, 199-204, 1986.
21. Wall, M. M., A close look at the spatial structure implied by the CAR and SAR
models. Journal os Statistical Planning and Inference, 121, 311-324, 2004.
22. Whittle, P., On stationary processes in the plane. Biometrika, 41, 434-49, 1954.
23. Worsley, K. L., Testing for a two-phase multiple regression. Technometrics., 25, 35-
42, 1983.
24. Yao, Y. C. and Davis, R. A., The asymptotic behavior of the likelihood ratio statistics
for testing shift in mean in a sequence of independente normal variates. Sankhya,
A48, 339-353, 1986.
25. Zhou, X., Shekhar, S. and Reem Y. A., Spatio temporal change footprint pattern
discovery: an inter-disciplinary survey. WIREs Data Mining Knowl Discov, 4:1-23.
doi: 10.1002/widm. 1113, 2014.

91
92
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 7

Educación sexual y conocimiento del preservativo de los


alumnos de Nuevo León

Catherine Menkes
Centro Regional de Investigaciones Multidisciplinarias,
Universidad Nacional Autónoma de México,
Av. universidad s/n, Circuito 2, Col. Chamilpa
Ciudad Univesitaria de la UAEM, Cuernavaca Morelos
C.P. 62210, México.
[email protected]

Resumen. En este trabajo, se busca establecer qué factores de la educación sexual


en Nuevo León se relacionan con un buen conocimiento del uso del preservativo, ya que el
condón representa el único método que protege a las personas tanto de las infecciones de
transmisión sexual (ITS) como de un embarazo no planeado. Para estudiar estas relaciones
se realizan análisis bi-variados y se estiman distintos modelos de regresión logı́stica. Los
datos muestran que los orientadores o psicólogos y los trabajadores sociales son los que
obtienen los resultados más destacados, incluso mejores que los maestros, quizás porque
le dedican más tiempo a los alumnos para hablar de estos temas y establecen relaciones
más empáticas con los adolescentes y menos jerárquicas.
Abstract. In this paper, we study sex education in the State of Nuevo León.
Specifically, we analyse which elements of sex education are directly related to proper
knowledge of condom use, given that condoms represent the only way to prevent STDs
and avoid unplanned pregnancy simultaneously. In order to study these relations we employ
bivariate analysis and different models of logistic regression. We show that psychologists
and social workers obtain the best results (in terms of transferring knowledge of condom
use) when they are in charge of sex education, even better than those obtained by normal
teachers. The reasons for this might be that a) they spend more time discussing these topics
with students and b) they are able to connect with the students in a more empathetic and
a less hierarchical way.
Palabras clave: Educación sexual, salud reproductiva, protección sexual, adolescente,
Nuevo León.

93
7.1. Introducción
7.1.1. Educación sexual
La educación sexual juega un papel muy importante en los comportamientos y
protección sexual de los adolescentes ya que contribuye a que la población joven pueda
ejercer sus derechos sexuales y reproductivos y favorezca una mejor calidad de vida actual y
futura [1]. Además de ser un derecho, la educación sexual es una herramienta fundamental
para que las personas puedan tomar decisiones autónomas, informadas, responsables y
saludables sobre su sexualidad.
A este respecto, en México se ha reconocido la importancia de la educación sexual
ya que se argumenta que si ésta se imparte de forma integral, la misma puede contribuir
a posponer el debut sexual, ası́ como a fortalecer la capacidad de prevenir embarazos no
planeados e ITS; incluido el VIH/SIDA, sobre todo en los numerosos adolescentes y jóvenes
mexicanos que inician su vida sexual a edades tempranas [2].
En el marco de la Conferencia Mundial de VIH/SIDA, realizada en la Ciudad de
México en 2008, ministros de salud y educación de Latinoamérica signaron la Declaración
Ministerial “Prevenir con Educación”[3], en donde se afirmó el compromiso de reconocer
el derecho al disfrute del más alto nivel posible de educación, salud, no discriminación y
bienestar de las generaciones actuales y futuras. Asimismo, se reconoció que la educación
y la salud se refuerzan mutuamente, permitiendo el desarrollo integral de las personas, y
donde la actuación conjunta de los sectores de salud y educación son sinérgicos para la
prevención del VIH y otras ITS.
En esta misma cumbre, también se señaló la necesidad de incorporar la educación
de calidad de la sexualidad en la niñez y adolescencia como derecho humano, y como
estrategia de calidad de vida actual y futura. Se argumentó que la evidencia cientı́fica ha
mostrado que la educación sexual integral incluye información sobre diferentes métodos
de prevención y fomenta el autocuidado, también promueve entre aquellos que aún no han
iniciado su debut sexual la autonomı́a individual y capacidad para decidir cuándo iniciar
su ejercicio sexual.
Posteriormente, en agosto de 2013 se llevó a cabo la Primera Conferencia Regional
de Población y Desarrollo para América Latina, en la cual México firmó el Consenso de
Montevideo, que es hoy en dı́a el marco de referencia más reciente que sirve de base para el
fortalecimiento de la educación integral de la sexualidad [4]. Algunas de las prioridades de
dicho Consenso, están enfocadas especı́ficamente a la educación de la sexualidad de niñas,
niños, adolescentes y jóvenes.
Una de las estrategias fundamentales para que haya una educación integral de la
sexualidad, es la actualización de conocimientos de los actores clave en materia de
educación sexual. Más allá de las declaradas insuficiencias o de los temores y tabúes para
hablar autorizadamente acerca de la sexualidad, existen limitaciones inherentes a la forma
imperante en cómo se mira y vive la sexualidad [5], misma que sigue determinando en
sectores importantes de profesionales, especialmente del magisterio, la forma en cómo se
imparte la educación sexual.
La educación sexual debe estar sustentada en teorı́as cientı́ficas y en investigaciones
permanentes, contar con principios éticos claros, favorecer el ejercicio libre, responsable y
placentero de la sexualidad como derecho constitucional y necesariamente tendrı́a que estar
ligada y comprometida con las demandas, necesidades y derechos de las y los adolescentes.
Sin embargo, para lograr una educación integral, uno de los primeros pasos
fundamentales es lograr que la educación sexual se traduzca en una información adecuada.
Forma parte esencial de esta información un efectivo conocimiento de los métodos
anticonceptivos, en particular el preservativo masculino que es el método más utilizado
por los adolescentes, y a su vez protege de las ITS y embarazos no planeados.

94
Objetivos del trabajo
El objetivo de este trabajo es conocer cuáles son las caracterı́sticas de la educación
sexual que se asocian con un buen conocimiento del preservativo masculino. El saber
cómo funciona el condón, constituye uno de los elementos fundamentales para lograr una
protección sexual efectiva.

7.2. Metodologı́a
Fuente de datos.
La Universidad Autónoma de Nuevo León junto con el Centro Regional de Investigaciones
Multidisciplinarias de la Universidad Nacional Autónoma de México (CRIM/UNAM) llevó
a cabo la “Encuesta de Salud Reproductiva de los Estudiantes de Educación Secundaria
y Media Superior de Nuevo León”durante 2012. La encuesta es representativa de todos
los estudiantes de las escuelas públicas de Nuevo León que cursaron dichos años escolares.
Para lograr dicha representatividad, se entrevistaron en total a 2,187 alumnos de 13 a 19
años de edad hombres y mujeres que cursaban de segundo de secundaria a tercer año de
bachillerato en escuelas públicas.
En la primera parte de los resultados se analiza el buen conocimiento del preservativo
masculino según distintas caracterı́sticas socio-económicas y demográficas a través de un
análisis bi-variado. En seguida se estiman los modelos de regresión logı́stica.
En los primeros tres modelos de regresión logı́stica, se utilizaron las mismas variables
dependientes e independientes en cada uno de los modelos. Sin embargo, la unidad de
análisis en el primer modelo la constituyen los hombres, en el segundo las mujeres, y por
último todos los estudiantes. La variable dependiente contempla el buen conocimiento del
condón.

7.2.1. Construcción del Indicador del Buen Conocimiento del


Condón
Para la construcción del indicador sobre el conocimiento del uso del condón se utilizaron
las respuestas a tres preguntas:
1. ¿Cómo se usa el condón masculino?
2. ¿Sabes cuándo se debe usar el condón masculino?
3. ¿El condón masculino se utiliza como un método para prevenir un embarazo o una
infección de transmisión sexual?
Respecto a la primera pregunta sobre la forma de uso del condón masculino, las
opciones de respuesta donde podı́an marcar sólo una contestación eran:
1. Se puede volver a usar el mismo en más de una relación sexual.
2. Se usa sólo una vez durante la relación sexual.
3. Se usa después de tener relaciones sexuales.
4. No sé.
En relación con la segunda pregunta relacionada con cuándo debe usarse el condón
masculino, las opciones de respuesta donde podı́an marcar sólo una contestación eran:

1. Cuando se ha eyaculado.
2. Cuando el pene está erecto.

95
3. Desde que se inicia la relación sexual1
4. No sé.
En la tercera pregunta referente a la utilidad del condón masculino, las opciones de
respuesta donde podı́an marcar sólo una contestación eran:
1. Para prevenir un embarazo.
2. Para prevenir una infección de transmisión sexual.
3. Para ambas.
4. No sé.
Las respuestas de cada pregunta se recodificaron en: respuesta correcta, respuesta
incorrecta.
Las variables independientes contemplan si los alumnos recibieron clase de educación
sexual en la escuela, si recibieron información sobre el ciclo menstrual, sobre métodos
anticonceptivos, y sobre las infecciones de transmisión sexual. En lo que respecta a estas
variables, se les preguntó directamente a los alumnos si recibieron este tipo de información.
Otra de las variables independientes consideradas en los modelos es quien les proporcionó
la información sexual en la escuela. La respuesta de los alumnos se agrupó en profesor,
médico, orientador o psicólogo, trabajador social, enfermera, otros y nadie. Finalmente
también se tomó en consideración si recibieron información de educación sexual fuera de
la escuela.

7.3. Resultados
7.3.1. Algunas Caracterı́sticas de Educación Sexual que
Recibieron los Alumnos
La posibilidad de que los individuos ejerzan sus derechos reproductivos depende en gran
parte de su educación sexual. En los programas de salud reproductiva se establece que para
tener una sexualidad placentera y segura, ası́ como un embarazo deseado y sin problemas,
las personas tienen derecho a conocer los procesos reproductivos del cuerpo humano, la
gama existente de métodos anticonceptivos, los riesgos a la salud y la protección contra
las ITS.
En este sentido, se les preguntó a los alumnos si habı́an tenido en la escuela alguna
clase, curso o plática de educación sexual. Se encontró que cerca del 80 % habı́a recibido
en la escuela este tipo de información (cuadro 1). Principalmente, la recibieron de parte de
los maestros (52 %), seguido del orientador(a) o psicólogo(a) (23 %), del trabajador social
(10 %) y de los médicos (7.6 %) (cuadro 2).
Se indagó si en esta última clase, curso o plática de educación sexual habı́an
recibido información sobre tres temas primordiales: a) ciclo menstrual o regla; b) métodos
anticonceptivos, y c) infecciones de transmisión sexual (ITS). En promedio, 90 % de
los estudiantes habı́a recibido información de cada uno de estos temas y fue mayor la
proporción que declaró haber recibido información sobre ITS con 96.6 % (cuadro 3).
Como la educación sexual que pueden tener los jóvenes no depende únicamente de lo
que aprenden de la educación formal, se les preguntó si habı́an recibido un curso o plática
sobre educación sexual fuera de la escuela. El 33.9 % de los hombres y 44.5 % de las mujeres
declararon haberla tenido (cuadro 4).
En sus respuestas respecto a quiénes recibieron información de sexualidad fuera de la
escuela, resalta la figura materna como primordial para hablar de este tópico, sobre todo en
1 En esta pregunta se tomaron como opciones válidas las respuestas: cuando el pene está erecto,

y desde que se inicia la relación sexual.

96
el caso de las alumnas (61 %). El padre ocupa el segundo lugar en importancia. En tercer
lugar destaca que ambos padres hablaron con sus hijos acerca de sexualidad (13.3 %). Es
claro que la participación de ambos padres es muy baja, sobretodo en el caso de las mujeres,
ya que únicamente el 8.3 % de ellas platicaron de educación sexual con ambos padres. Sin
duda alguna, hay una tendencia muy clara a que las madres platiquen sólo con sus hijas
y los padres primordialmente con sus hijos varones, lo que muestra que se profundiza la
dificultad de hablar de ciertos temas sensibles según el género. Posterior a los padres, el
personal médico tiene también un lugar importante como transmisor de información ya
que el 10 % de los alumnos recibieron la plática por parte del médico (cuadro 5).

7.3.2. Educación Sexual y Buen Conocimiento del Condón.


Análisis Bi-variado
El análisis bi-variado (Ver Cuadro 6) muestra que el 69.7 % de todos los estudiantes que
sı́ recibieron educación sexual en la escuela tenı́a un buen conocimiento del preservativo
masculino mientras que sólo lo tuvo el 64 % de los que no lo recibieron. Los resultados
por sexo son muy similares, ya que ambos sexos muestran conocimientos prácticamente
iguales.
Paralelamente, de todos los estudiantes que recibieron información sobre el ciclo
menstrual, el 66 % sı́ respondió correctamente en cómo usar el condón mientras que este
porcentaje corresponde al 64.3 % de los que no recibieron información al respecto. Un
mayor porcentaje de mujeres que recibieron información sobre el ciclo menstrual tienen
un buen conocimiento del condón si se compara con los hombres. (68.9 % y 64.1 %).
Paralelamente, el 70.1 % de los estudiantes que recibieron información sobre métodos en
la escuela y sólo el 63.5 % de los que no recibieron esta información mostraron un buen
conocimiento del preservativo masculino.
Los porcentajes del buen conocimiento de los que recibieron información en la escuela
sobre infecciones de transmisión sexual fueron 69.8 % y 63.8 % de los que no la recibieron,
los porcentajes de hombres y mujeres al respecto, son muy similares.
Respecto a quien proporcionó la información al interior de la escuela, si nos centramos
en todos los estudiantes, los mayores porcentajes de buen conocimiento del condón
ocurren cuando la información la proporcionó el trabajador social (71.3 %) y el orientador
o psicólogo (70.3 %), porcentajes alarmantemente mayores que en el caso del maestro
(62.2 %), quien es el principal informante en la escuela de estos temas con los adolescentes.
El porcentaje menor sucede cuando la información la proporciona el médico en la escuela
(54.2 %).
Al analizar el conocimiento de los estudiantes según el informante fuera de la escuela,
el mayor porcentaje ocurre cuando la información la proporcionó un familiar distinto

97
al padre o madre (73 %). Este porcentaje es elevado porque el 87 % de las mujeres
tienen un buen conocimiento del condón cuando este tipo de informante les proporcionó
dicho conocimiento. El segundo lugar ocurre cuando el padre proporcionó la información
(68.3 %). En este caso hay que señalar que el porcentaje se eleva por el buen conocimiento
del condón de los varones.
Por el contrario, el menor porcentaje de dicho conocimiento ocurre cuando son los
amigos los que proporcionan la información de cómo usar el preservativo masculino, lo que
prueba que no se le puede dejar dicha información a los pares, ya que más que informar
pueden llegar a desinformar sobre distintos aspectos de la educación sexual.

7.3.3. Educación Sexual y Buen Conocimiento del Condón.


Modelos de Regresión Logı́stica
Para conocer qué caracterı́sticas de la educación sexual se asocian con el buen
conocimiento del condón estimamos tres modelos de regresión logı́stica; uno que contempla
únicamente a los varones, otro a las mujeres y otro al total de estudiantes. (Ver cuadro 7).
Ası́, al centrarnos en todos los estudiantes en su conjunto, los resultados muestran que la
única variable que resultó significativa es la que contempla quien proporcionó la clase de
educación sexual al interior de la escuela. Ası́, si la información en la escuela la proporcionó
un orientador o psicólogo, la probabilidad 2 (razón de momios) de que los alumnos tengan
un buen conocimiento del condón, aumenta en 36 % si se compara con los que recibieron
esta plática de un profesor. De igual manera, si la información la proporcionó un trabajador
social, aumenta la probabilidad (razón de momios) en un 76 % de que los alumnos tengan
un buen conocimiento del preservativo masculino. Por el contrario, si la información la
2 Siendo más precisos, nos referimos a la probabilidad de que ocurra el evento (el buen

conocimiento del condón) entre la probabilidad de que no ocurra el evento (razón de momios).

98
proporcionó el médico en la escuela, la probabilidad de que tengan un buen conocimiento
del condón disminuye, esto último quizás porque los médicos en las escuelas de Nuevo León
no se toman el tiempo necesario para establecer confianza con los estudiantes y poder ası́,
comunicarles de manera empática una educación sexual de calidad.

Si analizamos los resultados por sexo, vemos que, al igual que sucede con todos los
estudiantes en su conjunto, nuevamente sólo se encontró una relación estadı́sticamente
significativa entre la persona que proporcionó la plática de educación sexual al interior
de la escuela y el buen conocimiento del condón. En el caso de los hombres, se duplica
la probabilidad de un buen conocimiento si es el trabajador social el que les proporcionó
información sobre educación sexual mientras que, quizás por el reducido número de casos,
la relación no fue estadı́sticamente significativa en el caso de las mujeres. Por el contrario,
cuando la información la proporcionó el psicólogo u orientador se observa que aumenta
en un 47 % la probabilidad de un buen conocimiento del preservativo en estas últimas,
mientras que en los varones esta relación no resulta significativa. También en ambos
casos disminuye la probabilidad de un buen conocimiento si los estudiantes obtuvieron
la información de un médico al interior de la escuela.
Cabe señalar que haber recibido una clase de educación sexual, información sobre

99
la regla menstrual, sobre métodos anticonceptivos o información sobre infecciones de
transmisión sexual, no se relaciona, según los tres modelos estimados, con un buen
conocimiento del condón. Tampoco encontramos una relación entre haber recibido
información sobre educación sexual fuera de la escuela y el bien conocimiento del condón.

7.4. Conclusiones

Podemos concluir que los resultados sobre el buen conocimiento del condón sugieren
que no basta con recibir una clase de educación sexual, ni solo recibir información sobre
el perı́odo menstrual, sobre métodos anticonceptivos o bien sobre infecciones de infección
sexual, sino también muestran que se vuelve de fundamental importancia aquella persona
que proporcionó dicha información. En el caso de Nuevo León los orientadores o psicólogos
y los trabajadores sociales son los que obtienen los más destacados resultados, incluso
mejores que los maestros quizás porque le dedican más tiempo a los alumnos para hablar de
estos temas y establecen relaciones más empáticas con los adolescentes y menos jerárquicas.
Ası́, los hallazgos apuntan a que, para lograr una educación de calidad se requiere
no sólo de diálogos mejor informados, sino también de la construcción de relaciones más
equitativas con los adolescentes . En la medida en que los maestros son en general los
principales informantes de los temas sobre educación sexual en las escuelas públicas, se
refuerza la necesidad de replantear la forma en cómo se da esta información y la necesidad
de revisar los contenidos de los libros escolares que tratan sobre estos temas. Asimismo,
se vuelve evidente la necesidad de reforzar los programas de capacitación sobre educación
sexual para el profesorado, y también impulsar a los maestros para que proporcionen
información actualizada sobre los temas sexuales sin temores o tabúes de distinta ı́ndole,
y que impartan la información de manera más equitativa y estableciendo relaciones más
horizontales con los alumnos.

100
Referencias
1. Fine Michelle. Sexualidad, educación y mujeres adolescentes, el discurso ausente
del deseo, ((Géneros prófugos, feminismo y educación)), PUEG/UNAM, México, pp.
291-321. 1999.
2. UNESCO . Declaración Ministerial Prevenir con Educación (Primera Reunión de
Ministros de Salud y Educación para detener el VIH e ITS en Latinoamérica y el
Caribe). Santiago: Oficina Regional de Educación para América Latina y el Caribe
(OREALC/UNESCO). 2010.
3. UNFPA México . Educación de la sexualidad: Prevenir con educación. Fondo
de Población de las Naciones Unidas, 2010. [En lı́nea], Disponible en: http :
//www.unf pa.org.mx/ssre sexualidad.php. 2010.
4. CEPAL-ONU. Consenso de Montevideo sobre poblaciń y desarrollo. Montevideo:
CELADE, 2013.
5. Rodrı́guez Gabriela. Disciplinar los cuerpos: Género y educación sexual en la escuela,
((15 años de polÃticas de igualdad. Los alcances, los dilemas y los retos)). Tijuana,
Baja California: El Colegio de la Frontera Norte/El Colegio de México/FLACSO-
México. 2014.

101
102
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 8

Componentes Principales. Análisis de datos sobre calidad de


la vivienda en el estado de Morelos

Olga V. Serrano Sánchez, Guillermo Olivera Lozano


Centro Regional de Investigaciones Multidisciplinarias,
Universidad Nacional Autónoma de México,
Cuernavaca, Morelos 62210, México,
[email protected], [email protected]

Resumen. En este trabajo, con base en el procedimiento estadı́stico conocido como


Análisis de Componentes Principales (ACP), se construye un indicador de calidad de las
viviendas en el estado de Morelos, por municipio. Este indicador se calcula a partir de
diez variables simples que provienen de la Encuesta Intercensal (EIC) 2015 realizada por
el INEGI. Los resultados indican que en el estado de Morelos existe una gran desigualdad
en la calidad de la vivienda de la población. Ası́, los municipios de Cuernavaca Jiutepec,
Zacatepec, Emiliano Zapata, Jojutla, Cuautla y Temixco muestran gran ventaja sobre
los municipios de Ocuituco, Totolapan, Tlalnepantala, Tetela del Volcán, Temoac, y
Tepalcingo.
Palabras clave: Calidad de la vivienda, componentes principales, estadı́stica multivariada.
Abstract. In this paper, we calculate a house quality index in Morelos, Mexico,
extracting factors by principal components method. This indicator is built by mean of
10 simple variables, using the data from ((Encuesta Intercensal 2015)), from ((Instituto
Nacional de Estadı́stica, Geografı́a e Informática)). Results indicate that there is a great
house inequity in the State of Morelos. Thus, regions as Cuernavaca, Jiutepec, Zacatepec,
Emiliano Zapata, Jojutla, Cuautla and Temixco, present a higher economic and social
development over the other regions.
Keywords: Quality of housing, main components, multivariate statistics.

8.1. Introducción
La situación de la vivienda en México en el Siglo XXI es, en términos generales,
comparativamente mejor que la existente a fines del Siglo XX, ya que se avanzó en la

103
reducción del déficit habitacional, ası́ como en aspectos relativos a la reducción del número
de personas por vivienda y de las viviendas de un solo cuarto, menor hacinamiento,
y mejoras del parque habitacional que ha ganado en mayores espacios, mejorı́a en los
materiales de construcción y mayor acceso a servicios [3].
Si se toman como referencia los años censales 1970, 2000 y 2010, por ejemplo, los
avances mencionados se muestran con toda claridad. En términos de la relación población-
espacio de la vivienda, el número de ocupantes promedio por vivienda disminuyó de 5.8
a 4.4 y 3.9 y el promedio de ocupantes por dormitorio de más de 2.6 a 2.2 y 2.0; como
consecuencia, el hacinamiento (más de 2.5 ocupantes por dormitorio) se redujo de 37.9 por
ciento en 2000 a 33.4 por ciento en 2010.
Respecto a los materiales de construcción, las viviendas ocupan materiales duraderos
o resistentes en una proporción cada vez mayor. Ası́, el uso de material resistente en las
paredes aumentó de 44.1 a 78.9 y 86.3 por ciento; en los techos de 34.2 a 63.9 y 71. 6 por
ciento; y en pisos de 58.9 a 86.2 y 93.2 por ciento.
Por lo que se refiere a disponibilidad de servicios, los cambios también han sido
notables. El porcentaje de viviendas con agua entubada pasó de 49.4 a 85.2 y 88.7; con
drenaje de 41.5 a 75.4 y 89.1; con energı́a eléctrica de 58.9 a 95.4 y 98.2; y con excusado
de 31.8 a 86.3 y 95.9.
Los avances alcanzados en la calidad de la vivienda, sin embargo, han sido insuficientes
y desiguales según el carácter rural o urbano de las localidades o el tamaño de las ciudades,
principalmente. Las localidades urbanas han logrado una mejor calidad de la vivienda, y
entre ellas, las grandes ciudades tienen las mejores condiciones [3].
Una de las razones por las que no se ha reducido a una mı́nima expresión el problema
de la mala calidad de la vivienda, es que la polı́tica nacional del sector impulsada en el
2001 se enfocó en el financiamiento de vivienda nueva para disminuir el rezago habitacional
cuantitativo en el paı́s, a pesar de que los diagnósticos de esa época ya ubicaban al rezago
cualitativo como el principal problema [2]. Después de la crisis económica de 2008-2009
se reorientaron los objetivos de la polı́tica de vivienda hacia soluciones de mejoramiento
o ampliación, aunque llevará muchos años aún cerrar la brecha existente en materia de
desigualdad en la calidad del parque habitacional del paı́s.
En relación a la forma de estimar la calidad de la vivienda, se parte comúnmente
del documento del Comité de Derechos Económicos Sociales y Culturales [6], en el cual se
establecen las caracterı́sticas que debe reunir la vivienda para considerarse adecuada. Entre
ellas, la seguridad jurı́dica de la tenencia, la disponibilidad de servicios indispensables,
infraestructura y acceso a recursos naturales comunes, que los gastos del hogar derivados
de la vivienda no impidan o comprometan el logro y la satisfacción de otras necesidades
básicas, que sea habitable, que sea asequible, que se ubique en un lugar que permita el
acceso al empleo y servicios básicos y que los materiales de construcción, la forma de
construir y la polı́tica en que se apoyan, faciliten la expresión de la identidad cultural y la
diversidad de la vivienda.
A raı́z de esos atributos de la vivienda, se ha procedido a la elaboración de ı́ndices
de calidad, y más recientemente también a ı́ndices de habitabilidad. En ambos casos las
variables utilizadas se agrupan en el tipo de materiales de construcción de la vivienda, la
infraestructura y servicios de que dispone, ası́ como las instalaciones en su interior y las
caracterı́sticas de tamaño y disposición de espacios a su interior [1],[3]. La medición de
la habitabilidad, no obstante, incluye las caracterı́sticas del entorno barrial y el medio
ambiente, que se traduce en determinado nivel de sensación de bienestar personal y
colectivo de los habitantes de determinado lugar [8]. Es decir, incluye una medición de
carácter subjetivo con base en la realización de entrevistas que complementen los datos
cuantitativos relativos al espacio exterior.
En este trabajo se procede a calcular un ı́ndice de calidad de vivienda, ya que sólo se
dispone del cuestionario de la Encuesta Intercensal 2015.

104
El estado de Morelos y sus municipios se tomaron como estudio de caso, ya que
es una entidad de alto dinamismo demográfico influenciada por la cercanı́a de la Zona
Metropolitana de la Ciudad de México, y en donde se desarrolló un boom inmobiliario
entre 2001 y 2012, que aumentó el parque habitacional en el estado en forma considerable.
Su análisis permitirá conocer diferencias en la calidad de la vivienda entre municipios y
hacer algunas inferencias sobre las causas de ello.

8.2. Especificaciones
8.2.1. Objetivos
El objetivo de este trabajo es construir un ı́ndice de calidad de vivienda para cada
uno de los 33 municipios del estado de Morelos, con base en diez indicadores relativos
a diversas caracterı́sticas de las viviendas como la durabilidad de los materiales con que
fueron construidas, el grado de acceso a servicios básicos, y las condiciones de salubridad
y hacinamiento. Para lograr este objetivo, se procedió a la elaboración de indicadores
compuestos mediante la técnica de ACP.

8.2.2. Fuente de Información


El ACP se realizó utilizando como fuente de información EIC 2015 que realizó el INEGI.
La EIC es una muestra de 6.1 millones de viviendas con cobertura de información a
nivel nacional, entidad federativa, municipio y localidades mayores de 50,000 habitantes.
Su población objetivo son los residentes habituales del territorio nacional y las viviendas
particulares habitadas. Su objetivo es generar información estadı́stica actualizada de
estimaciones de calidad sobre el volumen, composición y distribución de los habitantes
y viviendas del territorio nacional, que sean comparables con censos e indicadores
internacionales. Se propone, asimismo, obtener estimadores de proporciones, tasas y
promedios para cada una de las variables estudiadas.
Para el procesamiento y análisis de la información se utilizó el paquete estadı́stico
Statistical Package for Social Science (SPSS) v 24 [7].

8.3. Metodologı́a
8.3.1. Unidad de Análisis
Se analizan las viviendas que cumplen con la caracterı́stica de ser particulares y estar
habitadas en el estado de Morelos.

8.3.2. Variables
Se utilizan diez variables que reflejan las caracterı́sticas de las viviendas relacionadas
con el tipo de materiales de construcción, el nivel de acceso a servicios, ası́ como condiciones
de salubridad y de hacinamiento en que se encuentran las casas-habitación. Las variables
que se utilizan son:
Proporción de viviendas con paredes o muros construidas con tabique, ladrillo, block,
piedra, cantera, cemento o concreto.
Proporción de viviendas con techo construidas con losa de concreto o viguetas con
bovedilla.
Proporción de viviendas con piso construido con cemento, firme, mosaico, madera u
otro recubrimiento.

105
Proporción de viviendas que tienen cuarto para cocinar.
Proporción de viviendas en hacinamiento (más de 2.5 personas por cuarto para
dormir).
Proporción de viviendas con luz eléctrica.
Proporción de viviendas que obtienen el agua de llaves o mangueras que están dentro
de la vivienda.
Proporción de viviendas que tienen servicio sanitario.
Proporción de viviendas con taza de baño exclusiva de la vivienda.
Proporción de viviendas con drenaje a la red pública, fosa séptica o tanque séptico
(biodigestor).

8.4. Análisis de Componentes Principales


8.4.1. Descripción de la Metodologı́a de Componentes
Principales
La idea básica del ACP, es reducir el conjunto de variables originales (X)
correlacionadas, en otro conjunto de variables no correlacionadas (Y ) de menor dimensión,
de tal manera que se retenga la mayor información esencial de la muestra. Es decir, el
método de componentes principales consiste en transformar un conjunto de variables
X1 , X2 , ..., Xp , en un nuevo conjunto de variables Y1 , Y2 , ..., Yp , con las siguientes
propiedades:
Cada Yj es una combinación lineal de las variables Xś, digamos:

Yj = a1j X1 + ... + aij Xi + ... + apj Xp

j = 1, 2, ..., p
La suma de cuadrados de los coeficientes aij , j = 1, 2, ..., p es igual a la unidad.
De todas las posibles combinaciones lineales de este tipo, Y1 tiene la mayor varianza.
De todas las combinaciones lineales de este tipo, no correlacionadas con Y1 , Y2
describe la máxima variación de las observaciones. Similarmente, Y3 es la
combinación lineal no correlacionada con Y1 y Y2 que describe la máxima variación
de las observaciones. Ası́ sucesivamente hasta que Y1 , Y2 , ..., Yp son determinadas.
Generalmente, en la práctica sólo se consideran las primeras combinaciones lineales
que son las que explican la mayor variabilidad de los datos y ası́ descartar los “sobrantes”
y reducir el número de variables a considerar. Esta reducción de variables es de gran
utilidad práctica, ya que, en primer lugar facilita el manejo matemático y presentación
gráfica de los datos. En segundo lugar, en el supuesto caso de que exista redundancia en
las observaciones originales, tal que las variables están linealmente relacionadas, se dificulta
el análisis numérico y esto se puede evitar reduciendo el número de variables. Por último,
dicha reducción no ocasiona obstáculo alguno en la interpretación de los resultados finales,
ya que las variables transformadas pueden conducir ellas mismas a esta interpretación en
términos de las variables originales.
Es importante mencionar que el método de componentes principales puede ser aplicado,
entre otros, para los siguientes propósitos:
Métodos gráficos y análisis de conglomerados. En análisis de conglomerados,
no es tan fácil definir criterios mediante los cuales decidir, usando métodos
numéricos, si hay una justificación para dividir conjuntos de observaciones en grupos.

106
Si se grafican las CP puede ayudar al análisis de conglomerados; por ejemplo, si
hay grupos bien definidos y separados, un método analı́tico no es necesario. En
situaciones en las que ninguna prueba de significancia fuera posible, el graficar las
CP puede al menos confirmar que un grupo sugerido se ve razonable y es realmente
indicado por las observaciones.
Redundancia. La mayorı́a de las técnicas del análisis multivariado consideran
matrices de orden igual al número de variables. Cuando éstas son demasiadas, y si
las correlaciones entre las observaciones son altas, tal que las matrices de dispersión
son casi singulares o singulares, las dificultades se incrementan. Para prevenir este
problema, se hace un ACP preliminar y se descartan las CP más grandes, ya que
en muchos casos éstas contienen más ruido que información y poco o nada se pierde
con eliminarlas. Entonces el análisis se puede llevar acabo con las CP restantes.
Detección de observaciones aberrantes. Un problema frecuente cuando los
datos se obtienen de muestras multivariadas, es el detectar las observaciones que se
encuentran “alejadas” del conjunto de datos. Un análisis de CP y métodos gráficos
puede ser de gran utilidad en la detección de observaciones aberrantes.
Cálculo de ı́ndices. El análisis de CP también se usa en la construcción de
indicadores o ı́ndices, para analizar las condiciones de ventajas o desventajas en que
se encuentra una población. Se usa la primera CP como el mejor indicador porque
es la que retiene la mayor variabilidad posible del conjunto de datos, y retiene la
máxima información como una combinación lineal de las variables originales.

8.4.2. Historia
Existe literatura del análisis de CP desde antes de 1904, pero Karl Pearson fue el
primero que dio las bases matemáticas, describiendo la lı́nea de mejor ajuste en un grupo
elipsoidal de puntos. En 1933, Harold Hotelling formuló la definición moderna de CP
como los ejes que describen una máxima variación en los datos. Las aplicaciones de ACP
han sido bastante amplias en las diferentes ramas de la ciencia. Uno de los primeros
artı́culos aparecidos fue publicado por Jolicoeur y Mossiman (1960), aplicando el análisis
de CP en morfométrica, en un estudio sobre variedad de tortugas, para evaluar la variación
de tamaño y forma en grupos de organismos vivientes. La primera CP fue interpretada
como una “tendencia” de crecimiento debido a que todos los coeficientes son positivos. La
segunda CP presentó algunos coeficientes positivos y otros negativos, motivo por el cual
la interpretaron como una tendencia de “variación de forma”. Mosser y Scott usaron el
análisis de CP para estudiar la intercorrelación entre 57 variables socioeconómicas medidas
en 57 pueblos británicos. Los resultados mostraron que las 4 primeras CP explicaron el
60 % de la variación total. Estas cuatro variables fueron identificadas como clase social,
cambio de población 1931-1951, cambio de población 1951-1958 y sobrepoblación.

8.4.3. Desarrollo Analı́tico


Supongamos que las variables X1 , X2 , ..., Xp tienen una distribución multivariada con
vector de medias µ y matriz de varianzas y covarianzas Σ. De esta población se selecciona
una muestra de N vectores de observaciones independientes. Entonces la primera CP es la
combinación lineal de p variables correlacionadas:

Y1 = a11 X1 + ... + ai1 Xi + ... + ap1 Xp = at1 X,

en donde at denota el vector transpuesto de a.

107
La varianza estimada de Y1 se puede expresar como una forma cuadrática en términos
de las varianzas y covarianzas de las variables originales. Esto es:
p p
X X
Σ̂(Y1 ) = at1 Sa1 = ai1 aj1 Sij ,
i=1 j=1

en donde
N
1 X
S= (Xi − X)(Xi − X)t ,
N − 1 i=1
es la matriz de varianzas y covarianzas de la muestra, con elementos sij .
La varianza de Y1 es la más grande de todos los vectores normalizados tal que la suma
de cuadrados de ai1 sea igual a uno. Esto es: at1 a1 = 1 . Esta restricción se ha tomado
porque el valor de Σ̂(Y1 ) pudo incrementarse sin lı́mite con sólo multiplicar los coeficientes
por una constante. Ahora bien, el problema consiste en encontrar el vector a1 que maximice
at1 Sa1 sujeto a la restricción at1 a1 = 1. Para determinar los coeficientes, se introducen los
multiplicadores de Lagrange λ1 y derivamos con respecto a1 e igualando a cero se obtiene
el sistema de p ecuaciones simultáneas:

(S − λ1 I) = 0,

en donde I es la matriz identidad. Si la solución es diferente a la trivial, entonces λ1


tiene que ser seleccionado tal que el determinante

|S − λ1 I| = 0.

Ası́, λ1 es una raı́z caracterı́stica o eigenvalor de S y a1 es su vector caracterı́stico


asociado. Si la matriz de covarianzas S es de rango completo, tiene p raı́ces caracterı́sticas
distintas de cero. Para determinar cuáles de las p raı́ces deben ser seleccionadas, se
multiplica la ecuación Sa1 = λ1 a1 por at1 y se obtiene:

at1 Sa1 = λ1 at1 a1 = λ1 = Σ̂(Y1 ).

Por lo tanto λ1 es la raı́z caracterı́stica más grande, porque el vector a1 fue seleccionado
de tal manera que maximice la varianza de Y1 . El siguiente paso es encontrar una segunda
combinación lineal normalizada y ortogonal a la primera. Esto es:

Y2 = a12 X1 + a22 X2 + ... + ap2 Xp

cuya varianza Σ̂(Y2 ) = at2 Sa2 sea máxima, sujeta las restricciones at2 a2 = 1 y at1 a2 = 0.
Esta última restricción significa que los dos vectores son ortogonales, es decir, la correlación
entre Y1 y Y2 es cero y por consiguiente la covarianza es cero. Mediante el mismo
procedimiento que se siguió para encontrar los coeficientes de Y1 , se determinan los
coeficientes de Y2 , pero ahora introduciendo un nuevo multiplicador de Lagrange, y
diferenciando con respecto a2 , e igualando a cero se obtiene:

at2 Sa2 = λ2

El vector a2 es el vector correspondiente a la segunda raı́z caracterı́stica más grande,


λ2 . El mismo proceso se sigue para determinar las CP restantes. Estableciendo lo anterior
en forma general, entonces la j-ésima CP es la combinación lineal

Yj = a1j X1 + a2j X2 + ... + apj Xp = atj X,

tal que para cualquier valor λj que satisface |S − λj I| = 0 le corresponde un valor de aj


para el cual (S − λj I)aj = 0, atj aj = 1 y para este valor atj Saj = λj . Ası́, λj es la j-ésima
raı́z caracterı́stica más grande y aj es su vector caracterı́stico asociado.

108
8.4.4. Caracterı́sticas de las Componentes Principales
Todas las raı́ces caracterı́sticas son reales y positivas.
La matriz A que contiene los vectores caracterı́sticos es ortogonal, ya que ai y aj
son ortogonales.
Si λi = λj sus correspondientes CP no están definidas ya que hay una infinidad de
vectores ortogonales.
La existencia de una raı́z cero, implica que las variables originales son linealmente
dependientes; en este caso, una o más componentes valen cero.
Que At SA = Λ , donde Λ es la matriz diagonal que contiene las raı́ces caracterı́sticas,
indica independencia entre las p CP.
De la ecuación |S − λj I| = 0, se sigue que la suma de valores es igual a la suma de
la diagonal de S. Esto es:

λ1 + λ2 + ... + λp = tr(S)

en donde tr(S) denota la traza de S.


Determinar las CP se puede expresar en términos de una transformación ortogonal
Y = At X, tal que
At SA = Λ y At SA = I.
La utilidad principal del análisis de CP radica en que la variación total de una
muestra p-dimensional serı́a descrita en pocas dimensiones.
Si S es de rango 1 existe una raı́z caracterı́stica distinta de cero y p − 1 raı́ces iguales
a cero, lo cual indica que la primera CP explicarı́a toda la variación del conjunto de
variables. Si S es de rango completo, existen entonces p raı́ces caracterı́sticas distintas
de cero y la importancia de la componente j-ésima es medida por la relación:
λj
tr(S)

que es la proporción de varianza que contribuye la j-ésima componente en la varianza


total de las variables originales.
El signo algebraico y la magnitud de un elemento del vector aj , expresa la dirección
e importancia
√ de una variable particular a una componente particular, es decir, la
aij λj
razón sii
da la correlación de la i-ésima variable y la j-ésima componente.
Es frecuente que las observaciones sean medidas en unidades diferentes, y en esta
situación es necesaria una estandarización preliminar. La más común es la de dividir
la matriz de covarianza por la desviación estándar de cada una de las variables,
reduciendo ası́ las varianzas a la unidad y trabajar con la matriz de correlación.
p
Entonces, si las CP han sido extraı́das de la matriz de correlación, el vector λj aj
es la correlación de las variables con la j-ésima CP.
Asimismo, tr(P ) = p, en donde P es la matriz de correlación y la proporción de la
λ
varianza total que contribuye la j-ésima componente, está dada por la relación pj .

8.4.5. Pruebas de Significancia


Supongamos que N observaciones independientes han sido seleccionadas de una
población con distribución N (µ, Σ). Σ tiene las raı́ces caracterı́sticas: λ1 , λ2 , ..., λp > 0,
con vectores caracterı́sticos asociados α1 , α2 , ..., αp .

109
Para probar si el cálculo de CP es necesario, Bartlett [?] demuestra que:

tr(S)p
 
χ2 = −N ln (S)( )
p

se distribuye aproximadamente como una chi cuadrada con 21 (p(p + 1)) grados de libertad.
Si esta prueba no es significativa, entonces no tiene caso el cálculo de CP.
Anderson [2] trabajó la prueba de hipótesis H0 : λq+1 = ... = λq+r , en la que r de las
raı́ces caracterı́sticas intermedias de la matriz de covarianza poblacional Σ, son iguales.
H1 , la hipótesis alternativa, es que algunas de las raı́ces intermedias son distintas. Por el
criterio de razón de verosimilitud, tenemos la estadı́stica
X X λj
χ2 = −(N − 1) lnλj (N − 1)rln , j = q + 1, ..., q + r.
j
r

Cuando H0 es verdadera la estadı́stica se distribuye como chi cuadrada con


1
−1
2(r(r + 1))
grados de libertad para N suficientemente grande. La hipótesis H0 : αi = αi0 que el vector
caracterı́stico asociado con la raı́z distinta λi de Σ es igual a algún vector especı́fico αi0 .
Anderson [?] obtuvo que la estadı́stica
 
1
χ2 = N λi αit0 S −1 αi0 + αit0 Sαi0 − 2
λi

se distribuye asintóticamente como una chi cuadrada con p − 1 grados de libertad cuando
H0 es verdadera.

8.5. Resultados
Se utilizó el ACP sobre los diez indicadores simples de calidad de la vivienda.
El procedimiento de CP genera diez indicadores compuestos que son las componentes
principales. El número de CP se podrá reducir dependiendo de la estructura de correlación
de los indicadores originales y los datos disponibles. Se consideró apropiado estandarizar
los indicadores originales, por considerar a cada indicador con igual importancia, y realizar
el análisis de CP con la matriz de correlaciones como “input”. Para elegir el número de
componentes resultantes, consideramos el criterio de la raı́z principal y el criterio del
porcentaje de variación, que a continuación se describen de manera breve.
En el criterio de la raı́z principal, sólo se consideran significativos los valores propios
o autovalores mayores que 1. Esto se basa al considerar el cálculo de CP con datos
estandarizados en base a la matriz de correlaciones [4], [5].
El criterio del porcentaje de variación, consiste en declarar como diferente de cero, a
tantas raı́ces caracterı́sticas como sea necesario, para que las nuevas variables expliquen
un porcentaje de la variación original considerado como satisfactorio. En este trabajo se
consideró que explicar al menos el 75 % de la variación total serı́a aceptable [5].
En el Cuadro 1 se observa la proporción de varianza explicada por las 10 CP. El número
apropiado de nuevos indicadores compuestos son dos. Esto se hace considerando que los
dos primeros valores principales resultaron ser mayores que uno. La primera CP explica el
57.8 % de la variabilidad de los datos, la segunda el 15.2 % y juntas explican casi tres cuartas
partes de la variabilidad total. La primera CP es la que retiene la mayor variabilidad de
los datos observados; por lo tanto, la primera componente es la que seleccionamos para el
cálculo del ı́ndice de calidad.

110
En el Cuadro 2, se presentan los vectores principales correspondientes a las dos
componentes principales o indicadores compuestos (IC1 e IC2). Con base en que sólo
las componentes con valor absoluto mayores que .30 intervienen significativamente en la
conformación del vector, se observa que IC1 está formado por todos los indicadores simples.

En el Cuadro 3, se presentan las correlaciones entre los dos indicadores compuestos


IC1 e IC2 y los indicadores simples. Estas correlaciones muestran que el ı́ndice de calidad
de vivienda, calculado con base a la primera componente principal, está representado
adecuadamente por casi todos los indicadores simples (excepto con cuarto para cocinar),
debido a que todas las correlaciones son significativas o altamente significativas.

111
En la Gráfica 1, se representa el ı́ndice de calidad de vivienda de los municipios de
Morelos. Estos resultados muestran que existe un enorme contraste en el nivel de desarrollo
de la población. Ası́, los municipios de Cuernavaca (que ocupa el primer lugar en calidad
de vivienda), Jiutepec, Zacatepec, Emiliano Zapata, Jojutla, Cuautla, Temixco, muestran
gran ventaja sobre los municipios de Ocuituco, Totolapan, Tlalnepantla, Tetela del Volcán,
Temoac y Tepalcingo, ya que las condiciones en que se encuentran sus viviendas, son
sumamente precarias y afectan directamente a la salud de la población, debido a que los
indicadores simples que más aportan al IC1 son las variables relacionadas con variables
sanitarias, por ejemplo, si la vivienda cuenta con agua entubada, servicio sanitario, taza
de baño exclusiva y drenaje (Véase mapa 1).

112
Se pueden identificar patrones territoriales del ı́ndice de calidad, consistentes en que los
municipios de carácter metropolitano son los que en general presentan mejores condiciones
de vivienda, en tanto que con las peores condiciones sobresalen los municipios menos
urbanizados. Los resultados del ı́ndice de calidad que se obtuvieron, como lo mostraremos
en otros trabajos, se encuentra altamente relacionado con el ı́ndice de marginación, niveles
de escolaridad, analfabetismo, tasas de fecundidad y otras variables sociodemográficas.

8.6. Conclusiones
De acuerdo al análisis realizado, las variables que explican las variaciones en la calidad
de la vivienda entre los municipios del estado de Morelos, son aquellas referidas a los
servicios hidrosanitarios. Y salvo Zacatepec y Jojutla, las mejores condiciones de vivienda
se localizan en los municipios metropolitanos más poblados. Una de las implicaciones de
polı́tica que pudiera tener este hallazgo, es que los programas de mejoramiento y ampliación
de los organismos nacionales de vivienda y del gobierno federal, que otorgan créditos y
subsidios, pudieran dirigirse al mejoramiento de los servicios hidrosanitarios como una
forma de mejorar la calidad de la vivienda, ya que actualmente se enfocan en la ampliación
mediante la añadidura de un cuarto. Serı́a una medida complementaria y no sustitutiva, ya
que las dos son relevantes para combatir el rezago habitacional cualitativo prevaleciente.

Referencias
1. Ancer Alejandra, et. al. Indice de calidad de vivienda por entidad federativa
de México y particularidades en el caso de Nuevo León. Revista Estudiantil de
Economı́a, Vol IV, núm 1. 2012.
2. Anderson T.W. Asymptotic Theory for Principal Components Analysis. Annals of
Mathematical Statistics, 34. 1963.
3. Bartlett, M.S. A Note on Tests of Significance in Multivariate Analysis. Proceedings
of the Cambridge Philosophical Society, 35. 1939.

113
4. CONAFOVI. Rezago habitacional, México. Consejo Nacional de Fomento a la
Vivienda. 2002.
5. Esquivel Marı́a T. y Judith Villavicencio. Caracterı́sticas de la vivienda en México
al año 2000, ((Entre el estado y el mercado. La vivienda en el México de hoy)),
UAM-M.A. Porrúa, México, pp. 51 a 84. 2006.
6. Hair J.F., Anderson R.E. y Tatham R.L. Multivariate Data Analysis. With readings.
New York: MacMillian Publishing Co., 1987.
7. Jolicoeur P. y J.E. Mosimann. Size and Shape Variation in the Painted Turtle: A
Principal Component Analysis, Growth, 24. 1960.
8. Jolliffe I.T. Principal Component Analysis. New York: Springer-Verlag. 2002.
9. Organización de las Naciones Unidas. Comité de Derechos Económicos, Sociales y
Culturales. Observación general 4: El derecho a una vivienda adecuada, (párrafo 1
del artı́culo 11 del Pacto), (Sexto periodo de sesiones), ONU. Doc: E/23., 1991.
10. SPSS Advanced Models 9.0, Chicago IL, E.U., 1999.
11. Ziccardi Alicia. Cómo viven los mexicanos. Análisis regional de las condiciones de
habitabilidad de la vivienda. Serie Los grandes temas nacionales, los mexicanos
vistos por sı́ mismos. UNAM, 234 pp., 2015.

114
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 9

Efectos Aleatorios en el Modelo Lineal Mixto

Fernando Velasco Luna, Vı́ctor Hugo Vázquez Guevara, Fabiola Blanco Infanson
Facultad de Ciencias Fı́sico Matemáticas,
Benemérita Universidad Autónoma de Puebla,
Av. San Claudio, s/n. San manuel
Puebla, Puebla, Código Postal 72570, México,
[email protected], [email protected], [email protected]

Resumen. La Estadı́stica está relacionada con la variablidad que se encuentra en


cualquier conjunto de datos. Las técnicas estadı́sticas de análisis de datos persiguen el
objetivo de caracterizar dos aspectos del conjunto: la tendencia y la variabilidad. El estudio
de la variabilidad da surgimiento a los modelos de efectos fijos o de efectos aleatorios. Tales
modelos se pueden considerar como casos particulares del Modelo Lineal Mixto. En este
trabajo se presenta la caracterización de los efectos aleatorios del modelo de efectos fijos y
aleatorios en términos de la parte aleatoria del Modelo Lineal Mixto, lo que permitirá en
trabajos posteriores dar caracterización de los predictores de los efectos aleatorios y de la
parte aleatoria en términos de operadores.
Abstract. The Statistic is related to the variability found in any set of data. The
statistical techniques of data analysis pursue the objective of characterizing two aspects of
the set: the trend and the variability. The study of variability gives rise to models of fixed
effects or random effects. Such models can be considered as particular cases of the Linear
Mixed Model. In this paper we present the characterization of the random effects of the
model of fixed effects and random effects in terms of the random part of the Linear Mixed
Model, which will allow in later work to characterize the predictors of the random effects
in terms of operators.
Palabras clave: Análisis de varianza, Modelos efectos aleatorios, Variabilidad.

9.1. Introducción
La Estadı́stica está relacionada con la variablidad que se encuentra en cualquier
conjunto de datos. Las técnicas estadı́sticas de análisis de datos persiguen, en general,
el objetivo de caracterizar dos aspectos del conjunto: la tendencia y la variación alrededor

115
de está tendencia. En un experimento se manipulan ciertos factores con el objetivo de
determinar las interacciones existentes entre ellos. El diseño de experimento se fundamenta
en la replicación y la aleatorización. La replicación se refiere a una repetición del
experimento básico la cual permite obtener una estimación del error experimental, que es la
variabilidad que hay de un resultado a otro debida a factores no controlados, y determinar si
las diferencias observadas en los datos son estadı́sticamente significativas. La aleatorización
es la asignación al azar tanto del material experimental como del orden en que se realizan
las pruebas individuales o ensayos. En el desarrollo de un experimento se desea obtener
resultados confiables, lo cual se logra si el experimento se planifica procediendo en forma
cientı́fica. Al estudiar la variabilidad que se encuentra en los datos el interés es atribuir
ésta a categorias de los datos, las cuales se denominan factores. Las clases individuales
de cada factor se denominan niveles del factor. Por ejemplo en un estudio donde se desea
estudiar nivel socio económico de personas un factor podrı́a ser el nivel de estudios, y los
niveles de este factor serı́an medio superior, superior y posgrado. Al clasificar los datos
en términos de factores y sus niveles, la caracterı́stica de interés es la medida en que
diferentes niveles de un factor afectan a la variable de interés. Lo anterior se conoce como
el efecto de un nivel de un factor sobre la variable de interés. Los efectos de un factor
pueden ser considerados fijos o aleatorios, esto depende como se considere el conjunto
de los niveles de un factor, puede ser considerado finito o infinito. Modelos en los cuales
los efectos son solo fijos se denomina modelo de efectos fijos, mientras que en el otro
caso se denominan modelos de efectos aleatorios. Por otra parte los datos con estructura
jerárquica surgen en diversas situaciones. Por ejemplo: las investigaciones educativas están
frecuentemente relacionadas con problemas de investigación de relaciones existentes entre
alumnos y el grupo de clase en el que éstos se desenvuelven. El concepto general es que el
alumno interactúa con el grupo de clase al cual éste pertenece. Generalmente los alumnos
y el grupo de clase se conceptualizan como un sistema con estructura jerárquica, donde
los alumnos y los grupos de clase son definidos en niveles separados de esta estructura
jerárquica. En general, supóngase que se tienen datos con estructura jerárquica; es decir,
se tienen J grupos con nj unidades en el j-ésimo grupo, j = 1, ..., J. A cada grupo se le
denomina unidad de nivel 2; se tienen J unidades de nivel de nivel 2, y a cada una de las nj
unidades en cada grupo se le denomina unidad de nivel 1; con lo que se tienen nj unidades
de nivel 1 en la j-ésima unidad de nivel 2. El número de unidades de nivel 1 no tiene que
ser necesariamente igual en cada unidad de nivel 2. Para analizar datos con estructura
jerárquica se emplea el modelo lineal general jerárquico, que es un caso especial del MLM
el cual está dado por Y = Xβ + Zu + e. El MLM se divide en dos partes; la parte fija, Xβ,
y la parte aleatoria, Zu + e. La parte fija está compuesta por los coeficientes de regresión
los cuales forman el parámetro β, mientras que la parte aleatoria está compuesta por los
efectos aleatorios u.
Los modelos de efectos fijos o aleatorios se pueden considerar como casos particulares
del MLM. En este trabajo se presenta la caracterización de los efectos aleatorios del
modelo de efectos fijos y aleatorios en términos de la parte aleatoria Zu + e del MLM, lo
que permitirá en trabajos posteriores dar caracterización de los predictores de los efectos
aleatorios y de la parte aleatoria u involucrados en el MLM en términos de operadores.

9.2. Modelo de un Criterio de Clasificación


Por simplicidad, considérese que en un experimento se desea comparar a niveles de
un factor A, la respuesta Y que se observa en cada uno de los a niveles del factor es una
variable aleatoria. Estas observaciones pueden describirse mediante el modelo estadı́stico

Yij = µ + αj + eij ,
(9.1)
i = 1, ..., n; j = 1, ..., a,

116
donde Yij denota la i-ésima observación del j-ésimo nivel del factor, µ denota la media
general de todos los niveles del factor, αj es el efecto del j-ésimo nivel del factor A, y eij
es el error aleatorio correspondiente a la i-ésima observación del j-ésimo nivel del factor
A, con los supuestos E (eij ) = 0, V ar (eij ) = σe2 , y Cov (eij , elk ) = 0 para (i, j) 6= (l, k).
Un experimento con estas caracterı́sticas se denomina de un criterio de clasificación, ya
que en este se estudia la variabilidad de la variable respuesta respecto a un sólo factor,
y el modelo se denomina modelo ANOVA de un criterio de clasificación. En este tipo de
estudio el interés es probar hipótesis acerca de los efectos de los niveles del fator, ası́ como
obtener estimaciones de tales efectos.
El diseño estadı́stico permite planear las condiciones en que se desarrollara un
experimento, de manera que los datos puedan analizarse mediante un modelo estadı́stico
particular. En este sentido es necesario determinar la cobertura que tendran las inferencias
y conclusiones que se obtengan a partir de dicho análisis. Por esta razón es importante
hacer una breve revisión de la forma como se determinan los niveles de los factores que
seran incluidos en el diseño experimental. En el modelo dado por (9.1) pueden presentarse
dos casos relacionadas con los a niveles del factor A. En el primer caso el interés del
experimentador es hacer inferencias acerca de los efectos de únicamente los a niveles bajo
estudio. En este caso el modelo (9.1) se conoce como modelo de efectos fijos. El otro caso
es cuando el experimentador desea realizar inferencias acerca de la población de niveles del
factor A y los a niveles bajo estudio representan una muestra de esta gran población. En
este caso el modelo (9.1) se conoce como modelo de efectos aleatorios. Para definir si los
efectos son fijos o aleatorios, se debe de tener presente si los objetivos de la investigación
se aplican únicamente a los a niveles del factor incluidos en el experimento, en tal caso se
consideran fijos. Ahora, si el objetivo está enfocado a la población de los niveles del factor,
estos niveles se consideran aleatorios. A continuación se describe con mayor detalle estas
dos situaciones.

9.2.1. Modelo con Efectos Fijos


En este caso el experimentador realiza una selección especifica de los a niveles de
interés ya que estos son los únicos para los cuales se desea hacer inferencia acerca de su
efecto. Para este caso las conclusiones obtenidas únicamente serán para estos a niveles
considerados en el estudio.
Sea un experimento de un criterio de clasificación en el que se tienen a niveles del
factor A y n observaciones por nivel, denótese por Yij la i-ésima observación tomada en el
j-ésimo nivel del factor A. Cada una de las an observaciones pueden describirse mediante
el modelo lineal
Yij = µj + eij ,
(9.2)
j = 1, ..., a; i = 1, ..., n,
donde µj denota la media del j-ésimo nivel del factor A, el modelo (9.2) se denomina
modelo de medias. Este modelo también se puede describir por medio de:

Yij = µ + αj + eij ,
(9.3)
j = 1, ..., a; i = 1, ..., n,

donde µ denota la media general, αj es el efecto del j-ésimo nivel del factor A y eij es
el error aleatorio, con los supuestos E (eij ) = 0, V ar (eij ) = σe2 , y Cov (eij , elk ) = 0 para
(i, j) 6= (l, k).
Bajo los supuestos del modelo dado por (9.3), la varianza de la variable respuesta Yij ,
está dada por
V ar(Yij ) = σe2 . (9.4)

117
Basados en el modelo dado por la ecuación (9.2), el interés en este caso es probar la
igualdad de las a medias de los a niveles del factor A. La hipótesis está dada por

H 0 : µ1 = . . . = µa
vs (9.5)
6 µk para al menos un par (l, k)
H 1 : µl =

Mientras que bajo el modelo dado por la ecuación (9.3), el interés en este caso es probar
la igualdad de las a efectos de los a niveles del factor A. La hipótesis está dada por

H0 : α1 = . . . = αa = 0
vs (9.6)
H1 : µl 6= 0 para al menos un l

9.2.2. Modelo con Efectos Aleatorios


Si el factor A tiene un gran número de niveles, que provienen de una gran población de
niveles, y el interés es realizar inferencias acerca de la población de niveles, lo que hace el
investigador es seleccionar en forma aleatoria a de esta gran población de niveles del factor.
En este caso el interés no son los a niveles que se eligieron, sino la población completa de
los niveles del factor A. En este caso, no es de utilidad conocer los valores particulares de
los niveles del factor. En este caso el factor se denomina aleatorio. El modelo que describe
esta situación está dado por

Yij = µ + αj + eij ,
(9.7)
i = 1, ..., n; j = 1, ..., a,

en este caso tanto αj y eij se consideran variables aleatorias, independientes, con media
2
cero, y varianzas σα y σe2 respectivamente, además del supuesto de normalidad.
Bajo los supuestos del modelo dado por (9.7), la varianza de la variable respuesta Yij ,
está dada por
2
V ar(Yij ) = σα + σe2 (9.8)
El interés está en la existencia de variabilidad entre los niveles del factor A, es decir,
2 2
si σα > 0, el caso de que σα = 0 implica que no existe variabilidad entre los niveles del
factor A. De lo anterior la hipótesis de interés está dada por
2
H 0 : σα =0
vs (9.9)
2
H 1 : σα > 0.

9.3. Modelo Lineal Mixto


9.3.1. Modelos Lineales Jerárquicos
Para analizar datos con estructura jerárquica se tienen que emplear técnicas
estadı́sticas que tomen en cuenta dicha estructura. En esta situación, es razonable postular
un modelo de regresión que considere una posible diferencia entre las unidades de nivel
2. Bajo esta situación el modelo lineal jerárquico de dos niveles permite simultáneamente
hacer un estudio de unidades de nivel 1 y un estudio de unidades de nivel 2, tomando en
cuenta variables explicatorias en ambos niveles. En los modelos lineales jerárquicos cada
uno de los niveles de la estructura jerárquica es representado formalmente con su propio
submodelo. Los modelos lineales jerárquicos tienen una larga historia, pero han recibido
especial atención en los últimos años (Longford, 1995; Goldstein, 1995; Raudenbush y
Bryk, 2002; Coutiño y Vidal, 2006; Gelman and Hill, 2007; West et al., 2007; De Leeuw,

118
2008; Fujimoto and Koga 2009; Cervantes et al., 2009; Dallal et al., 2009; Zuur et al.,
2009). Los modelos lineales jerárquicos son también conocidos como modelos multinivel
(Goldstein, 1995; De Leeuw, 2008), modelos de coeficientes aleatorios (Longford, 1995),
modelos de componentes de la varianza y covarianza (Searle et al., 2006), o como modelos
de efectos mixtos (Jiang 2007; Laird y Ware, 1982; West et al., 2007; Zuur et al., 2009).
Un tratamiento y abundantes referencias acerca de estos modelos se puede encontrar en
Goldstein (1995), Longford, (1995), Raudenbush y Bryk, (2002), Hox, J. (2002), De Leeuw
y Meijer (2008). En la actualidad existe software estadı́stico el cual permite analizar datos
con estructura jerárquica de acuerdo al modelo apropiado, MLwiN, (Rasbash et al., 2009),
S-PLUS (Pinheiro y Bates, 2000).

Modelo Intercepto Aleatorio


El caso más simple de un modelo lineal jerárquico es el denominado modelo intercepto
aleatorio, el cual no contiene variables explicatorias. En este modelo solamente se tiene
variabilidad entre las unidades de nivel 2 y dentro de las unidades de nivel 2. Este modelo
puede ser expresado como un modelo donde la variable respuesta, Yij , es la suma de una
media general dada por β00 , un efecto aleatorio a nivel 2 dado por u0j , y un efecto aleatorio
a nivel 1 dado por eij ; El modelo para la i-ésima unidad de nivel 1, la cual se encuentra
en la j-ésima unidad de nivel 2, tiene la forma:

Yij = β00 + u0j + eij ;


i = 1, . . . , nj ; j = 1, . . . , J,
(9.10)
E (eij ) = 0; V ar (eij ) = σe2 , eij ∼ N 0, σe2 ,


E (u0j ) = 0 y V ar (u0j ) = σu2 0 .

Los parámetros en el modelo (9.10) son tres: El coeficiente β00 y los componentes de
la varianza σe2 y σu2 0 . En este modelo la varianza de la variable respuesta es descompuesta
como la suma de las varianzas nivel 1, σe2 y nivel 2, σu2 0 ,

V ar (Yij ) = σe2 + σu2 0 . (9.11)

El modelo para el nivel 1 tiene la forma:

Yij = β0j + eij ,

y el modelo para el nivel 2 tiene la forma:

β0j = β00 + u0j .

Modelo Intercepto Aleatorio con Variables Explicatorias a Nivel 1


En el modelo intercepto aleatorio el valor esperado de la variable respuesta puede ser
explicado en términos de variables explicatorias a nivel 1. Ası́ la siguiente etapa es la
inclusión de variables explicatorias a nivel 1, esto con el objetivo de tratar de explicar el
comportamiento de la variable respuesta. Con una variable explicatoria a nivel 1 el modelo
intercepto aleatorio tiene la forma:

Yij = β00 + β1 Xij + u0j + eij ;


i = 1, . . . , nj ; j = 1, . . . , J,
(9.12)
E (eij ) = 0; V ar (eij ) = σe2 , eij ∼ N 0, σe2 ,


E (u0j ) = 0 y V ar (u0j ) = σu2 0 .

El modelo (9.12) se denomina modelo intercepto aleatorio con una variable explicatoria.
Los parámetros en el modelo (9.12) son cuatro: Los coeficientes de regresión β00 y β1 , y los

119
componentes de la varianza σe2 y σu2 0 . En este modelo la varianza de la variable respuesta
es descompuesta como la suma de las varianzas nivel 1, σe2 y nivel 2, σu2 0 ,

V ar (Yij ) = σe2 + σu2 0 . (9.13)

El modelo para el nivel 1 tiene la forma:

Yij = β0j + β1 xij + eij ,

y el modelo para el nivel 2 tiene la forma:

β0j = β00 + u0j .

Modelo de Pendientes Aleatorias


En el modelo lineal jerárquico intercepto aleatorio con variables explicatorias a nivel 1,
sólo el intercepto se supone aleatorio, mientras que los demás coeficientes de regresión se
suponen fijos para todas las unidades de nivel 2. En ocasiones la relación entre las variables
explicatorias y la variable respuesta puede ser diferente en las unidades de nivel 2. Lo
anterior da surgimiento al modelo de pendientes aleatorias. En este modelo los coeficientes
de algunas o de todas las variables explicatorias están variando entre las unidades de nivel
2, es decir, la relación existente entre cada una de las varibles explicatorias y la variable
respuesta no es la misma en todas las unidades de nivel 2. Como los coeficientes varian
entre las unidades de nivel 2 se les denomina coeficientes aleatorios. Para el caso de una
variable explicatoria a nivel 1 lo anterior se expresa en el siguiente modelo:

Yij = β00 + β10 Xij + u0j + u1j Xij + eij ,


i = 1, . . . , nj ; j = 1, . . . , J,
E (eij ) = 0, V ar (eij ) = σe2 , eij ∼ N 0, σe2 ,

(9.14)
E (u0j ) = 0, V ar (u0j ) = σu2 0 , E (u1j ) = 0, V ar (u1j ) = σu2 1
y Cov (u0j , u1j ) = σu01 ,

el cual se denomina modelo de pendientes aleatorias con una variable explicatoria a nivel
1.
Los parámetros en el modelo (9.14) son seis: Los coeficientes de regresión β00 y β10 ,
y los componentes de la varianza σe2 , σu2 0 , σu2 1 y σu01 . En este modelo la varianza de la
variable respuesta es descompuesta como:

V ar (Yij ) = σu2 0 + σu2 1 + 2σu01 Xij + σe2 . (9.15)

De la ecuación (9.15) se tiene que en el modelo de pendientes aleatorias con una variable
explicatoria a nivel 1 la varianza de la variable respuesta depende de la variable explicatoria
a nivel 1, Xij .
El modelo para el nivel 1 tiene la forma:

Yij = β0j + β1j Xij + eij ,

y el modelo para el nivel 2 tiene la forma:

β0j = β00 + u0j y β1j = β10 + u1j .

120
Modelo de Regresión Lineal Jerárquico de Dos Niveles con Variables
Explicatorias en Ambos Niveles
En el modelo de regresión lineal jerárquico de dos niveles con variables explicatorias
en cada nivel interviene la variable respuesta Yij , de la i-ésima unidad de nivel 1 en la
j-ésima unidad de nivel 2, m variables, , x1 , ..., xm a nivel 1, y q variables w1 , ..., wq a nivel
2. El modelo nivel 1 para la i-ésima unidad de nivel 1 en la j-ésima unidad de nivel 2, con
m variables explicatorias x1ij , ..., xmij a nivel 1, tiene la forma:

Yij = β0j + β1j x1ij + · · · + βmj xmij + eij ,


i = 1, . . . , nj ; j = 1, . . . , J,
(9.16)
E (eij ) = 0, V ar (eij ) = σe2 , eij ∼ N 0, σe2 ,

2
E (u0j ) = 0, V ar (u0j ) = σu0 ,

donde los coeficientes de regresión β0j , β1j , ..., βmj tienen la interpretación usual de un
modelo de regresión múltiple, estos coeficientes varı́an de unidad a unidad de nivel 2.
El modelo nivel 2, con q variables explicatorias a nivel 2 w1j , ..., wqj tiene la forma:

βkj = βk0 + βk1 w1j + βk2 w2j · · · + βkq xqj + ukj ,


2
E (ukj ) = 0, V ar (ukj ) = σuk (9.17)
Cov (ukj , ulj ) = σukl , k = 0, . . . , m; j = 1, . . . , J,

donde los coeficientes βk0 , βk1 , βk2 , ..., βkq son fijos. Los errores u0j , uij , ..., umj son los
efectos aleatorios de nivel 2.
El modelo combinado para la para la j-ésima unidad de nivel 2, del modelo nivel 1 con
m variables explicatorias a nivel 1:

Yij = β0j + β1j x1ij + · · · + βmj xmij + eij , (9.18)

y del modelo nivel 2 con q variables explicatorias a nivel 2:

βkj = βk0 + βk1 w1j + βk2 w2j · · · + βkq wqj + ukj , (9.19)

tiene la forma:

yij = (β00 + β01 w1j + · · · + β0q wqj + u0j ) + (β10 + · · · + β1q wqj + u1j ) x1ij +

+ (β20 + · · · + β2q wqj + u2j ) x2ij + · · · + (9.20)


+ (βm0 + · · · + βmq wqj + umj ) xmij + eij ,
del modelo (9.20), se tiene
m
X
V ar (Yij ) = σu2 0 + σu2 1 x21ij + · · · + σu2 m x2mij + 2 σukl xkij xlij + σe2 . (9.21)
k,j=0

Modelo Lineal Jerárquico


Definiendo

···
     
y1j x1j 1 x11j x21j xm1j
 y2j   x2j   1 x12j x22j ··· xm2j 
Yj =   ; Xj  =
     
.. .. .. .. .. .. .. 
 .   .   . . . . . 
ynj j xnj j 1 x1nj j x2nj j ··· xmnj j
t
ej = e1j , ..., enj j ; β j = (β0j , ..., βmj )t

121
En forma matricial el modelo nivel 1 (9.16), está dado por:

Yj = Xj β j + ej ; j = 1, ..., J,

con E (ej ) = 0, V ar (ej ) = σe2 Inj . Definiendo

Wj = Iq+1 ⊗ (1 w1j · · · wqj )

β = (β00 β01 · · · β0q β10 β11 · · · β1q · · · βm0 βm1 · · · βmq )t


uj = (u0j u0j · · · umj )t
En forma matricial el modelo nivel 2 (9.17), está dado por:

β j = Wj β + uj ; j = 1, ..., J

donde Wj es la matriz de variables explicatorias a nivel 2, de orden (m + 1) ×


(q + 1) (m + 1), β es el vector (m + 1) (q + 1) × 1 de coeficientes fijos, y uj es el vector de
errores aleatorios del nivel 2 de orden (m + 1) × 1. Supóngase E (uj ) = 0 y
2
···
 
σu0 σu01 σu0m
2
 σu10 σu1 ··· σu1m 
V ar (uj ) = Ω = 
 
.. .. .. .. 
 . . . . 
2
σum0 σum1 ··· σum

además del supuesto de normalidad.


En forma matricial el modelo combinado para la j-ésima unidad de nivel 2 (9.20) toma
la forma:
Yj = Xj Wj β + Xj uj + ej ; j = 1, ..., J
por lo que
E (Yj ) = Xj Wj β,
y
V ar (Yj ) = Xj ΩXtj + σe2 Inj
Definiendo
       
Y1 W1 u1 e1
 Y2   W2   u2   e2 
Y= ; W =  ; u =  ; e = 
       
.. .. .. .. 
 .   .   .   . 
YJ WJ uJ eJ
y
X = diag (Xj )
El modelo toma la forma:

Y = XWβ + Xu + e,

el cual se denomina modelo lineal general jerárquico. La matriz de varianzas y covarianzas


de Y tiene la forma

V = V ar (Y) = Xdiag (Ω) Xt + diag σe2 Inj .




Definiendo G = diag (Ω) y R = diag σe2 Inj la matriz de varianzas y covarianzas está


dada por:
V = V ar (Y) = XGXt + R.

122
9.3.2. Modelo Lineal Mixto
Los modelos anteriores son casos especiales del MLM el cual está dado por medio de:

Y = Xγ + Zu + e,
E (e) = 0, V ar (e) = R, (9.22)
E (u) = 0, V ar (u) = G y Cov e, ut = 0,


donde Y es un vector perteneciente a Rn , X es una matriz conocida de orden n × p,


γ es un vector perteneciente a Rp , Z es una matriz conocida de orden n × k, y e y u
están distribuidos independientemente con media cero y matriz de varianza y covarianza
G y R respectivamente, tales matrices dependen de parámetros desconocidos llamados los
componentes de la varianza, los cuales serán denotados por σ.
Bajo los supuestos del MLM se tiene

E (Y) = Xγ
y
V = V ar (Y) = ZGZt + R.

El MLM se divide en dos partes; la parte fija, Xγ, y la parte aleatoria, Zu + e. La


parte fija está compuesta por los coeficientes de regresión los cuales forman el parámetro γ,
mientras que la parte aleatoria está compuesta por los efectos aleatorios u. Los estimadores
para efectos aleatorios son conocidos como predictores. Predictor es un término usado para
distinguirlo de estimador, ya que éste último se usa para los coeficientes de la parte fija,
mientras que predictor es para efectos aleatorios. La predicción de efectos aleatorios tiene
una larga historia la cual data desde los primeros trabajos de Henderson sobre genética
animal (Henderson 1984).
Henderson et al. (1959), desarrolla un conjunto de ecuaciones que simultáneamente
proporcionan el mejor estimador lineal insesgado de Xγ y el mejor predictor lineal
insesgado de u. Éstas son conocidas como las ecuaciones del modelo mixto. Para obtener
estimaciones de γ y u, el método estándar es resolver las ecuaciones del modelo mixto
(Henderson 1984). Las estimaciones pueden ser escritas como:
∧ −1
γ= Xt V−1 X  Xt V−1Y,
∧ ∧ (9.23)
u= GZt V−1 Y − X γ .

Además de la estimación del parámetro γ y de la predicción de u, es necesaria la


estimación de combinaciones lineales de éstos, es decir, funciones de la forma kt γ + mt u,
para vectores especı́ficos de constantes k y m, estas funciones se denominan efectos mixtos
ya que son combinaciones de efectos fijos y efectos aleatorios. Henderson (1975) obtiene el
Mejor Predictor Lineal Insesgado (BLUP ) del efecto mixto kt γ + mt u bajo el MLM, el
BLUP de este efecto mixto está dado por medio de:
∧ ∧
kt γ +mt u, (9.24)
∧ ∧
donde γ y u están dados por (9.23).

9.4. Caracterización de Efectos Aleatorios del


Modelo de un Criterio de Clasificación
En está sección se presenta la caracterización de los efectos aleatorios del modelo de
un criterio de clasificación en términos de la parte aleatoria del MLM.

123
Sea un experimento de un criterio de clasificación en el que se tienen a niveles del
factor A, y n observaciones por nivel, cada una de las an observaciones pueden describirse
mediante el modelo lineal
Yik = µ + αi + eik ,
(9.25)
i = 1, ..., a; k = 1, ..., n.
Desarrollando el modelo para cada una de las observaciones, tomando, 4 niveles para
el factor A y 3 observaciones para cada nivel, se tiene
       
y11 1 1 0 0 0 e11
 y12   1   1 0 0 0   e12 
       
 y13   1   1 0 0 0   e13 
       
 y21   1   0 1 0 0 
  e21 
 
     
 y22   1   0 1 0 0  α1 e
 22 
 
     
 y23   1   0 1 0 0   α2   e23 
 y31  =  1  µ +  0 0 1 0   α3  +  e31  (9.26)
        
       
 y32   1   0 0 1 0  α4  e32 
       
 y33   1   0 0 1 0   e33 
       
 y41   1   0 0 0 1   e41 
       
 y42   1   0 0 0 1   e42 
y43 1 0 0 0 1 e43

En términos del producto de Kronecker (9.26) se expresa como

y = 112 µ + (I4 ⊗ 13 ) α + e

o en la forma
y = (14 ⊗ 13 ) µ + (I4 ⊗ 13 ) α + e
En general para un experimento de un criterio de clasificación en el que se tienen a niveles
del factor A, y n observaciones por nivel, el modelo está dado por:

y = (1a ⊗ 1n ) µ + (Ia ⊗ 1n ) α + e. (9.27)

9.4.1. Efectos Fijos


Considerando los efectos αj como fijos y tomando
" #
..
X = (1a ⊗ 1n ) . (Ia ⊗ 1n )

y
Z = 0,
el modelo dado por (9.27), toma la forma

Y = Xγ + Zu + e

donde γ = (µ, α1 , α2 , . . . , αa )t y u = (0)t .

9.4.2. Efectos Aleatorios


Considerando los efectos αj como aleatorios y tomando

X = (1a ⊗ 1n )

y
Z = (Ia ⊗ 1n ) ,

124
el modelo dado por (9.27), está dado por

Y = Xγ + Zu + e

donde γ = (µ)t y u = (α1 , α2 , . . . , αa )t . Ası́ el vector de efectos aleatorios α en (9.27) está


involucrado en la parte aleatoria Zu + e del MLM.

9.5. Conclusiones
En este trabajo se mostró que los efectos aleatorios involucrados en el modelo de efectos
fijos y aleatorios son componente en la parte aleatoria del MLM. Lo anterior con el objetivo
de posteriormente obtener la caracterización de los efectos aleatorios involucrados en el
modelo de efectos aleatorios en términos de operadores proyector construidos a partir de
las matrices de diseño presentes en el MLM.

Referencias
1. Cervantes, V.H., Santana, A.C., Guilera, G. y Gómez-Benito, J., Hierarchical linear
models in psychiatric: A bibliometric studty, Scientometrics, 80, 797-808. 2009.
2. Coutiño-Estrada, B. y Vidal-Martı́nez .V.A., Componentes de varianza de hı́bridos
de maı́z evaluados en la faja maicera de los Estados Unidos, Agrociencia, 40, 89-98,
2006.
3. Dallal, R.M., Quebbemann, B.B., Hunt, L.H. and Braitman, L.E. Analysis of weight
loss after bariatric surgery using mixed effects linear modeling, Obesity Surgery, 19,
732-737, 2009.
4. De Leeuw, J. and Meijer, E., Handbook of Multilevel Analysis, Springer, New York,
USA, 2008.
5. Fujimoto, T. and Koga, S., An application of mixed-effects model to evaluate the
effects of initial spancing on radial variation in wood density in Japanese larch (Larix
Kaempferi), Journal of Wood Science, 0, 1-8, 2009.
6. Gelman, A. and Hill, J., Data analysis using regression and multilevel/hierarchical
models, Cambridge University Press, 625 p., 2007.
7. Goldstein, H., Multilevel statistical models, Third Edition, Halsted Press, New York,
USA, 1995.
8. Henderson, C.R., Best linear unbiased estimation and prediction under a selection
model, Biometrics, 31, 423-447, 1975.
9. Henderson, C.R., Applications of Linear Models in Animal Breeding, University of
Guelph, Guelph, Ontario, 1984.
10. Henderson, C.R., Kempthorne, O., Searle, S.R. and von Krosigk, C.N., Estimation
of environmental and genetic trends from records subject to culling, Biometrics, 15,
192-218, 1959.
11. Hox, J., Multilevel analysis; techniques and applications, Lawrence Erlbaum
Associates, Publishers, London, 304 p., 2002.
12. Jiang, J., Linear and generalized linear mixed models and their applications,
Springer, New York, 257 p., 2007.
13. Laird, N. and Ware, J., Random effects models for longitudinal data, Biometrics,
38, 963-974., 1982.

125
14. Longford, N.T., (eds. Arminger, G., Clogg, C.C. and Sobel, M.E.), Random
coefficient models. In: Handbook of statistical models for the Social and behavioral
sciences, pp. 519-577, Plenum Press, New York, USA, 1995.
15. Pinheiro J.C. and Bates, D.M., Mixed effects models in S and S-PLUS, Springer,
New York, USA, 2000.
16. Rasbash, J., Steele, F., Browne, W.J., and Goldstein, H., A user’s guide to MLwiN
version 2.10. Center for multilevel modeling. University of Bristol. London. England,
2009.
17. Raudenbush, S.W. and Bryk, A.S, Hierarchical linear models applications and data
analysis methods, 2nd. Ed. Sage Publications, Thousand Oaks, USA, 2002.
18. Searle, S.R., Casella, G. and McCulloch, C.E., Variance component, 2nd Ed., John
Wiley, New York, USA, 2006.
19. West, B.T., Welch, K.B., and Galecki, A.T., Linear mixed models. A practical guide
using statistical software, Chapman Hall/CRC, Boca Raton, Florida, USA, 2007.
20. Zuur, A.F., Ieno, A.N., Walker, N.J., Saveliev, A.A. and Smith, G.M., Mixed effects
models and extensions in ecology with R. Springer, New York, 574 p., 2009.

126
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 10

Teorı́a de Respuesta al Ítem en el Análisis de un Cuestionario


de Bienestar Familiar

Gladys Linares-Fleites, Robinson Ramı́rez-González, J Santos Hernández-Zepeda,


Ricardo Darı́o Peña-Moreno
Posgrado en Ciencias Ambientales Instituto de Ciencias
Benemérita Universidad Autónoma de Puebla
Avenida San Claudio y 18 Sur, Colonia San Manuel
Puebla, Puebla. C.P. 72570, México.
[email protected], [email protected],
[email protected], ricardopena [email protected]

Resumen.La Teorı́a de Respuesta al Ítem es una familia de procedimientos estadı́sticos


para analizar y describir el comportamiento de un instrumento de medición (prueba, test,
cuestionario, escala o constructo). Estos procedimientos poseen tres rasgos distintivos:
(a) se enfocan en el comportamiento de los Ítem o reactivos individuales, (b) describen
el comportamiento del Ítem en diferentes niveles y (c) se basan en modelos. En este
trabajo se realiza el análisis de un cuestionario de Bienestar Familiar a través de la
Teorı́a de Respuesta al Ítem, con el propósito de lograr una simplificación del mismo
y con ello facilitar el conocimiento sobre la percepción que tienen Jefes, Oficiales y Tropa,
pertenecientes a la Secretaria de la Defensa Nacional, y sus familias, sobre su bienestar
como usuarios de Unidades Habitacionales en la ciudad de Puebla.

Abstract. The Item Response Theory is a family of statistical procedures to analyze and
describe the behavior of a measuring instrument (test, questionnaire, scale or construct).
These procedures have three distinct features: (a) focus on the behavior of individual
items (b) describe the behavior of the item at different levels, and (c) model-based. In
this work the analysis of a questionnaire of Family Wellbeing is performed through Item
Response Theory, with the purpose of achieving a simplification of the same and with
this to facilitate the knowledge about the perception that have Chiefs, Officers and Troop,
belonging the Secretary of National Defense, and their families, about their well-being as
users of Housing Units in the city of Puebla.
Palabras clave: curvas caracterı́sticas del ı́tem, modelos logı́sticos, modelos factoriales.

127
10.1. Introducción
En las Ciencias Ambientales, y también en otras muchas áreas de la ciencia y la
tecnologı́a, algunas caracterı́sticas del fenómeno bajo estudio, no pueden ser observadas de
forma directa, porque se trata de un concepto abstracto o de una caracterı́stica subyacente
(la actitud hacia el medio ambiente, la percepción, la inteligencia, el aprendizaje, la calidad
de vida, etc.). Estos conceptos requieren ser analizados mediante técnicas estadı́sticas
que definen una variable latente a partir de un conjunto de variables (ı́tems, reactivos o
preguntas de un cuestionario). Entre estas técnicas estadı́sticas, se encuentra la Teorı́a de
Respuesta al Ítem (TRI).

Actualmente, un aspecto de gran interés es estudiar el bienestar de los usuarios de


las Unidades Habitacionales donde habitan, con sus familiares, Jefes, Oficiales y Tropa
pertenecientes a la Secretarı́a de la Defensa Nacional. Dado este interés, es necesario contar
con algún instrumento de medición o cuestionario que indague sobre el Bienestar Familiar
y Comunitario, ya que no se cuenta con el mismo.

En el presente capı́tulo se hace una breve introducción a la TRI y su aplicación al análisis


de un cuestionario elaborado sobre Bienestar Familiar. En la sección 10.2 se presentan los
principales elementos que la integran, los modelos estadı́sticos que más frecuentemente se
utilizan y las posibilidades computacionales que existen en la actualidad. En la sección
10.3 se hace el análisis de un cuestionario de Bienestar Familiar a través de la TRI, con el
propósito de lograr una simplificación del mismo y con ello facilitar el conocimiento sobre
la percepción que tienen los militares y sus familias sobre su bienestar como usuarios en
estas Unidades Habitacionales. Finalmente, se brindan conclusiones en las que se destaca la
novedad de esta teorı́a y su importancia en la elaboración y mejoramiento de instrumentos
de medición.

10.2. Teorı́a de Respuesta al Ítem (TRI)


La Teorı́a de Respuesta al Ítem (TRI) es un área en desarrollo que trata de medir
rasgos latentes a través de una serie de modelos matemáticos [6] . En general, los
modelos de variables latentes son modelos de regresión multivariantes que enlazan una
variable respuesta con otra no observada. La TRI se ha desarrollado en los últimos años,
registrándose numerosas aplicaciones y, en especial, se está utilizando en la construcción
y mejoramiento de cuestionarios o instrumentos de medición.

La TRI, también conocida como Teorı́a de Rasgo Latente, asume que entre la respuesta
que una persona ofrece a una pregunta de un cuestionario y el rasgo o habilidad (puede
entenderse también la actitud, la aptitud, la preferencia, el prejuicio, la percepción, etc.) de
la persona, existe una relación no lineal que se puede expresar en términos probabilı́sticos
[7] . El conjunto de los cálculos que se aplican para ello determina los distintos modelos y
resultados de la TRI.

La unidad básica de estudio en la TRI es el Ítem (reactivo o pregunta del cuestionario).


Según esta teorı́a, el rasgo o habilidad (actitud hacia el medio ambiente y/o percepción, en
este trabajo) es considerada una variable continua real que puede ser medida en una escala
que tiene un punto medio igual a cero y, que generalmente, se denota con el sı́mbolo θ. De
esta manera se pueden comparar estos rasgos entre individuos, comparando el parámetro
θ de cada uno de ellos.

La TRI afirma que si una persona tiene un cierto nivel n de habilidad o percepción, por

128
ejemplo, tendrá asociado a dicho valor una probabilidad de que conteste positivamente a
una pregunta sobre acciones que lo mejoren. Expresado de otra manera, si una persona
responde favorablemente a un ı́tem, es posible suponer que esta persona posee un
determinado nivel de actitud favorable hacia el medio ambiente o una percepción hacia
algún aspecto de interés.

A la probabilidad de contestar una categorı́a de respuesta de un Ítem i a un determinado


nivel se le conoce con el nombre de función de respuesta al ı́tem o Curva Caracterı́stica
del Ítem (CCI).

La CCI muestra probabilidades cercanas a cero para valores pequeños del nivel y
probabilidades cercanas a 1 para valores elevados de la misma, produciéndose un
incremento gradual de la probabilidad a medida que aumentan los valores del rasgo latente.

Además del parámetro θ, la probabilidad P i(θ) va a depender también, en función del


modelo que se proponga para su estimación, de otros dos parámetros, el parámetro de
discriminación y el parámetro de dificultad.

i = 1, . . . , n

El parámetro de dificultad bi es aquel punto de la escala latente para el cual la probabilidad


de responder correctamente al ı́tem es del 50 %. Nos indica la posición de la curva
caracterı́stica en la escala latente. Los valores de la escala latente se estandarizan y los
valores del parámetro de dificultad, suelen variar de −2 a +2.

El parámetro de discriminación ai está relacionado con la pendiente de la curva


caracterı́stica en el punto bi , de manera que cuanto mayor sea la pendiente de la curva,
mayores serán las diferencias en las probabilidades P i(θ) de los valores latentes próximos.

En algunas investigaciones, debido a que en la mayor parte de los tests o cuestionarios, los
ı́tems presentan respuestas categóricas, es un hecho que un Ítem puede ser contestado por
azar, por lo que se debe tener en cuenta otro parámetro, el parámetro de adivinación ci
que se define como el valor P (θ) si θ tiende a menos infinito. Gráficamente se corresponde
con la ası́ntota inferior de la curva caracterı́stica.

La siguiente figura representa una CCI con sus parámetros fundamentales.

129
Figura 10.1: Ejemplo de CCI con sus parámetros.

10.2.1. Supuestos de la TRI


Los modelos de Teorı́a de Respuesta al Ítem (TRI) constituyen un intento de superar
algunos de los problemas con los que se enfrenta el denominado “enfoque clásico de los
tests”, y ası́ mejorar la precisión de la medición. Entre estas hipótesis hay dos que son
fundamentales: la unidimensionalidad y la independencia local.

El supuesto de unidimensionalidad indica que la puntuación de un individuo en el test


únicamente depende de una dimensión o factor: su nivel de habilidad en la variable
medida. Esta es una suposición muy razonable, pues si estamos evaluando una determinada
variable, la medición obtenida sólo deberı́a depender del nivel de la persona en esa
variable, pero constituye una restricción muy fuerte para muchas áreas de estudio como
las ambientales.

El análisis factorial suele ser la metodologı́a más utilizada para estudiar la dimensionalidad.
Dado que empı́ricamente raras veces se encuentra una unidimensionalidad perfecta, esto
es, que un solo factor dé cuenta de un 100 % de la varianza, la unidimensionalidad se
convierte en una cuestión de grado: cuanta más varianza explique el primer factor, más
unidimensionalidad existe.

La independencia local de los ı́tems es un concepto basado en el supuesto de que la


respuesta a un ı́tem cualquiera, para un sujeto con un determinado nivel de habilidad,
no afecta a las demás respuestas dadas a los otros ı́tems. En otras palabras, los ı́tems de
un test que tienen el objeto de medir una variable unidimensional no pueden medir otra
variable distinta. De acuerdo con esto podemos definir matemáticamente la independencia
como el producto de las probabilidades de contestar a cada uno de los ı́tems que componen
un test unidimensional, es decir:

P(x1 , x2 , . . . , xn |θ) = P(x1 |θ) P(x2 |θ ). . . P(xn |θ).

Si se cumple la unidimensionalidad, se deriva que existe independencia local entre


los Ítems, esto es, si se ha elegido la dimensionalidad correcta, los Ítems son localmente
independientes. Observamos por lo tanto que los conceptos de unidimensionalidad e
independencia local son equivalentes [3] .

130
10.2.2. Modelos de la TRI
Los modelos de la Teorı́a de Respuesta al Ítem (TRI) muestran la relación entre la
habilidad o el rasgo (simbolizado por θ) medido por el instrumento y la respuesta a un ı́tem.
La respuesta del ı́tem puede ser dicotómica (dos categorı́as), como correcta o incorrecta,
sı́ o no, de acuerdo o en desacuerdo, o bien, puede ser politómica (más de dos categorı́as),
como una escala de respuesta tipo Likert en una encuesta.

Para ı́tems o reactivos donde la respuesta es dicotómica, esto es, se admite sólo la
posibilidad de éxito o fracaso, la probabilidad de éxito será:

exp(f (θ))
p = P i(θ) = P (X = 1)) = . (10.1)
(1 + exp(f (θ)))
El sı́mbolo X es una variable aleatoria que indica que la respuesta muestra una actitud
positiva (éxito: X = 1) o negativa (fracaso: X = 0).

Según la expresión que tome la función f (θ) se tienen diferentes modelos [2] .

El modelo más simple es el conocido como modelo de Rasch, donde la probabilidad de


éxito en la respuesta está dada por:

exp(θ − bi )
p= . (10.2)
(1 + exp(θ − bi ))
El sı́mbolo bi es el parámetro de dificultad del Ítem i. Tanto él como se refieren a la
misma escala de medición.

Según la ecuación (2) , en este modelo la probabilidad de éxito es una función de la


diferencia entre la habilidad (actitud, percepción) de una persona y la dificultad del Ítem
[2] . Si ambas son iguales la probabilidad de éxito es 0 · 5. Cuanto mayor sea bi, más a la
derecha se posicionará la curva CCI, y mayor será la dificultad del ı́tem. Las curvas de los
diferentes ı́tems no se cruzan.

Otro modelo de la teorı́a de la TRI es el Modelo Logı́stico de un parámetro (1PLM),


donde se establece un parámetro de discriminación denotado por a, que se supone que es
el mismo para todos ı́tems. La probabilidad de éxito de la respuesta está dada por:

exp(a(θ − bi ))
p= . (10.3)
(1 + exp(a(θ − bi ))
El modelo de Rasch es un caso particular del modelo 1PLM, donde el parámetro de
discriminación a = 1.

Además de los dos modelos anteriores, en la TRI se utilizan los modelos logı́sticos de
dos parámetros (2PLM) y de tres parámetros (3PLM). En el modelo 2PLM la función de
probabilidad tiene en cuenta los parámetros de dificultad (bi ) y de discriminación (ai ) de
cada ı́tem.

En el modelo 3PLM se introduce el otro parámetro desconocido que tiene en cuenta la


probabilidad de que el ı́tem haya sido respondido al azar y que se conoce como parámetro
de adivinación.

Para los ı́tems dicotómicamente puntuados, la probabilidad de una respuesta correcta


para un individuo puede ser descrita por uno de los modelos logı́sticos de la TRI, a saber,
el 1PLM, el 2PLM y el 3PLM [2] .

131
10.2.3. Estimación de los Parámetros de los Modelos de la
TRI
Seleccionado uno de los modelos, el paso siguiente es la estimación de los parámetros
y de las puntuaciones de cada sujeto, a partir de las puntuaciones empı́ricas en el test o
cuestionario. Lo único conocido son las respuestas de los sujetos a los ı́tems del cuestionario
y a partir de ellas debe realizarse la estimación de los parámetros.

El procedimiento de estimación de los parámetros más utilizado es el de máxima


verosimilitud ya que como valores para los parámetros debemos elegir aquéllos que
maximicen la función de probabilidad de que ocurran los datos empı́ricos obtenidos; junto
a éste se utilizan procedimientos numéricos de aproximación como, por ejemplo, el de
Newton-Raphson, el de “Scoring de Fisher”, el algoritmo EM o diversos procedimientos
de estimación bayesiana.

En la Teorı́a de Respuesta al Ítem, lo usual es considerar los estimadores Máximo


Verosı́miles Marginales que consisten en marginalizar la función de verosimilitud,
integrando la función de densidad conjunta con respecto a los parámetros J , obteniéndose
las estimaciones máximo-verosı́miles marginales a través del proceso iterativo del algoritmo
EM.

Puede establecerse una clasificación de los métodos de máxima verosimilitud, según se


consideren condicionales e incondicionales. Se denominan de alguna de estas formas
dependiendo de que se obtengan estimadores condicionales o no de los parámetros. La
mayorı́a de los autores en sus trabajos, utilizan para la estimación de los parámetros el
método de máxima verosimilitud incondicional [7] .

Los métodos condicionales son aquellos que usan la función de distribución de las
puntuaciones dado un valor de la habilidad θ, o lo que es lo mismo, si se da el nivel
de habilidad de cada uno de los individuos en la población, la función de verosimilitud
está condicionada a los valores de θj . A través de estos métodos se obtienen estimadores
condicionales de los parámetros [1] .

10.2.4. Bondad del Ajuste de los Modelos de la TRI


No existe un acuerdo generalizado en cuanto a la utilización de los estadı́sticos
de ajuste, por lo que existe una gran variedad de procedimientos estadı́sticos para la
comprobación del ajuste, si bien ninguno de ellos es totalmente satisfactorio. Ni siquiera
todos los modelos admiten los procedimientos estadı́sticos habituales para el estudio de la
bondad del ajuste, por lo que se proponen alternativamente procedimientos descriptivos
para completar o sustituir a los procedimientos estadı́sticos.

Con bastante frecuencia se utiliza el estadı́stico de Razón de Verosimilitudes, que sigue una
Chi-cuadrado como una medida de ajuste para cada ı́tem, y la suma de éstos proporciona
el estadı́stico Chi-cuadrado para el test entero.

10.2.5. Criterios para la Aplicación de la TRI


En la literatura consultada se proponen los siguientes criterios [8] para evaluar qué
modelo debe usarse:

1. Verificación de los supuestos del modelo

132
a) Unidimensionalidad

b) Igualdad de discriminación

c) Posibilidad de adivinar la respuesta correcta

2. Caracterı́sticas esperadas del modelo

3. Modelo de predicciones de los resultados reales de las pruebas.

Una breve explicación de esos criterios se brinda a continuación:

Criterio 1: Verificación de los supuestos del modelo


a. Unidimensionalidad
La unidimensionalidad se refiere al hecho de que el instrumento sólo debe medir una
capacidad latente. Esta condición se aplica a la mayorı́a de los modelos de la TRI. La
unidimensionalidad puede ser investigada a través de los valores propios en un análisis
factorial. Se concluye que el instrumento es unidimensional si al trazar los valores propios
(del más grande al menor) de la matriz de correlación entre ı́tems hay un primer factor
dominante.
Otra posibilidad de concluir la unidimensionalidad es calcular la relación entre el primer
y segundo autovalor. Si la relación es alta, es decir, arriba de un valor crı́tico la prueba es
unidimensional.
b. Igualdad de discriminación
La igualdad de discriminación puede ser verificada a través del examen de la correlación
entre el ı́tem i y el puntaje total del instrumento, es decir, con la correlación biserial
puntual, que se utiliza cuando queremos conocer la correlación existente entre dos variables,
de las cuales una ha sido medida en escala de intervalos y la otra resulta ser una variable
dicotómica. La desviación estándar debe ser pequeña si hay igual discriminación. Si los
artı́culos no son igualmente discriminantes, entonces es mejor usar el modelo 2PL o 3PL
que el modelo 1PL.
c. Posibilidad de adivinar la respuesta correcta
Una manera de examinar si se produce la adivinación es observar cómo los individuos con
habilidades bajas responden a los ı́tems más difı́ciles en la prueba. La adivinación puede
ser ignorada del modelo si los que toman la prueba con baja capacidad responden los
ı́tems más difı́ciles erróneamente. Si los de baja capacidad responden a los elementos más
difı́ciles correctamente, un parámetro de adivinar debe incluirse en el modelo, es decir, el
modelo 3PL es más apropiado que el modelo 1PL o el modelo 2PL.

Criterio 2. Caracterı́sticas esperadas del modelo


El segundo criterio, caracterı́sticas esperadas del modelo, es de interés no importando
qué modelo se utiliza. La invariancia de las estimaciones de los parámetros de habilidad
(actitudes, percepción) necesita ser examinado, lo que significa que las estimaciones de θ
no deben depender de si los ı́tems son fáciles o difı́ciles, ni de los diferentes grupos en la
muestra, es decir, grupos con bajas o altas habilidades. En otras palabras, debe existir una
correlación lineal entre estas estimaciones y esto se pudiera examinar utilizando gráficos
de dispersión.

Criterio 3. Modelo de predicciones de los resultados reales de las pruebas


El tercer criterio, referido a la predicción del modelo de los resultados reales del
cuestionario, puede ser examinado comparando las Curvas Caracterı́sticas del Ítem (CCI)
para cada ı́tem con el otro. El tercer criterio también puede examinarse utilizando gráficos
de distribuciones de puntuaciones observadas y predichas o usando pruebas Chi cuadrado.

133
10.2.6. Posibles Softwares: el Paquete ltm
En la actualidad se dispone de varios programas de ordenador entre los que se destacan:
BICAL, RASCAL, BILOG, MULTILOG. Todos estos programas ofrecen como salida
fundamental los valores estimados de los parámetros de cada ı́tem y el valor de tetha
para cada sujeto.

En este trabajo se utilizó el paquete ltm en lenguaje R [5], distribuido en forma gratuita
bajo licencia GPL (General Public License) del proyecto de software libre GNU.

El ltm permite estimar los parámetros de los modelos estadı́sticos, descritos anteriormente,
por el método de estimación de Máxima Verosimilitud Marginal. Las técnicas de estimación
asumen que los individuos son independientes entre sı́ y que los reactivos funcionan de la
misma manera para todos los individuos, es decir, no existen factores de diferenciación en
la capacidad de respuesta de los participantes en una investigación.

Los parámetros de los modelos 1PLM, 2PLM y 3PLM se obtienen con las funciones rasch(
), ltm( ) y tpm( ), respectivamente.

En el caso del modelo de Rasch, también se utiliza rasch( ), pero restringiendo en el


argumento de la función el valor del parámetro de discriminación a 1.

Para cualquiera de los cuatro modelos, con la función factor.scores( ) se accede al parámetro
de habilidad (actitud) de los individuos.

El paquete también dispone de la función plot( ) que permite graficar las curvas
caracterı́sticas de los ı́tems, las curvas de información del ı́tem y del test.

La función anova( ) permite decidir, entre dos modelos, cuál ajusta mejor los datos
experimentales, realizando el test de razón de verosimilitud (LRT). La misma función
anova( ) devuelve los valores BIC y AIC, correspondientes al Criterio de Información
Bayesiano y al Criterio de Información de Akaike, respectivamente, para seleccionar el
modelo que mejor se ajusta a los datos. En ambos casos, cuanto menor es el valor obtenido,
mejor resulta el modelo.

Debe destacarse, finalmente, que el paquete ltm es muy potente, versátil y fácil
de utilizar, brindando la posibilidad de acceder a toda la información necesaria para
determinar los niveles de habilidad (actitudes hacia el medio ambiente, percepción de
bienestar) de los individuos (usuarios).

10.3. Aplicación de la TRI al Cuestionario de


Bienestar Familiar
10.3.1. Presentación del Cuestionario y su Elaboración
En el Posgrado de Ciencias Ambientales del Instituto de Ciencias de la Benemérita
Universidad Autónoma de Puebla, se está desarrollando un proyecto de investigación que
pretende obtener información, a través de un cuestionario elaborado al efecto, sobre el
grado de bienestar familiar y colectivo de usuarios de una Unidad Habitacional Militar
de la ciudad de Puebla, Puebla. Aquı́ sólo analizaremos las preguntas concernientes al
bienestar familiar.

134
La población de esta Unidad Habitacional Militar está integrada de 384 departamentos
ocupados por Jefes, Oficiales y Tropa pertenecientes a la Secretarı́a de la Defensa Nacional,
agrupados en dos áreas: la tipo “A” con 156 departamentos y la tipo “B” con 228
departamentos.

La muestra se obtuvo por un muestreo estratificado proporcional, tomando como estrato


el área. El tamaño de la muestra es de 107 departamentos (39 en el Área “A” y 68 en el
Área “B”) calculado con un nivel de confianza del 95 % y un error de muestreo de 0 · 1 . La
encuesta se realizó a través de una entrevista individual y anónima, a una persona adulta
de cada departamento seleccionado.

10.3.2. Aplicación de la Teorı́a de Respuesta al Ítem (TRI)


a las Subescalas del Cuestionario Bienestar Familiar
y Selección de los Mejores Ítems.
Con el propósito de lograr una simplificación del cuestionario elaborado inicialmente,
seleccionando los mejores ı́tems o preguntas, se utilizan la CCI de cada subescala para el
análisis.

En la subescala de Educación Ambiental se desarrollan los criterios que se utilizan para


la aplicación de la TRI, pero en las restantes subescalas sólo se presentan las CCI
correspondientes.

No se considera la subescala agua potable dado que no es posible comprobar el criterio de


unicidad. Las respuestas de todos los usuarios a las tres preguntas P5, P6 y P7 de esta
subescala son las mismas: consideran que disponen de agua, que el agua no sirve para el
consumo humano y utilizan garrafón.

Sólo las subescalas de Educación Ambiental y Bienestar por Salud se ajustan mejor por el
modelo 1PLM; las restantes subescalas se ajuntan mejor por el modelo Rasch. Los gráficos
CCI se obtienen a partir del mejor modelo en cada caso.

En el Anexo se muestran las diferentes preguntas agrupadas por subescalas y una propuesta
de las preguntas que debieran mantenerse en el cuestionario según resultados de la TRI.

Subescala de Educación Ambiental


A continuación se desarrolla en detalle los procedimientos estadı́sticos utilizados en
cada uno de los criterios de la TRI

Criterio 1: Verificación de los supuestos del modelo

A. Unidimensionalidad

Se obtuvieron los valores y vectores de la matriz de correlaciones de las cuatro


preguntas, los que se muestran en la Tabla 1. Puede observarse que el primer factor (F1)
explica el 44 % de la variabilidad total del fenómeno, esto es el doble de lo que explica el
segundo factor (F2) y, además, puede afirmarse que las cuatro preguntas son importantes
en F1, dado que todos los coeficientes de la combinación lineal (elementos del vector propio
asociado) son altos y similares. De estos resultados puede concluirse que esta Subescala es
unidimensional.

135
Cuadro 10.1: Valores y vectores propios de la matriz de correlaciones.

Valores Propios 1.7706 0.9166 0.6764 0.6365


Proporción 0.443 0.229 0.169 0.159
Proporción Acumulada 0.443 0.672 0.841 1.000
Ítem F1 F2
P1 -0.548 0.050
P2 -0.457 0.644
P3 -0.566 -0.010
P4 -0.414 -0.764

B. Igualdad de discriminación
Como se explicó anteriormente, la igualdad de discriminación puede ser verificada a través
del examen de la correlación entre el ı́tem i y el puntaje total del instrumento, es decir,
con la correlación biserial puntual (rpbi), que se muestra en el Cuadro 10.2. El puntaje
total ha sido medido en escala de intervalos y el ı́tem es una variable dicotómica. Puede
observarse que los coeficientes de correlación biserial puntual de cada ı́tem con el puntaje
total no son iguales. Cuanto más alto es el valor de rpbi , mayor será la discriminación
del ı́tem. Ası́, en este caso, los ı́tems P1 y P3 son los que más discriminan, le sigue en
importancia el P2 y, por último, el P4. El supuesto de considerar todos los reactivos con
igual nivel de discriminación en los modelos de Rasch y 1PLM, es dudoso en este caso.

Cuadro 10.2: Coeficiente de correlación biserial puntual de cada ı́tem con el puntaje
total.

Incluı́do Excluı́do
P1 0.7630 0.4186
P2 0.6079 0.3219
P3 0.7369 0.4419
P4 0.5038 0.2750

Criterio 2. Caracterı́sticas esperadas del modelo


En la Cuadro 10.2 se presenta el parámetro estimado para cada ı́tem según el modelo de
Rasch; la tabla muestra la salida del programa ltm.
En el modelo de Rasch, el parámetro de discriminación (Dscrmn) a de todos los ı́tems es 1,
como ya habı́amos expresado. El ı́tem de menor dificultad (Dffclt) es el P4 y el de mayor
dificultad el P1. Para comprobar si el modelo se ajusta a los datos se utiliza, el método de
remuestreo Bootstrap para la Bondad de Ajuste de la prueba Chi cuadrado. El valor del
estadı́stico observado es 13 · 07, evaluado para 200 conjuntos de datos.
Se concluye que el modelo no se ajusta a los datos, dado que el valor de p es 0.28, no
rechazándose la hipótesis nula de que el modelo no se ajusta.

En el Cuadro 10.4 se presenta el parámetro estimado para cada ı́tem según el modelo
1PLM, mostrando de manera similar al caso anterior, la salida del programa ltm.

En este modelo 1PLM, el parámetro de discriminación a de todos los ı́tems es 2.0188.


De manera similar al modelo de Rasch, el ı́tem de menor dificultad es el P4 y el de mayor

136
Cuadro 10.3: Parámetro b en el modelo Rasch.

Resumen del modelo


log.Lik AIC BIC
-182.5404 373.0807 383.5806
Coeficientes
value std.err z.vals
Dffclt.P1 0.5422 0.2457 2.2068
Dffclt.P2 -2.1086 0.3184 -6.6229
Dffclt.P3 -1.4312 0.2749 -5.2065
Dffclt.P4 -2.9015 0.4025 -7.2089

Dscrmn 1.0000 NA NA

dificultad el P1. Los dos criterios de selección de modelos, el AIC y el BIC, son menores
en el modelo 1PLM que en el modelo de Rasch, lo que apunta a que el modelo 1PLM se
ajusta mejor a los datos.

Cuadro 10.4: Parámetro b en el modelo 1PLM.

Resumen del modelo


log.Lik AIC BIC
-177.5312 365.0623 378.1872
Coeficientes
value std.err z.vals
Dffclt.P1 0.3563 0.1702 2.0935
Dffclt.P2 -1.3903 0.2424 -5.7359
Dffclt.P3 -0.9583 0.1993 -4.8092
Dffclt.P4 -1.8778 0.3117 -6.0236

Dscrmn 2.0188 0.3922 5.1479

Obsérvese que a través de los modelos se obtienen resultados semejantes a lo que


mostraban los procedimientos descriptivos, reiterándose que la pregunta más importante
es P1 y la menos importante la P4.

Comparación de los modelos mediante anova( )


Se utilizó la función anova() para decidir qué modelo ajusta mejor a los datos. En el
Cuadro 10.5 muestra los resultados obtenidos al comparar los dos modelos, considerando
como hipótesis nula que aquel que mejor ajusta a los datos es el de menor número de
parámetros. Evaluando el valor de la prueba de razón de verosimilitud (LRT, por sus
siglas en ı́nglés) y el valor de p.value, se puede rechazar la hipótesis nula a favor de la
hipótesis alternativa. Se concluye que el modelo 1PLM se ajusta mejor a los datos, lo que
coincide con el análisis de los criterios AIC y BIC.
Criterio 3. Modelo de predicciones de los resultados reales de las pruebas

En el Cuadro 10.6 muestra las estimaciones del parámetro θ (Factor-Scores) para los
patrones de la respuesta observada en el modelo 1PLM.

137
Cuadro 10.5: Comparación del modelo Rasch vs 1PLM.

Tabla de Razón de Verosimilitud


AIC BIC log.Lik LRT df p.value
Rasch 373.08 383.58 -182.54
1PLM 365.06 378.19 -177.53 10.02 1 0.002

Cuadro 10.6: Factor-Scores para los patrones de Respuesta Observada.

P1 P2 P3 P4 Obs Exp z1 se.z1


1 0 0 0 0 2 3.066 -1.871 0.546
2 0 0 0 1 6 5.147 -1.317 0.514
3 0 0 1 1 6 4.511 -0.762 0.544
4 0 1 0 0 3 1.924 -1.317 0.514
5 0 1 0 1 11 10.789 -0.762 0.544
6 0 1 1 0 3 1.686 -0.762 0.544
7 0 1 1 1 31 33.980 -0.092 0.607
8 1 0 1 1 1 1.000 -0.092 0.607
9 1 1 0 1 2 2.391 -0.092 0.607
10 1 1 1 1 37 35.785 0.739 0.693

La figura 10.2, que representa la Curva Caracterı́stica del Ítem (ICC), muestra que el
ı́tem P1 está situado más a la derecha del gráfico, señalando que es de mayor grado de
dificultad y, por tanto, puede considerarse la pregunta más importante de la Subescala.
En orden de importancia quedarı́an las preguntas P3, P2 y P4.

Figura 10.2:Curva Caracterı́stica del Ítem (CCI) de la Subescala de Educación


Ambiental.

Los resultados obtenidos señalan que la Subescala de Educación Ambiental del


Cuestionario sobre el Grado de Bienestar Familiar de usuarios de una Unidad Habitacional
Militar del estado de Puebla, es capaz de medir la actitud hacia el medio ambiente de esos
usuarios, aunque se recomienda profundizar en la información que brinda el ı́tem P4 y si
es posible simplificar la Subescala eliminando esa pregunta.

138
Subescala de Bienestar por Salud
La figura 10.3 muestra la CCI de la Subescala Bienestar por Salud, que resume la
aplicación de la TRI a esa subescala.

Figura 10.3: Curva Caracterı́stica del Ítem (CCI) de la Subescala Bienestar por
Salud.

Los resultados obtenidos señalan que la Subescala de Bienestar por Salud del
Cuestionario sobre el Grado de Bienestar Familiar de usuarios de una Unidad Habitacional
Militar del estado de Puebla, es capaz de medir la percepción de esos usuarios hacia el
bienestar por salud, aunque se recomienda profundizar en la información que brinda el
ı́tem P10 y si es posible simplificar la subescala eliminando esa pregunta.

Subescala de Bienestar Espacial


La figura 10.4 muestra la CCI de la Subescala Bienestar Espacial, que resume la
aplicación de la TRI a esa subescala.

Los resultados obtenidos señalan que la Subescala de Bienestar Espacial del Cuestionario
sobre el Grado de Bienestar Familiar de usuarios de una Unidad Habitacional Militar del
estado de Puebla, es capaz de medir la percepción de esos usuarios hacia el bienestar
espacial, aunque se recomienda profundizar en la información que brindan las preguntas
P18 y P20 y si es posible simplificar la subescala eliminándolas.

Subescala de Bienestar Lumı́nico


La figura 10.5 muestra la CCI de la Subescala Bienestar Lumı́nico, que resume la
aplicación de la TRI a esa subescala.

Los resultados obtenidos señalan que la Subescala de Bienestar Lumı́nico del Cuestionario
sobre el Grado de Bienestar Familiar de usuarios de una Unidad Habitacional Militar del
estado de Puebla, es capaz de medir la percepción de esos usuarios hacia el bienestar
lumı́nico. En este caso es necesario profundizar en otros aspectos de la TRI, dado que es
posible que no deba eliminarse ninguna de la preguntas.

139
Figura 10.4: Curva Caracterı́stica del Ítem (ICC) de la Subescala Bienestar Espacial.

Figura 10.5: Curva Caracterı́stica del Ítem (ICC) de la Subescala Bienestar


Lumı́nico.

Subescala de Bienestar Acústico


La figura 10.6 muestra la CCI de la Subescala Bienestar Acústico, que resume la
aplicación de la TRI a esa subescala. Los resultados obtenidos señalan que la Subescala
de Bienestar Acústico del Cuestionario sobre el Grado de Bienestar Familiar de usuarios
de una Unidad Habitacional Militar del estado de Puebla, es capaz de medir la percepción
de esos usuarios hacia el bienestar acústico aunque se recomienda profundizar en la
información que brindan las preguntas 27 , 28 y si es posible simplificar la subescala
eliminando esas preguntas.

Subescala de Bienestar Térmico


La figura 10.7 muestra la CCI de la Subescala bienestar Térmico, que resume la
aplicación de la TRI a esa subescala. Obsérvese que, aunque los resultados obtenidos
señalan que la Subescala de Bienestar Térmico del Cuestionario sobre el Grado de Bienestar
Familiar de usuarios de una Unidad Habitacional Militar del estado de Puebla, es capaz de
medir la percepción de esos usuarios hacia el bienestar térmico, es necesario profundizar
en la información que brindan las preguntas de esta subescala; es posible simplificar la

140
Figura 10.6: Curva Caracterı́stica del Ítem (ICC) de la Subescala Bienestar
Acústico.

Figura 10.7: Curva Caracterı́stica del Ítem (ICC) de la Subescala Bienestar Térmico.

subescala eliminando preguntas P31, P32 y P33.

Subescala de Bienestar Visual


La figura 10.8 muestra la CCI de la Subescala Bienestar Visual, que resume la
aplicación de la TRI a esa subescala. Los resultados obtenidos señalan que la Subescala
de Bienestar Visual del Cuestionario sobre el Grado de Bienestar Familiar de usuarios de
una Unidad Habitacional Militar del estado de Puebla, es capaz de medir la percepción de
esos usuarios hacia el bienestar visual, aunque se recomienda profundizar en la información
que brinda el ı́tem P36 y si es posible simplificar la subescala eliminando esa pregunta.
También las preguntas P38, P42 y P44 son candidatas a ser eliminadas.

10.4. Conclusiones
El bienestar familiar es un constructo multidimensional y dinámico, para el cual no
existe, en la actualidad, una definición universalmente aceptada. Sin embargo, puede

141
Figura 10.8: Curva Caracterı́stica del Ítem (ICC) de la Subescala Bienestar Visual.

aceptarse que se trata de un constructo cuya medida requiere de una evaluación subjetiva
de los miembros de las familias.

El cuestionario BIENESTAR FAMILIAR es un cuestionario especı́fico diseñado para


evaluar la percepción del bienestar hacia algunos aspectos de la vivienda que habitan
y la educación ambiental de los usuarios de una Unidad Habitacional Militar en Puebla,
integrada de 384 departamentos ocupados por Jefes, Oficiales y Tropa pertenecientes a la
Secretarı́a de la Defensa Nacional.

El cálculo de las funciones de probabilidad basadas en el modelo logı́stico de la TRI de un


parámetro permite, evaluando las diferencias entre las funciones de respuesta categóricas
acumuladas, representar las curvas de respuesta individuales y ası́ identificar las categorı́as
de cada ı́tem con baja probabilidad de ser elegidas, y por tanto, candidatas a ser eliminadas.

Se han dado los primeros pasos para una versión abreviada del Cuestionario de Bienestar
Familiar, que se elaboró inicialmente con 45 ı́tems y que puede ser reducido a la mitad o
la tercera parte de los mismos. Estudios posteriores permitirán evaluar la validez factorial
y la fiabilidad de la versión reducida del cuestionario, lo cual supondrá un importante
ahorro en el tiempo, tanto para los arquitectos y constructores de viviendas como para los
usuarios de esas Unidades Habitacionales.

Referencias
1. Andersen, E.B. A goodness of fit test for the Rasch model. Psychometrika.38. pp:
123-140, 1973.
2. Berejnoi, C. y Barros, M. A. Comparación de diferentes modelos de la Teorı́a
de Respuesta al Ítem en: Cuadernos de la Facultad de Ingenierı́a. EDITORIAL
EUCASA. Año 8 / número 8 / noviembre. Salta Argentina, 2014.
3. Goldstein, H. Dimensionality, bias, independence and measurement scale problems
in latent trait test score models. British Journal of Mathematical and Statistical
Psychology. 33. pp: 234-246, 1980.
4. R. Core Team, R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Austria, 2013.

142
5. Rizopoulos, D., ltm: An R package for Latent Variable Modelling and Item Response
Theory Analyses, Journal of Statistical Software, 17 (5), pp:1-25, 2006.
6. Rizopoulos, D., Latent Trait Models under IRT ltm Package, Versión 1.0-0, 2013.
7. Thorpe, Geoffrey L. and Favia, Andrej, ”Data Analysis Using Item Response Theory
Methodology: An Introduction to Selected Programs and Applications.”Psychology
Faculty Scholarship. Paper 20, 2012.
8. Wiberg, M. Classical Test Theory vs. Item Response Theory An evaluation of the
theory test in the Swedish driving-license test. EM No 50, UMEA UNIVERSITET,
2004.

143
10.5. Anexo: Cuestionario de Bienestar Familiar
(Se sugiere mantener las preguntas marcadas con asterı́sticos)

Pregunta Item Descripción (Subescala Educación Ambiental Valoración (según TRI)


P1 1 Se preocupa por la protección al ambiente **
P2 2 Recicla el agua
P3 3 Ahorra energía electrica *
P4 4 Separa la basura

Pregunta Ítem Descripción (Subescala Disposición de Agua Potable ) Valoración (según TRI)
P5 1 Disponibilidad por Servicio Municipal
P6 2 Fuente de consumo humano Servicio Municipal
P7 3 Consumo Humano Garrafón
P8 4 Lavado de Tinacos frecuente
P9 5 Calidad del agua

Pregunta Ítem Descripción (Subescala Bienestar Salud) Valoración (según TRI)


P10 1 Enfermedad respiratoria en el último año
P11 2 Enfermedad relacionada con el departamento
P12 3 Causa de las enfermedades se debe al departamento
P13 4 Condiciones adversas mantenimiento causa enfermedad
P14 5 Alergia en el último año
P15 6 Alergia se debe a condiciones del departamento *
P16 7 Condiciones del departamento son casusa de la alergia **
P17 8 Condiciones adversas de mantenimiento causa de alergia *

Pregunta Item Descripción (Subescala Bienestar Espacial) Valoración ((según TRI)


P18 1 Adecuada distribución espacial
P19 2 Tamaños adecuados de las áreas del departamento **
P20 3 Número de personas adecuadas para habitar el depart.

Pregunta Ítem Descripción (Subescala Bienestar Lumínico) Valoración (según TRI)


P21 1 Adecuada dimensión de las ventanas *
P22 2 Adecuada iluminación natural en las recámaras **
P23 3 Adecuada iluminación natural en los baños *
P24 4 Adecuada iluminación natural en sala, comedor y cocina *

Preguntas Ítem Descripción (Subescala Bienestar Acústico) Valoración (según TRI)


P25 1 Ruido excesivo dentro del departamento
P26 2 Ruido por fuentes externas al departamento **
P27 3 Percepción de que los materiales aíslan el ruido
P28 4 Adecuada orientación de las ventanas
P29 5 Dpto menos ruidoso es más cómodo *

Pregunta Item Descripción (Subescala Bienestar Térmico) Valoración (según TRI)


P30 1 Sintió frío en primavera
P31 2 Sintió frío en verano
P32 3 Sintió frío en otoño
P33 4 Sintió frío en invierno
P34 5 Materiales influyen en la temperatura interior *
P35 6 Entra suficiente energía calorífica por las ventanas **

Pregunta Item Descripción (Subescala Bienestar Visual) Valoración (según TRI)


P36 1 Gusta fachadas exteriores de los edificios
P37 2 Cambios en la arquitectura *
P38 3 Gusta el interior de los edificios
P39 4 Cambiar la arquitectura delos edificios
P40 5 Gusta pisos del interior de los edificios
P41 6 Cambiar pisos de los departamentos
P42 7 Gusta muros y plafón del interior de los departamentos
P43 8 Cambiar muros y plafón de los departamentos
P44 9 Gusta carpintería del interior de los departamentos
P45 10 Cambiar carpintería interior de los departamentos **

144
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 11

Satisfacción Estudiantil: Análisis a través de Modelos de


Ecuaciones Estructurales

Ramón Alvarez-Vaz, Elena Vernazza-Mañan


Instituto de Estadı́stica,
Facultad de Ciencias Económicas y de Administración,
Universidad de la República,
Eduardo Acevedo 1139, CP.11200, Montevideo, Uruguay.
[email protected], [email protected]

Resumen. En este trabajo se estudian las principales caracterı́sticas de la construcción


de la satisfacción estudiantil, en los cursos de grado de la Facultad de Ciencias Económicas
y de Administración, Universidad de la República, Uruguay, realizando un análisis a partir
de la utilización de Modelos de Ecuaciones Estructurales.
El modelo utilizado para caracterizar la satisfacción estudiantil considera relaciones
de causa-efecto entre algunas variables que son consideradas como “antecedentes” y otras
como “consecuencias” de la satisfacción. El primer subconjunto de variables considera las
expectativas de los estudiantes al ingresar al centro de estudios, la imagen que tienen de
éste, la calidad de la enseñanza recibida y de los servicios brindados y el valor percibido,
mientras que como ”consecuencias”de la satisfacción se encuentran la lealtad hacia la
institución y el impacto en el boca a boca.
Los datos utilizados para la aplicación presentada en este trabajo provienen de una
encuesta (cuestionario) aplicada sobre una muestra de estudiantes de grado de la Facultad,
en el año 2009. Dicho cuestionario, presenta una estructura de 9 bloques de preguntas; el
primero contiene las variables que permitirán realizar una caracterización sociodemográfica
de los estudiantes. Por otra parte, se presentan las variables del modelo ECSI (European
Customer Satisfaction Index) que serán las utilizadas como insumos para la caracterización
de la satisfacción estudiantil.
Los resultados presentados surgen de un modelo con 22 variables observables y 7
constructos no observables, estimado por mı́nimos cuadrados parciales.
Abstract. The purpose of this paper is to examine the principal characteristics of the
students satisfacition construct, in higher education at Facultad de Ciencias Económicas
y de Administración (FCEA), UdelaR (Uruguay), by Structural Equation Modelling.

145
The indicator proposed to measure students satisfaction considers cause-effect
relationship between a set of variables considered as “background” and another set
of variables considered as a “consequences” of satisfaction. In the first set we find
studentséxpectations, their image of the FCEA, the quality of teaching and services, and
their perceived value, while within satisfaction “consequences” we find students’loyalty to
the institution and the impact on the word-of-mouth.
The data used in this application come from a survey conducted on a random sample
of students of the FCEA in 2009. The questionnaire applied, has 9 sets of questions; the
first contains the variables that allow us to make a profile of the students according to their
sociodemographic environment. On the other hand, the ECSI model variables (European
Customer Satisfaction Index) which will be used as inputs for the student’s satisfaction
characterization.
The results, presented for a model with 22 observable variables and 7 unobservable
constructs were obtained by Partial Least Squares estimation.

Palabras clave: Satisfacción Estudiantil, Modelos de Ecuaciones Estructurales,


Mı́nimos Cuadrados Parciales.

11.1. Introducción
Conocer el nivel de satisfacción de los clientes, con un determinado servicio que se está
brindando, resulta fundamental al tomar decisiones orientadas a mantener o mejorar, en
caso de que sea necesario, aquellos aspectos que se entiende determinan la construcción
de la satisfacción. Resulta necesario, por lo tanto, contar con un mecanismo que mida de
forma objetiva, y sin ambiguedades, este concepto.

Vinculando esta idea con la educación universitaria, en este trabajo se considera a los
estudiantes universitarios de los cursos superiores de la Facultad de Ciencias Económicas
y Administración, Universidad de la República, Uruguay (FCEA) como “clientes” y se
entiende que el “servicio” que se les brinda es el de la educación a nivel terciario.

En este sentido, lograr caracterizar y medir la satisfacción de los estudiantes con


respecto a la FCEA, permitirá identificar aspectos tanto positivos como negativos, siendo
estos últimos fundamentales a la hora de determinar estrategias de mejora de la educación
en dicho centro de estudios.

La información necesaria para poder evaluar y entender por un lado, qué conceptos
se asocian a la satisfacción y por otro, cómo se establecen la interrelaciones entre estos
conceptos, se obtiene a través de la aplicación de un cuestionario que presenta la estructura
del modelo ECSI (European Customer Satisfaction Index); sobre este instrumento y a
partir de la utilización de los Modelos de Ecuaciones Estructurales se logra caracterizar la
construcción de la satisfacción.

El presente trabajo se estructura de la siguiente manera: en primera instancia se


presenta y describe brevemente la metodologı́a utilizada, a continuación se exponen los
principales resultados obtenidos y, por último, las principales conclusiones.

146
11.2. Metodologı́a
11.2.1. Modelos de Ecuaciones Estructurales
Este tipo de modelos pueden ser vistos, fundamentalmente, de dos maneras. Por
un lado, pueden ser enmarcados en el ámbito de los modelos de regresión, con ciertas
particularidades que los diferencian de los modelos de regresión clásicos y, por otro, pueden
ser vistos como una técnica de análisis factorial que permite establecer relaciones entre los
factores.

De modo simplificado, podrı́a entenderse que en los modelos de ecuaciones estructurales


se presentan relaciones causales entre, por un lado, un conjunto de variables observables
y por otro, variables tanto observables como no observables.
Esto da lugar a dos submodelos: modelo estructural y modelo de medida, respectivamente

Especificación
Modelo Estructural
El modelo estructural es el submodelo, dentro de los Modelos de Ecuaciones
Estructurales (MES), que captura las relaciones existentes entre las variables no
observables, también denominadas variables latentes, constructos o factores.1

En formato matricial [5], podemos representar estos modelos de la siguiente manera:

βη = Γξ + ζ ⇒ η = Bη + Γξ + ζ (11.1)

donde, considerando un modelo con m variables latentes endógenas y k variables


latentes exógenas, se tiene:
β (beta) matriz, de dimensión (m, m), de pesos β que determinan la relación entre
dos variables latentes endógenas.
η (eta) vector, de dimensión (m, 1), de variables latentes endógenas.
Γ (gamma) matriz, de dimensión (m, k), de pesos γ que determinan la relación entre
una variable endógena y una exógena, ambas latentes.
ξ (xi) vector, de dimensión (k, 1), de variables latentes exógenas.
ζ (zeta) vector, de dimensión (m, 1), de términos de error/perturbación.
También forman parte de este modelo, las matrices Φ (phi) y Ψ (psi), que representan la
matriz de correlaciones entre las variables latentes exógenas (ξ) y la matriz de correlaciones
entre los errores de las variables latentes endógenas (ζ), respectivamente.

Modelo de Medida
En el modelo de medida se establecen las relaciones que existen entre los factores y
las variables observables. Se presentan, por separado, las relaciones entre las variables
exógenas y las endógenas, lo que determina dos submodelos. La expresión matricial para
el modelo de medida, para las variables exógenas, queda determinado por:

X = Λx ξ + δ (11.2)
1 De aquı́ en adelante, utilizaremos cualquiera de estos términos indistintamente

147
donde, considerando un modelo con k variables latentes y q variables observables, se
tiene:
X vector, de dimensión (q, 1), de variables observables.
Λx (lambda) matriz, de dimensión (q, k), de pesos λ que determinan la relación entre
cada x y cada ξ.
ξ (xi) vector, de dimensión (k, 1), de variables latentes exógenas.
δ (delta) vector, de dimensión (q, 1), de términos de error/perturbación.
La matriz Θδ también forma parte de este submodelo. Ésta es la matriz de covarianzas
entre los errores de las variables exógenas observadas (δ). Los errores δ se suponen
incorrelacionados, por lo que la matriz Θδ resulta una matriz diagonal.
Para las variables endógenas, la expresión matricial resulta análoga.

Identificación y Estimación
Una vez especificado el modelo, y previo a realizar las estimaciones de los parámetros,
es necesario determinar si dichas estimaciones serán únicas, es decir, si el modelo está
identificado.
Para esto, en este trabajo, se utilizará la denominada “regla de conteo”, que establece
que para que el modelo esté identificado es necesario que la cantidad de parámetros a
estimar sea menor que la cantidad de elementos no redundantes de la matriz de varianzas
y covarianzas de las variables involucradas en el modelo (grados de libertad del modelo
positivos) [3].

Una vez confirmado que el modelo está identificado, se procede a la estimación del
modelo que implica obtener una estimación puntual para cada uno de los parámetros
involucrados en los submodelos de medida y estructural. Existen varios métodos de
estimación, entre los que se destacan: Máxima verosimilitud (MV), Mı́nimos cuadrados
generalizados (MCG) y Mı́nimos cuadrados parciales (MCP).

En este trabajo se presentan los resultado de estimar con el método de MCP.

Mı́nimos cuadrados parciales


El método a presentar es el de mı́nimos cuadrados parciales (PLS - MCP). La principal
ventaja de este método es que, al igual que los MCG, éste no presenta restricciones
distribucionales.
Retomando la notación tı́pica de los modelos de ecuaciones estructurales, y tratando de
vincularla con la terminologı́a propia de los PLS, se establecen las siguientes ecuaciones,
con sus correspondientes parámetros a estimar:
Modelo estructural (Inner Model ): Los parámetros a estimar son los β 0 s y γ 0 s,
también denominados path coefficients, de la ecuación βη = Γξ + ζ.
Modelo de medida (Outer Model ): Los parámetros a estimar son los denominados
loadings λ de las ecuaciones:
• X = Λx ξ + δ
• Y = Λy η + .
Otro elemento importante que se incorpora al considerar este método de estimación, es
el hecho de que las variables latentes, justamente por su condición de no observables, deben
ser presentadas/especificadas de forma tal que resulte posible introducirlas como variables

148
a explicar o explicadas tanto en el modelo de medida como en el modelo estructural. Es
para esto que se introduce la idea de score y outer weights que determinan que las variables
latentes son estimadas a través de una combinación lineal de las variables observadas con
las que se vincula, tal como se presenta en las siguientes ecuaciones:
X
ηˆj = wjk Yjk (11.3)
k
X
ξˆl = wlm Xlm (11.4)
m

donde las denominaciones score y outer weights hacen referencia a ηˆj y ξˆl , y w
respectivamente.
Siguiendo lo propuesto por Sanchez [6], una vez definidos todos estos elementos, se puede
decir que el procedimiento de estimar un modelo por mı́nimos cuadrados parciales consiste
fundamentalmente en:
Obtener los pesos que permitan determinar ηˆj y ξˆl .
Estimar todos los elementos de β y Γ.
Obtener los λ del los dos submodelos que determinan el modelo de medida.
El primer paso consiste en determinar los w, lo cual se logra implementando el siguiente
proceso iterativo:
1. Se determinan valores arbitrarios para w, por lo general se inicia con w = 1.
2. Se realiza una aproximación “externa” para las variables latentes.
3. Se obtienen nuevos pesos.
4. Se realiza una aproximación “interna” para las variables latentes.
5. Se calculan nuevos valores para w.
Se repiten los pasos 2 a 5, hasta lograr convergencia.

A continuación se presenta en detalle cada uno de estos pasos. De manera de simplificar


la notación, de acá en adelante, en esta subsección no se diferenciarán las variables
endógenas y exógenas. Las variables latentes se denotarán como V L y las observadas
como V O, sin importar su naturaleza.

El primer paso establece que, partiendo de w̃ = 1, se obtendrá una estimación de las


variables latentes a partir de combinar linealmente las variables observadas con las que se
relaciona, lo cual puede ser representado en formato matricial como:

V
d Lk = V Ok w˜k

.
En el paso siguiente se consideran las relaciones entre las variables latentes (por ejemplo
V Li y V Lj ) y en función de éstas se generan nuevos pesos, por ejemplo, eij . Esta nueva
estimación quedará determinada de la siguiente manera:
∗ X
V
d Lj = eij V
d Li (11.5)
i

donde V Li son todas las variables latentes con las que se relaciona la variable latente
V Lj .
Tal como establece Sanchez [6] existen tres posibles esquemas para determinar los pesos
eij :

149
Centroide: Considera únicamente el sentido de la correlación entre las variables
latentes, es decir: eij = signo(cor(V
d Li , V
d Lj )) si V Li y V Lj se comunican, y 0 en
otro caso.
Factorial: Considera, además del signo, la magnitud de la correlación. En función de
esto, los pesos eij se definen como: eij = cor(V
d Li , V
d Lj ) si V Li y V Lj se comunican,
y 0 en otro caso.
De senderos: Considerar la relación que existe entre las variables latentes,
diferenciando a las variables en dependientes e independientes, según corresponda.
Si la variable V Li causa a la variable V Lj , entonces los pesos eij se corresponderán
con los coeficientes de regresión que se obtienen al regresar V Lj sobre las V Li que
la causan. Si la relación de causalidad es la opuesta, es decir, V Lj causa a V Li , este
esquema coincide con el esquema factorial.

Una vez que se obtienen los pesos eij , se procede a obtener la estimación “interna” de
las variables latentes, que consiste en sustituir los pesos obtenidos, en el paso anterior, en
la ecuación (5).
Por último se calculan los pesos w, considerando que la variable latente V Lj satura en las
variables observadas Xj1 , Xj2 ...Xjk , siguiendo el siguiente criterio:

∗ ∗ ∗
w̃jk = ((V
d Lj 0 )(V
d Lj ))−1 (V
d Lj )0 Xjk

.
Estos pasos se repiten hasta lograr convergencia la cual, por lo general, se determina en
función de la diferencia que existe en el valor de w en el paso S en relación al paso S − 1.
Sanchez propone establecer como criterio de convergencia |wjk S−1 S
− wjk | < 10−5 .

Al finalizar este proceso iterativo, se pasa a las siguientes etapas que consisten en estimar
los β 0 s, γ 0 s y λ0 s que forman parte tanto del modelo estructural, como del de medida.

Las estimaciones de β se obtienen por mı́nimos cuadrados ordinarios (MCO), tal como
se establece a continuación:
0
β̂ji = ((V
d Li )(V
d Li ))−1 (V
d L i )0 (V
d Lj )

. Los γ̂ se estiman de manera análoga.


Por último, los λ0 s se estiman como la correlación entre la variable latente y las indicadoras
con las que se relaciona, es decir:

λ̂jk = cor(Xjk , V
d Lj )

11.3. Resultados
Previa presentación de los principales resultados obtenidos, se exponen en forma
resumida, los datos utilizados para la aplicación (diseño muestral empleado y cuestionario
utilizado).

150
11.3.1. Diseño Muestral
La aplicación que se presentará en este trabajo fue realizada sobre los datos obtenidos
mediante la aplicación de un cuestionario sobre una muestra probabilı́stica a estudiantes
de los cursos superiores de la FCEA, en el año 2009.

La muestra fue seleccionada en base a un marco muestral que se construyó a partir


de las inscripciones a cursos de FCEA en 2009. El diseño muestral usado fue estratificado
por conglomerados en 2 etapas y presentó las siguientes caracterı́sticas: en una primera
instancia se formaron 6 estratos (en base a una clasificación desarrollada en conjunto por
investigadores de la cátedra de Metodologı́a de Investigación y del Instituto de Estadı́stica,
FCEA - UdelaR (IESTA)) que corresponden aproximadamente a cada uno de los 5 años en
los en los que podı́a estar cada estudiante en el 2009. Adicionalmente, se propone un 6to
estrato correspondiente a un grupo reducido de materias que corresponden únicamente a
la Licenciatura en Administración. Una vez conformados los estratos, se determina que la
muestra total se repartirá en forma proporcional a la matrı́cula de cada estrato.
Al tener definidas las unidades de muestreo, se selecciona la muestra, en función de las
siguientes etapas:
1. Sorteo de grupos prácticos de cada materia en cada estrato con probabilidad
proporcional a la matrı́cula de cada grupo(conglomerado).
2. Selección (muestreo aleatorio simple) de la misma cantidad de estudiantes en cada
grupo seleccionado en la primera etapa. La cantidad de estudiantes de cada grupo
es la misma en los 6 estratos.
La muestra finalmente queda conformada por estudiantes que provienen de 60 grupos
prácticos (repartidos en forma proporcional en los 6 estratos). Se sortean 12 estudiantes
por grupo, lo que determina un tamaño de muestra de 720 estudiantes.

A continuación (ver el cuadro 1) se muestra como quedan repartidos los 60 grupos


prácticos en los 6 estratos.

Estrato 1 2 3 4 5 6 Total
# grupos prácticos 21 15 9 9 4 2 60

Cuadro 11.1: Cantidad de grupos prácticos por estrato.

Con la muestra seleccionada, se realiza el relevamiento de los datos el cual culminó con
647 encuestas realizada, que determina una tasa de cobertura de la muestra de 90 % (647
en 720).

11.3.2. Cuestionario Utilizado


El cuestionario, aplicado sobre la muestra seleccionada, a partir del cual se obtuvieron
los datos que resultan el insumo fundamental para el trabajo aquı́ presentado, resulta
de una adaptación del cuestionario utilizado por los investigadores Alves y Raposo de la
Universidad de Beira Interior (Portugal). Éste presenta la siguiente estructura: un primer
bloque, claramente diferenciado de los demás, que contiene algunas variables de carácter
sociodemográfico, como sexo, edad y algunas otras variables que caracterizan al estudiante
dentro del ámbito de la facultad, como año de ingreso, año y cantidad de materias en curso,
entre otras. Los restantes 8 bloques de preguntas (presentados como bloque A hasta bloque

151
H) presentan todos la misma estructura, se plantea una pregunta general que determina
la esencia del bloque y a partir de ella, se establecen una serie de afirmaciones sobre las
cuales el estudiante deberá expresar su posición, utilizando una escala Likert que toma
valores en el intervalo [1 - 10], donde 1 indicará la mayor discrepancia con lo planteado en
la pregunta y 10 el mayor acuerdo.

Los bloques A a H presentan las siguientes caracterı́sticas:


Bloque A - Contiene 12 afirmaciones referentes a las expectativas de los estudiantes,
previo ingreso a facultad.
Bloque B - Consta de 6 afirmaciones vinculadas a la imagen que tienen los
estudiantes sobre la facultad.
Bloque C - Conformado por 9 afirmaciones asociadas a la calidad del servicio que
brinda la facultad.
Bloque D - Contiene 9 afirmaciones asociadas a la calidad de los servicios que brinda
la facultad con respecto a la biblioteca, bedelı́a y cafeterı́a, entre otros.
Bloque E - Conformado por las mismas 9 afirmaciones que el bloque C, pero
asociadas a necesidades/deseos actuales
Bloque F - Presenta 7 afirmaciones que indagan sobre el valor percibido.
Bloque G - Contiene 6 afirmaciones que refieren a la satisfacción de los estudiantes
con la facultad.
Bloque H - Conformado por 5 preguntas que pueden dividirse en 2 subgrupos, las
3 primeras referentes a la lealtad de los estudiantes con la facultad, y las 2 últimas
asociadas al boca a boca que se genera entre los estudiantes.
En este trabajo los bloques D y E no serán considerados y se presentarán resultados para
un modelo con 22 de las 45 variables restantes.
Todas las preguntas del formulario se presentan en el Anexo.

Por último, para la estimación de los modelos en este trabajo solamente se presentan
en detalle los resultados al estimar por MCP.

Los aspectos computacionales de la aplicación presentada en este trabajo fueron


realizados con el software libre R - project [4]. Se utilizaron, en particular, las librerı́as
[6] y [1], [2].

A continuación se presentan los resultados obtenidos para un modelo cuyo componente


estructural propone 15 relaciones entre 7 constructos no observables, mientras que el
submodelo de medida relaciona estos 7 constructos con 22 variables observadas.

11.3.3. Modelo Estructural


El modelo estructural a ser estimado propone las siguiente relaciones causales:
La imagen repercute directamente sobre los restantes 6 constructos (expectativas,
calidad, valor percibido, satisfacción, lealtad y boca a boca).
Las expectativas determinan la percepción sobre la calidad, el valor percibido y la
satisfacción.
En función de la calidad del servicio recibido, se determinan tanto el valor percibido
como la satisfacción.

152
A partir del valor percibido se construye la satisfacción y el boca a boca.
La satisfacción influye únicamente sobre la lealtad y ésta a su vez, determina el boca
a boca.
Este modelo es estimado por mı́nimos cuadrados parciales. En el cuadro 2 se exponen
las estimaciones puntuales (Original) para cada uno de los β 0 s y γ 0 s presentes en el mo-
delo. Para ser validadas, estas estimaciones serán comparadas contra las obtenidas para
100 muestras bootstrap, reportando la media muestral, el error estándar, y los cuantiles
empı́ricos para cada parámetro.

Relación Original x̄.Boot E.E. q(0.025) q(0.975)


I→E 0.61 0.62 0.04 0.55 0.68
I→C 0.53 0.53 0.03 0.46 0.59
I→V 0.42 0.41 0.05 0.32 0.52
I→S 0.23 0.22 0.04 0.15 0.31
I→L 0.16 0.15 0.05 0.06 0.25
I → BB 0.23 0.23 0.04 0.13 0.32
E→C 0.40 0.40 0.04 0.34 0.47
E→V 0.08 0.08 0.05 -0.02 0.18
E→S -0.00 -0.01 0.04 -0.09 0.07
C→V 0.31 0.32 0.06 0.22 0.43
C→S 0.30 0.30 0.06 0.19 0.41
V→S 0.39 0.39 0.04 0.32 0.47
V → BB 0.30 0.30 0.05 0.21 0.39
S→L 0.62 0.63 0.04 0.54 0.70
L → BB 0.38 0.38 0.04 0.28 0.47

Cuadro 11.2: Modelo estructural - Estimaciones.

A partir de los resultados presentados en el cuadro 2 se concluye que de las 15 relaciones


propuestas en el modelo estructural, hay 2 que no se confirman. Éstas refieren a la influencia
que tienen las expectativas sobre la construcción de los conceptos de valor percibido (E →
V) y de satisfacción (E → S).

Otra medida que resulta de interés al momento de evaluar el modelo estructural es la


proporción de varianza de cada variable latente que logra ser explicada por las variables,
también latentes, que la causan directamente. Esta proporción queda determinada a partir
del coeficiente de determinación R2 .

Variable R2
E 0.38
C 0.69
S 0.67
VP 0.56
L 0.55
BB 0.63

Cuadro 11.3: R2 para el modelo estructural.

153
A partir del cuadro 3 puede concluirse que calidad (C) es el constructo que mejor
queda explicado por las variables que lo preceden, las que logran explicar un 69 % de la
variabilidad total del constructo. En segundo lugar se encuentra aquella variable que refleja
el grado de satisfacción (S) de los estudiantes, el 67 % de la varianza total de este constructo
queda explicado por las variables expectativas, calidad, valor percibido e imagen (E, C, VP,
I). En el otro extremo, se encuentran las expectativas (E), las cuales se entiende quedan
determinadas por la imagen (I) que tienen los estudiantes sobre la facultad, sin embargo
ésta parece no resultar suficiente, ya que sólo logra captar un 38 % de la variabilidad total.

Además del análisis de los efectos directos que tiene una variable latente sobre otra
u otras, se pueden analizar las relaciones indirectas que se generan dentro del modelo
estructural (ver figura 1).

Figura 1. Modelo estructural - Efectos directos e indirectos.

11.3.4. Modelo de Medida

En lo que refiere, al modelo de medida estimado por mı́nimos cuadrados parciales, éste
puede verse gráfica y numéricamente en la figura 2 y cuadro 4, respectivamente.

154
Figura 2. Modelo de medida - Estimado.

155
V.Obs V.Lat. λ Comunalidad
eexp2 bprep E 0.88 0.77
eexp3 ccdoc E 0.83 0.69
eexp6 ccur E 0.87 0.76
eim1 bpest I 0.88 0.77
eim2 innov I 0.84 0.71
eim4 buprep I 0.87 0.76
ely1 veleg L 0.91 0.83
ely2 pgele L 0.89 0.80
ely4 orgu BB 0.90 0.82
ely5 suge BB 0.93 0.87
epa1 help V 0.85 0.72
epa2 AAA V 0.86 0.75
epa3 pubnv V 0.85 0.73
epa5 empl V 0.83 0.69
eqt1 calgl C 0.87 0.76
eqt2 ccdoc C 0.82 0.67
eqt4 aacad C 0.80 0.63
eqt5 ccur C 0.87 0.75
es1 sat S 0.92 0.86
es2 ajexp S 0.91 0.83
es3 atiend S 0.88 0.78
es6 happy S 0.86 0.73

Cuadro 11.4: Modelo de medida - Estimado.

Al observar las estimaciones obtenidas para cada uno los λ0 s presentes en el submodelo
de medida, lo primero que cabe destacar es que, tal como puede verse en el cuadro 4, los
parámetros estimados resultan todos mayores a 0.7 (valor mı́nimo aceptado para validar
estas estimaciones).

Por otra parte, se debe recordar que este modelo se encuentra en el ámbito del análisis
factorial donde el concepto de comunalidad resulta fundamental. Este concepto refiere a
la proporción de varianza original de cada variable observada, que queda explicada por el
factor que satura sobre ella.

En el cuadro 4 se observa que para el bloque que contiene las variables referentes a las
expectativas (E) que tienen los estudiantes sobre la facultad, se tiene que el factor común
logra explicar más del 69 % de la varianza original de cada una de las 3 variables.

En cuanto a las variables que determinan la imagen (I) que tienen los estudiantes de
la FCEA sobre ésta, puede verse que las comunalidades toman valores entre 0.71 y 0.77.
La variable que mejor queda explicada por el constructo imagen es aquella que refiere a la
visión general que tienen los estudiantes sobre la Universidad, como lugar donde estudiar
(eim1 bpest).

Al considerar las variables que conforman el bloque referente a la evaluación que hacen
los estudiantes sobre la calidad (C) del servicio brindado por la facultad se muestra que
la variable observada que mejor queda explicada por la variable latente calidad es la que
refiere a la calidad global de enseñanza (eqt1 calgl), ya que el 76 % de su varianza original

156
es captada por el constructo. En el otro extremo, se encuentra la afirmación que hace
referencia al ambiente académico (eqt4 aacad), donde el factor logra explicar el 63 % de la
varianza original.

En lo que refiere al bloque de preguntas especı́ficas sobre satisfacción (S), puede verse
que este constructo logra captar una cantidad importante (entre un 73 % y un 86 %) de la
varianza original de las variables observadas que lo conforman.

Considerando aquellas variables que son entendidas como causantes de la satisfacción,


sólo resta presentar el bloque de preguntas que refiere al valor percibido (VP). Tal
como puede verse en el cuadro 4, las cuatro variables observadas, aquı́ consideradas, que
conforman el constructo valor percibido quedan bien explicadas por éste (comunalidad
mayor a 0.68).

En cuanto a las variables consideradas como consecuencias de la satisfacción, en el


cuadro 4, se presentan aquellas que conforman el constructo lealtad (L), donde se ve que
la variable que mejor queda explicada por éste es “Si tuviera que decidir nuevamente,
volverı́a a elegir esta facultad” (ely1 veleg).

Por último, puede verse que la varianza de aquellas variables que forman el constructo
boca a boca (BB) resulta captada en gran proporción por este factor, sobre todo para la
variable “Recomendarı́a esta facultad a un amigo” (ely5 suge).

11.4. Conclusiones
En cuanto al objetivo principal de este trabajo, éste apuntaba fundamentalmente
al estudio de la construcción de la satisfacción estudiantil para los cursos de educación
superior de la FCEA, a partir de la modelización de ésta a través de la aplicación de
modelos de ecuaciones estructurales.

En lo que refiere al modelo estructural, el objetivo perseguido al plantearlo era ver si


determinadas relaciones, tomadas en particular del Modelo ECSI, se confirmaban para el
caso de la FCEA. De esto surgen conclusiones que apuntan, a la comparación directa con
ese modelo, las cuales establecen que existen diferencias en cómo se elabora el constructo
satisfacción ya que de las 15 relaciones propuestas, hay 2 que para el caso de la FCEA no
se confirman.
Éstas refieren a la influencia que tienen las expectativas sobre la construcción de los
conceptos de valor percibido y de satisfacción (E→V, E→S).

En cuanto a las relaciones que sı́ se confirman y que por lo tanto determinan la
construcción de la satisfacción para el caso particular de la FCEA se concluye que:
La imagen que tienen los estudiantes sobre la FCEA, repercute directamente sobre
las expectativas, la percepción de la calidad del servicio educativo que reciben y el
valor percibido sobre éste.
La percepción de la calidad del servicio recibido queda determinado directamente
por las expectativas.
La satisfacción queda determinada directamente en función de la percepción de la
calidad del servicio educativo y por el valor percibido sobre éste.
El grado de satisfacción repercute directamente sobre la lealtad de los estudiantes
con la FCEA.

157
Referencias

1. Fox, J.,Structural Equation Modeling With the Package in R, STRUCTURAL


EQUATION MODELING 13(3), 465-486, 2006.

2. Fox, J.; Nie, Z., Byrnes, J., sem: Structural Equation Models, R package versión
3.1-1, 2013.

3. Kline, R., Principles and Practice of Structural Equation Modeling, The Guilford
Press, 2011.

4. R core Team, R: A Language and Environment for Statistical Computing, R


Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0, 2013.

5. Ruiz, M., Modelos de ecuaciones estructurales. Tech. Report., Universidad


Autónoma de Madrid, 2000.

6. Sanchez, G., PLS Path Modeling with R. Trowchez Editions. Berkeley. http :
//www.gastonsanchez.com/P LSP athM odelingwithR.pdf , 2013.

11.5. Anexo - Formulario

Bloque Pregunta
Bloque 1 Datos del estudiante
1 Área de estudio
2 Edad
3.1 Año de ingreso a facultad
3.2 Año en curso
4 Cantidad de materias en curso
5 Cantidad de materias en que se inscribió en 2009
6 Abandonó en algún momento la carrera?
7 Sexo
8 Trabaja actualmente?
Bloque A Intente recordar el momento en que decidió ingresar a esta Facultad y en base a las informaciones
que tenı́a a esa altura, clasifique sus expectativas acerca de esta Facultad, respecto a:
Responda en la escala 1: Muy reducidas a 10: Muy elevadas
1 La calidad global de enseñanza (eexp1 calgl).
2 La capacidad de esta Facultad para darle una buena preparación para la carrera (eexp2 bprep).
3 La capacidad y el conocimiento de los docentes (eexp3 ccdoc).
4 El respeto e interés por los problemas de los estudiantes (eexp4 riest).
5 El ambiente académico (eexp5 aacad).
6 El contenido del curso (eexp6 ccur).
7 El relacionamiento con los docentes (eexp7 reldc).
8 La infraestrutura de la Facultad (eexp8 inffac).
9 La organización y funcionamiento de la Facultad (eexp9 offac).
10 La probabilidad de que la Universidad se encuadre en sus necesidades personales (eexp10 necpers).
11 La probabilidad de que las cosas pudieran ser diferentes de lo esperado (eexp11 dife).
12 La comparación con otras Facultades (eexp12 otfac).

158
Bloque Pregunta
Bloque B Clasifique la imagen que tiene de esta Facultad, expresando su grado de acuerdo o desacuerdo
con las siguientes afirmaciones
Responda en la escala 1: Totalmente en desacuerdo a 10: Totalmente de acuerdo
1 En general pienso que esta es una buena Universidad para estudiar (eim1 bpest).
2 Es una Facultad innovadora y con visión al futuro (eim2 innov).
3 Es una Facultad con buena reputación académica (eim3 burep).
4 Es una Facultad que da una buena preparación a sus estudiantes (eim4 buprep).
5 Es una Facultad muy comprometida con la comunidad (eim5 comp).
6 Es una Facultad que los empleadores valoran (eim6 empval).
Bloque C Clasifique la calidad del servicio prestado por esta Facultad respecto a:
Responda en la escala 1: Muy mala a 10: Muy buena
1 La calidad global de enseñanza (eqt1 calgl).
2 El nivel de conocimiento de los docentes (eqt2 ccdoc).
3 El respeto e interés por los problemas de los estudiantes (eqt3 riest).
4 El ambiente académico (eqt4 aacad).
5 El contenido del curso (eqt5 ccur).
6 El relacionamiento con los docentes (eqt6 reldc).
7 La infraestrutura y capacidad locativa de la Facultad (eqt7 inffac).
8 La organización y funcionamiento (eqt8 offac).
9 La comparación con otras Facultades (eqt9 otfac).
Bloque D Clasifique la calidad del servicio prestado por esta Facultad respecto a:
Responda en la escala 1: Muy mala a 10: Muy buena
1 Biblioteca (eqf1 bibl).
2 Bedelia (eqf2 bede).
3 Cursos Prácticos (eqf3 curpra)
4 Oficina de apuntes y fotocopiadora (eqf4 ofap).
5 Informes (eqf5 infor).
6 Cantina y Café (eqf6 ccafe).
7 PIL (Programa de Inserción Laboral) (eqf7 pil).
8 Sistema de Becas (eqf8 beca).
9 Mantenimiento e higiene de la infraestrutura (eqf9 higie).

159
Bloque Pregunta
Bloque 1 Datos del estudiante
1 Área de estudio
2 Edad
3.1 Año de ingreso a facultad
3.2 Año en curso
4 Cantidad de materias en curso
5 Cantidad de materias en que se inscribió en 2009
6 Abandonó en algún momento la carrera?
7 Sexo
8 Trabaja actualmente?
Bloque A Intente recordar el momento en que decidió ingresar a esta Facultad y en base a las informaciones
que tenı́a a esa altura, clasifique sus expectativas acerca de esta Facultad, respecto a:
Responda en la escala 1: Muy reducidas a 10: Muy elevadas
1 La calidad global de enseñanza (eexp1 calgl).
2 La capacidad de esta Facultad para darle una buena preparación para la carrera (eexp2 bprep).
3 La capacidad y el conocimiento de los docentes (eexp3 ccdoc).
4 El respeto e interés por los problemas de los estudiantes (eexp4 riest).
5 El ambiente académico (eexp5 aacad).
6 El contenido del curso (eexp6 ccur).
7 El relacionamiento con los docentes (eexp7 reldc).
8 La infraestrutura de la Facultad (eexp8 inffac).
9 La organización y funcionamiento de la Facultad (eexp9 offac).
10 La probabilidad de que la Universidad se encuadre en sus necesidades personales (eexp10 necpers).
11 La probabilidad de que las cosas pudieran ser diferentes de lo esperado (eexp11 dife).
12 La comparación con otras Facultades (eexp12 otfac).

Bloque Pregunta
Bloque B Clasifique la imagen que tiene de esta Facultad, expresando su grado de acuerdo o desacuerdo
con las siguientes afirmaciones
Responda en la escala 1: Totalmente en desacuerdo a 10: Totalmente de acuerdo
1 En general pienso que esta es una buena Universidad para estudiar (eim1 bpest).
2 Es una Facultad innovadora y con visión al futuro (eim2 innov).
3 Es una Facultad con buena reputación académica (eim3 burep).
4 Es una Facultad que da una buena preparación a sus estudiantes (eim4 buprep).
5 Es una Facultad muy comprometida con la comunidad (eim5 comp).
6 Es una Facultad que los empleadores valoran (eim6 empval).
Bloque C Clasifique la calidad del servicio prestado por esta Facultad respecto a:
Responda en la escala 1: Muy mala a 10: Muy buena
1 La calidad global de enseñanza (eqt1 calgl).
2 El nivel de conocimiento de los docentes (eqt2 ccdoc).
3 El respeto e interés por los problemas de los estudiantes (eqt3 riest).
4 El ambiente académico (eqt4 aacad).
5 El contenido del curso (eqt5 ccur).
6 El relacionamiento con los docentes (eqt6 reldc).
7 La infraestrutura y capacidad locativa de la Facultad (eqt7 inffac).
8 La organización y funcionamiento (eqt8 offac).
9 La comparación con otras Facultades (eqt9 otfac).
Bloque D Clasifique la calidad del servicio prestado por esta Facultad respecto a:
Responda en la escala 1: Muy mala a 10: Muy buena
1 Biblioteca (eqf1 bibl).
2 Bedelia (eqf2 bede).
3 Cursos Prácticos (eqf3 curpra)
4 Oficina de apuntes y fotocopiadora (eqf4 ofap).
5 Informes (eqf5 infor).
6 Cantina y Café (eqf6 ccafe).
7 PIL (Programa de Inserción Laboral) (eqf7 pil).
8 Sistema de Becas (eqf8 beca).
9 Mantenimiento e higiene de la infraestrutura (eqf9 higie).

160
161
162
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 12

Inferencia Bayesiana Aplicada a las Elecciones Presidenciales


del 2018

Ciria Briones-García, Rubén Blancas-Rivera, Víctor


Vázquez-Guevara, Dionicio Zacarías-Flores
Benemérita Universidad Autónoma de Puebla,
Facultad de Ciencias Fı́sico Matemáticas,
Av. San Claudio y 18 Sur, Col. San Manuel,
C.P. 72570, Puebla, Puebla,
[email protected], [email protected],
[email protected], [email protected]

Resumen. Se presenta una introducción a la estadı́stica bayesiana y dos aplicaciones en


elecciones electorales de México. Se busca construir un modelo probabilı́stico en el que a
diferencia de la estadı́stica clásica los parámetros son variables, para este trabajo se utilizan
dos casos de distribuciónes a priori, Beta y Dirichlet para encontrar la distribución a
posteriori del parámetro. La distribución a posteriori generalmente se encuentra
determinada por la densidad de probabilidad o función de masa de probabilidad. La
distribución a posteriori que resulta ser del tipo Beta y Dirichlet si se utiliza una
verosimilitud Bernoulli y Multinomial respectivamente. En el trabajo aplicamos las
distribuciones de estudio a la estimación de proporción de éxito de cada posible candidato a
ganar a la presidencia de México en el 2018. Finalmente abordamos el estudio de la
distribución predictiva a los dos tipos de distribuciones a priori que se presentan en el
trabajo.

Abstract. An introduction to Bayesian statistics and applications is presented in Mexican


electoral elections. We try to construct a probabilistic model in which a difference of the
statistics classifies the parameters of the variables, for this work two cases of a priori
distributions, Beta and Dirichlet are used to find the posterior distribution of the parameter.
Posterior distribution is usually determined by the probability density or probability mass
function. The resulting posterior distribution of Beta and Dirichlet

163
type is used if Bernoulli and Multinomial are used respectively. In the paper the study
distributions are applied to the estimation of the proportion of successes of each possible
candidate to win the presidency of Mexico in 2018. Finally we approach the study of the
predictive distribution to the two types of a priori functions that are presented in the work.

Palabras clave: Estadı́stica bayesiana, Distribuciones conjugadas, Distribución a


posteriori predictiva.

12.1. Introducción
En la literatura se pueden encontrar diversos trabajos que hablan acerca de la
estadı́stica bayesiana,(ver [1] y [5]). También ha sido aplicada a problemas sociales y
polı́ticos como se pueden consultar en [6] y [10]. El objetivo de este trabajo es estudiar
el enfoque bayesiano y mostrar algunos métodos para calcular proporciones de votantes y
éxito de candidatos a ganar la próxima elección presidencial del 2018.

En la estadı́stica existen dos tipos de enfoques, el clásico (o frecuentista) y el bayesiano.


La bayesiana es un tipo de inferencia estadı́stica en la que las evidencias u observaciones
se emplean para actualizar la probabilidad de que una hipótesis pueda ser cierta.

El nombre bayesiana proviene del uso frecuente que se hace del teorema de Bayes,
este teorema se deriva de un trabajo realizado por el matemático Thomas Bayes, donde
introduce el concepto de probabilidad inversa y además permitió entender cómo las
personas cambian su juicio sobre la ocurrencia de algún evento debido a información
adicional. Pero fue Pierre-Simon Laplace quien aplica el Teorema de Bayes de manera
sistemática al análisis de datos, esto a finales del siglo XVIII (ver [4]).

Teorema 12.1.1 (Teorema de Bayes)


Sea {A1 , A2 , ..., Ai , ..., An } un conjunto de sucesos mutuamente excluyentes y exhaustivos,
y tales que la probabilidad de cada uno de ellos es distinta de cero. Sea B un suceso
cualquiera del que se conocen las probabilidades condicionales P (B|Ai ). Entonces,

P (B|Ai )P (Ai )
P (Ai |B) = ,
P (B)

donde
1. P (Ai ) son las probabilidades a priori,
2. P (B|Ai ) es la probabilidad de B dado Ai ,
3. P (Ai |B) son las probabilidades a posteriori.

La inferencia Bayesiana usa un estimador numérico del grado de creencia en una


hipótesis aún antes de observar la evidencia y calcula un estimador numérico del grado de
creencia después de haber observado la evidencia.

Dada una nueva evidencia, el teorema de Bayes ajusta las probabilidades de la siguiente
manera:
P (E|H0 )P (H0 )
P (H0 |E) = ,
P (E)
donde
1. H0 representa una hipótesis, llamada hipótesis nula, que ha sido inferida antes de
que la nueva evidencia, E, resultara disponible.

164
2. P(H0 ) se llama probabilidad a priori de H0 .
3. P (E|H0 ) se llama la probabilidad condicional de que se cumpla la evidencia E si la
hipótesis H0 es verdadera. Se llama también la función de verosimilitud cuando se
expresa como una función de E dado H0 .
4. P (E) se llama la probabilidad marginal de E.
5. P (H0 |E) se llama probabilidad a posteriori de H0 dado E.

12.2. Inferencia Bayesiana


En general, el objetivo de la estadı́stica Bayesiana es representar la incertidumbre
previa sobre los parámetros del modelo con una distribución de probabilidad y
actualizar esta incertidumbre anterior con nuevos datos para producir una distribución
de probabilidad posteriori para el parámetro que contiene incertidumbre; es decir,
la estadı́stica bayesiana se pregunta explı́citamente cómo cambia nuestro estado de
información acerca del valor del parámetro mediante los datos observados.

La diferencia con la inferencia clásica es que esta toma a los parámetros fijos y en la
Bayesiana suponemos que los parámetros son variables aleatorias con una distibución de
probabilidad.

Cuando los datos se encuentran en un espacio muestral discreto, el teorema de Bayes


visto en términos de funciones de masa se encuentra caracterizado de la siguiente manera:
f (datos|θ)f (θ)
f (θ|datos) = ,
f (datos)

donde θ es el parámetro a estimar, f (θ|datos) es la función a posteriori para el parámetro,


f (datos|θ) se le llama función de verosimilitud, f (θ) es la función a priori del parámetro
y f (datos) es la función marginal de los datos. Si los datos se encuentran en un espacio
muestral continuo, la función de densidad marginal se puede encontrar de la siguiente
forma: Z
f (datos) = f (datos|θ)f (θ)dθ.

Se supone que se tiene una base de datos sobre el parámetro que se desea estimar,
luego la densidad marginal de los datos es un número ya conocido, de esta forma puede
ser tomado como una constante fija. Ası́ se deduce que la distribución a posteriori es
proporcional al producto de la función de verosimilitud por la función a priori como se
observa en la siguiente ecuación:

f (θ|datos) ∝ f (datos|θ)f (θ). (12.1)

donde el sı́mbolo ∝ significa “proporcional a”.

En resumen los pasos para realizar una estimación bayesiana son los siguientes:
Establecer un modelo probabilı́stico completo: una distribución de probabilidad
conjunta para todas las cantidades del problema, observables y no observables.
• Función de verosimilitud: f (datos|θ).
• Distribución a priori: f (θ).
Condicionar los datos: obtener la distribución a posteriori, es decir, la distribución
condicionda a los parámetros del modelo, dados los datos.

165
• Teorema de Bayes: f (θ|datos) ∝ f (datos|θ)f (θ).

Para construir la distribución a priori existen distintas formas de hacerlo, a


continuación algunas de ellas.
Distribución a priori informativa. Ver [8].

1. Estudios empı́ricos previos.


2. Conocimiento del investigador:
• Por intervalos.
• Estimación de momentos y supuesto de simetrı́a.
• Reparametriación de distribuciones. Ej: beta(c · τ, (1 − m) · τ ).

Distribución a priori no-informativa. Ver [7].

• Impropias: U (−∞, ∞) o U (0, ∞).


• Distribución poco informativas: θ tenga una distribución N (µ, 10000).

En este trabajo se utiliza una distribución a priori informativa con estudios empı́ricos
previos.

12.3. Distribución beta a Priori


En esta sección se expone el caso de una distribución a priori beta con función de
verosimilitud Bernoulli. La función de densidad de una distribución Beta esta dada por:

Γ(α + β) α−1
f (p) = p (1 − p)β−1 ,
Γ(α)Γ(β)
α
donde 0 ≤ p ≤ 1 y α, β positivas, con esperanza α+β
.

Sea una muestra aleatoria X = (X1 , · · · , Xn ) que tienen una distribución Bernoulli(p).
Ası́ la función de verosimilitud es la siguiente:

f (X|p) = px (1 − p)1−x , x ∈ [0, 1],

entonces la distribución a posteriori según la ecuación (12.1),


Pn Pn
xk
f (p|X) ∝ p k=1 (1 − p)n− k=1 xk
· pα−1 (1 − p)β−1
Pn
n− n
P
xk +α−1 k=1 xk +β−1
=p k=1 (1 − p) .

n n
!
X X
Por lo tanto f (p|X) ∼ beta xk + α, n − xk + β . En conclusión la distribución
k=1 k=1
a posteriori es de la misma familia parámetrica que la a priori. Cuando lo anterior ocurre
decimos que las distribuciones Bernoulli y beta son conjugadas.

Veamos que sucede con nuestras funciones a priori y posteriori para distintos valores
de α y β.

Como se puede observar en las gráficas Figura 1, Figura 2 y Figura 3 para valores grandes
de α y β la función a priori y posteriori son muy semejantes, lo que confirma que ambas
pertenecen a la misma familia.

166
Figura 1: Gráfica de f (p), f (X|p), f (p|X), donde f (p) tiene parámetros α = 5 y
β = 2.

Figura 2: Gráfica de f (p), f (X|p), f (p|X), donde f (p) tiene parámetros α = 50 y


β = 29.

12.3.1. Ejemplo 1
Pensemos en la población que consiste de todas las personas en México que pueden
votar en la próxima elección presidencial del 2018, sea p que representa la proporción de esa
población que va ejercer su voto. La creencia de una persona acerca de la incertidumbre en
esta proporción se representa por una distribución de probabilidad sobre el parámetro. Esta
distribución refleja la opinión subjetiva previa de la persona sobre los valores plausibles de
p.

Según información que publicó el Instituto Nacional Electoral (INE), solo el 65.44 %
de las personas que podı́an votar en el año 2012 asistieron a las urnas. Basándose en esta
información se cree que la proporción p debe tener un valor mayor que 0.5, o siendo más
especı́ficos decimos que el valor de p pertenece al intervalo de 0.5 a 1.

Para obtener la verosimilitud, se considera que si una persona vota el resultado será
X = 1 y X = 0 de lo contrario. De esta manera podemos considerar a X del tipo Bernoulli.
Si consideramos una sola observación tenemos que la función de verosimilitud es la función
de densidad de una distribución Bernoulli con parámetro p.

Nuestra distribución a priori para p esta dada de acuerdo a la experiencia que se ha


visto en la última elección presidencial del 2012 ya que 50, 323, 153 votaron y 2, 913, 649 no
lo hicieron de acuerdo a datos publicados por el INE. Si α = 50, 323, 153 y β = 2, 913, 649

167
Figura 3: Gráfica de f (p), f (X|p), f (p|X), donde f (p) tiene parámetros α = 503 y
β = 291.

de acuerdo a la función a posteriori es:

f (p|datos) ∝ p50,323,154−1 (1 − p)2,913,648−1 .

Por lo tanto la función a posteriori para la proporción p es del tipo Beta con nuevos
parámetros β0 = 50, 323, 154 y α0 = 2, 913, 648.

12.4. Distribución Dirichlet a Priori


En la anterior sección se estudió el caso cuando el parámetro es unidimensional pero
ahora se busca una generalización al caso k − dimensional.

Si Θ = (θ1 , θ2 , · · · , θk ) es el parárametro que se desea estimar y suponga que se


satisfacen las siguientes condiciones sobre Θ:
θ1 , · · · , θ k > 0
θ1 + · · · + θk−1 < 1
θk = 1 − θ1 + · · · + θk−1
Θ ∼ Dirichlet(α) donde α = (α1 , α2 , · · · , αk ) conocido.
De esta forma la función a priori para el parámetro Θ se escribe como

k Qk
1 Y αj −1 Γ(αi )
P (Θ) = θ , donde B(α) = i=1
B(α) j=1 j Γ( ki=1 αi )
P
(12.2)
k
Γ( ki=1 αi ) Y αj −1
P
= Qk θj .
i=1 Γ(αi ) j=1

Sea X1 , X2 , . . . , Xn una muestra aleatoria y denotamos X = (X1 , X2 , · · · , Xn ). Si


X ∼ M ult(Θ) entonces la función de verosimilitud se representa por la siguiente ecuación:
k
n! Y
P (X1 = x1 , X2 = x2 , . . . , Xn = xn |Θ) = Qk θixi , (12.3)
i=1 xi i=1

Pk
donde xi ∈ {0, . . . , n} y i=1 xi = n.

168
Utilizando las ecuaciones (12.1), (12.2) y (12.3) se tiene que la función a posteriori es

P (Θ|X) ∝ P (X|Θ)P (Θ)


k k
Γ( ki=1 αi ) Y αj −1
P
n! Y
= Qk θixi × Qk θj
i=1 xi i=1 i=1 Γ(αi ) j=1
k
Γ( ki=1 αi ) Y xj +αj −1
P
n!
= Qk Qk θj
i=1 xi i=1 Γ(αi ) j=1 (12.4)
k
Γ( k αi ) Y xj +αj −1
P
∝ Qk i=1 θj
i=1 Γ(αi ) j=1
k
x +αj −1
Y
∝ θj j .
j=1

Por lo tanto la distribución a posteriori resultante es proporcional a una Dirichlet con


parámetro α0 = (x1 + α1 − 1, x2 + α2 − 1, . . . , xn + αn − 1).

De esta manera la distribución Multinomial y Dirichlet son conjugadas, es decir la


distribución a posteriori es de la misma familia parámetrica que la a priori.

12.4.1. Ejemplo 2
De acuerdo a una encuesta nacional en vivienda de El Financiero (Ver [9]) que se
realizó del 19 al 25 de enero del 2017 en todas las entidades federativas, a 1008 personas,
se obtuvieron los resultados siguientes.

Porcentaje
Candidato Mar 16 Jun Sep Nov Feb 17

A. M. L. O. 28 31 29 29 33
Margarita Z. 24 26 28 29 27
M. A. O. C. 24 26 27 26 20
M. Ángel M. 14 10 10 9 10
El Bronco 9 7 7 7 10

Según el periódico La Jornada (Ver [2]), Jueves 23 de Marzo de 2017 p.6, Andrés Manuel
López Obrador se coloca a la cabeza en todos los escenarios. Se realizó una encuesta, con
fecha de 3 de marzo del 2017, a 5275 personas de todo el paı́s. Los resultados son los
siguientes:

Marzo 2017
Candidato Porcentaje
Andrés Manuel López Obrador 32.694
Margarita Zavala 27.974
Miguel Ángel Osorio Chong 19.214
Miguel Ángel Mancera 12.264
Jaime Rodrı́guez, El Bronco 7.854

Estamos interesados en estimar la proporciones θ1 , θ2 , θ3 , θ4 y θ5 de que gane López


Obrador, Margarita Zavala, Osorio Chong, Mancera y el bronco respectivamente, de

169
acuerdo a las encuestas presentadas anteriormente. Considerando que las proporciones
no son fijas y se comportan de manera aleatoria, esto debido a distitos factores como
pueden ser: qué partido ocupa la presidencia actualmente, campañas polı́ticas, puestos
que han ocupado los candidatos durante su carrera polı́tica, entre otras.

Se utiliza el modelo propuesto al inicio de la sección, donde Θ = (θ1 , θ2 , . . . , θk )


tiene distribución a priori Dirichlet y la muestra aleatoria X = (x1 , . . . , xn ) tiene una
distribución multinomial.

En nuestra distribución a priori tenemos n = 1008, k = 5, α = (α1 , α2 , α3 , α4 , α5 ),


donde n es el total de adultos encuestados, k el número de candidatos a la presidencia y:
α1 es el número de votos por Andrés Manuel,
α2 es el número de votos por Margarita Zavala,
α3 es el número de votos por M. Ángel Osorio,
α4 es el número de votos por M. Ángel Mancera,
α5 es el número de votos por Jaime Rodrı́guez.
Luego, haciendo un promedio de los resultados de la primera tabla tenemos que: Andrés
Manuel López Obrador con 30 % (302 votos), Margarita Zavala con 26.8 % (270 votos),
Miguel Ángel Osorio Chong con 24.6 % (248 votos), Miguel Ángel Mancera con 10.6 %
(107 votos) y Jaime Rodrı́guez, El Bronco, con 8 % (81 votos). Ası́, nuestra distribución a
priori tiene los parámetros k = 5 y α = (302, 270, 248, 107, 81). Usando (12.3):
k
α −1
Y
P (Θ) ∝ θj j
j=1

= θ1302 θ2270 θ3248 θ4107 θ581 .

Mientras que para nuestra verosimilitud usaremos los datos de la segunda tabla y
(12.2), ası́ n = 5275, x1 = 1725, x2 = 1476, x3 = 1013, x4 = 647 y x5 = 414.
k
n! Y x
P (X|Θ) = Qk θj j
j=1 xj1 ! j=1

= 1725!1476!1013!647!414!
5275! 1725 1476 1013 647 414
θ1 θ2 θ3 θ4 θ5

∝ θ11725 θ21476 θ31013 θ4647 θ5414 .

Usando (12.4) la distribución a posteriori esta dada por

P (Θ|X) ∝ θ11725+302 θ21476+270 θ31013+248 θ4647+107 θ5414+81


= θ12026 θ21745 θ31260 θ4753 θ5494 .

Como se mencionó en la sección anterior es proporcional a una distribución Dirichlet,


en este caso el parámetro es (2026,1745,1260,753,494).

12.5. Distribución Predictiva


Regularmente en muchos casos se quisiera tener una predicción de lo que podrı́a ocurrir
si se tuvieran nuevos datos, es decir, qué esperamos que suceda para nuevas muestras.
Para ello se emplea la distribución a posterior predictiva, que en estadı́stica bayesiana es la
distribucón de los posibles valores no observados condicionados a los valores ya observados.

170
Si XF ut representa los nuevos datos observados y X los datos observados anteriormente,
entonces se define la distribución preditiva de XF ut dado X mediante la siguiente ecuación
Z
P (XF ut |X) = P (XF ut |θ, X)P (θ|X, α)dθ, (12.5)
Θ

que es el valor esperado del modelo especificado ponderando los posibles valores del
parámetro por su densidad a posteriori.

Esta distribución explica la incertidumbre sobre el parámetro Θ, es decir, la


distribución predictiva posterior en general será más amplia que una distribución
predictiva.

El caso Beta- Bernoulli conjugadas se requiere predecir el valor de la variable XF ut


dado los datos Bernoulli X1 , ..., Xn de acuerdo a la ecuación (12.5)
Z 1
P (XF ut = 1|X1 , ...Xn ) = P (XF ut = 1|X1 , ..., Xn , p)dp · P (p|X1 , ..., Xn )
0
Z 1
= P (XF ut = 1|p)P (p|X1 , ..Xn )
0
Z 1
= pP (p|X1 , ..., Xn )
0
= E[p|X1 , ..., Xn ].

Se demostró que la distribución a posteriori dePBeta-Bernoulli conjugadas resulta ser


una Beta con parámetros α + n n
P
k=1 xk y β + n − k=1 xk , entonces
Pn
α + k=1 xk
E[p|X1 , ..Xn ] = .
β+n− n
P
k=1 xk

Por lo tanto,
α+ n
P
k=1 xk
P (XF ut = 1) = ,
β+n− n
P
k=1 xk
y
α+ n
P
k=1 xk
P (XF ut = 0) = 1 − .
β+n− n
P
k=1 xk

Sustituyendo los valores del primer ejemplo.

P (XF ut = 1) = 0.945270022.

P (XF ut = 0) = 0.054759978.
Utilizando una muestra de una persona que respondió que sı́ votarı́a, entonces si se
vuelve a realizar la misma pregunta se tiene una mayor probabilidad de obtener una
respuesta positiva. Lamentablemente aún no tenemos encuestas sobre si las personas
ejerceran su voto en el 2018.

Por otro lado utilizando el caso de distribución Dirichlet-Multinomial conjugadas se


tiene que la ecuación (12.5) tiene la forma:
Z
f (XF ut |X) = f (XF ut |Θ, X)f (Θ|X)dΘ.

171
Es decir, se calcula marginando la distribución de XF ut dado Θ sobre la distribución
posterior de Θ dado X.

Hay que recordar que la función de densidad de probabilidad sobre las variables θ al
integrarse sobre todos los valores posibles de θ da como resultado el valor 1, esto es:
Z P
Γ( t αt ) Y αt −1
Q θt dθ = 1.
t Γ(αt ) t

De manera equivalente tenemos


Z Y Q
Γ(αt )
θtαt −1 dθ = tP
.
t
Γ( t αt )
La distribución conjunta sobre X y Θ tenı́a exactamente esta forma, ver ecuación
(12.4). Ası́,
k k
Γ( k xi + αi ) Y xi +αi −1
Z P
n! Y
f (XF ut |X) = Qk θix¯i Qk i=1 θi dθ
i=1 x ¯i ! i=1 i=1 Γ(xi + αi ) i=1
k
Γ( ki=1 xi + αi )
P Z Y
n!
= Qk Qk θix¯i +xi +αi −1 dθ
i=1 x ¯i ! i=1 Γ(x i + α i ) i=1
Pk Qk
n! Γ( i=1 xi + αi ) Γ(x¯i + xi + αi )
= Qk Qk × i=1 Pk
i x
¯i ! i=1 Γ(xi + αi ) Γ( i=1 x¯i + xi + αi )
Pk k
n!Γ(n + i=1 αi ) Y Γ(x¯i + xi + αi )
= .
Γ(2n + ki=1 αi ) i=1 x¯i !Γ(xi + αi )
P

Esta es la distribución Dirichlet-Multinomial, también conocida como Multinomial


Compuesto Dirichlet o la distribución de Polya. (Ver [3])

12.6. Conclusiones
En este trabajo mostramos el enfoque bayesiano donde a diferencia de la estadı́stica
clásica el parámetro a estimar se toma variable, más aún, se dice que tiene alguna
distribución de probabilidad. Mediante el uso de este enfoque vemos la necesidad de utilizar
distribuciones las cuales se le llaman posteriori, a priori y versomilitud. La primera resulta
importante ya que se puede realizar predecciones para muestras aleatorias posteriores.
Aunque en el enfoque bayesiano se puede pensar que si tenemos dos opiniones iniciales
diferentes posiblemente se obtendrán conclusiones que difieren, sin embargo, en un sentido
estricto esto puede ser cierto, mediante la acumulación de datos estas conclusiones deben
coincidir mediante la distribución predictiva.

Se trabajaron los casos de distribución beta-Bernoulli conjugadas y Dirichlet-


multinomial conjugadas, ejemplificando con las votaciones que serán realizadas en el 2018.
En el primer ejemplo se estimó el número de votantes lo cual no resulto facı́l ya que por el
momento no se encuentran encuestas en el paı́s sobre si la gente votará o no, pero se muestra
un método con el cual se puede hacerlo una vez que se tienen las encuestas pertinentes.
En el segundo ejemplo se analiza quién tiene mayor probabilidad de ganar en el 2018 de
acuerdo a encuestas publicadas por periódicos de México, esto mediante la distribución a
posteriori que se encuentra con una verosimilitud multinomial y una distribución a priori
Dirichlet.

172
En base a esto, utilizando la distribución predictiva se puede decir algo sobre el posible
ganador de las elecciones 2018 como tambı́en la proporción de personas que ejerceran su
voto. Otro punto importante, es que se usó información adicional o previa que sirvió para
nuestros parámetros, se asignaron probabilidades subjetivas y se consideró el valor del
parámetro aleatorio.

Referencias
1. Bernardo M., Bayesian Statistics. Departamento de Estadı́stica de la Facultad de
Matemáticas, Valencia Spain, 2002.
2. Cano A., Humillante derrota del PRI en 2018: encuesta de Presidencia.
La Jornada. Jueves 23 de marzo de 2017, p.6. Recuperado desde: http :
//www.jornada.unam.mx/2017/03/23/politica/006n1pol
3. Eulacio N.R., La familia de distribuciones de Pólya truncada. Tesis de Maestrı́a.
Instituto de Enseñanza e Investigaciones de Ciencias Agrı́colas. México: Chapingo.
4. Gutiérrez E., El
desarrollo de la estadı́stica bayesiana. Revista Digital Universitaria, Vol. 14 No. 11,
2013. Recuperado desde: http : //www.revista.unam.mx/vol.14/num11/art42/
5. Jim Albert, Bayesian Computation with R. Springer Second Edition, USA, 2001.
6. Lawrence J., Theresa W., Lois C., Bayesian Estimatin of Disease Prevalence and the
Parameters of Diagnstic Test in the Absence of a Gold Standard. American Journal
of Epidemiology, Vol. 141 No.3, 1995.
7. Mendoza R. Manuel, Regueiro M. Pedro, Estadı́stica Bayesiana. Departamento de
Estadı́stica, Instituto Tecnológico Autónomo de México, 2011.
8. Michael H., Leonard H., Bayesian Estimation of the Size of a Population.
Department of Statistics Biostatistics Unit, University Zurizh and University of
Munich, Sonderforschungsbereich 386, Paper 499, 2006.
9. Moreno A., Toma AMLO ventaja. El Financiero. 2017. Recuperado desde: http :
//graf icos.elf inanciero.com.mx/2017/encuestas/enc − 01f ebrero17/index.html
10. Scott M. Lynch, Introduction to Applied Bayesian Statistics and Estimation for
Social Scientists. Springer, New York, 1995.

173
174
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 13

Evaluación del Riesgo Crediticio, a través de Credit Scoring


mediante Regresión Logı́stica: Un Caso de Estudio

Estefania Meza Saldaña , Hortensia Reyes Cervantes, Blanca Pérez Salvador, Francisco Tajonar Sanabria
Facultad de Ciencias Fı́sico Matemáticas,
Benemérita Universidad Autónoma de Puebla,
18 sur y Av. San Claudio, Col. San Manuel, Ciudad Universitaria
Puebla, Puebla C.P. 72570, México
Departamento de Matemáticas, Iztapalapa,
Universidad Autónoma Metropolitana, México
Prolon. Canal de Miramontes 3855, Ex-Hacienda de San Juan de Dios
C.P. 14387, Deleg. Tlalpan Cdad. de México
e-mail fany [email protected], [email protected],
[email protected], [email protected]

Resumen. Para las entidades financieras es de suma i mportancia contar con un


instrumento que mejore la operación crediticia. En este trabajo se utiliza la t écnica de credit
scoring usando regresión logı́stica con la cual se estima las probabilidades de i ncumplimiento
sobre una base de datos de un banco alemán de mil clientes con veinte variables explicativas
de t ipo financiero, social y económico, tales como el tamaño de la cuenta, el i ngreso anual,
ocupación, obligaciones y deudas, porcentaje de la cuenta pagada, entre otras.

Abstract. For financial i nstitutions i t i s very i mportant to have an i nstrument that


improves t he credit operation. In t his paper we use the credit scoring technique using logistic
regression with which t he probabilities of non-compliance are estimated on a database of a
thousand German bank with t wenty financial, social and economic explanatory variables
such as size of t he account, t he annual i ncome, occupation, obligations and debts,
percentage of t he account paid i n among others.

Palabras clave: Regresión logı́stica, Credit Scoring, Base de datos financieros alemana.

175
13.1. Introducción
En finanzas, riesgo está relacionado con la posibilidad de que suceda un evento que
se convierta en pérdidas para los participantes involucrados. Existen diferentes tipos de
riesgo en los mercados financieros, entre ellos se encuentran, el riesgo de mercado, riesgo
de operación, riesgo de contraparte y riesgo de crédito, este último es el que se maneja
en este trabajo, definiéndolo como caso particular del riesgo de contraparte, cuando el
contrato es uno de crédito, y el deudor no puede pagar su deuda por diferentes factores
[3]. En la actualidad, los avances tecnológicos han permitido un desarrollo importante en
la automatización de la decisión sobre la aceptación o rechazo de una solicitud de crédito
a través de modelos analı́ticos, evitando el otorgamiento bajo criterios ambiguos, estos
modelos requieren de información cuantitativa potencialmente útil para su construcción.
La oportunidad de obtener esta información es cada vez más simple, gracias al importante
aumento de la capacidad de almacenaje y la disponibilidad de mejores herramientas
para el manejo de datos, el proceso de extracción de información relevante a partir de
datos disponibles sigue siendo complejo y costoso. La modelación de la falla financiera,
tanto en personas como en empresas, ha sido un problema altamente estudiado en la
literatura. Se han desarrollado modelos matemáticos y estadı́sticos que buscan predecir el
desempeño que tendrı́a una persona si se le otorgase un crédito mediante la asignación de
un puntaje estimado a partir de la información del cliente. La utilización de modelos de
Credit Scoring para la evaluación del riesgo de crédito sirven para estimar probabilidades
de incumplimiento y ordenar a los deudores y solicitantes de financiamiento en función de
su riesgo de incumplimiento. En las últimas cuatro décadas [2], se han desarrollo mejores
recursos estadı́sticos y computacionales para tener más rapidez y eficiencia en la generación
de préstamos, y una mejor evaluación del riesgo de su cartera de clientes que cada vez es
mayor. Los métodos estadı́sticos más comunes para el desarrollo de Credit Scorings se
encuentran: Análisis discriminante, Modelo de probabilidad lineal, Modelo Logit, Modelos
de Programación lineal, Redes Neuronales, Árboles de decisión, entre otros [7],[11],[14] y
[15]. Los modelos posibles a usar en el trabajo deben de tener una variable de respuesta
binaria, y pueden ser: el modelo de probabilidad lineal, el modelo probit y el modelo
logı́stico.

13.1.1. Modelo de Regresión Logı́stica


La Regresión Logı́stica es un modelo probabilı́stico, y es una de las técnicas más
utilizadas en algunos modelos de Credit Scoring, este modelo estima la probabilidad de
que un sujeto sea merecedor de un crédito [1].
Los objetivos del Modelo de Regresión Logı́stica son:

Precisar la existencia o ausencia de relación entre una o más variables independientes


(xi ) y la variable dependiente dicótomica (Y ),
Medir el tipo de relación, en caso de que exista.
Estimar la probabilidad de que se obtenga el suceso definido como “Y = 1” en
función de los valores de las variables independientes.

La Regresión Logı́stica se basa en la función logı́stica, que expresa una relación entre dos
o más variables de forma que a cada elemento de x del conjunto independiente X, le
corresponde un único elemento π(x) y está representada por:

1 ex
π(x) = −x
= . (13.1)
1+e 1 + ex

176
13.2. Estimación
Considerando la ecuación

exp(β0 + β1 x)
π(xi ) = (13.2)
1 + exp(β0 + β1 x)

donde se tiene unicamente una variable dependiente, se debe de desarrollar un método


para estimar β0 y β1 a partir de una muestra de n observaciones (yi , xi ), i = 1, . . . , n,
donde (yi , xi ) son las caracterı́sticas del i-ésimo individuo de la muestra. En este caso, la
distribución asociada es la Bernoulli, donde π(xi ),

fi (yi ) = π(xi )yi (1 − π(xi ))1−yi , yi = 0, 1. (13.3)


Y dado que las n observaciones son independientes, la densidad conjunta o la función de
verosimilitud de (Y1 , Y2 , . . . , Yn ) queda de la siguiente manera

n
Y
l(β0 , β1 ) = f1 (y1 ) × f2 (y2 ) × · · · × fn (yn ) = π(xi )yi (1 − π(xi ))1−yi
i=1
n  yi  1−yi
Y eβ0 +β1 x1 eβ0 +β1 x1
= 1− . (13.4)
i=1
1 + eβ0 +β1 x1 1 + eβ0 +β1 x1

Este método busca las estimaciones de β0 y β1 que maximicen la función de verosimilitud.


Para un manejo más fácil de esta ecuación se le aplica logaritmo neperiano, quedando
n
X
L(β) = ln(l(β0 , β1 )) = [yi ln(π(xi )) + (1 − yi ) ln(1 − π(xi ))] . (13.5)
i=1

Para encontrar el valor del vector β que maximiza L(β), se deriva L(β) con respecto a β0
y β1 , se igualan las derivadas a 0. Obteniendo las ecuaciones:
n
X n
X
[yi − π(xi )] = 0 y [yi − π(xi )]xi = 0. (13.6)
i=1 i=1

Estas expresiones no son lineales en los parámetros β0 y β1 , por lo que se requieren métodos
especiales para su solución [5], utilizando en la actualidad rutinas de programación o
paquetes estadı́sticos, por lo que en este trabajo se utiliza el paquete estadı́stico SPSS
versión 22 [13] para la obtención de los resultados, los valores obtenidos con la solución de
las ecuaciones anteriores, se llaman de máxima verosimilitud y son denotados por β̂.

El estadı́stico de Wald: Contrasta la hipótesis de que un coeficiente aislado sea distinto


de 0, y sigue una distribución normal de media 0 y varianza 1 (Distribución Normal
Estándar) [5].
H0 : βi = 0 vs H1 : βi 6= 0.
β̂i
En modelos con errores estándar grandes, el estadı́stico de Wald ( σ̂(β i)
) puede
proporcionar falsas ausencias de significación (es decir, se incrementa el error tipo
II).
El estadı́stico G de razón de verosimilitud: En este método se trata de ir
contrastando cada modelo que surge de eliminar cierta cantidad h de variables
frente al modelo completo (que incluye las k variables de la muestra). Pudiéndose
también aumentar variables con respecto a un modelo inicial que contenga las más

177
significativas.
La valoración se desarrolla mediante el contraste del siguiente juego de hipótesis:

H0 : Las variables no influyen en el modelo, βi = 0 ∀i = 1, . . . , h.


vs.
H1 : Las variables influyen en el modelo, βi 6= 0 ∀i = 1, . . . , h.

La ausencia de significación implica que el modelo sin la covariable no empeora


respecto al modelo completo (es decir, da igual su presencia o su ausencia), por
lo que según el criterio de la navaja de Okhan, que en estadı́stica significa tener
modelos parsimoniosos, dicha covariable debe ser eliminada del modelo ya que no
aporta nada al mismo.

13.3. Selección de Variables


La construcción de un modelo de regresión que sólo incluya un subconjunto de
regresores disponibles implica dos objetivos: 1) Se desea que el modelo incluya tantos
regresores como sea posible, para que el contenido de información en ellos pueda influir
sobre el valor predicho de y. 2) Se desea que el modelo incluya la menor cantidad de
regresores posibles, porque la varianza de la predicción ŷ aumenta a medida que aumenta
la cantidad de regresores. También, mientras más regresores haya en un modelo, los costos
de recolección de datos y los de mantenimiento de modelo serán mayores. El proceso de
encontrar un modelo que sea un término medio entre los dos objetivos se llama selección
de la “mejor ecuación de regresión, [4].”

Existen varios criterios que se pueden aplicar para evaluar los modelos de regresión
de subconjuntos. En general, se desea seleccionar los regresores de tal modo que el error
cuadrático medio de la predicción se reduzca al mı́nimo, esto suele implicar que se deben
eliminar del modelo los regresores con efectos pequeños.

13.4. Evaluación del Modelo


13.4.1. Medidas de Confiabilidad del Modelo
1. Devianza: Es similar a la suma de cuadrados del error de la Regresión Lineal y se
define como:

n     
X p̂ 1 − p̂
D = −2 yi ln + (1 − yi ) ln . (13.7)
i=1
yi 1 − yi

Si D es mayor que el cuartil de una χ2 con (n − p) grados de libertad para un nivel


de significancia dado, entonces se dice que el modelo logı́stico es confiable.

2. Prueba de bondad de ajuste de Hosmer- Lemeshov. En esta prueba se


construyen tablas para comparar los resultados de estimación del modelo contra
los resultados reales de la muestra, haciendo la clasificación de éxitos y fracasos
para ambos casos.

178
Las hipótesis a contrastar son:

exp(β0 +β1 x)
H0 : π̂j = ∀j = 1, . . . , J.
1 + exp(β0 +β1 x)
vs.
exp(β0 +β1 x)
H1 : π̂j 6= para algún j.
1 + exp(β0 +β1 x)

Se define como:
g
X (Ok − n0k π̄k )2
Ĉ = . (13.8)
n0k π̄k (1 − π̄k )
k=1

Donde:
g es el número de grupos,
n0k es el número total de observaciones en el k-ésimo grupo,
Ok es la suma de las Y en el k-ésimo grupo y
π̄k es el promedio de las πk en el k-ésimo grupo.

Si el modelo es correcto, la distribución del estadı́stico Ĉ es aproximada a la


distribución Chi-cuadrada con g − 2 grados de libertad, χ2 (g − 2) [5].

13.4.2. Estadı́sticos Influenciales


Existen distintos tipos de residuales que posibilitan constatar si una observación es
influyente o no, los residuales son definidos como la diferencia entre los valores observados
y los valores ajustados (y − ŷ). Donde el valor ajustado es

eĝ(xj )
ŷj = mj π̂j = mj . (13.9)
1 + eĝ(xj )
1. Residuales de Pearson: Definidos como:
yj − mj π̂j
rj = r(yj , π̂j ) = p . (13.10)
mj π̂j (1 − π̂j )

Donde yj representa el número de veces que y = 1 entre las mj repeticiones de Xj


si los valores de la variable respuesta están agrupadas. Si el modelo es correcto, los
residuales de Pearson serán variables de media cero.
2. Residuales de devianza Definidos como:
     1/2
yj (mj − yj )
dj = ± 2 yj ln + (mj − yj ) ln . (13.11)
mj π̂j mj (1 − π̂j )

Donde el signo, + o −, es el mismo al signo de (yj − mj π̂j ). La distribución


aproximada que sigue este estadı́stico es χ2 con (J − (p + 1)) grados de libertad.

13.4.3. Valoración de la Capacidad Predictiva del Modelo


Es de interés clasificar a los individuos dependiendo de que si su probabilidad supera
un valor de corte π o no, si el valor de la probabilidad estimada excede a π entonces se
tendrá una variable igual a 1, de otra forma será igual a 0; el valor más común para π es
0.5. (
P robabilidad > π ⇒ ye = 1
clasificación =
P robabilidad ≤ π ⇒ ye = 0.

179
La exactitud de una prueba puede definirse en función de su sensibilidad y especificidad
diagnósticadas. Se selecciona un punto de corte o valor lı́mite adecuado que permita resumir
los resultados en dos grupos. La sensibilidad de una prueba, es la probabilidad de obtener
un resultado positivo. Y la especificidad de una prueba indica la probabilidad de obtener
un resultado negativo.
1. Clasificación.
Realidad y0
1 0
1 VP FP
Modelo ye
0 FN VN

Donde:
VP=Valores Verdaderos Positivos. FP=Falsos Positivos.
FN=Falsos Negativos. VN=Verdaderos Negativos.
VP VN
Sensibilidad = V P +F N
. • Especificidad = V N +F P
.
Área bajo la curva ROC (Receiver Operating Characteristic) es construida
para todos los posibles puntos de corte de π para la clasificación de los
individuos. La curva ROC es un gráfico en el que se observan todos los pares
sensibilidad/especificidad resultantes de la variación continua de los puntos de
corte en todo el rango de resultados observados. En el eje y de coordenadas
se sitúa la sensibilidad o fracción de verdaderos positivos, en el eje x se sitúa
la fracción de falsos positivos o (1-especificidad). El área bajo la curva está
dentro de un rango de 0 a 1, otorga una medida de la capacidad del modelo
para discriminar entre los sujetos que experimentan el resultado de interés
contra los que no lo hacen.

2. Cálculo del área bajo la curva ROC.

a) Guardar los valores que predice el modelo.


b) Calcular la U de Mann - Whitney en relación a los esperados.
AU C = 1− n1Un2 , donde n1 y n2 son los correspondientes números esperados de
“1” o “0”. La prueba U de Mann-Whitney es una prueba no paramétrica para
comprobar la heterogeneidad de dos muestras ordinales, donde el estadı́stico de
prueba se construye a partir de la suma de los rangos de una de las muestras,
Ri , elegida arbitrariamente.
Ui = n1 n2 + ni (n2i +1) − Ri donde i = 1, 2, [6].

3. Elección del punto de corte óptimo.

Se optimiza la sensibilidad y especificidad, para después elegir un punto de


acuerdo a la naturaleza del modelo predictivo.
El punto de corte se busca para emplear diferentes constantes en el modelo
logı́stico.
Con frecuencia la constante estimada, logra una sensibilidad y especificidad
máxima, pero puede no ser el caso.
Una regla general para la curva ROC es [5]:
a) Si ROC= 0.5 se sugiere no discriminación.
b) Si 0.7 ≤ ROC < 0.8 se considera discriminación aceptable.
c) Si 0.8 ≤ ROC < 0.9, se considera discriminación excelente.
d) Si ROC ≥ 0.9 se considera discriminación extraordinaria.

180
13.5. Credit Score
El Scoring es un método que ha venido evolucionando a lo largo de los años y el interés
en su aplicación se basa en calificar a individuos de cualquier población con información
propia de cada entidad, posibilitando la aplicación en cualquier mercado. Esta es una
técnica de la minerı́a de datos donde el objetivo es hallar patrones y relaciones con el
fin de clasificar; siendo este caso una evaluación crediticia para diferenciar entre clientes
cumplidos o incumplidos en cuanto a sus obligaciones de pago. Los Credit Scoring son
sistemas que ayudan a determinar si se otorga un crédito o no a nuevos solicitantes dentro
de una empresa financiera, de acuerdo a Hand and Henley, son procedimientos estadı́sticos
que se utilizan para clasificar a las personas que gestionan y solicitan un crédito, incluyendo
a las que ya son clientes de la institución crediticia en cuestión, en los tipos de riesgo
“Bueno” y “Malo”. Scoring se refiere al empleo del conocimiento sobre el desempeño
y caracterı́sticas de pagos en el pasado para poder ası́ pronosticar el cumplimiento de
préstamos en el futuro.

13.5.1. Ventajas del Scoring


Cuantifica el riesgo como una probabilidad
Consistencia: El proceso de análisis se aplica homogéneamente a todas las solicitudes.
Dos personas con las mismas caracterı́sticas tendrán el mismo pronóstico de riesgo,
sin embargo, podrá variar de acuerdo al analista quien hace la evaluación.
El scoring es explı́cito: En el scoring estadı́stico, se conoce y se puede informar el
proceso exacto que se utilizó para el pronóstico del riesgo.
Consideración de una amplia gama de factores: Las solicitudes de préstamo se
pueden evaluar de manera subjetiva donde se tomarı́a en consideración ciertas
razones financieras y polı́ticas de acuerdo a la institución, pero a diferencia del
scoring estadı́stico, el scoring subjetivo no puede considerar treinta o cincuenta
caracterı́sticas simultáneamente. El scoring estadı́stico puede cuantificar cómo
cambiarı́a el pronóstico de riesgo si una o más variables se modifican ya sea de
manera simultánea o de forma aislada. Permitiendo evaluaciones y la administración
de riesgo mucho más refinadas.
El scoring estadı́stico puede probarse antes de usarlo: Una ficha de calificación
recién planteada puede probarse para pronosticar el riesgo de los préstamos vigentes
en la actualidad, usando únicamente las caracterı́sticas conocidas en el momento que
se hizo el desembolso. Pudiendo ası́ hacer comparaciones entre el riesgo estimado y
el riesgo observado en la práctica, mostrando cómo habrı́a funcionado el scoring si
se hubiera aplicado al momento de las solicitudes de los préstamos vigentes.
Revela concesiones mutuas: El scoring muestra lo que el prestamista puede esperar
como consecuencia de implementar diferentes opciones de polı́tica, mejorando la
administración del riesgo. Por supuesto que el scoring no indica cuál polı́tica escoger,
pero sı́ cuales son las probables consecuencias de las diversas opciones, revelando
posibles escenarios diferentes a la realidad.
Relación entre el riesgo y las caracterı́sticas del prestatario, el préstamo y el
prestamista: Se busca analizar situaciones, por ejemplo se tiene el conocimiento
de que las mujeres cumplen mejor que los hombres con sus obligaciones financieras.
El scoring subjetivo se basa en las creencias que se derivaron de la experiencia y
del conocimiento recibido de otras personas, siendo estas correctas o incorrectas, o al
menos imprecisas. El scoring estadı́stico se deriva de las relaciones entre el riesgo y las
caraterı́sticas de los préstamos, a partir de datos históricos de ambos conceptos.

181
En general el scoring estadı́stico corrobora la orientación general del juicio subjetivo, por
ejemplo, los atrasos en préstamos pasados indican un riesgo mayor de futuros atrasos.

13.5.2. Desventajas del Scoring


El scoring estadı́stico como todos los modelos tiene también varias desventajas [16].
El prestamista que no considere estas desventajas correrá el riesgo de tener un proyecto
fracasado por no utilizar de manera adecuada el modelo. El scoring es una herramienta
muy eficaz, pero un mal uso de este puede resultar contraproducente. La exactitud de un
scoring dependerá del cuidado con el que se desarrolle, los datos sobre los que se basa el
sistema deben ser una rica muestra de préstamos bien ejecutados y mal ejecutados, deben
estar actualizados y los modelos deben ser reestimados con frecuencia para asegurar que
los cambios en las relaciones entre los factores potenciales y el rendimiento del préstamo se
capturan. Si la institución financiera que utiliza el scoring aumenta su grupo de solicitantes
mediante la comercialización masiva, debe asegurarse que el nuevo grupo de solicitantes
se comporta de manera similar al grupo en que se construyó el modelo. Por lo tanto, el
modelo no puede predecir con precisión en el comportamiento de estos nuevos solicitantes.

El Scoring requiere información de calidad adecuada.Todas las bases de datos


tienen información imprecisa o aleatoria, mientras estas perturbaciones no sean demasiado
fuertes, el scoring puede captar las señales de riesgo que emiten las caracterı́sticas presentes
en la base de datos.

El scoring estadı́stico puede denegar solicitudes pero no puede aprobarlas


o modificarlas. A menos que el prestamista tenga información de todas las solicitudes
denegadas, el scoring no aplica a toda la población de solicitantes antes de que hayan sido
visitados por los analistas de crédito. El scoring compara las solicitudes actuales con las
solicitudes históricas que están registradas en la base de datos; en otras palabras, el scoring
ignora todos los factores de riesgo que no estén cuantificados ni registrados en la base de
datos. Por lo tanto, el scoring no sustituye a los analistas de crédito ni a la evaluación
subjetiva personal.

El Scoring funciona con probabilidades, no con certezas. El producto del


scoring es un porcentaje, el riesgo pronosticado de que un préstamo se vuelva malo (según
la definición del prestamista) antes de que sea cancelado. Aunque el pronóstico es siempre
mayor que cero y menor que uno, el riesgo observado en la práctica es siempre cero (no
fue malo) o uno (sı́ fue malo), por lo que el scoring nunca “funciona” para un préstamo
dado, solamente funciona en promedio para un grupo de grande de préstamos.

El Scoring estadı́stico es susceptible al mal uso. El scoring brinda a la


administración de la empresa un pronóstico, pero no le indica qué hacer con la información.
El abuso más común es el descuido o negligencia, al ignorar el pronóstico y continúan
haciendo lo que siempre han hecho, el remedio consiste en la capacitación y seguimiento
dentro de la administración.
Otro mal uso es el exceso de anulaciones o excepciones, la decisión de la administración
de la empresa de hacer una excepción a la polı́tica del uso de scoring. Por ejemplo, si
se aprueba un crédito con un pronóstico de 60 % de riesgo de ser malo siendo el umbral
de malos del 50 %, dato conocido por los analistas. Es cierto que hay ocasiones que los
expertos conocen algo que el modelo ignora, dando como resultado que algunas excepciones
son aceptables, sin embargo, hay que dar seguimiento a estas excepciones y comparar su
desempeño con lo pronosticado para averiguar quién, en promedio, estaba en lo correcto,
los usuarios o el scoring.

182
Caracterı́sticas de los prestatarios, préstamos y prestamistas. La capacidad
de pronóstico aumenta con el número de caracterı́sticas disponibles. Sin duda, existen
rendimientos decrecientes entre mayor sea la cantidad de información, y aún más, el costo
marginal de recopilar caracterı́sticas adicionales puede ser muy alto.

13.6. Caso práctico: Análisis de Datos


EL sistema financiero y la economı́a alemana han estado definidos en los últimos años,
por el proceso de reunificación. “El impacto expansivo del mismo sobre las condiciones
económicas, monetarias, financieras y fiscales de Alemania ha sido enorme. Sus efectos son
consecuencia de la envergadura del fenómeno y de la forma en que se ha financiado [. . . ].
Los resultados finales se reflejaron en dos variables fundamentales, presiones inflacionarias
y desequilibrio de la balanza de pagos [9].” En 1992 se puso en marcha una nueva estructura
del Banco Central Alemán para poder adecuarse a la reunificación de las dos Alemanias
existentes en ese momento. Forjandose ası́ la base de la oferta de recursos financieros en
el mercado alemán dentro del sector de las familias en esos años. El endeudamiento de las
familias alemanas destacó por su bajo nivel, el comportamiento de las familias alemanas
se describió al tener escasa dependencia del crédito bancario, procurando autofinanciar en
gran medida sus compras de bienes de consumo duradero e, incluso, de vivienda; en este
último caso, a través de la acumulación de depósitos en sociedades de crédito hipótecario
entre otras instituciones, con anticipación al momento de la compra de la vivienda, los
ahorros financieros netos medios de las familias alemanas durante los años 1985 a 1994, fue
estable, siendo un rasgo positivo para la estabilidad de los mercados financieros alemanes
y para la eficacia de las polı́ticas macroeconómicas [9] y [10].

13.7. Descripción de la Base


La base de datos German Credit con la que se trabaja en este estudio, consiste en
la información de 1000 personas solicitantes de un crédito, contenida en la medición
de 20 variables para cada individuo. Cada solicitante ha sido clasificado dentro de
una de las dos posibles categorı́as, “Buen crédito” (700 casos) o “Crédito Malo”
(300 casos), ésta es la variable dependiente y es dicotómica.
Para la construcción del modelo se divide la base en dos partes: Primero se toma
una muestra aleatoria del 70 % llamada de entrenamiento con la cual se construye
el modelo, y con el 30 % restante se conforma la base de validación y se usa para
evaluar los resultados del modelo obtenido. Las variables independientes que fueron
seleccionadas para ser incluidas en el modelo, fueron 10 y estas son

1. Duración de crédito:
Esta variable se refiere a los meses que hasta el momento de la conformación
de la base ha estado activo el crédito. Es de caracter cuantitativo.

2. Monto de crédito:
Variable numérica que expresa el monto total del crédito otorgado.

3. Tasa de crédito:
Variable numérica que expresa la tasa del cŕedito.

183
4. Balance de cuenta:
Variable categórica que expresa el estado de la cuenta corriente de cada cliente,
tiene cuatro categorı́as, donde DM significa millones de dólares:
1 = Menor a cero DM. • 2 = Entre 0 y 200 DM.
3 = Mayor o igual a 200 DM. • 4 = No exista cuenta.
5. Historia Crediticia: Cuenta con 5 categorı́as en donde se muestra si el cliente
ha tenido otros créditos.
0 = No tiene créditos tomados/Todos los créditos pagados debidamente.
1 = Todos los créditos de este banco pagados debidamente.
2 = Créditos existentes debidamente pagados hasta ahora.
3 = Retraso en el pago en el pasado.
4 = Cuenta crı́tica/Otros créditos existentes (No en este banco)
6. Propósito: Tiene 11 categorı́as en las cuales se clasificó el propósito por el cual
el cliente solicitó un crédito.
0 = Carro (Nuevo). • 6 = Educación.
1 = Carro (Usado). • 7 = Vacaciones.
2 = Muebles/Equipo. • 8 = Capacitación.
3 = Radio/Televisión. • 9 = Negocios.
4 = Aparatos domésticos. • 10 = Otros.
5 = Reparaciones.
7. Cuenta de ahorros: Cuenta con 5 categorı́as:
1 = Menor a 100 DM. • 3 = Entre 500 y 1000 DM.
2 = Entre 100 y 500 DM. • 4 = Mayor a 1000 DM.
5 = Monto Desconocido /No tiene cuenta de ahorro.
8. Duración en el trabajo:
1 = Desempleado. • 3 = Entre 1 y 4 años.
2 = Menos de 1 año. • 4 = Entre 4 y 7 años.
5 = Mayor o igual a 7 años.
9. Género -EdoCivil:
1 = Hombre: Divorciado/Separado. • 3 = Hombre: Soltero.
2 = Mujer: Divorciada/Separada/Casada. • 5 = Mujer: Soltera.
4 = Hombre: Casado/ Viudo.
10. Otros planes de pago: Tipo de crédito simultáneo.
1 = Bancario. • 3 = Ninguno.
2 = Tiendas departamentales.

184
Escalón Chi-cuadrado gl Sig.
1 2.772 8 .948
2 4.046 8 .853
3 5.75 8 .675

Cuadro 13.1: Prueba de Hosmer y Lemeshow.

13.8. Estimación del Modelo en SPSS


Para construir el modelo se utiliza la base de entrenamiento, teniendo como
variable dependiente a la variable Clase, para los clientes incumplidos está la
etiqueta de Malos con un valor de 1, y para los clientes cumplidos como Buenos
con el valor de 0; incluyendo la lista de variables independientes. Se selecciona un
método para la introducción de variables en el modelo, por lo cual el programa
ofrece diferentes casos: Método hacia adelante (forward), hacia atrás (backward) o
de inclusión total (enter), donde se coloca la totalidad de las variables; estos métodos
se eligen bajo dos criterios: Bajo el estadı́stico de Wald o Devianza (LR). El modelo
selección ó el método Backward: LR para encontrar un modelo que tuviera variables
con nivel de significancia menor al 5 %, este método inicia incluyendo todas las
variables (10 variables).

13.8.1. Ajuste del Modelo


El ajuste del modelo fue evaluado con el estadistı́stico Hosmer-Lemeshow. Esta
prueba evalúa la hipótesis nula de proximidad entre la probabilidad de los valores
observados contra la probabilidad de los valores estimados en cada paso de cambio
del modelo. El Cuadro 1, muestra en cada escalón los valores obtenidos, se observan
tres escalones lo que representa que durante la construcción del modelo hubo 3 casos
en los que hubo una inclusión y/o eliminación de variables afectando al modelo.
En este caso se obtuvo un nivel de bondad de ajuste del 67.5 % en el tercer y último
escalón. Con ello podemos decir que tiene un buen ajuste el modelo.

13.8.2. Poder Predictivo


El poder predictivo del modelo es la capacidad que tiene de predecir la variable
dependiente; sustentado en los valores de las variables independientes.
Uno de los estadı́sticos que evalúan el poder predictivo es la R2 , en este caso el
paquete estadı́stico ofrece dos tipos de R2 análogos del Modelo de Regresión Lineal.

El Cuadro 2 muestra que hubo 3 cambios y se termina con 5 iteraciones. El


último valor de determinación fue de 0.362, explicando entre el 0.255 y el 0.362 de
la variable dependiente. La variable Clase queda explicada en un rango entre 25.5 %
y el 36.2 % por las variables explicativas del modelo.

185
Escalón −2 Logverosi− R2 R2
militud de Cox Nagelkerke
1 641.44 .263 .373
2 642.17 .262 .372
3 648.95 .255 .362

Cuadro 13.2: Resumen del Modelo.

13.8.3. Clasificación
La tabla de clasificación indica paso a paso la clasificación de clientes cumplidos
(Buenos) e incumplidos (Malos).

Punto Pasos Sensibilidad Especificidad 1−Especificidad


de corte
0.55 Paso 1 92.65 % 43.81 % 56.19 %
Paso 2 93.27 % 42.86 % 57.14 %
Paso 3 92.86 % 47.14 % 52.86 %
0.5 Paso 1 90.61 % 52.38 % 47.62 %
Paso 2 90.20 % 52.86 % 47.14 %
Paso 3 89.80 % 50.48 % 49.52 %
0.45 Paso 1 86.73 % 56.67 % 43.33 %
Paso 2 86.33 % 57.62 % 42.38 %
Paso 3 86.53 % 56.67 % 43.33 %
0.40 Paso 1 83.27 % 63.33 % 36.67 %
Paso 2 83.47 % 63.33 % 36.67 %
Paso 3 83.27 % 62.86 % 37.14 %

Cuadro 13.3: Valores de la Sensibilidad y Especificidad obtenidas en cada punto de


corte evaluado.

Se eligió el punto de corte de 0.55 (Cuadro 3), ya que aunque se arriesga la


clasificación correcta por debajo del 50 % de incumplimientos, no importando las
posibles ganancias que no serı́an tomadas por la proporción de clasificación correcta
de estos pero se está asegurando una correcta clasificación de clientes incumplidos
al ser la sensibilidad mayor del 90 %.

13.8.4. Poder Discriminatorio


Es la capacidad que tiene el modelo para poder clasificar de manera correcta a
los préstamos.
La curva ROC (Receiver Operating Characteristic) brinda una representación
gráfica del poder discriminatorio de un sistema de scoring, su gráfica se muestra
en la Figura 1.
Se obtuvo un área bajo la curva igual a 0.817, como lo muestra la Figura 2 ésta
área significa que para dos préstamos, uno seleccionado aleatoriamente del grupo

186
Figura 1: Gráfica de curva ROC.

de malos y otro elegido al azar del grupo de buenos, el préstamo malo presentará
un riesgo mayor al bueno el 81.7 % de las veces.

Figura 2: Área bajo la curva ROC.

Y de acuerdo a la regla general, con este valor se considera una discriminación


excelente.

13.8.5. Interpretación
Por último, ya es posible realizar el cálculo de la probabilidad de incumplimiento
a través de la ecuación de Regresión Logı́stica y los valores estimados de sus
coeficientes junto con los valores de OR:

Variable Coeficiente (c) OR = Exp(c) Coef = ln(OR)


Balance Cuenta
Balance Cuenta(1) 1.645 5.18 1.645
Balance Cuenta(2) 1.353 3.87 1.353
Balance Cuenta(3) 0.566 1.76 0.566
Historia Crediticia
Historia Crediticia(1) 1.436 4.20 1.436
Historia Crediticia(2) 1.657 5.24 1.657
Historia Crediticia(3) 0.767 2.15 0.767
Historia Crediticia(4) 0.767 2.15 0.767

187
Monto Crédito 0.000 1 0.000
Tasa Crédito 0.371 1.45 0.371
Propósito
Propósito(1) 2.002 7.40 2.002
Propósito(2) 0.209 1.23 0.209
Propósito(3) 0.953 2.59 0.953
Propósito(4) 1.024 2.78 1.024
Propósito(5) 2.055 7.81 2.055
Propósito(6) 0.774 2.17 0.774
Propósito(7) 1.721 5.59 1.721
Propósito(8) -0.05 0.95 -0.05
Propósito(9) 1.141 3.13 1.141
Cuenta Ahorros
Cuenta Ahorros(1) 1.012 2.75 1.012
Cuenta Ahorros(2) 0.458 1.58 0.458
Cuenta Ahorros(3) 0.832 2.30 0.832
Cuenta Ahorros(4) -0.503 0.60 -0.503
Género EdoCivil
Género EdoCivil(1) 0.548 1.73 0.548
Género EdoCivil(2) 0.278 1.32 0.278
Género EdoCivil(3) -0.438 0.65 -0.438
Duración Crédito Meses 0.032 1.03 0.032
Constante -6.608 0.00135 -6.608

Cuadro 13.4: Coeficientes estimados.

Con el Cuadro 13.4 se puede indicar que la Variable Propósito (Variable que se
evalúa con variables dummies para indicar el propósito por el cual fue la solicitud
del préstamo de cada cliente) es aquella que tiene más poder al momento de la
evaluación, sobre todo al tratarse de clientes cuyo propósito son ‘Reparaciones’,
el cual tiene un aumento de 7.81 veces en la probabilidad de incumplimiento. A
esta variable le sigue en términos de relevancia la variable Historia Crediticia en la
categorı́a ‘Créditos existentes debidamente pagados hasta ahora’, que aumenta la
probabilidad de incumplimiento 5.24 veces.

13.8.6. Validación
El scoring estadı́stico tiene la capacidad de ser probado antes de usarse. Este
procedimiento expone como funciona el scoring si se aplicara en el presente. La
validación se realiza con una muestra no utilizada para construir el modelo. Para
validar el modelo se usó una muestra denominada Muestra de validación que se
extrajo de la muestra original, siendo el 30 % del total de datos, la muestra es
aleatoria y se asegura que el 30 % de los datos contiene una proporción similar de
buenos y malos como la muestra del 70 %. Cuando se estimaron los coeficientes
se aplica el modelo a esta muestra con el mismo punto de corte. Los resultados
revelaron una sensibilidad del 92.86 % y una especificidad del 42.22 %, con una
clasificación total correcta del 77.7 %

188
13.9. Conclusiones
En la actualidad es importante contar con un basto conocimiento de los riesgos
y las diferentes metodologı́as que existen para su medición, teniendo como fin la
mejora en la operación crediticia. Este análisis se realiza usando el Modelo de
Regresión Logı́stica de credit scoring, la manera en que se plantea y realiza el
modelo, tomando en cuenta sus ventajas al no requerir el supuesto de normalidad
y por calcular directamente las probabilidades de incumplimiento. Se usa una base
de datos alemana que consta de 1000 observaciones de clientes, con 20 variables.
Se encontró que únicamente 10 eran las más significativas mediante el criterio de
selección Backward, las variables resultaron: Balance de cuenta, Historia crediticia,
Monto de crédito, Tasa de crédito, Propósito, Cuenta de ahorros, Género-Estado
Civil y Duración del crédito. El criterio de Hosmer-Lemeshov presenta un p-valor de
0.675, concluyendo un buen ajuste. No obstante se obtuvo un bajo poder predictivo,
evaluado por una R2 igual a 0.362. El área bajo la curva fue de 0.817, y por
regla general del poder discriminatorio. El punto de corte fue buscando tener una
clasificación correcta de clientes malos mayor al 90 %. La sensibilidad declara que
de los 210 préstamos malos en la muestra, el modelo detectó el 92.86 % de ellos.
El modelo de credit scoring depende únicamente de los datos con los que cuenta
la entidad en cuestión, las variables que se incluyen en el modelo son propias para
la institución por lo que no serán las mismas por completo si se aplica a otra
institución.

Referencias
1. Agresti A., Categorical Data Analysis, John Wiley Sons, Inc, 1990.

2. Altman, E. I., Saunders A., Credit Risk Measurement: Developments over the
Last 20 Years, Journal of Banking and Finance, 1998.

3. Banco de México, Definiciones básicas de Riesgos, https :


//es.scribd.com/document/114042651/Def iniciones − Basicas − de − V aR,
2005.

4. Draper R., Smith H., Applied Regression Analysis, Intersciencie, 1998.

5. Hosmer D. & Lemeshow S., Applied Logistic Regression, John Wiley & Sons,
2000.

6. Infante S., Zárate G., Métodos estadı́sticos: un enfoque interdisciplinario,


Trillas, 1990.

7. Malhotra D.K., Malhotra R., McLeod R.,


Artificial Neural Systems in Commercial Lending, The Bankers Magazine,
http : //scholarship.sju.edu/dssf ac/102/, 1994.

8. Mester Loretta J.,


What’s the point of Credit Scoring,Business Review, Federal Reserve Bank of
Philadelphia, http : //www.phil.f rb.org/f iles/br/brso97lm.pdf , 1997.

189
9. Quirós G., Mercados financieros alemanes, Banco de España,
https : //www.bde.es/f /webbde/SES/Secciones/P ublicaciones/
P ublicacionesSeriadas/DocumentosT rabajo/95/F ich/dt9528.pdf , 1995.

10. Sainz A., El sistema bancario en Alemania, I.D.O.E Universidad de Alcalá,


No. 88, 1994.
11. Schreiner M., Benefits and Pitfalls of Statistical Credit Scoring for
Microfinance, Microfinance Risk Management, 2004.
12. Schreiner M., Credit Scoring for Microfinance: Can It Work?, Microfinance
Risk Management, 2000.
13. SPSS (2010), IBM SPSS Statistics 22 para Windows.
14. Thomas, L. C., A survey of credit and behavioural scoring: forecasting
financial risk of lending to consumers, International Journal of Forecasting,
149-172, 2000.
15. Wooldridge M. Jeffrey, Introductory Econometrics, Cengage, 2006.
16. Women’s World Banking, Guidelines based on experience with WWB affiates
in Colombia and the Dominican Republic, Vol. 1, 2003.

190
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 14

Sostenibilidad Empresarial: Análisis desde una Perspectiva


Multivariante a través de la Metodologı́a HJ-Biplot

Elena Vernazza-Mañan, Alar Urrutikoetxea-Vicente

Instituto de Estadı́stica,
Facultad de Ciencias Económicas y de Administración,
Universidad de la República, Uruguay,
Instituto de Fundamentos y Métodos en Psicologı́a,
Facultad de Psicologı́a,
Universidad de la República, Uruguay,
[email protected], [email protected]

Resumen. En esta investigación se presenta un estudio de sostenibilidad


empresarial, referente a las 56 principales empresas del continente americano,
teniendo en cuenta variables de caracterización propias de cada empresa, ı́ndices de
sostenibilidad proporcionados por el Global Reporting Initiative (GRI, en su versión
G4) y datos económicos. Se realiza, a través de la implementación de la metodologı́a
Biplot (en particular, HJ-Biplot), una comparación multivariante de los indicadores
de sostenibilidad (variables continuas) y variables económicas. Entre los principales
resultados se destaca la diferencia en el reporte de los indicadores al considerar las
distintas regiones y el hecho de que no existe correlación entre las variables de
sostenibilidad y las económicas.

Abstract. This article presents a business sustainability study of 56 major


companies of the American continent, taking into account characterization variables
of each one, sustainability indexes provided by the Global Reporting Initiative (GRI,
in its G4 vesion) and economic benefit data. A multivariate comparison of the
sustainability indicators (continuous variables) and economic variables is carried out
by the implementation of the Biplot methodology (in particular, HJ-Biplot). As the
main results in the report, we can highlight the difference of the indicators

191
due to taking into account the different regions and the fact that does not exist
correlation between the variables of sustainability and the economic ones.

Palabras clave: Sustentabilidad/Sostenibilidad Empresarial, Responsabilidad


social corporativa, Global 500, Global Reporting Initiative (GRI), HJ-Biplot.

14.1. Introducción
El término sostenibilidad puede ser utilizado en diversos contextos. Existe la
sostenibilidad ambiental, económica, alimentaria, empresarial, etc., cada una refiere
a lo mismo pero aplicada a distintos ámbitos.

El concepto de sostenibilidad, tal y como se conoce hoy en dı́a, surgió en 1987


a partir de la necesidad de estudiar y delimitar el impacto sobre el medio ambiente
que tienen las acciones humanas. Desde ese entonces, los gobiernos de diferentes
paı́ses trabajaron para inculcar un hábito sostenible a las polı́ticas empresariales, y
ası́ trabajar entre todos en este sentido. Poco a poco amplios sectores económicos
y sociales pidieron una práctica sostenible acreditativa.

En 2002 se redactó el Código de Buen Gobierno de la Empresa Sostenible [8],


donde se define a la empresa sostenible como aquella que crea valor económico,
medioambiental y social a corto y largo plazo, contribuyendo de esa forma al
alimento del bienestar y al auténtico progreso de las generaciones presentes y
futuras, tanto en su entorno inmediato como en el planeta en general. Se entiende,
por lo tanto, que la sostenibilidad empresarial se encuentra fuertemente vinculada
a la responsabilidad social corporativa (RSC).

La RSC se define como la necesidad de que una empresa promueva e implemente


buenas prácticas de negocio, asumiendo la responsabilidad del impacto que genera
la actividad productiva a la que se dedica. Tal como establece Núñez ([6]),
para definir la RSC se deben considerar las siguientes cinco dimensiones: polı́tica
filantrópica de la empresa (concepto alejado de la RSC en el marco del desarrollo
sostenible), ética en los negocios (principios y valores compartidos con todos aquellos
miembros de la sociedad que tengan relación con la empresa), polı́tica de la
empresa (gobernabilidad sana basada en rendición de cuentas con monitoreo y
validación externa, transparencia y cumplimiento de las normativas), preocupación
y atención a todo el ciclo productivo (desde el proveedor de materia prima hasta
el consumidor final) y, por último, normativa y regulación (referente a que la
información proporcionada por la empresa resulte veraz y transparente).

Una vez establecidas estas caracterı́sticas, surge la necesidad de definir y diseñar


indicadores que permitan medir la adecuación de estándares técnicos y la efectividad
de los procesos llevados a cabo en la búsqueda de concretar lo establecido por cada
una de las dimensiones. Por esto surge la Iniciativa del Reporte Global (GRI) ([4],[5])
el cual, mediante determinados indicadores especı́ficos, estudia el comportamiento
de las empresas en las siguientes áreas: economı́a, medio ambiente, desempeño social,
prácticas laborales, derechos humanos, sociedad y responsabilidad sobre el producto.

192
En este trabajo se presentan los principales resultados obtenidos al realizar
un análisis multivariante de estos indicadores medidos sobre las 56 empresas más
grandes (del continente americano) en términos económicos1 . Se incorporan también
al análisis, algunas variables de identificación, ası́ como otras que caracterizan la
estructura económica propia de cada una de las empresas.

El objetivo general de este trabajo es comparar las 56 empresas más grandes (en
términos económicos) del continente americano teniendo en cuenta tanto indicadores
de sostenibilidad como datos económicos propios de cada una. A partir de este
objetivo general, surgen los siguientes objetivos especı́ficos:

1. Conocer qué región reporta más cantidad de ı́ndices de sostenibilidad.


2. Estudiar la relación que existe entre las variables de sostenibilidad y las
económicas.

14.2. Metodologı́a
Los métodos Biplot fueron desarrollados por Gabriel en 1971 [2] quien plantea
que éstos son una representación gráfica (en baja dimensión) de la información
proporcionada por una matriz de datos multivariantes y destaca la idea de que, tal
como un diagrama de dispersión es una representación gráfica de la distribución
conjunta (en particular, de la correlación) de dos variables, con los métodos Biplot
se representan las relaciones que existen entre más de dos variables [3].

Sea X una matriz de datos con información referente a n individuos y p variables,


por lo general continuas, una representación Biplot de ésta se logra a partir de la
determinación de a1 , a2 , ..., an marcadores fila y b1 , b2 , ..., bp marcadores columna de
forma tal que el producto interno ati bj logre reproducir el elemento xij original. En
formato matricial, si se considera A una matriz cuyas filas sean los marcadores
a1 , a2 , ..., an y otra matriz B tal que sus filas sean los marcadores b1 , b2 , ..., bp
entonces, la matriz X podrá ser aproximada como X ∼ = AB t .

La factorización de la matriz X siempre es posible, pero ésta no es única. Por lo


tanto, para que la representación Biplot sea válida es necesario imponer restricciones
que garanticen que la descomposición, y por lo tanto, la representación Biplot, sea
única.

Al igual que en la mayorı́a de las técnicas clásicas de análisis de datos


multivariantes basada en la reducción de dimensionalidad, la factorización propuesta
es la que se obtiene al realizar una descomposición de la matriz X en valores
singulares [1] (SVD, por su denominación en inglés). Por lo tanto, el punto de
partida de un análisis a través de la metodologı́a Biplot, será: X = U DV t , donde
U es una matriz cuyas columnas coinciden con los vectores propios de XX t , V otra
matriz cuyas columnas coinciden con los vectores propios de X t X y D la matriz
diagonal que contiene los valores singulares de X, equivalentes a las raı́ces cuadradas
1 Ranking FORTUNE 500: http://fortune.com/global500/

193
(≥ 0) de los valores propios de X t X.

Ası́, dependiendo de como se decida realizar la factorización de la matriz X se


obtendrá un tipo de representación Biplot diferente.

GH Biplot: A = U y B = V D. Al optar por esta factorización se preserva la


métrica de las columnas (variables) por lo que se obtiene una buena calidad
de representación de éstas y no tan buena para las filas (individuos).

JK Biplot: A = U D y B = V . Al optar por esta factorización se preserva


la métrica de las filas (individuos) por lo que se obtiene una buena calidad de
representación de éstas y no tan buena para las columnas.

HJ Biplot [4]: A = U D y B = V D. Al optar por esta factorización se


obtiene la misma calidad de representación tanto para de las filas, como para
las columnas.

Por lo tanto, en función del interés que tenga el investigador en el estudio


particular de las variables, los individuos o ambos, trabajará con una factorización
u otra. De todas formas, la interpretación geométrica resulta análoga para los todos
los casos.

Tomando como punto de partida de la interpretación: xij ∼ = ati bj , se tiene que


las relaciones entre individuos y variables pueden ser estudiadas a través de las
proyecciones de los puntos (individuos) sobre los vectores (variables).
Es decir,
xij ∼
= at bj ⇒ xij ∼
i =|| proyai /bj || signo || bj ||

con: || proyai /bj || = longitud de la proyección de ai sobre bj y || bj || módulo del


vector bj .

Teniendo en cuenta que la dirección del vector bj muestra la dirección en la


que aumentan los valores de la correspondiente variable, las proyecciones de los
puntos sobre los vectores proporciona una ordenación de los individuos respecto de
dicha variable. Además, la distancia entre individuos puede ser entendida como una
medida disimilaridad, por lo que, una distancia menor entre individuos implicará
una menor disimilaridad, fundamentalmente si éstos están bien representados. Por
otra parte, si las que están bien representadas son las variables, se entiende que las
longitudes y los ángulos determinados por los vectores (variables) miden variabilidad
y covariabilidad respectivamente.

En lo que refiere a las caracterı́sticas propias de cada uno de los métodos Biplot
clásicos, a continuación se detallarán las principales caracterı́sticas del GH Biplot,
que será el utilizado en la aplicación presentada en este trabajo.

194
Propiedades de los Marcadores
Para lograr una representación única, a excepción de posibles rotaciones, se
impone la restricción: At A = I, lo que implica:

X t X = (At B)t (At B) = BB t

Es decir, el producto escalar de las columnas de X, coincide con el producto escalar


de los marcadores columna: xtj xk = btj bk .
Por otra parte, si la matriz X es la matriz de datos centrada por columnas, se
tiene:
btj bk = cov(xj , xk )

Lo que implica que la longitud al cuadrado de los vectores que representan a los
marcadores columna, aproximan la covarianza entre las variables correspondientes.
Además:
p
|| bj ||=|| xj ||= var(xj ). Es decir, la longitud al cuadrado del vector
que representa un marcador columna aproxima la varianza de la variable
correspondiente, por lo que la longitud aproxima el desvı́o estándar.

cos(bj bk ) = corr(xj xk ). El coseno del ángulo que forman dos marcadores


columna, aproxima la correlación entre las variables correspondientes.

La distancia de Mahalanobis entre 2 filas se aproxima mediante la distancia


Euclidia de 2 marcadores fila.

X(X t X)−1 X t = AAt . El producto interno entre las filas de X, con la métrica
inversa de (X t X) es aproximadamente igual al producto interno entre los
marcadores fila.

Calidad de Representación
Si se realiza una aproximación de la matriz original X de rango r, con una de
rango menor q, la calidad de representación global se calcula como el cociente entre
la suma de cuadrados (SC) de Xq y de X.
r r
Recordando que SC(X) = tr(X t X) y que tr(X t X) = αi2 , donde:
P P
λi =
i=1 i=1
αi2 es el valor propio (de X t X) asociado al vector propio λi , se tiene:
q
P 
αi2
 i=1 
CRG =   × 100
P r 
αi2
i=1

Para determinar la calidad de representación de las columnas, se trabaja con la


matriz de covarianzas, S = X t X. Sustituyendo X por U DV t y recordando que en
esta representación, se impone At A = U t U = I, se tiene: S = V DDV t

195
q
P 
αi4
 i=1 
CRC =   × 100
P r 
αi4
i=1

Por último, la calidad de representación de las filas,

q
P 
αi0
 × 100 = q × 100
 i=1 
CRF =  r
P
0
 r
αi
i=1

14.3. Resultados

14.3.1. Análisis Descriptivo

Los datos utilizados en este trabajo corresponden a las 56 empresas más


grandes de América Latina y Caribe, y América del Norte. Se cuenta con
información referente a 116 variables divididas en 3 grupos: caracterı́sticas propias
de las empresas (Paı́s, Región, Tamaño, Sector), variables reportadas en el
Global 500 (Ingresos, Ganancias, Cantidad de Empleados, etc.,) e indicadores de
sustentabilidad reportados en el GRI (en su versión G4).
Para el análisis descriptivo se utilizó el software libre R - project [8], mientras que
para el análisis multivariante el software utilizado fue el MultBiplot [10].

Variables de Identificación

A continuación se presentan las principales caracterı́sticas de las empresas en


relación al primer grupo de variables.

En lo que refiere a la distribución de las empresas según su ubicación geográfica,


en el Cuadro 14.1 se observa que poco más del 10 % (7 de 56) de las empresas son
de América Latina. Además cabe destacar que de las restantes, más del 90 % (46
de 49) son empresas de Estados Unidos.

Por otra parte, en el Cuadro 14.2, se observa la distribución de las empresas por
paı́s según tamaño, donde se puede ver que no hay empresas pequeñas en estudio y
que de las analizadas, poco más del 50 % son multinacionales.

196
Cuadro 14.1: Cantidad de empresas por paı́s según continente.

Paı́s / Continente América Latina y Caribe América del Norte Total


Brasil 5 0 5
Canadá 0 3 3
Colombia 1 0 1
México 1 0 1
EE.UU 0 46 46
Total 7 49 56

Cuadro 14.2: Cantidad de empresas por paı́s según tamaño.

Paı́s / Tamaño Grande MNE Total


Brasil 5 0 5
Canadá 2 1 3
Colombia 0 1 1
México 1 0 1
EE.UU 17 29 46
Total 25 31 56

En lo que refiere al sector de actividad económica de cada una de las empresas,


en el Cuadro 14.3 se observa su distribución según paı́s.

Cuadro 14.3: Cantidad de empresas por sector según paı́s.

Sector / Paı́s Brasil Canadá Colombia México EE.UU Total


Primario 0 0 0 0 1 1
Industria, Agua y Energı́a 1 2 1 1 21 26
Comercio 1 0 0 0 7 8
Reparaciones 0 0 0 0 1 1
Servicios 0 0 0 0 2 2
Logı́stico 0 0 0 0 6 6
Educación y Servicios Sociales 0 0 0 0 1 1
Otros 3 1 0 0 7 11
Total 5 3 1 1 46 56

Los sectores de actividad considerados, y las ramas de actividad incluidas en


cada uno de ellos, son las siguientes, sector Primario: Agricultura, ganaderı́a,
caza, silvicultura y pesca; sector Industria, Agua y Energı́a: Explotación de
minas y canteras; industrias manufactureras y suministro de electricidad, gas y
agua; sector Construcción, sector Comercio: Comercio al por mayor y al por
menor, sector Reparaciones: Reparación de vehı́culos automotores, motocicletas,
efectos personales y enseres domésticos; sector Servicios: Hoteles y restaurantes;

197
sector Logı́stico: Transporte, almacenamiento y comunicaciones; sector Educación
y Servicios Sociales: Enseñanza, salud y otros servicios sociales y personales; y sector
Otros: Otros servicios.
Del total de 56 empresas en estudio, se observa que un 46 % se dedica a la Industria,
Agua y Energı́a, seguidas de aquellas que se dedican a brindar otro tipo de servicios
(20 %).
Por otra parte, cabe resaltar que hay solo una empresa del sector Primario, una
del sector Reparaciones, y una del sector Educación y que las tres corresponden a
empresas de Estados Unidos.
En cuanto al tipo de empresa (estatal, cooperativa, pública ó privada) sólo una de
las 56 empresas es estatal. Ésta se encuentra en Brasil, pertenece al sector otros
servicios y es una empresa de tamaño grande. Las restantes corresponden todas al
sector privado.

Variables del Global 500


Al realizar un análisis descriptivo univariado de las variables reportadas en el
Global 500, se tienen los resultados presentados a continuación. Tal como se observa
en el cuadro 4 el valor medio de ingresos de las empresas consideradas es 58659
(expresado en millones de dólares). Además, los ingresos del 25 % de las empresas
que tienen mayores ingresos superan los 72250 millones de dólares. Mientras que el
valor de esta variable para el 25 % de las empresas que menos ingresos tienen, es
menor a 34676 millones.
Al analizar las Ganancias, se observa que el 25 % de las empresas con menores
ganancias, reportan valores menores o iguales a 1671 millones de dólares. Cabe
resaltar que el valor mı́nimo de esta variable para las empresas en estudio es
negativo, lo que indica que en el perı́odo considerado esta empresa tuvo pérdidas.
En lo que refiere a los Bienes de cada empresa, se observa que la mitad de las
empresas reportan una cantidad de Bienes valuados en 68796 millones de dólares o
menos, mientras que la otra mitad reporta un valor mayor a esta cantidad.
Al considerar la cantidad de empleados que trabajan en cada empresa se observa
que la mayor cantidad reportada es de 371000 mientras que en el otro extremo se
encuentra una empresa con 5641 empleados.

Cuadro 14.4: Descriptivos univariados - Variables Global 500.

Mı́nimo Q1 Mediana Media Desvı́o Q3 Máximo


Ingresos 23906 34676 45600 58659 36482 72250 155929
Ganancias -19929 1671 3614 4600 6678.53 6425 29078
Bienes 11128 36272 68796 164031 225188.95 164189 902337
Empleados 5641 56901 89800 121220 93689.74 172900 371000
CambioIngresos -13 -0.50 2 3.91 10.48 6 59
CambioGanancias -183 -20 3 5.07 58.21 19 170
BeneficiosIngresos -16 2.50 7 8.21 8.68 11.35 30
RetornoActivos -13 1.45 4 4.67 5.92 7.64 19
PatrimonioAccionistas -11 8.50 13 21.71 29.31 23.50 142

Por otra parte, se reportan los cambios en Ingresos y Ganancias en términos


relativos ( %). Analizando estas variables, se observa que la mayor caı́da en las

198
ganancias es de más de 180 puntos porcentuales, mientras que el máximo cambio
es de un 170 %. Es de resaltar además, la asimetrı́a de esta variable ya que el 75 %
de las empresas tienen un cambio de 19 % o menos.

Por último, se observa que la variable Patrimonio Accionistas (que expresa


Beneficios como % del patrimonio de los accionistas), tiene un valor medio de 21.71 %
y un valor mediano de 13 %. Cabe resaltar, por último, que el rango de esta variable
es de 153.

En esta subsección, y de aquı́ en adelante, se descarta una empresa que presenta


valores extremadamente altos en algunas variables, como ingresos 4 veces mayores al
máximo reportado por las restantes 55 empresas (485651 millones de dólares). Esta
empresa corresponde a una multinacional de Estados Unidos, y entre los valores
atı́picos que presenta se destaca, además de los ingresos, la cantidad de empleados
(6 veces mayor al de las otras empresas). Estos valores alteran tanto las descriptivas
univariantes como el análisis multivariante presentado en la siguiente sección, por
lo que se decide no tenerla en consideración.

Por último, al realizar un estudio bivariante de las variables del Global 500 se
observa que todas las correlaciones son bajas excepto Ganancias y Beneficios de
Ingresos (0.7), Ganancias y Retorno de Activos (.69), y esta última con Beneficios
de Ingresos (0.67).

Cuadro 14.5: Matriz de correlaciones - Variables Global 500.

In. Ga. Bie. Em. C.In. C.Ga. Be.In. R.A. P.A.


In. 1.00 -0.05 0.26 0.51 -0.01 -0.30 -0.28 -0.23 -0.12
Ga. 1.00 0.11 0.10 0.10 0.15 0.70 0.69 0.19
Bie. 1.00 -0.08 0.19 0.01 0.10 -0.31 -0.21
Em. 1.00 0.00 -0.22 -0.23 0.04 0.25
C.In. 1.00 0.08 0.04 0.11 0.43
C.Ga. 1.00 0.20 0.23 0.09
Be.In. 1.00 0.67 0.12
R.A. 1.00 0.43
P.A. 1.00

Variables Reportadas en el GRI G4


Los resultados del análisis descriptivo de los ı́ndices de sostenibilidad reportados
en el GRI (versión G4) se realiza considerándolos agregados en dimensiones.

Tal como se observa en el Cuadro 14.6, todas las empresas reportan al menos
un indicador de las dimensiones Ambiental y Prácticas Laborales. Al considerar
el resto de las dimensiones se observa que en todas existe alguna empresa que no
reporta ningún indicador.

199
En el otro extremo, se aprecia que el máximo de cada una de las dimensiones
coincide con la cantidad de indicadores de cada una, es decir, que en todas las
dimensiones existe al menos una empresa que reporta todos los indicadores.

Resulta destacable además que tal como se aprecia en el cuadro, todas las
variables excepto Derechos H. presentan una distribución simétrica, ya que media
y mediana prácticamente coinciden.

Cuadro 14.6: Descriptivos univariados - Índices GRI (agregados).

Mı́nimo Q1 Mediana Media Desvı́o Q3 Máximo


Económica 0 4 5 5.42 2.51 7 9
Ambiental 5 11 19 19.38 9.38 28 34
Prácticas L 1 4 8 8.67 5.14 13 16
Derechos H 0 1 4 5.22 4.32 9 12
Sociedad 0 2 5 5.76 3.62 9 11
Responsabilidad 0 1 3 3.84 3.11 6.5 9

Por último, en el Cuadro 14.7 se presenta la matriz de correlaciones de las


dimensiones. En ella se observa que todas las correlaciones son altas y se destaca
la correlación que existe entre Prácticas Laborales, Derechos Humanos y Sociedad
(todas éstas mayores a 0.8).

Cuadro 14.7: Matriz de correlaciones - Índices GRI (agregados).

Ec. Amb. Pra.L Der.H Soc. Resp.


Ec. 1.00 0.73 0.74 0.71 0.75 0.54
Amb. 1.00 0.72 0.74 0.83 0.64
Pra.L 1.00 0.84 0.86 0.64
Der.H 1.00 0.83 0.71
Soc. 1.00 0.69
Resp. 1.00

Por último, en la Figura 1 se observa como todas las categorı́as son más
reportadas por las empresas latinoamericanas y destacan sobre las otras para
Latinoamérica las categorı́as de prácticas laborales (75 %) y sociedad (75 %), y para
Norteamérica la economı́a (60 %) y la ambiental (60 %).

200
Figura 1 Índices generales/acumulados GRI G4 - Por Región.

14.3.2. HJ-Biplot

En esta sección se presentan los principales resultados que surgen al realizar un


análisis multivariante de la sostenibilidad de las 55 empresas en estudio, realizado
mediante la aplicación de la técnica HJ - Biplot (descrita en la Sección 2).

En el Cuadro 14.8 se presentan los principales resultados obtenidos en relación


a la variabilidad (inercia) explicada por los primeros ejes factoriales.

Siguiendo los principios de parsimonia e interpretabilidad se decide trabajar con


tres ejes. De esta forma se obtiene una solución que logra explicar más del 60 % de
la variabilidad total y que resulta fácilmente interpretable.

Cuadro 14.8: Variabilidad explicada - HJ - Biplot.

Ejes Val. Prop. Var. Exp. Acumulada


Eje 1 263.09 32.48 32.48
Eje 2 148.35 18.32 50.80
Eje 3 92.61 11.43 62.23

En el Cuadro 14.9 se observan las contribuciones acumuladas de las variables en


cada uno de los ejes.

201
Cuadro 14.9: Contribución acumulada - HJ - Biplot.

Variable Eje 1 Eje 2 Eje 3


Economica 668 690 729
Ambiental 749 776 778
PracticasL 804 805 805
DerechosH 830 835 837
Sociedad 883 903 903
Responsabilidad 651 655 656
Ingresos 1 205 667
Ganancias 30 603 674
Bienes 3 26 30
Empleados 43 56 725
CambioIngresos 40 129 196
CambioGanancias 0 184 350
BeneficiosIngresos 131 716 720
RetornoActivos 30 769 805
PatrimonioAccionistas 11 268 459

Como se decide trabajar con una calidad de representación superior


a 400, las variables que quedan bien representadas en el plano principal
son: Económica, Ambiental, PrácticasL, DerechosH, Sociedad, Responsabilidad,
Ganancia, BeneficiosIngresos y RetornoActivos.

Al considerar el plano determinado por los ejes 1 y 3, se puede interpretar


también el comportamiento de las variables referentes a Ingresos y Empleados
(además de las ya interpretadas, a excepción de Bienes, CambioIngresos y
CambioGanancias). Se aprecia, además, en el Cuadro 14.9 que si se considera el
plano factorial determinado por los ejes 2 y 3, se puede analizar el comportamiento
de la variable PatrimonioAccionistas (con una calidad de representación superior a
400).

Los resultados generales obtenidos con el análisis HJ-Biplot se observan en la


Figura 2. En éste están representadas todas las variables y todas las empresas sin
tener en cuenta la calidad de representación.

202
Figura 2. HJ Biplot - General.

El resultado de imponer una calidad de representación de 400, en los ejes 1 y 2,


es la Figura 3. En ésta se distinguen dos grupos de variables que correlacionan entre
ellas y además son independientes el uno del otro. El primer grupo está compuesto
por: Responsabilidad, PrácticasL, Sociedad, DerechosH, Económica y Ambiental y
el segundo por: RetornoActivos, Ganancias y BeneficiosIngresos.

En cuanto a las empresas, en la Figura 3, se puede observar que el porcentaje


de empresas latinoamericanas que reportan los ı́ndices de sostenibilidad es mayor
que el de las empresas norteamericanas, 100 % y 50 % respectivamente. Además, las
empresas que reportan menores Ganancias, RetornoActivos y BeneficioIngresos son
latinoamericanas, concretamente una brasileña y la otra mexicana.

En la Figura 4, que representa el plano determinado por los ejes 1 y 3, se


puede observar que las variables que refieren a Ingresos y Empleados correlacionan
positivamente y que a su vez son independientes de los ı́ndices de sostenibilidad.

Por lo tanto, se entiende que las empresas con una cantidad más alta de
empleados tienen mayor número de ingresos. Se destaca el hecho de que éstas son en
su totalidad estadounidenses. Resalta, en el lado contrario, una empresa canadiense
como la empresa con ingresos más bajos y menor número de empleados (dentro de
las empresas con calidad de representación superior a 400).

203
Figura 3. HJ Biplot - Ejes 1 y 2.

Figura 4. HJ Biplot - Ejes 1 y 3.

Por último, se analiza el plano determinado por los ejes 2 y 3, el cual está
representado en la Figura 5. Lo destacable en este plano es la presencia de la variable
PatrimonioAccionistas (ausente en los anteriores), en la cual se observa como las
empresas que presentan menos valor son latinoamericanas.

204
Figura 5. HJ Biplot - Ejes 2 y 3.

14.4. Conclusiones
Como conclusión principal de los análisis presentados en este trabajo, se
destaca la diferencia en el reporte de los indicadores, de las 56 empresas más
importantes del continente americano, si se realiza una comparación por región,
ya que Latinoamérica presenta mayores reportes en todos los indicadores. En este
sentido, y teniendo en consideración, por ejemplo, que Brasil y México han firmado
(en 1997 y 1998) y ratificado (en 2002 y 2000) el protocolo de Kyoto (acuerdo
internacional que tiene como principal objetivo reducir las emisiones de seis gases de
efecto invernadero que causan el calentamiento global) y que, por otra parte, EEUU
lo ha firmado en el mismo año pero sin ratificación y que Canadá lo ha abandonado
en 2011, se entiende que los resultados obtenidos en esta investigación podrı́an ser
un inidcador del compromiso de Latinoamérica, frente a EEUU y Canadá, con la
sostenibilidad a nivel paı́s, con repercusiones en las polı́ticas empresariales.

Cabe resaltar, además, que los indicadores más reportados para Latinoamérica
son Prácticas Laborales y Sociedad, y para Norteamérica Económica y Ambiental.

Para finalizar, resulta destacable que no existe ninguna correlación entre las
variables de sostenibilidad y las económicas, por lo que se puede concluir que el
hecho de que una empresa sea sostenible no repercute en beneficios, ni pérdidas,
económicas en ella.

Este resultado podrı́a deberse, o bien al poco conocimiento, por parte de los
consumidores, de estos ı́ndices y su poca publicidad, lo que no hace decisiva la
elección de una empresa u otra en base a la sostenibilidad que reportan, o a
la sensación, por parte del consumidor, de que estas iniciativas solo sirven a las
empresas para deducir la carga fiscal o limpiar su imagen.

205
Como consideración a futuro, se propone realizar este mismo estudio con
empresas no tan potentes, económicamente hablando, para ası́ analizar sı́, en
un contexto más “familiar”, los consumidores eligen consumir en las empresas
dependiendo su grado de sostenibilidad.

Referencias
1. Eckart, J. y Young, G., Approximation of One Matriz by Another of Lower
Rank, Psychometrika, 1(3), 211 - 218, 1936.

2. Gabriel, K., The biplot graphic display of matrices with application to


principal component analysis, Biometrika, 58(3), 453 - 467, 1971.
3. Gabriel, K. y Odorff, C., Biplot in biomedical research, Statistics in Medicine,
9, 469 - 485, 1990.

4. Galindo, M.P., Una alternativa de representación simultánea: HJ-Biplot,


Questı́io, 10(1), 13 - 23, 1986.
5. GRI, G4 - Guı́a para la elaboracion de Memorias de Sostenibilidad - Parte 1,
https : //goo.gl/q66f 9K, 2013.
6. GRI, Memorias de Sostenibilidad,
https : //www.globalreporting.org/languages/spanish/P ages/M emorias −
de − Sostenibilidad.aspx (2015).
7. Nuñez, G., División de Desarrollo Sostenible y Asentamientos Humanos
(CEPAL), La responsabilidad social corporativa en un marco de desarrollo
sostenible., Series de la CEPAL: Medio Ambiente y Desarrollo 72, 70 pg.
CEPAL, Chile, 2003.
8. R Core Team, R: A Language and Environment for Statistical Computing.,
R Foundation for Statistical Computing, Vienna, Austria. http : //www.R −
project.org/, 2015.
9. Ricart, J.E. y Rodrı́guez, M.A., Código de Gobierno para la empresa
Sostenible: Guı́a para su implementación, Center for Business in Society, IESE,
2002.
10. Vicente Villardón, J.L., MULTBIPLOT: A package for Multivariate Analysis
using Biplots, Departamento de Estadı́stica, Universidad de Salamanca. http :
//biplot.usal.es/ClassicalBiplot/index.html, 2015.

206
Modelación con Estadı́stica y Probabilidad
ISBN: 978-607-525-442-5

CAPÍTULO 15

Una aplicación del modelo Weibull en el análisis de


supervivencia

Estela Morales-Ruiz, Francisco S. Tajonar-Sanabria, Fernando Velasco-Luna


Benemérita Universidad Autónoma de Puebla,
Facultad de Ciencias Fı́sico Matemáticas,
Av. San Claudio y 18 Sur, Col. San Manuel,
C.P. 72570, Puebla, Puebla,
[email protected], [email protected], [email protected]

Resumen. El análisis de supervivencia analiza el comportamiento de sucesiones


de eventos gobernados por leyes probabilı́sticas para el estudio del tiempo de un
evento en cierto estudio. El presente trabajo utiliza el modelo Weibull, uno de los
modelos de mayor utilización dado que ajusta a un conjunto grande de datos, su
caracterı́stica primordial radica en que su función de riesgo es polinomial y esto nos
indica el comportamiento del riesgo, además, la estimación de sus parámetros se
puede lograr utilizando el método de máxima verosimilitud

Abstract. Survival analysis studies the behavior of sequences of events governed


by probabilistic laws to analyze the time until the occurrence of an event of interest
in a certain system. The present work uses the Weibull model, one of the most
popular models given it provides estimate of baseline hazard function, and adjusts
to a large data set, among its characteristic the risk function is polynomial and this
indicates how risk behave, besides, the estimation of its parameters can be achieved
using the maximum-likelihood method which gives us consistent estimators. The
particularities of the model and an application will be presented.

Palabras clave: Función de supervivencia, función de riesgo, modelo Weibull.

207
15.1. Introducción
A través de la historia, la probabilidad y la estadı́stica han sido ramas de
la matemática aplicada que han ayudado a crecer a diversas áreas, tales como
biologı́a, medicina, ingenierı́a, fı́sica, etc. En particular el análisis de supervivencia
ha desarrollado tópicos de gran ayuda para dichas áreas, con el interés general de
estudiar el tiempo de vida de un elemento particular dentro de un sistema definido.

Cuando hablamos de tiempo de vida nos estamos refiriendo a la longitud de


tiempo hasta la ocurrencia de él suceso de interés (que suele ser el fallo de una
pieza, la ausencia repentina de ciertas caracterı́sticas, o la muerte o recaı́da de un
paciente) desde un punto fijado previamente. Es decir, el término tiempo de vida
se usa en sentido figurado. Matemáticamente, el tiempo de vida de una persona, un
grupo de personas u objeto se estudia a través de una variable aleatoria no negativa.

Fenómenos tales como el tiempo de vida de un enfermo terminal, la durabilidad


de electrodomésticos, fallas en maquinarias, el desarrollo de una enfermedad, etc.,
no pueden ser modelados de forma determinista, es decir, que existe un factor
aleatorio que determina el futuro del proceso en cuestión, ver Cox y Oakes
(1984). Supongamos que es de interés el establecer el tiempo en el que cierto
electrodoméstico dejará de ser útil, podemos observar que el tiempo en el que
este presentará falla es imprevisto, pues durante un tiempo funcionará de manera
correcta y en el siguiente presentará falla. Un ejemplo contrario serı́a el de una
cuerda que sostiene una carga, gradualmente está se debilitará en el transcurso del
tiempo, ası́ la falla depende del fenómeno de estudio. Klein, entre otros autores
establecen que un modelo probabilı́stico es un planteamiento realista para la
modelación de los eventos anteriormente descritos.

Cabe mencionar la existencia de múltiples modelos propuestos para el estudio


de datos relacionados con tiempos de vida, no obstante, existen casos en los que los
datos no pueden ser ajustados por modelos paramétricos clásicos. Ası́, el problema
dentro del análisis de supervivencia reside en determinar la distribución de los
tiempos de vida, dado que no siempre es posible determinar la distribución o
el modelo paramétrico, se utiliza un modelo semiparamétrico o no paramétrico
haciendo uso de la inferencia estadı́stica para la estimación de sus parámetros.

15.2. Teorı́a
El análisis de supervivencia es una técnica inferencial que tiene como objetivo
esencial modelar el tiempo que tarda en que ocurra un determinado suceso, es
decir, se encarga del estudio de eventos-tiempo. Entre los modelos que se han
propuesto para describir dichos eventos se encuentran los modelos: Exponencial,
Gamma, Weibull, y Lognormal, no obstante, como se mencionó anteriormente no
todos los datos se ajustan a tales modelos, por lo cual es necesario proponer modelos
más generales, para ası́ explicar el comportamiento de los datos aun cuando no se

208
ajusten a cierto modelo. El tiempo de vida de un objeto, en general depende de otras
variables, las cuales son explicables y que denominaremos covariables del fenómeno.

Sea T una variable aleatoria (v.a.), que denota el tiempo hasta que ocurre un
evento de interés; como puede ser el fallo de un electrodoméstico, el desarrollo de una
enfermedad, muerte, recurrencia en algún fallo, etc. En particular para este trabajo
T es una v.a. continua, no negativa que representa a una población homogénea.
Haremos uso de tres funciones que caracterizan de manera única a T :

Función de supervivencia.
Función de riesgo.
Función de densidad de probabilidad.

Todas las funciones, a menos que se indique lo contrario, están definidas sobre
el intervalo [0, ∞]. Donde f(t) denota la función de densidad de probabilidad de T
y F(t) su función de distribución acumulada, definida como:

F (t) = P [T ≤ t]
Z t (15.1)
= f (x)dx.
0

Definición 15.2.1 Para la v.a. T definimos la función de supervivencia como la


probabilidad de que un individuo sobreviva al menos hasta el tiempo t, esta función
está denota por S(t) y está dada por:

S(t) = P [T > t]
Z ∞
(15.2)
= f (x)dx.
t

Notemos que S(t), en algunos casos llamada función de confiabilidad, es


complemento de la función acumulada de probabilidad.

Propiedades:

S(t) es una función continua monotamente decreciente.


S(0) = 1.
S(∞) = limt→∞ S(t) = 0

Teorema 15.2.2 Sea T una variable aleatoria continua, con función de densidad
de probabilidad f(t), entonces:
dS(t)
f (t) = − (15.3)
dt

209
Definición 15.2.3 La función de riesgo se define como:

P r(t ≤ T < t + ∆t|T ≥ t)


h(t) = lim
∆t→0 ∆t
(15.4)
f (t)
= .
S(t)

La cual nos es útil para determinar de manera apropiada la distribución de


fallas. Además, especifica la tasa instantánea de muerte o fallo al tiempo t , dado
que el individuo sobrevive hasta t, h(t) ∆ t es la probabilidad de muerte o fallo en
[t, t + ∆t]. La única condición sobre h(t) es la no negatividad, es decir, h(t) > 0.

Corolario 15.2.4 Rt
S(t) = exp− 0
h(u)du

Demostración. Dado que S(t) = 1−F (t), tenemos que S 0 (t) = −F (t) = −f (t).
Luego
f (t) −S 0 (t)
h(t) = = (15.5)
S(t) S(t)
Integrando ambos miembros de 0 a t:
t t
S 0 (t)
Z Z
h(t)dt = − dt
0 0 S(t)
= −lnS(s)|t0 (15.6)
= −lnS(t) + lnS(0)
= −lnS(t).

Dado que lnS(0) = 0, lo cual es válido si y sólo si S(0) = 1 (esta última condición se
satisface si F (0) = 0, condición que expresa que la probabilidad de una falla inicial
es igual a 0), por lo tanto:
Rt
S(t) = exp− 0
h(u)du
. (15.7)

Teorema 15.2.5 Sea h(t) la función de riesgo de T, entonces esta determina de


forma única a la función de densidad de probabilidad:
Rt
f (t) = h(t)exp− 0
h(u)du
. (15.8)

Es decir que f puede expresarse en términos de la función de riesgo. De esta forma


señalamos que la función de riesgo proporciona más información del mecanismo
subyacente de falla que la función de supervivencia. Por esta razón es que la
función de riesgo es considerada como el elemento dominante para el análisis de
supervivencia.

210
15.3. Modelo Weibull
Propuesto por Berry (1975), Dyer (1975), Meier (1980) y Wilks (1990) como
modelo para datos de tiempo de vida a partir de la distribución Weibull, la cual fue
introducida por el fı́sico sueco Waloddi Weibull.

Lee y Thompson (1974) argumentaron que, en la clase de distribuciones de riesgo


proporcional, la distribución de Weibull parece ser el modelo más apropiado en la
descripción de tiempos de vida.

Lee y O´Neil (1971) y Doll (1971), afirman que este modelo ajusta muy bien
a datos que involucran tiempos de aparición de tumores en humanos y animales.
La distribución Weibull presenta un punto de partida para la estimación de sus
parámetros, haciendo uso de su función de supervivencia; abarcando varios tipos de
riesgo, para diferentes valores del parámetro β.

β > 1, creciente

β = 1, constante Riesgo

β < 1, decreciente

Para distintos valores de β, se ajustan un gran número de fenómenos de tiempo


de vida.

Definición 15.3.1 Una v.a. T tiene distribución de probabilidad de tipo Weibull,


si existen α, β > 0 tales que la función de densidad está dada por
   
 β · t β−1 · exp − t β , si t ≥ 0;
  
f (t) = α α α
0, d.o.f.

Propiedades:

Su función de distribución acumulada está dada por:


 −t β
F (t) = P (T < t) = 1 − exp α (15.9)

Su función de supervivencia, también conocida como función de confiabilidad,


está dada por:
 −t β
S(t) = exp α (15.10)

Su función de riesgo está dada por:

β  t β−1
h(t) = · (15.11)
α β

211
15.3.1. Parte Experimental

Una compañı́a requiere comparar la fiabilidad de dos diseños propuestos para


un artı́culo. La confiabilidad deseada a 400.000 ciclos es 0.90, en otras palabras, la
compañı́a quisiera que el 90 % de los artı́culos sobrevivieran al menos 400.000 ciclos.
Este objetivo se expresa matemáticamente como S(400.000) 0.90.

Se ensamblaron diez unidades con cada uno de los dos diseños: diseño A y diseño
B. Estas 20 unidades fueron probadas hasta que fallaron. La Tabla 1 muestra la
cantidad de ciclos hasta antes del fallo para cada artı́culo probado.

Diseño A Diseño B
Muestra Ciclos Muestra Ciclos
1 729,044 11 529,082
2 614,432 12 729,957
3 508,077 13 650,570
4 807,683 14 445,834
5 755,223 15 343,280
6 848,953 16 959,903
7 384,558 17 730,049
8 666,686 18 730,640
9 515,201 19 973,224
10 483,331 20 258,006
Tabla 15.1

Los datos de la Tabla 15.1 no indican claramente si el diseño cumple con la


meta deseada. Ambos diseños tuvieron al menos un fallo antes de 400.000 ciclos,
pero claramente el número promedio de ciclos antes del fallo supera los 400.000
para ambos diseños. Una comparación de los promedios de la muestra utilizando la
prueba t de Student no revela diferencia estadı́stica entre los ciclos medios para el
Diseño A y los ciclos medios para el Diseño B (valor de p = 0,965). Pero como una
simple medida de la tendencia central, el promedio de la muestra no da ninguna
información sobre la extensión o la forma de la distribución de los tiempos de falla.
¿Podrı́an los promedios de los dos diseños ser iguales, pero su tiempo de vida ser
bastante diferentes?

Modelar los datos usando análisis Weibull requiere de preparación: Analizando


las Tablas 15.2 y 15.3, debemos preguntarnos si podemos esperar que la gráfica
de ln(ciclos) vs las medianas transformadas tracen una lı́nea recta. Con un poco
de esfuerzo, la función de distribución acumulativa de Weibull puede transformarse
para que aparezca en la forma familiar de una recta: Y = mX + b

212
1 1
Ciclos DA Rango Media de Rango ln(ln( )) ln(Ciclos DA)
1 − M.R 1 − M.R
384558 1 0.06730769 1.07216495 -2.66384309 12.8598499
483331 2 0.16346154 1.1954023 -1.72326315 13.088457
508077 3 0.25961538 1.35064935 -1.20202312 13.1383883
515201 4 0.35576923 1.55223881 -0.82166652 13.1523124
615432 5 0.45192308 1.8245614 -0.50859539 13.3300797
666686 6 0.54807692 2.21276596 -0.23036544 13.4100744
726044 7 0.64423077 2.81081081 0.03292496 13.4953659
755223 8 0.74038462 3.85185185 0.29903293 13.5347683
807683 9 0.83653846 6.11764706 0.59397722 13.6019249
848953 10 0.93269231 14.8571429 0.99268893 13.6517591
Tabla 15.2

1 1
Ciclos DB Rango Media de Rango ln(ln( )) ln(Ciclos DB)
1 − M.R 1 − M.R
258006 1 0.06730769 1.07216495 -2.66384309 12.4607381
343280 2 0.16346154 1.1954023 -1.72326315 12.7463017
445834 3 0.25961538 1.35064935 -1.20202312 13.007702
529082 4 0.35576923 1.55223881 -0.82166652 13.1788987
650570 5 0.45192308 1.8245614 -0.50859539 13.3856042
729957 6 0.54807692 2.21276596 -0.23036544 13.5007409
730049 7 0.64423077 2.81081081 0.03292496 13.5008669
730640 8 0.74038462 3.85185185 0.29903293 13.5016761
959903 9 0.83653846 6.11764706 0.59397722 13.7745875
973224 10 0.93269231 14.8571429 0.99268893 13.7883696
Tabla 15.3

Ajustando una lı́nea a los datos. Se realiza una modelación tipo Weibull,
empezando por estimar los parámetros haciendo una transformación logarı́tmica
a S(t), para llegar a una forma lineal.
 x β

F (x) = 1 − exp α .
Equivalentemente,
  
1
ln ln = β · ln(x) − β · ln(α).
1 − F (x)

Una vez linealizada la función, i.e., expresada de la forma Y = mX ∗ + b, donde:


 1 
y = ln ln y X ∗ = ln(x).
1 − F (x)
Para ası́ obtener: y = βln(x) − ln(α)
Finalmente, comparando la última forma, se obtiene:
(
m=β
b = −βln(α)

Enseguida se procede a realizar una regresión lineal, el cuál fue hecha con
Analysis ToolPack de Excel, obteniendo los siguientes valores: β = 4.25, llamado
parámetro de forma y α = 693, 380, conocido como vida caracterı́stica. La cual
despejado del valor obtenido de la regresión con ToolPack y el hecho de que el
intercepto de la ecuación b = 4.2524 = −βln(α).
De ahı́ que:
4.2524
ln(α) = ,
−β

213
α = 693,335.73.

Mediante la realización de una regresión lineal simple, se obtienen estimaciones


de los parámetros que permitirán hacer inferencias sobre el tiempo de vida de ambos
diseños.

Resumen del Diseño A

De la misma manera, repetimos el proceso para el Diseño B

Resumen del Diseño B

214
15.4. Resultados
El parámetro de forma de Weibull, denominado β, indica si la tasa de fallos
es creciente, constante o decreciente. Un β < 1.0 indica que el producto tiene una
tasa de fracaso decreciente. Este escenario es tı́pico de la “mortalidad infantil” e
indica que el producto está fallando durante su perı́odo de “burn-in”. Un β = 1.0
indica una tasa de fracaso constante. Frecuentemente, los componentes que han
sobrevivido a quemado posteriormente exhibirán una tasa de fracaso constante. Un
β¿1.0 indica una tasa de fallos creciente. Esto es tı́pico de los productos que se están
agotando. Tal es el caso de nuestros artı́culos, tanto los diseños A como B tienen
valores β mucho más altos que 1,0. Los artı́culos fallan debido a la fatiga, es decir,
se desgastan.

La vida caracterı́stica de la Weibull, es una medida de escala, en la distribución


de datos. Ocurre que α es igual al número de ciclos en los que el producto ha fallado.
Aunque esto es interesante, todavı́a no revela si el diseño del artı́culo cumple con la
meta de supervivencia de S(400,000) 0.90. Para ello, es necesario conocer la función
de supervivencia asumiendo una distribución de Weibull:
 −t β
S(t) = exp α
dónde t es el tiempo, o número de ciclos, hasta que se presenta el fallo. Ası́, haciendo
uso de los valores conocidos para α, β y t, podemos obtener la estimación del tiempo
de vida deseada. Para el diseño A:
 −400, 000 4.25

S(400, 000) = exp 693, 380 = 0.91


y para el diseño B:
 −400, 000 2.53

S(400, 000) = exp 723, 105 = 0.799


Con este resultado asentamos el diseño A como la alternativa superior.
A partir de la información obtenida nuevas preguntas sobre el mismo sistema pueden
ser resueltas: suponga que la empresa planea ofrecer una garantı́a en el artı́culo.
¿Qué es necesario para establecer un tiempo de vida asegurable? Es deseable asignar
los fondos adecuados para validar la garantı́a, para no ser superado por los costes
inesperados de la garantı́a. Se fija el perı́odo de garantı́a de manera que no más del
1 % de las unidades vendidas fallaran antes de que venza el perı́odo de garantı́a.
¿Cómo puede determinar la duración de la garantı́a? Necesitamos obtener el número
de ciclos correspondientes a cierto nivel de supervivencia. Haciendo uso de la
forma inversa de la función de distribución de una Weibull, obtenemos que un
99 % sobrevivirá al menos 235,056 ciclos. Esta información provee ventajas sobre
competidores, pues estos 235,056 ciclos son equivalentes a 6.4 años de uso, ası́ el
extender una garantı́a de hasta 5 o 6 años, asegura ventaja sobre garantı́as más
cortas ofrecidas por competidores.

Vale la pena decir que la información obtenida del análisis explaya una tabla de
datos obtenidos a partir de la experimentación a un grupo de datos que proveen

215
información más completa sobre el proceso y por lo tanto, ayuda a resolver la
pregunta inicial, como a plantear nuevas interrogantes.

15.5. Conclusiones
La fortaleza de la distribución Weibull es su versatilidad. Dependiendo de
los valores de los parámetros, la distribución de Weibull puede aproximar una
distribución exponencial, normal o sesgada.

La versatilidad prácticamente ilimitada de la distribución de Weibull es igualada


por las innumerables capacidades de cálculo por distintas plataformas. Un analista
de datos que entiende la teorı́a detrás de un análisis dado, a menudo puede obtener
resultados que otros podrı́an asumir requieren análisis estadı́stico especializado. El
análisis de Weibull pone al alcance de la mayorı́a, datos con un buen ajuste.

Un análisis profundo del modelo Weibull abre puertas a un trabajo más detallado
y respaldado, a la solución a preguntas aún no planteadas, pero explotables gracias
a la basta cantidad de información que se obtiene.

Referencias
1. Cox, D. R., Oaks, D., Analysis of Survival Data, Chapman and Hall, 1984.
2. Klein, P.J., Techniques for Censored and Truncated Data, Springer, 2003.

3. Mood, A. M., Introduction to theory of statistics, McGraw-Hill, 1974.


4. Lawless, F.J., Statistical Models and Methods for Lifetie Data, John & Wiley
& Sons, Inc., 2011.

216
MODELACIÓN CON ESTADÍSTICA Y PROBABILIDAD

Editores

Hugo Adán Cruz Suárez


Bulmaro Juárez Hernández
Francisco Solano Tajonar Sanabria
Hortensia Josefina Reyes Cervantes
Fernando Velasco Luna
José Dionicio Zacarías Flores
Víctor Hugo Vázquez Guevara.

Fomento Editorial

2 Norte 1404, C.P. 72000

Puebla, Pue. México

Lugar de impresión: Facultad de Ciencias Físico Matemáticas, con domicilio en Av. San
Claudio y 18 sur, Col. San Manuel, Ciudad Universitaria, Puebla, Pue., C.P. 72570, Tel.
2295500, ext. 7550, fax 2295636

Tiraje: 300 ejemplares

También podría gustarte