2 Unidad - Estadistica para La Administracion

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 48

ANALIS DE REGRESIÒN

LINEAL Y MULTIPLE
Segunda Unidad

12 DE OCTUBRE DE 2022
LUIS DE LA CRUZ KEVIN DE JESUS
MINATITLAN, VERACUZ.
2.1 Estimación mediante la línea de regresión

ESTIMACIÓN

Para estimar la línea de regresión poblacional a partir de la nube de puntos se


utiliza el método de los mínimos cuadrados ordinarios (MCO), que considera
como recta que mejor se ajusta a la que minimiza la suma de los cuadrados de
los residuos.

Si la recta de mejor ajuste es   los errores o residuos se definen

como:   y los estimadores por MCO de la ordenada en el origen, , y


de la pendiente, , son:

Para evaluar la bondad del ajuste se calcula el coeficiente de determinación


R2 y, para medir la dispersión de los puntos alrededor de la recta estimada, el
error típico de la estimación Su. Estas medidas se definen como:

Donde SCT o suma total de cuadrados es la variación total de Y en la muestra


y SCR o suma de cuadrados de la regresión es la parte de la variación total
explicada por la recta ajustada. Por lo tanto, R 2 indica la proporción de
variación total explicada mediante la relación lineal entre X e Y, y toma valores
entre 0 y 1. Un valor de R2 próximo a 1 indica que la recta ajustada es un buen
modelo para explicar el comportamiento de la variable Y, y por lo tanto existe
relación lineal entre X e Y. Por el contrario, un valor próximo a 0 indica que la
recta ajustada no explica la variación observada en Y.

Para establecer el intervalo de confianza para la pendiente de la recta de


regresión,  , y contrastar si el valor de este parámetro es o no

1
significativamente diferente a cero es necesario calcular el error típico de b que
se define como:

El estadístico de prueba del contraste es  que presenta una distribución


de probabilidad t de Student con n-2 grados de libertad.

Para la obtención de la recta de regresión la secuencia es:

 Analizar
 Regresión
 Lineal

Se abre el cuadro de diálogo Regresión lineal donde se seleccionan las


variables Dependiente e Independientes.

 La opción Método permite elegir el método de estimación. Si se trata de


una regresión lineal simple (con una sola variable independiente) se

2
conserva la definida por defecto (Introducir) siendo el resto de opciones
para modelos con más de una variable explicativa.

 Cuando se desee realizar un ajuste lineal basado únicamente en los


casos que pertenecen a un subgrupo determinado por un valor o
conjunto de valores de otra variable, ésta se deberá indicar en Variable
de selección del cuadro de diálogo Regresión lineal e introducir la Regla
o condición que debe verificar un caso para ser incluido en el análisis.

 Opcionalmente se puede seleccionar la variable que recoge las


etiquetas de los casos indicándola en Etiquetas de caso.

 El botón MCP hace referencia a la estimación por mínimos cuadrados


ponderados.

Este cuadro de diálogo además permite ampliar el análisis de regresión


activando las opciones incluidas en Estadísticos, Gráficos y Opciones.

Estadísticos

El botón Estadísticos abre el cuadro de diálogo Regresión


lineal: Estadísticos que por defecto tiene activadas las
opciones Estimaciones y Ajuste del modelo.

- La opción Estimaciones proporciona las estimaciones de los coeficientes de la


recta ajustada   por el método de los mínimos cuadrados ordinarios
y sus correspondientes errores típicos, así como los coeficientes
estandarizados (beta), los valores del estadístico t y el nivel de significación
crítico.

- La opción Ajuste del modelo muestra en el resumen del modelo la bondad del


ajuste o coefiente de determinación y en el cuadro ANOVA la descomposición
de la suma total de cuadrados o información total observada.

3
Otras opciones que presenta este cuadro de diálogo son:

- Intervalos de confianza de los coeficientes de regresión que por defecto se


calculan al 95\%.

- Matriz de covarianzas y de varianzas, y la matriz de correlaciones de los


coeficientes del modelo que se analiza en el contexto de la regresión múltiple.

- Cambio en R cuadrado. Cuantifica la variación del coeficiente de


determinación que se produce al añadir o eliminar alguna variable
independiente en un modelo de regresión múltiple.

- Descriptivos incluye las medias y las desviaciones típicas de las variables


seleccionadas y la matriz de correlaciones.

- Diagnósticos por caso. Esta opción presenta dos alternativas para el análisis


de los residuos:

- la obtención de Valores atípicos a más de (por defecto 3) desviaciones


típicas. Identifica aquellos casos para los cuales el valor estandarizado de los
residuos difiere en (por defecto 3) o más desviaciones típicas de su media.
Para estos casos también presenta el valor observado, el valor pronosticado y
el residuo sin estandarizar. Incluye un cuadro de estadísticos de los residuos
con la media y desviación típica de los valores pronosticados y de los residuos,
tipificados y no tipificados, diferenciando entre los casos incluidos y los

4
excluidos del análisis. La identificación de casos atípicos es importante porque
su presencia en la muestra puede distorsionar los resultados de la regresión.

- la obtención de predicciones de Y para Todos los casos. Genera las


predicciones de Y, y sus correspondientes residuos para todos los casos.

El resto de opciones hacen referencia al modelo de regresión lineal múltiple. 

GRÁFICOS

El botón Gráficos abre el cuadro de diálogo Regresión Lineal: Gráficos.

Este cuadro de diálogo permite seleccionar los gráficos a incluir en los


resultados.

El recuadro superior presenta una serie de nuevas variables relacionadas con


las predicciones y los residuos. éstas pueden ser seleccionadas para definir los
ejes X e Y de los diagramas de dispersión que se quieren elaborar. Pulsando el
botón Siguiente el programa va numerando los diagramas que incluirá en los
resultados.

El recuadro Gráficos de residuos tipificados presenta dos


opciones: Histograma que muestra un histograma de los residuos tipificados
superponiéndole la distribución normal y Gráfico de probabilidad. normal que
crea un gráfico P-P útil para comprobar la hipótesis de normalidad a partir de
los residuos tipificados. La comprobación de esta hipótesis es fundamental

5
para la correcta interpretación de las estimaciones por intervalo, tanto de los
coeficientes de la recta como de las predicciones.

OPCIONES

El botón Opciones abre el cuadro de diálogo Regresión Lineal: Opciones.

Permite desactivar Incluir constante en la ecuación que elimina el término


independiente y proporciona la recta de regresión que pasa por el origen de
coordenadas. Por lo que se refiere a los Valores perdidos, además de las dos
posibilidades Excluir casos según lista, activada por defecto, y Excluir casos
según pareja, comentadas en el epígrafe 3.6, hay la posibilidad de Reemplazar
por la media, opción que sustituye los valores missing por la media de la
variable correspondiente.

6
2.2 Diagrama de Dispersión.

El Diagrama de Dispersión tiene el propósito de controlar mejor el proceso y


mejorarlo, resulta indispensable conocer cómo se comportan algunas variables
o características de calidad entre sí, esto es, descubrir si el comportamiento de
unas depende del comportamiento de otras, o no, y en qué grado.
 

El Diagrama de Dispersión es una herramienta utilizada cuando se desea


realizar un análisis gráfico de datos bivariados, es decir, los que se refieren
a dos conjuntos de datos. El resultado del análisis puede mostrar que
existe una relación entre una variable y la otra.
 

El estudio puede ampliarse para incluir una medida cuantitativa de tal relación.

Las 2 variables pueden estar relacionadas de la siguiente manera:

 Una característica de calidad y un factor que incide sobre ella


 Dos características de calidad relacionadas
 Dos factores relacionados con una misma característica de calidad

¿Para qué sirve el Diagrama de Dispersión?

 Indica si dos variables (o factores o características de calidad) están


relacionados
 Proporciona la posibilidad de reconocer fácilmente relaciones causa/efecto

En un Diagrama de Dispersión el patrón de puntos puede asumir formas


diversas, dependiendo de la relación que exista entre las variables. Si el patrón
de puntos asume la forma (quizás aproximada) de una línea recta, se dice que
existe una relación lineal entre las variables.
En ocasiones, algunos datos dan lugar a puntos anómalos, que se presentan
separados del patrón de puntos. El usuario debe dejar fuera del análisis esos
puntos, que quizás son debidos a lecturas equivocadas o a algún cambio en las
condiciones del proceso, etc.

7
 Pero se ganará conocimiento de este último al estudiar las causas por las que
se presentaron los puntos.

Un Diagrama de Dispersión no dice nada de porqué existe la correlación,


por lo que es imprescindible examinar la aparente relación entre las variables
desde el punto de vista científico o técnico.

¿Cómo se construye un diagrama de dispersión?

 Paso 1: Recolectar n parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3, …n


donde Xi y Yi representan los valores respectivos de las dos variables. Los
datos se suelen representar en una tabla.
 Paso 2: Diseñar las escalas apropiadas para los ejes X y Y.
 Paso 3: Graficar las parejas de datos. Si hay puntos repetidos, se mostrarán
como círculos concéntricos.
 Paso 4: Documentar el diagrama.

Lectura y uso del Diagrama de Dispersión

La lectura de un Diagrama de Dispersión se hace en base al tipo de relación


entre los datos; lo fuerte o débil de la relación, la forma de la relación y la
posible presencia de punto anómalos.
La relación entre los datos se denomina “correlación positiva” cuando a un
aumento en el valor de la variable X le acompaña un aumento en la otra
variable.
El caso inverso da lugar a la llamada “correlación negativa”.

8
El Coeficiente de Relación Lineal

El valor del coeficiente de correlación lineal de Pearson (r) proporciona una


medida del grado de relación entre dos variables y se calcula mediante la
expresión:
r = S (xy) / S(xx) S(yy)
donde:
S(xx) = ƩXi² – (ƩXi)² / n
S(yy) = ƩYi² – (ƩYi)² / n
S(xy) = ƩXiYi – ((ƩXi) (ƩYi)) / n
n es el número de parejas de datos. El término S(xy) se llama covarianza.

El valor del Coeficiente de Correlación es:


|r| = < 1
Si r = +1 o r = -1 se tiene entonces una correlación perfecta, lo cual significa
que todos los puntos caen sobre una línea recta.
Un valor de r = 0 indicará la ausencia de relación entre las variables; entre más
cercano esté el valor absoluto de r a la unidad mayor será el grado de
correlación.

9
Ejemplo

A la izquierda, se presenta una tabla en la que la variable X corresponde a la


experiencia en semanas de cada uno de los empleados a los que se
aplicó la prueba, y la variable Y al tiempo en minutos que tarda el empleado
en capturar correctamente los datos de un reporte a la computadora.

El Coeficiente de Relación Lineal

S(xx) = ƩXi² – (ƩXi)² / n = 90700 / 22 – (1270) ² = 17386.36


S(yy) = ƩYi² – (ƩYi)² / n = 47.77 / 22 – (28.7) ² = 10.32
S(xy) = ƩXiYi – (ƩXi) (ƩYi) / n = 1481 – (1270) (28.7) / 22 = -175.77
 

El valor del Coeficiente de Correlación es:


r = S (xy) / √(S(xx) S(yy)) = -175.77 / √ (17386.36) (10.32)
r = – 0.415 La correlación es negativa

10
La Ecuación de Regresión Lineal

La regresión lineal es utilizada para determinar modelos matemáticos del


comportamiento y relación de dos o varias variables interrelacionadas.
El modelo que se busca corresponde a la ecuación de la “mejor” línea recta
que pasa a través de los puntos. Tal ecuación, denominada Ecuación de
Regresión de Mínimos Cuadrados, es, en términos de las variables X y, la
siguiente:
Y=a+bX
b = (nƩXiYi – (ƩXi)(ƩYi)) /n ƩXi² – (ƩXi)²
a = (ƩYi – bƩXi) v/ n

Para el ejemplo anterior:

b = (nƩXiYi – (ƩXi)(ƩYi)) / ƩXi² – (ƩXi)² = ((22) (1481) – (1270) (28.7)) / 90700


– (1270) ² = 0.0025
a = ƩYi – bƩXi/n = 28.7 – ((0.0025) (1270)) / 22 = 1.15
Y = a + b X Y = 1.15 + 0.0025 X

2.3 Métodos de mínimos cuadrados

¿Qué son los mínimos cuadrados?

Es un procedimiento de análisis numérico en la que, dados un conjunto de


datos (pares ordenados y familia de funciones), se intenta determinar la función
continua que mejor se aproxime a los datos (línea de regresión o la línea de
mejor ajuste), proporcionando una demostración visual de la relación entre los

11
puntos de los mismos. En su forma más simple, busca minimizar la suma de
cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos
generados por la función y los correspondientes datos.

Este método se utiliza comúnmente para analizar una serie de datos que se
obtengan de algún estudio, con el fin de expresar su comportamiento de
manera lineal y así minimizar los errores de la data tomada.

La creación del método de mínimos cuadrados generalmente se le acredita al


matemático alemán Carl Friedrich Gauss, quien lo planteó en 1794 pero no lo
publicó sino hasta 1809. El matemático francés Andrien-Marie Legendre fue el
primero en publicarlo en 1805, este lo desarrolló de forma independiente.

Definición:

Su expresión general se basa en la ecuación de una recta y = mx + b. Donde


m es la pendiente y b el punto de corte, y vienen expresadas de la siguiente
manera:

Σ es el símbolo sumatorio de todos los términos, mientas (x, y) son los datos en
estudio y n la cantidad de datos que existen.

El método de mínimos cuadrados calcula a partir de los N pares de datos


experimentales (x, y), los valores m y b que mejor ajustan los datos a una recta.
Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias d
de los puntos medidos a la recta.

Teniendo una serie de datos (x, y), mostrados en un gráfico o gráfica, si al


conectar punto a punto no se describe una recta, debemos aplicar el método de
mínimos cuadrados, basándonos en su expresión general:

12
Cuando se haga uso del método de mínimos cuadrados se debe buscar una
línea de mejor ajuste que explique la posible relación entre una variable
independiente y una variable dependiente. En el análisis de regresión, las
variables dependientes se designan en el eje y vertical y las variables
independientes se designan en el eje x horizontal. Estas designaciones
formarán la ecuación para la línea de mejor ajuste, que se determina a partir
del método de mínimos cuadrados.

Ejemplo del método de mínimos cuadrados

Para entender con claridad la aplicación del método veamos un ejemplo:

Encontrar la recta que mejor se ajusta a los siguientes datos:

Veamos el gráfico:

13
Necesitamos encontrar una recta y = mx + b. Debemos aplicar el método de
mínimos cuadrados. Como ya sabemos entonces, primero centraremos el valor
(x ∙ y):

Segundo por las expresiones de m y b debemos encontrar el valor x²:

Ahora podemos obtener los valores de las sumatorias de cada columna:

Sustituimos en cada una de las expresiones:

La recta obtenida con el método de los mínimos cuadrados es la siguiente:

14
Observemos el gráfico:

Vemos que la recta corta al eje y en 11,48 y en el eje x en 13,57. Por lo tanto,
si queremos saber dónde corta en el eje x igualamos la ecuación y = 0:

Despejamos x:

2.4 Interpretación del error estándar de la estimación.

El error estándar de estimación mide la desviación en una muestra valor


poblacional. Es decir, el error estándar de estimación mide las posibles
variaciones de la media muestral con respecto al verdadero valor de la media
poblacional.

Por ejemplo, si se desea conocer la edad promedio de la población de un país


(media poblacional) se toma un pequeño grupo de habitantes, a los que
llamaremos “muestra”. De ella se extrae la edad promedio (media muestral) y

15
se asume que la población tiene esa edad promedio con un error estándar de
estimación que varía más o menos.

M. W. Toews [CC BY 2.5 (https://creativecommons.org/licenses/by/2.5)]

Habría que reseñar que es importante no confundir la desviación estándar con


el error estándar y con el error estándar de estimación:

1- La desviación estándar es una medida de la dispersión de los datos; es


decir, es una medida de la variabilidad de la población.

2- El error estándar es una medida de la variabilidad de la muestra, calculada


en base a la desviación estándar de la población.

3- El error estándar de estimación es una medida del error que se comete al


tomar la media muestral como estimación de la media poblacional.

¿Cómo se calcula?

El error estándar de estimación se puede calcular para todas las medidas que
se obtienen en las muestras (por ejemplo, error estándar de estimación de la
media o error estándar de estimación de la desviación estándar) y mide el error
que se comete al estimar la verdadera medida poblacional a partir de su valor
muestral

A partir del error estándar de estimación se construye el intervalo de confianza


de la medida correspondiente.

La estructura general de una fórmula para el error estándar de estimación es la


siguiente:

Error estándar de estimación = ± Coeficiente de confianza * Error estándar

16
Coeficiente de confianza = valor límite de un estadístico muestral o distribución
de muestreo (normal o campana de Gauss, t de Student, entre otras) para un
determinado intervalo de probabilidades.

Error estándar = desviación estándar de la población dividida por la raíz


cuadrada del tamaño de la muestra.

El coeficiente de confianza indica la cantidad de errores estándar que está


dispuesto a sumar y restar a la medida para tener un cierto nivel de confianza
en los resultados.

Ejemplos de cálculo

Suponga que está tratando de estimar la proporción de personas en la


población que tienen una conducta A, y se desea tener un 95% de confianza en
sus resultados.

Se toma una muestra de n personas y se determina la proporción muestral p y


su complemento q.

Error estándar de estimación (EEE) = ± Coeficiente de confianza * Error


estándar

Coeficiente de confianza = z = 1.96.

Error estándar = la raíz cuadrada de la razón entre el producto de la proporción


muestral por su complemento y el tamaño de la muestra n.

A partir del error estándar de estimación se establece el intervalo en el que se


espera se encuentre la proporción poblacional o la proporción muestral de otras
muestras que se puedan formar de esa población, con un 95% de nivel de
confianza:

p – EEE ≤ Proporción poblacional ≤ p + EEE

17
ejemplo:

1- Suponga que está tratando de estimar la proporción de personas en la


población que tienen preferencia por una fórmula láctea enriquecida, y se
desea tener un 95% de confianza en sus resultados.

Se toma una muestra de 800 personas y se determina que 560 personas en la


muestra tienen preferencia por la fórmula láctea enriquecida. Determine un
intervalo en el cual se pueda esperar se encuentre la proporción poblacional y
la proporción de otras muestras que se puedan tomar de la población, con un
95% de confianza

a) Calculemos la proporción muestral p y su complemento:

p = 560/800 = 0.70

q = 1 – p = 1 – 0.70 = 0.30

b) Se conoce que la proporción se aproxima a una distribución normal a


muestras de tamaño grande (mayores a 30). Entonces, se aplica la llamada
regla 68 – 95 – 99.7 y se tiene que:

Coeficiente de confianza = z = 1.96

Error estándar = √(p*q/n)

Error estándar de estimación (EEE) = ± (1.96) *√ (0.70) *(0.30) /800) = ±


0.0318

c) A partir del error estándar de estimación se establece el intervalo en el que


se espera se encuentre la proporción poblacional con un 95% de nivel de
confianza:

0.70 – 0.0318 ≤ Proporción poblacional ≤ 0.70 + 0.0318

18
0.6682 ≤ Proporción poblacional ≤ 0.7318

Se puede esperar que la proporción de muestra del 70% cambie hasta en 3.18
puntos porcentuales si toma una muestra diferente de 800 individuos o que la
proporción real de la población está entre 70 – 3.18 = 66.82% y 70 + 3.18 =
73.18%.

2.5 Intervalos de predicción

Como sugiere su nombre, un intervalo de predicción proporciona un rango de


valores que probablemente contenga una ocurrencia futura de un evento o el
valor de una muestra de datos adicional. Este rango se basa en el análisis de
una población de datos descrita anteriormente. El intervalo de predicción se
calcula generalmente en relación con un modelo estadístico de los datos
conocidos, a menudo utilizando un análisis de regresión lineal.

La incertidumbre asociada con el intervalo de predicción se establece por


adelantado y forma parte del proceso de cálculo. Por ejemplo, es posible que
deseemos encontrar un intervalo de predicción del 95% para los datos. En este
caso, los cálculos nos llevarán a estar seguros de que una observación
específica tomada en el futuro caerá dentro del intervalo de predicción 95 de
100 veces.

Intervalos de predicción frente a intervalos de confianza

Los intervalos de predicción a menudo se confunden con intervalos de


confianza. Si bien están relacionados, los dos procesos tienen diferentes

19
cálculos y propósitos. La distinción básica entre los dos es que el intervalo de
predicción predice en qué rango caerá una observación individual futura,
mientras que un intervalo de confianza muestra el rango probable de valores
asociados con algún parámetro estadístico de los datos, como la media de la
población.

Ésta es una distinción importante, porque el intervalo de confianza de los


valores medios para las poblaciones muestreadas será mucho más pequeño o
más estricto que el intervalo de predicción para los mismos datos. El intervalo
de predicción debe ser lo suficientemente amplio como para incluir casi todos
los puntos de datos reales, mientras que el intervalo de confianza solo necesita
incluir promedios de muestras de datos, que necesariamente caen dentro de un
límite mucho más pequeño.

Calcular intervalos de predicción

El cálculo manual de un intervalo de predicción es relativamente tedioso de


realizar a mano y, por lo general, se realiza mediante un paquete de software

estadístico. Aquí está la ecuación básica:

ME representa el margen de error para el intervalo de predicción en cualquier


lado del modelo de regresión. En lugar de trabajar con los detalles, podemos
ver esto gráficamente. Aquí hay un ejemplo de nuestro escenario de puesto de
concesión; Hemos elaborado un diagrama de dispersión de las ventas
recientes de chocolate caliente contra la temperatura de ese día. Como se
esperaba, las ventas de bebidas calientes bajan a medida que aumenta la
temperatura.

20
Se traza una tendencia lineal de mejor ajuste en los datos, que está
representada por esta ecuación:

Ventas = 14,250 – 155 * Temperatura

A partir de esto, podríamos hacer una predicción de ventas basada en la


temperatura esperada cualquier día. Una temperatura prevista de 70 grados da
como resultado 3.400 ventas esperadas de chocolate caliente. Sin embargo, el
rango de los datos reales es bastante amplio, hasta 4.000 unidades cerca del
rango de 70 grados. En lugar de depender solo del ajuste lineal, podemos

agregar el intervalo de predicción a los datos conocidos.

Las líneas punteadas representan el intervalo de predicción del 95% para estos
datos. El intervalo de predicción asociado a una temperatura de 70 grados es
{1680, 5120}. De esto podemos decir que la próxima vez que haga 70 grados
afuera, tenemos un 95% de confianza en que nuestras ventas estarán entre
1.680 y 5.120 tazas de chocolate caliente. Si bien ese puede parecer un rango
amplio, el cálculo debe tener en cuenta la variabilidad individual que se muestra
en los datos históricos.

Tamaño de la muestra e intervalo de predicción

En estadística, a menudo ocurre que sumar al número de muestras puede


aumentar nuestra confianza en alguna estimación. Sin embargo, el intervalo de
predicción mide los comportamientos individuales, en contraposición a los
valores medios o medianos, y los comportamientos individuales tienden a ser
inciertos independientemente del tamaño de la muestra.

También podemos ver en la ecuación para calcular el intervalo de predicción


que tiene el siguiente término agregado a los cálculos de errores individuales:

21
Donde n = tamaño de la muestra. Cuando aumentamos el valor de n en esta
ecuación, el término completo tiende hacia un valor de 1. Debido a que este
valor se usa como un multiplicador para el término de error estándar, multiplicar
por 1 significa efectivamente que el intervalo de predicción en sí no cambia
tanto como aumenta el tamaño de la muestra.

Resumen de la lección

Un intervalo de predicción proporciona un rango de valores que es probable


que adopten las muestras posteriores, dada una población conocida de
datos. Este rango o intervalo se establece en referencia a un nivel de confianza
específico. Los intervalos de predicción no deben confundirse con intervalos de
confianza. Los intervalos de predicción proporcionan rangos de valores
probables para puntos de datos individuales y son más amplios que los
intervalos de confianza. Aumentar el tamaño de la muestra de los datos tiene
poco efecto sobre el rango real de valores de predicción, ya que el rango de
predicción debe tener en cuenta toda la variabilidad en las muestras de datos
individuales.

22
2.6 Análisis de correlación.

En la rama de la estadística, la correlación se refiere a que existe un vínculo


entre varios eventos. Una de las herramientas que nos permite inferir si existe
dicho vínculo es justamente el análisis de correlación. Este procedimiento tiene
por objetivo indicarnos si existe relación entre dos eventos – es decir,
variables–, un poco sobre la naturaleza de dicha relación, y su fuerza. Para
poder realizar un análisis de correlación confiable, lo primero que se necesita
es realizar muchas observaciones de dos variables. Un ejemplo sería visitar
muchos supermercados y revisar tanto el precio de cierta fruta como el precio
de un litro de jugo. La colección de datos que se obtenga para aquellas
observaciones puede expresarse en forma de una matriz (o tabla), que puede
someterse a análisis utilizando software de estadística, como R, SAS, SPSS,
etc.

El análisis de correlación general da como resultado un número entre -1 y 1,


llamado coeficiente de correlación. Este resultado nos sirve para entender tres
cosas:

23
1. Si existe o no correlación entre las variables. Un coeficiente que valga
cero indica que nuestras variables son independientes; un ejemplo de
esto sería que no hay relación entre qué tan dulce es una fruta y cuál es
el precio de un litro de jugo.
2. Qué tan fuerte es la correlación (si es que existe). A más se ‘aleje del
cero’ el coeficiente, más fuerte será la correlación entre las dos
variables. Siendo así, las correlaciones cuyo coeficiente esté más cerca
de -1 o 1 serán más poderosas.
3. Detalles sobre la naturaleza de la correlación. Existen correlaciones
llamadas directas (donde ambas variables aumentan o disminuyen
simultáneamente) e inversas (donde cuando una variable aumenta, la
otra disminuye). Un coeficiente positivo significa que la correlación es del
primer tipo, mientras que uno negativo indica que es del segundo. Un
ejemplo de correlación positiva es que, si el precio de una fruta aumenta,
el precio de un litro de jugo de dicha fruta también aumentará; una
correlación negativa sería que a más gente consuma una fruta, menor
cantidad de fruta estará disponible.

El coeficiente de correlación es el resultado de dividir la covarianza entre las


variables X y Y entre la raíz cuadrada del producto de la varianza de X y la de
Y.

Berenice Jiménez Marín. (2017). Análisis de correlación/Conogasi.org Sitio


web: https://conogasi.org/articulos/analisis-de-correlacion/

2.7 Análisis de regresión múltiple y correlación.

Análisis de correlación en regresión múltiple  

Cuando se tiene muchas variables y no se conoce cuál de ellas se puede


expresar en términos de las demás; es decir cual puede actuar como variable
dependiente, se debe tratar de analizar la relación de dependencia entre las

24
demás variables. Esta relación de dependencia se puede ver de varias
maneras:

 Entre pares de variables


 Entre una variable y las demás
 Entre pares de variables, pero eliminando el efecto de las demás
(análisis de correlación parcial)
 Entre todas las variables. 

Dependencia Entre Pares de Variables: Coeficiente de Correlación  

Al determinar la dependencia lineal entre dos variables nos permite conocer si


estas están relacionadas; es decir si una de ellas se puede expresar en función
de la otra, lo cual implicaría que una de ellas aporta la misma información que
la otra. Por tanto, si las dos variables están presentes en el modelo sería

redundante. Esta relación de dependencia entre dos variables   y   se

puede visualizar esta correlación es mediante el gráfico de Matrix Plot, el cual


se presenta en la figura y calcular mediante el coeficiente de correlación lineal
de Pearson, dado por:

Figura 1. Gráfico Matrix Plot para los Datos del Ejemplo.

En este gráfico es una matriz que tiene en sus entradas los gráficos de
dispersión entre cada para de variables. Se observa en la gráfica que en la

posición   está el gráfico de dispersión entre la variable   y la variable  ,

de la cual se puede decir que la variable   se relaciona linealmente con la

25
variable   y que el grado de relación es fuerte (valor cercano a 1). Observe que

las variables   y   parecen estar relacionadas linealmente.

Análisis de Correlación en Regresión Múltiple  

En MINITAB 13, se puede obtener el gráfico Matrix Plot llevado a cabo las
siguientes instrucciones:

1. Seleccione el menú graph, después Matrix Plot.

2. Aparece una ventana donde se deben ingresar las varíales dependientes.


Luego haga clic en OK, y obtendrá el gráfico

¿Cómo se Calcula el Coeficiente de Correlación?  

Para determinar el grado de relación entre las variables se debe calcular los
coeficientes de correlación, los cuales miden la dependencia lineal entre dos

variables. Este coeficiente para las variables   y   es dado por

donde   es la covarianza muestral entre   y   determinada por la

expresión:

Una manera fácil de determinar las covarianzas entre cualquier par de


variables es mediante la matriz de covarianzas y varianzas muestrales. Se
puede obtener una matriz que contenga todas las correlaciones entre las

variables. Esta matriz es llamada matriz de correlación muestral  , la cual se

puede obtener a partir de la matriz de la matriz de varianzas y covarianzas  ,

al aplicar la siguiente expresión:

26
donde   es una matriz diagonal que contiene las desviaciones estándar de

las variables. Si se tienen   variables entonces la matriz de correlación tiene la

siguiente estructura

donde:
r = coeficiente de correlación entre la variable  y 

r = coeficiente de correlación entre la variable  y 

Algunas características de esta matriz   son:

1. Es una matriz simétrica,   para todo  , o también 

2. Los elementos de la diagonal toman el valor de  , ya que   

para todo  .

3.  es una matriz semidefinida positiva, es decir para un vector

cualquiera de números reales,   se cumple

que  .

2.8 Residuales y graficas de residuales

Como se ha indicado anteriormente, el análisis de los residuos es básico para


chequear si se verifican las hipótesis del modelo de regresión. Por ello, a
continuación, se exponen las propiedades matemáticas de los mismos.
Considérese el modelo de regresión lineal múltiple

27
Los residuos mínimo-cuadráticos vienen dados por

o en forma matricial

-1
Como = H , siendo H = X Xt la matriz de proyección ortogonal. Es fácil
probar que la matriz H es idempotente y simétrica . En base
a esto

= - = -H = =
= X + -HX -H = ,

donde se utilizó que HX = X. Se calcula la matriz de varianzas de los residuos,

Por tanto, e es una variable aleatoria con distribución

donde hii es el valor de influencia de i


.
que mide la “distancia estadística” de i
.

a . Un residuo “grande” indica que la observación está lejos del modelo


estimado y, por tanto, la predicción de esta observación es mala. Las
observaciones con residuos grandes se denominan observaciones atípicas o
heterogéneas (outlets).

Como los residuos tienen varianza variable y son dimensionados (tienen las
unidades de la variable Y), normalmente se tipifican

28
los residuos tipificados siguen una distribución normal estándar, pero como 2

es desconocido, se sustituye por su estimador, la varianza residual R


2
y se
obtienen los residuos estandarizados, definidos como

(9.11)

Por la hipótesis de normalidad los residuos estandarizados siguen una


distribución t con n- grados de libertad. Como ya se indicó en el estudio
del modelo de regresión lineal simple, en el cálculo de r i existe el problema de
que hay una relación de dependencia entre el numerador y el denominador de
ri. Para evitar esto, con mayor esfuerzo computacional, se calcula para cada i, i
= 1, n, el estimador R, , la varianza residual del modelo de regresión obtenido
a partir de la muestra en la que se ha eliminado la observación . Ahora
se definen los residuos estudentizados como

(9.12)

Los residuos estudentizados siguen una distribución t con - grados


de libertad. Si el tamaño muestral es grande, los residuos estandarizados y
los estudentizados son casi iguales y muy informativos, pudiéndose considerar
grandes los residuos estandarizados tales que > 2.

Con los residuos estandarizados o estudentizados se pueden construir los


siguientes gráficos de interés:

El gráfico de dispersión matricial, de todas las variables del modelo


(respuesta y regresoras). En el estudio de un modelo de regresión lineal
múltiple es el primer gráfico que se debe observar. Proporciona una primera
idea de la existencia de relación lineal o de otro tipo entre la respuesta y las
regresoras y también da una idea de posibles relaciones lineales entre las
variables regresoras, lo que crea problemas de multicolinealidad.

El gráfico de dispersión matricial para los datos del Ejemplo 7.1. se representa
en la Figura 9.2.

29
Figura 9.2. Gráfico matricial con los datos del Ejemplo 7.1.

El histograma de los residuos, que sirve para observar la existencia de


normalidad, simetría y detectar observaciones atípicas.
El gráfico probabilístico de normalidad (p-p y q -q) y el gráfico de
simetría, que permite contrastar la normalidad (simetría) de la distribución de
los residuos.
El gráfico de residuos  frente a las predicciones , que permite
detectar diferentes problemas:

Heterocedasticidad, la varianza no es constante y se deben de transformar


los datos (la variable Y) o aplicar mínimos cuadrados ponderados.
Error en el análisis, se ha realizado mal el ajuste y se verifica que los
residuos negativos se corresponden con los valores pequeños i y los
errores positivos se corresponden con los valores grandes de i, o al revés.
El modelo es inadecuado por falta de linealidad y se deben de transformar
los datos o introducir nuevas variables que pueden ser cuadrados de las
existentes o productos de las mismas. O bien se deben introducir nuevas
variables explicativas.
Existencia de observaciones atípicas o puntos extremos.
Tener en cuenta que se debe utilizar el gráfico de residuos    frente a las
predicciones  en lugar del gráfico de residuos    frente a las
observaciones  porque las variables e están corraladas, mientras que
las variables e no lo están.
El gráfico de residuos frente a una variable explicativa , permite
deducir si la existencia de heterocedasticidad o la falta de linealidad en el

30
modelo son debidas a la variable explicativa representada.

Gráficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la
primera de ellas se observa que la relación con la variable x j no es lineal y,
probablemente, un ajuste cuadrático sea adecuado, también se tendrían
dudas acerca de la homocedasticidad del modelo.

Figura 9.3. Gráfico de residuos frente a variable regresora. Ajuste no lineal.

En la Figura 9.3 se observa que el modelo es heterocedástico y la causa de


este problema puede ser la variable explicativa x j. Por ello, la solución se basa
en transformar el modelo teniendo en cuenta este hecho.

Figura 9.4. Gráfico de residuos frente a variable regresora. Heterocedasticidad.

31
El gráfico de residuos frente a una variable omitida, permite valorar
si esta variable influye en el modelo y por lo tanto se debe incluir como una
nueva variable regresora.

En la Figura 9.5. de residuos frente a una variable omitida se


observa que existe una relación lineal con esta variable y por tanto se
mejora el ajuste si se incluye la variable X.

Figura 9.5. Gráfico de residuos frente a variable omitida.

Una situación frecuente se produce cuando se tienen observaciones de


diferentes poblaciones y se debe de incluir una variable de clasificación en
el modelo de regresión. Esto se puede observar en el gráfico de residuos
frente a predicciones como se puede ver en la Figura 9.6.

Figura 9.6. Necesidad de una variable de clasificación.

El gráfico de los residuos frente a la variable de clasificación omitida se


presenta en la Figura 9.7.

32
Figura 9.7. Residuos frente a variable de clasificación omitida.

El gráfico parcial de residuos, es útil para valorar la influencia real de una


variable regresora, esto es, conocer la información nueva que aporta la
variable regresora en estudio y que no aportan las otras variables
regresoras.  

Según el paquete estadístico que se utilice los gráficos parciales de


residuos se pueden construir de diferentes formas.

Tipo 1.

Si se tienen k variables regresoras y se desea obtener el


gráfico parcial de residuos respecto a la variable x k, se procede de la
siguiente forma: 

1. se calcula el modelo de regresión respecto a las restantes


variables regresoras,

2. Se calculan los residuos

que representan la parte de Y no explicada por las variables x 1, x2, xk-1. 

33
1. Por tanto, la gráfica de los residuos “parciales” e k* frente a la variable
xk permite valorar la importancia real de esta variable.

Tipo 2.

Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente


forma. Calcular

*
k = + k k = + k k

= -
*
Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k

frente a la variable xk.

Si la variable xk es ortogonal a las restantes variables explicativas los


*
estimadores i y i , i = 1, k - 1, serán muy próximos y, por tanto, también lo son
los vectores ek* y k
*
. Lo que hace que los dos gráficos de residuos parciales
sean casi iguales en este caso.

Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos
se observa que existe una relación lineal entre las variables regresoras y la
variable de interés.

Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente


forma. Calcular

*
k = + k k = + k k

= -
*
Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k

frente a la variable xk.

Si la variable xk es ortogonal a las restantes variables explicativas los


*
estimadores i y , i = 1..., k - 1, serán muy próximos y, por tanto, también lo
i

son los vectores ek* y k


*
. Lo que hace que los dos gráficos de residuos
parciales sean casi iguales en este caso.

34
Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos
se observa que existe una relación lineal entre las variables regresoras y la
variable de interés.

Tipo 3.

Otro gráfico parcial de interés que proporcionan algunos paquetes estadísticos


es el siguiente (se quiere calcular el gráfico parcial respecto a xk):

Se calculan los modelos de regresión de las variables Y y xk respecto a las


restantes variables regresoras.

Ahora se representa el gráfico de residuos de ek* frente a los residuos e ,k. Esto


es, el gráfico de los pares. Este gráfico da una idea de la relación entre la
variable Y y la variable xk una vez que se ha eliminado la influencia de las otras
variables regresoras.

2.9 Interpretación de intervalos de confianza

35
El intervalo de confianza describe la variabilidad entre la medida obtenida en un
estudio y la medida real de la población (el valor real). Corresponde a un rango
de valores, cuya distribución es normal y en el cual se encuentra, con alta
probabilidad, el valor real de una determinada variable. Esta «alta
probabilidad» se ha establecido por consenso en 95%. Así, un intervalo de
confianza de 95% nos indica que dentro del rango dado se encuentra el valor
real de un parámetro con 95% de certeza5-8.

Para comprender y hacer intuitivo el concepto de intervalo de confianza


utilizaremos un ejemplo clásico6:

Supongamos que tenemos una moneda, la cual puede o no estar balanceada.


Así, después de varios lanzamientos, la probabilidad que el resultado sea sello
variará desde 0 (todas las veces cara, es decir, una moneda balanceada) hasta
1 (todas las veces sello, nuevamente balanceada), pasando por 0,5 (la mitad
de las veces sello y las otras cara, lo que equivale a una moneda no
balanceada). Como no conocemos la verdadera naturaleza de la moneda,
vamos a experimentar con ella.

Iniciamos el experimento con 2 lanzamientos, uno es cara y el otro es sello. La


probabilidad de que el resultado sea sello fue 0,5, con lo que podríamos
concluir que la moneda no está balanceada, sin embargo, ¿con sólo 2
lanzamientos podemos concluir con total certeza que esa es la naturaleza de la
moneda? La respuesta es no, por lo tanto ¿cuál es el rango de valores donde
se encuentra el valor real? Dado que el azar pudo influir en este resultado, uno
acepta que el rango de valores reales posibles es amplio, incluso desde uno
tan bajo como 0 a uno tan alto como 1, por lo tanto aún no estamos seguros de
la naturaleza de nuestra moneda.

Considerando lo anterior, ampliamos el experimento y realizamos 8 nuevos


lanzamientos (10 en total), resultando 5 caras y 5 sellos. Nuevamente el
resultado es 0,5, sin embargo, ahora intuitivamente nos percatamos que la
verdadera naturaleza de la moneda se encuentra en un rango menos amplio.
Por ejemplo, es poco probable que después de 10 lanzamientos 9 sean sello,
menos aún que todos lo sean, sin embargo, aún es factible que 8 ó 7 ó 6 sí lo

36
sean. Así, nuestro nuevo rango puede variar entre 0,2 y 0,8, pero con un
alcance: todos advertimos que si bien 0,8 y 0,2 son posibles, los valores
centrales (0,4 y 0,6) lo son más aún, siendo 0,5 el más probable.

Decidimos seguir experimentando, realizando 90 nuevos lanzamientos (100 en


total), resultando 50 caras y 50 sellos. Nuevamente el resultado es 0,5,
advirtiendo que cada vez es más probable que la verdadera naturaleza de
nuestra moneda es el de una no balanceada, pero aún con un rango de
variabilidad que podríamos estimar entre 0,4 y 0,6 (es decir, que después de
100 lanzamientos, el resultado real varíe entre 40 y 60 sellos).

Realizamos 1.000 lanzamientos, resultando 500 sellos y 500 caras, con lo que
estamos aún más seguros que nuestra moneda no está balanceada (nuestro
rango puede ser 0,45 a 0,55 o menor).
El ejemplo anterior nos permite aclarar varios conceptos:

• La «verdadera naturaleza» de nuestra moneda (si está balanceada o no)


corresponde al valor real.

• El rango de valores reales posibles, es decir, el rango donde se encuentra la


verdadera naturaleza de nuestra moneda, corresponde al IC.

• El valor real más probable corresponde al estimador puntual del estudio, en


este caso 0,5.

• Finalmente, advertimos la relación inversa entre la amplitud del IC y el tamaño


muestral: si consideramos que el número de lanzamientos representa el n de la
muestra, observamos que mientras más pequeño es el n más amplio es el IC.
A mayor número de lanzamientos (mayor n) más certeza tenemos que el
resultado del experimento se acerca al valor real, por lo tanto el IC es más
estrecho5-8.

37
Para llevar a la práctica el concepto vamos a recurrir al ejemplo utilizado en el
artículo anterior: la comparación de una nueva droga A versus una droga B en
la prevención de AVE en pacientes con antecedente de accidente isquémico

transitorio (AIT) (Tabla 1)4.

Al analizar estos datos se obtiene una reducción absoluta del riesgo (RRA) de
4,2% con 95% de intervalo de confianza de 0,9% a 7,5%. Esto quiere decir que
el valor real, es decir, el resultante al aplicar la intervención a la población total
de pacientes con AIT, está con 95% de probabilidad entre un RRA de 0,9% a
7,5%, siendo el valor más probable 4,2%. Si aumentamos el n de la muestra a
20.000 obtendríamos nuevamente un RRA de 4,2%, pero con un intervalo de
confianza más estrecho, de 3,5% a 4,9% (Fórmula en apéndice 1).

Apéndice 1. Fórmula de intervalo de confianza:

Donde:

38
p1 Tasa de eventos grupo 1
p2 Tasa de eventos grupo 2
n1 n grupo 1
n2 n grupo 2

Interpretación de un IC

El intervalo de confianza es una medida de precisión que permite al clínico


evaluar 2 aspectos de un resultado (estimador puntual):

1. Si existe diferencia estadística significativa.

2. Si tal diferencia es relevante para recomendarla a mis pacientes (relevancia


clínica).

Para analizar si existe o no diferencia estadística significativa debemos


observar los extremos del IC. Independiente si el estimador puntual muestra
beneficio o daño, debemos verificar si alguno de los extremos del IC pasa
sobre la línea del no efecto. Si es así, existe la posibilidad de que el valor real
corresponda al no efecto o incluso tenga un efecto opuesto al esperado. En
este caso no existiría diferencia estadísticamente significativa entre aplicar o no
la intervención (Figura 1)7,8.

Cuando un estudio demuestra un efecto con significación estadística (es decir


el extremo del IC no cruza ni toca la línea del no efecto), el clínico debe definir
cuál es el beneficio mínimo necesario para recomendar la terapia, lo que
llamaremos umbral. Así, nuestro estudio hipotético demuestra beneficio
estadístico significativo, siendo el beneficio mínimo probable un RRA de 0,9%.
El que este beneficio tenga relevancia clínica depende del tipo de evento
prevenido o favorecido, los efectos adversos de la droga A v/s la droga B, el
costo, las circunstancias clínicas, etc. Si el evento a prevenir es banal, o si la
droga A tiene muchos efectos adversos y es más cara que B, nuestro umbral
va a ser alto, por lo tanto el beneficio demostrado en nuestro estudio no sería
relevante7,8 (Figura 2).

39
Al contrario, si el evento a prevenir es relevante en sí mismo (por ej: mortalidad
o invalidez), o si la nueva droga es más barata y sin efectos adversos, tal vez
con demostrar un RRA de sólo 0,5% nos basta para recomendarla (umbral),
por lo tanto nuestro estudio no sólo demuestra diferencia estadísticamente
significativa, sino que también beneficio relevante para el paciente (Figura 3).

Figura 1. Estudio hipotético cuyo estimador puntual informa un RRA 2,8%,


pero cuyo IC sobrepasa la línea del no efecto, por lo tanto es posible que el
valor real sea daño. No existe diferencia estadística significativa en este
estudio.

Figura 2. Estudio hipotético que informa beneficio estadístico significativo, sin


embargo, el IC pasa sobre el beneficio mínimo necesario para recomendar la
terapia (umbral, RRA 3%). El beneficio mínimo demostrado (RRA 0,9%) no es
suficiente para recomendar la terapia.

40
Figura 3. Estudio hipotético que informa beneficio estadístico significativo. El IC
no sobrepasa el beneficio mínimo necesario para recomendar la terapia
(umbral, RRA 0,5%). El beneficio mínimo demostrado (RRA 0,9%) es suficiente
para recomendar la terapia.

 Así, para evaluar beneficio clínico, primero debemos establecer un umbral


mínimo de beneficio, el que depende del tipo de evento a prevenir o favorecer
los efectos adversos, costos, etc. de la nueva droga, y luego observar el
beneficio mínimo probable que muestra el estudio, que corresponde al extremo
del IC más cercano a la línea del no efecto. Si el extremo del IC no sobrepasa
el umbral se asume que el beneficio mínimo probable es suficiente para
recomendar la nueva terapia.

Existe la posibilidad que la nueva droga hiciese daño (RRA negativo). El


proceso es similar al anterior, estableciendo un umbral máximo de daño
tolerable, y observando el extremo del IC que más se acerca a la línea del no
efecto. Si la nueva droga genera más daño con una diferencia estadísticamente
significativa, debemos observar si el extremo del IC sobrepasa ese umbral. Si
no lo hace se asume que el daño mínimo probable es más alto que lo tolerable,
por lo tanto se está en condiciones de rechazar la nueva terapia 7,8 (Figura 4).

Al comparar dos grupos en un estudio podemos demostrar que no existe


diferencia entre ambos (hipótesis nula) o que sí la hay (hipótesis
alternativa)9,10. El valor P es un test de hipótesis que nos ayuda a afirmar con

41
cierto nivel de seguridad (por consenso se usa 95%, que se expresa como P
<0,05) que una de las hipótesis es la correcta. Para nuestro ejemplo, la
hipótesis nula corresponde a la igualdad de resultados al usar la droga A o B,
mientras que la hipótesis alternativa supone que una de ellas es mejor que la
otra en prevenir la enfermedad.

El valor P representa la probabilidad que una diferencia observada entre 2


grupos sea sólo debida al azar, es decir, la probabilidad que la hipótesis nula
sea verdadera a pesar de observar diferencia en un estudio 7-9. Como toda
probabilidad, puede tener valores desde 0 a 1. Valores más cercanos a 1
indican que existe una alta probabilidad que las diferencias observadas sean
sólo por azar, es decir, apoya la hipótesis nula. En cambio, valores más
cercanos a 0 apoyan la hipótesis alternativa.

Apliquemos este concepto a nuestro ejemplo, en que se obtiene un RRA de


4,2% con un valor P <0,05 (p=0,039). Si asumimos como valor real que la
droga A es igual a B (hipótesis nula) y pudiéramos repetir el estudio muchas
veces, el P <0,05 nos dice que en menos de 5% de las ocasiones se
observaría tal diferencia entre ambas, sólo por azar. Dicho de otra forma, en la
mayor parte de las ocasiones la diferencia observada no se debe al azar, por lo
tanto, rechazamos la hipótesis nula y establecemos que existe diferencia
estadística significativa.

El valor P se correlaciona en forma muy estrecha con el intervalo de confianza,


ya que si uno muestra diferencia estadística significativa el otro también lo
hace, y viceversa. Sin embargo, el valor P, a diferencia del IC, no nos entrega
información respecto al rango en el que se encuentra la magnitud del efecto de
un determinado tratamiento (valor real), por lo que sólo nos habla de
diferencias estadísticas significativas, sin permitirnos evaluar si esta diferencia
es relevante para mi paciente. Por ejemplo, un resultado significativo (P <0,05)
podría incluir diferencias clínicamente irrelevantes, y resultados no
significativos (P >0,05) podrían esconder una diferencia clínicamente
importante entre 2 tratamientos si el estudio no incluye un tamaño muestral
adecuado (un estudio con bajo poder puede no mostrar una diferencia que
realmente sí existe).

42
De esta forma, aunque el valor P mide la fuerza de una asociación, siempre es
útil el intervalo de confianza para complementar la evaluación de la magnitud
del efecto de una intervención y poder realizar una interpretación adecuada de
los resultados de un estudio.

CONCLUSIONES

Al leer un estudio es muy importante interpretar los resultados en forma


correcta. Esto supone comprender el significado del estimador puntual y de sus
medidas de precisión, lo que permite extrapolar los datos a la población de
interés. Tanto el análisis de un intervalo de confianza como el de un valor P nos
permiten determinar

diferencias estadísticas significativas, sin embargo sólo el IC nos permite


evaluar el rango de valores donde posiblemente se encuentra el valor real, y
por lo tanto, permite realizar una mejor interpretación y aplicación clínica de los
resultados.

Figura 4. Estudio hipotético que informa daño estadístico significativo. El IC no


sobrepasa el daño mínimo establecido como umbral. El daño mínimo
demostrado es suficientemente importante para rechazar la terapia.

43
2.10 coeficiente de determinación multiple

El coeficiente de determinación es la proporción de la varianza total de la


variable explicada por la regresión. Es también denominado R cuadrado y sirve
para reflejar la bondad del ajuste de un modelo a la variable que se pretende
explicar.

El coeficiente de determinación puede adquirir resultados que oscilan entre 0 y


1. Así, cuando adquiere resultados más cercanos a 1, mayor resultará el ajuste
del modelo a la variable que se pretende aplicar para el caso en concreto. Por
el contrario, cuando adquiere resultados que se acercan al valor 0, menor será
el ajuste del modelo a la variable que se pretende aplicar y, justo por eso,
resultará dicho modelo menos fiable.

EL CÁLCULO Y LA FÓRMULA DEL COEFICIENTE DE DETERMINACIÓN

La fórmula del coeficiente de determinación es la siguiente:

Se trata de una fórmula de gran complejidad, por lo que lo mejor es ir por


partes. En primer lugar, analizaremos el numerador, ya que la fórmula del
coeficiente de determinación es una fracción. El numerador de esta fórmula es
la expresión de la varianza, si bien existen dos diferencias de gran importancia.
En primer lugar, la Y lleva un circunflejo, lo cual significa que la Y es la
estimación de un modelo sobre lo que, de acuerdo con las variables aplicables
al respecto, vale Y. Así, no se trata del valor real de Y, sino de una estimación
del valor de Y. En segundo lugar, falta la división entre N (el número de
observaciones en la fórmula a través de la cual se calcula la varianza).

44
Ahora analizaremos el denominador de la fracción que conforma la fórmula del
coeficiente de determinación. En este caso, la única diferencia que existe
respecto de la fórmula de la varianza es que no se aplica su denominador. Así,
no hay una división entre N (número de observaciones).

INTERPRETACIÓN DE LOS RESULTADOS OBTENIDOS CON EL


CÁLCULO DEL COEFICIENTE DE DETERMINACIÓN

Ya hemos dicho que el coeficiente de determinación adquiere unos valores que


oscilan entre 0 y 1, pero ¿cómo se han de interpretar los resultados? ¿cómo se
representarían en una gráfica? Vamos a ello.

Con un ejemplo estos términos se entienden mejor, por lo que vamos a poner
uno. Supongamos que queremos analizar la cantidad de canasta que anota
Pau Gasol según la cantidad de partidos de baloncesto en los que juega. Como
resulta lógico, podemos suponer que cuántos más partidos juegue Pau Gasol,
mayores será las canastas que anote. Si representáramos estos datos en una
gráfica, su pendiente sería directa y ascendente, resultando, por tanto, una
relación positiva. Así, cuántos más partidos Pau Gasol, más canastas anota. El
ajuste, si tenemos en cuenta los datos se acercaría bastante al valor de 1, lo
que quiere decir que se trata de un modelo cuyas estimaciones se ajustan de
forma bastante correcta a la variable real. Así, si el resultado fuera de 0,8,
podríamos decir -si bien no es técnicamente correcto utilizar esta expresión-
que el modelo explica en un 80% la variable real.

EL PROBLEMA QUE PUEDE CONLLEVAR EL COEFICIENTE DE


DETERMINACIÓN

El coeficiente de determinación puede dar ciertos problemas, y es justo por eso


por lo que surge el coeficiente de determinación ajustado que veremos a
continuación. En cualquier caso ¿dónde radican los problemas que presenta el
coeficiente de determinación y que hace necesario al coeficiente de
determinación ajustado? El coeficiente de determinación no penaliza la
inclusión de variables explicativas no significativas. Veamos un ejemplo para
entenderlo un poco mejor haciendo referencia al ejemplo anterior. Si al modelo
se añaden cinco variables explicativas con poca relevancia o con poca relación
con las canastas anotadas por Pau Gasol durante la temporada en cuestión, el

45
coeficiente de determinación aumentará, desviándose el modelo de la variable
real. Así, es por ello por lo que muchos expertos, estadísticos, matemáticos y
económetras han creado, para ajustar el coeficiente de determinación y
solventar este error, el coeficiente de determinación ajustado, que veremos en
el epígrafe que sigue.

LA SOLUCIÓN AL PROBLEMA DEL COEFICIENTE DE DETERMINACIÓN:


EL COEFICIENTE DE DETERMINACIÓN AJUSTADO

El coeficiente de determinación ajustado es la medida que soluciona los


problemas que presenta el coeficiente de determinación. Este coeficiente es la
medida que define el porcentaje explicado por la varianza de la regresión de
acuerdo con la varianza experimentada por las variables aplicadas. En
palabras más sencillas para entenderlo mejor: el coeficiente de determinación
ajustado es exactamente igual que el coeficiente de determinación con una
única diferencia: el coeficiente de determinación ajustado penaliza la inclusión
de aquellas variables que no resultan trascendentales para la variable real.

Así, su fórmula quedaría de la siguiente manera:

Donde:

1.- N es el tamaño de la muestra.

2.- K es el número de variables explicativas.

En cuanto a sus resultados, cuanto mayor sean los valores que adquiera K,
más alejado estará el coeficiente de determinación ajustado del normal.

 Bibliografía

(scielo.com, s.f.) (spcgroup, s.f.)

 Levine, M. D. (2006). Estadística para administración. Naucalpan de


Juárez, Edo. de México: Pearson Educación de México, S. A. de C. V. 619
 Lind, A. D; Marchal, G. W; Mason, D. R. (2009). Estadística para
Administración y Economía. Decimoprimera edición.

46
47

También podría gustarte