Términos y Conceptos Del Análisis de Regresión
Términos y Conceptos Del Análisis de Regresión
Términos y Conceptos Del Análisis de Regresión
Heterocedasticidad
Este concepto estadístico hace referencia a las perturbaciones no constantes durante las observaciones realizadas, sin
embargo, con respecto a la regresión lineal implica no seguir el modelo de regresión lineal múltiple. La
Heterocedasticidad se presenta en algunos casos cuando los datos de una muestra son valores que se han promediado o
han sido simplemente agregados.
Multicolinealidad
Este concepto está vinculado a las variables explicativas y la correlación entre ellas. La correlación entre dos variables
siempre va darse a menos que el experimento se realice en las condiciones específicas de un laboratorio.
Multicolinealidad exacta
Este concepto importante para entender la regresión lineal múltiple es una forma de multicolinealidad que se da cuando
una variable o más son una combinación lineal de la otra, lo cual también se conoce como coeficiente de correlación
entre dos variables.
Multicolinealidad aproximada
Este fenómeno ocurre cuando no se puede afirmar que una o más variables sean una combinación lineal de la otra,
aunque existe un coeficiente entre ellas muy cercano uno del otro.
Ecuación de regresión: Esta es la fórmula matemática que se aplica a las variables explicativas para prever mejor la
variable dependiente que intenta modelar. Desgraciadamente para aquellos geocientíficos que piensan en x e y como
coordenadas, la anotación en las ecuaciones de regresión para la variable dependiente es siempre y y para la variable
independiente o explicativa es siempre X. Cada variable independiente está asociada a un coeficiente de regresión que
describe la longitud y el signo de la relación de esa variable con la variable dependiente. Una ecuación de regresión
puede tener un aspecto como este (y es la variable dependiente, las X son las variables explicativas y las β son
coeficientes de regresión; cada uno de estos componentes de la ecuación de regresión se explican en más detalle a
continuación):
Elementos de una ecuación de regresión de OLS:
Variable dependiente (y): Es la variable que representa el proceso que intenta predecir o entender (robo residencial,
ejecución hipotecaria, precipitaciones). En la ecuación de regresión, aparece en el lado izquierdo del signo igual.
Mientras pueda utilizar la regresión para prever la variable dependiente, siempre comience con un grupo de valores y
conocidos y utilícelos para crear (o para calibrar) el modelo de regresión. Los valores y conocidos a veces se denominan
valores observados.
Variables independientes/explicativas (X): son las variables utilizadas para modelar o predecir los valores de la variable
dependiente. En la ecuación de regresión, aparecen en el lado derecho del signo igual y a veces se denominan variables
explicativas. La variable dependiente es una función de las variables explicativas. Si le interesa prever las compras
anuales de una tienda propuesta, puede incluir en su modelo variables explicativas que representen la cantidad de
clientes potenciales, la distancia a la competencia, la visibilidad de la tienda y los patrones de gastos locales, por
ejemplo.
Coeficientes de regresión (β): Coeficientes que calcula la herramienta de regresión. Son valores, uno para cada variable
explicativa, que representan la fortaleza y el tipo de relación que tiene la variable explicativa con la variable
dependiente. Supongamos que modela la frecuencia de incendios como una función de la radiación solar, la vegetación,
las precipitaciones y el aspecto. Puede esperar una relación positiva entre la frecuencia de incendios y la radiación solar
(en otras palabras, cuanto más sol haya, más frecuentes serán los incidentes de incendio). Cuando la relación es positiva,
el signo del coeficiente asociado también es positivo. Puede esperar una relación negativa entre la frecuencia de
incendios y las precipitaciones (en otras palabras, los lugares con más lluvias tienen menos incendios). Los coeficientes
de las relaciones negativas tienen signos negativos. Cuando la relación es una relación sólida, el coeficiente es
relativamente grande (relativo a las unidades de la variable explicativa con la que se asocia). Las relaciones débiles se
asocian con coeficientes cercanos a cero; β0 es la intercepción de regresión. Representa el valor esperado para la
variable dependiente si todas las variables independientes (explicativas) son cero.
Valores P: La mayoría de los métodos de regresión realizan una prueba estadística para calcular una probabilidad,
llamada valor P, para los coeficientes asociados a cada variable independiente. La hipótesis nula para esta prueba
estadística establece que un coeficiente no es significativamente distinto a cero (en otras palabras, para todos los
intentos y propósitos, el coeficiente es cero y la variable explicativa asociada no ayuda al modelo). Los valores P
pequeños reflejan pequeñas probabilidades y sugieren que el coeficiente es, sin duda, importante para su modelo con
un valor que es significativamente distinto a cero (en otras palabras, un valor P pequeño indica que el coeficiente no es
cero). Usted diría que un coeficiente con un valor P de 0,01, por ejemplo, es estadísticamente significativo en el 99 por
ciento del nivel de confianza; la variable asociada es un indicador efectivo. Las variables con coeficientes cercanos a cero
no ayudan a prever o modelar la variable dependiente; casi siempre se quitan de la ecuación de regresión, a menos que
haya razones teóricas fuertes para mantenerlos.
R 2/R cuadrado: R cuadrado múltiple y R cuadrado ajustado son estadísticas derivadas de la ecuación de regresión para
cuantificar el rendimiento del modelo. El valor de R cuadrado va desde 0 a 100 por ciento. Si su modelo se ajusta
perfectamente a los valores de la variable dependiente observados, R cuadrado es 1,0 (e indudablemente ha cometido
un error; quizás utilizó una forma de y para prever y). Los más probable es que verá valores R cuadrado como 0,49, por
ejemplo, que puede interpretar al decir: "Este modelo explica el 49 por ciento de la variación en la variable
dependiente". Para entender a dónde está llegando el valor R cuadrado, cree un gráfico de barras que muestre los
valores y estimados y observados ordenados por los valores estimados. Observe cuánta superposición hay. Este gráfico
proporciona una representación visual de lo bien que los valores previstos del modelo explican la variación en los
valores de la variable dependiente observados. Ver una ilustración. El valor R cuadrado ajustado siempre es un poquito
más bajo que el valor R cuadrado múltiple porque refleja la complejidad del modelo (el número de variables) a medida
que se relaciona con los datos. Por consiguiente, el valor R cuadrado ajustado es una medida más precisa del
rendimiento del modelo.
Residuales: Son la parte sin explicar de la variable dependiente, representada en la ecuación de regresión como el
término de error aleatorio ε. Ver una ilustración. Los valores conocidos de la variable dependiente se utilizan para crear
y calibrar el modelo de regresión. Al utilizar valores conocidos para la variable dependiente (y) y valores conocidos para
todas las variables explicativas (las X), la herramienta de regresión construye una ecuación que preverá esos valores y
conocidos y posibles. Sin embargo, los valores previstos raramente coinciden exactamente con los valores observados.
La diferencia entre los valores y observados y los valores y previstos se llama residual. La magnitud de los residuales de
una ecuación de regresión es una medida del ajuste del modelo. Los grandes residuales indican un ajuste del modelo
pobre.