Términos y Conceptos Del Análisis de Regresión

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 4

Términos y conceptos del análisis de regresión

Método de regresión lineal múltiple


Podemos comenzar definiendo que es una técnica usada en estadística para establecer una relación entre algunas
variables dependientes o para explicar algunas variables independientes. Existen muchos conceptos importantes
relacionados con este método que son importantes conocer al momento de realizar una regresión lineal múltiple.

Heterocedasticidad
Este concepto estadístico hace referencia a las perturbaciones no constantes durante las observaciones realizadas, sin
embargo, con respecto a la regresión lineal implica no seguir el modelo de regresión lineal múltiple. La
Heterocedasticidad se presenta en algunos casos cuando los datos de una muestra son valores que se han promediado o
han sido simplemente agregados.

Multicolinealidad
Este concepto está vinculado a las variables explicativas y la correlación entre ellas. La correlación entre dos variables
siempre va darse a menos que el experimento se realice en las condiciones específicas de un laboratorio.

Multicolinealidad exacta
Este concepto importante para entender la regresión lineal múltiple es una forma de multicolinealidad que se da cuando
una variable o más son una combinación lineal de la otra, lo cual también se conoce como coeficiente de correlación
entre dos variables.

Multicolinealidad aproximada
Este fenómeno ocurre cuando no se puede afirmar que una o más variables sean una combinación lineal de la otra,
aunque existe un coeficiente entre ellas muy cercano uno del otro.

Ecuación de regresión: Esta es la fórmula matemática que se aplica a las variables explicativas para prever mejor la
variable dependiente que intenta modelar. Desgraciadamente para aquellos geocientíficos que piensan en x e y como
coordenadas, la anotación en las ecuaciones de regresión para la variable dependiente es siempre y y para la variable
independiente o explicativa es siempre X. Cada variable independiente está asociada a un coeficiente de regresión que
describe la longitud y el signo de la relación de esa variable con la variable dependiente. Una ecuación de regresión
puede tener un aspecto como este (y es la variable dependiente, las X son las variables explicativas y las β son
coeficientes de regresión; cada uno de estos componentes de la ecuación de regresión se explican en más detalle a
continuación):
Elementos de una ecuación de regresión de OLS:

Variable dependiente (y): Es la variable que representa el proceso que intenta predecir o entender (robo residencial,
ejecución hipotecaria, precipitaciones). En la ecuación de regresión, aparece en el lado izquierdo del signo igual.
Mientras pueda utilizar la regresión para prever la variable dependiente, siempre comience con un grupo de valores y
conocidos y utilícelos para crear (o para calibrar) el modelo de regresión. Los valores y conocidos a veces se denominan
valores observados.

Variables independientes/explicativas (X): son las variables utilizadas para modelar o predecir los valores de la variable
dependiente. En la ecuación de regresión, aparecen en el lado derecho del signo igual y a veces se denominan variables
explicativas. La variable dependiente es una función de las variables explicativas. Si le interesa prever las compras
anuales de una tienda propuesta, puede incluir en su modelo variables explicativas que representen la cantidad de
clientes potenciales, la distancia a la competencia, la visibilidad de la tienda y los patrones de gastos locales, por
ejemplo.

Coeficientes de regresión (β): Coeficientes que calcula la herramienta de regresión. Son valores, uno para cada variable
explicativa, que representan la fortaleza y el tipo de relación que tiene la variable explicativa con la variable
dependiente. Supongamos que modela la frecuencia de incendios como una función de la radiación solar, la vegetación,
las precipitaciones y el aspecto. Puede esperar una relación positiva entre la frecuencia de incendios y la radiación solar
(en otras palabras, cuanto más sol haya, más frecuentes serán los incidentes de incendio). Cuando la relación es positiva,
el signo del coeficiente asociado también es positivo. Puede esperar una relación negativa entre la frecuencia de
incendios y las precipitaciones (en otras palabras, los lugares con más lluvias tienen menos incendios). Los coeficientes
de las relaciones negativas tienen signos negativos. Cuando la relación es una relación sólida, el coeficiente es
relativamente grande (relativo a las unidades de la variable explicativa con la que se asocia). Las relaciones débiles se
asocian con coeficientes cercanos a cero; β0 es la intercepción de regresión. Representa el valor esperado para la
variable dependiente si todas las variables independientes (explicativas) son cero.
Valores P: La mayoría de los métodos de regresión realizan una prueba estadística para calcular una probabilidad,
llamada valor P, para los coeficientes asociados a cada variable independiente. La hipótesis nula para esta prueba
estadística establece que un coeficiente no es significativamente distinto a cero (en otras palabras, para todos los
intentos y propósitos, el coeficiente es cero y la variable explicativa asociada no ayuda al modelo). Los valores P
pequeños reflejan pequeñas probabilidades y sugieren que el coeficiente es, sin duda, importante para su modelo con
un valor que es significativamente distinto a cero (en otras palabras, un valor P pequeño indica que el coeficiente no es
cero). Usted diría que un coeficiente con un valor P de 0,01, por ejemplo, es estadísticamente significativo en el 99 por
ciento del nivel de confianza; la variable asociada es un indicador efectivo. Las variables con coeficientes cercanos a cero
no ayudan a prever o modelar la variable dependiente; casi siempre se quitan de la ecuación de regresión, a menos que
haya razones teóricas fuertes para mantenerlos.

R 2/R cuadrado: R cuadrado múltiple y R cuadrado ajustado son estadísticas derivadas de la ecuación de regresión para
cuantificar el rendimiento del modelo. El valor de R cuadrado va desde 0 a 100 por ciento. Si su modelo se ajusta
perfectamente a los valores de la variable dependiente observados, R cuadrado es 1,0 (e indudablemente ha cometido
un error; quizás utilizó una forma de y para prever y). Los más probable es que verá valores R cuadrado como 0,49, por
ejemplo, que puede interpretar al decir: "Este modelo explica el 49 por ciento de la variación en la variable
dependiente". Para entender a dónde está llegando el valor R cuadrado, cree un gráfico de barras que muestre los
valores y estimados y observados ordenados por los valores estimados. Observe cuánta superposición hay. Este gráfico
proporciona una representación visual de lo bien que los valores previstos del modelo explican la variación en los
valores de la variable dependiente observados. Ver una ilustración. El valor R cuadrado ajustado siempre es un poquito
más bajo que el valor R cuadrado múltiple porque refleja la complejidad del modelo (el número de variables) a medida
que se relaciona con los datos. Por consiguiente, el valor R cuadrado ajustado es una medida más precisa del
rendimiento del modelo.

Residuales: Son la parte sin explicar de la variable dependiente, representada en la ecuación de regresión como el
término de error aleatorio ε. Ver una ilustración. Los valores conocidos de la variable dependiente se utilizan para crear
y calibrar el modelo de regresión. Al utilizar valores conocidos para la variable dependiente (y) y valores conocidos para
todas las variables explicativas (las X), la herramienta de regresión construye una ecuación que preverá esos valores y
conocidos y posibles. Sin embargo, los valores previstos raramente coinciden exactamente con los valores observados.
La diferencia entre los valores y observados y los valores y previstos se llama residual. La magnitud de los residuales de
una ecuación de regresión es una medida del ajuste del modelo. Los grandes residuales indican un ajuste del modelo
pobre.

¿Cómo saber si este modelo se ajusta a tus datos?


Para comenzar un modelo de regresión lineal debes asegurarte que el mismo se adapte a los datos que has recabado de
las muestras y la población para ello deben cumplirse ciertas condiciones como:

La relación entre las variables debe ser lineal.


Los errores en la medición deben ser independientes entre sí.
La varianza de dichos errores debe ser constante.
La esperanza de estos errores debe ser cero a nivel matemático.
El error total debe ser la suma de cada uno de los errores.
¿Que son los errores?
Dentro del estudio estadístico y el modelo de regresión lineal, los residuos o errores son la diferencia entre los valores
reales y los valores estimados de la regresión. Se utilizan para valorar la correlación entre los valores medidos y la
regresión. Algunos expertos en estadística los prefieren antes que a los coeficientes de correlación lineal ya que éste se
mide en las medidas de los valores estudiados.
¿Qué son gráficos de residuos?
Aquí podrás apuntar de forma gráfica la distribución de los errores o residuos para las observaciones. Con ella podrás
determinar si los datos son asimétricos o si algunos de los valores registrados son atípicos.

Interpretación de los residuos


Lo ideal es que la relación resultante sea no lineal, en caso de que hayas usado un modelo inadecuado habrá tendencias
en los errores.
Si las variables son constantes o en caso de tener dispersión irregular, este tipo de grafico te será muy útil. En el modelo
de regresión lineal se supone que los residuos se distribuyen de forma aleatoria en torno al cero.

Otras ventajas de la regresión lineal múltiple


Ya que en este modelo serás capaz de obtener más variables explicativas, esto ofrece contar con más información y
tener la oportunidad de obtener una estimación mucho más eficiente y precisa. Es decir, es ideal para demostrar
hipótesis complejas.
Es muy utilizada en el estudio de tendencias del mercado y también tiene grandes ventajas en estudios científicos de
medicina y en la salud, para estudios relacionados con índices de mortalidad y natalidad.
Tiene grandes ventajas y es muy usada en el mundo financiero de las inversiones para llegar a saber cuál es el riesgo de
realizar una inversión determinada. También es usada para predecir el consumo y el gasto que al mismo tiempo está
relacionado con la economía a gran escala y a pequeña escala también.

También podría gustarte