02.00. Correlaciones y Regresiones

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 17

UNIVERSIDAD NACIONAL DEL ALTIPLANO

Facultad de Ingenieria Económica

Correlaciones y
Regresiones

Sabino Edgar Mamani Choque


Correlaciones

•Diagrama de dispersión: gráfica que describe la relación


entre las dos variables de interés.

•Análisis de correlación: Técnica estadística para medir


la fuerza de la relación (correlación) entre dos variables.
Correlaciones

Diagrama de Dispersión
Una primera aproximación para detectar algún tipo de relación entre dos variables (X y
Y), consiste en ubicar los pares de valores de en un plano cartesiano hasta conformar la
nube de puntos.
Un diagrama de dispersión es la representación gráfica de todos los pares de valores en
sistema de ejes de coordenadas.
No es un método estadístico como tal, pero se encuentra dentro de los llamados métodos
de "inspección preliminar“.
Es una manera simple de visualizar si existe alguna posible relación entre las variables.
El diagrama de dispersión puede presentar diferentes formas, tales como las que se
presentan en las siguientes figuras :
Correlaciones
Correlaciones

Las figura c) y d) revelarían posibles relaciones cuadráticas entre las variables, exhibiendo
un máximo y un mínimo para la primera y segunda de estas figuras, respectivamente.
La figura e) mostraría una tendencia de tipo cúbico entre las variables.
La figura f) es un ejemplo en el cuál no puede identificarse por inspección algún tipo de
relación entre las variables, pues aparentemente ella no existe.

Coeficiente de Correlación Lineal


El coeficiente de correlación lineal es un estadístico que mide el tipo de relación (signo) y
la fuerza (magnitud del coeficiente) de asociación lineal entre dos variables.
Usualmente se representa por la letra r, bajo las condiciones de un muestreo aleatorio ideal
se considera una buena representación del coeficiente de correlación poblacional (ρ )
Correlaciones

• Los coeficientes son números abstractos (no tiene unidades).

• r mide el grado de asociación entre dos variables.

• Oscila entre –1.0 y + 1.0

• El signo + indica correlación positiva; las características estudiadas

tienden a variar en el mismo sentido. Si es -, la carrelación es negativa.

• Si la relación es perfecta, r toma el valor de +1.0 ó –1.0


Correlaciones

𝐶𝑜𝑣 𝑋, 𝑌
𝑟𝑥𝑦 =
𝑆𝑥 𝑆𝑦

𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌
𝑟𝑥𝑦 =
𝑋𝑖 − 𝑋 2 𝑌𝑖 − 𝑌 2

𝑋𝑖 𝑌𝑖
𝑋𝑖 𝑌𝑖 −
𝑟𝑥𝑦 = 𝑛
𝑋𝑖 2 𝑌𝑖 2
𝑋𝑖2 − 𝑌𝑖2 −
𝑛 𝑛

𝑋𝑖 𝑌𝑖 − 𝑛 𝑋 𝑌
𝑟𝑥𝑦 =
𝑋𝑖2 − 𝑛 𝑋 2 𝑌𝑖2 − 𝑛 𝑌 2
Calificación de r

0.0 No existe correlación.

0.2 a 0.3 Coeficiente muy bajo.

0.4 a 0.5 Coeficiente bajo.

0.6 a 0.7 Coeficiente alto.

0.8 a 1.0 Coeficiente muy alto.


Correlaciones

La interpretación de r depende del signo y la magnitud que tome.


El signo es determinado solamente por el numerador de la fórmula de cálculo; es decir por
la covarianza, la cual mide la asociación lineal absoluta entre las variables; el denominador
es siempre positivo dado que en él se encuentran sumas de cuadrados.
Si r tiende a 1 estaría indicando una relación lineal positiva o directa entre las variables. Si
r tiende a -1, existiría una relación lineal negativa o inversa entre las variables.
Cuando r es exactamente igual a 1 o -1 la relación lineal es perfecta, siendo posible ajustar
todos los puntos a través de una línea recta con pendiente positiva o negativa,
respectivamente.
Si r es cero no hay relación lineal entre las variables y una línea horizontal une todos los
pares de valores localizados en el diagrama de dispersión
Correlaciones

La ventaja principal del coeficiente de correlación lineal es su fácil cálculo e


interpretación.
Sin embargo, cuando las variables presentan algún tipo de relación no lineal, r no puede
medir esta clase de asociación.
Dado que r calcula la dependencia lineal solo entre pares de variables, no proporciona
información sobre la asociación simultánea de más de dos variables.
Correlaciones

Propiedades de las correlaciones


1. r es de naturaleza simétrica. Esto indica que el coeficiente de correlación entre X y Y es
igual al coeficiente de correlación entre Y y X.
2. r es independiente del origen y la escala. Si se define 𝑋 ∗𝑖 = aXi + c y 𝑌 ∗𝑖 = bYi + d,
donde a>0, b>0, y c y d son constantes, entonces r entre X* y Y* (variables
transformadas) es igual al r entre X y Y (variables originales).
3. Si X y Y son variables estadísticamente independientes, el coeficiente de correlación
lineal entre X y Y es cero. No obstante, si r es cero, esto no implica necesariamente que
X y Y sean estadísticamente independientes.

Una de las condiciones para que el coeficiente de correlación se pueda aplicar es que las
variables sean continuas y con distribución normal. En caso de que esto no se cumpla como
es el caso de variables discretas se debe buscar otra medida estadística para evaluar la
dependencia entre las variables. Una alternativa para ello son las tablas de contingencia.
Prueba de hipótesis

La formalidad estadística sugiere realizar pruebas de hipótesis sobre los parámetros


poblacionales basándose en los estadísticos encontrados.
Por ejemplo, aún cuando el coeficiente de correlación lineal estimado entre dos
variables sea diferente de cero, esto no es suficiente para afirmar que el parámetro
poblacional ρ es en realidad distinto de cero, pues requiere recordar que las inferencias
se efectúan con base en información muestral y existe un margen de error cuando se
realiza este tipo de procedimiento.
A continuación se presenta el esquema de prueba de hipótesis para el coeficiente de
correlación lineal cuando el investigador desea evaluar si hay o no dependencia lineal
entre un par de variables.
Por lo tanto, se desea probar si el parámetro poblacional es o no diferente de cero
Prueba de hipótesis

Paso 1: Planteamiento de la hipótesis:


Ho: ρ = 0
Ha: ρ ≠ 0
Paso 2: Nivel de significancia.
Representa el nivel de error máximo tolerable para realizar la prueba.
Es definido por el investigador y se denota con la letra α .
Los valores de significancia con los cuales se trabajan pueden cambiar de una disciplina
o ciencia a otra.
Bajo situaciones donde los experimentos tienen una alto grado de control, usualmente se
trabaja con niveles del 1% y 5%, (altamente significativo y significativo,
respectivamente).
En las investigaciones de las ciencias sociales, donde existe un limitado grado de control
sobre las variables, pueden encontrarse significancias estadísticas del 10% y en algunas
ocasiones hasta un 20%.
Prueba de hipótesis

Paso 3. El estadístico de prueba. Es una medida estadística calculada a partir de


información muestral o experimental para llevar a cabo la prueba. Para el caso de
correlación lineal simple, el estadístico de prueba se define como:

𝑟 𝑛−2 −𝜃
𝑡𝑐 = ∼ 𝑡 𝛼, 𝑛−2
1 − 𝑟2 2

donde r es el coeficiente de correlación lineal muestral, n es el tamaño de la muestra,


n-2 los grados de libertad de la prueba y θ el valor del parámetro poblacional en la
hipótesis nula.
En este ejemplo particular, θ toma el valor de cero, pero en otras pruebas, de acuerdo
con lo que desee evaluar el investigador θ puede corresponder a un valor distinto de
cero, entre –1 y 1.
Prueba de hipótesis

Paso 4: Regiones de decisión. Dado que la hipótesis alterna señala el símbolo ≠ , se

trabaja con los dos lados de la distribución.

La región de rechazo estará repartida en los extremos de la función de probabilidad, con

un valor de α /2 a cada lado.

Los valores de los límites derecho e izquierdo que limitan las regiones de rechazo se

determinan mediante el uso de la tabla t con sus respectivos grados de libertad.

Estos valores de t se denominan estadísticos de contraste.

La siguiente figura muestra la región de rechazo (RHo) y aceptación (AHo) de la

hipótesis nula de esta prueba


Prueba de hipótesis

Paso 5: Criterio de decisión y conclusión. Se debe comparar el estadístico calculado (tc)


contra el estadístico tabulado (tα/2, n−2) . El criterio de decisión esta basado en:
1. si el t calculado es mayor que el t de tablas positivo, cae en la región de rechazo del
lado derecho de la distribución y la decisión que se debe tomar es rechazar la hipótesis
nula (ρ ≠ 0 );
2. si el tc es menor que el t de tablas negativo, el t calculado cae en la región de rechazo
del lado izquierdo y la decisión igualmente es rechazar la hipótesis nula (ρ ≠ 0 );
3. si el tc se encuentra entre el -t y t de las tablas, el tc cae en la región de aceptación y la
decisión es no rechazar la hipótesis nula (ρ = 0 ). Basado en el criterio de decisión se
concluye e interpreta
Prueba de hipótesis

La significancia estadística del coeficiente de correlación en la prueba de


hipótesis es afectada por el tamaño de la muestra (n) o mejor aún por los
grados de libertad, lógicamente a mayor tamaño de la muestra el valor de r
tiene mayor confiabilidad.
Si se encuentra un valor de r relativamente bajo y n es grande, es posible que
éste sea significativo al comparar el estadístico de prueba con el de contraste o
de tablas.
Alternativamente se puede encontrar un r alto pero no significativo
estadísticamente debido a que n es muy pequeño y por consiguiente el número
de grados de libertad es bajo.

También podría gustarte