Semana 5
Semana 5
Semana 5
Contenidos Profesionales
Tema: Modelos de regresión simple
Objetivo
Diseña modelos de • Diagramas de dispersión
regresión y estudia la • Correlación
importancia de su
aplicación.
Subtema: Diagramas de dispersión
Correlación. Diagramas de dispersión
• Datos recopilados de los estudiantes en las clases de estadísticas incluyeron su altura (en pulgadas) y su peso (en
libras).
• Asociación positiva entre los dos: los estudiantes más altos tienden a pesar más.
• Si se invierten los roles y se escoge la altura como variable explicativa, se podría decir que los estudiantes más
pesados tienden a ser más altos.
• La forma del diagrama de dispersión también es bastante recta, aunque parece haber un valor atípico alto.
Diagrama de dispersión
De Veaux, R. D., Velleman, P. F., Bock, D. E., Vukov, A. M., Augustine, C. W., & Burkett, C. (2005). Stats: data and models. Boston: Pearson/Addison Wesley.
Subtema: Correlación
Correlación de Pearson. Fórmula
Necesidad de un índice que informe tanto del grado en que X e Y están relacionadas, y si la relación es
positiva o negativa
Población
Muestra
Correlación de Pearson. Fórmula
De Veaux, R. D., Velleman, P. F., Bock, D. E., Vukov, A. M., Augustine, C. W., & Burkett, C. (2005). Stats: data and models. Boston: Pearson/Addison Wesley.
Correlación. Condiciones
1. Condición de variables cuantitativas: no implicar variables categóricas. La correlación es sólo entre variables
cuantitativas.
2. Condición de linealidad: La mejor comprobación para la suposición de que las variables están realmente
relacionadas de manera lineal es mirar el diagrama de dispersión para ver si se ve razonablemente recto
(decisión de juicio, pero no es difícil).
3. Condición de valores atípicos: Los valores atípicos pueden distorsionar la correlación dramáticamente,
haciendo que una asociación débil parezca fuerte o una fuerte parezca débil. Los valores atípicos pueden
incluso cambiar el signo de la correlación. Pero es fácil ver los valores atípicos en el diagrama de dispersión,
así que para verificar esta condición, simplemente se debe observar.
De Veaux, R. D., Velleman, P. F., Bock, D. E., Vukov, A. M., Augustine, C. W., & Burkett, C. (2005). Stats: data and models. Boston: Pearson/Addison Wesley.
Correlación. Condiciones
inteligencia
Correlación. Propiedades.
• La correlación siempre está entre -1 y +1. La correlación puede ser exactamente igual a -1.0 o +1.0, pero estos
valores son inusuales en datos reales porque significan que todos los datos caen exactamente en una sola línea
recta.
• La correlación mide la fuerza de la asociación lineal entre las dos variables. Las variables pueden estar
fuertemente asociadas pero tener una pequeña correlación si la asociación no es lineal.
• La correlación es sensible a los valores atípicos. Un solo valor extremo puede hacer que la correlación sea alta o
baja.
De Veaux, R. D., Velleman, P. F., Bock, D. E., Vukov, A. M., Augustine, C. W., & Burkett, C. (2005). Stats: data and models. Boston: Pearson/Addison Wesley.
Correlación
• Si r = cero significa que no hay asociación o correlación entre las dos variables.
• Si r = l = perfecta correlación.
Correlación. Relación positiva
Correlación. Relación negativa
Confiabilidad
De Veaux, R. D., Velleman, P. F., Bock, D. E., Vukov, A. M., Augustine, C. W., & Burkett, C. (2005). Stats: data and models. Boston: Pearson/Addison Wesley.
Correlación de Pearson. Significación
¿El valor obtenido como coeficiente de correlación muestra que las variables X e Y
están relacionadas en realidad, o presentan dicha relación debido al azar?
“CORRELACIÓN NO IMPLICA CAUSACIÓN”. El que dos variables estén altamente correlaciones no implica que X
causa Y ni que Y causa X.
(Esa es una de las razones empleadas por las tabaqueras en el tema de la correlación entre cáncer de pulmón y el
hecho de fumar.)
De Veaux, R. D., Velleman, P. F., Bock, D. E., Vukov, A. M., Augustine, C. W., & Burkett, C. (2005). Stats: data and models. Boston: Pearson/Addison Wesley.
Coeficiente de Correlación de Spearman
Este coeficiente de correlación, también conocido como de rangos ordenados, es de los que más se aplican.
Destaca su utilidad cuando el número de pares de puntaciones (n) que se desea asociar es pequeño (menor que 30).
Si el número de dichos pares es muy grande, se emplea un modelo paramétrico, ya que, por el teorema central del
límite, la condición de normalidad no afecta los resultados.
Cuando las puntuaciones se jerarquizan es muy probable que se presenten muchos “empates”: la coincidencia de
puntuaciones con el mismo número ordinal.
Si estos dos hechos ocurrieran, lo más adecuado sería utilizar el coeficiente de correlación de Pearson.
Si el número de puntuaciones que se desea correlacionar es menor que 30, y hay pocos empates, el coeficiente de
Spearman resulta el más apropiado.
Este coeficiente es una variedad particular del de Pearson, por lo que se define como sigue
Pérez-Tejeda, H. E. (2008). Estadística para las ciencias sociales, del comportamiento y de la salud. Innovación Educativa, 8(45).
Correlación Spearman
• Este procedimiento usa los dos rankings que puede asignarse a los valores de la muestra en x
y en y.
¿Los datos sugieren concordancia entre la clasificación del juez y la calificación del examen? Alternativamente
podríamos expresar esta pregunta al consultar si existe correlación entre la clasificación del juez y los rangos de
calificaciones del examen.
Las dos variables de interés son la clasificación y la calificación del examen. La primera ya está en forma de rango y
las calificaciones del examen se pueden clasificar de modo análogo, como se muestra entre paréntesis en la Tabla.
William, M., Scheaffer Richard, L., & Wackerly Dennis, D. (1994). Estadística Matemática con aplicaciones. Grupo Editorial Iberoamerica.
Coeficiente de Correlación de Spearman
William, M., Scheaffer Richard, L., & Wackerly Dennis, D. (1994). Estadística Matemática con aplicaciones. Grupo Editorial Iberoamerica.
Coeficiente de Correlación de Spearman
Pérez-Tejeda, H. E. (2008). Estadística para las ciencias sociales, del comportamiento y de la salud. Innovación Educativa, 8(45).
Coeficiente de Correlación de Spearman
Base de Datos: Ejemplo Spearman Ejemplo
Ejercicio de Correlación
www.pitt.edu/~super7/49011-50001/49181.ppt
Correlación Parcial
Ejemplo: se examina la relación entre la contribución del esposo al trabajo doméstico (variable dependiente, Y) y el
número de hijos (variable independiente, X,) para una muestra de 12 familias.
Se encuentra una relación positiva de fuerza moderada (r = 0.50) y se llega a la conclusión de que los esposos
aumentan su contribución al trabajo doméstico a medida que aumenta el número de niños.
Se pueden abordar estos temas mediante la correlación parcial, en la cual se observa cómo cambia la relación
bivariada cuando se introduce una tercera variable, como: religión, ideología política o educación.
Es importante indicar que el coeficiente de correlación de Pearson puede verse afectado por la influencia de
terceras variables.
Por ejemplo, si fuéramos a un colegio y medimos la estatura y pasamos una prueba de habilidad verbal, saldrá
que los más altos también tienen más habilidad verbal...claro, que eso puede ser debido simplemente a que en
el colegio los niños más altos serán mayores en edad que los más bajos.
14 a numérica.
12 a
10 a Hay muchos casos en que la tercera variable es la
8a causante de una alta relación entre X e Y (y ello
6 años muchas veces es difícil de identificar)
Estatura
https://www.uv.es/mperea/T5.ppt
Correlación Parcial
Por otra parte, el valor del coeficiente de Pearson depende en parte de la variabilidad del grupo.
CI bajo CI alto
https://www.uv.es/mperea/T5.ppt
Pasos para Determinar la Correlación Parcial
1. Calcular la r de Pearson para la relación bivariada (a veces denominada correlación de orden cero)
2. Calcular el coeficiente de correlación parcial (o de primer orden).
3. Si el coeficiente de correlación parcial difiere del coeficiente de correlación de orden cero, concluimos que
la tercera variable tiene un efecto en la relación bivariada.
Ejemplo: si los esposos bien educados responden de manera diferente a un hijo adicional que los esposos
menos educados, el coeficiente de correlación parcial diferirá en fuerza (y quizás en dirección) del coeficiente
de correlación bivariable.
Esto significaría que la tercera variable (educación del esposo) no tiene efecto en la relación entre el
número de hijos y las horas de trabajo doméstico del esposo.
En otras palabras, los esposos responden de manera similar a los niños adicionales,
independientemente de su educación.
Conclusión: existe una relación directa entre X e Y donde la tercera variable (Z) es irrelevante y debe
descartarse para mayor consideración.
El siguiente paso en el proyecto de investigación podría ser realizar pruebas adicionales con otras variables de
control probables (ejemplo: controlar la religión o el origen étnico de la familia).
Este resultado es consistente con dos relaciones diferentes (relaciones espurias e interventoras):
1. Relación espuria: la variable de control (Z) es la causa tanto de la variable independiente (X) como de la
dependiente (Y). Este resultado significaría que X e Y no están realmente relacionados.
X y Y parecen inicialmente estar relacionados solo porque ambos dependen de una causa común (Z).
Una vez que se toma en cuenta Z, la relación aparente entre X e Y desaparece.
Ejemplo: Imaginemos que controlamos la ideología política de los padres y encontramos que el coeficiente de
correlación parcial era mucho más débil que el bivariado de Pearson r.
Esto podría indicar que la cantidad de hijos no cambia realmente la contribución del esposo a las tareas domésticas
(es decir, la relación entre X e Y no es directa).
Relación interventora
Este resultado es consistente con dos relaciones diferentes (relaciones espurias e interventoras):
2. Relación interventora: Este patrón (correlación parcial mucho más débil que la correlación bivariada) también
es consistente con una relación intermedia entre las variables.
En esta situación, X e Y no están vinculados directamente sino que están conectados a través de la variable
de control.
Una vez que se controla Z, la relación aparente entre X e Y desaparece.
• Esta distinción no se puede hacer por razones estadísticas: las relaciones espurias e intermedias se ven
exactamente iguales en términos estadísticos.
• El investigador puede ser capaz de distinguir entre estas dos relaciones en términos del orden
temporal de las variables (es decir, cuál fue el primero) o por razones teóricas, pero no por razones
estadísticas.
Existe una tercera relación posible entre las variables, aunque no se pueda detectar mediante un análisis de
correlación parcial.
Esta relación, llamada interacción, ocurre cuando la relación entre X e Y cambia notablemente bajo los
diversos valores de Z:
Conclusión: hubo interacción entre las tres variables (clase, contribución, número de hijos). En otras
palabras, habría una relación positiva entre X e Y para una categoría de Z y una relación negativa para la otra
categoría.
La interacción puede ser útil pensar en la interacción como una reacción inesperadamente intensa cuando se
combinan las variables.
Ejemplo de Interacción:
Conclusión: Cada variable independiente tiene su propia relación con el crimen, pero sus efectos combinados
tienen un impacto sorprendentemente fuerte en la variable dependiente.
Análisis de la relación entre número de hijos y la contribución de los hombres a las tareas
del hogar, considerando el posible efecto del nivel educativo del esposo.
Pasos:
1. Determinar las correlaciones de orden cero entre las tres variables implicadas: número
de hijos, la contribución de los esposos a las tareas del hogar, nivel educativo del
esposo.
2. Determinar las correlaciones parciales
3. Conclusión
Base de datos: Ejemplo Correlacion Parcial / Ejemplo Correlacion Parcial con excel
=+COEF.DE.CORREL(B2:B13;C2:C13)
Interpretación de las correlaciones de orden 0:
• La contribución del esposo al trabajo doméstico está relacionada positivamente con el
número de hijos (r yx = 0.499)
• Los esposos mejor educados tienden a hacer menos trabajo doméstico (ryz = -0.296 )
• Las familias con esposos mejor educados tienen menos hijos (rxz = -0.466).
Paso 2. Correlaciones parciales
=+COEF.DE.CORREL(B2:B13;C2:C13)
Paso 3. Conclusión
La correlación parcial (ryx.z = 0.427) mide la solidez de la relación entre las tareas domésticas del esposo
(Y) y el número de hijos (X) mientras se controla la educación del esposo (Z).
Es más bajo en valor que el coeficiente de orden cero (ryx =0.499), pero la diferencia en los dos valores no
es grande.
Es decir, cuando se controla la educación del esposo, la relación estadística entre la relación el trabajo en
casa del esposo y el número de niños no sufre casi cambios.
CONCLUSIÓN: Independientemente de la educación, las horas de trabajo doméstico del esposo aumentan
con el número de hijos.
El siguiente paso en el análisis estadístico probablemente sería seleccionar otra variable de control.
Cuanto más la relación bivariada mantenga su fuerza en una serie de controles para terceras variables (Z), más
fuerte será la evidencia de una relación directa entre X e Y.
Podría suceder que el coeficiente de correlación parcial sea mayor en valor que el coeficiente de orden cero.
Este resultado sería consistente con un modelo causal en el que la variable tomada como independiente y la
variable de control tuvieran un efecto separado en la variable dependiente y no se correlacionaran entre sí.
Este patrón significa que tanto X como Z deben tratarse como variantes independientes, y el siguiente paso en
el análisis estadístico probablemente involucre la correlación múltiple y la regresión.
• Actividades asincrónicas:
• Desarrollo de actividad H5P en Sección Rebote
• Desarrollo de Taller colocado en EVA en Sección de Construcción
• Realizar cuestionario en Sección de Comprobación
0984170055 [email protected]