Apuntes Tema 2 Estadística
Apuntes Tema 2 Estadística
Apuntes Tema 2 Estadística
Se verifica que:
r s
ni. = n
i =1
n
j =1
.j =n
El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”:
- Regresión a la media
-Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una
variable) a partir de los de sus padres (otra variable).
-Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares
observando una relación del tipo: Altura del hijo = 85cm + 0,5 altura del padre (aprox.)
- Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta
altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de
los padres muy bajos.
En la práctica, los datos recogidos así se denominan microdatos. En cada fila tenemos los datos
de un individuo. Cada columna representa los valores que toma una variable sobre los mismos.
Los individuos no se muestran en ningún orden particular.
Nuestro objetivo será intentar reconocer a partir del mismo si hay relación (principalmente
lineal) entre las variables, de qué tipo (directa o inversa), y si es posible predecir el valor de
una de ellas en función de la otra.
COVARIANZA
La covarianza entre dos variables, Sxy, nos indica si la posible relación lineal entre dos variables
es directa o inversa.
Incorreladas: Sxy =0
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no
nos dice nada sobre el grado de relación entre las variables.
Si las variables son incorreladas (Sxy =0) indica que no existe relación lineal entre ellas, aunque
puede que exista de otro tipo por lo que no podemos decir que sean independientes.
El coeficiente de correlación lineal de Pearson de dos variables, R, nos indica si los puntos
tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y
verticales).
Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea
directa o inversa.
R es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro
tipo de relaciones (cuadrática, logarítmica,...)
S xy
R=
SxS y
OTROS COEFICIENTES DE CORRELACIÓN
Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si
hay algún tipo de correlación entre ellas.
Disponemos para estos casos de dos estadísticos, aunque no los usaremos en clase:
◦ ρ (‘ro’) de Spearman
◦ τ (‘tau’) de Kendall
No tenéis que estudiar nada sobre ellos en este curso. Recordad sólo que son estadísticos
análogos a R y que los encontrareis en publicaciones donde las variables no puedan
considerarse numéricas.
REGRESIÓN
El análisis de regresión sirve para predecir una medida cuantitativa en función de otra medida
cuantitativa (o varias).
Y = f(X) + Error
◦ Y (dependiente)
◦ X (independiente, explicativa)
Buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y
mediante
◦ Ŷ = b0 + b1X
◦ b1 (pendiente de la recta)
Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad (valor
observado – valor esperado)
e = (y
i
2
i
i
i − yˆ i ) 2
SY S XY
b1 = r = 2 b0 = y − b1 x
SX Sx
Se obtiene además unas ventajas “de regalo”
El error residual medio es nulo. La varianza del error residual es mínima para dicha estimación.
BONDAD DE UN AJUSTE
La dispersión del error residual será una fracción de la dispersión original de Y. Cuanto menor
sea la dispersión del error residual mejor será el ajuste de regresión.
Eso hace que definamos como medida de bondad de un ajuste de regresión, o coeficiente de
determinación a:
Se2
R = 1− 2
2
SY
R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]