0% encontró este documento útil (0 votos)
4 vistas4 páginas

Apuntes Tema 2 Estadística

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 4

Frecuencia absoluta conjunta: nij = número de individuos de la muestra que presentan

conjuntamente la modalidad Xi de la variable X y la modalidad Yj de la variable Y

Se verifica que:
r s

 ni. = n
i =1
n
j =1
.j =n

Frecuencia relativa o porcentaje: fij = proporción de individuos que presentan


simultáneamente las modalidades Xi e Yj, es decir,
Se verifica que:
s
ni. r n. j
fi. =  fij = f. j =  fij =
j =1 n i =1 n

ni j= frecuencia absoluta conjunta= nº de unidades que presentan la modalidad Xi de X y la


modalidad Yj de Y.

DISTRIBUCIONES CONDICIONADAS; Son las distribuciones de una variable condicionadas a


cada valor de la otra variable.

El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889)
refiriéndose a la “ley de la regresión universal”:

- Regresión a la media

-Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una
variable) a partir de los de sus padres (otra variable).

-Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares
observando una relación del tipo: Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

- Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta
altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de
los padres muy bajos.

- Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el


conocimiento de otra.

ESTUDIO DE DOS VARIABLES CUANTITATIVAS

En la práctica, los datos recogidos así se denominan microdatos. En cada fila tenemos los datos
de un individuo. Cada columna representa los valores que toma una variable sobre los mismos.
Los individuos no se muestran en ningún orden particular.

Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’).


En ellos, cada individuo es un punto cuyas coordenadas son los valores de las variables.

Nuestro objetivo será intentar reconocer a partir del mismo si hay relación (principalmente
lineal) entre las variables, de qué tipo (directa o inversa), y si es posible predecir el valor de
una de ellas en función de la otra.
COVARIANZA

La covarianza entre dos variables, Sxy, nos indica si la posible relación lineal entre dos variables
es directa o inversa.

Directa: Sxy >0

Inversa: Sxy <0

Incorreladas: Sxy =0

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no
nos dice nada sobre el grado de relación entre las variables.

Si las variables son incorreladas (Sxy =0) indica que no existe relación lineal entre ellas, aunque
puede que exista de otro tipo por lo que no podemos decir que sean independientes.

COEFICIENTE DE VARIACIÓN DE PEARSON

El coeficiente de correlación lineal de Pearson de dos variables, R, nos indica si los puntos
tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y
verticales).

Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea
directa o inversa.

R es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro
tipo de relaciones (cuadrática, logarítmica,...)

S xy
R=
SxS y
OTROS COEFICIENTES DE CORRELACIÓN

Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si
hay algún tipo de correlación entre ellas.

Disponemos para estos casos de dos estadísticos, aunque no los usaremos en clase:

◦ ρ (‘ro’) de Spearman

◦ τ (‘tau’) de Kendall

No tenéis que estudiar nada sobre ellos en este curso. Recordad sólo que son estadísticos
análogos a R y que los encontrareis en publicaciones donde las variables no puedan
considerarse numéricas.
REGRESIÓN

El análisis de regresión sirve para predecir una medida cuantitativa en función de otra medida
cuantitativa (o varias).

1) Y = Variable dependiente o variable a predecir. También se le llama variable


predicha o explicada

2) X = Variable independiente o conocida. También se le llama predictora o


explicativa

3) ¿Es posible descubrir una relación?

Y = f(X) + Error

F es una función de un tipo determinado. Si la función es una recta se denomina REGRESIÓN


LINEAL. El Error es aleatorio, pequeño, y no depende de X

MODELO DE REGRESIÓN LINEAL

En el modelo de regresión lineal simple, dado dos variables

◦ Y (dependiente)

◦ X (independiente, explicativa)

Buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y
mediante

◦ Ŷ = b0 + b1X

◦ b0 (ordenada en el origen, constante)

◦ b1 (pendiente de la recta)

Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad (valor
observado – valor esperado)

e=Y-Ŷ se le denomina residuo o error residual.

El modelo lineal de regresión se construye utilizando la técnica de estimación mínimo-


cuadrática:

e = (y
i
2
i
i
i − yˆ i ) 2

◦ Buscar b0, b1 de tal manera que se minimice la cantidad. Se comprueba que


para lograr dicho resultado basta con elegir:

SY S XY
b1 = r = 2 b0 = y − b1 x
SX Sx
Se obtiene además unas ventajas “de regalo”
El error residual medio es nulo. La varianza del error residual es mínima para dicha estimación.

BONDAD DE UN AJUSTE

La dispersión del error residual será una fracción de la dispersión original de Y. Cuanto menor
sea la dispersión del error residual mejor será el ajuste de regresión.

Eso hace que definamos como medida de bondad de un ajuste de regresión, o coeficiente de
determinación a:

Se2
R = 1− 2
2

SY
R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

Cuando un ajuste es bueno, R2 será cercano a uno.

Cuando un ajuste es malo R2 será cercano a cero.

También podría gustarte