Analisis Bivariado 2020
Analisis Bivariado 2020
Analisis Bivariado 2020
ESTADISTICA BIVARIADA
Muchas veces observamos que existe una cierta relación entre dos o más
variables. Cuando tratamos de relacionar dos variables, es decir observamos
conjuntamente dos variables, estamos haciendo un análisis bivariado.
Los resultados vienen dados por parejas y a cada una de ellas consideramos
variables, x e y. Podemos asimismo señalar que existen tres tipos de distribuciones en
base al número de observaciones y al número distinto de resultados.
De la observación del
gráfico de dispersión diagrama de dispersión o nube
de puntos se puede apreciar
30 que existe una relación entre
las variables edad y reflejo,
20
conforme aumenta la edad,
reflejo
10 disminuye el reflejo.
0 Por lo tanto podemos
10 20 30 40 50 60 70 80 señalar que puede existir una
edad correlación positiva, si las
variables se comportan en
forma similar (crece una y
crece la otra) o negativa si las variables se comportan en forma opuesta (cuando una
aumenta la otra disminuye)-
En la página siguiente puede observarse las posibles formas que pueden adoptar
los gráficos de dispersión y sus respectivos coeficientes de correlación.
Covarianza
Si tratáramos de relacionar el consumo de gas con la temperatura ambiente,
tendríamos dos variables: X= temperatura, Y= consumo de gas:
X 2 10 18 26
Y 8 6 3 1
Podemos sacar la media de x, la media de y, pero estos valores no relacionan x
con y.
ẍ =∑x = 14 ȳ= ∑y = 4.5
n
n gráfico de dispersión
consumo de gas
10
5
Una
0
medida de
0 5 10 15 20 25 30
dispersión,
además de Sx temperatura
y Sy es la
Covarianza,
entendida como la media aritmética de los productos de las desviaciones de cada una de
las variables con respecto a su media aritmética.
Cov = Sxy = ∑xy - ẍ ȳ
n
La covarianza puede ser positiva o negativa y en este sentido nos indica la
relación entre variables.
SI dividimos la covarianza con el desvío de x y el desvío de Y, obtendremos el
coeficiente de correlación lineal. El coeficiente de correlación toma valores en el
intervalo [-1,1]
Análisis de regresión:
La regresión, consiste en el proceso de predecir el valor de una variable a partir de
otra ya conocida. A través de la ecuación de estimación, obtenida por el método de
mínimos cuadrados, logramos una fórmula matemática que relaciona la variable
conocida, con la variable desconocida.
En los diagramas de dispersión se podrían dibujar líneas de ajuste:
10 matemáticamente:
Var. dependiente
0 Y=a+bx
10 20 30 40 50 60 70 80 Var. Independiente
edad
Intersección Y Pendiente de la recta
Usando esta ecuación podemos tomar un valor dado de x y calcular el valor de y.
La a es el valor de la ordenada al origen, porque su valor es el punto en el cual la línea
de regresión cruza el eje y. La b es la pendiente de la línea. Representa qué tanto cada
cambio de unidad de la variable independiente x cambia la variable dependiente y. Tanto
a como b son constantes numéricas, puesto que para cualquier línea recta dada, sus
valores no cambian.
GRAFICO DE DISPERSION
40
35
f(x) = 0.06 x + 18.78
30 R² = 0.74
25
20
15
10
0
120 140 160 180 200 220 240 260 280 300
Coeficientes de determinación r2 y de correlación r:
El coeficiente de determinación mide la fuerza de la asociación que existe entre las
variables. Analiza dos tipos de variaciones: la variación de los valores Y en un conjunto de
datos alrededor de:
1. la línea de regresión ajustada
2. su propia media
A través del coeficiente de determinación se puede ver la cantidad de la variación
en Y que es explicada por la línea de regresión, y puede explicitarse en términos relativos
(%).
El coeficiente de determinación r2, es el cuadrado del coeficiente de correlación r,
pero es más difícil de interpretar que el de determinación.
Aplicación:
1. Dada la siguiente tabla:
Año Nº de solicitudes recibidas (x) Nº de estudiantes nuevos (y)
2003 235 150
2004 219 142
2005 238 152
2006 257 164
2007 281 189
a. Haga el diagrama de dispersión de los datos
b. Estime la ecuación de regresión lineal
c. Obtenga una estimación puntual ,cuando el nº de solicitudes sea de 250
Serie Temporal
Una serie temporal se define como una colección de observaciones de una variable
recogidas secuencialmente en el tiempo. Estas observaciones se suelen recoger en
instantes de tiempo equiespaciados..
Componentes de una serie temporal El estudio descriptivo de series temporales se basa
en la idea de descomponer la variación de una serie en varias componentes básicas. Este
enfoque no siempre resulta ser el más adecuado, pero es interesante cuando en la serie
se observa cierta tendencia o cierta periodicidad.
Hay que resaltar que esta descomposición no es en general única. Este enfoque
descriptivo consiste en encontrar componentes que correspondan a una tendencia a largo
plazo, un comportamiento estacional y una parte aleatoria.
Las componentes o fuentes de variación que se consideran habitualmente son las
siguientes: 1. Tendencia: Se puede definir como un cambio a largo plazo que se produce
en relación al nivel medio, o el cambio a largo plazo de la media. La tendencia se
identifica con un movimiento suave de la serie a largo plazo.
2. Efecto Estacional: Muchas series temporales presentan cierta periodicidad o dicho de
otro modo, variación de cierto periodo (anual, mensual ...). Por ejemplo, el paro laboral
aumenta en general en invierno y disminuye en verano. Estos tipos de efectos son fáciles
de entender y se pueden medir explícitamente o incluso se pueden eliminar del conjunto
de los datos, desestacionalizando la serie original.
3. Componente Aleatoria: Una vez identificados los componentes anteriores y después de
haberlos eliminado, persisten unos valores que son aleatorios. Se pretende estudiar qué
tipo de comportamiento aleatorio presentan estos residuos, utilizando algún tipo de
modelo probabilístico que los describa.
De las tres componentes reseñadas, las dos primeras son componentes determinísticas,
mientras que la última es aleatoria. Así, se puede denotar que Xt = Tt + Et + It
Y= a + bx
Ejemplo:
De la tabla anterior y considerando la serie cronológicas posible
Año(x) Nº de solicitudes recibidas
2003 235
2004 219
2005 238
2006 257
2007 281
a. Representar la serie
b. Estimar la tendencia
c. Si es posible cuantas solicitudes se recibirían en 2008
Nº de solicitudes recibidas
300
200
150
100
50
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5