Analisis Bivariado 2020

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 7

ANALISIS BIVARIADO

El concepto de correlación es particularmente valioso. El análisis estadístico de un


conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la
población o muestra bajo consideración) tienden a variar conjuntamente, como si hubiera
una conexión entre ellas.
Por ejemplo un estudio del ingreso anual y la edad de muerte entre personas podrían
resultar en que personas pobres tienden a tener vidas más cortas que personas de mayor
ingreso. Las dos variables se dicen a ser correlacionadas. Sin embargo, no se pude inferir
inmediatamente la existencia de una relación de causalidad entre las dos variables.
La regresión estadística o regresión a la media es la tendencia de una medición extrema a
presentarse más cercana a la media en una segunda medición. La regresión se utiliza
para predecir una medida basándonos en el conocimiento de otra.
Con frecuencia se usan en análisis de series de tiempo, el estudio histórico de las
tendencias y las variaciones que pueda tener una economía; todo esto con el fin de que
los dirigentes de negocios e incluso de países puedan mantenerse al mismo ritmo con las
cambiantes condiciones económicas y de esta manera contar con una mejor información
para una buena toma de decisiones.

ESTADISTICA BIVARIADA

Muchas veces observamos que existe una cierta relación entre dos o más
variables. Cuando tratamos de relacionar dos variables, es decir observamos
conjuntamente dos variables, estamos haciendo un análisis bivariado.
Los resultados vienen dados por parejas y a cada una de ellas consideramos
variables, x e y. Podemos asimismo señalar que existen tres tipos de distribuciones en
base al número de observaciones y al número distinto de resultados.

 Las distribuciones tipo I se presentan en tablas de dos columnas:


valores de X valores de Y
X1 y1
X2 y1
X2 y1
Xn yn
Donde algunos valores de la variable x pueden repetirse, pero con distintos valores de la
variable y y viceversa.
 Las distribuciones del tipo II agrupan los resultados de las observaciones conjuntas en
tres columnas, donde la tercera muestra las frecuencias conjuntas (las veces que se
repite cada pareja se denomina frecuencia absoluta conjunta):
valores de X valores de Y fi
X1 y1 f1
X2 y1 f2
X2 y1 f3
Xn yn fn
 Las distribuciones tipo III se muestran en tablas de doble entrada
Y X X1 X2 Xn Totales
Y1
Y2
Y3
Yn
Totales n
El análisis de correlación y la regresión nos muestran cómo determinar la
naturaleza y la fuerza de la relación de dos variables y no ofrece la posibilidad de inferir o
estimar los valores de una variable desconocida a partir de una ya conocida, como
veremos luego.
Representación gráfica
Por ejemplo, si queremos averiguar la relación entre la edad de las personas y su
rendimiento a un determinado estímulo, los datos con los resultados obtenidos en una
prueba son los siguientes:
Edad 15 19 20 25 31 33 34 38 40 40 45 47 53 65 70 76
Reflejo 17 19 20 18 16 13 14 15 17 14 13 11 12 1 8 6

De la observación del
gráfico de dispersión diagrama de dispersión o nube
de puntos se puede apreciar
30 que existe una relación entre
las variables edad y reflejo,
20
conforme aumenta la edad,
reflejo

10 disminuye el reflejo.
0 Por lo tanto podemos
10 20 30 40 50 60 70 80 señalar que puede existir una
edad correlación positiva, si las
variables se comportan en
forma similar (crece una y
crece la otra) o negativa si las variables se comportan en forma opuesta (cuando una
aumenta la otra disminuye)-
En la página siguiente puede observarse las posibles formas que pueden adoptar
los gráficos de dispersión y sus respectivos coeficientes de correlación.
Covarianza
Si tratáramos de relacionar el consumo de gas con la temperatura ambiente,
tendríamos dos variables: X= temperatura, Y= consumo de gas:
X 2 10 18 26
Y 8 6 3 1
Podemos sacar la media de x, la media de y, pero estos valores no relacionan x
con y.
ẍ =∑x = 14 ȳ= ∑y = 4.5
n
n gráfico de dispersión
consumo de gas

10

5
Una
0
medida de
0 5 10 15 20 25 30
dispersión,
además de Sx temperatura
y Sy es la
Covarianza,
entendida como la media aritmética de los productos de las desviaciones de cada una de
las variables con respecto a su media aritmética.
Cov = Sxy = ∑xy - ẍ ȳ
n
La covarianza puede ser positiva o negativa y en este sentido nos indica la
relación entre variables.
SI dividimos la covarianza con el desvío de x y el desvío de Y, obtendremos el
coeficiente de correlación lineal. El coeficiente de correlación toma valores en el
intervalo [-1,1]

r = ∑ Sxy r = 1 ∑(x- ẍ ). (y- ȳ)


Sx Sy n Sx. Sy
Si r = 1 la correlación es total y positiva
Si r = -1 la correlación es total y negativa
Si r = 0 no hay correlación
Este coeficiente permite establecer la relación numérica existente entre ambas
variables

Correlación Correlación Pendiente r=0


Positiva r=1 Negativa r=-1 no existe correlación

Posible correlación Posible correlación


Positiva r=0,8 Negativa r= -0,8

Análisis de regresión:
La regresión, consiste en el proceso de predecir el valor de una variable a partir de
otra ya conocida. A través de la ecuación de estimación, obtenida por el método de
mínimos cuadrados, logramos una fórmula matemática que relaciona la variable
conocida, con la variable desconocida.
En los diagramas de dispersión se podrían dibujar líneas de ajuste:

gráfico de dispersión A partir de ahora


trataremos de calcularla a partir
30 de una ecuación que relaciona
20 las dos variables
reflejo

10 matemáticamente:
Var. dependiente
0 Y=a+bx
10 20 30 40 50 60 70 80 Var. Independiente
edad
Intersección Y Pendiente de la recta
Usando esta ecuación podemos tomar un valor dado de x y calcular el valor de y.
La a es el valor de la ordenada al origen, porque su valor es el punto en el cual la línea
de regresión cruza el eje y. La b es la pendiente de la línea. Representa qué tanto cada
cambio de unidad de la variable independiente x cambia la variable dependiente y. Tanto
a como b son constantes numéricas, puesto que para cualquier línea recta dada, sus
valores no cambian.

El método de mínimos cuadrados:


Para un estadístico la línea tendrá un buen ajuste si minimiza el error entre los
puntos estimados en la línea y los verdaderos puntos observados que se utilizaron para
trazarla.
Y=a+bx
Donde Y simboliza los valores individuales de los puntos estimados. a = ȳ - b ẍ
y b = ∑xy- n ẍ ȳ
∑x2 – n ẍ 2

PBI (x) Construcción(y) x y xy x2 y2


145870 27786,45 146 28 4088 21316 784
178460 30529,56 178 31 5518 31684 961
198580 27510,93 199 28 5572 39601 784
200000 29222,48 200 29 5800 40000 841
250000 33338,31 250 33 8250 62500 1089
275870 35702 276 36 9936 76176 1296

GRAFICO DE DISPERSION
40

35
f(x) = 0.06 x + 18.78
30 R² = 0.74

25

20

15

10

0
120 140 160 180 200 220 240 260 280 300
Coeficientes de determinación r2 y de correlación r:
El coeficiente de determinación mide la fuerza de la asociación que existe entre las
variables. Analiza dos tipos de variaciones: la variación de los valores Y en un conjunto de
datos alrededor de:
1. la línea de regresión ajustada
2. su propia media
A través del coeficiente de determinación se puede ver la cantidad de la variación
en Y que es explicada por la línea de regresión, y puede explicitarse en términos relativos
(%).
El coeficiente de determinación r2, es el cuadrado del coeficiente de correlación r,
pero es más difícil de interpretar que el de determinación.

Uso de la regresión y el análisis de correlación


Limitaciones:
Estas herramientas estadísticas usadas adecuadamente ayudan a tomar
decisiones. No obstante pueden utilizarse erróneamente, por ejemplo:
 Cuando se extrapola fuera del intervalo de los datos observados
 Causa efecto: La regresión y el análisis de correlación no determinan una relación
de causa efecto
 Uso de tendencias anteriores para estimar tendencias futuras. Las condiciones
cambian e invalidan la ecuación de regresión: los valores de las variables cambian con
el tiempo
 Interpretación erróneas de los coeficientes de correlación y de determinación, por
ejemplo r2 es una medida de qué tan bien una variable describe a la otra, no de que
tanto cambio en una variable es ocasionada por la otra.
 Descubrimiento de relaciones cuando estas no existen o de relaciones que no
tienen un vínculo en común.

Error estándar de la estimación


Mide la variabilidad o dispersión de los valores observados alrededor de la línea de
regresión, permite medir la confiabilidad de la ecuación de estimación

Se= ∑(y - Y)2


N–2

Siendo Y el valor esperado o estimado. Cuanto más cercano esté de 0 la ecuación de


estimación será un estimador más perfecto de la variable dependiente. Utilizándolo como
la desviación estándar diríamos que si los puntos están distribuidos normalmente
alrededor de la línea de regresión, podemos encontrar que el 68% de los puntos se
encuentran dentro de +-1Se; el 95.5% dentro +-2Se y el 99,7% de los puntos dentro de +-
3Se.

Aplicación:
1. Dada la siguiente tabla:
Año Nº de solicitudes recibidas (x) Nº de estudiantes nuevos (y)
2003 235 150
2004 219 142
2005 238 152
2006 257 164
2007 281 189
a. Haga el diagrama de dispersión de los datos
b. Estime la ecuación de regresión lineal
c. Obtenga una estimación puntual ,cuando el nº de solicitudes sea de 250

Serie Temporal

Una serie temporal se define como una colección de observaciones de una variable
recogidas secuencialmente en el tiempo. Estas observaciones se suelen recoger en
instantes de tiempo equiespaciados..
Componentes de una serie temporal El estudio descriptivo de series temporales se basa
en la idea de descomponer la variación de una serie en varias componentes básicas. Este
enfoque no siempre resulta ser el más adecuado, pero es interesante cuando en la serie
se observa cierta tendencia o cierta periodicidad.
Hay que resaltar que esta descomposición no es en general única. Este enfoque
descriptivo consiste en encontrar componentes que correspondan a una tendencia a largo
plazo, un comportamiento estacional y una parte aleatoria.
Las componentes o fuentes de variación que se consideran habitualmente son las
siguientes: 1. Tendencia: Se puede definir como un cambio a largo plazo que se produce
en relación al nivel medio, o el cambio a largo plazo de la media. La tendencia se
identifica con un movimiento suave de la serie a largo plazo.
2. Efecto Estacional: Muchas series temporales presentan cierta periodicidad o dicho de
otro modo, variación de cierto periodo (anual, mensual ...). Por ejemplo, el paro laboral
aumenta en general en invierno y disminuye en verano. Estos tipos de efectos son fáciles
de entender y se pueden medir explícitamente o incluso se pueden eliminar del conjunto
de los datos, desestacionalizando la serie original.
3. Componente Aleatoria: Una vez identificados los componentes anteriores y después de
haberlos eliminado, persisten unos valores que son aleatorios. Se pretende estudiar qué
tipo de comportamiento aleatorio presentan estos residuos, utilizando algún tipo de
modelo probabilístico que los describa.

De las tres componentes reseñadas, las dos primeras son componentes determinísticas,
mientras que la última es aleatoria. Así, se puede denotar que Xt = Tt + Et + It

Tendencia determinista En este caso supondremos que la tendencia es una función


determinística. La función más sencilla posible es una recta, es decir, Tt = a + bt donde a
y b son dos constantes a determinar. La forma de estimar estas constantes es mediante
un modelo de regresión lineal entre las variables Xt y el tiempo t = 1, 2, 3,...

Y= a + bx

Ejemplo:
De la tabla anterior y considerando la serie cronológicas posible
Año(x) Nº de solicitudes recibidas
2003 235
2004 219
2005 238
2006 257
2007 281

a. Representar la serie
b. Estimar la tendencia
c. Si es posible cuantas solicitudes se recibirían en 2008

Nº de solicitudes recibidas
300

250 f(x) = 13 x + 207

200

150

100

50

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5

También podría gustarte