2 Unidad - Estadistica para La Administracion
2 Unidad - Estadistica para La Administracion
2 Unidad - Estadistica para La Administracion
LINEAL Y MULTIPLE
Segunda Unidad
12 DE OCTUBRE DE 2022
LUIS DE LA CRUZ KEVIN DE JESUS
MINATITLAN, VERACUZ.
2.1 Estimación mediante la línea de regresión
ESTIMACIÓN
1
significativamente diferente a cero es necesario calcular el error típico de b que
se define como:
Analizar
Regresión
Lineal
2
conserva la definida por defecto (Introducir) siendo el resto de opciones
para modelos con más de una variable explicativa.
Estadísticos
3
Otras opciones que presenta este cuadro de diálogo son:
4
excluidos del análisis. La identificación de casos atípicos es importante porque
su presencia en la muestra puede distorsionar los resultados de la regresión.
GRÁFICOS
5
para la correcta interpretación de las estimaciones por intervalo, tanto de los
coeficientes de la recta como de las predicciones.
OPCIONES
6
2.2 Diagrama de Dispersión.
El estudio puede ampliarse para incluir una medida cuantitativa de tal relación.
7
Pero se ganará conocimiento de este último al estudiar las causas por las que
se presentaron los puntos.
8
El Coeficiente de Relación Lineal
9
Ejemplo
10
La Ecuación de Regresión Lineal
11
puntos de los mismos. En su forma más simple, busca minimizar la suma de
cuadrados de las diferencias ordenadas (llamadas residuos) entre los puntos
generados por la función y los correspondientes datos.
Este método se utiliza comúnmente para analizar una serie de datos que se
obtengan de algún estudio, con el fin de expresar su comportamiento de
manera lineal y así minimizar los errores de la data tomada.
Definición:
Σ es el símbolo sumatorio de todos los términos, mientas (x, y) son los datos en
estudio y n la cantidad de datos que existen.
12
Cuando se haga uso del método de mínimos cuadrados se debe buscar una
línea de mejor ajuste que explique la posible relación entre una variable
independiente y una variable dependiente. En el análisis de regresión, las
variables dependientes se designan en el eje y vertical y las variables
independientes se designan en el eje x horizontal. Estas designaciones
formarán la ecuación para la línea de mejor ajuste, que se determina a partir
del método de mínimos cuadrados.
Veamos el gráfico:
13
Necesitamos encontrar una recta y = mx + b. Debemos aplicar el método de
mínimos cuadrados. Como ya sabemos entonces, primero centraremos el valor
(x ∙ y):
14
Observemos el gráfico:
Vemos que la recta corta al eje y en 11,48 y en el eje x en 13,57. Por lo tanto,
si queremos saber dónde corta en el eje x igualamos la ecuación y = 0:
Despejamos x:
15
se asume que la población tiene esa edad promedio con un error estándar de
estimación que varía más o menos.
¿Cómo se calcula?
El error estándar de estimación se puede calcular para todas las medidas que
se obtienen en las muestras (por ejemplo, error estándar de estimación de la
media o error estándar de estimación de la desviación estándar) y mide el error
que se comete al estimar la verdadera medida poblacional a partir de su valor
muestral
16
Coeficiente de confianza = valor límite de un estadístico muestral o distribución
de muestreo (normal o campana de Gauss, t de Student, entre otras) para un
determinado intervalo de probabilidades.
Ejemplos de cálculo
17
ejemplo:
p = 560/800 = 0.70
q = 1 – p = 1 – 0.70 = 0.30
18
0.6682 ≤ Proporción poblacional ≤ 0.7318
Se puede esperar que la proporción de muestra del 70% cambie hasta en 3.18
puntos porcentuales si toma una muestra diferente de 800 individuos o que la
proporción real de la población está entre 70 – 3.18 = 66.82% y 70 + 3.18 =
73.18%.
19
cálculos y propósitos. La distinción básica entre los dos es que el intervalo de
predicción predice en qué rango caerá una observación individual futura,
mientras que un intervalo de confianza muestra el rango probable de valores
asociados con algún parámetro estadístico de los datos, como la media de la
población.
20
Se traza una tendencia lineal de mejor ajuste en los datos, que está
representada por esta ecuación:
Las líneas punteadas representan el intervalo de predicción del 95% para estos
datos. El intervalo de predicción asociado a una temperatura de 70 grados es
{1680, 5120}. De esto podemos decir que la próxima vez que haga 70 grados
afuera, tenemos un 95% de confianza en que nuestras ventas estarán entre
1.680 y 5.120 tazas de chocolate caliente. Si bien ese puede parecer un rango
amplio, el cálculo debe tener en cuenta la variabilidad individual que se muestra
en los datos históricos.
21
Donde n = tamaño de la muestra. Cuando aumentamos el valor de n en esta
ecuación, el término completo tiende hacia un valor de 1. Debido a que este
valor se usa como un multiplicador para el término de error estándar, multiplicar
por 1 significa efectivamente que el intervalo de predicción en sí no cambia
tanto como aumenta el tamaño de la muestra.
Resumen de la lección
22
2.6 Análisis de correlación.
23
1. Si existe o no correlación entre las variables. Un coeficiente que valga
cero indica que nuestras variables son independientes; un ejemplo de
esto sería que no hay relación entre qué tan dulce es una fruta y cuál es
el precio de un litro de jugo.
2. Qué tan fuerte es la correlación (si es que existe). A más se ‘aleje del
cero’ el coeficiente, más fuerte será la correlación entre las dos
variables. Siendo así, las correlaciones cuyo coeficiente esté más cerca
de -1 o 1 serán más poderosas.
3. Detalles sobre la naturaleza de la correlación. Existen correlaciones
llamadas directas (donde ambas variables aumentan o disminuyen
simultáneamente) e inversas (donde cuando una variable aumenta, la
otra disminuye). Un coeficiente positivo significa que la correlación es del
primer tipo, mientras que uno negativo indica que es del segundo. Un
ejemplo de correlación positiva es que, si el precio de una fruta aumenta,
el precio de un litro de jugo de dicha fruta también aumentará; una
correlación negativa sería que a más gente consuma una fruta, menor
cantidad de fruta estará disponible.
24
demás variables. Esta relación de dependencia se puede ver de varias
maneras:
En este gráfico es una matriz que tiene en sus entradas los gráficos de
dispersión entre cada para de variables. Se observa en la gráfica que en la
25
variable y que el grado de relación es fuerte (valor cercano a 1). Observe que
En MINITAB 13, se puede obtener el gráfico Matrix Plot llevado a cabo las
siguientes instrucciones:
Para determinar el grado de relación entre las variables se debe calcular los
coeficientes de correlación, los cuales miden la dependencia lineal entre dos
variables. Este coeficiente para las variables y es dado por
expresión:
26
donde es una matriz diagonal que contiene las desviaciones estándar de
siguiente estructura
donde:
r = coeficiente de correlación entre la variable y
para todo .
que .
27
Los residuos mínimo-cuadráticos vienen dados por
o en forma matricial
-1
Como = H , siendo H = X Xt la matriz de proyección ortogonal. Es fácil
probar que la matriz H es idempotente y simétrica . En base
a esto
= - = -H = =
= X + -HX -H = ,
Como los residuos tienen varianza variable y son dimensionados (tienen las
unidades de la variable Y), normalmente se tipifican
28
los residuos tipificados siguen una distribución normal estándar, pero como 2
(9.11)
(9.12)
El gráfico de dispersión matricial para los datos del Ejemplo 7.1. se representa
en la Figura 9.2.
29
Figura 9.2. Gráfico matricial con los datos del Ejemplo 7.1.
30
modelo son debidas a la variable explicativa representada.
Gráficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la
primera de ellas se observa que la relación con la variable x j no es lineal y,
probablemente, un ajuste cuadrático sea adecuado, también se tendrían
dudas acerca de la homocedasticidad del modelo.
31
El gráfico de residuos frente a una variable omitida, permite valorar
si esta variable influye en el modelo y por lo tanto se debe incluir como una
nueva variable regresora.
32
Figura 9.7. Residuos frente a variable de clasificación omitida.
Tipo 1.
33
1. Por tanto, la gráfica de los residuos “parciales” e k* frente a la variable
xk permite valorar la importancia real de esta variable.
Tipo 2.
*
k = + k k = + k k
= -
*
Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k
Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos
se observa que existe una relación lineal entre las variables regresoras y la
variable de interés.
*
k = + k k = + k k
= -
*
Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k
34
Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos
se observa que existe una relación lineal entre las variables regresoras y la
variable de interés.
Tipo 3.
35
El intervalo de confianza describe la variabilidad entre la medida obtenida en un
estudio y la medida real de la población (el valor real). Corresponde a un rango
de valores, cuya distribución es normal y en el cual se encuentra, con alta
probabilidad, el valor real de una determinada variable. Esta «alta
probabilidad» se ha establecido por consenso en 95%. Así, un intervalo de
confianza de 95% nos indica que dentro del rango dado se encuentra el valor
real de un parámetro con 95% de certeza5-8.
36
sean. Así, nuestro nuevo rango puede variar entre 0,2 y 0,8, pero con un
alcance: todos advertimos que si bien 0,8 y 0,2 son posibles, los valores
centrales (0,4 y 0,6) lo son más aún, siendo 0,5 el más probable.
Realizamos 1.000 lanzamientos, resultando 500 sellos y 500 caras, con lo que
estamos aún más seguros que nuestra moneda no está balanceada (nuestro
rango puede ser 0,45 a 0,55 o menor).
El ejemplo anterior nos permite aclarar varios conceptos:
37
Para llevar a la práctica el concepto vamos a recurrir al ejemplo utilizado en el
artículo anterior: la comparación de una nueva droga A versus una droga B en
la prevención de AVE en pacientes con antecedente de accidente isquémico
Al analizar estos datos se obtiene una reducción absoluta del riesgo (RRA) de
4,2% con 95% de intervalo de confianza de 0,9% a 7,5%. Esto quiere decir que
el valor real, es decir, el resultante al aplicar la intervención a la población total
de pacientes con AIT, está con 95% de probabilidad entre un RRA de 0,9% a
7,5%, siendo el valor más probable 4,2%. Si aumentamos el n de la muestra a
20.000 obtendríamos nuevamente un RRA de 4,2%, pero con un intervalo de
confianza más estrecho, de 3,5% a 4,9% (Fórmula en apéndice 1).
Donde:
38
p1 Tasa de eventos grupo 1
p2 Tasa de eventos grupo 2
n1 n grupo 1
n2 n grupo 2
Interpretación de un IC
39
Al contrario, si el evento a prevenir es relevante en sí mismo (por ej: mortalidad
o invalidez), o si la nueva droga es más barata y sin efectos adversos, tal vez
con demostrar un RRA de sólo 0,5% nos basta para recomendarla (umbral),
por lo tanto nuestro estudio no sólo demuestra diferencia estadísticamente
significativa, sino que también beneficio relevante para el paciente (Figura 3).
40
Figura 3. Estudio hipotético que informa beneficio estadístico significativo. El IC
no sobrepasa el beneficio mínimo necesario para recomendar la terapia
(umbral, RRA 0,5%). El beneficio mínimo demostrado (RRA 0,9%) es suficiente
para recomendar la terapia.
41
cierto nivel de seguridad (por consenso se usa 95%, que se expresa como P
<0,05) que una de las hipótesis es la correcta. Para nuestro ejemplo, la
hipótesis nula corresponde a la igualdad de resultados al usar la droga A o B,
mientras que la hipótesis alternativa supone que una de ellas es mejor que la
otra en prevenir la enfermedad.
42
De esta forma, aunque el valor P mide la fuerza de una asociación, siempre es
útil el intervalo de confianza para complementar la evaluación de la magnitud
del efecto de una intervención y poder realizar una interpretación adecuada de
los resultados de un estudio.
CONCLUSIONES
43
2.10 coeficiente de determinación multiple
44
Ahora analizaremos el denominador de la fracción que conforma la fórmula del
coeficiente de determinación. En este caso, la única diferencia que existe
respecto de la fórmula de la varianza es que no se aplica su denominador. Así,
no hay una división entre N (número de observaciones).
Con un ejemplo estos términos se entienden mejor, por lo que vamos a poner
uno. Supongamos que queremos analizar la cantidad de canasta que anota
Pau Gasol según la cantidad de partidos de baloncesto en los que juega. Como
resulta lógico, podemos suponer que cuántos más partidos juegue Pau Gasol,
mayores será las canastas que anote. Si representáramos estos datos en una
gráfica, su pendiente sería directa y ascendente, resultando, por tanto, una
relación positiva. Así, cuántos más partidos Pau Gasol, más canastas anota. El
ajuste, si tenemos en cuenta los datos se acercaría bastante al valor de 1, lo
que quiere decir que se trata de un modelo cuyas estimaciones se ajustan de
forma bastante correcta a la variable real. Así, si el resultado fuera de 0,8,
podríamos decir -si bien no es técnicamente correcto utilizar esta expresión-
que el modelo explica en un 80% la variable real.
45
coeficiente de determinación aumentará, desviándose el modelo de la variable
real. Así, es por ello por lo que muchos expertos, estadísticos, matemáticos y
económetras han creado, para ajustar el coeficiente de determinación y
solventar este error, el coeficiente de determinación ajustado, que veremos en
el epígrafe que sigue.
Donde:
En cuanto a sus resultados, cuanto mayor sean los valores que adquiera K,
más alejado estará el coeficiente de determinación ajustado del normal.
Bibliografía
46
47