Bioestadistica R L

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 40

DIAGRAMA DE DISPERSIN

Utilcelo cuando necesite mostrar lo que sucede a una variable cuando


otra cambia, con la finalidad de probar la teora de que las dos
variables se relacionan.

Este tipo de diagramas se usa para probar posibles relaciones entre


causa y efecto; no puede probar que una variable causa la otra, pero
s aclara si existe alguna relacin y la intensidad que pudiera tener la
misma.

La direccin y la unin de la agrupacin le da idea sobre la fuerza de la


relacin entre la variable 1 y la variable 2. Cuanto ms se asemeje a una
lnea recta, ms fuerte ser la relacin entre las variables.

Tipos de Diagramas de Dispersin

Clculo de Covarianza y Coeficiente de Correlacin


6

Cuando se trata de una distribucin bidimensional...

Covarianza: Es una medida de lo que se dispersan los valores de una muestra bidimensional tanto del
valor medio de la x como del valor medio de la y. Se determina mediante la expresin:

Covxy S xy

x xy y
i

o bien mediante Cov xy S xy

x y

i i

xy

La covarianza entre dos variables, Sxy, nos indica si la posible relacin entre dos variables es directa o
inversa.
Directa: Sxy >0
Inversa: Sxy <0
Sin Relacin Lineal : Sxy =0

Relacin
positiva

Relacin
negativa

Ninguna
relacin

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice
nada sobre el grado de relacin entre las variables

Coeficiente de Correlacin de Pearson R


Bondad de los ajustes

El coeficiente de correlacin de Pearson, r, nos permite saber si el


ajuste de la nube de puntos a la recta de regresin obtenida es
satisfactorio.
Se define como el cociente entre la covarianza y el producto de
las desviaciones tpicas (raz cuadrada de las varianzas)
r

Vxy
VxVy

S xy
2
x

S S

2
y

S xy
SxS y

Teniendo en cuenta el valor de la covarianza y las varianzas, se


puede evaluar mediante cualquiera de las dos expresiones siguientes:

x y
i

x y

2
xi2
2 yi
2

n x n y

n xi yi xi yi

n x x n y
2
i

2
i

yi

Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente negativa: es decreciente.

No
hay
correlacin

r 0

Hay correlacin Correlacin


lineal positiva
no lineal

r 0

r 1

Correlacin
lineal negativa

r 1

Coeficiente de Determinacin, R2
Para estimar la bondad de un ajuste frecuentemente se prefiere
utilizar el Coeficiente de Determinacin, R2, que es el Coeficiente de
Correlacin elevado al cuadrado.
Se determina mediante cualquiera de las dos expresiones
2
siguientes:
xy

i i x y
n

2
R
2
xi2
2 yi
2

y
n
n

n x y x y

n x x n y y
2

R2

2
i

2
i

Su valor oscila entre 0 y +1.


Cuando hay una buena correlacin lineal, R2 es muy cercano a +1.
Normalmente se acepta para valores de R2 >= 099.
Cuando no hay correlacin o bien sta no es lineal, R2 es bajo e
incluso cercano a cero

10

La Recta de Regresin Lineal


Ejemplo 1
Una agencia de coches estudia la
relacin entre el cuenta kilmetros y
el precio de venta de coches
usados.
Se selecciona una muestra y se
registran los datos.
Hallar la lnea de regresin

Auto
1
2
3
4
5
6

Cuenta Km
37388
44758
45833
30862
31705
34010

Precio
14636
14122
14016
15590
15568
14718

Variable
Variable
Independiente "x" Dependiente "y"

Solucin
Solucin manual: Calcular varios estadsticos

Suma
Promedio

Kilmetros

Precio USS

Xi

Yi

Xi*Yi

Xi

Yi

37388

14636

547210768

1397862544

214212496

44758

14122

632072476

2003278564

199430884

45833

14016

642395328

2100663889

196448256

30862

15590

481138580

952463044

243048100

31705

15568

493583440

1005207025

242362624

34010

14718

500559180

1156680100

216619524

224556

88650

3296959772

8616155166

1312121884

37426,00

14775,00

549493295,33

x 37426
y 14775;

sx2

(x

x )2

1436025861,00 218686980,67

35.320.385

(x

cov( X , Y )

x )( yi y )
n

3.475.854,67

La Recta de Regresin Lineal


Parmetros del modelo lineal

cov( X , Y ) 3.475.854,67

0,09840
2
sx
35.320.385

A y Bx 14.775 (0,09840)(37.426) 18.458,06


Modelo Lineal

y A B x 18.458,06 0,09840 x
Es confiable el modelo ya que R : -0,9409

La Recta de Regresin Lineal


Grafico de Dispersin

La Recta de Regresin Lineal


Ejercicio: 2

En el ejemplo 2, supongamos que el nmero medio de horas-hombre


depende linealmente del tamao del lote:
De los datos tenemos:

y
i 1

x
i 1

2
i

1100

x
i 1

28400

y
i 1

2
i

500

x y
i 1

134660

n 10

61800

La Recta de Regresin Lineal


61800 10 110 50
B
2,0
2
28400 10 50

A 110 2 50 10

y i 10 2 xi

La Recta de Regresin Lineal

Si la cantidad de aditivo x 55 , estimamos que la distribucin de probabilidades de Y


tiene una media de Y 10 2 55 120HH

Horas - Hombre

170

120

70

20
20

30

40

50
Tamao del Lote

60

70

80

La Recta de Regresin Lineal


En el caso del ejemplo de horas hombre el coeficiente de determinacin es:

R2

13600
0,9956
60

Esto significa que el 99,56% de la variabilidad en la variable de las horas hombre, es


explicada por el tamao del lote, el modelo lineal parece satisfactorio en este caso.

El Coeficiente de Correlacin creado por Karl Pearson alrededor de


1900, describe la fuerza de la relacin entre dos conjuntos de variables en
escala de intervalo o de razn. Se designa con la letra r, y con frecuencia se
le conoce como r de Pearson y coeficiente de correlacin productomomento. Puede adoptar cualquier valor de 1.00 a +1.00, inclusive. Un
coeficiente de correlacin de 1.00 o bien de +1.00 indica una correlacin
perfecta.
COEFICIENTE DE CORRELACIN Medida de la fuerza de la relacin
lineal entre dos variables.

CARACTERSTICAS DEL COEFICIENTE DE CORRELACIN


1. El coeficiente de correlacin de la muestra se identifica por la letra
minscula r.
2. Muestra la direccin y fuerza de la relacin lineal (recta) entre dos
variables en escala de intervalo o en escala de razn.
3. Vara de 1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociacin entre las variables.
5. Un valor cercano a 1 indica una asociacin directa o positiva entre las
variables.
6. Un valor cercano a 1 indica una asociacin inversa o negativa entre
las variables.

COEFICIENTE DE DE DETERMINACIN
Una medida cuyo significado se interpreta con ms facilidad es
Coeficiente de Determinacin. ste se calcula elevando al cuadrado
coeficiente de correlacin.
COEFICIENTE DE DETERMINACIN Proporcin de la variacin total en
variable dependiente Y que se explica, o contabiliza, por la variacin en
variable dependiente X.

el
el
la
la

PRINCIPIO DE LOS MNIMOS CUADRADOS


Al emplear la recta de regresin con un mtodo matemtico denominado
Principio de los Mnimos Cuadrados este mtodo elimina el juicio subjetivo.
Este mtodo proporciona lo que comnmente se conoce como recta del
mejor ajuste.
Con este mtodo se determina una ecuacin de regresin al minimizar la
suma de los cuadrados de las distancias verticales entre los valores reales
de Y y los valores pronosticados de Y.
Forma general de la ecuacin de regresin lineal Y = A + BX

PRINCIPIO DE LOS MNIMOS CUADRADOS


Como resultado, el procedimiento de los mnimos cuadrados genera una
recta que minimiza la suma de los cuadrados de las desviaciones verticales
entre los puntos y la recta.

PRINCIPIO DE LOS MNIMOS CUADRADOS

Dada la siguiente tabla de datos:


Y
58
42
51
54
X
12
8
10
11

40
7

39
7

Determine:
Modelo de Regresin Lineal
Coeficiente de Correlacin Lineal
Coeficiente de Determinacin
Si un nio tiene 9 aos Cul seria su peso?

49
10

56
14

PRINCIPIO DE LOS MNIMOS CUADRADOS

Y
58
42
51
54
40
39
49
56
Promedios
48,625

X
12
8
10
11
7
7
10
14

XY
696
336
510
594
280
273
490
784

144
64
100
121
49
49
100
196

3364
1764
2601
2916
1600
1521
2401
3136

9,875

495,375

102,875

2412,875

PRINCIPIO DE LOS MNIMOS CUADRADOS


Diagrama de Dispersin.-

SCE

n2

y
i i
i 1

n2

X
12
8
10
11
7
7
10
14

Y
58
42
51
54
40
39
49
56

54,57
43,25
48,91
51,74
40,42
40,42
48,91
60,23

3,43
-1,25
2,09
2,26
-0,42
-1,42
0,09
-4,23

11,76
1,56
4,37
5,11
0,18
2,02
0,01
17,89

SCE
Varianza
Residual

42,90
7,15

Estimacin del modelo de regresin lineal simple.


El mtodo de mnimos cuadrados.
ERROR ESTNDAR DE ESTIMACIN Medida de la dispersin de los
valores observados respecto de la recta de regresin.
Si Syx es pequeo, significa que los datos estn relativamente cercanos a
la recta de regresin, y la ecuacin de regresin sirve para predecir Y con
poco error. Si Syx es grande, significa que los datos estn muy dispersos
respecto de la recta de regresin, y la ecuacin de regresin no
proporcionar una estimacin precisa de Y.
S yx

SCE
n2

SCT yi y
i 1

Estimacin del modelo de regresin lineal simple.


El mtodo de mnimos cuadrados.
En esta particin de las sumas, la primera suma se denomina suma de
cuadrados total (SCT), refleja la variacin de los valores de Y con respecto
a la media y .
La segunda suma se denomina, suma de cuadrados de los errores (SCE), y
la tercera suma se denomina suma de cuadrados debido a la regresin
(SCR), refleja la cantidad de variacin de los valores de Y explicada por la
recta de regresin. Si se divide por n, (el tamao de la muestra), entonces,
se dice que la varianza de los y es igual a la varianza no explicada o
residual ms la varianza explicada por la recta de regresin
SCT = SCE + SCR

Estimacin del modelo de regresin lineal simple.


El mtodo de mnimos cuadrados.
SCT = SCE + SCR

y y y y y y
n

i 1

i 1

i 1

Estimacin del modelo de regresin lineal simple.


El mtodo de mnimos cuadrados.
X

12
8
10
11
7
7
10
14

58
42
51
54
40
39
49
56

54,57
43,25
48,91
51,74
40,42
40,42
48,91
60,23

9,38
-6,62
2,38
5,38
-8,62
-9,62
0,38
7,38

3,43
-1,25
2,09
2,26
-0,42
-1,42
0,09
-4,23

5,95
-5,37
0,29
3,12
-8,2
-8,2
0,29
11,61

387,88 =42,90 +343,41

87,98
43,82
5,66
28,94
74,30
92,54
0,14
54,46

11,76
1,56
4,37
5,11
0,18
2,02
0,01
17,89

35,40
28,84
0,08
9,73
67,24
67,24
0,08
134,79

387,88 =42,90 +343,41

Estimacin del modelo de regresin lineal simple.


El mtodo de mnimos cuadrados.
Ejemplo: En una muestra de 5 obreros de una fbrica se han observado sus
aos de experiencia (X) y el tiempo que tardan en realizar una determinada
tarea (y). Los datos se muestran en la tabla que sigue:
Y
X
8
9
4
3
3

1
2
3
4
5

Determine el Modelo de Regresin Lineal


Determine la covarianza y coeficiente de correlacin
Verificar que la variacin total es igual a la variacin no explicada ms la
variacin explicada por la regresin de Y en X.

Estimacin del modelo de regresin lineal simple.


El mtodo de mnimos cuadrados.
Y

XY

X2

Y2

64

18

81

12

16

12

16

15

25

13,00

11,00

35,80

Promedios
5,40

3,00

Estimacin del modelo de regresin lineal simple.


El mtodo de mnimos cuadrados.
SXY
RXY

-3,2
-0,87811408

Rxy2

Y=

BX
-1,6

A
10,2

0,77108434

SX
SY

1,41421356
2,57681975

Estimacin del modelo de regresin lineal simple.


El mtodo de mnimos cuadrados.
X
1
2
3
4
5

Y
8
9
4
3
3

8,6
7
5,4
3,8
2,2

2,6
3,6
-1,4
-2,4
-2,4

-0,6
2
-1,4
-0,8
0,8

3,2
1,6
0
-1,6
-3,2

6,76
12,96
1,96
5,76
5,76

0,36
4,00
1,96
0,64
0,64

10,24
2,56
0,00
2,56
10,24

33,20

7,60

25,60

También podría gustarte