Curso Estad.-21
Curso Estad.-21
Curso Estad.-21
Hasta ahora se han visto diferentes modelos estadísticos para el caso de una sola magni-
tud biológica medida. Pero en los experimentos es frecuente tratar el caso donde hay más de una
variable involucrada. En este capítulo se tratará el caso de dos variables con los modelos de Re-
gresión y Correlación estadística. El caso de más de dos variables excede los límites del presente
trabajo, destinado a los alumnos de las carreras de Farmacia y Bioquímica, porque requiere del
manejo de un nivel matemático (espacios vectoriales n-dimensionales) que estos no poseen. Se
comienza en este capítulo con el caso más sencillo de relación lineal simple entre dos magnitudes
biológicas cualesquiera. Es decir, una relación del tipo Y = X = f (X). A continuación se trata el
modelo más general con relaciones del tipo Y = a + b X, la ecuación de una recta o polinomio de
primer grado. Modelo conocido con el nombre de Análisis de Regresión lineal. Se presentan los
métodos cortos de cálculo y el planteo de ensayos de hipótesis respectivos. A continuación de
generaliza la regresión para el caso de polinomios de más de un grado y se muestran las trans-
formaciones de variables, convenientes para linealizar los cálculos.
21.1 Introducción
La forma más común de concebir las relaciones entre pares de magnitudes es del tipo
causa-efecto. Lo que trata el análisis estadístico es establecer la forma y la significación de las
relaciones funcionales entre las dos variables. La demostración de la relación causa-efecto es te-
ma del procedimiento del método científico, y queda a cargo del investigador. Estadística trata de
verificar la función matemática que permite predecir que valores de una variable Y corresponden
a valores dados de una variable X. Se suele escribir como Y = f (X), donde X es la variable inde-
pendiente.
(a) Número de anillos de un árbol (b) Ingresos semanales en una Farmacia (miles $)
El caso más simple de una recta de regresión es del tipo Y = X donde la recta pasa por el
origen de coordenadas y su inclinación es de 45º. Este es el caso de la relación entre el número
(Y) de anillos de un árbol y su edad en años (X). Ver caso (a) de la figura anterior. El caso más
general es cuando la recta no pasa por el origen y su inclinación es cualquiera. La relación mate-
mática es del tipo Y = a + b X donde a es el punto por donde la recta corta al eje Y cuando X =
0 y b es la tangente del ángulo de inclinación. Ver caso (b) de la figura anterior donde se muestra
la relación de los ingresos de una Farmacia medidos en miles de pesos con el tiempo expresado
en semanas, con una ecuación expresada con: Y = 2 + 3 X. Aquí, se supone que se han medido
los ingresos reales en una Farmacia y se encontró la recta que mejor ajusta a esa serie de puntos
con el Análisis de Regresión.
En todo ejemplo real, las observaciones no coinciden exactamente con la recta de regre-
sión debido a los errores casuales que afectan las mediciones. En Biología se suponen causas de
tipo genético y ambientales para explicar la aleatoriedad, además de los errores de medición. Es-
to significa que para un dado valor de X, el valor de Y que le corresponde no será exactamente:
a + b X, sino que esta ecuación usando el valor de X arroja el valor esperado de Y denominado
Y*. Entonces, para cada valor medido de X se tendrán dos valores: el valor medido en el experi-
mento Y y su valor esperado calculado por la recta de regresión Y*. La diferencia entre ambos
(Y-Y*) debe ser lo más chica posible, para tener una buena aproximación. La idea básica del
Análisis de Regresión es minimizar matemáticamente el cuadrado de estas diferencias con el mé-
todo de los mínimos cuadrados.
Tema 21 Modelos para más de una variable 21-3
Los diseños experimentales en regresión son dos: el Modelo I y el II. Ambos se basan en
cuatro hipótesis básicas.
1. La variable independiente se mide sin error. Esto significa que está bajo el control del investi-
gador y se consideran “fijos” a los valores de X que eligió. Por ejemplo, al manipular las dosis de
un cierto medicamento hipo-tensor, se fijan estos valores de X y por lo tanto no se la puede con-
siderar como una variable aleatoria. En cambio, el valor de la presión sanguínea del paciente no
puede ser fijada por el investigador; entonces Y varía en forma libre. En forma análoga a la vista
en los modelos de Anova, se considera Modelo I de regresión, al caso donde los valores de X
pueden ser manipulados a voluntad. Cuando esto no es así, entonces se tiene el Modelo II de re-
gresión donde ambas variables se consideran aleatorias porque no están bajo el control de inves-
tigador. Por ejemplo, se toma una muestra aleatoria de una población y a cada individuo selec-
cionado se le mide su presión sanguínea y su nivel hormonal. Ambas variables no quedan bajo el
control del investigador y deben ser consideradas aleatorias.
E(Y) = µy = Y* = α + β X
Se usan las letras griegas para describir una relación Paramétrica entre las variables.
Y* = α + β X + ε
Donde ε es un término de error con una distribución normal de media igual a cero y desvío σ.
Esto supone que cada valor X tiene un gran número de valores posibles de Y a hacer la medición,
con una distribución normal, cuyo eje de simetría es una vertical (eje z: dentro de un espacio tri-
dimensional imaginario) que pasa por el punto Y* de la recta de regresión, orientada sobre la lí-
nea que une el punto X con él Y* correspondiente. Esto para los casos donde hay más de un va-
lor de Y para cada valor de X.
4. Todas las muestras a lo largo de la línea de regresión son homocedásticas. Se supone que to-
das las distribuciones normales mencionadas en el punto anterior tienen la misma varianza.
La manera más sencilla de ilustrar estos cálculos es partiendo del concepto básico de la
recta de regresión: minimizar el cuadrado de las diferencias entre el valor medido Yi y el valor
correspondiente esperado por la recta Y*i. El caso más sencillo es cuando hay un solo valor me-
dido de Yi, para cada valor Xi. En la Figura 21.2 siguiente se muestra el planteo:
Bioestadística aplicada a Bioquímica y Farmacia 21-4
∑ Yi = a.N + b∑ X i
Sin embargo hay una forma más corta. La recta de regresión debe pasar necesariamente por el
centro de gravedad de los datos, es decir por el valor medio de X e Y. Esto es, si se divide la
primer ecuación por N en ambos miembros, queda igual a:
Reemplazando el valor de a en la segunda ecuación, queda una sola ecuación con una incógnita:
Despejando se calcula: b = - 0,7. Con este valor, se puede calcular a, reemplazando en la fórmu-
la de valores medios:
Y =a+b X
Resultando: a = 2,9
∑X i = c.N + d ∑ Yi
Ecuaciones normales para regresión de X sobre Y.
∑ X Yi = c.∑ Y
i i + d∑ Y i
2
Reemplazando el valor de a en la segunda ecuación, queda una sola ecuación con una incógnita:
Existen otras maneras de simplificar los cálculos, usando un cambio de coordenadas. Esto
se hace, colocando el origen en el centro de gravedad de los datos. Sencillamente, a cada valor de
X e Y se le resta su media respectiva. Las ecuaciones quedan más cortas. El lector interesado po-
drá encontrar estas técnicas en la Bibliografía específica.
La manera más rápida de efectuar los cálculos, incluso los necesarios para los tests de
hipótesis, se ilustra en el ejemplo siguiente:
Ejemplo) Nelson (1964) midió la pérdida en peso (en mg) de 9 tandas de veinticinco coleópteros
Tribolium, luego de seis días de no ingerir comida a nueve humedades diferentes. Los datos son:
2 2 2 2
Hum. Peso x= y= x y x.y Y* D= D y*= y*
X Y X-50,39 Y-6,02 Y-Y* Y*-6,02
0 8,98 -50,389 2,9578 2539,04 8,748449 -149,04 8,704 0,276 0,07616 2,68181 7,1921
12 8,14 -38,389 2,1178 1473,707 4,484983 -81,299 8,0654 0,0746 0,00557 2,04314 4,1744
29,5 6,67 -20,889 0,6478 436,3457 0,419616 -13,531 7,134 -0,464 0,21527 1,11175 1,236
43 6,08 -7,3889 0,0578 54,59568 0,003338 -0,4269 6,4155 -0,3355 0,11254 0,39325 0,1546
53 5,9 2,6111 -0,122 6,817901 0,014938 -0,3191 5,8833 0,0167 0,00028 -0,13897 0,0193
62,5 5,83 12,111 -0,192 146,679 0,036949 -2,328 5,3776 0,4524 0,20463 -0,64458 0,4155
75,5 4,68 25,111 -1,342 630,5679 1,80156 -33,705 4,6858 -0,0058 3,3E-05 -1,33647 1,7861
85 4,2 34,611 -1,822 1197,929 3,320494 -63,069 4,1801 0,0199 0,00039 -1,84208 3,3933
93 3,72 42,611 -2,302 1815,707 5,300227 -98,1 3,7544 -0,0344 0,00118 -2,26786 5,1432
Σ 453,5 54,2 0 0 8301,389 24,13056 -441,82 54,2 0 0,61606 0 23,514
50,3889 6,022 :Medias 6,0222
b -0,053222
a 8,704027
Tema 21 Modelos para más de una variable 21-7
Paso 1) En las primeras dos columnas se vuelcan los datos, se suman y se saca el promedio.
Paso 2) En la tercer y cuarta columna, se colocan los valores de las dos primeras menos sus res-
pectivos promedios y se determinan: y = f (x) dos variables que pasan por el centro de gravedad
de los datos, de acuerdo a la transformación efectuada:
x = X – X = X – 50,3889 e y = Y - Y = Y – 6,022
Paso 3) En la quinta y sexta columnas se calculan los cuadrados de los nuevos valores x e y.
Mientras que en la séptima se calcula su producto.
Paso 4) Ahora se pueden calcular los coeficientes de la recta de regresión a y b con la ecuación
de la recta de regresión de x sobre y, escrita en el nuevo sistema de coordenadas:
y= bx = (
∑ xy ) .x Por lo tanto: b = (-441,82) / (8301,389) = - 0,0532
∑x 2
Es decir se calcula la pendiente de la recta b como el cociente entre los totales de la quinta y sép-
tima columna. Conocido este valor, se puede calcular el otro considerando que la recta pasa por
el centro de gravedad de los puntos, o sea por sus valores promedio:
Y = 8,7 - 0,05 X
Variación Total: De una variable cualquiera Y, se calcula como la suma de cuadrados de las dife-
rencias entre cada valor medido y su promedio (es la suma de cuadrados en Y). Esto es:
(
VT = ∑ Y - Y )
2
Si al término entre paréntesis se le suma y le resta una misma cantidad Y* este no se altera. Rea-
lizando el reemplazo y las cuentas, resulta:
(
VT = ∑ Y - Y ) = ∑ (Y - Y * +Y * - Y ) = ∑ (Y - Y *) + ∑ (Y * - Y )
2 2 2 2
= VNE + VE
Donde VNE es la Variación No Explicada porque los valores de Y se comportan en forma alea-
toria o no previsible. Mientras que el segundo término, cada valor de la diferencia tiene un patrón
Bioestadística aplicada a Bioquímica y Farmacia 21-8
Paso 5) En la octava columna se calculan los valores de Y* (estimados a partir de la recta de re-
gresión) esto es: Y* = a + b X
Paso 7) En la décima columna se calculan los cuadrados de estas diferencias y su suma permite
obtener la Variación No Explicada:
∑ (Y - Y *)
2
VNE = = 0,61606
Paso 8) En la undécima columna se calculan las diferencias y* entre cada valor Yi y su prome-
dio. Esto es, a la columna 2 se le resta una constante: 6,0222.
Paso 9) En la última columna se elevan al cuadrado los valores anteriores y su suma permite ob-
tener la Variación Explicada:
∑ (Y * - Y )
2
VE = = 23,514
Paso 10) Se calculan los grados de libertad respectivos, sabiendo que si hay n mediciones, la VT
tendrá n términos cuadráticos libres, a los cuales hay que restar un grado de libertad por la ecua-
ción de vínculo entre ellos, dada con el cálculo de su media. Por lo tanto: υT = n – 1 = 8. Por su
parte la Variación Explicada tendrá un único grado de libertad υE = 1. Entonces, los grados de
libertad de la Variación No Explicada son: υNE = n – 2 = 7.
Paso 11) Se puede armar ahora la Tabla de Regresión, en forma análoga al Cuadro de Anova:
TABLA DE REGRESIÓN
Total 24,1306 8
Tema 21 Modelos para más de una variable 21-9
Se pueden hacer otro ensayo de hipótesis acerca del “coeficiente de regresión”: b como
se muestra a continuación:
MSerror 0,088
DSb = = = 0,003256
∑ x2 8301,39
β ∈ ( b ± tα;ν DSb )
Se concluye que el valor verdadero del coeficiente de regresión β está en dicho intervalo, con
un 95% de probabilidades a favor.
En muchas oportunidades, la teoría empleada para la regresión exige que la recta pase a
través del origen de coordenadas. Entonces, ya se tiene un punto para el cual no se encontrará
variaciones en el muestreo. Tal punto debe tratarse en una forma diferente a otro cualquiera ob-
servado. Un ejemplo de esto es el caso visto del número de anillos de un árbol y su edad. Otro,
más frecuente en Bioquímica y Farmacia, es el caso de la Recta de Calibración de un instrumen-
to de laboratorio cualquiera, como una balanza, un espectrofotómetro, etc. Generalizando, para
todo instrumento que requiera hacer el “ajuste del cero” antes de comenzar a usarlo. En una ba-
lanza, esto es la primer pesada en vacío, cuando se ajusta la escala al cero luego de ser nivelada.
Bioestadística aplicada a Bioquímica y Farmacia 21-10
N X Y
∑X 2
= 26.062,1 ∑Y 2
= 356.259 1
2
13,6
13,9
52
48
3 21,1 72
4 25,6 89
∑ XY = 95.755,7 b=
∑ XY = 3,67 5 26,4 80
∑X
2 6 39,8 130
7 40,1 139
8 43,9 173
Habrá 3,67 retornos inducidos por dosis. Entonces la 9 51,9 208
recta de regresión de retornos inducidos Y, por la dosis 10 53,2 225
administrada X , viene dada por la ecuación: 11 65,2 259
12 66,4 199
Y* = 3,67 X 13 67,7 255
Total 528,8 1929
∑x = ∑ (X - X) 2 = ∑ X − (∑ X ) / N
2 2
2
= 26.062,1 - [( 528,8 )2 / 13] = 4.552,14
∑y ∑ (Y - Y) ∑ X − (∑ X ) / N
2 2
2
= 2
= = 356.259 - [( 1.929 )2 / 13] = 70.025,08
VT = ∑ (Y - Y) 2
= ∑y 2
= 70.025,08 con 12 grados de libertad
TABLA DE REGRESIÓN
Total 70.025,08 12
Se tiene prueba altamente significativa de que existe la regresión de Y sobre X, aunque se ha to-
mado la ecuación general sin tener en cuenta que pasa por el origen.
Cuando se tengan dudas que la recta de regresión pasa por el origen, o sea a = 0, se puede
hacer otra validación estadística con:
El valor muestral se calcula considerando que en el centro de gravedad de los datos debe ser:
y = Y -Y = b x = (
∑ xy ) . (X – X )
∑x 2
Y = - 0,89 + 3,67 x
La variación debida a b es : (
∑ xy ) = 65.670,5
∑x 2
Se concluye que no hay evidencia que muestre que la recta no pasa por el origen.
Bioestadística aplicada a Bioquímica y Farmacia 21-12
Recta de calibración:
Para simplificar los cálculos se han tomado los mismos datos del enunciado anterior. Por lo tanto
la recta de calibración está dada por la ecuación:
Y* = 3,67 X
Si llegase a haber dudas respecto a si pasa por el origen de coordenadas, se puede hacer un test
como se vio más arriba. Sin embargo, aquí el problema no es determinar si hay regresión, esto es
no hace falta probar que b ≠ 0; sino determinar que el valor encontrado no difiera significativa-
mente del factor de dilución correcto. Si el valor esperado del factor es β = 3,5:
Por ejemplo, si se tratase de una balanza, la idea es que cada valor medido Y, de los patrones uti-
lizados X, sea Y = X. Esto es, una recta que pasa por el origen a 45º, o bien β = 1.
MSerror 395,87
DSb = = = 0,295
∑ x2 4.552,14
No se rechaza la hipótesis nula, no hay pruebas como para creer que el sistema está descalibrado.
Densidad de siembra X
5/g 20 / g 50 / g 100 / g
61,68 68,21 58,69 53,13
58,37 66,72 58,37 49,89
Supervivencia 69,30 63,44 58,37 49,82
Y 61,68 60,84
69,30
Total 320,33 259,21 175,43 152,84
Ni 5 4 3 3
Medias 64,07 64,80 58,81 50,95
Ref: Ejemplo de Sokal-Rohlf (pág. 480)
Para resolver este caso se procederá en dos etapas. En la primera se busca mediante mo-
delos de ANOVA decidir si hay diferencia entre los grupos de siembra. En la segunda se procede
con el análisis de regresión. Por regla general, si no hay significación en ANOVA es bastante
improbable que exista una línea de regresión.
Etapa 1) ANOVA: Se procede con los pasos habituales para este modelo:
Paso 3) Se calcula la suma de los totales grupales al cuadrado, divididos por su tamaño muestral
respectivo:
Variación SS ν MS F
Total 562,389 14
Etapa 2) Regresión: Ahora se debe comprobar si las diferencias entre los valores de superviven-
cia pueden ser explicados por una regresión lineal sobre la densidad de siembra.
Paso 8) Se calcula la sumatoria de los valores de X multiplicados por su tamaño muestral con:
∑ Ni X
2
= 5 (5)2 + 4 (20)2 + 3 (50)2 + 3 (100)2 = 39.225
_
Paso 10) Se calcula la sumatoria de los productos de X e Y por su respectivo tamaño muestral
con:
TCx =
(∑ Ni X ) 2
∑x ∑ Ni X
2 2
= - TCx = Paso 9 – Paso 11 = 39.225 – 20.535 = 18.690
( NX )( Y ) = Paso 10 -
∑ x.y = ∑ X(∑ Y ) - ∑ ∑∑
Paso8. Paso1
= - 2.747,62
∑ Ni N
Tema 21 Modelos para más de una variable 21-15
SSex. =
(∑ XY) 2
Para comprobar si las desviaciones respecto de la regresión lineal son significativas se hace el
ensayo: F = MSY;X / MSD < 1 por lo tanto se acepta la Ho, que las desviaciones respecto a la
regresión lineal son nulas. Esto significa que no hay variación residual, o dispersión, alrededor de
la línea de regresión. Por lo tanto se acepta a la recta como una buena explicación.
El siguiente ensayo es para determinar si existe la regresión lineal, es decir si b difiere significa-
tivamente de cero. Para eso se hace el ensayo:
Luego se tiene evidencia significativa, como para afirmar que existe una recta de regresión que
explica la regresión lineal de la supervivencia, respecto a la densidad de siembra. Resta entonces
encontrar dicha recta:
b=
(∑ XY)
= Paso 13 / Paso 12 = ( - 2.747,62 ) / ( 18.690 ) = - 0,14701
∑X 2
Y* = 65,96 – 0,14701 . X
El caso anterior era el más simple, cuando la curva de regresión es una recta. Pero para el
caso más general la curva de regresión toma una forma polinomial con:
Y* = a + b X + c X2 + d X3 + ....
La idea es que cualquier curva puede ser aproximada con un desarrollo en serie polinomial. Aho-
ra se tiene un conjunto de potencias crecientes de la variable independiente X, cada una con un
coeficiente de regresión diferente: a, b, c, d, etc. Por ejemplo, en el caso de una parábola habrá
tres términos polinómicos. A medida que se utilicen potencias más altas, el ajuste de la curva de
regresión a los datos reales, será cada vez mejor. Sin embargo, con cada potencia añadida se per-
derá un grado de libertad y se necesitarán más mediciones. Si n = 5 datos, para el cuadrado me-
dio residual o error, los grados de libertad son n-2 = 3, entonces el polinomio mayor que se podrá
usar es el de tercer grado. Por otra parte, es muy raro encontrar polinomios de más de tres grados
en las investigaciones biológicas. Los más comunes son:
Y* = a + b X (recta de regresión)
Y* = a’ + b’ X + c’ X2 (parábola de regresión)
Los coeficientes de cada una de las tres curvas anteriores son diferentes, por lo que deben
ser calculados cada vez. Luego de obtenida la recta, se puede aumentar una potencia de X y bus-
car la parábola de regresión. Pero entonces, hay que recomenzar los cálculos de nuevo y por regla
general, los nuevos coeficientes hallados (a’, b’) son diferentes de los anteriores (a, b). Como
estas regresiones polinomiales son ajustes empíricos, si al comprobar la significación esta resulta
significativa, significa que ahora se tiene un mejor ajuste que el lineal y conviene intentar la pa-
rábola cúbica.
Se recomienza todo de nuevo y los nuevos coeficientes serán diferentes a los anteriores
con lo que la significación deberá ser testeada otra vez. Es claro, que si antes de comenzar se
hubiese tenido información acerca del tipo de polinomio buscado, se hubiera comenzado por allí
y no con la recta. Los cálculos y ensayos relacionados con este tema se pueden encontrar en el
libro en Steel y Torrie (1960) mencionados en la bibliografía.
Tema 21 Modelos para más de una variable 21-17
2) Se desea encontrar la recta de regresión para los siguiente datos, y luego validar los resultados obtenidos tan-
to para a como para b:
X Y
0 5
10 20
20 40
30 60
40 78
50 98
60 118
70 135
80 152
3) Se desea saber si la balanza investigada está calibrada. Los datos recogidos son:
4) Encontrar la recta de regresión para cuando hay 5 valores de Y por cada X, realizando las vali-
daciones correspondientes:
X
15 20 30 50
65 60 53 43
68 58 52 44
Y 67 59 51 42
69 57 54 41
70 58 50 40
5) Encontrar la recta de regresión para cuando hay 3 valores de Y por cada X, realizando las vali-
daciones correspondientes:
X
15 20 30 50
65 60 53 43
Y 68 58 52 44
67 59 51 42
6) Para los datos de la tabla siguiente decidir si existe una recta de regresión entre las dos varia-
bles presentadas.