Bioestadística Básica
Bioestadística Básica
Bioestadística Básica
BIOESTADÍSTICA
BÁSICA
UB – CAMPUS BELLVITGE
ELISABET PUIG
MED1
Elisabet Puig
Medicina UB – Campus Bellvitge
BIOESTADÍSTICA BÁSICA
1. INTRODUCCIÓN Y CONCEPTOS CLAVE
Variabilidad: también conocida como medida de dispersión. Indica la distribución de los datos
según se acerquen más o se alejen de los valores medios. Así pues, como mayor sea el valor, más
ancha será la base y por lo tanto habrá menor uniformidad tendrán los datos (heterogeniedad).
Por lo contrario, si adquiere un valor más pequeño, habrá más uniformidad en los datos
(homogeniedad) y por lo tanto, la base será más estrecha. No podemos determinar la variabilidad
a nivel individual sino que tenemos que describirla a nivel poblaciona (los factores de riesgo no
afectan de la misma forma a todos los individuos). Puede ser:
- Biológica: ya sea entre los diferentes individuos de estudio o en un mismo individuo (en
diferentes momentos, como por ejemplo en un estudio de casos y controles cruzado o en
diferentes muestras de tejido). Viene determinada por los genes, el ambiente y el tiempo.
- Causada por un error en la medida.
Población: conjunto total de individuos, objetos o medidas que poseen algunas características
comunes observables en un lugar y en un momento determinados. Esas características que
poseen seran muy importantes a la hora de hacer el estudio.
Muestra: se obtiene a través del muestreo. Es un subconjunto representativo de la población.
Los resultados que se obtengan de ésta se aplicaran a nivel poblacional.
Estadística descriptiva: nos explica cómo es la muestra estudiada. Se limita a resumir las
observaciones sin llegar a conclusiones.
Estadística analítica/inferencial: nos explica cómo es la población de estudio y evalúa el papel
del azar. Puede contestar preguntas (no se limita sólo a observar y a describir) cómo la eficacia
de un tratamiento, sus efectos secundarios, relación con las variables de estudio…
Variable: son aspectos de la realidad que pueden tomar diferentes estados o valores que
podemos registrar o medir. El conjunto de información recogida recibe el nombre de datos. Las
variables pueden ser:
- Categóricas: variables cualitativas. Características o estados diferenciados y excluyentes (un
mismo individuo no puede poseer dos del mismo tipo.
Categóricas nominales: no son ordenables y son jerárquicamente iguales. Dentro de
esas encontramos un tipo especial binarias (dos únicas categorías dicotómicas del
tipo sí/no). Ejemplo: sexo (hombre/mujer)
Categóricas oridnales: pueden ordenarse y hacerse comparaciones.
- Numéricas: variables cuantitativas. Se miden según una escala y tienen unidades.
Numéricas discretas: solo pueden tomar unos valores concretos. Ejemplo: número de
hijos (3)
Numéricas contínuas: pueden tomar cualquier valor (teóricamente). Ejemplo: peso
(53,76kg)
Elisabet Puig
Medicina UB – Campus Bellvitge
2. ESTADÍSTICA DESCRIPTIVA
Análisis univariante: sólo hay una variante implicada y el objetivo del análisis es describirla.
Análisis bivariante: hay dos variables implicadas (pueden ser las dos categóricas o numéricas o
categórica y numérica) y el objetivo del análisis es estudiar la relación entre ambas.
Resumen numérico:
Según la semejanza de esas tres medidas podemos estudiar la distribución de los datos y su
simetría, aunque no son suficientes para realizar el análisis completo:
b) moda < mediana < media asimetría positiva histograma desplazado a la izquierda
c) moda > mediana > media asimetría negativa histograma desplazado a la derecha
Elisabet Puig
Medicina UB – Campus Bellvitge
Medidas de dispersión: dos variables pueden tener los mismos valores de tendencia central pero
los otros valores pueden comportarse de forma diferente alrededor de ésos (pueden estar muy
juntos o muy dispersos).
- Desviación típica: nos indica cómo se distribuyen los valores de una variable alrededor de la
media. Si la desviación adquiere un valor pequeño, menos dispersión de datos tendremos,
mientras que si adquiere un valor grande, será un indicador de dispersión. Las unidades son
las mismas de la variable y por tanto, es más fácil de interpretar. Sensible a los errores.
∑(𝒙𝒊 − ̅
𝒙)
𝒔= √
𝒏−𝟏
- Varianza: si la varianza es pequeña nos indica que los valores de la variable se encuentran
concentrados alrededor de la media, mientras que un valor grande nos indica que hay
dispersión en los datos. Se eleva al cuadrado para que las diferencias respecto la media sean
positivas, sean los valores mayores o inferiores a ésta. Las unidades de la variable se
encuentran elevadas al cuadrado y eso dificulta su interpretación. Sensible a los errores.
∑(𝒙𝒊 − 𝒙̅)
𝒔𝟐 =
𝒏−𝟏
- Rango: diferencia entre los valores extremos. Cuanto mayor es el rango de una variable,
mayor es su dispersión. Se afecta mucho por valores extremos.
𝑹𝒂𝒏𝒈𝒐 = 𝒙𝒊 𝒎á𝒙 − 𝒙𝒊 𝒎í𝒏
- Rango intercuartílico (RIC): diferencia entre el tercer (75%) y el primer cuartil (25%), por lo
tanto obtenemos el 50% de las observaciones (valores centrales).
𝑹𝑰𝑪 = 𝟑𝒓 𝒄𝒖𝒂𝒓𝒕𝒊𝒍 − 𝟏𝒓 𝒄𝒖𝒂𝒓𝒕𝒊𝒍
- Coeficiente de variación (CV): cociente entre la desviación estándar y el valor absoluto de la
media de las observaciones. Sería la desviación típica expresada en términos relativos
respecto a la media, y nos resultará útil para comparar la dispersión en dos variables con
distintas unidades ya que es adimensional. Por lo tanto, una variable será más dispersa que
otra cuando mayor sea su CV. Sensible a los errores.
𝒔
𝑪𝑽 =
̅|
|𝒙
Posición: consiste en ordenar los datos. La medida de posición es el cuantil. ATENCIÓN: el
cuantil se corresponde con un número es el valor por dónde partimos las observaciones.
- Percentiles (99 valores que dividen las observaciones en el 1% del total), terciles (dividen en
tres grupos 33’3% del total), cuartiles (dividen en cuatro grupos 25% del total. El valor
del segundo cuartil coincide con la mediana. Permiten calcular el RIC), quintiles (dividen en
cinco grupos 20% del total),…
Resumen gráfico:
Histogramas
Elisabet Puig
Medicina UB – Campus Bellvitge
Diagramas de cajas:
Resumen numérico:
Tabla de frecuencias: se contemplan tanto las frecuencias absolutas (valores) como las relativas
(porcentajes).
Resumen gráfico:
Se explicará la variable numérica (variable respuesta) en cada grupo de la categórica (variable explicativa).
Análisis numérico:
Estadísticos por categorías: nos permite realizar una comparación de medias (las medias de la
variable numérica en cada grupo de la variable categórica).
Gráficos:
Diagramas de cajas
Histogramas por categorías
Análisis numérico:
Gráficos:
Diagrama de barras
Análisis numérico:
Modelo lineal (regresión): es una función matemática que resume la tendencia lineal entre las
dos variables. Permite hacer predicciones de una variable en función de la otra a través de la
ecuación de una recta. La pendiente de la recta de regresión (recta que se ajusta a la nube de
puntos) nos da información sobre la relación entre las dos variables: m = 0 pendiente
horizontal no existe relación, m >< 0 recta inclinada existe asociación lineal (ya sea
positiva o negativa).
Gráficos:
BLOQUE DE PROBABILIDAD
3. PROBABILIDAD
En medicina nos basaremos en cálculos frecuentistas, gracias a las conclusiones a las que se
llegan después de los estudios.
Probabilidad subjetiva: impresión subjetiva de algo que puede ocurrir. Mediante la observación
de los datos podemos modificar esta impresión. Antes de realizar el experimento tenemos una
ligera idea de lo que puede ocurrir.
El valor de probabilidad oscila en un rango de [0, 1], donde Pr = 1 (100%) es el suceso seguro y Pr = 0 (0%)
es el suceso imposible.
Sucesos no excluyentes: tienen algunas cosas en común y por lo tanto, hay que contemplar la
posibilidad de encontrar los dos sucesos a la vez Pr (A y B) ≠ 0. Pr(A) + Pr(B) ≠ 100 ya que tienen
una parte “compartida” (Pr (A y B) ≠ 0).
INDEPENDENCIA DE SUCESOS
Dos sucesos A y B son independientes si la probabilidad de que suceda A no depende en ningún momento
de que suceda B.
Ejemplo: en una encuesta a 300 estudiantes de medicina, 100 hombres y 200 mujeres, preguntamos si son
fumadores activos. Obtenemos la siguiente tabla:
A partir de aquí podemos calcular la probabilidad marginal. La probabilidad marginal es la que se hace
respecto el total de la tabla (en nuestro caso, sobre 300).
Obtenemos que la probabilidad de ser mujer es de 200/300, es decir un 66%, y que la probabilidad de
fumar es de 60/300, es decir un 20%. Ahora, debemos cuestionarnos si el hecho de ser mujer implica
fumar, o viceversa. Cómo no existe relación entre ambos sucesos, podemos afirmar que son
independientes.
Ley del producto: cuando dos sucesos son independientes podemos aplicar la ley del producto
para calcular la probabilidad de que sucedan los dos sucesos a la vez Pr (A y B) = Pr(A) x Pr(B)
En nuestro caso, la probabilidad de ser mujer y fumadora a la vez es: Pr (mujer y fumadora) = Pr
(mujer) x Pr (fumadora) = 2/3 x 1/5 = 2/15.
SUCESOS NO INDEPENDIENTES
Ejemplo: en una encuesta a 416 estudiantes de medicina, 215 hombres y 201 mujeres, preguntamos si son
fumadores activos. Obtenemos la siguiente tabla:
Ahora, no calcularemos la probabilidad marginal, ya que queremos que un suceso dependa del otro y por
lo tanto, no podemos hacerlo sobre el total (el total incluye fumadores, no fumadores, tanto si son
hombres o mujeres o a la inversa, no está separado por categorías). Calcularemos la probabilidad
Elisabet Puig
Medicina UB – Campus Bellvitge
condicionada, y por lo tanto trabajaremos sobre una fila o sobre una columna, dependiendo de la
variable que queremos que nos explique la otra. En conclusión, la probabilidad condicionada es la
probabilidad en un subgrupo.
Si queremos saber la probabilidad de fumar siendo mujer, deberemos calcularlo sobre 201, ya que solo
queremos centrarnos en mujeres. Tenemos que la probabilidad de fumar siendo mujer es 10/201, es decir
un 5%.
El teorema de Bayes nos permite invertir las probabilidades condicionadas. En nuestro caso, la
probabilidad de ser mujer respeto ser fumador, cuando antes era la probabilidad de ser fumador
respeto ser mujer.
Pr (C) x Pr (P|C) = Pr (P) x Pr (C|P)
Suponiendo que conocemos Pr (P|C), que es la probabilidad que hemos calculado anteriormente
de ser fumadora respecto siendo mujer, podemos calcular la “inversa” (probabilidad de ser mujer
respecto ser fumador) aislando Pr (C|P) de la fórmula.
Con la ley de la probabilidad total podemos calcular la probabilidad de que suceda un evento
conociendo la información de las probabilidades de otros eventos, es decir, que podemos descomponer
la probabilidad de un suceso en función de otro.
La probabilidad de B se puede calcular a partir las probabilidades que conocemos de A (suponemos que
A es cada rectangulito, con color naranja y verde). Por lo tanto:
Elisabet Puig
Medicina UB – Campus Bellvitge
Determinados instrumentos matemáticos que nos permitirán analizar los datos basados en probabilidad
comparándolos con la realidad y decidir si el modelo es adecuado o debemos buscar otro (si se adecúa
con la realidad o no).
Primeramente debemos definir dos conceptos diferentes que hacen referencia a la población y a la
muestra:
Parámetro: es un valor poblacional, teórico y desconocido (no lo podemos calcular, solo estimar).
Utilizaremos símbolos como µ (media), π (proporción), σ (desviación típica) letras griegas.
Estimador: es un valor muestral, calculable y nos sirve para estimar el parámetro. Utilizaremos
símbolos como 𝑥̅ (media), s (desviación típica), p (proporción) letras latinas. Mediante el
proceso de estimación podremos aplicar los resultados obtenidos en la muestra a la población.
𝑷𝒓 (𝑿 ≤ 𝒊) ∑ 𝑷𝒓(𝑿 = 𝒊)
𝑖=0
Elisabet Puig
Medicina UB – Campus Bellvitge
En una población hablamos de una distribución de probabilidad, en cambio en una muestra hablamos
de una distribución de frecuencias. Los valores de una misma variable no tienen por qué corresponderse
en una población y en una muestra.
Ejemplo: nacimientos de niños y niñas. En una población se sigue un modelo de probabilidad (π = 0’5
50% posibilidades de que nazca niño y 50% posibilidades de que nazca niña). En una muestra, que hemos
podido calcular las frecuencias obtenemos un 48% de niñas (0’48) y un 52% de niños (0’52).
DISTRIBUCIÓN BINOMIAL
Solo la podremos aplicar con estas condiciones:
- Variable binaria
- Muestra de pequeño tamaño fijo (n)
- Observaciones independientes (la probabilidad de que un individuo tenga un suceso tiene
que ser independiente de otro individuo en la misma muestra).
- Probabilidad (π) constante
𝒏
𝑷𝒓 (𝑿 = 𝒌) = ( ) 𝝅𝒌 (𝟏 − 𝝅)𝒏−𝒌
𝒌 combination formula with factorial
𝒏
( ) 𝑒𝑠𝑜 𝑠𝑜𝑛 𝑙𝑎𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠 𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑣𝑒𝑛𝑡𝑜𝑠
𝒌
Seguiremos con el ejemplo anterior de los niños. Imaginemos una familia con 4 hijos, dónde π = 0’5
(probabilidad de ser niño), k = suceso de ser niño, por lo que 1 – π = probabilidad de ser niña y n – k = suceso
de ser niña n = número de hijos (muestra n).
a) Supongamos un primer caso en el que los cuatro hijos resultan ser todo niñas, es decir k = 0.
b) Supongamos un segundo caso en el que de los cuatro hijos tres son niñas y uno es niño, es decir k = 1.
Podemos observar que independientemente de las posibles combinaciones de los hijos (4), la
probabilidad de tener un hijo varón (suceso k) se mantiene constante (0’54), y por tanto se puede aplicar
el modelo binomial.
distribución esperada del número de contagio? El número esperado de familiares infectados es E(x) = nπ =
10 x 0’2 = 0’2. La varianza (𝑠 2 ) es de 1’6 y la desviación estándar (𝑠 = √𝑠 2 ) es de 1’26.
Para una variable numérica continua k puede tomar cualquier valor y por lo tanto Pr (x = k) = 0. Eso es
porque no podremos observar un solo valor, sino que debemos establecer unos rangos o intervalos de
valores. Por lo tanto, la probabilidad de encontrar un valor determinado es nula si trabajamos con rangos.
La probabilidad corresponderá al área debajo de la curva de la gráfica.
P(x<media) (NOT
EQUAL)= 0,5
MODELO NORMAL
La gráfica de su función densidad tiene una forma acampanada
no se calcula valores exactos para
(campana de Gauss). distribuciones continuas - valor bajo un
punto en la curva es 0, lo que nosotros
Probabilidades: calculamos es el AREA debajo de la curva
(integral)
Función densidad (f): describe la densidad de la probabilidad en cada punto del espacio de tal
manera que la probabilidad de que la variable aleatoria continua (x) tome un valor dentro de un
determinado conjunto sea la integral de la función densidad sobre dicho conjunto. En resumen,
es la probabilidad relativa de que la variable aleatoria continua tome un determinado valor
(dentro de un rango). Esta función sólo nos sirve para integrar (es la línea).
𝒌𝟐
𝑷𝒓 (𝒌𝟏 ≤ 𝒙 ≤ 𝒌𝟐 ) = ∫ 𝒇(𝒙) 𝒅𝒙
𝒌𝟏
Función distribución de probabilidad acumulativa (F): describe la probabilidad de que una
variable aleatoria continua real (X) sujeta dentro del rango de valores que abarca nuestra
distribución (observaciones) se sitúe en una zona de valores menores o iguales a x. Es la integral
(primitiva) de f.
𝒌
𝑭(𝒌) = 𝑷𝒓 (𝒙 ≤ 𝒌) = ∫ 𝒇(𝒙) 𝒅𝒙
−∞
La función distribución nos proporciona la probabilidad desde (-∞, k], y es una función creciente
de 0 [-∞] a 1 [+∞].
Propiedades:
sumar —> mover la distribución y la media
- La función es simétrica respecto de su media. multiplicar —> se hace mas ancha o mas estrecha la
distribución
- Media = mediana = moda
- Esperanza: E(X) = µ sumar —> solo afecta la media
multiplicar —> afectan media Y desviación tipica
- Varianza: Var(X) = σ2
- Las variables aceptan transformaciones lineales, ya sea sumando una constante (X + a) y
por lo tanto variando su posición (movimiento de izquierda a derecha) o multiplicando por
una constante que no sea 0 (X * b) y por lo tanto variando la escala (más ancho o más
estrecho).
- La suma y la resta de dos normales sigue siendo una normal siempre y cuando las variables
sean independientes entre sí:
X1 = N (µ1, σ1) y X2 = N (µ2, σ2), la nueva normal será Y: Y = X1 ± X2 = N (µ1 ± µ2, √𝝈𝟐𝟏 + 𝝈𝟐𝟐 )
- El área de la zona comprendida entre los puntos ±σ vale 1 (total de población). Si nos
preguntan qué porcentaje de n se entre µ y ±σ es el 50% (0’5).
La hemoglobina es una variable continua. Pensemos que el modelo Normal puede ser adecuado para
esta variable. Interpretamos el enunciado: HB ~ N (µ = 14’5, σ = 1’8). Pr (anemia) = Pr (HB < 14’0). Ahora,
debemos tipificar porque queremos saber una proporción (de los que estaban anémicos) y por lo tanto,
necesitamos una escala de 0 a 1. Tipificaremos el valor de X en el cual los individuos que se encuentran
por debajo están anémicos (14’0):
14′0 − 14′5
𝑍= = −0′278
1′8
Ahora buscamos Pr(HB < 14’0) = Pr (z < -0’278) = 0’3905 = 39’05% lo hemos hecho con la calculadora
de probabilidades.
Se propone tratar a toda la población como medida preventiva. Un fármaco propuesto disminuye el
colesterol una media de µ = 40 mg/dL (σ = 10 mg/dL).
Aplicamos una distribución normal: C ~ N (µ = 220, σ = 30) y tipificamos el valor límite (250):
250 − 220
𝑍= = 1
30
Calcula antes y después del tratamiento la proporción de hipercolesterolémicos y de hipocolesterolémicos.
b) Después de tratar:
Elisabet Puig
Medicina UB – Campus Bellvitge
Debemos entender el tratamiento como una variable que puede seguir una distribución normal: T ~ N (µ
= 40, σ = 10). El tratamiento disminuye, por lo tanto deberemos restar las dos normales (T y C) para ver
la nueva distribución del colesterol en nuestra población de estudio una vez aplicado el tratamiento.
Aplicamos esta fórmula: Y = X1 ± X2 = N (µ1 ± µ2, √𝝈𝟐𝟏 + 𝝈𝟐𝟐 ) y obtenemos que la nueva distribución del
colesterol (C’) sigue el siguiente modelo normal: C’ ~ N (µ = 180, σ = 31’6). Con esta nueva distribución
vamos a realizar los mismos cálculos del apartado a), pero antes debemos tipificar de nuevo:
250 − 180
𝑍= = 2′22
31′6
- Pr (Hiper) Pr (Z > 2’22) = 0’013
- Pr (Hipo) Pr (Z ≤ 2’22) = 0’17
De una población obtenemos repetidas muestras aleatorias del mismo tamaño (n) y calculamos la media.
Una media es un resumen de una muestra y es más precisa; está más cerca del valor poblacional que un
valor individual.
Error estándar (𝝈𝒙̅ ): es la desviación típica de la media. Siempre será menor a la desviación
estándar de la variable en la población. Disminuye cuando aumentamos el tamaño de la muestra.
𝝈
𝝈𝒙̅ =
√𝒏
A partir de aquí es necesario diferenciar dos conceptos diferentes: σ mide la dispersión de la
variable en la población, mientras que 𝝈𝒙̅ mide la dispersión de la media de la muestra de
tamaño n obtenida a partir de la población.
Propiedades:
Ejemplo: Leemos en un artículo que se realizó un estudio transversal en una muestra de 30.000 personas en
los que se determinó la tensión arterial sistólica. El valor medio fue de 145,4 mmHg (s = 29’2). Si obtenemos
una muestra de n = 16, ¿con qué probabilidad la media será superior a 150 mmHg?
Primeramente vamos a calcular el error estándar (desviación típica de la media) con su fórmula, y
obtendremos que:
Elisabet Puig
Medicina UB – Campus Bellvitge
29′ 2
𝑥̅ ~ 𝑁 (𝜇 = 145′ 4 , 𝜎 = )
√16
Ahora los cálculos a seguir son los mismos que antes; tipificamos e introducimos los valores a la
calculadora de probabilidades:
150 − 145′4
𝑍= = 0′62
7′3
Por lo tanto buscamos: Pr (Z > 0’62) = 0’27.
Criterios de normalidad:
DISTRIBUCIÓN POISSON
La utilizaremos cuando:
- n > 100
- Probabilidad de suceso muy pequeña (π < 0’05) coincidencias (fenómenos raros)
- Los sucesos son independientes
Nos resultará útil para variables discretas que se cuentan (número de veces que sucede un
acontecimiento).
𝝁𝒌 −𝝁
𝑷𝒓 (𝑿 = 𝒌) = 𝒆
𝒌!
Recordamos que µ es la media de número de eventos por persona y se calcula como: µ = nπ
Ejemplo: Un estudio interrogó a 1000 personas por el número de accidentes de tráfico que habían tenido
durante los últimos 5 años. ¿La probabilidad de tener un accidente (π) es constante?
Propiedades:
- Esperanza E(X) = µ
- Varianza Var(X) = µ
5. TESTS DIAGNÓSTICOS
Para entender este apartado debemos definir unos conceptos a priori (los cálculos se entenderán mejor
a partir de la tabla que se encuentra más abajo):
Estos dos conceptos determinan la validez de un test. Ahora bien, no siempre los test aciertan y por
lo tanto debemos contemplar la posibilidad de tener falsos positivos y falsos negativos.
Valor predictivo positivo (VPP): probabilidad de ser enfermo si el test es positivo. En resumen;
de los que han salido +, cuántos están bien clasificados.
𝑨 𝑽𝑷
𝑽𝑷𝑷 = =
𝑨+𝑩 𝑽𝑷 + 𝑭𝑷
(De todos los que han dado positivo, cuántos han sido clasificados correctamente)
Elisabet Puig
Medicina UB – Campus Bellvitge
Valor predictivo negativo (VPN): probabilidad de ser sano si el test es negativo. En resumen; e
los que han salido -, cuántos están bien clasificados.
𝑪 𝑽𝑵
𝑽𝑷𝑵 = =
𝑪+𝑫 𝑽𝑵 + 𝑭𝑵
(De todos los que han dado negativo, cuántos han sido clasificaos correctamente)
Estos dos conceptos determinan la seguridad del test y no tendrán una probabilidad de 100% (la mayoría
de veces). Ejemplo: test de embarazo con un 90% de fiabilidad (10% de posibilidades de equivocarse)
Para evaluar un test debemos tener en cuenta la prevalencia (probabilidad a priori) de la enfermedad y
elaborar una tabla de la siguiente forma:
- A = VP (verdaderos positivos)
- B = FN (falsos positivos)
- C = FP (falsos negativos)
- D = VN (verdaderos negativos)
- A + C = prevalencia de enfermos
Si nos fijamos en las definiciones podemos ver que en el fondo todo son probabilidades condicionadas,
en las que la sensibilidad y la especificidad son las inversas de los valores predictivos positivos y de los
valores predictivos negativos respectivamente, por lo que cumplirán el teorema de Bayes.
Hacemos la tabla:
𝐴
𝑆𝑒𝑛𝑠 = → 𝐴 = 0′ 99 · 0′ 0003 → 𝐴 = 0′000297
𝐴+𝐶
Ahora calcularemos el valor de D partiendo de la Especificidad:
𝐷
𝐸𝑠𝑝 = → 𝐷 = 0′ 995 · 0′ 9997 → 𝐷 = 0′9947
𝐵+𝐷
BLOQUE DE ESTIMACIÓN
6. ESTIMACIÓN
En todo estudio de una muestra lo que queremos en última instancia es conocer (estimar) los parámetros
de la población, por lo tanto decimos que la muestra es un estimador de la población (modelo). Para
este apartado debemos recuperar un concepto explicado anteriormente:
Error estándar (𝝈𝒙̅ ): es la desviación típica de la media. Siempre será menor a la desviación
estándar de la variable en la población. Disminuye cuando aumentamos el tamaño de la muestra
(ya que entonces, el valor de la muestra será más aproximado al de la población y por lo tanto la
media calculada (𝑥̅ ), será más similar a la de la población (µ)).
Elisabet Puig
Medicina UB – Campus Bellvitge
𝝈
𝝈𝒙̅ =
√𝒏
Aquí podemos observar como a medida que aumenta n, disminuye 𝝈𝒙̅ , tal como indica su fórmula (y por lo
tanto la campanada adopta una forma más estrecha). La línea verde hace referencia a la media de la
población (por lo tanto no será 𝝈𝒙̅ , sino que será σ). Las líneas rojas nos ilustran cómo se comporta la media
en nuestras muestras.
Paralelamente, es conveniente mencionar también el teorema del límite central, que nos dice que
independientemente de la forma de la distribución en la población, la distribución de la media en una
muestra (siempre que esta sea >30), es normal.
Aquí podemos ver que la población sigue una distribución bimodal (hay dos máximos). Esa distribución es
típica de poblaciones que están divididas en dos subpoblaciones que siguen diferentes tendencias. El
segundo gráfico, el de la muestra, sigue una distribución normal (campana) independientemente de la
forma de la población. La línea verde hace referencia a µ (media en la población parámetro) y la roja a 𝑥̅
(media en la muestra estimador).
Como hemos dicho anteriormente, es un conjunto de valores del que estamos un 95% seguros que
contienen el valor real de µ. Depende de:
Elisabet Puig
Medicina UB – Campus Bellvitge
*ATENCIÓN: ser preciso no implica ser correcto; simplemente limitas el rango de valores pero ese nuevo
rango no tiene porqué ser más correcto que el anterior.
La fórmula del IC es la media de la muestra más/menos el margen de error (nivel de confianza · error
estándar). Esta fórmula la utilizaremos cuando tengamos una distribución normal (n suficientemente
grande).
El intervalo de confianza siempre lo calcularemos al 95%. Eso quiere decir que si pudiésemos repetir
muchas muestras y calculásemos el IC 95%, un 95% de los IC incluirían el valor real, mientras que el 5%
restante no. En conclusión; todos los IC calculados contienen un valor de 𝑥̅ , pero sólo un 95% de ellos
contiene el verdadero valor de µ de la población (de acuerdo con los resultados de la muestra).
Coeficientes de confianza:
- n < 30 (muestras pequeñas), ya que se supone que la estimación de σ por s puede presentar
algunas diferencias respecto el valor real.
- No conocemos el valor poblacional (parámetro) de la desviación típica (σ) y lo tenemos que
estimar.
La distribución de t-Student es muy similar a la normal pero más plana. Hay muchas y el tipo depende
del grado de libertad (n – r). Los grados de libertad se definen como el número de observaciones menos
el número de parámetros que hemos tenido que estimar (en nuestro caso es 1 porque solo hemos
estimado σ con s) y van resultar útiles para el cálculo del IC. Difiere en el coeficiente de confianza que es
𝒕𝜶, 𝒏−𝟏 y se calcula mediante un programa informático.
𝟐
Ejemplo: Se realizó un estudio de obesidad con una muestra de 1925 mujeres diagnosticadas de cáncer de
mama. Se evaluaron diferentes parámetros antropométricos y de calidad de vida. 150 de ellas tenían un IMC
superior a 35 por lo que se consideraron obsesas. En este subgrupo de obsesas se ha estimado que el nivel
medio de colesterol sérico es de 2’4 g/L con una desviación estándar de 0’62 g/L. A partir de esta información
se quiere calcular un IC al 95% para el nivel de colesterol de este grupo.
Interpretamos el enunciado: s = 0’62 g/L, n = 150 (solo para el grupo con IMC > 35), x̅ = 2’4 g/L. El valor del
coeficiente de confianza para la distribución de t-Student con un grado de libertad n – 1 (s) es 1’976. Ahora,
podemos aplicar la fórmula:
𝑠 𝑠 0′ 62 0′ 62
𝐼𝐶 = {𝑥̅ − 𝑡𝛼, 𝑛−1
; 𝑥̅ + 𝑡𝛼, 𝑛−1
} → 𝐼𝐶 = {2′ 4 − 1′ 976 ; 2′ 4 + 1′ 976 }→
2 √𝑛 2 √𝑛 √150 √150
¿Cómo aumentar la precisión sin tocar el nivel de confianza (es decir, disminuir la amplitud del IC)? La
única posibilidad es reducir el error estándar (a la fórmula está multiplicando), y la única forma de
reducirlo es aumentando el tamaño de la muestra (n). Recordamos la fórmula del error estándar:
𝝈 𝒔
𝝈𝒙̅ = 𝑜 𝑏𝑖𝑒𝑛 𝒔𝒙̅ =
√𝒏 √𝒏
Si nos fijamos, n está dentro de una raíz por lo que si queremos reducir el IC a la mitad, debemos aumentar
n cuatro veces. La primera se utiliza en distribuciones normales o cuando conocemos el valor de σ y la
segunda en t-Student o cuando no conocemos el valor de σ.
Ejemplo: Se ha estudiado la variable altura de los individuos de una población. Suponemos que la
distribución de esta variable es normal. Se tomó una muestra de 30 individuos de los que se estiman los
siguientes resultados: 𝑥̅ = 171 cm, s = 9’5 cm. ¿Cuál es el tamaño que debería tener una muestra para que se
obtuviera un intervalo de confianza para la media poblacional con un nivel de significación (confianza) del
90% y una precisión d = 1cm?
Interpretamos el enunciado:
𝑠
Distribución normal 𝐼𝐶 = 𝑥̅ ± 𝑧𝛼/2 . IC al 90%, por lo que el coeficiente de confianza será 1’64.
√𝑛
𝑠
Precisión = amplitud del IC (𝑑 = 𝑧𝛼/2 𝑛). Tenemos los datos restantes y por lo tanto, solo hemos de aislar
√
n de la fórmula de la precisión:
𝑠2
𝑛 = 𝑧𝛼/2 2 → 𝑛 = 243
𝑑2
Para calcular el IC de una proporción usaremos la aproximación normal cuando n > 100. El modelo
binomial va a diferir con los dos anteriores con el error estándar; que ya no será de la media de la muestra
sino que será de la proporción de la muestra. Entonces la fórmula queda así:
Elisabet Puig
Medicina UB – Campus Bellvitge
𝒑(𝟏 − 𝒑) 𝒑(𝟏 − 𝒑)
𝑰𝑪 = 𝒑 ± 𝒛𝜶/𝟐 𝒆𝒆𝒑 → 𝑰𝑪 = {𝒑 − 𝒛𝜶 √ ; 𝒑 + 𝒛𝜶 √ }
𝟐 𝒏 𝟐 𝒏
Recordemos que para calcular p tenemos que dividir los casos entre el total de la muestra (p = x/n).
ATENCIÓN: la aproximación falla para valores x < 5, 0’05 > p > 0’95 y para la aproximación normal
debemos tener n > 100.
Si nuestra muestra no cumple los requisitos necesarios para la aproximación normal deberemos emplear
un modelo para la binomial exacto para calcular el IC. Para ello existen programas informáticos.
𝑰𝑪 = 𝒑 ± 𝒛𝜶/𝟐 𝒆𝒆𝒑
Para hacer comparaciones estadísticas tenemos dos métodos que se basan en los mismos principios y
son complementarios:
Intervalo de confianza: mide la magnitud de la diferencia entre población y muestra. Para hacer
la estimación utilizaremos el IC. pone un +/- a la magnitud
Cálculo del P-valor: cuantifica en qué medida estamos seguros de que esta diferencia observada
es real. Para hacer el contraste de hipótesis emplearemos el P-valor. Una prueba de
significación estadística es un método que intenta cuantificar la probabilidad de obtener los
resultados observados si no existe una diferencia real entre los grupos examinados en la población
general.
Ejemplo: ¿El consumo de tabaco aumenta la TA? Hipótesis: la media de TA cambia si se consume café
(aumenta). Se hace un estudio experimental de personas que actúan como su propio control y se mide su TA,
antes y después de tomar café. Obtenemos los siguientes valores:
- Diferencias: 25, 30, 15, 15, -5 𝑑̅ = 16 mmHg (media de las diferencias) con una dispersión de s
= 13’4 mmHg
¿Esta diferencia (𝑑̅) es estadísticamente significativa? ¿La observamos también a la sociedad (δ)?
Lo que queremos saber cuándo calculamos el P-valor es si las diferencias observadas entre dos grupos
son estadísticamente significativos y podemos considerar entonces que provienen de dos poblaciones
diferentes (cómo en el ejemplo; expuestos (población 1) y no expuestos (población 2)).
8. CONTRASTE DE HIPÓTESIS
Para ver si las diferencias observadas son significativas o no, primero debemos suponer una hipótesis
nula que, mediante los cálculos pertinentes (P-valor) acabaremos descartando o no (nuestra intención
será descartarla). Primero vamos a aclarar unos conceptos necesarios:
Hipótesis nula (H0): postula que no existen las diferencias en la población (al menos no en la
dirección pensada, debemos tener en cuenta por ejemplo, los factores de confusión). La x1 = x2,
y por lo tanto la diferencia (x2 – x1) es nula; δ = 0. Otras H0 podrían ser: igualdad de medias,
igualdad de proporciones, que no haya asociación o correlación o tendencia lineal (pendiente de
la recta = 0),… La hipótesis nula se establece a partir de los valores poblacionales por lo que
deberemos emprar letras griegas (µ, σ, π). el efecto es 0. igual que me salen
valores de aumento, me podrian salir
valores por debajo
Elisabet Puig
Medicina UB – Campus Bellvitge
Hipótesis alternativa (H1): sostiene que las diferencias en la población, y por lo tanto x1 ≠ x2, de
forma que la diferencia (x2 – x1) es diferente de 0; δ ≠ 0.
Como hemos mencionado anteriormente, la intención es rechazar la hipótesis nula. Para ello, debemos
calcular el P-valor.
El P-valor nos indicará con que probabilidad observaremos una d ̅ igual o mayor que la observada en
nuestra muestra por azar suponiendo que no existen diferencias entre ambos grupos (hipótesis nula).
Dividimos por el error estándar para tipificar y poder interpretar el P-valor como una probabilidad. Así,
nos quedará una distribución normal (acampanada) de N(0,1).
Hemos utilizado esta fórmula del estadístico porque la distribución es de t-Student. El P-valor nos sale
muy pequeño por lo que podemos rechazar la H0 interpretación: muy pocas observaríamos diferencias
debido al azar, por lo tanto, si las observamos es porque son reales). Aun así, conviene contemplar un
cambio de dirección en la H1 (el café aumenta la TA δ > 0), como por ejemplo que el hecho de estar
expuesto la disminuya. Por lo tanto la nueva H1 es: δ ≠ 0 (tanto da que sea < o >). Aquí debemos estudiar
el p-valor por ambos lados de la distribución (explicado en el siguiente párrafo).
Elisabet Puig
Medicina UB – Campus Bellvitge
Conclusión: si aumenta el valor del estadístico, querrá decir que el valor a observar dentro de la hipótesis
nula es muy extremo (más hacia la derecha del eje de abscisas), por lo que el P-valor (área en rojo) se verá
afectado negativamente y disminuirá aún más, por lo que la evidencia contra la H0 aumentará y nos
resultará más fácil rechazarla, disminuyendo así la probabilidad de cometer un error de tipo I (explicado
más adelante).
Interpretación: cuando P-valor es muy pequeño podemos rechazar H0 (y además, rechazamos también
la posibilidad que las diferencias se hayan dado por azar).
Como hemos visto, el P-valor resume la evidencia aportada por la muestra en contra de H0, pero ¿a partir
de qué valor podemos rechazar H0?
Nivel de significación (α): es el máximo p-valor para rechazar H0. Nos indica cuántas veces nos
equivocaremos diciendo que hay diferencias cuando en realidad no las hay, es decir, descartando
H0 cuando ésta era cierta. Generalmente: α = 0’05. En general, establecer un nivel de
significación nos aporta mayoritariamente ventajas ya que podemos optar por la eliminación de
H0 y aunque no conozcamos el P-valor exacto, podemos saber si excede o no el nivel de
significación. Aun así, supone una desventaja porque perdemos información cuantitativa del P-
valor. La diferencia primordial entre el P-valor y el nivel de significación es que el P-valor se
calcula a partir de los resultados obtenidos en la muestra mientras que α se coge de antemano.
- Si P-valor ≤ α ≤ 0’05 rechazamos H0 diferencias estadísticamente significativas
Elisabet Puig
Medicina UB – Campus Bellvitge
Pongamos por caso que en una muestra obtenemos un P-valor > α; ¿podemos entonces aceptar H0? No,
ya que por hacerlo deberíamos tener una muestra infinita para que fuera del mismo tamaño que la
población (siempre suponemos que la población es infinita). Normalmente, es mucho más fácil rechazar
las teorías que no aceptarlas.
ERRORES
CONCLUSIÓN PRUEBA H0 H1
REALIDAD
no diferencias
H0 Correcto (1 – α) Error tipo I (α)
muy grave
Supone riesgo para el paciente
Como podemos ver, los riesgos α y β están íntimamente relacionados; si queremos disminuir β tenemos
que aumentar α, pero α es un valor predeterminado y durante el estudio no podemos cambiarlo, así como
tampoco podemos variar directamente β porque depende de α (al fijar α estamos fijando indirectamente
β). Podemos variar el tamaño de la muestra, pero eso debemos planearlo en la fase de diseño.
Para saber la relevancia de las diferencias utilizamos una significación “en el límite” o “casi
significativo”:
A pesar de todo, cuando las diferencias no son significativas, es decir, P-valor > α, no se puede
probar la certidumbre de H0. Por lo tanto, un P-valor > α nos oculta poder estadístico (1 – β), y
puede llevarnos a cometer un error de tipo II.
Intervalos de confianza (IC): ahora debemos entenderlo como el conjunto de posibles hipótesis
compatibles con los datos.
- IC estrecho y cerca de 0 posiblemente H0 sea cierta
- IC amplio que incluye valores relevantes N insuficiente
El P-valor y el IC son complementarios y están relacionados por: si no hacemos el trabajo EXTRA no se podra jamas
aceptar la hipotesis nula. La hipotesis nula o se
rechaza o NO se acepta ( a no ser del trabajo extra
- el estimador
que es muy complicado de hacer)
- el error estándar
- el nivel de confianza y el nivel de significación (son equivalentes) para aceptar la hipotesis nula: deberia poder
calcular la probabilidad de quivocarme
Si hacemos una prueba de hipótesis y obtenemos que el P-valor es mayor que el nivel de
confianza:
|𝒆− 𝜺|
> 𝒁𝟏−𝜶/𝟐
𝒆𝒆
e es el estimador (observado en nuestra muestra) y ε es el parámetro (valor poblacional
“predeterminado”).
BLOQUE DE ANÁLISIS
10. COMPARACIÓN DE MEDIAS
En la fotografía podemos observar que si partimos de una única población, si cogemos repetidas
muestras (cada vez una) obtendremos la misma media porqué provienen de la misma población. Si
las medias difieren es cuestión del azar.
La t-Student solo la podremos utilizar para comparar las medias de 2 grupos independientes.
Queremos estudiar si la TA
difiere en hombres y en
mujeres. Para ello realizamos
un estudio con 49 hombres y 41
mujeres y calculamos las
medias, las desviaciones típicas
y los errores estándares de la
media, obteniendo la siguiente
tabla y gráfica con los
resultados:
Elisabet Puig
Medicina UB – Campus Bellvitge
Una vez hemos estimado las medias y las desviaciones típicas, y hemos calculado el error estándar de las
medias de las dos muestras, procederemos a realizar el contraste de hipótesis para ver si las diferencias
entre los dos grupos son significativas o no y se observan a la población de partida. En nuestro caso,
estamos comparando medias, por lo que:
̅𝟏 − 𝒙
𝒙 ̅𝟐
ESTADISTICO: para comparar medias 𝒕=
𝒆𝒆
Para este estadístico, como hemos visto en el bloque de contraste de hipótesis, sabemos que si aumenta
su valor, disminuirá el P-valor y por lo tanto H0 será falsa, mientras que si disminuye su valor, el P-valor
aumentará y por lo tanto H0 podrá ser cierta.
Suposición de igualdad de varianzas s1 = s2: si difieren las varianzas es por azar. En este caso,
para datos independientes el error estándar de la diferencia de medias estará ponderado según
los tamaños de muestra y se calculará como: s^2= (suma de medias al cuadrado) /
(n-1)
ARRIBA: dispersión.
DEBAJO: numero de muestras
HENCE, para saber la suma de las
medias al cuadrado, hago (n-1)*s^2
La distribución del estadístico será una t-Student con n1 + n2 – 2 grados de libertad. Para el
cálculo del IC (𝑰𝑪 = 𝒆𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓 ± 𝑪𝑪𝜶/𝟐 · 𝒆𝒆), deberemos hacerlo con esos valores:
- Estimador: 𝛿 = 𝑥̅1 − 𝑥̅2 es un promedio ponderado a las varianzas
- Coeficiente de confianza (con distribución t-Student): t α, 𝑛 − 𝑛 +2 originales, que luego divido por n y al final
2 1 2 hago la raiz cuadrada de todo
- Error estándar (la fórmula mostrada anteriormente).
Varianzas diferentes s1 ≠ s2: en este caso como las varianzas son diferentes no las podemos
ponderar y usaremos otra fórmula para el cálculo del error estándar:
Seguirá siendo una distribución de t-Student pero con diferentes grados de libertad
𝒇 ~ 𝑭𝒏−𝟏,𝒏−𝟐
𝒔𝟐𝟏
- 2 grupos: 𝒇 = 𝒔𝟐𝟐
- k grupos: prueba Barlett y prueba Levene. Si tenemos más de dos grupos no utilizaremos la
F-Snedecor
Imaginemos que queremos mirar si existen diferencias entre los niveles plasmáticos (β-carotenos) de los
hombres y las mujeres. Para ello realizamos un estudio y obtenemos los siguientes datos:
A continuación, empleamos otra vez la t-Student pero asumiendo que las varianzas son diferentes
entre ellas, por lo que aceptamos H1.
Conclusión: t-Student para medias y F-Snedecor para varianzas. Antes de hacer t-Student debemos
mirar como son las varianzas y por lo tanto hacemos un F-Snedecor
En este caso estamos comparando medias por lo que en el contraste de hipótesis tendremos que:
- La variable numérica sigue una distribución normal (si el tamaño de la muestra no es muy
pequeño esta condición no es muy importante)
- Las varianzas en la población son homogéneas 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐𝟑 homocedasticidad
(será relevante cuando los grupos tengas diferentes tamaños)
Ejemplo: un estudio sugiere que la localización del tumor colorectal presenta un patrón diferente de pérdida
de peso. Nos planteamos comprobar esta hipótesis en nuestro estudio. Compararemos el IMC en casos con
cáncer de colon derecho, colon izquierdo y recto. Obtenemos los siguientes datos:
Elisabet Puig
Medicina UB – Campus Bellvitge
Anova hace cálculos entre grupos (compara las diferentes medias obtenidas con la media de estas
medias) y dentro de grupos (compara cada observación con la media de ese grupo).
PRUEBA DE BARLETT
Para ver la homocedastidad (varianzas) hacemos varias pruebas: prueba C de Cochran, prueba de Barlett
y prueba de Levene.
Elisabet Puig
Medicina UB – Campus Bellvitge
Si el P-valor del test de Barlett nos sale significativo (<0’05) quiere decir que el test Anova no es correcto
porque entonces estaríamos rechazando la hipótesis nula, que comportaría asumir H1 que sostiene que
hay diferencias entre las varianzas y perderíamos la condición de homocedestidad.
Hasta ahora hemos visto Anova 1 factor, que estudia una variable numérica (IMC) dentro de una variable
categórica (localización del cáncer colorectal), pero el estudio se puede complicar aún más. Existen
diferentes tipos de Anovas para esos estudios:
Anova 2 factores: compara las medias de una variable numérica según la clasificación de dos
variables categóricas. Estudio de IMC según consumo de alcohol y consumo de tabaco
Anova jerárquico: para experimentos diseñados
Manova: análisis simultáneo de múltiples variables numéricas en relación a 1 o más factores
(variables categóricas).
Además, hasta ahora hemos supuesto que se cumplían los dos requisitos (normalidad y
homocedesticidad) pero ¿qué pasa si no se cumplen? Entonces debemos utilizar los métodos no
paramétricos.
MÉTODOS NO PARAMÉTRICOS
Para realizar algunos test, necesitamos asumir previamente una serie de condiciones:
Test no paramétricos:
Ejemplo:
Test U de Mann-Whitney: para 2 grupos independientes. Reemplaza las diferencias por rangos
(órdenes) y compara la diferencia en la suma de rangos entre grupos respecto a la diferencia
esperada. Seria el sustituto de la t-Student. Es un test que compara distribuciones (medianas y
dispersión).
Ejemplo:
UN SOLO GRUPO
En una muestra aleatoria de 49 individuos se observa que 18 son positivos para H. Pylori. ¿Qué podemos
decir sobre la prevalencia de H. Pylori en la población (π)? Nuestra hipótesis (H0) es que la mitad de la
población está infectada (π = 0’5).
Como π0 está incluido en el IC, no podemos rechazar H0 a nivel de significación (bilateral) con la
información que tenemos hasta ahora.
Método exacto distribución binomial y por lo tanto nos permite observar y tener en cuenta
los valores extremos.
COMPARACIÓN DE GRUPOS
2 GRUPOS
Una muestra de 100 pacientes infectados se divide aleatoriamente en dos grupos (50, 50) a los que se
administra, respectivamente la pauta A y B. A los 6 meses se repite el test de H. Pylori y se observan 6
positivos en A y 12 positivos en B.
pA = 0’12, pB = 0’24
Para estimar el efecto podemos hacerlo de tres formas, podremos calcular un error estándar para cada
una calcular así el IC y por último, realizar el contraste de hipótesis:
𝒑
Razón de proporciones (𝒑𝑨 ): H0 = 1
𝑩
Tendremos que utilizar logaritmos ya que es una escala muy asimétrica, pues los valores de las
proporciones solo pueden tomar valores de [0, +∞). Teniendo en cuenta que H0 = 1, la
distribución de los valores nos queda exageradamente hacia la izquierda. Si hacemos el
logaritmo de 1, obtenemos que logH0 = 0 y ya tenemos nuestra distribución normal ([0, +∞) (-
∞,+∞)).
K GRUPOS
Prueba de Ji-Cuadrado (χ2): sirve para comparar dos variables categóricas. Reformula las
pruebas de hipótesis sobre proporciones como pruebas sobre el número de casos observados
respecto al esperado cuando H0 es cierta, es decir cuántas veces esperaríamos observar las
diferencias en los grupos (cuantas más veces menos validez tiene H0). Para hacerla debemos
elaborar una tabla de contingencia con nuestros resultados:
A B
a b a+b
HP+
c d c+d
HP-
a+c b+d n
A y B son los dos grupos, HP+ son los casos y HP- son los “no casos”.
Para ver las frecuencias esperada en H0 primeramente tenemos que estimar la π0.
𝒙𝑨 + 𝒙𝑩
𝝅𝟎 → 𝒑𝟎 =
𝒏
Ahora miramos el número de casos (ATENCIÓN: para saber el número tenemos que multiplicar
por la población para eliminar el denominador n y que nos queden “número de casos”) esperados
en los dos grupos (a y b):
- HP+ en A: nA · p0
- HP- en A: nA · (1 - p0)
- HP+ en B: nB · p0
- HP- en B: nB · (1 - p0)
(𝑶 − 𝑬)𝟐
𝒋= ∑
𝑬
O = casos observados (O = n · p), E = casos esperados (E = n · π).
a partir de los datos para calcular E. En una tabla de contingencia de 2x2 tendremos 1 grado de
libertad (4 celdas – 1 restricción – 2 parámetros estimados de las variables categóricas). Cuantos
más grados de libertad, más difícil es obtener evidencia contra H0.
Hipótesis:
- Independencia vs asociación
Diseño transversal
2 variables medidas en una muestra de individuos que se clasifican según los valores
- Homogeneidad (igualdad de proporciones)
Diseños en grupos paralelos
Se compara la distribución de frecuencias de una variable categórica entre los grupos.
Propiedades:
H0 el consumo de vitaminas es
independiente del hábito tabáquico
Asumimos primeramente H0 y
calculamos el estadístico:
(𝑂 − 𝐸)2
𝑗= ∑
𝐸
Cálculo de E:
Si tenemos tablas de 2x2 podemos calcular la asociación con la diferencia de proporciones, la razón de
proporciones o la odds, pero si tenemos una tabla fxc existen medidas de asociación global que pueden
colapsar nuestra tabla a tablas de 2x2, como por ejemplo el coeficiente de contingencia o la V de Cramer.
Colapsar las categorías nos proporciona un test más sensible (disminuyen los grados de libertad y
aumentan las n por cada celda).
Como vemos, el test de Ji-Cuadrado es aproximado, por lo que hay otro test para hacer los cálculos con
total exactitud:
Test de Fisher: calcula la probabilidad (condicional a los marginales (totales de filas y columnas)
observados) de observar la distribución de frecuencias en la tabla y todas las distribuciones más
extremas. Está basado en una distribución multinomial. El test de Fisher es asimétrico y por lo
tanto el P-valor a dos colas no se calcula como 2 · P-valor a 1 cola.
Extensión de Mantel - Heanszel: sirve para ver si existe una tenencia lineal comparando una
variable ordinal en dos grupos. Sigue una distribución de ji-cuadrado con 1 grado de libertad, y
Elisabet Puig
Medicina UB – Campus Bellvitge
por lo tanto, el test solo tiene 1 grado de libertad. El estadístico se calcula a partir del coeficiente
de correlación de Pearson. 𝒋 = 𝒓𝟐 (𝒏 − 𝟏)
- H0: homogeneidad distribución uniforme de individuos en cada categoría
- H1: tendencia lineal desequilibrio creciente/decreciente en la distribución de los individuos
DATOS APAREADOS
Son datos que no son independientes, es decir que están correlacionados. Ejemplo: estudio
experimental antes-después.
Para el caso de tener dos grupos en un estudio antes-después, se creará una tabla de 2x2 con 4
combinaciones posibles:
Hacemos la estimación:
- Proporción de +:
Antes: pa = (c + d)/n
Después: pd = (b + d)/n
- Para estimar el efecto:
Diferencia de proporciones
Odds
Test de McNemar: si H0 es cierta, los pares discordantes (b = -+ y c = +-) tienes que estar
repartidos equitativamente (del total b+c tiene que haber la mitad en cada celda).
- H0: πa = πd
Ejemplo: estudio de casos y controles apareados por edad, localidad y tabaco. Miramos prevalencia
de cáncer de pulmón. Resultados:
Elisabet Puig
Medicina UB – Campus Bellvitge
Para evaluar el grado de acuerdo entre las diferentes observaciones realizadas por investigadores,
técnicas de diagnóstico o momentos en el tiempo utilizaremos el índice Kappa:
𝒑𝟎 − 𝒑𝒆
𝜿=
𝟏 − 𝒑𝒆
Correlación: medida de asociación lineal entre dos variables cuantitativas (si una aumenta la otra
aumenta). Si la hay, hablaremos de correlación positiva. Se cuantifica mediante un coeficiente
r.
Elisabet Puig
Medicina UB – Campus Bellvitge
Miramos como se desvía cada punta de la media por cada variable y lo multiplicamos. La línea
vertical es la media de la variable X y la línea horizontal es la media de variable Y. Finalmente,
lo dividimos entre la raíz de la multiplicación de las desviaciones típicas para cada variable X e
Y.
La interpretación es la siguiente:
0: no hay asociación (se compensan valores en los
cuatro cuadrantes distribución amorfa). Recta
horizontal.
1: asociación lineal positiva (los puntos forman una
recta que pasa por los cuadrantes +). Recta creciente.
-1: asociación lineal negativa (los puntos forman una
recta que pasa por los cuadrantes -). Recta
decreciente.
Para hacer el contraste de hipótesis emplearemos una distribución de t-Student con n-2
grados de libertad, siempre y cuando las hipótesis sean:
H0: r = 0
H1: r ≠ 0
Para hacer el IC, cuando r ≠ 0 la distribución es muy asimétrica y por lo tanto, antes de
emplear la distribución normal para el cálculo del IC debemos aplicar una transformación Z
de Fisher:
Como siempre, si nuestros datos no siguen una distribución normal (n < 30), tendremos que
emplear métodos no paramétricos (también podemos eliminar los valores extremos o
transformar los datos).
Coeficiente de correlación de Spearman (ρ): los valores X e Y se sustituyen por el
orden que ocupan en la muestra (rangos, que no se ven afectados por valores
extremos y permiten corregir la asimetría). Puede aplicarse a variables ordinales.
Coeficiente tau de Kendall: calculado a partir de los desórdenes entre rangos, es
decir desórdenes observados / desórdenes esperados (razón).
Elisabet Puig
Medicina UB – Campus Bellvitge
Corrección de la asimetría
Ejemplo: Para medir daño hepático se determinan en plasma las concentraciones de ciertos enzimas
que aumentan si hay daño, por infección (hepatitis) por ejemplo. En un estudio en pacientes 105
cirróticos trasplantados se midieron GOT, GPT, FA, GGT, albúmina y bilirrubina. ¿En qué medida
estaban relacionadas?
Modelo lineal (regresión): análisis de la relación entre variables numéricas mediante un modelo.
Pretendemos explicar en qué medida una de las variables (eje y – variable respuesta) puede ser
explicada por otra (eje x – variable explicativa). Para eso, creamos un nuevo modelo estadístico
(distribución): Y = f(X, θ) + e. El modelo nos resultará útil para explicar relaciones entre variables
(mediante la interpretación de los coeficientes podremos ver la fuerza y la dirección de asociación
entre ambas) y hacer predicciones (calcular el valor de Y para un valor de X).
El modelo de regresión lineal supone que la relación puede explicarse mediante la una recta:
𝒚 = 𝜶 + 𝜷𝒙 + 𝒆
α y β son los parámetros del modelo que cuantifican la relación entra las dos variables.
Y es la variable respuesta y X la covariable (explicativa).
Ejemplo:
El modelo lineal puede aceptar transformaciones en sus variables y mejorar así la interpretación
de los parámetros. Si la covariable X se transforma, condiciona a los parámetros y ésos también
cambian.
Para interpretar la constante α como media de la población, tenemos que centrar la nueva
covariable X:
Elisabet Puig
Medicina UB – Campus Bellvitge
Para la estimación de parámetros se utiliza el método de los mínimos cuadrados, que son
parámetros que hacen mínima la suma del cuadrado de los errores (los errores equivalen a los
residuos; la distancia entre cada punto (valor observado) y la media (valor predicho)).
𝑺𝑪𝑬 = ∑ 𝒆𝟐 = ∑(𝒚 − 𝒚
̅)𝟐
Se utiliza este método porqué hay muchas rectas que se pueden dibujar a partir de las diferentes
observaciones. Los “mínimos cuadrados” quiere decir que la distancia entre la recta y la ubicación
del punto (cómo hemos dicho antes, la distancia vertical entre la posición del valor observado y
la que le tocaría ocupar en la recta, es decir, la estimada) es mínima, por lo que es la que se
ajustaría mejor a los valores observados (mínimo error).
Para cuantificar el grado de fidelidad de ajuste de la recta a los datos se utiliza el coeficiente de
determinación (R2), que es la proporción de varianza de Y que explica X:
𝑺𝑪𝒀 − 𝑺𝑪𝑬
𝒓𝟐 =
𝑺𝑪𝒀
SCY suma de cuadrados total (dispersión en los valores observados de Y), SCE suma de
cuadrados residual (mide la dispersión de los valores Y observados respecto a la recta de regresión
Y). Restamos la SCE porque eso es lo que nos explica X. Si SCE = 0, l r2 = 1 e indica que entre las dos
variables existe una perfecta relación, mientras que por el contrario, si las SCY = SCE coinciden, r2 =
0 e indica total independencia entre las dos variables y la recta es horizontal.
A continuación:
𝑰𝑪𝟏− 𝜶 ∶ 𝒂 ± 𝒕𝟏− 𝜶, 𝒔
𝒏−𝟐 𝒂
𝟐
Individuo:
- Bandas de confianza para los distintos valores de x, ya que el error estándar depende de xi.
La amplitud de estas bandas es mayor si se desea para una predicción individual que para la
predicción de la media.
Elisabet Puig
Medicina UB – Campus Bellvitge