Curso Bioestadistica
Curso Bioestadistica
Curso Bioestadistica
estudiantes de carreras de
Ciencias de salud y residentes.
Parte 1
Autores:
Julio 2016
Introducción a la Bioestadística
Se inicia este curso con la definición de algunos conceptos elementales y básicos, que
son cimientos fundamentales, para una comprensión intuitiva y real de lo que es la
Bioestadística. Con ello queremos introducir al estudiante en los primeros pasos sobre
el uso y manejos de datos cuantitativos y cualitativos: distinguir y clasificar las
características de las variables de un estudio, a orientarse para organizar y tabular las
medidas obtenidas mediante la construcción de tablas de frecuencia, así como para
elaborar una imagen que sea capaz de mostrar gráficamente estos resultados.
En la vida diaria, constantemente se toma conocimiento de informaciones de carácter
cuantitativo o cualitativo, sobre diversos fenómenos, acontecimientos, manifestaciones
o simplemente hechos ocurridos en nuestro entorno. Para que una información sea
considerada estadística debe estar orientada a facilitar la realización de estudios, de
inferencias inductivas o la toma de decisiones en cualquier actividad o área del
conocimiento.
La Bioestadística nos permite responder preguntas claves de la investigación en el
campo de ciencias de salud, adentrarnos en el desarrollo de proyectos de investigación
en las áreas de salud, Biología, así como en otras disciplinas, en el desarrollo de
proyectos. La colaboración de la Bioestadística ha sido clave en el desarrollo de
nuevos fármacos, en el análisis y la comprensión de enfermedades crónicas como el
cáncer, el VIH-SIDA, y miles de ejemplos más.
Al estudiar los sistemas biológicos, cierta incertidumbre se debe al desconocimiento de
muchos de los mecanismos fisiológicos y fisiopatológicos, a la incapacidad de medir
todos los determinantes de la enfermedad y a los errores de medida que
inevitablemente se producen. Así, al realizar observaciones en clínica o en salud
pública, los resultados obtenidos contienen una parte sistemática o estructural, que
aporta información sobre las relaciones entre las variables estudiadas. El objeto de la
estadística consiste en extraer la máxima información sobre estas relaciones
estructurales a partir de los datos recolectados.
La estrecha relación de la Estadística con el método científico hace de la Bioestadística
una disciplina imprescindible en la mayoría de los proyectos en el área tecnológica, en
particular para las ciencias de la salud. El pensamiento estadístico no sólo resuelve y
permite comprender, brindar respuestas a hipótesis y preguntas, sino que además nos
permite organizar el “sistema” que involucra la investigación desde el diseño general,
diseño de muestreo, control de calidad de la información, análisis y presentación de
resultados, entre otros componentes investigativos.
Aunque el presente trabajo puede ser material de estudio y de consulta para otros
profesionales de la salud, está preparado teniendo en cuenta las necesidades
investigativas de los residentes, el mismo puede contribuir a elevar y mejorar la calidad
en el diseño de sus investigaciones, así como del personal de la salud en general.
Definición
La Estadística es la ciencia que se ocupa de los métodos y procedimientos para
recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando
la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de
realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones
y en su caso formular predicciones.
Estadística descriptiva
Describe, analiza y representa un grupo de datos utilizando métodos numéricos y
gráficos que resumen y presentan la información contenida en ellos.
Estadística inferencial
Apoyándose en el cálculo de probabilidades y a partir de datos de una muestra
(procedente de una población), efectúa estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos. Permite generalizar los datos
obtenidos a partir de una muestra a la población de la que proceden. Se basa en la
teoría de las probabilidades y trabaja con los datos que le proporciona la estadística
descriptiva.
1
Pateiro López, B. Bioestadística. Curso 2012-2013Grado en Medicina
trabajar con la incertidumbre, y sólo la estadística nos proporciona el instrumento
adecuado que nos permite convivir con el azar, y con las limitaciones del conocimiento
médico.
Los métodos para visualizar y resumir los datos dependen de sus tipos,
fundamentalmente diferenciamos en dos tipos de datos o variables: cualitativos
(reflejan cualidades) y cuantitativos (numéricos).
Las variables cualitativas son las que registran o reflejan categorías o cualidades. Si
diseñamos una base de datos de pacientes, ejemplos de variables categóricas son el
sexo, enfermedades que padece, su estado civil, hábito de fumar, entre otras. Dentro
de las cualitativas podemos a su vez distinguir entre variable nominal y ordinal. En esta
última hay un orden entre las distintas categorías. Por ejemplo, en la variable
Intensidad dela quemadura de piel ante la exposición solar, tenemos: quemaduras de
primero, segundo y tercer grado, la intensidad del dolorante un estímulo tenemos las
categorías: no perceptible, dolor tenue, doloroso y muy doloroso.
Escalasnominales:VariablesNOMINALES:éstaesunaformadeobservaromedirenla
quelosdatosseajustanporcategoríasquenomantienenunarelacióndeordenentresí.
-Sexo.
-Gruposanguíneo.
- Factor Rh
-Presencia oausenciadeunaenfermedad.
-Presencia oausenciadeunfactorderiesgo.
1) Sexo.
2) Número de camas hospitalarias libres.
3) Glucemia basal en una muestra.
4) Respuesta al tratamiento analgésico en un grupo de personas con dolor
lumbar crónico.
5) Color del pelo.
Ejercicio 8: Conforme a las variables del estudio que vas a realizar como
investigador(a). Enumera al menos seis variables y elabora con ellas una tabla
semejante a la anterior.
CLASIFICACIÓN DE LAS VARIABLES
Variable Independiente:
Es aquella característica o propiedad que se supone ser la causa del fenómeno
estudiado. En investigación experimental se llama así, a la variable que el investigador
manipula.
Variable Dependiente:
Se define como propiedad o característica que se trata de cambiar mediante la
manipulación de la variable independiente.
La variable dependiente es el factor que es observado y medido para determinar el
efecto de la variable independiente.
Variable Interviniente:
Son aquellas características o propiedades que de una manera u otra afectan el result
ado que se espera y están vinculadas con las variables independientes y dependientes.
Variable Moderadora:
Para algunos autores estas representan un tipo especial de variable independiente,
que es secundaria, y se selecciona con la finalidad de determinar si afecta la relación
entre la variable independiente primaria y las variables dependientes.
Variables Cualitativas:
Son aquellas que se refieren a atributos o cualidades de un fenómeno. Sabino señala
que sobre este tipo de variable no puede construirse una serie numérica definida.
Variable Cuantitativa:
Son aquellas variables en las que características o propiedades pueden presentarse e
n diversos grados de intensidad, es decir, admiten una escala numérica de medición.
Variables Continuas:
Son aquellas que pueden adoptar entre dos números puntos de referencias intermedio
. Los valores de temperatura de un paciente (36.5º, 38.2º, 40º, etc.)
Variables Discretas o discontinuas:
Son aquellas que no admiten posiciones intermedias entre dos números. Ej., en Barina
s la división de territorial la constituyen 11 municipios por no (10.5 u 11.5 municipios).
Variables de Control: Se llaman así a las variables o factores que son controlados por
el investigador para eliminar o neutralizar cualquier efecto que podrían tener de otra
manera en el fenómeno observado.
Diagramas de sectores: En este diagrama se le asigna a cada valor un sector cuyo
ángulo sea proporcional a su frecuencia. Se suele utilizar en datos cualitativos
nominales y no en los ordinales. Muestran las partes porciones en que se subdivide un
total. El tamaño de las diferentes porciones nos permite establecer fácilmente
comparaciones.
Diagrama de barras: Gráficos de barras: Permiten comparar cantidades. La longitud de
cada barra representa el valor que le corresponde. El diagrama de barras se representa
asignándole a cada modalidad de la variable una barra de una altura proporcional a su
frecuencia absoluta o a su porcentaje. En ambos casos el gráfico es el mismo, sólo se
modifica la escala.
Frecuencias y porcentajes
Las frecuencias pueden obtenerse en términos absolutos (frecuencias absolutas),
mostrando las repeticiones de cada categoría, o bien en términos relativos
{porcentajes), mostrando los participación de cada categoría en relación con el total.
Las frecuencias absolutas se utilizan con muestras de tamaño pequeño, y las relativas
tienen más sentido con muestras de tamaño grande.
Si las variables son variables ordinales (o numéricas) pueden sernos de interés los
porcentajes acumulados. Nos indican para cada valor de la variable, en qué porcentaje
de ocasiones se presentó un valor inferior o igual.
Gráficos de líneas: Nos muestran las variaciones de un valor o cantidad a lo largo del
tiempo. Según sea la línea ascendente o descendente, describe el sentido y la
magnitud de la variación.
Datos cuantitativos. Estos datos son mucho más valiosos en información que los datos
categóricos. Por lo que además de las tablas, tenemos otras medidas que sirven para
resumir la información que contienen. Dependiendo de cómo se distribuyan los datos,
usaremos grupos de medidas de resumen diferentes.
Cuando se tiene una variable de tipo numérica, lo primero que nos puede interesar es
alrededor de qué valor se agrupan los datos, y cómo se dispersan con respecto a él.
Ejercicio 9:
Se realizó una revisión para estudiar la influencia de la edad y el sexo, así como de
las principales vías de transmisión del Virus de la hepatitis C de los
pacientesatendidos (160 seropositivos) en consulta de enero 2012-2015 en el
Hospital “La Arboleda”.
La tabla muestra los resultados:
Grupo etario Masculino Femenino Resultados:
Casos Casos
11 –20 años 2 1 Se pudo comprobar que la vía sanguínea resultó la vía
de mayor riesgo, en segundo lugar la vía idiopática –
21 – 30 años 13 3
desconocida, las vías vacunación, accidentes de
31 – 40 años 19 8
aguja, drogas, vía salival, vía sexual, y tatuajes no
41 – 50 años 22 20
reportaron casos.
51 – 60 años 21 25 1. Comprueba que la edad promedio es 47,8 años.
61 – 70 años 17 5 2. En qué intervalo está la mediana y en cuál la moda.
71 – 80 años 6 2 3. Completa la siguiente tabla con las variables
Total 100 64 estudiadas:
Ejercicio 12:
M 63 1.74 38 0 Leve
M 58 1.63 36.5 2 Intenso
H 84 1.86 37.2 0 Intenso
M 47 1.53 38.3 0 Moderado
M 70 1.75 37.1 1 Intenso
M 57 1.68 36.8 0 Leve
H 87 1.82 38.4 1 Leve
M 55 1.46 36.6 1 Intenso
Cuando los datos recolectados han sido organizados en una tabla de distribución de
frecuencias simples, la media, para poblaciones como para muestras, se puede
calcular
Cuando los datos recolectados han sido organizados en una tabla de frecuencias por intervalos, la
media para poblaciones como para muestras se puede calcular por medio
Debe observarse que es la misma fórmula que la correspondiente a los datos organizados en
tablas de distribución de frecuencias simples, pero que la única diferencia es la interpretación de la
x. En una representa el valor nominal, en ésta última es el punto medio del intervalo. Esta situación
se va a repetir en las otras dos medidas de tendencia central que faltan por estudiar aún: la
mediana y la moda, ya que también se estudiarán en dos casos: cuando los datos estén
organizados en tablas con frecuencias simples o cuando estén agrupados por intervalos.
Ejercicio 14: Los siguientes datos muestran las estaturas de 40 estudiantes de un aula de 10mo
grado (expresada en centímetros).
160,3;170,9; 154,2; 163,8; 150; 169,6; 159,1;171,3; 165,8;164,3; 152, 1; 158,3; 163,2; 152,9;
155,8; 154,5; 160,4; 161,8; 155,6;157,4,162;167,4; 166,3; 174; 164,6; 162; 168,3;170,2;159;
153,8;157,8;159,9; 158,2; 160,5, 161,8;158;154,4;163,9;158,1;160,9.
Por lo planteado anteriormente el número de clases seleccionado, debe ser tal que se evite el
detalle innecesario para que no conduzca a la pérdida de información importante.
Algunos autores plantean que la cantidad de clases debe estar entre 10 y 15, otros somos de la
opinión que entre 8 y 12 clases, otros plantean que no deben ser menos de 6 clases, ni más de
15. Definitivamente cualquier selección del número de intervalos de clases o simplemente del
número de clases, dependerá de las características de los datos.
Deben añadirse a la tabla original con las clases, dos columnas encabezadas por xi(puntos medios
de cada clases, también llamada marca de clases) y f i que representa el total de frecuencias en
esa clase, una columna fi● xi que es el producto de la marca de clase por la frecuencia por ese
punto medio.
El error más común que se comete a la hora de intentar localizar la mediana es buscar el dato
nominal por central en vez deldato ordinal, o sea, el error consisteen buscar en la columna de los
datos nominales por el que está a la mitad de la tabla o en la fila del medio, y esto en muchas
ocasiones no corresponde.
MEDIDAS DE DISPERSIÓN
Medidas de dispersión:
• Nos indican donde se sitúa un grupo de observaciones.
• Nos indican si esas observaciones están próximas entre sí o si están muy
dispersas.
Medidas de Dispersión
Varianza:
Desviación típica
La desviación típica muestral es la raíz
cuadrada de la varianza muestral.
Ejercicio 2:
Tenemos dos grupos de personas del sexo masculino que nos proporcionan los
siguientes datos:
Grupo 1 Grupo 2 Establece a través del cálculo de
Edad 25 años 11 años los dos coeficientes de variación
Peso medio 72,5 kg 40 kg en cuál de los dos grupos de
Desviación Estándar 5 kg 5 kg edades hay mayor variabilidad.
Rango:
Otra medida de dispersión es el rango. Indica el recorrido de la variable en estudio, es
la diferencia entre el valormáximo y el mínimo en un conjunto de datos
Donde, x MAX es el mayor dato observado y x MIN es el
valor mínimo observado
Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más
dispersos están los datos de ese conjunto.
Ejercicio 4:
Se brindan los valores correspondientes a los niveles de colesterol en sangre de diez
pacientes hipertensos: 230, 240; 250; 250; 250; 210; 270; 240; 160 y 300 mg/100 ml.
a) Calcular la media de este conjunto de datos.
b) Calcular la varianza aplicando la fórmula anteriormente estudiada.
c) Determinar la desviación media y el coeficiente de variación.
Ejercicio 5:
A continuación se registran los datos de la edad de aparición genitourinaria en dos
grupos de mujeres:
Grupo 1: 35, 35, 37, 34, 38, 36, 32, 34, 36 y 33 años
Grupo 2: 2, 8, 30, 23, 68, 62, 40, 54, 47 y 16 años
Se quiere:
a) Calcular la media para ambos grupos de mujeres.
b) Determinar para cada uno de estos grupos la varianza.
c) Determinar la desviación media y el coeficiente de variación.
En ocasiones se nos presenta la necesidad del cálculo de estas medidas para un
conjunto de datos agrupados.
Ejercicio 6:
En un grupo de 16 estudiantes, se observó la estatura y se obtuvieron los siguientes
datos (ya ordenados):
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76 1.79
Los datos se resumen en la siguiente tabla:
Después de ordenar los datos de menor a mayor, debemos localizar la posición del
cuantil (cuartil, decil o percentil deseado) para ello se calcula el por ciento de los
datos que se encuentran a la izquierda de dicho cuantil si el valor obtenido como
resultado del cálculo no es entero, se aproxima al entero inmediato superior que
coincide con esa condición del cuantil calculado. Si este número es entero se toma
el promedio de las observaciones del lugar que ocupa este entero y el entero
siguiente, de manera similar a lo que se realiza con la mediana.
b)La moda
c)La mediana
1er cuartil= 60
3er cuartil= 70
Ejercicio 14:
A continuación se muestra una Tabla que registra los 815 pacientes atendidos en la
consulta de emergencia de un hospital por accidentes de tránsito
Estos son los cálculos de P0, 10; P0, 25 y P0, 75 utilizando la fórmula con los datos
completos obtendremos P0, 10=10, 6; P0, 25=18,63 y P 0,75= 46,75 años
Percentiles en una Distribución normal.
La Asimetría.
Es una estadística necesaria para conocer cuánto se parece nuestra distribución a una
distribución teórica llamada “curva normal” y constituye un indicador del lado de la curva
donde se agrupan las frecuencias. Si es cero (asimetría = 0), la curva de distribución es
simétrica. Cuando es positiva quiere decir que hay valores agrupados hacia la izquierda
de la curva, por debajo de la media. Cuando es negativa significa que los valores
tienden a agruparse hacia la derecha de la curva, por encima de la media.
Procedimiento:
2- Para obtener los tres valores numéricos que dividen a la muestra ordenada en
cuatro partes iguales.
3- Los tres cuartiles, se denotan por Q1; Q 2 y Q 3
4- Primer cuartil, es un valor tal que 25% de las observaciones son menores y 75%
son mayores Q 1=XN+1/4 ( el subíndice indica la posición del dato), de donde
Q 1=X16+1/4= (153+157)/2= 155
El 25% de los estudiantes miden menos de 1.55 m y el otro 75% mide más
5- Segundo cuartil, es un valor tal que 50% de las observaciones son menores y el
otro 50% son mayores Q 2=X2( 16+1) /4 ( el subíndice indica la posición del dato),
de donde Q 2=X2(16+1) /4= (160+164)/2= 162
El 50% de los estudiantes miden menos de 1.62 m y el otro 50% mide más
Este es el valor de la mediana de estos datos
6- Tercer cuartil, es un valor tal que 75% de las observaciones son menores y el
otro 25% son mayores Q 3=X3(16+1) /4 ( el subíndice indica la posición del dato),
de donde Q 3=X3(16+1) /4= (166+166)/2= 166
El 50% de los estudiantes miden menos de 1.62 m y el otro 50% mide más
Ejercicio 16:
Con el objetivo de estudiar la eficacia de un régimen alimentario para tratamiento de
diabetes fueron recogidas 12 muestras de sangre en diabéticos y analizada la cantidad de
azúcar. Datos de glucosa de muestras sanguíneas (mg/100ml)
Ejercicio 17:
Los datos referentes al número de dientes cariados, perdidos u obturados en una muestra
de 20 personas tratadas en una clínica dentaria están presentados en la tabla a
continuación. (). Se pide:
Dientes cariados, perdidos u obturados 6 4 1 0 2 3 0 5 0 4 0 4 6 1 3 5 8 3 2 7
Ordenar el conjunto
De este modo queda identificado el 1ero. 2do y 3er cuartil para este conjunto o serie de
datos.
Ejercicio 21:
a) Para los datos de la función pulmonar de los 25 pacientes con fibrosis quística. Calcule el
valor de la mediana.
b) Calcula el primero, segundo y tercer cuartil.
c) Halla los percentil P10; P20 y P30
La Curtosis.
La curtosis es un indicador de lo plano o puntiaguda que es una curva. Cuando es cero,
curtosis = 0, significa que se trata de una curva Normal. Si es positiva, quiere decir que
la curva o distribución o polígono es más puntiaguda o levantada. Si es negativa quiere
decir que es más plana.
Asimetría
En distribuciones unimodales, la asimetría es una medida que nos permitirá saber hacia
dónde se agrupan los valores, si es una distribución normal, lo que tendremos que la
mayor parte de los valores se encuentren en el centro y en los extremos se encuentre
valores en menor cantidad. Pero si tenemos que hay más valores agrupados a la
izquierda se denomina asimetría positiva, mientras que si la mayor parte de los valores,
están agrupados a la derecha la asimetría será negativa, tal como se observa en la
figura de la página anterior.
PERCENTILES, DECILES Y CUARTILES
Si intentamos contestar la siguiente pregunta: ¿qué proporción de los valores de una
variable es menor o igual a un valor dado? ¿O proporción es mayor o igual a un dado
valor? ¿O entre dos valores?"
Cuando construimos una distribución de frecuencia acumulada, tales cuestiones
solamente pueden ser contestadas con relación a los límites de clase exactos.
Así diremos que el percentil x, es el valor de la variable que es mayor de lo que x % de
las observaciones. En otras palabras, el percentil x es el valor de la variable
correspondiente al valor de frecuencia relativa acumulada de x %
Para el cálculo del valor exacto del percentil x para datos agrupados se utiliza el mismo
método para la determinación de la mediana para un conjunto de datos ordenados, es
decir, la interpolación lineal.
El primer decil es el valor de la variable que supera un décimo (o en un 10 %) del total
de las observaciones. Si tenemos 200 observaciones, el segundo decil será
aproximadamente la observación de puesto 40.
El primer cuartil es el valor de la variable cuya frecuencia relativa acumulada es 0,25 (o
25 %). El tercer cuartil es el valor de la variable cuya frecuencia relativa acumulada es
0,75 (o 75 %). El primer cuartil es mayor de lo que un cuarto de los valores observados
y menor de lo que tres cuartos de estos valores. El tercer cuartil es mayor de lo que tres
cuartos de los valores observados y menor de lo que un cuarto de estos valores. El
segundo cuartil se coincide con la mediana.
Ejercicio 22:
A continuación se muestra la distribución de una muestra de 351 mujeres (adultas)
según su estatura, agrupadas por intervalos de frecuencias 1:
Aplica los cálculos correspondientes para comprobar los resultados de los valores de
los cuartiles, que se muestran en la siguiente Tabla de de mujeres según su estatura
Ejercicio 23:
Supongamos que tenemos 620 observaciones de frecuencia cardiaca en pacientes
portadores de hipertiroidismo.
¿Qué medida podría servirnos para delimitar el 25% de las frecuencias cardíacas
más bajas y que posición ocupará el elemento que separe ese 25% del 75%
restante?
El primer cuartil Q1 es el valor que tiene el 25% de 620 y el 75% a la derecha. Como
el conjunto contiene 620 observaciones.
Si deseáramos el dato del valor que separa el 20% a la izquierda y el 80% a la
derecha tendríamos que calcular el 20% de 620 y el 80% de 620.
En este caso aplicaremos una sencilla regla de 3, donde
¿Cuál sería la posición del primer cuartil, si en lugar de 620 fueran 625 observaciones,
manteniendo el fragmento anterior con la misma numeración?
Como 625 es un número impar el 25% de esa cantidad, será un número fraccionario. El
25% de 625 es 156,25 por lo que se aproxima al entero siguiente que es 157, la
posición del cuartil (Q 1)es 157 a esta observación le corresponde el valor de presión
arterial 120
Ejercicio 24:
Los siguientes datos corresponden a los tiempos de reacción de una muestra de 33
pacientes, medidos en centésimas de segundo.
55, 51, 60, 56, 64, 56, 63, 63, 61 57, 62, 50, 49, 70, 72, 54, 48, 53, 58, 66, 68, 45, 74,
65, 58, 61, 62, 59, 64, 57, 63, 52, 67. Para este conjunto de datos:
a) Calcule la media y la mediana
b) Determina el primer y tercer cuartil, a partir de los datos.
Con los datos del ejercicio anterior, se ha construido una tabla agrupados en cinco
intervalos de igual amplitud. Como R= X máx – X mín= 74 – 45 = 29, este número no es
divisible por cinco, luego redondeamos al valor más próximo por exceso, que es 30,
dividiendo entre el número de intervalos que deseamos que son cinco, tendremos que
la amplitud que deben tomar los intervalos es seis.
Ejercicio 25:
Palabras clave: Razón, Índice, Proporción, Tasa, Riesgo Relativo, Odd Ratio.
Razón Donde a y b números cualesquiera
Ejemplo en una población de 5000 personas, hay 1000 que padecen de cierta
enfermedad y 4000 individuos son sanos.
% ●100
Porcentajes de enfermos= 1/5*100= 20%
Índice E/C= Número de enferme@s x100 Índice M/C= Número de médic@s x100
Número de camas Número de camas
Total 594 1
Porcentaje: Ventajas:
RIESGO RELATIVO
RR Grupo 1 = 0,345
• De este modo un valor de RR =1 significaría que el riesgo en ambos
grupos es igual.
Ejercicio 1: Determinar el RR que presentan los pacientes que se muestran en la
siguiente Tabla de presentar enfermedades coronarias.
Hábito de fumar Enfermedades coronarias Total RR
Enfermos No enfermos
Fumador 84 2916 3000 28 x 1000
No fumador 87 4913 5000 17,7 x 1000
Totales 171 7829 8000
Interpretación del Riesgo Relativo:
Si RR=1 No existe asociación entre el factor de riego y el daño, lo que significa que la
incidencia en el grupo de expuestos es igual a la incidencia en el grupo de no
expuestos, por lo que no se observa asociación entre la exposición y la enfermedad.
De este modo un valor de RR =1 significaría que el riesgo en ambos grupos es el
mismo.
Cuando RR>1 La incidencia en el grupo de expuestos es mayor que la incidencia en
el grupo de no expuestos, Significa que el factor de riesgo aumenta la posibilidad de
contraer la enfermedad o daño, o lo que es lo mismo, se observa una asociación
positiva o directa entre la exposición y la enfermedad.
Cuando RR<1 La incidencia en el grupo de expuestos es menor que la incidencia en
el grupo de no expuestos se observa asociación “negativa” o “inversa” entre la
exposición y la enfermedad. Disminuye el riesgo de aparición del daño, se trata de un
factor de protección.
En el ejemplo el riesgo de contraer alguna enfermedad coronaria en los fumadores
es 1.63, interpretando esto el Riesgo de contraer una enfermedad coronaria en los
fumadores es 1.63 veces mayor que en los no fumadores.
El Riesgo Relativo puede determinarse fácilmente en los estudios donde se conocen
las poblaciones expuestas y no expuestas y se pueden calcular las tasas para cada
grupo, cuando no contamos con esta posibilidad, entonces debemos emplear la
razón de productos cruzados conocida también como Odd ratio.
El Odds ratio o ventaja del éxito de un suceso se define como el cociente p/q, donde
p es la proporción en que ocurre un eso y q= 1 – p (proporción en que no corre).
La medida de fuerza de asociación es la desigualdad relativa (Odds ratio) llamada
también razón de disparidad o cociente de suertes. Indica cuantas veces más hay
probabilidad de que el factor de exposición esté presente en los casos comparados
con los controles. Es una medida indirecta del riesgo relativo y puede ser igual, mayor
o menor que la unidad.
Interpretación del Odd Ratio.
OR<1, factor estudiado considerado protector del proceso del proceso que
se investiga.
Ejercicio 3: Un investigador realizó un estudio sobre el hábito de fumar. La
siguiente Tabla muestra los datos proporcionados por familiares de los individuos
en estudio, sobre el hábito de fumar.
Respuesta por el individuo en estudio
Respuesta del familiar Fuma No fuma Total
Fuma 587 76 663
No Fuma 77 1213 1290
Totales 664 1289 1953
Esto condujo una investigación de casos y controles, sobre cáncer de pulmón y
hábito de fumar, con respuestas dadas por los familiares. Los criterios dados por los
pacientes se muestran en la siguiente tabla.
Ejercicio 4: Determina el valor de OR o cociente de productos cruzados de los datos
presentados en la Tabla anterior.
a) A partir de los datos investigación de casos y controles, sobre cáncer de pulmón y
hábito de fumar de la tabla 2 (tabla anterior) comprueba que el valor de Odd
ratio es OR = 2.42.
b) Con los datos de la Tabla 1 método "información dada por el familiar" para
diagnosticar la exposición. Calcula los valores de Sensibilidad y Especificidad.
a • d 135 • 328 44280
OR = = = = 2,42
b • c 65 • 282 18330
Realizan Total
ejercicios
físicos
No Si
Si 20 20 40
HTA No 10 40 50
Total 30 60 60
CASOS CONTROLES
(EDA) (NO EDA)
LACTANCIA NO 120 20
MATERNA SI 80 180
TOTAL 200 200
NO LACTANCIA (%) 50% 10%
Para la interpretación correcta de los resultados de esta prueba hay que utilizar
también los llamados valores predictivos que son la proporción de los pacientes
positivos que tienen la enfermedad y la proporción de pacientes negativos que no
tienen la enfermedad. En caso de que se estuviera en presencia de una enfermedad
con frecuencia baja pudiera suceder que la Sensibilidad y la Especificidad fueran altas,
sin embargo no sucedería así con los valores predictivos, por lo que siempre es
conveniente para la mejor interpretación calcular también esos valores.
Hepatitis 75 16 91
Hepatitis a 75 b 16 a + b 91
a y
RR = a + c =
75 595
= 5,62 a • d 75 • 696
b 16 / 712 OR= = = 6,27
b+d b • c 16 • 520
Ejercicio 13: Para los datos de la siguiente tabla calcular α yβ
P Enfermedad
R Si No VP 587 587
Sensibilidad = = = = 0.88(α )
U + 587 1213 VP + FN 587 + 77 664
E – 77 76 VN 1213 1213
B Sub Especificidad = = = = 0.94(β)
VP+FN VN+FP VN + FP 1213 + 76 1286
A total
Valor predictivo positivo:
Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el
test. El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de
pacientes con un resultado positivo en la prueba que finalmente resultaron estar
enfermos:
VP
Valor predictivo positivo(VPP) =
VP + FP
Valor predictivo negativo:
Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté
realmente sano. Se estima dividiendo el número de verdaderos negativos entre el total
de pacientes con un resultado negativo en la prueba:
VN
Valor predictivo negativo(VPN) =
VN + FN
Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que
se incluyó a 2.641 pacientes con sospecha de cáncer prostático que acudieron a una
consulta de Urología durante un periodo de tiempo determinado. Durante su
exploración, se recogió el resultado del tacto rectal realizado a cada uno de estos
pacientes, según fuese éste normal o anormal, y se contrastó con el posterior
diagnóstico obtenido de la biopsia prostática. Los datos del estudio y los resultados
obtenidos se muestran en la tabla que se muestra a continuación. Se encontraron en
total 1.121 casos de cáncer, lo cual representa un 42,45% del total de sujetos
estudiados. Evidentemente esto indica la necesidad de utilizar otros marcadores más
sensibles, como el PSA o sus derivados, para poder establecer el diagnóstico de forma
más precisa.
Ejercicio 14: La siguiente Tabla muestra los valores de un Test de VIH en una
población de baja prevalencia de VIH:
Resultado del Verdadero Diagnóstico
Test aplicado VIH + VIH – Total
Positivo 5.970 13.970 19.940
Negativo 30 2.780.030 2.780.060
Total 6.000 2.794.000 2.800.000
Calcular los valores de Sensibilidad, especificidad, VPP y VPN para
los valores que se muestran en los resultados de este estudio.
Ejercicio 15: Hacer los mismos cálculos para la siguiente población de nivel de
prevalencia alta:
Resultado del Verdadero Diagnóstico
Test aplicado VIH + VIH – Total
Positivo 796.000 10.000 806 000
Negativo 4.000 1.990.000 1 994 000
Total 800 000 2 000 000 2 800 000
Calcular los valores de Sensibilidad, especificidad, VPP y VPN para los valores
que se muestran en los resultados de este estudio.
Ejercicio 16: En una exploración de biopsia protática de una muestra de pacientes con
sospecha de cáncer de próstata, se muestran los resultados en la Tabla:
Resultado del Resultado de la biopsia prostática
tacto rectal Cáncer Patología benigna Total
Anormal 634 269 903
Normal 487 1251 1738
Total 1121 1520 2641
Calcular los valores de Sensibilidad, especificidad, VPP y VPN para los valores que
se muestran en los resultados de este estudio:.
VP 634 634
Sensibilidad (α) = = = = 0,5656
VP + FN 634 + 487 1121
VN 1251 1251
Especificidad (β) = = = = 0,8230
VN + FP 1251 + 269 1520
VP 634 634
Valor predictivo positivo(VPP) = = = = 70,21%
VP + FP 634 + 269 903
VN 1251 1251
Valor predictivo negativo(VPN) = = = = 71,98%
VN + FN 1251 + 487 1738
Para el diagnóstico del VIH se emplean test que han confirmado tener una alta validez,
con valores aproximados de sensibilidad y especificidad elevados.
Bibliografía:
Barón López, F. J. Manual de Bioestadística (2012) Métodos y Aplicaciones.
Facultad de Medicina. Universidad de Málaga.
Chipia Lobo, J.F. (2014) Propuesta de la unidad curricular: Bioestadística, Escuela de
Medicina, Universidad de los Andes. Disponible en:
https://www.researchgate.net/publication/303844466
Colectivo de autores. Video clases para la carrera de Medicina. Universidad de
Ciencias Médicas de La Habana.
Danel Ruas, O. O. (2016) Bioestadística para residentes, estudiantes de medicina,
enfermería y ciencias de salud. Disponible en:
https://www.researchgate.net/publication/305466999
Díaz Reissner, C. (2016) Fundamentos para la aplicación de Bioestadística en
Odontología (Parte 2) Disponible en Rev. Salud Pública Paraguay. Vol. 5 Nº 2; Julio-
Diciembre 2015 https://www.researchgate.net/publication/303720777
Gómez, G.; Martín Andrés, A. (2010) Mesa redonda: La Estadística en la Investigación
Médica. Universidad de Granada. Disponible en
https://www.researchgate.net/publication/28262877
Kari Bjornard, M.D.(2015) Biostatistics and Evidence-Based Medicine. Disponible en
ClinicalKey. Bajado desde Infomed julio 07, 2016.
Oliva González, L.; et. al. Libro de ejercicios de Bioestadística. Centro de
Cibernética Aplicada a la medicina (CECAM) Universidad de Ciencias médicas de La
Habana.
Pateiro López, B. (2012) Bioestadística. Grado en Medicina. Universidad de Málaga.
Pérez Atanasio, J.M. (2015) Principios de Bioestadística para comprender los resultados
reportados en los artículos científicos. Disponible en
https://www.researchgate.net/publication/280947067
Pimentel Bergamaschi, D.; Pacheco de Souza, J. M. (2013) Curso de Bioestadística
para Salud Pública. Sao Pablo. Brasil
Pita Fernández, S.; Pértegas Díaz, S. (2003) Pruebas diagnósticas En Investigación:
Pruebas diagnósticas. Hospitalario-Universitario Juan Canalejo. A Coruña. España.