Curso Bioestadistica

Manual de Bioestadística para
estudiantes de carreras de
Ciencias de salud y residentes.
Parte 1
Autores:
Octavio Oscar Danel Ruas
Asela Isabel Acosta Valenzuela
Carlos Andrés Santa María Rodríguez
Facultad de Ciencias Médicas Manuel Fajardo
Julio 2016
Introducción a la Bioestadística
Se inicia este curso con la definición de algunos conceptos elementales y básicos, que
son cimientos fundamentales, para una comprensión intuitiva y real de lo que es la
Bioestadística. Con ello queremos introducir al estudiante en los primeros pasos sobre
el uso y manejos de datos cuantitativos y cualitativos: distinguir y clasificar las
características de las variables de un estudio, a orientarse para organizar y tabular las
medidas obtenidas mediante la construcción de tablas de frecuencia, así como para
elaborar una imagen que sea capaz de mostrar gráficamente estos resultados.
En la vida diaria, constantemente se toma conocimiento de informaciones de carácter
cuantitativo o cualitativo, sobre diversos fenómenos, acontecimientos, manifestaciones
o simplemente hechos ocurridos en nuestro entorno. Para que una información sea
considerada estadística debe estar orientada a facilitar la realización de estudios, de
inferencias inductivas o la toma de decisiones en cualquier actividad o área del
conocimiento.
La Bioestadística nos permite responder preguntas claves de la investigación en el
campo de ciencias de salud, adentrarnos en el desarrollo de proyectos de investigación
en las áreas de salud, Biología, así como en otras disciplinas, en el desarrollo de
proyectos. La colaboración de la Bioestadística ha sido clave en el desarrollo de
nuevos fármacos, en el análisis y la comprensión de enfermedades crónicas como el
cáncer, el VIH-SIDA, y miles de ejemplos más.
Al estudiar los sistemas biológicos, cierta incertidumbre se debe al desconocimiento de
muchos de los mecanismos fisiológicos y fisiopatológicos, a la incapacidad de medir
todos los determinantes de la enfermedad y a los errores de medida que
inevitablemente se producen. Así, al realizar observaciones en clínica o en salud
pública, los resultados obtenidos contienen una parte sistemática o estructural, que
aporta información sobre las relaciones entre las variables estudiadas. El objeto de la
estadística consiste en extraer la máxima información sobre estas relaciones
estructurales a partir de los datos recolectados.
La estrecha relación de la Estadística con el método científico hace de la Bioestadística
una disciplina imprescindible en la mayoría de los proyectos en el área tecnológica, en
particular para las ciencias de la salud. El pensamiento estadístico no sólo resuelve y
permite comprender, brindar respuestas a hipótesis y preguntas, sino que además nos
permite organizar el “sistema” que involucra la investigación desde el diseño general,
diseño de muestreo, control de calidad de la información, análisis y presentación de
resultados, entre otros componentes investigativos.
Aunque el presente trabajo puede ser material de estudio y de consulta para otros
profesionales de la salud, está preparado teniendo en cuenta las necesidades
investigativas de los residentes, el mismo puede contribuir a elevar y mejorar la calidad
en el diseño de sus investigaciones, así como del personal de la salud en general.
Definición
La Estadística es la ciencia que se ocupa de los métodos y procedimientos para
recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando
la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de
realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones
y en su caso formular predicciones.
Bioestadística es la ciencia que maneja mediante métodos estadísticos la incertidumbre

en el campo de la medicina y la salud. En medicina, los componentes aleatorios se
deben, entre otros aspectos, al desconocimiento o a la imposibilidad de medir algunos
determinantes de los estados de salud y enfermedad, así como a la variabilidad en las
respuestas de los pacientes1.
La Bioestadística no sólo se centra en medir incertidumbres sino que se ocupa también

del control de su impacto. El profesional de la medicina no sólo se forma para atenderal
paciente, sino que tiene además una responsabilidad social con la comunidad, para lo
cual debe estar al tanto de los problemas de salud que la afectan, los recursos con que
cuenta y sus posiblessoluciones.
Estadística descriptiva
Describe, analiza y representa un grupo de datos utilizando métodos numéricos y
gráficos que resumen y presentan la información contenida en ellos.
Estadística inferencial
Apoyándose en el cálculo de probabilidades y a partir de datos de una muestra
(procedente de una población), efectúa estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos. Permite generalizar los datos
obtenidos a partir de una muestra a la población de la que proceden. Se basa en la
teoría de las probabilidades y trabaja con los datos que le proporciona la estadística
descriptiva.
La medicina es una ciencia estadística.
La medicina es una ciencia estadística, pues siempre se trabaja con la probabilidad de

enfermar y con la oportunidad incierta del diagnóstico y del tratamiento. El médico debe
adecuar el conocimiento científico y tecnológico a la situación clínica personal y social
del paciente del que se ocupa en ese momento, ya que «no existen enfermedades sino
enfermos». El buen juicio médico logra un equilibrio entre el riesgo que comporta toda
intervención diagnóstica y/o terapéutica y el beneficio esperable de dicha intervención
en el paciente concreto, lo que obliga a combinar ciencia y arte, pues no es fácil
1
Pateiro López, B. Bioestadística. Curso 2012-2013Grado en Medicina
trabajar con la incertidumbre, y sólo la estadística nos proporciona el instrumento
adecuado que nos permite convivir con el azar, y con las limitaciones del conocimiento
médico.
La bioestadística y el método epidemiológico aportan más ciencia al arte de la medicina

y enfermería y es por ello que la colaboración conjunta de expertos en metodología,
bioestadísticas y los clínicos deben trabajar en equipo en colaboración para en un
esfuerzo conjunto reducir la variabilidad que rodea al ejercicio de la medicina y
enfermería que será siempre una ciencia de probabilidades y un arte de manejar la
incertidumbre.
Lamamos población estadística o universo al conjunto de referencia del que

extraemos las observaciones, es decir, al conjunto de todas las posibles unidades
experimentales. No necesariamente tiene que ser un número de personas o animales.
Por ejemplo, infestación con el mosquito Aedes Aegypti de locales de una comunidad,
disposición de TAC en los hospitales de La Habana, número de las historias clínicas de
un hospital).
Llamaremos muestra al subconjunto de la población que utilizaremos para realizar un

estudio, la selección de una buena muestra puede brindar información heterogénea
de un conjunto representativo de la población con diferentes características. El
número de elementos que componen la muestra se llama tamaño muestral. Es
necesario señalar que mientras mayor sea la cantidad de sujetos incluidos en la
muestra, será mayor es la certeza de que los resultados representan a la población.
Sin embargo a medida que se aumenta la muestra los costos suelen elevarse.
La determinación de la población y la magnitud de la muestra, además de la

consideración de los costos, dependerán del problema de investigación planteado y de
los objetivos definidos en el estudio. Si se ha definido un universo relativamente
pequeño —por ejemplo los pacientes de un Policlínico con determinada enfermedad—
quizás sea más conveniente tomar en cuenta al universo completo, pues ello no
incidiría tanto en los costos y es técnicamente viable realizarlo. Distinto sería el caso
si se toma como universo a los pacientes de toda una provincia o un país, donde
habría que tomar opciones metodológicas para diseñar una muestra.
Recolección de los datos
Cuando abordamos el estudio de un conjunto de datos, antes de introducirnos en

cuestiones más detalladas, es necesario hacer una exploración inicial de los mismos.
De este modo podremos tener una idea más clara de sus características principales y
de sus posibles asociaciones.
En primera instancia abordaremos unas ideas sobre la manera de presentar

ordenadamente y resumir variables consideradas aisladamente de las demás, para
después explorar conjuntamente grupos de variables.
Datos univariantes.
Los métodos para visualizar y resumir los datos dependen de sus tipos,
fundamentalmente diferenciamos en dos tipos de datos o variables: cualitativos
(reflejan cualidades) y cuantitativos (numéricos).
Las variables cualitativas son las que registran o reflejan categorías o cualidades. Si
diseñamos una base de datos de pacientes, ejemplos de variables categóricas son el
sexo, enfermedades que padece, su estado civil, hábito de fumar, entre otras. Dentro
de las cualitativas podemos a su vez distinguir entre variable nominal y ordinal. En esta
última hay un orden entre las distintas categorías. Por ejemplo, en la variable
Intensidad dela quemadura de piel ante la exposición solar, tenemos: quemaduras de
primero, segundo y tercer grado, la intensidad del dolorante un estímulo tenemos las
categorías: no perceptible, dolor tenue, doloroso y muy doloroso.
Siguiendo con la misma base de datos de pacientes, si recogemos, el peso de una

persona es un dato cuantitativo (cantidad numérica). En particular continua (los valores
dentro de cualquier intervalo son posibles); Esto no ocurre cuando recogemos el
número de hijos; Esta variable es discreta.
Cualitativas Nominales - Dicotómicas o Binarias

- Politómicas
Variables Ordinales
Cuantitativas Discretas
Continuas
Datos Cualitativos: Estos datos los registramos bien con tablas de frecuencias o con
representaciones gráficas como diagramas de barras o de sectores.
- Variables CUALITATIVAS: Representan una cualidad o atributo que clasifica a cada

individuo en una de varias categorías. Evita la cuantificación. Es una valoración
subjetiva.Registros narrativos de los fenómenos estudiados mediante técnicas
como la observación participante y las entrevistas no estructuradas. Se
proponen identificar la naturaleza profunda de las realidades, su sistema de
relaciones, su estructura dinámica.Estudia casos aislados e incluso
únicos.Orientada al proceso, estudia el ¿Por qué?
Pueden ser de dos tipos:

- Dicotómicas o binarias: La situación más sencilla es aquella en la que se clasifica
cada individuo en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no
fumador, factor Rh positivo/negativo).
- Politómicas: Requiere un mayor número de categorías (color de la piel, grupo
sanguíneo, profesión, factores de riesgo asociados).
- Variables CUANTITATIVAS: Están representadas por atributos que pueden medirse,
cuantificarse o expresarse numéricamente.Estudia o investiga la asociación o
relación entre variables cuantificadas. ¿Cuántos? ¿Con qué
frecuencia?Medición de acciones y conductas de forma objetiva. Orientada al
resultado
Pueden ser de dos tipos:
- Continuas: Son aquellas que si admiten tomar cualquier valor dentro de un rango
numérico determinado, con uno o varios decimales (peso, talla, temperatura).
- Discretas: Son aquellas que NO admiten todos los valores intermedios en un rango.
Suelen tomar solamente valores enteros (número de hijos, número de partos, años
padeciendo una enfermedad).
Tipos de variables, según escala:
Escalasnominales:VariablesNOMINALES:éstaesunaformadeobservaromedirenla
quelosdatosseajustanporcategoríasquenomantienenunarelacióndeordenentresí.
-Sexo.
-Gruposanguíneo.
- Factor Rh
-Presencia oausenciadeunaenfermedad.
-Presencia oausenciadeunfactorderiesgo.
Escalas ordinales: Variables ORDINALES: En las escalas utilizadas para medirlas

existe un cierto orden, grado o jerarquía entre las categorías.
-Grado de quemadura en piel.
- Estado de gravedad de un paciente.
-Intensidad del hábito de consumo alcohólico.
-Tipo de fumador o intensidad del hábito tabáquico.
 1-9 cigarros/día.
 10-20 cigarros/día.
 > 20 cigarros/día.
- Tipo de fumador.
 Ex fumador.
 Fumador pasivo.
 Fumador activo.
Ejercicio 1:¿A qué tipo de variable corresponde el Índice de Masa
Corporal?
1) Variable cualitativa ordinal.
2) Variable cualitativa nominal.
3) Variable cuantitativa discreta.
4) Variable cualitativa dicotómica.
5) Variable cuantitativa continua.
Ejercicio 2: La toma de temperatura mediante un termómetro es una
variable:
1) Cualitativa dicotómica.
2) Cualitativa ordinal.
3) Cuantitativa continua.
4) Cuantitativa discreta.
5) Cualitativa nominal.
Ejercicio 3: ¿Cuál de las siguientes respuestas corresponde a una variable

cualitativa ordinal?
1) Sexo.
2) Número de camas hospitalarias libres.
3) Glucemia basal en una muestra.
4) Respuesta al tratamiento analgésico en un grupo de personas con dolor
lumbar crónico.
5) Color del pelo.
Ejercicio 4: Al afirmar que los jóvenes de 15 a 20 años fuman entre 2 y 5

cigarrillos al día, nos referimos a:
1) Muestra y población.
2) Estadístico y muestra.
3) Población y parámetro.
4) Variable cualitativa.
5) Variables cualitativas ordinales.
Ejercicio5: Relaciona las columnas A y B

A B
Variables cualitativas __ Nivel de hemoglobina de la gestante
Nominales __ Obeso (Si/No)
1- Dicotómicas __ Nivel de escolaridad.
2- Politómicas __ Peso del niño al nacer.
3- Ordinales __ Color de la piel (B-N-M)
__ Años de evolución de enfermedad
Variables cuantitativas __ Riesgo y Antecedentes familiares
4- Discretas __ Nivel hemoglobina en sangre
5- Continuas __ Tipos de diabetes mellitus
__ Edad primera gestación
Ejercicio 6: Clasifica las siguientes variables según los criterios estudiados:

Gravedad de un infarto (leve, moderado, fuerte),Número de ataques de asma
semanales de paciente, Sexo, Presión arterial, Estatura, Peso, Estado de dolor tras la
toma de un fármaco (Peor, Igual, Mejor), Municipio de residencia, Edad, Número de
partos de una embarazada Grupo sanguíneo.
Ejercicio 7: Sedesearealizarunestudiosobrehipertensiónarterialen una población de
adultos mayores de una comunidad. Se quiere estudiaresteproblemay valorar qué
característicasdelos adultos pueden estar
relacionadas.Identificalasunidadesexperimentalesdelestudioylasvariablesdeinterés.
Lasunidadesexperimentalesseríantodosaquellosancianosde esa comunidad
integrantesdelestudio.Lasvariablesdenuestroestudioserían: los valores de la
presiónarterialde cada ancianoqueeslavariablede mayor
interéssobrelaquequeremosestudiar, así comootrasvariablesquedesearíamosconocer:si
son o no son hipertensos, tiempo padeciendo la HTA, la edad, el sexo, el peso
corporal. Elaborar una Tabla de operacionalización de estas variablesque incluya:
Tipo de Descripción Escala de Indicadores

variable Clasificación
Nombre Paciente
Valores de presión
Hipertenso(Si/No)
Tiempo hipertenso
Edad
Sexo
Peso corporal
Ejercicio 8: Conforme a las variables del estudio que vas a realizar como
investigador(a). Enumera al menos seis variables y elabora con ellas una tabla
semejante a la anterior.
CLASIFICACIÓN DE LAS VARIABLES
Variable Independiente:
Es aquella característica o propiedad que se supone ser la causa del fenómeno
estudiado. En investigación experimental se llama así, a la variable que el investigador
manipula.
Variable Dependiente:
Se define como propiedad o característica que se trata de cambiar mediante la
manipulación de la variable independiente.
La variable dependiente es el factor que es observado y medido para determinar el
efecto de la variable independiente.
Variable Interviniente:
Son aquellas características o propiedades que de una manera u otra afectan el result
ado que se espera y están vinculadas con las variables independientes y dependientes.
Variable Moderadora:
Para algunos autores estas representan un tipo especial de variable independiente,
que es secundaria, y se selecciona con la finalidad de determinar si afecta la relación
entre la variable independiente primaria y las variables dependientes.
Variables Cualitativas:
Son aquellas que se refieren a atributos o cualidades de un fenómeno. Sabino señala
que sobre este tipo de variable no puede construirse una serie numérica definida.
Variable Cuantitativa:
Son aquellas variables en las que características o propiedades pueden presentarse e
n diversos grados de intensidad, es decir, admiten una escala numérica de medición.
Variables Continuas:
Son aquellas que pueden adoptar entre dos números puntos de referencias intermedio
. Los valores de temperatura de un paciente (36.5º, 38.2º, 40º, etc.)
Variables Discretas o discontinuas:
Son aquellas que no admiten posiciones intermedias entre dos números. Ej., en Barina
s la división de territorial la constituyen 11 municipios por no (10.5 u 11.5 municipios).
Variables de Control: Se llaman así a las variables o factores que son controlados por
el investigador para eliminar o neutralizar cualquier efecto que podrían tener de otra
manera en el fenómeno observado.
Diagramas de sectores: En este diagrama se le asigna a cada valor un sector cuyo
ángulo sea proporcional a su frecuencia. Se suele utilizar en datos cualitativos
nominales y no en los ordinales. Muestran las partes porciones en que se subdivide un
total. El tamaño de las diferentes porciones nos permite establecer fácilmente
comparaciones.
Diagrama de barras: Gráficos de barras: Permiten comparar cantidades. La longitud de
cada barra representa el valor que le corresponde. El diagrama de barras se representa
asignándole a cada modalidad de la variable una barra de una altura proporcional a su
frecuencia absoluta o a su porcentaje. En ambos casos el gráfico es el mismo, sólo se
modifica la escala.
Frecuencias y porcentajes
Las frecuencias pueden obtenerse en términos absolutos (frecuencias absolutas),
mostrando las repeticiones de cada categoría, o bien en términos relativos
{porcentajes), mostrando los participación de cada categoría en relación con el total.
Las frecuencias absolutas se utilizan con muestras de tamaño pequeño, y las relativas
tienen más sentido con muestras de tamaño grande.
Si las variables son variables ordinales (o numéricas) pueden sernos de interés los
porcentajes acumulados. Nos indican para cada valor de la variable, en qué porcentaje
de ocasiones se presentó un valor inferior o igual.
Gráficos de líneas: Nos muestran las variaciones de un valor o cantidad a lo largo del
tiempo. Según sea la línea ascendente o descendente, describe el sentido y la
magnitud de la variación.
Datos cuantitativos. Estos datos son mucho más valiosos en información que los datos
categóricos. Por lo que además de las tablas, tenemos otras medidas que sirven para
resumir la información que contienen. Dependiendo de cómo se distribuyan los datos,
usaremos grupos de medidas de resumen diferentes.
Cuando se tiene una variable de tipo numérica, lo primero que nos puede interesar es
alrededor de qué valor se agrupan los datos, y cómo se dispersan con respecto a él.
Ejercicio 9:
Se realizó una revisión para estudiar la influencia de la edad y el sexo, así como de
las principales vías de transmisión del Virus de la hepatitis C de los
pacientesatendidos (160 seropositivos) en consulta de enero 2012-2015 en el
Hospital “La Arboleda”.
La tabla muestra los resultados:
Grupo etario Masculino Femenino Resultados:
Casos Casos
11 –20 años 2 1 Se pudo comprobar que la vía sanguínea resultó la vía
de mayor riesgo, en segundo lugar la vía idiopática –
21 – 30 años 13 3
desconocida, las vías vacunación, accidentes de
31 – 40 años 19 8
aguja, drogas, vía salival, vía sexual, y tatuajes no
41 – 50 años 22 20
reportaron casos.
51 – 60 años 21 25 1. Comprueba que la edad promedio es 47,8 años.
61 – 70 años 17 5 2. En qué intervalo está la mediana y en cuál la moda.
71 – 80 años 6 2 3. Completa la siguiente tabla con las variables
Total 100 64 estudiadas:
Variable Tipo de variable Forma en que será controlada

Edad del paciente
Sexo
Años padeciendo VHC
Seropositivo (Si/No)
Vías de transmisión
Ejercicio 10: Se realizó una investigación sobre el Síndrome Metabólico (SM) en

escolares del municipio “Arboleda” para determinar si existen diferencias en la
frecuencia de presentación del SM, utilizando los criterios diagnósticos de la
Federación Internacional de Diabetes (IDF). Se presenta un estudio descriptivo, que
incluyó un total de 72 niños obesos, de 7 a 11 años de edad, que acudieron al
Centro de Desarrollo Antidiabético, entre Enero -Abril de 2015. Correspondiendo
50,0 % (n=36) al género masculino y 50 % (n=36) al género femenino. El 55,5 %
(n=41) presentó obesidad de más de 4 años de evolución y 44,4 % (n=32) menos
de 4 años de evolución. El 100 % mostró el factor de riesgo familiar (antecedentes
familiares), presentándose la obesidad en su mayoría 79,2 % (n=57) como factor de
riesgo único.
Se controló el grado de escolaridad de la muestra estudiada. De acuerdo a lo
anterior:
(1) Señala cuál es la población y cuál es la muestra.
(2) Completa la siguiente Tabla con los tipos de variables y formas de control.

Nombre del paciente
Grado de escolaridad terminado
Años cumplidos
Perímetro de la cintura
Riesgo y Antecedentes familiares
Ejercicio 11: Se realizó una investigación para determinar la frecuencia de

distribución de los grupos sanguíneos de pacientes con Esclerosis Múltiple (EM),
a personas que asistieron al Hospital provincial de Holguín durante el período, de
enero 2013 a junio 2013. El grupo sanguíneo A estuvo en el 60 % de los pacientes
y el grupo O predominó en los donantes (55 %), concluyéndose que existe una
asociación entre el grupo sanguíneo A con la esclerosis múltiple.
Entre los pacientes se encontró predominio del grupo de edades entre 30 y 59 años
(80 %, n=56), el sexo femenino (78,6 %, n=55) y el color de la piel blanca (87,5 %,
n=60). El nivel de hemoglobina del grupo muestreado fue 13,8.
1. Enuncia el tema de investigación
2. Señala población y muestra.
3. Completa la siguiente tabla respecto a las variables estudiadas:
Edad
Sexo
Padece de (E. M) (Si/No)
Color de la piel (B-N-M)
La representación gráfica de los datos permite realizar una descripción visual de
manera general de los datos obtenidos pero no para el tratamiento matemático para
llevar a cabo un análisis estadístico. Por esta razón los especialistas o expertos en
estadística utilizan las medidas de tendencia central a partir de los datos muéstrales
para hacer una imagen mental de los datos y las inferencias acerca de las
características de la población.
Existen diversas medidas descriptivas numéricas que permiten realizar un análisis y
descripción de un conjunto de datos que fue obtenido y organizado previamente.
Una de dichas medidas es la medida de tendencia central, en donde los datos se
condensan en un solo valor central alrededor del cual todos los datos muéstrales se
distribuyen.
Existen diferentes tipos de medidas de tendencia central: la mediaaritmética, mediana,
moda, entre otras.
MEDIDAS DE TENDENCIA CENTRAL
En ocasiones, para los datos recolectados ya organizados, se desea encontrar una
especie de punto central en función de sus ocurrencias. En Estadística se conocen tres
diferentes, llamadas medidas de tendencia central, cuya utilización varía de acuerdo
con lo que se desee del conjunto de datos recolectados. Esas tres medidas de
tendencia central son la media, la mediana y la moda.
Cada una de ellas se estudiará en dos partes: primero, cuando los datos están
organizados en tablas de distribución de frecuencias simples y, segundo, cuando están
organizados en intervalos. Además, a veces difieren las fórmulas para calcular alguna
de ellas si se trata de poblaciones o de muestras. En caso de que no se diga nada,
deberá entenderse que la fórmula es la misma para ambas.
Los datos obtenidos pueden concentrarse en un solo valor central alrededor del cual
todos los datos muéstrales se distribuyen. La medida de tendencia central, es un valor
típico o representativo de un conjunto de datos que suele situarse hacia el centro del
conjunto de datos ordenados por magnitud.
Los tipos más comunes son:
 Media aritmética o media
 Mediana
 Moda
LA MEDIA
La media, llamada también media aritmética, es la medida de tendencia central
conocida popularmente como "promedio".
Ejercicio 12:
En el día de ayer acudieron al servicio de urgencias de un Policlínico universitario ocho

pacientes, cuyos datos de ingreso se encuentran resumidos en la siguiente tabla.
Clasifica las variables recogidas (sexo, peso, estatura, temperatura, número de visitas
previas al servicio de urgencias en los últimos 3 días y dolor).
Sexo Peso (kg.) Estatura Temperatura Visitas Dolor
(en metros) (en °C)
M 63 1.74 38 0 Leve
M 58 1.63 36.5 2 Intenso
H 84 1.86 37.2 0 Intenso
M 47 1.53 38.3 0 Moderado
M 70 1.75 37.1 1 Intenso
M 57 1.68 36.8 0 Leve
H 87 1.82 38.4 1 Leve
M 55 1.46 36.6 1 Intenso
LA MEDIA PARA FRECUENCIAS SIMPLES:
Cuando los datos recolectados han sido organizados en una tabla de distribución de
frecuencias simples, la media, para poblaciones como para muestras, se puede
calcular
por medio de la fórmula En donde: es la media o promedio.
Σf suma de las frecuencias por su

x
correspondiente dato nominal
n Número de datos recolectados.
Para calcularla media, debe añadirse una columna fx a la tabla original en la que se
registren losresultados correspondientes al producto de la frecuencia por el valor
nominal de la variable (f x).
Ejercicio 13: Calcule para el conjunto de datos mostrado en el ejercicio anterior la media de las
variables: Peso, estatura y temperatura.
LA MEDIA PARA FRECUENCIAS POR INTERVALOS:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias por intervalos, la
media para poblaciones como para muestras se puede calcular por medio
por medio de la fórmula En donde: es la media o promedio.

xi Es el punto medio del intervalo
Σf suma de las frecuencias por su

correspondiente dato nominal
n Número de datos recolectados.
Debe observarse que es la misma fórmula que la correspondiente a los datos organizados en
tablas de distribución de frecuencias simples, pero que la única diferencia es la interpretación de la
x. En una representa el valor nominal, en ésta última es el punto medio del intervalo. Esta situación
se va a repetir en las otras dos medidas de tendencia central que faltan por estudiar aún: la
mediana y la moda, ya que también se estudiarán en dos casos: cuando los datos estén
organizados en tablas con frecuencias simples o cuando estén agrupados por intervalos.
Ejercicio 14: Los siguientes datos muestran las estaturas de 40 estudiantes de un aula de 10mo
grado (expresada en centímetros).
160,3;170,9; 154,2; 163,8; 150; 169,6; 159,1;171,3; 165,8;164,3; 152, 1; 158,3; 163,2; 152,9;
155,8; 154,5; 160,4; 161,8; 155,6;157,4,162;167,4; 166,3; 174; 164,6; 162; 168,3;170,2;159;
153,8;157,8;159,9; 158,2; 160,5, 161,8;158;154,4;163,9;158,1;160,9.
En este caso tenemos una variable cuantitativa Clase 1ª 2ª 3ª fi

[150;153) // / gu 3
continua, donde la amplitud puede tomar, al menos
[153;156) / /// // 6
teóricamente infinitos valores, debemos comenzar por [156;159) / / //// 6
establecer un conjunto de valores en los que se moverá [159;162) // // ///// 9
[162;165) /// /// / 7
la variable estatura y a este conjunto se le llamará [165;168) / // 3
intervalo de clase o simplemente clase. Se hará [168;171) // / / 4
[171;174] / / 2
necesario determinar el número de clases en que 40
queremos agrupar los datos y de dónde a dónde irá
cada clase.
Número de clases: Si el número de clases o intervalos de clases que seleccionamos es muy
grande, tendremos como inconveniente de que habrá tantos detalles, que consideramos
importantes entre los individuos estudiados que pasarán inadvertidos, por el contrario si
determinamos muy pocas clases, probablemente pasaremos por alto importantes características
y relaciones de los individuos estudiados.
Por lo planteado anteriormente el número de clases seleccionado, debe ser tal que se evite el
detalle innecesario para que no conduzca a la pérdida de información importante.
Algunos autores plantean que la cantidad de clases debe estar entre 10 y 15, otros somos de la
opinión que entre 8 y 12 clases, otros plantean que no deben ser menos de 6 clases, ni más de
15. Definitivamente cualquier selección del número de intervalos de clases o simplemente del
número de clases, dependerá de las características de los datos.
Límite superior de la variable estatura: 174
Límite inferior de la variable: 150

Límite superior−Límite inferior 174−150
Amplitud del intervalo de clase= = =3
Número de clases 8
Deben añadirse a la tabla original con las clases, dos columnas encabezadas por xi(puntos medios
de cada clases, también llamada marca de clases) y f i que representa el total de frecuencias en
esa clase, una columna fi● xi que es el producto de la marca de clase por la frecuencia por ese
punto medio.
Estatura Xi fi fi●xi fri fi Fri

[150;153) 151,5 3 454,5 0,075 3
acum 0,075
[153;156) 154,5 6 927 0,15 9 0,225
[156;159) 157,5 6 945 0,15 15 0,375
[159;162) 160,5 9 1444,5 0,225 24 0,6
[162;165) 163,5 7 1144,5 0,175 31 0,775
[165;168) 166,5 3 499,5 0,075 34 0,85
[168;171) 169,5 4 678 0,1 38 0,95
[171;174] 172,5 2 345 0,05 40 1
40 6438 1
LA MODA
La moda es la medida de tendencia central que se define como aquel valor nominal que tiene la
frecuencia mayor. Por lo tanto, una distribución de frecuencias puede tener más de una moda o,
inclusive, no tener moda cuando todos los datos tienen frecuencia 1.
Una distribución se llama bimodal cuando dos tiene dos modas. En general si existen más de tres
modas se dice que es multimodal.
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la
moda se obtiene buscando en la columna de frecuencias el o los valores que tengan mayor
frecuencia. Es exactamente lo mismo cuando están organizados por intervalos.
La moda se simboliza con sus dos primeras iníciales:Mo
En el ejercicio anterior la clase donde está la moda es la clase [159; 162)
LA MEDIANA
En un grupo de observaciones arregladas en orden de magnitud, se llama mediana al valor que

queda en la parte central de los datos no agrupados Es el valor intermedio cuando los valores de
los datos se ordenan en forma ascendente.
Ordene los datos en orden ascendente (de menor a mayor)
a) Si es un número impar de observaciones, la mediana es el valor intermedio.
b) Si se trata de un número par de observaciones, la mediana es el promedio de los dos valores

intermedios.
El error más común que se comete a la hora de intentar localizar la mediana es buscar el dato
nominal por central en vez deldato ordinal, o sea, el error consisteen buscar en la columna de los
datos nominales por el que está a la mitad de la tabla o en la fila del medio, y esto en muchas
ocasiones no corresponde.
Así por ejemplo en el ejercicio anterior al considerar la mediana de la Tabla de Se le

“clase de la
frecuencias
llama demediana” al intervalo
las estaturas en donde selaencuentra
de 40 estudiantes, la mediana.
clase donde “Clase”
está contenida la o intervalo es
lomediana
mismo. es
El la clase [159;
resultado que162), pues delante
se obtiene con la de esa clase
fórmula hay
es un 25 datos
valor y después
que se encuentradedentro dela
esa clase hay 16 estudiantes, luego la clase donde esta incluida la mediana es la
clase de la mediana (Mdn).La fórmula correspondiente
anteriormente señalada.es
L: límite inferior de la clase (o intervalo) de la mediana.
N: número total de datos.
f: frecuencia de la clase de la mediana.
f a: frecuencia acumulada en la clase (intervalo)
inmediata anterior a la clase(intervalo) de la mediana.
i=diferencia entre los límites de la clase (intervalo) de la mediana.

En el ejercicio anterior el valor de la mediana es: Mdn=159+ [40/2 – 15] / 9 x 3 = 160.67
Ejercicio 15: La tabla muestra los valores seleccionados para el estudio de las estaturas (cm) de
padres e hijos con el objetivo de conocer si las estaturas de los padres está relacionada con la de
los hijos, la muestra de estatura que representamos corresponde a la estatura de los hijos.
No Clases fi FR FAA FRA MC xi
1 [164,0 ;171,0) 3 0,1875 0,1875
2 [171,0 ;178,0) 2 0,125 174,5
3 [178,0 ;185,0) 7 0,75 181.5
4 [185,0 ;192,0) 2 0,125 188,5
5 [192,0; 199,0] 2 0,0625 1,0
Total 1
a) Identifique y clasifique la variable en estudio.
b) Complete la tabla de distribución de frecuencias, llenando los escaques en blanco.
c) Determine el valor de la Media para la muestra dada.
d) Mencione 3 propiedades de la media.
Bibliografía:
1. Calvache, J. A.; Barón López, F. J. (2006) La Bioestadística y su aplicación a la
investigación en salud. Disponible en https://www.researchgate.net/publication/242648367
2. Chipia Lobo, J.F. (2014) Propuesta de la unidad curricular: Bioestadística, Escuela de
Medicina, Universidad de los Andes.Disponible en:
https://www.researchgate.net/publication/303844466
3. Colectivo de autores. Infostat: Manual de usuario(2008). Disponible en:
https://www.researchgate.net/publication/283491340_Infostat_manual_del_usuario
4. Díaz Portilla, J. (2011) Pruebas estadísticas de contraste de hipótesis más aplicables a
cada situación. Tomado de Guía Práctica del Curso de Bioestadística Aplicada a las Ciencias de
la Salud. Hospital universitario de Ceuta.
5. Díaz Reissner, C. (2016) Fundamentos para la aplicación de Bioestadística en Odontología
(Parte 2) Disponible en Rev. Salud Pública Paraguay. Vol. 5 Nº 2; Julio-Diciembre 2015
6. Gómez, G.; Martín Andrés, A. (2010) Mesa redonda: La Estadística en la Investigación
Médica.Universidad de Granada. Disponible en
7. Martin Mateo, M.;... Et. al. (2010) Fundamentos de Estadística en ciencias de salud.
Belaterra, Universidad Autónoma de Barcelona. Servei de Publicaciones.
8. PastorBarriuso R. Bioestadística. Centro Nacional de Epidemiología, Instituto de Salud
Carlos III, 2012. Madrid, España
9. Pateiro López, B. (2012) Bioestadística. Grado en Medicina. Universidad de Málaga.
10. Pérez Atanasio, J.M. (2015) Principios de Bioestadística para comprender los resultados
reportados en los artículos científicos. Disponible en
11. Román Bravo, R.M. (2015) Importancia de la Bioestadística como herramienta en la
investigación. Disponible en https://www.researchgate.net/publication/283413845
12. Silvela, F. Bioestadística y Salud Pública Preguntas Grupo CTO Enfermería. Madrid,
España
13. Spiegel, M.R. (1987). Teoría y problemas de Estadística. Editorial Poligráfico “Juan
Marinello”, Santiago de Cuba.
View publication stats

En el capítulo anterior vimos que las medidas de tendencia central nos informan sobre el
valor central de un conjunto de datos
La media, entre sus propiedades siempre existe y es única. Si a cada elemento de un
conjunto de datos se le suma una constante, la media aritmética de nuevo conjunto
será igual a la media aritmética del primer conjunto más la constante.En un conjunto de
datos, la sumatoria de la diferencia de todos los valores menos la media aritmética es
igual a 0.
La mediana, es el punto medio de los datos ordenados; es el valor que tiene por encima
y por debajo el 50% de los datos ordenados. Esta Indica el "centro" de la distribución,
no tiene en cuenta el valor de las observaciones.
Para calcular la mediana de un conjunto de datos primeramente será necesario
ordenar de menor a mayor o viceversa y después encontrar la posición central.La
mediana siempre existe, es única y no se afecta por valores extremos.
La moda, es el valor más frecuente de la distribución de los datos. No tiene fórmula.
Podemos tener más de una moda. Cuando todas las observaciones de una muestra
tienen lamisma frecuencia decimos que la muestra no tiene moda.La moda no siempre
existe. Si ninguno de los valores del conjunto de datos se repite no hay moda, no
siempre es única.
No siempre las medidas de tendencia central son suficientes para caracterizar a un
conjunto de datos. Por ejemplo: si tenemos el siguiente conjunto de datos
correspondientes al peso de un primer grupo de niños:
42 kg; 44 kg; 46 k, 48 kg y 50 kg.
Entonces a media de este conjunto de datos es:
La media de este conjunto de datos es 46 kg

Consideremos un segundo grupo de niños cuyos pesos son 6, 26,46,66 y 86 kg
Ahora puede comprobarse que la media de este grupo de datos es 46 kg
Es decir ambos conjuntos de datos tienen la misma media aritmética.

Sin embargo en el primer grupo de niños los valores varían entre 42 kg y 50 kg,
mientras en el segundo grupo de niños los valores varían entre 6 kg y 86 kg, por lo que
en este conjunto los valores de los datos están más alejados de su media aritmética.
MEDIDAS DE DISPERSIÓN
Medidas de dispersión:
• Nos indican donde se sitúa un grupo de observaciones.
• Nos indican si esas observaciones están próximas entre sí o si están muy
dispersas.
Medidas de Dispersión
Varianza:
La varianza poblacional se representa por θ² y la varianza muestral por S², siendo la

expresión matemática de esta última:
Donde es la media muestral,
xi es la i -ésima observación
y n es el tamaño muestral
La varianza, (S²), se define como la media de las diferencias cuadráticas de "n"

puntuaciones con respecto a su media aritmética, es decir:
Ejercicio 1:
Dados los datos de los pesos en kg de los dos grupos de niños del ejercicio anterior:
Primer grupo de niños Segundo grupo de niños
Peso Promedio Peso Promedio
42 (X1) 46 16 6 (X1)
44 (X2) 46 4 26 (X2)
46 (X3) 46 0 46 (X3)
48 (X4) 46 4 66 (X4)
50 (X5) 46 16 86 (x5)
40
Para el primer grupo tenemos que:
Se pide realizar los cálculos para el segundo grupo de niños
Desviación típica
La desviación típica muestral es la raíz
cuadrada de la varianza muestral.
El Coeficiente de variación (CV)

Mide el grado de dispersión respecto al promedio y es adimensional
lo cual facilita la comparabilidad. Valores mayores al 30% indican datos dispersos.
Habitualmente, para la comparar dispersión en variables en unidades de medida
diferentes o muestras diferentes, se utiliza una combinación entre la desviación
típica y la media, el coeficiente devariación:
Analicemos el siguiente ejemplo:

Peso promedio= 62 kg; Desviación estándar= 6 kg,
luego CV Peso= 6/62 x 100 = 9,6%
Talla promedio= 162 cm; Desviación estándar= 8 cm
De donde CV Talla= 8/162 x 100= 4, 9%
Si estamos comparando las desviaciones estándar parece que la talla es la más
dispersa de las dos variables, sin embargo, si comparamos el coeficiente de variación
vemos que CV Peso= 9,6%, mientras que el de la talla es 4,9%, Luego existe más
dispersión en la variable Peso. En lugar de comparar los pesos en kg, las tallas en cm y
las edades en años, podemos mejor comparar los CV que son todos en porcentajes.
Ejercicio 2:
Tenemos dos grupos de personas del sexo masculino que nos proporcionan los
siguientes datos:
Grupo 1 Grupo 2 Establece a través del cálculo de
Edad 25 años 11 años los dos coeficientes de variación
Peso medio 72,5 kg 40 kg en cuál de los dos grupos de
Desviación Estándar 5 kg 5 kg edades hay mayor variabilidad.
Rango:
Otra medida de dispersión es el rango. Indica el recorrido de la variable en estudio, es
la diferencia entre el valormáximo y el mínimo en un conjunto de datos
Donde, x MAX es el mayor dato observado y x MIN es el
valor mínimo observado
Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más
dispersos están los datos de ese conjunto.
Propiedades del Rango:

Es fácil de calcular y sus unidades son las mismas que las de la variable.
No utiliza todas las observaciones (sólo dos de ellas)
Se puede ver muy afectada por alguna observación extrema.
El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier
caso nunca disminuye.
Ejercicio 3:
De los pacientes de una sala de un hospital se seleccionó una muestra de 5
pacientes y se les realizó tan examen médico para detectar la existencia de una
enfermedad. Se conoce que los resultados del examen médico siguen una
distribución normal.
Estos resultados fueron: 3,1 6,1 4,9 5,8 5,3
a) Estime el promedio o media de los resultados del examen médico.
b) Estime la varianza de los resultados del examen médico.
Ejercicio 4:
Se brindan los valores correspondientes a los niveles de colesterol en sangre de diez
pacientes hipertensos: 230, 240; 250; 250; 250; 210; 270; 240; 160 y 300 mg/100 ml.
a) Calcular la media de este conjunto de datos.
b) Calcular la varianza aplicando la fórmula anteriormente estudiada.
c) Determinar la desviación media y el coeficiente de variación.
Ejercicio 5:
A continuación se registran los datos de la edad de aparición genitourinaria en dos
grupos de mujeres:
Grupo 1: 35, 35, 37, 34, 38, 36, 32, 34, 36 y 33 años
Grupo 2: 2, 8, 30, 23, 68, 62, 40, 54, 47 y 16 años
Se quiere:
a) Calcular la media para ambos grupos de mujeres.
b) Determinar para cada uno de estos grupos la varianza.
c) Determinar la desviación media y el coeficiente de variación.
En ocasiones se nos presenta la necesidad del cálculo de estas medidas para un
conjunto de datos agrupados.
Ejercicio 6:
En un grupo de 16 estudiantes, se observó la estatura y se obtuvieron los siguientes
datos (ya ordenados):
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76 1.79
Los datos se resumen en la siguiente tabla:
Para los valores mostrados:

a) Comprobar que el valor de la media es 1,6225
b) Determina el valor de la varianza
c) Calcula la desviación estándar
d) ¿Cuál es el coeficiente de variación? Realiza el cálculo
e) Completa los siguientes espacios en blanco:
• La máxima diferencia de estaturas entre los estudiantes es de ___ cm
• Las estaturas de los estudiantes se desvían en promedio ____ cm de su media.
• Las estaturas varían ______ % con respecto a su medía.
Ejercicio 7: En la tabla anterior:
a) Completa las casillas en blanco
b) Determina el valor de la media.
c) Calcula el valor de la mediana
Ejercicio 8:
Calcular para los datos siguientes, referidos a la estadía hospitalaria de nueve
pacientes infartados:
20 21 23 25 30 15 16 18 22
Determinar la Media Aritmética y la Desviación Standard
Ejercicio 9:
Se tienen dos grupos de pacientes a los cuales se les ha medido la frecuencia cardíaca:
Mujeres; 120; 80; 120 Hombres: 90; 110; 100; 100
a) Calcular la media de cada grupo.
b) Determina la desviación estándar y el coeficiente de variación.
c) Explique en qué grupo hay mayor variabilidad y fundamente su respuesta.
Ejercicio 10:
Los pesos al nacer de cinco niños en la sala de partos, momentos antes de ser
enviados al cunero o a la sala de prematuros (expresados en gramos) son:
900 3460 3000 3420 3100
a) Calcular el peso medio, mediana y la desviación estándar.
b) ¿Considera usted que el resultado de la media obtenida caracteriza
adecuadamente el comportamiento habitual del peso de los niños al nacer?
Comente su respuesta.
Ejercicio 11:
El número de exudados nasofaríngeos realizados a veinte pacientes, portadores de
amigdalitis crónica durante un año, fueron los siguientes:
5; 1; 4; 3; 0; 12; 10; 6; 0; 1; 6; 8; 4; 5; 6; 0; 3; 4; 6; 12.
a) Calcule el promedio de los exudados y compare sus resultados con la mediana y
la moda.
b) Determina además dos estadígrafos que midan la variabilidad que se produjo con
respecto al número medio de exudados.
c) Construye una tabla agrupando estos datos en cuatro clases
d) Con los datos agrupados, calcule el valor medio y compárelo con el valor
obtenido en el inciso a).
Ejercicio 12:
En el Instituto Oncológico, se tiene la siguiente distribución correspondiente a grupos de
edades para analizar diferentes décadas de la vida en que fallecieron pacientes con
patologías oncológicas.
Edades Fi Mi Fac
[19; 29) 10 24 10
[29;39) 15 34 25
[39;49) 15 44 40
[49; 59) 30 54 70
[59; 69) 30 64 100
[69; 79) 20 74 120
120
a) Calcule la edad promedio.
b) Compárelo con el valor mediano de la edad.
MEDIDAS DE POSICIÓN. CUANTILES: CUARTILES; DECILES y PERCENTILES.

Para caracterizar un conjunto de datos estudiaremos otras medidas que nos ayudan a
caracterizarlos, no siempre basta caracterizar una distribución solamente por sus
valores de centro.
Así la mediana ocupa siempre la posición central donde el 50% de los datos están a su
izquierda y el otro 50% de los datos a su derecha. Independientemente del número de
datos que estemos analizando.
De manera similar a lo que ocurre con la mediana, que divide al conjunto de datos en
dos partes iguales, ocasionalmente se hace necesario señalar otros valores en la
distribución.
Medidas de posición relativa (Cuantiles):
En una serie de datos ordenados, se denomina:

• Cuartiles: Al conjunto de valores que dividen ese conjunto en cuatro partes
iguales Para dividir el recorrido de una variable en cuatro partes, iguales
necesitamos tres valores Q1; Q2 y Q3; estos valores son denominados primera,
segunda y tercera cuartila. El valor del cuartil Q2 es igual a la mediana.
• Deciles: Del mismo modo los valores que dividen el conjunto de datos en diez
partes iguales, se llaman deciles o decilas, para dividir el recorrido de una
variable en diez partes iguales, necesitamos nueve valores: D1 ;D2 ;D3;D4;...D9. La
quinta decila corresponde con la mediana.
• Percentiles: Se llaman así a los valores que dividen al conjunto de valores (serie
de datos) en cien partes iguales. El percentil indica, una vez ordenados los datos
de menor a mayor, el valor de la variable por debajo del cual se encuentra un
porcentaje dado de observaciones.
Percentiles (Después de ordenados los datos, se divide el recorrido de la variable
en cien partes iguales, necesitamos 99 valores para lograrlo: P 1; P2; P3; … hasta
P99). El primer percentil, P1, es el valor que tiene por debajo el 1% de los datos
ordenados; el segundo percentil, P2, es el valor que tiene por debajo el 2% de los
datos ordenados y así sucesivamente.
El percentil 50 corresponde a la mediana.
Los percentiles 25 y 75 corresponden a la primera y tercera cuartilas
respectivamente.
Así, por ejemplo, el percentil 25 es el valor debajo del cual se encuentran el 25% de las
observaciones.
Para determinar el percentil, la toma de valores es del 1 al 99. El de la muestra son
valores menores que él y el restante son mayores.
El percentil 25 (P25) representa el 1er cuartil (Q1)
El percentil 50 (P50) es la Mediana (Md) o 2do cuartil (Q2)
El percentil 75 (P75) representa el 3er cuartil (Q3)
Después de ordenar los datos de menor a mayor, debemos localizar la posición del
cuantil (cuartil, decil o percentil deseado) para ello se calcula el por ciento de los
datos que se encuentran a la izquierda de dicho cuantil si el valor obtenido como
resultado del cálculo no es entero, se aproxima al entero inmediato superior que
coincide con esa condición del cuantil calculado. Si este número es entero se toma
el promedio de las observaciones del lugar que ocupa este entero y el entero
siguiente, de manera similar a lo que se realiza con la mediana.
Observa que Q3– Q1 = P75– P25 (Agrupa el 50% de la muestra)

Ejercicio 13:
Dado el histograma que representa un conjunto del peso de veinte personas:
Calcula: a) El peso medio
b)La moda
c)La mediana
d)El valor del 1er y tercer cuartil
Primero: Ordenando los datos queda así:
1er cuartil= 60
2do cuartil= =65
3er cuartil= 70
Ya hemos estudiado en la Parte 1 que para el cálculo de la mediana, será necesario

aplicar la siguiente expresión:
Donde:
N= número total de casos.
L= límite inferior de la clase (o intervalo) de la mediana.
f=frecuencia de la clase de la mediana.

f a= frecuencia acumulada en la clase (intervalo) inmediata anterior a la clase (intervalo) de

la mediana.
i= diferencia entre los límites de la clase (intervalo) de la mediana.
Podremos generalizar esta fórmula para el cálculo de los percentil, deciles y cuartiles.
Li= Límite inferior de la clase ω = Tamaño de la clase
Fr ANT =Frec. acumulada anterior Fr α=Frecuencia de clase

Los percentiles dividen el conjunto de datos ordenados de forma semejante a como lo
hace la mediana. Por ejemplo el percentil P0, 10 , divide al conjunto en dos partes, un
10% son valores inferiores a él y un 90% son superiores a él. El P0, 20 divide a la serie
en dos partes, un 20% son inferiores a él y un 80% son mayores.
Ejercicio 14:
A continuación se muestra una Tabla que registra los 815 pacientes atendidos en la
consulta de emergencia de un hospital por accidentes de tránsito
Edades f i fr f AC FR Xi Calcular P10; P20 y P30

(0;8] 61 0,075 61 0,074847 4
(8;16] 71 0,087 132 0,161963 12
(16;24] 264 0,324 335 0,411135 20
(24;32] 54 0,066 450 0,552147 28
, ,
(32;40] 83 0,102 533 0,653988 36 P 0,10= 8+ 8 ● =10,7
,
(40;48] 83 0,102 616 0,755828 44
(48;56] 72 0,088 688 0,844172 52 , ,
P 0,25= 16+ 8 ● =18,25
,
(56;64] 48 0,059 736 0,903067 60
(64;72] 45 0,055 781 0,958282 68
(72;80] 34 0,042 815 76 , ,
1,00 P 0,75= 48 + 8 ● =48
,
815 1,00
Estos son los cálculos de P0, 10; P0, 25 y P0, 75 utilizando la fórmula con los datos
completos obtendremos P0, 10=10, 6; P0, 25=18,63 y P 0,75= 46,75 años
Percentiles en una Distribución normal.
MEDIDAS DE FORMA Asimetría

En distribuciones unimodales, la asimetría es una medida que nos permitirá saber hacia
dónde se agrupan los valores, pues lo que esperaríamos es que la mayor parte de los
valores se encuentren en el centro y en los extremos se encuentre valores en menor
cantidad, es por esto que si hay más valores agrupados a la izquierda se denomina
asimetría positiva, mientras que si están agrupados a la derecha la asimetría será
negativa, tal como se observa en la figura más abajo.
POSICIONES RELATIVAS DE LA MEDIA, LA MEDIANA Y LA MODA EN FUNCIÓN DE

LA ASIMETRÍA DE LAS DISTRIBUCIONES.
Tipos de asimetría
Existen algunas relaciones entre las diversas medidas de posición:

1) Para una distribución simétrica y unimodal, media= mediana= moda
2) Para una distribución positivamente asimétrica media > mediana > moda. La
distancia entre la mediana y la media está cercana a un tercio de la distancia entre la
moda y la media.
3) Para una distribución negativamente asimétrica, media < mediana < moda. La
distancia entre la mediana y la media está cercana a un tercio de la distancia entre la
moda y la media.
CENTRO Y SIMETRÍA:
Distribución de datos simétrica x= Md Distribución de datos sesgada a la derecha x >
Md Distribución de datos sesgada a la izquierda x < Md
La Asimetría.
Es una estadística necesaria para conocer cuánto se parece nuestra distribución a una
distribución teórica llamada “curva normal” y constituye un indicador del lado de la curva
donde se agrupan las frecuencias. Si es cero (asimetría = 0), la curva de distribución es
simétrica. Cuando es positiva quiere decir que hay valores agrupados hacia la izquierda
de la curva, por debajo de la media. Cuando es negativa significa que los valores
tienden a agruparse hacia la derecha de la curva, por encima de la media.
Ejercicio 15: En un grupo de estudiantes de la carrera de enfermería, se observó la

estatura de 16 alumnos y se obtuvieron los siguientes datos:
1,57;1,64;1,66;1,52;1,52;1,58;1,74;1,64;1,79;1,66;1,60; 1,53;1,58;1,53;1,64;1,76
Se quieren obtener los cuartiles Q 1; Q 2 y Q 3
Procedimiento:
1- Ordenar ascendentemente la serie (el conjunto de datos):
2- Para obtener los tres valores numéricos que dividen a la muestra ordenada en
cuatro partes iguales.
3- Los tres cuartiles, se denotan por Q1; Q 2 y Q 3
4- Primer cuartil, es un valor tal que 25% de las observaciones son menores y 75%
son mayores Q 1=XN+1/4 ( el subíndice indica la posición del dato), de donde
Q 1=X16+1/4= (153+157)/2= 155
El 25% de los estudiantes miden menos de 1.55 m y el otro 75% mide más
5- Segundo cuartil, es un valor tal que 50% de las observaciones son menores y el
otro 50% son mayores Q 2=X2( 16+1) /4 ( el subíndice indica la posición del dato),
de donde Q 2=X2(16+1) /4= (160+164)/2= 162
Este es el valor de la mediana de estos datos
6- Tercer cuartil, es un valor tal que 75% de las observaciones son menores y el
otro 25% son mayores Q 3=X3(16+1) /4 ( el subíndice indica la posición del dato),
de donde Q 3=X3(16+1) /4= (166+166)/2= 166
Ejercicio 16:
Con el objetivo de estudiar la eficacia de un régimen alimentario para tratamiento de
diabetes fueron recogidas 12 muestras de sangre en diabéticos y analizada la cantidad de
azúcar. Datos de glucosa de muestras sanguíneas (mg/100ml)
187.45 187.57 187.37 187.49 187.58 187.37
187.46 187.62 187.47 187.53 187.39 187.46
Ejercicio 17:
Los datos referentes al número de dientes cariados, perdidos u obturados en una muestra
de 20 personas tratadas en una clínica dentaria están presentados en la tabla a
continuación. (). Se pide:
Dientes cariados, perdidos u obturados 6 4 1 0 2 3 0 5 0 4 0 4 6 1 3 5 8 3 2 7
Primero y el tercer cuartil. Interprete los resultados.
Respuesta: Q1= 1 (25% del total tiene 0 ó 1 carie); Q3= 3
Ejercicio 18: Considerando 12 observaciones (ordenadas) del tiempo en días de ingreso de

accidentados en el trabajo en un hospital: 1, 4, 7, 9, 10, 13, 15, 17, 17, 18, 19, 21.
Determine los cuartiles e intérprete estos valores.
Ejercicio 19: Considere los siguientes resultados relativos a tres distribuciones de
frecuencia y determinar el tipo de asimetría de cada una de ellas:
Distribuciones Mo
A 52 52
B 45 50
C 48 46
Ejercicio 20: Dado el conjunto de datos 5; 4; 15; 8; 3; 11; 4; 2.
a) Hallar la media y la mediana de estos datos.
b) Calcula la desviación estándar de este conjunto de valores.
c) Indique el primero, segundo y tercer cuartil.
Solución:
Ordenar el conjunto
De este modo queda identificado el 1ero. 2do y 3er cuartil para este conjunto o serie de
datos.
Ejercicio 21:
La fibrosis quística es una enfermedad que provoca la acumulación de moco espeso y

pegajoso en los pulmones, el tubo digestivo y otras áreas del cuerpo. Es uno de los tipos de
enfermedad pulmonar crónica más común en niños y adultos jóvenes. Es una enfermedad
potencialmente mortal. La siguiente tabla muestra las edades y los datos de evaluación de
fuerza muscular inspiratoria (PI máx) de 25 pacientes con Fibrosis quística.
a) Para los datos de la función pulmonar de los 25 pacientes con fibrosis quística. Calcule el
valor de la mediana.
b) Calcula el primero, segundo y tercer cuartil.
c) Halla los percentil P10; P20 y P30
La Curtosis.
La curtosis es un indicador de lo plano o puntiaguda que es una curva. Cuando es cero,
curtosis = 0, significa que se trata de una curva Normal. Si es positiva, quiere decir que
la curva o distribución o polígono es más puntiaguda o levantada. Si es negativa quiere
decir que es más plana.
Asimetría
En distribuciones unimodales, la asimetría es una medida que nos permitirá saber hacia
dónde se agrupan los valores, si es una distribución normal, lo que tendremos que la
mayor parte de los valores se encuentren en el centro y en los extremos se encuentre
valores en menor cantidad. Pero si tenemos que hay más valores agrupados a la
izquierda se denomina asimetría positiva, mientras que si la mayor parte de los valores,
están agrupados a la derecha la asimetría será negativa, tal como se observa en la
figura de la página anterior.
PERCENTILES, DECILES Y CUARTILES
Si intentamos contestar la siguiente pregunta: ¿qué proporción de los valores de una
variable es menor o igual a un valor dado? ¿O proporción es mayor o igual a un dado
valor? ¿O entre dos valores?"
Cuando construimos una distribución de frecuencia acumulada, tales cuestiones
solamente pueden ser contestadas con relación a los límites de clase exactos.
Así diremos que el percentil x, es el valor de la variable que es mayor de lo que x % de
las observaciones. En otras palabras, el percentil x es el valor de la variable
correspondiente al valor de frecuencia relativa acumulada de x %
Para el cálculo del valor exacto del percentil x para datos agrupados se utiliza el mismo
método para la determinación de la mediana para un conjunto de datos ordenados, es
decir, la interpolación lineal.
El primer decil es el valor de la variable que supera un décimo (o en un 10 %) del total
de las observaciones. Si tenemos 200 observaciones, el segundo decil será
aproximadamente la observación de puesto 40.
El primer cuartil es el valor de la variable cuya frecuencia relativa acumulada es 0,25 (o
25 %). El tercer cuartil es el valor de la variable cuya frecuencia relativa acumulada es
0,75 (o 75 %). El primer cuartil es mayor de lo que un cuarto de los valores observados
y menor de lo que tres cuartos de estos valores. El tercer cuartil es mayor de lo que tres
cuartos de los valores observados y menor de lo que un cuarto de estos valores. El
segundo cuartil se coincide con la mediana.
Ejercicio 22:
A continuación se muestra la distribución de una muestra de 351 mujeres (adultas)
según su estatura, agrupadas por intervalos de frecuencias 1:
Aplica los cálculos correspondientes para comprobar los resultados de los valores de
los cuartiles, que se muestran en la siguiente Tabla de de mujeres según su estatura
Ejercicio 23:
Supongamos que tenemos 620 observaciones de frecuencia cardiaca en pacientes
portadores de hipertiroidismo.
¿Qué medida podría servirnos para delimitar el 25% de las frecuencias cardíacas
más bajas y que posición ocupará el elemento que separe ese 25% del 75%
restante?
El primer cuartil Q1 es el valor que tiene el 25% de 620 y el 75% a la derecha. Como
el conjunto contiene 620 observaciones.
Si deseáramos el dato del valor que separa el 20% a la izquierda y el 80% a la
derecha tendríamos que calcular el 20% de 620 y el 80% de 620.
En este caso aplicaremos una sencilla regla de 3, donde
155, este valor no es el cuartil que estamos buscando,

sino la posición que ocupa este cuartil en la relación de datos ordenados.
1. Pimentel Bergamaschi, D. ; Pacheco de Souza, J. M. (2013) Curso de
Bioestatística para Salud Pública. Sao Pablo. Brasil
Supongamos que un fragmento de los 620 valores medidos es:
La posición 155 la ocupa el valor 155 y el valor siguiente a él es 118, por lo que
hallamos un promedio y queda calculado el valor 117, este valor será nuestro cuartil
a (Q1), es decir el valor que divide a la serie de manera tal que a su izquierda hay el
25% de las observaciones y a la derecha un 75% de las observaciones es el valor
117.
¿Cuál sería la posición del primer cuartil, si en lugar de 620 fueran 625 observaciones,
manteniendo el fragmento anterior con la misma numeración?
Como 625 es un número impar el 25% de esa cantidad, será un número fraccionario. El
25% de 625 es 156,25 por lo que se aproxima al entero siguiente que es 157, la
posición del cuartil (Q 1)es 157 a esta observación le corresponde el valor de presión
arterial 120
Ejercicio 24:
Los siguientes datos corresponden a los tiempos de reacción de una muestra de 33
pacientes, medidos en centésimas de segundo.
55, 51, 60, 56, 64, 56, 63, 63, 61 57, 62, 50, 49, 70, 72, 54, 48, 53, 58, 66, 68, 45, 74,
65, 58, 61, 62, 59, 64, 57, 63, 52, 67. Para este conjunto de datos:
a) Calcule la media y la mediana
b) Determina el primer y tercer cuartil, a partir de los datos.
Con los datos del ejercicio anterior, se ha construido una tabla agrupados en cinco
intervalos de igual amplitud. Como R= X máx – X mín= 74 – 45 = 29, este número no es
divisible por cinco, luego redondeamos al valor más próximo por exceso, que es 30,
dividiendo entre el número de intervalos que deseamos que son cinco, tendremos que
la amplitud que deben tomar los intervalos es seis.
Ejercicio 25:
Tiempos Nº sujetos f i MC (x i) fi●xi f acum

[45; 51) 4 48 4
[51; 57) 6 324
[57; 63) 11 60 21
[63; 69) 9 594
[69; 75) 3 72 33
Los datos muestran el tiempo de atención (en meses) brindada a un grupo de 48

pacientes (24 mujeres y 24 hombres) en un centro hospitalario A continuación se
presentan los datos ordenados para mujeres y hombres:
Mujeres: 2 2 3 3 4 4 5 5 6 6 7 7 7 7 8 8 8 8 10 10 11 11 12 18
Hombres: 2 2 3 4 4 4 4 7 7 7 8 9 9 10 12 15 15 15 16 18 18 22 22 24
a) Calcule la media, la varianza, la mediana, el coeficiente de variación y la desviación
estándar, para cada sexo por separado. Comente los resultados, comparando
ambos grupos.
b) Repita lo indicado en el ejercicio anterior para los 48 pacientes, sin distinción de
sexo. Compare con los resultados del inciso anterior.
En resumen podemos plantear que las medidas de tendencia central nos informan so-
bre el valor central del conjunto de datos, mientras que las medidas de dispersión nos
indican como varían los datos con respecto a ese valor central.
Bibliografía:
Barón López, F. J. Manual de Bioestadística (2012) Métodos y Aplicaciones. Facultad
de Medicina. Universidad de Málaga.
Brito Rodríguez, J. A.; et. al. (1987) Bioestadística y Computación. Centro de
Cibernética Aplicada a la medicina (CECAM) Universidad de Ciencias médicas de La
Habana.
Chipia Lobo, J.F. (2014) Propuesta de la unidad curricular: Bioestadística, Escuela de
Medicina, Universidad de los Andes. Disponible en:
Colectivo de autores (2004) Laboratorio de Estadística Matemática 1 y 2. Editorial Félix
Varela, La Habana, Cuba.
Danel Ruas, O. O. (2016) Bioestadística para residentes, estudiantes de medicina,
enfermería y ciencias de salud. Disponible en:
Díaz Reissner, C. (2016) Fundamentos para la aplicación de Bioestadística en Odontología
(Parte 2) Disponible en Rev. Salud Pública Paraguay. Vol. 5 Nº 2; Julio-Diciembre 2015
Gómez, G.; Martín Andrés, A. (2010) Mesa redonda: La Estadística en la Investigación
Médica.Universidad de Granada. Disponible en
Kari Bjornard, M.D.(2015) Biostatistics and Evidence-Based Medicine. Disponible en
ClinicalKey. Bajado desde Infomed julio 07, 2016.
Oliva González, L.; et. al. Libro de ejercicios de Bioestadística. Centro de Cibernética
Aplicada a la medicina (CECAM) Universidad de Ciencias médicas de La Habana.
Pateiro López, B. (2012) Bioestadística. Grado en Medicina. Universidad de Málaga.
Pérez Atanasio, J.M. (2015) Principios de Bioestadística para comprender los resultados
Pimentel Bergamaschi, D.; Pacheco de Souza, J. M. (2013) Curso de Bioestadística
para Salud Pública. Sao Pablo. Brasil
Román Bravo, R.M. (2015) Importancia de la Bioestadística como herramienta en la
Spiegel, M.R. (1987). Teoría y problemas de Estadística. Editorial Poligráfico “Juan
Marinello”, Santiago de Cuba.

Capítulo 3: Indicadores para resumir datos cualitativos
En la Parte 1 vimos las medidas de tendencia central, estas nos informan sobre
el valor central de un conjunto de datos: la media, la mediana, la moda.
Posteriormente en la Parte 2 nos acercamos al estudio de las medidas de
dispersión: la desviación media o estándar, varianza, coeficiente de variación y las
medidas de posición: cuantiles: cuartiles; deciles y percentiles, entre otras: las
razones, índices, proporciones, porcentajes, tasas, todas de muy fácil cálculo e
interpretación.
Ahora estudiaremos algunas medidas para resumir datos correspondientes a
variables cualitativas que son de muy simple cálculo y permiten caracterizar el
comportamiento de variables a las cuales no es posible calcularles las medidas de
resumen analizadas hasta el momento.
De manera general los indicadores de resumen para variables cualitativas
relacionan las frecuencias absolutas con otros valores. Estas relaciones aportan
importante información que contribuyen a la caracterización resumida del
comportamiento de las variables cualitativas en estudio. Los indicadores de
resumen para variables cualitativas, constituyen herramientas muy útiles para el
personal de salud en la descripción, evaluación y conducta a seguir en cuanto a los
problemas de salud de la comunidad y se usan como indicadores de salud.
Los conocimientos de Estadística le proporcionan al personal de salud una buena
capacidad de razonamiento y de criterio tanto en la aplicación del conocimiento al
análisis e interpretación de los datos y signos clínicos, como en la definición de la
naturaleza de los problemas y la planificación y la ejecución de una estrategia para
resolverlo, y, por otra parte ,una comprensión de la contribución de la metodología
de la investigación y una aptitud para interpretar y aplicar la investigación de otros
en su labor diaria.
Medidas para resumir datos cualitativos.
Palabras clave: Razón, Índice, Proporción, Tasa, Riesgo Relativo, Odd Ratio.
Razón Donde a y b números cualesquiera
Ejemplo 5000 individuos de los cuales 100 tienen enfermedades razón de

individuos enfermos= (1000/5000)*100 = 20%
Proporción Relaciona la frecuencia absoluta de individuos que pertenecen a una

determinada categoría dada de una variable dada y el total de individuos donde se
está considerando dicha variable
P a: característica que se quiere medir y n= número total de individuos
Ejemplo en una población de 5000 personas, hay 1000 que padecen de cierta
enfermedad y 4000 individuos son sanos.
La proporción de enfermos = 1000/5000=1/5
Donde 1 de cada 5 habitantes, está enfermo.
% ●100
Porcentajes de enfermos= 1/5*100= 20%
Porcentaje de sanos= 4/5*100= 80%
• Las variables cualitativas se resumen mediante frecuencias relativas (razones, índices,

proporciones, porcentajes, tasas, entre otras).
• La importancia de las frecuencias relativas radica en que mediante ellas pueden ponerse
de manifiesto las relaciones que existen entre dos o más cifras de los datos que se
estudian, facilitando la comparación de los diferentes resultados.
Relaciona el a Por ejemplo: Índice de

número de Razón= Razón de masculinidad
b
observaciones en Masculinidad
Índice= 178
una categoría a Razón H/M = 178 416
con el número de Índice= x100 416 =0,427x100
observaciones en
b
=0,427 Índice=42,7 % Hay 43
la otra categoría. Hay 0,4 hombres hombres
por c/mujer Por cada 100 mujeres.
Ejemplos de Índices
Índice enfermeros(as)/Camas de un hospital Índice médicos(as)/Camas de un hospital
Índice E/C= Número de enferme@s x100 Índice M/C= Número de médic@s x100
Número de camas Número de camas
Proporción Relaciona el Cuando la serie que se estudia consta

número de sólo de dos categorías puede usarse
observaciones de según las preferencias una razón o una
a una categoría con proporción. Si la serie consta de tres o
p= el total del grupo.más categorías no hay una forma única
a+b de calcular una razón y en ese caso es
0 ≤ proporción ≤ 1 preferible utilizar las proporciones.
Sexo Número de casos Proporción
Masculino 178 178 594 = 0,2996 ≈ 0,30
Femenino 416 416 594 = 0,7006 ≈ 0,70
Total 594 1
Porcentaje: Ventajas:
Es la proporción 1. Permiten comparar

multiplicada por cien. fácilmente 2 ó más series
a cuyos totales son
p= x100 diferentes, pues estos
a+b Entonces quedan convenientemente
reducidos a 100.
0 ≤ porcentaje ≤ 100 2. A través de los porcentajes
se puede resumir la
probabilidad de ocurrencia
de un hecho.
Sexo Número de casos Proporción

Masculino 178 178 594 = 0,29966 ≈ 0,30 x100=30%
Femenino 416 416 594 = 0,7006 ≈ 0,70 x100=70%
Total 594 100%
Tasa es la relación del Nº de veces que ocurrió determinado fenómeno/ Población
en la cual puede ocurrir ese fenómeno. Esta tasa siempre es un número 0< Tasa <
1 por lo que se multiplica por una potencia de 10 (La Tasa se expresa 100, 1000,
n
10 000 y 100 000) para 10 .
La Tasa se interpreta como el Riesgo que tiene un individuo del denominador de

que le ocurra el fenómeno o evento del numerador.
Las tasas pueden ser Generales o Específicas. Las primeras también se

denominan globales, brutas o totales, se calculan respecto a la población total, sin
tomar en cuenta ninguna otra causa, razón o característica de la población. Se
refieren a toda la población o todas las causas. Por ejemplo la Tasa de mortalidad
bruta que expresa el riesgo que tienen los individuos de una población
determinada de morir por cualquier causa en un período de tiempo determinado.
Las tasas específicas son aquellas que refieren solo a una parte de la población o
a una determinada causa. Por ejemplo: la Tasa de mortalidad infantil que solo se
refiere a la mortalidad en el primer año de vida.
Numerador y Denominador deben
concordar en cuanto a lugar, tiempo y
No. de eventos
Tasa = x10n naturaleza del fenómeno estudiado.
Población expuesta
• Es una medida del riesgo de que ocurra un determinado evento en una

población dada.
• Una tasa es simplemente un cociente. El numerador indica el número de
veces que ocurrió determinado fenómeno en un área perfectamente limitada
y en un período de tiempo perfectamente definido. El denominador indica el
número de habitantes de la población en la que ocurrió el fenómeno descrito
en el numerador en ese período de tiempo
• Como el numerador de las tasas nunca podrá ser mayor que su
denominador, el resultado será menor que la unidad, y para evitar el uso de
decimales, los resultados se multiplican por 100, 1000, 10000, etc.
• Las tasas pueden calcularse para toda una población (tasas crudas) o
separadamente para algunos de sus segmentos (tasas específicas) Ejemplo:
grupos de edades, sexo, entre otras.
• Las Tasas más utilizadas en las ciencias médicas son las tasas de natalidad,
mortalidad y morbilidad. A todas ellas nos dedicaremos con más detalles en
el próximo Capítulo.
Medidas de asociación: Riesgo relativo y razón de productos cruzados:
El Riesgo se calcula mediante una proporción:

Nº de individuos que desarrollan una enfermedad
Riesgo =
Nº de individuos que podrían desarrollar esa enfermedad
Nº de veces que ocurrió un suceso
Riesgo =
Nº de veces que pudo haber ocurrido ese proceso
(a) Inicio de un período
(b) en un período de tiempo
Existen estudios en los que interesa hacer comparaciones entre un grupo de

individuos expuestos a algún factor y otro grupo de individuos no expuestos, se
desea analizar si ese factor tiene alguna incidencia sobre la aparición de alguna
enfermedad específica.
Para establecer la comparación se requiere una medida del incremento del riesgo -
si lo hay - de contraer la enfermedad en particular en el grupo expuesto con
respecto al que no está expuesto. Para ello se emplea el Riesgo Relativo (RR)
RR= Tasa de incidencia en el grupo expuesto/Tasa de incidencia en el grupo no
expuesto.
Expresa cuanto mayor hacia el daño tiene el grupo donde está presente el factor
con relación al grupo que no está expuesto.
RIESGO RELATIVO
Tasa de incidencia en el grupo expuesto

Riesgo Relativo (RR)=
Tasa de incidencia en el grupo no expuesto
Comparación de riesgos y riesgo relativo
• El riesgo es una cuantificación del grado de certeza de algún evento,
generalmente un factor negativo o nocivo para la salud. Por tanto,
puede ser visto como una probabilidad.
• En determinadas situaciones el interés está en comparar el riesgo de
acontecer algún evento en dos grupos independientes.
• En estudios prospectivos, grupos de individuos con características
diferentes son acompañados para estudiar la ocurrencia de un
resultado particular.
• En estos ensayos es fácil calcular la proporción de individuos con la
característica de interés en cada grupo, y la razón de estas dos
proporciones es una medida comparativa de los riesgos de un grupo
contra el otro. Esta razón es conocida como riesgo relativo.
Factor de riesgo es una conducta o condición que contribuye al incremento de las

posibilidades de ocurrencia de un daño determinado en la población que
manifiesta esa conducta o que posee esa condición.
Ejemplo 1:
Grupo 1 Grupo 2 Total
Presencia Si a b a+b
No presencia No c d c+d
Total a+c b+d n
RR Grupo 1 = 0,345
• De este modo un valor de RR =1 significaría que el riesgo en ambos
grupos es igual.
Ejercicio 1: Determinar el RR que presentan los pacientes que se muestran en la
siguiente Tabla de presentar enfermedades coronarias.
Hábito de fumar Enfermedades coronarias Total RR
Enfermos No enfermos
Fumador 84 2916 3000 28 x 1000
No fumador 87 4913 5000 17,7 x 1000
Totales 171 7829 8000
Interpretación del Riesgo Relativo:
Si RR=1 No existe asociación entre el factor de riego y el daño, lo que significa que la
incidencia en el grupo de expuestos es igual a la incidencia en el grupo de no
expuestos, por lo que no se observa asociación entre la exposición y la enfermedad.
De este modo un valor de RR =1 significaría que el riesgo en ambos grupos es el
mismo.
Cuando RR>1 La incidencia en el grupo de expuestos es mayor que la incidencia en
el grupo de no expuestos, Significa que el factor de riesgo aumenta la posibilidad de
contraer la enfermedad o daño, o lo que es lo mismo, se observa una asociación
positiva o directa entre la exposición y la enfermedad.
Cuando RR<1 La incidencia en el grupo de expuestos es menor que la incidencia en
el grupo de no expuestos se observa asociación “negativa” o “inversa” entre la
exposición y la enfermedad. Disminuye el riesgo de aparición del daño, se trata de un
factor de protección.
En el ejemplo el riesgo de contraer alguna enfermedad coronaria en los fumadores
es 1.63, interpretando esto el Riesgo de contraer una enfermedad coronaria en los
fumadores es 1.63 veces mayor que en los no fumadores.
El Riesgo Relativo puede determinarse fácilmente en los estudios donde se conocen
las poblaciones expuestas y no expuestas y se pueden calcular las tasas para cada
grupo, cuando no contamos con esta posibilidad, entonces debemos emplear la
razón de productos cruzados conocida también como Odd ratio.
El Odds ratio o ventaja del éxito de un suceso se define como el cociente p/q, donde
p es la proporción en que ocurre un eso y q= 1 – p (proporción en que no corre).
La medida de fuerza de asociación es la desigualdad relativa (Odds ratio) llamada
también razón de disparidad o cociente de suertes. Indica cuantas veces más hay
probabilidad de que el factor de exposición esté presente en los casos comparados
con los controles. Es una medida indirecta del riesgo relativo y puede ser igual, mayor
o menor que la unidad.
Interpretación del Odd Ratio.
OR=1, significa que el factor estudiado se considera carente de influencia

sobre el desarrollo de la enfermedad.
OR>1, significa que el factor estudiado es considerado de riesgo.
OR<1, factor estudiado considerado protector del proceso del proceso que
se investiga.
Ejercicio 2: Tomaban No tomaban Entonces

píldoras píldoras
a•d
OR=
Con a 90 c 10 b•c
enfermedad
Sin b 45 d 55
enfermedad
Determina la Razón de productos cruzados OR y el RR
Razón de productos cruzados= (90 • 55) / (45 • 10) = 11
Calculando el Riego relativo:

a • d 84 • 4913 412692
OR = = = = 1,63
b • c 87 • 2916 253692
Ejercicio 3: Un investigador realizó un estudio sobre el hábito de fumar. La
siguiente Tabla muestra los datos proporcionados por familiares de los individuos
en estudio, sobre el hábito de fumar.
Respuesta por el individuo en estudio
Respuesta del familiar Fuma No fuma Total
Fuma 587 76 663
No Fuma 77 1213 1290
Totales 664 1289 1953
Esto condujo una investigación de casos y controles, sobre cáncer de pulmón y
hábito de fumar, con respuestas dadas por los familiares. Los criterios dados por los
pacientes se muestran en la siguiente tabla.
Casos enfermos Controles

Fumador 135 282
No fumador 65 328

Ejercicio 4: Determina el valor de OR o cociente de productos cruzados de los datos
presentados en la Tabla anterior.
a) A partir de los datos investigación de casos y controles, sobre cáncer de pulmón y
hábito de fumar de la tabla 2 (tabla anterior) comprueba que el valor de Odd
ratio es OR = 2.42.
b) Con los datos de la Tabla 1 método "información dada por el familiar" para
diagnosticar la exposición. Calcula los valores de Sensibilidad y Especificidad.
a • d 135 • 328 44280
OR = = = = 2,42
b • c 65 • 282 18330
Ejercicio 5: Durante 10 años un investigador siguió a 1000 mujeres jóvenes

seleccionadas al azar que tomaban píldoras anticonceptivas y otras 1000 que no
las tomaban
El Riesgo Relativo se calcula independientemente para cada uno de los grupos (las
que tomaban y las que no tomaron las píldoras). De este modo:
Tomaban la píldora
Enfermedad Si (Factor) No(Factor) a
RR = a + b =
0,03
Con (a) 30 (b) 3 = 10
c 0,003
c+d
Sin (c) 970 (d) 997
Total 1000 1000
a 30
= = 0,03 c 3
a + b 1000 = = 0,003
c + d 1000
En este caso es necesario señalar que los totales que se conocen son los de las
columnas, es decir donde está presente o ausente la enfermedad o el daño.
Factor Enfermedad
de riesgo Presente Ausente Totales
Presente a b a+b a•d
OR =
Ausente c d c+d b•c
Totales a+c b+d
Ejercicio 6: Se seleccionaron 100 mujeres con una enfermedad y otras 100

mujeres sin la enfermedad y de ella se vio ¿cuántas tomaban la píldora y cuántas
no la tomaban?
Factor de riesgo ¿Tomaban píldoras?
Si tomaban No tomaban
Con enfermedad a 90 c 10 a • d 90 • 55 110
OR = = = = 11
Sin enfermedad b 45 d 55 c • b 45 • 10 10
Totales a+c b+d
Aplicando el cálculo de Riesgo relativo:
Desarrollaron la enfermedad = 90 = 9 y No la desarrollaron= 45 = 0,82

10 55
El cociente de ambos números o valor de productos cruzados es = 9

= 11
0,82
Por lo que la razón es similar a la obtenida por el cálculo del Riesgo Relativo, el
grupo que tomó la píldora tiene once veces más el riesgo de desarrollar la
enfermedad.
Una razón de productos cruzados igual a 11 indica que las mujeres que toman las
píldoras son 11 veces mayor den las mujeres con la enfermedad que las otras
mujeres.
En enfermedades poco frecuentes la razón de productos cruzados se aproxima al
valor del Riesgo Relativo.
Ejercicio 7: La siguiente tabla muestra un estudio sobre la influencia que tiene el
uso de estrógenos en mujeres con cáncer de endometrio.
Determina el valor del coeficiente de productos cruzados y explica el significado del
valor obtenido.
Cáncer de endometrio
Presente Ausente Totales a•d
OR =
Uso de Presente 55 19 74 b•c
Estrógenos No 128 164 292 55 • 164
= 3,71
Presente 19 • 128
Totales 183 183 366
Como OR>1 existe asociación (el factor de estudio constituye un posible factor de
riesgo para la enfermedad).
Ejercicio 8: Un estudio transversal para conocer la prevalencia de osteoporosis y

su relación con algunos factores de riesgo potenciales, incluyó a 400 mujeres con
edades entre 50 y 54 años. A cada una se le realizó una densitometría -medición
cuantitativa de los depósitos minerales de los hueso- de columna y en cada caso
se completó un cuestionario de antecedentes.( Las personas que cuentan con una
Densidad mineral ósea significativamente más baja con respecto a otras de similar
sexo y edad son más susceptibles de padecer fracturas)
Para el ejemplo se consideran solo las variables dicotómicas osteoporosis y
antecedentes de dieta pobre en calcio. De las 80 pacientes que presentaban
osteoporosis 58 presentaban antecedentes de dieta pobre en calcio, en tanto que
entre las 320 que no tenían osteoporosis, el número de mujeres con este
antecedente era de 62.
La siguiente Tabla muestra los datos:
a) Determina la fuerza de
Antecedente de dieta pobre
relación entre las variables o
Osteoporosis Sí No Total desigualdad relativa.
Expuestos 58 62 120 b) Diga si el factor analizado
No expuestos 22 258 280 es o no considerado un
Total 80 320 400 factor de riesgo. Argumenta.
Ejercicio 9: Diez años después de comenzado un estudio de seguimiento,
se evaluó el número de casos de hipertensión arterial aparecido en cada
uno de los grupos de pacientes (que realizan o no ejercicios físicos
sistemáticos)sujetos. La siguiente tabla muestra los resultados obtenidos:
Realizan Total
ejercicios
físicos
No Si
Si 20 20 40
HTA No 10 40 50
Total 30 60 60
a) Calcule el Riesgo Relativo padecer de HTA en los pacientes que no

realizan ejercicios físicos con respecto a los que si los realizan. Analiza
el resultado obtenido.
A causa del diseño del estudio, la medida que más adecuada resulta utilizar para
analizar nuestros resultados es el RR dado que es un estudio de cohortes.
Calculamos el RR asociado a nuestros datos:
RR= 20 / (20 + 10) = 20 / 30 = 2

20 / (20 + 40) 20 / 60
En conclusión, un sujeto que no practica ejercicio físico regularmente, tiene dos

veces más probabilidades de desarrollar hipertensión arterial que un sujeto que si
desarrolla ejercicio físico regularmente.
Razones para utilizar Odd ratio:

Aunque la interpretación del Riesgo Relativo (RR) es más intuitivo, existen varias
razones para emplear el Odd ratio:
1. Odd ratio permite ser calculado en cualquier tabla 2x2, no así el RR en
estudios de casos control.
2. Odd ratio permite examinar el efecto que otras variables (sexo, edad, etc.)
pueden causar en esa asociación.
3. Odd no varía aunque cambien el orden de las categorías, no así en el RR.
Ejercicio 10:
En un estudio epidemiológico se evaluó la asociación entre prácticas de la

lactancia materna y enfermedad diarreica aguda (EDA).Los resultados fueron:
CASOS CONTROLES
(EDA) (NO EDA)
LACTANCIA NO 120 20
MATERNA SI 80 180
TOTAL 200 200
NO LACTANCIA (%) 50% 10%
a) Determina la fuerza de asociación o desigualdad relativa entre la enfermedad

diarreica aguda en los niños que no hacen lactancia materna, con respecto a los
que si lactan de sus madres. (Odd ratio)
b) De acuerdo al valor obtenido diga si el factor estudiado es considerado de
Riesgo o no. Justifica de acuerdo a los resultados obtenidos.
Sensibilidad y Especificidad.
Para el diagnóstico de una enfermedad se hace necesario realizar pruebas
específicas, las que definen si un individuo está enfermo o no. Raras veces se
dispone de una prueba diagnóstica cuyos resultados sean perfectos.
Por lo que es necesario definir el grado de eficiencia de una prueba diagnóstica.
Sensibilidad y especificidad:
La eficacia de un Medio Diagnóstico (MD) viene dada fundamentalmente por dos
conceptos de carácter cuantitativo.
Sensibilidad ( α ): es la capacidad que tiene una prueba de identificar como enfermos a

los que realmente lo son.
Especificidad ( β ): Es la capacidad que tiene la prueba de identificar como sanos a los

que efectivamente lo son.
A estos dos conceptos básicos se añaden otros dos también elementales

que evalúan la otra cara de la moneda:
Si un paciente tiene un resultado de un MD que lo declara "positivo", ¿cuál

es la probabilidad de que esté enfermo? Valor predictivo positivo, y su
complemento;
Si un individuo tiene un resultado negativo de cierto MD ¿Cuál es la
probabilidad de que esté realmente no enfermo? Valor predictivo negativo.
Estos cuatro conceptos son los que expresan cuantitativamente la eficacia

absoluta de determinado MD.
Sensibilidad α : Es la capacidad que tiene una prueba de identificar como

enfermos a los que realmente lo son.
Es la probabilidad de clasificar correctamente a un individuo enfermo, es

decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba
un resultado positivo.
Proporción de enfermos que son bien clasificados, es decir, que resultan

positivos, también se puede definir como el cociente de verdaderos positivos
entre la suma de verdaderos positivos más falsos negativos. Especificidad β :
Es la capacidad del test o de la prueba de identificar como sanos a los que
efectivamente lo son. Proporción de sanos bien clasificados, es decir, que
resultan negativos, también se puede definir como el cociente de verdaderos
negativos y la suma de verdaderos negativos y falsos positivos.
Situaciones posibles de la prueba diagnóstica vs la enfermedad:

P Enfermedad La sensibilidad (S) o tasa de verdaderos
R Presente Ausente positivos (TVP) es la capacidad de
U Positiva Verdadero Falso detectar a los enfermos (proporción de
E positiva a Positivo b individuos con la enfermedad que
B presentan un Resultado positivo).El
A Negativa Falso Verdadero complemento de la sensibilidad es la tasa
Negativo c Negativo d de falsos Negativos TFN
Ejercicio 11: Se analizaron 5000 personas, de estas 4 000 personas no presentaron la

enfermedad, 3600 fueron bien clasificadas y de las 1000 que si la presentaban, 950
fueron bien clasificados. En la siguiente tabla se presentan los resultados:
Personas Positivos Negativos Total
Enfermos 950 50 1000
Sanos 400 3600 4000
Total 1350 3650 5000

Sensibilidad α = 950 1000 = 0,95
Especificidad β = 3600 4000 = 0,90

Para la interpretación correcta de los resultados de esta prueba hay que utilizar
también los llamados valores predictivos que son la proporción de los pacientes
positivos que tienen la enfermedad y la proporción de pacientes negativos que no
tienen la enfermedad. En caso de que se estuviera en presencia de una enfermedad
con frecuencia baja pudiera suceder que la Sensibilidad y la Especificidad fueran altas,
sin embargo no sucedería así con los valores predictivos, por lo que siempre es
conveniente para la mejor interpretación calcular también esos valores.
Ejercicio 12: Al final de un período de seguimiento a los pacientes de la población

anterior, presentaron hepatitis 75 individuos del grupo de los transfundidos y 16 del
grupo de los no transfundidos. Los datos se resumen en la siguiente tabla:
Transfundidos No transfundidos Total
Hepatitis 75 16 91
Sin hepatitis 520 696 1216
Total 595 712 1307
a) Determina el valor del riesgo relativo RR e interpreta su significado.

b) Calcula el valor de la fuerza de asociación (OR) e interpreta su
significado.
Solución: Transfundidos No transfundidos Total
Hepatitis a 75 b 16 a + b 91
Sin hepatitis c 520 d 696 c + d 1216
Total a + c 595 b+d 712 1307
a y
RR = a + c =
75 595
= 5,62 a • d 75 • 696
b 16 / 712 OR= = = 6,27
b+d b • c 16 • 520
Ejercicio 13: Para los datos de la siguiente tabla calcular α yβ
P Enfermedad
R Si No VP 587 587
Sensibilidad = = = = 0.88(α )
U + 587 1213 VP + FN 587 + 77 664
E – 77 76 VN 1213 1213
B Sub Especificidad = = = = 0.94(β)
VP+FN VN+FP VN + FP 1213 + 76 1286
A total
Valor predictivo positivo:
Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el
test. El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de
pacientes con un resultado positivo en la prueba que finalmente resultaron estar
enfermos:
VP
Valor predictivo positivo(VPP) =
VP + FP
Valor predictivo negativo:
Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté
realmente sano. Se estima dividiendo el número de verdaderos negativos entre el total
de pacientes con un resultado negativo en la prueba:
VN
Valor predictivo negativo(VPN) =
VN + FN
Como ejemplo de lo visto hasta ahora, consideremos los datos de un estudio en el que
se incluyó a 2.641 pacientes con sospecha de cáncer prostático que acudieron a una
consulta de Urología durante un periodo de tiempo determinado. Durante su
exploración, se recogió el resultado del tacto rectal realizado a cada uno de estos
pacientes, según fuese éste normal o anormal, y se contrastó con el posterior
diagnóstico obtenido de la biopsia prostática. Los datos del estudio y los resultados
obtenidos se muestran en la tabla que se muestra a continuación. Se encontraron en
total 1.121 casos de cáncer, lo cual representa un 42,45% del total de sujetos
estudiados. Evidentemente esto indica la necesidad de utilizar otros marcadores más
sensibles, como el PSA o sus derivados, para poder establecer el diagnóstico de forma
más precisa.
Ejercicio 14: La siguiente Tabla muestra los valores de un Test de VIH en una
población de baja prevalencia de VIH:
Resultado del Verdadero Diagnóstico
Test aplicado VIH + VIH – Total
Positivo 5.970 13.970 19.940
Negativo 30 2.780.030 2.780.060
Total 6.000 2.794.000 2.800.000
Calcular los valores de Sensibilidad, especificidad, VPP y VPN para
los valores que se muestran en los resultados de este estudio.
Ejercicio 15: Hacer los mismos cálculos para la siguiente población de nivel de
prevalencia alta:
Resultado del Verdadero Diagnóstico
Test aplicado VIH + VIH – Total
Positivo 796.000 10.000 806 000
Negativo 4.000 1.990.000 1 994 000
Total 800 000 2 000 000 2 800 000
Calcular los valores de Sensibilidad, especificidad, VPP y VPN para los valores
que se muestran en los resultados de este estudio.
Ejercicio 16: En una exploración de biopsia protática de una muestra de pacientes con
sospecha de cáncer de próstata, se muestran los resultados en la Tabla:
Resultado del Resultado de la biopsia prostática
tacto rectal Cáncer Patología benigna Total
Anormal 634 269 903
Normal 487 1251 1738
Total 1121 1520 2641
Calcular los valores de Sensibilidad, especificidad, VPP y VPN para los valores que
se muestran en los resultados de este estudio:.
VP 634 634
Sensibilidad (α) = = = = 0,5656
VP + FN 634 + 487 1121
VN 1251 1251
Especificidad (β) = = = = 0,8230
VN + FP 1251 + 269 1520
VP 634 634
Valor predictivo positivo(VPP) = = = = 70,21%
VP + FP 634 + 269 903
VN 1251 1251
Valor predictivo negativo(VPN) = = = = 71,98%
VN + FN 1251 + 487 1738
Para el diagnóstico del VIH se emplean test que han confirmado tener una alta validez,
con valores aproximados de sensibilidad y especificidad elevados.
Bibliografía:
Barón López, F. J. Manual de Bioestadística (2012) Métodos y Aplicaciones.
Facultad de Medicina. Universidad de Málaga.
Chipia Lobo, J.F. (2014) Propuesta de la unidad curricular: Bioestadística, Escuela de
Medicina, Universidad de los Andes. Disponible en:
Colectivo de autores. Video clases para la carrera de Medicina. Universidad de
Ciencias Médicas de La Habana.
Danel Ruas, O. O. (2016) Bioestadística para residentes, estudiantes de medicina,
enfermería y ciencias de salud. Disponible en:
Díaz Reissner, C. (2016) Fundamentos para la aplicación de Bioestadística en
Odontología (Parte 2) Disponible en Rev. Salud Pública Paraguay. Vol. 5 Nº 2; Julio-
Diciembre 2015 https://www.researchgate.net/publication/303720777
Gómez, G.; Martín Andrés, A. (2010) Mesa redonda: La Estadística en la Investigación
Médica. Universidad de Granada. Disponible en
Kari Bjornard, M.D.(2015) Biostatistics and Evidence-Based Medicine. Disponible en
ClinicalKey. Bajado desde Infomed julio 07, 2016.
Oliva González, L.; et. al. Libro de ejercicios de Bioestadística. Centro de
Cibernética Aplicada a la medicina (CECAM) Universidad de Ciencias médicas de La
Habana.
Pateiro López, B. (2012) Bioestadística. Grado en Medicina. Universidad de Málaga.
Pérez Atanasio, J.M. (2015) Principios de Bioestadística para comprender los resultados
Pimentel Bergamaschi, D.; Pacheco de Souza, J. M. (2013) Curso de Bioestadística
para Salud Pública. Sao Pablo. Brasil
Pita Fernández, S.; Pértegas Díaz, S. (2003) Pruebas diagnósticas En Investigación:
Pruebas diagnósticas. Hospitalario-Universitario Juan Canalejo. A Coruña. España.
Román Bravo, R.M. (2015) Importancia de la Bioestadística como herramienta en la


Curso Bioestadistica

Cargado por

Copyright:

Formatos disponibles

Curso Bioestadistica

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso Bioestadistica

Cargado por

Copyright:

Formatos disponibles

Manual de Bioestadística para

Octavio Oscar Danel Ruas

Asela Isabel Acosta Valenzuela

Carlos Andrés Santa María Rodríguez

Facultad de Ciencias Médicas Manuel Fajardo

Bioestadística es la ciencia que maneja mediante métodos estadísticos la incertidumbre

La Bioestadística no sólo se centra en medir incertidumbres sino que se ocupa también

La medicina es una ciencia estadística.

La medicina es una ciencia estadística, pues siempre se trabaja con la probabilidad de

La bioestadística y el método epidemiológico aportan más ciencia al arte de la medicina

Lamamos población estadística o universo al conjunto de referencia del que

Llamaremos muestra al subconjunto de la población que utilizaremos para realizar un

La determinación de la población y la magnitud de la muestra, además de la

Recolección de los datos

Cuando abordamos el estudio de un conjunto de datos, antes de introducirnos en

En primera instancia abordaremos unas ideas sobre la manera de presentar

Siguiendo con la misma base de datos de pacientes, si recogemos, el peso de una

Cualitativas Nominales - Dicotómicas o Binarias

- Variables CUALITATIVAS: Representan una cualidad o atributo que clasifica a cada

Pueden ser de dos tipos:

Escalas ordinales: Variables ORDINALES: En las escalas utilizadas para medirlas

Ejercicio 3: ¿Cuál de las siguientes respuestas corresponde a una variable

Ejercicio 4: Al afirmar que los jóvenes de 15 a 20 años fuman entre 2 y 5

Ejercicio5: Relaciona las columnas A y B

Ejercicio 6: Clasifica las siguientes variables según los criterios estudiados:

Tipo de Descripción Escala de Indicadores

Variable Tipo de variable Forma en que será controlada

Ejercicio 10: Se realizó una investigación sobre el Síndrome Metabólico (SM) en

Variable Tipo de variable Forma en que será controlada

Ejercicio 11: Se realizó una investigación para determinar la frecuencia de

En el día de ayer acudieron al servicio de urgencias de un Policlínico universitario ocho

(en metros) (en °C)

LA MEDIA PARA FRECUENCIAS SIMPLES:

por medio de la fórmula En donde: es la media o promedio.

Σf suma de las frecuencias por su

LA MEDIA PARA FRECUENCIAS POR INTERVALOS:

por medio de la fórmula En donde: es la media o promedio.

Σf suma de las frecuencias por su

n Número de datos recolectados.

En este caso tenemos una variable cuantitativa Clase 1ª 2ª 3ª fi

Límite superior de la variable estatura: 174

Límite inferior de la variable: 150

Estatura Xi fi fi●xi fri fi Fri

En un grupo de observaciones arregladas en orden de magnitud, se llama mediana al valor que

Ordene los datos en orden ascendente (de menor a mayor)

a) Si es un número impar de observaciones, la mediana es el valor intermedio.

b) Si se trata de un número par de observaciones, la mediana es el promedio de los dos valores

Así por ejemplo en el ejercicio anterior al considerar la mediana de la Tabla de Se le

i=diferencia entre los límites de la clase (intervalo) de la mediana.

View publication stats

La media de este conjunto de datos es 46 kg

Es decir ambos conjuntos de datos tienen la misma media aritmética.

La varianza poblacional se representa por θ² y la varianza muestral por S², siendo la

La varianza, (S²), se define como la media de las diferencias cuadráticas de "n"

Se pide realizar los cálculos para el segundo grupo de niños

El Coeficiente de variación (CV)

Analicemos el siguiente ejemplo:

Propiedades del Rango:

Para los valores mostrados: