Epidemiologia
Epidemiologia
Epidemiologia
ESTADÍSTICA
MOLUT SOLOREBÁSICA
VELECTORIOS MOLUT
MÁSTER UNIVERSITARIO EN
EPIDEMIOLOGÍA Y SALUD PÚBLICA
Este material es de uso exclusivo para los alumnos
de la Universidad Internacional de Valencia. No
está permitida la reproducción total o parcial de su
contenido ni su tratamiento por cualquier método
por aquellas personas que no acrediten su relación
con la Universidad Internacional de Valencia, sin
autorización expresa de la misma.
Edita
Universidad Internacional de Valencia
Máster Universitario en
Epidemiología y Salud Pública
Estadística básica
4 ECTS
Los términos resaltados a lo largo del contenido en color naranja se recogen en el apartado GLOSARIO.
Índice
1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1. Introducción a la estadística. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Conceptos básicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Fases del proceso estadístico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Tipos de estudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5. La estadística en la investigación epidemiológica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5
Índice
GLOSARIO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
BIBLIOGRAFÍA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6
Objetivos y resumen
Objetivos específicos
• Identificar y seleccionar las fuentes de obtención de datos y depurarlos para su tratamiento
estadístico.
• Analizar los datos mediante la aplicación de métodos y técnicas estadísticas, trabajando con
datos cualitativos y cuantitativos.
• Diferenciar los modelos estadísticos y de investigación operativa más adecuados para cada
contexto y que permitan la toma de decisiones.
7
Introducción
Resumen
En esta unidad se explicará la utilidad de la estadística en la investigación científica. Se desarrollan
conceptos fundamentales como población, muestra, variables estadísticas, escalas de medición, etc.,
todos ellos relacionados con la exposición y análisis de datos estadísticos.
Por último, esta unidad nos introduce en la conversión de escalas ordinales a otras de intervalos
uniformemente distribuidos, según la probabilidad de sus categorías.
8
1. Introducción
Podemos definir la bioestadística como una disciplina científica que se encarga de la aplicación del
análisis estadístico a diferentes cuestiones vinculadas a la biología.
Desde este punto de vista, cada fenómeno observado está determinado por un componente contro-
lado en el experimento, al que denominamos componente determinista, y por un componente sujeto a
la mera incertidumbre o al azar.
Delimitar de la mejor forma posible este componente aleatorio es el objetivo principal de la bioestadística.
9
1. Introducción
Así mismo, atendiendo al punto de vista epidemiológico, se entiende este término como un amplio
colectivo de individuos.
Carácter. Una población posee uno o varios caracteres, entendiendo como carácter una característica
común, como puede ser el sexo, la edad, etc.
Variable. Cada uno de estos caracteres en cada individuo determina una función o aplicación mate-
mática que, desde el punto de vista de la estadística, se denomina variable aleatoria. Definimos estas
variables como aleatorias porque cuando existe incertidumbre, asumen valores diferentes sin que se
pueda saber el motivo de esta variación.
• Cuantitativas o numéricas. Este tipo de variables mide una característica mediante números,
teniendo en cuenta una unidad de referencia. Son ejemplos de variables cuantitativas la edad
medida en años, la presión arterial medida en mmHg, etc.
• Cualitativas. Este tipo de variables no expresa una característica numéricamente, sino que
hace distinciones entre varias categorías. En el caso de las variables cualitativas, tenemos
como ejemplo el sexo si distinguimos entre hombre y mujer, el grupo sanguíneo si distinguimos
entre A, B, AB y 0, etc.
En muchos estudios, la puntuación final en una variable de tipo ordinal se obtiene como la suma
de puntuaciones parciales en diferentes apartados; esta forma de actuación da lugar a lo que se
conoce como “escalas ordinales”. A modo de ejemplo se pueden citar la escala visual analógica
de dolor (EVA), la de actividades de la vida diaria (Barthel), la escala de equilibrio (PBS), etc.
Muestra. El tamaño de una población suele ser demasiado grande para que se pueda realizar un
estudio de esta, por lo que se recurre a la toma de una muestra “n”. Así, la muestra estadística se
puede definir como el subconjunto de los individuos de una población estadística. Estas muestras
presentan las mismas propiedades que el total la población. La letra n suele quedar reservada para
representar el tamaño de muestra.
10
Estadística básica
En las fases primera y tercera, tenemos que recurrir a la aplicación del cálculo de probabilidades, ya
que únicamente partiendo de una muestra aleatoria podemos obtener una extrapolación al total de la
población de la que procede, que en este caso será efectuada en términos probabilísticos.
Una vez visto lo anterior, es importante señalar que existen dos problemas importantes en la aplica-
ción de la estadística.
Por un lado, en una gran parte de los estudios, la población que se analiza es inabarcable o puede no
estar bien definida. Esto provoca que para extraer una muestra que permita traspasar los datos resul-
tantes a la población de la que procede, esta selección deba realizarse de modo aleatorio.
Por otro lado, sobre todo en el caso de las variables de carácter cualitativo u ordinal, el hecho de que
la variable tenga un valor numérico no garantiza que se esté midiendo el parámetro adecuado para el
estudio o que se esté haciendo de forma correcta.
Dentro de la investigación biomédica existe un gran número de bases de datos que proporcionan
una gran cantidad de información muy representativa de la población, lo que puede suponer una
ventaja. Con carácter general, esta información suele proceder de centros hospitalarios o de inves-
tigaciones anteriores en las que se ha utilizado instrumental que permite medir muchas variables
con una gran precisión y objetividad.
11
1. Introducción
Tabla 1. Tabla simplificada de estadística descriptiva. (Fuente: Montanero Fernández, J. y Minuesa Abril, C. [2018].
Estadística básica para Ciencias de la Salud)
• Por una parte, hay que tener en cuenta la relación entre la exposición a un factor y el posible
desarrollo de una sintomatología provocada por esta exposición.
• Por último, hace posible el estudio de factores que permitan pronosticar la repercusión en pa-
cientes sometidos a un tratamiento dado.
Para acometer estas tres vertientes nos encontramos con tres formas de investigación, que consisten
en estudios de cohortes, el estudio de casos y controles, y los ensayos clínicos aleatorizados.
Estos estudios son comparativos, es decir, la conclusión viene determinada por la comparación entre
dos grupos de individuos.
Tanto el estudio de caso-control como el de cohorte son de tipo observacional. En estos estudios, el
investigador no impone un tratamiento, sino que recoge los datos de la historia clínica del paciente, y
por este motivo se considera que son las estrategias de investigación más viables.
12
Parte I. Estadística descriptiva
La construcción de una tabla de frecuencias básica consiste en determinar qué valores concretos se
dan en la muestra y con qué frecuencia; también se denomina distribución de frecuencias.
Ejemplo 1. En el estudio sobre el grupo sanguíneo realizado con n = 8512 individuos se obtuvo la
siguiente tabla de frecuencias:
13
2. Estudio de una variable
Tabla 2. Tabla de frecuencias para el grupo sanguíneo. (Fuente: Montanero Fernández, J. y Minuesa Abril, C. (2018).
Estadística básica para Ciencias de la Salud).
fi indica las frecuencias absolutas o número de veces que aparece esa variable dentro de la muestra n.
p^i representa las proporciones o frecuencias relativas, o porcentaje que representan las frecuencias
de esa variable respecto al total de la muestra. El sumatorio de las respectivas frecuencias absolutas
será igual al número total de datos, y de igual modo, la suma de sus frecuencias relativas será igual a 1,
es decir, para una variable cualitativa con k categorías tenemos:
K K
∑ f = n ∑ p^ = 1
i i
i=1 i=1
Ejemplo 2. Las edades en años en un grupo de n = 25 afectados por COVID-19 son las siguientes: 43,
51, 58, 59, 88, 38, 33, 51, 58, 82, 29, 42, 68, 79, 79, 58, 23, 82, 79, 82 , 21, 88, 79, 42 y 93. Según estos
datos, se conforma la siguiente tabla de frecuencias:
xi fi p^i Fi Hi
21 1 0.04 1 0.04
23 1 0.04 2 0.08
29 1 0.04 3 0.12
33 1 0.04 4 0.16
38 1 0.04 5 0.20
42 2 0.08 7 0.28
43 1 0.04 8 0.32
51 2 0.08 10 0.40
58 3 0.12 13 0.52
59 1 0.04 14 0.56
68 1 0.04 15 0.60
79 4 0.16 19 0.76
82 3 0.12 22 0.88
88 2 0.08 24 0.96
93 1 0.04 25 1
Total 25 1 25 1
14
Estadística básica
Se nombrará xi al valor obtenido según el orden en que nos llegan los datos, es decir, en el caso del
ejemplo, x1 = 43. De igual modo, se denotará x2 = 51 y así sucesivamente hasta llegar a x25 = 93.
Contabilizaremos el número de veces en las que aparece cada valor; así, en el caso del primer valor la
frecuencia absoluta se denota como f1 , y es 1; el segundo valor es x2 = 23, que se repite f2 = 1 vez, y así
sucesivamente hasta que llegamos al valor x15 = 93, que aparece f15 = 1 vez.
La columna de las frecuencias relativas p^i determinará el peso de cada valor en el total de la muestra,
al representar el porcentaje respecto al total.
Al ser datos numéricos, existe un orden preestablecido en ellos, cosa que no sucedía en el ejemplo del
grupo sanguíneo.
Diagrama de sectores
Un diagrama de sectores es un gráfico que presenta un círculo que se ha dividido en porciones cuyas
respectivas áreas son proporcionales a la frecuencia del valor que representan. Se utiliza con datos
cualitativos y cuantitativos. Este tipo de gráfico es uno de los más utilizados.
En el caso del ejemplo de los grupos sanguíneos, la representación gráfica de los datos obtenidos
quedaría como se observa en el siguiente gráfico.
15
2. Estudio de una variable
GRUPO SANGUÍNEO
O A B AB
Figura 1. Diagrama de sectores para el grupo sanguíneo.
Diagrama de barras
93
88
82
79
68
59
58
51
43
42
38
33
29
23
21
0 1 2 3 4 5
fi
Figura 2. Diagrama de barras para la edad de afectados.
16
Estadística básica
En el caso de las frecuencias relativas, los diagramas de barras tendrán diferente escala en el eje OY.
Los diagramas de barras son muy utilizados a la hora de representar variables cualitativas, sobre todo
si son de tipo ordinal.
Histograma
Los histogramas se utilizan para obtener una visión general, o panorámica, de la distribución de la
población, o de la muestra, en función de una característica cuantitativa y continua (como pueden
ser la altura o el peso).
De este modo, tenemos una visión de grupo que permite determinar una tendencia, o preferencia, por
parte de la muestra o población al colocarse en una determinada región de valores dentro del campo
de valores posibles (sean infinitos o no) que pueda adquirir dicha característica.
25
20
15
10
0
[1,5] [5,9] [9,13] [13,17] [17,21] [21,25]
Figura 3. Histograma.
17
2. Estudio de una variable
Diagrama tallo-hoja
El diagrama tallo-hoja es muy similar al histograma de frecuencias absolutas, ya que cada valor queda
identificado con una cifra de la derecha que indica el valor de las unidades, mientras que la de su
izquierda corresponde al valor de las decenas.
TALLO HOJA
4 459
5 02334467778
6 1 22347 89
7 01 12 34456689
8 0135
Figura 4. Diagrama tallo-hoja.
El diagrama tallo y hojas (stem-and-leaf diagram) permite obtener simultáneamente una distribución de
frecuencias de la variable y su representación gráfica. Para construirlo basta con separar en cada dato el
último dígito de la derecha (que constituye el tallo) del bloque de cifras restantes (que formarán las hojas).
Esta representación de los datos es semejante a la de un histograma, pero, además de ser más fácil
de elaborar, presenta más información que este.
Campana de Gauss
Estos se reparten en valores bajos, medios y altos, de tal forma que se crea un gráfico de forma acam-
panada y simétrica con respecto a un determinado parámetro. Se conoce como curva o campana de
Gauss o distribución normal.
18
Estadística básica
El propósito de estos valores es que la información que se puede obtener de los n datos de la muestra
se resuma en un único valor.
Este tercer paso del estudio solo tiene razón de ser cuando la variable estudiada es cuantitativa.
• Medidas de centralización
• Medidas de posición
• Medidas de dispersión
• Medidas de forma
En el que caso de que quisiésemos dar la mayor información posible con un único número, este
debería ser un número representativo, un valor central en algún sentido.
Dentro de las medidas de centralización, las más representativas son la media aritmética y la mediana.
Media aritmética
Es el valor central de la muestra, en sentido aritmético. Obtenemos la media aritmética sumando los n
datos de la muestra y dividiéndolos por el tamaño de esta.
Σn x
X = i=1n i
Cada dato xi aparecerá en el sumatorio tantas veces como se repita en la muestra. Si los datos están
agrupados en una tabla de frecuencias, se puede calcular también de la siguiente forma:
k
Σi=1 xi · fi
∑x·p
k ^
X= n = i i
i=1
Como se puede observar en la fórmula, a cada valor de xi se le asigna un peso p^i que equivale a la
proporción que representa en la muestra.
En el caso del ejemplo número 2, la media aritmética de la edad de los afectados seria de 60,2 años.
19
2. Estudio de una variable
Media truncada
Para obtener una media truncada, se excluye de la media aritmética el 5 % de datos más extremos.
Media ponderada
Medida de tendencia central, se utiliza especialmente cuando cada dato de un conjunto muestra un
peso relativo con respecto a los otros datos.
Se obtiene multiplicando cada dato por su ponderación (peso) y sumando todos los resultados, lo que
facilita una suma ponderada; después se divide esta entre la suma de los pesos.
Mediana
Es el valor que queda en el medio una vez que hemos ordenado los datos de menor a mayor, repitién-
dose si es necesario tantas veces como aparecen en la muestra.
Por tanto, para el cálculo de la mediana se ordenan los datos y se determina la posición del medio.
En caso de que el número de datos n sea impar, la mediana es el valor que ocupa la posición n+1 .
2
Si n es par, nos encontramos con un problema que se resuelve definiendo la mediana como la semi-
suma de los datos que ocupen las posiciones n y n+1 .
2 2
En este proceso puede ser de utilidad la columna de las frecuencias absolutas acumuladas o un
diagrama tallo-hoja.
Básicamente, son conjuntos de números que separan una muestra ordenada en fracciones que
contienen la misma cantidad de datos.
La medida de posición más característica es la mediana, la cual divide la muestra en dos mitades en
las cuales el 50 % de los datos debe ser inferior a la mediana y el otro 50 % superior.
Cuartiles
Los cuartiles dividen la muestra en cuatro partes iguales. Los cuartiles se representan como Q1, Q2, Q3.
Dada una serie de valores x1, x2, x3 ... xn ordenados en forma creciente, su cálculo podría efectuarse así:
20
Estadística básica
Sin embargo, esta opción produce diferentes métodos de cálculo de los cuartiles primero y tercero,
dependiendo de si la mediana de la serie se incluye en la primera o en la segunda mitad de valores.
Si se divide la muestra en 100 partes iguales, se obtienen los percentiles, que van de p1 a p99.
En este caso, la mediana coincide con el percentil 50 y los cuartiles Q1 y Q3 con p25 y p75, respectivamente.
Los percentiles son muy utilizados en campos como el de la pediatría para el análisis del crecimiento
de los recién nacidos.
Las medidas de dispersión son parámetros estadísticos cuyos valores reflejan cómo se alejan los
datos respecto de la media aritmética.
Las medidas de dispersión más utilizadas son el rango, la desviación estándar y la varianza.
Rango
Por ejemplo, en una muestra con los siguientes valores: 2, 3, 3, 5, 7, 8, 8, 8, 9, 10, 10, el rango de esta
muestra seria R = 8, que es la diferencia entre el mayor valor de la muestra, (xn = 10), y el menor valor
de la muestra, (x1 = 2).
Varianza
Es otro parámetro utilizado para medir la dispersión de los valores de una variable respecto a la
media. Corresponde a la media aritmética de los cuadrados de las desviaciones respecto a la media.
21
2. Estudio de una variable
El motivo de elevar al cuadrado las diferencias respecto a x es que ∑ni 1(xi- x)=0, pues al sumar los
=
datos superiores a la derecha de la media se anulan con los inferiores.
En el caso de que los datos estén tabulados, la expresión anterior quedaría de la siguiente forma:
S 2= ∑in=1(xi- x)2· p^ i
De cualquier modo, con vistas a la realización de la posterior inferencia estadística, puede aparecer
dividida entre n-1 en lugar de n, en cuyo caso toma el nombre de varianza insesgada o cuasi-varianza.
Desviación típica
Como hemos podido comprobar, al usar la varianza, los valores iniciales se han perdido, al haber sido
necesario elevar al cuadrado las diferencias.
La desviación típica permite recuperar esos valores iniciales, efectuando la raíz cuadrada de la varianza.
En cualquier caso, es una medida que se utiliza para cuantificar la variación o la dispersión de un
conjunto de datos numéricos.
S=
√
∑ni=1 (xi-x)2
n
Una desviación estándar baja indica que la mayor parte de los datos de una muestra tienden a estar
agrupados cerca de su media (también denominada el valor esperado), mientras que una desviación
estándar alta indica que los datos se extienden en un rango de valores más amplio.
Coeficiente de asimetría
Refleja el grado de asimetría o sesgo que existe en la distribución de los datos. La fórmula para su
cálculo es:
m3
g1 =
S3
∑i=1 (xi- x)
n k
m
Donde k = n
Y donde k = 1, 2, 3, …
• g1 = 0. Distribución simétrica.
22
Estadística básica
La curtosis es una medida de forma que muestra hasta qué punto una curva o distribución tiene
pendiente o está achatada.
Como este coeficiente muestra cuántos datos hay cercanos a la media, a mayor grado de curtosis,
más apuntada será la forma de la curva.
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del conjunto
y la media, dividido entre la desviación típica elevado también a la cuarta potencia.
Por tanto:
µ4
ꞵ2 =
ẟ4
Tomando, pues, la distribución normal como referencia, una distribución puede ser:
• Leptocúrtica, cuando ꞵ2 > 3. Más apuntada y con colas más gruesas que la normal.
• Platicúrtica, cuando ꞵ2 < 3. Menos apuntada y con colas menos gruesas que la normal.
El coeficiente de curtosis puede usarse como un indicador, en combinación con otros, de la posible
existencia de observaciones anómalas.
23
Parte I. Estadística descriptiva
Se entiende que existe una relación entre dos variables cuando, al producirse un cambio en el valor de
una de las variables, este produce un cambio en el valor de la otra. Cuando no existe asociación se dice
que las variables son independientes.
Por ejemplo, nada hace pensar que el nombre pudiera tener alguna asociación con los niveles de
glucosa en sangre de un individuo, por lo que esas dos variables se consideran independientes. Sin
embargo, sí se puede considerar que la condición de fumador o no fumador sea una variable asociada
a los casos de cáncer de pulmón, por lo que ambas variables se consideran dependientes.
El mejor gráfico para reflejar la relación entre dos variables numéricas es el diagrama de dispersión
o nube de puntos, que identifica cada unidad experimental (xi; yi) con el punto del plano que tenga por
coordenadas xi para el eje OX e yi para OY.
25
3. Relación entre variables numéricas
Valores Xi Valores Yi
0,7 2,7
1,8 3,2
2,6 0,8
0,8 2,9
1,5 3,4
1,2 3,1
0,4 1,9
Utilizamos este gráfico cuando una o varias variables son controladas por el experimentador. Si hay
algún parámetro que puede ser incrementado o disminuido de forma sistemática por el experimen-
tador, lo llamamos parámetro de control o variable independiente y normalmente queda represen-
tado a lo largo del eje horizontal (eje de las abscisas).
La variable objeto de estudio o dependiente, por lo general, queda representada en el eje vertical (eje
de las ordenadas). En caso de que no exista una variable dependiente, cualquiera de las variables
puede representarse en cada eje, y el diagrama de dispersión mostrará el grado de correlación (no
causalidad) entre esas dos variables.
El diagrama de dispersión podrá reflejar varios tipos de correlaciones entre las variables con un inter-
valo de confianza determinado. Puede darse una correlación positiva (aumento), negativa (descenso),
o nula (no existe relación). Se puede dibujar una línea de ajuste —también denominada "línea de
tendencia"— con la finalidad de estudiar la correlación entre las variables.
Los coeficientes de correlación se expresan por un número con varios decimales entre -1 y 1, donde -1
y 1 indican correlaciones perfectas, negativas y positivas respectivamente y 0 indica correlación nula.
26
Estadística básica
Para calcular estos coeficientes, primero es necesario conocer la media y desviación típica de cada
variable por separado:
∑n x1 ∑n y1
X = i=1n Y = i=1n
√
Sx =
∑ni=1 (xi-x)2
n √
Sy =
∑ni=1 (yi-y)2
n
Covarianza:
La covarianza muestra la cuantía en que dos variables aleatorias varían de forma conjunta respecto a
sus medias. De este modo, podemos averiguar cómo se comportará una variable sabiendo lo que hace
la otra variable.
• Covarianza (X, Y) es menor que cero cuando “X” sube e “Y” baja. Hay una relación negativa.
• Covarianza (X, Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una relación positiva.
• Covarianza (X, Y) es igual que cero cuando no hay relación existente entre las variables “X” e “Y”.
El coeficiente de correlación de Pearson presenta valores que oscilan entre el -1 y el +1. Dependiendo
del valor de este coeficiente, tendrá un significado distinto. Cuando el coeficiente de correlación de
Pearson refleja un valor igual a 1 o a -1, se puede considerar que la correlación existente entre las varia-
bles analizadas es perfecta.
Por otra parte, en el caso de que el coeficiente sea mayor que 0, la correlación será positiva (cuando
una de las variables aumente, la otra aumentará en una proporción mayor o menor, dependiendo de
lo fuerte que sea la relación). Por contra, si es menor que 0, se dice que la correlación es negativa
(cuando una variable aumente, la otra variable disminuirá en una proporción mayor o menor). Por
último, si el coeficiente es igual a 0, se puede decir que no existe relación lineal entre ambas variables,
aunque pueda haber algún otro tipo de relación.
Coeficiente de determinación:
27
3. Relación entre variables numéricas
En el caso de que entre las dos variables exista un alto grado de correlación, el valor de la primera
variable puede ser utilizado para realizar pronósticos más o menos fiables de la segunda. Por ejemplo,
el diámetro del cráneo (mm) en un feto de 26 semanas se puede medir de manera sencilla a través de
una ecografía. Si esta medida está correlacionada con el peso (g), se podrá hacer uso de la misma para
predecir dicho peso.
Para una unidad experimental de la muestra (xi ; yi), al valor xi correspondiente a la variable X (abscisas)
le corresponderá el valor B0+ B1 X para la variable Y (ordenadas).
La diferencia entre este valor y el de la variable Y —es decir, yi— se considera como el error cometido
al intentar explicar yi mediante la ecuación de regresión lineal.
Para cuantificar este error, se utiliza el método de mínimos cuadrados. Para la cuantificación de este
error total realizamos la suma de los cuadrados de los errores particulares, al igual que ocurre en el
cálculo de la varianza, es decir:
n
∑i=1 [y – (B – B X)]
i o 1
2
La solución es la recta que minimiza dicho error. Puede demostrarse que esta recta adopta los
siguientes parámetros:
S
B1 = xy
Sx2 B0 = y – B1x
El signo de B1 determina la covarianza Sxy, que además coincide con el de r. Por tanto, si la correlación es
directa, la recta de regresión tendrá una pendiente positiva; si es inversa, la pendiente de la recta será
negativa; y si es nula, la pendiente de la recta también será nula. De cualquier modo, la recta siempre
pasa por el punto (x; y) o, dicho de otra forma, la recta pasará por el centro de la nube de puntos.
La recta de regresión puede calcularse siempre, independientemente del grado de correlación exis-
tente entre las variables.
28
Estadística básica
Varianza residual:
Si calculamos la diferencia para todos los valores de X entre los valores resultantes de Y, y su predic-
ción a través de la recta de regresión, su suma cuantifica el error cometido por la recta de regresión.
La varianza residual es la suma de los errores divida entre n.
La varianza residual determina la parte de la variabilidad de los datos de Y que no ha sido explicada
por la variabilidad de los datos de X a través de la recta de regresión lineal.
La suma los cuadrados de las diferencias entre los valores de Y y su media dividida entre n se deno-
mina varianza (total).
La división de la varianza residual y entre la varianza total se entiende, por lo tanto, como la propor-
ción de variabilidad total de Y que no es explicada por la recta de regresión lineal.
A partir del modelo de regresión lineal simple, se puede llegar a una extensión lógica de este al tomar
en consideración más de una variable explicativa.
Los modelos de regresión múltiple estudian la relación entre una variable de interés Y (variable
respuesta o dependiente) y un conjunto de variables explicativas o regresoras X1, X2, … , Xp.
Para la regresión lineal múltiple, suponemos que la función de regresión que pone en relación la
variable dependiente con las independientes es lineal:
La ecuación que se pretende obtener, según el criterio de mínimos cuadrados, es la que hace que la
suma sea menor:
n
Coeficiente R2 múltiple
Si lo que se pretende es hacer una valoración global de la fiabilidad de las predicciones efectuadas
con la ecuación anterior, es necesario un valor típico que generalice el coeficiente de correlación
simple al cuadrado, r2.
29
3. Relación entre variables numéricas
Multicolinealidad
Se puede pensar que, al añadirse más variables independientes a la ecuación, esto solo producirá
ventajas. Sin embargo, esto no ocurre de esta manera.
Por una parte, las variables que tienen ser medidas; por otra parte, no nos permite tener una visión
gráfica sencilla de los datos; por último, podría producir algún tipo de confusiones debidas a la posible
correlación lineal entre las distintas variables independientes.
En este caso, se dice que tendremos un problema de multicolinealidad. Lo que se aconseja en este
caso es introducir una nueva variable en la ecuación solamente si al introducir esta variable, el valor de
R2 se ve aumentado sustancialmente.
La regresión no lineal determina una ecuación para explicar la relación no lineal existente entre una
variable continua y una o más variables predictoras y da lugar a la predicción de nuevas observaciones.
La diferencia básica entre la regresión lineal y no lineal son las formas funcionales aceptables del
modelo. Concretamente, la regresión lineal requiere parámetros lineales, mientras que la no lineal no.
Una función de regresión lineal debe tener parámetros lineales, lo cual reduce la ecuación a una sola
forma. Sin embargo, una ecuación no lineal puede adoptar muchas formas diferentes. De hecho,
debido a que el número de posibilidades es infinito, se debe especificar la función de expectativa que
se va a utilizar para realizar la regresión no lineal.
30
Estadística básica
Aunque existe una gran flexibilidad a la hora de especificar muchas funciones de expectativa dife-
rentes, puede ser necesario mucho esfuerzo a la hora de determinar la función que proporciona el
mejor ajuste para los datos. Para ello, normalmente es necesaria una investigación adicional, tener un
gran conocimiento del área de estudio y un análisis ensayo-error.
En el caso de las ecuaciones no lineales, llegar a determinar el efecto que va a producir cada predictor
sobre la respuesta puede ser menos intuitivo que en el caso de las ecuaciones lineales.
Por norma general, podemos decir que la relación existente entre un variable cualitativa y otra cuanti-
tativa se entiende como la comparación de las medias que dicha variable numérica refleja en cada una
de las categorías de la variable cualitativa.
Una prueba de la relación entre ambas variables es la distancia entre las medias. Esta distancia es
más fuerte cuanto mayores son dichas diferencias.
Ahora bien, esta cuestión no es tan sencilla, ya que esta distancia debe analizarse teniendo en cuenta
el grado de variabilidad que presentan los datos, lo cual afectará igualmente a la variabilidad de las
medias aritméticas calculadas. Es un caso similar al de la regresión lineal, pues se trata de medir la
proporción de variabilidad determinada por la variable cualitativa; esto dará lugar a un coeficiente R2.
Se analiza la posibilidad de que exista relación entre dos variables numéricas, pero distinguiendo
las distintas categorías de otra variable cualitativa. Podemos hablar, en ese caso, de un coeficiente
de correlación r2 para cada una de las categorías por separado y de un coeficiente R2 múltiple, el cual
expresará la proporción de varianza de la variable respuesta numérica determinada conjuntamente
por la variable explicativa numérica y por la variable explicativa cualitativa.
31
Parte I. Estadística descriptiva
Afirmamos que dos variables cualitativas están relacionadas cuando, al producirse un cambio de
categoría en una variable, este se refleja en un cambio de categoría en la otra variable, y viceversa.
Puede parecer que expresar una característica de forma cualitativa sea más sencillo que medirla numé-
ricamente, lo que explica la gran cantidad de diseños de tipo cualitativos que existen en la investiga-
ción experimental. Desde un punto de vista estadístico, el tratamiento de las variables cualitativas es
bastante más laborioso que el de las numéricas, sobre todo a la hora de analizarlas conjuntamente.
Una tabla de contingencia es una tabla que cuenta las observaciones por múltiples variables categó-
ricas. Las filas y columnas de las tablas corresponden a estas variables categóricas.
33
4. Relación entre variables cualitativas
Según recientes investigaciones es posible que un índice cintura-cadera (ICC), definido como
el cociente entre el perímetro de la cintura y el de la cadera, elevado se asocie a la aparición de
ciertas patologías, como la diabetes y enfermedades cardiovasculares, de una manera más clara
que el índice de masa corporal (IMC) elevado. Supongamos que, con el objeto de apoyar esa teoría,
se analiza una muestra de n = 252 varones de más de 40 años que son clasificados en función de
su ICC como normales, si ICC ≤ 0.94, o con cuerpo de manzana, si ICC > 0.94. Por otra parte, son
también valorados médicamente distinguiendo entre sanos, diabéticos y enfermos cardiovascu-
lares. Ambas clasificaciones se recogen de manera simultánea la siguiente tabla de contingencia:
Estado de salud
2x3
Sano Cardio Diabetes Total
Normal 114 22 20 156
Tipo de
ICC
Manzana 52 28 16 96
Total 166 50 36 252
Tabla 4. Tabla de contingencia para las variables tipo de ICC y estado de salud. [Fuente: Montanero, J., y Minuesa,
C. (2018). Estadística básica para Ciencias de la Salud].
En este caso se distinguen r=2 categorías (filas) diferentes en la variable tipo de ICC y s=3 categorías
(columnas) diferentes en la valoración médica, por lo que decimos que se trata de una tabla tipo 2x3.
En los márgenes derechos e inferior de la tabla aparecen las frecuencias que denominaremos margi-
nales, que corresponderían a un estudio por separado de las variables ICC y valoración, respectivamente.
Las 6 frecuencias (2x3) que aparecen en el interior de la tabla pueden denominarse conjuntas u obser-
vadas. Se denotan mediante Oij , donde el subíndice i hace referencia a las filas y el j a las columnas. Así,
por ejemplo, o1,2 se entiende como la frecuencia observada en la fila 1 y columna 2, es decir, con los datos
del ejemplo 3 estaríamos hablando del número de individuos con ICC normal y enfermedad cardiaca.
La suma de frecuencias observadas de una misma fila es la frecuencia marginal que aparece en la
columna derecha, mientras que la suma de frecuencias observadas en una misma columna es la
frecuencia marginal que aparece en la fila de abajo.
La suma total de las frecuencias conjuntas coincide con las de las marginales, tanto por filas como por
columnas, y es el tamaño de muestra n = 252.
Una vez descrita la tabla, la cuestión esencial es en qué medida la tabla anterior confirma la existencia
de relación entre el estado de salud y el tipo de ICC, y en qué sentido. Es decir, nos preguntamos qué
debe ocurrir para que podamos afirmar eso y cómo cuantificamos el grado de correlación observado.
Para responder a estas preguntas introduciremos previamente los conceptos de proporción marginal,
proporción condicionada y proporción conjunta (Montanero y Minuesa, 2018).
34
Estadística básica
Proporciones marginales
Las proporciones marginales indican la probabilidad de que un objeto —en el sentido estadístico—
pertenezca a cierta categoría.
En este caso nos encontramos ante una proporción condicionada por fila, que se calculan a través del
siguiente cociente:
^ (sano|normal) = 114 = 0.731
p
156
Proporciones conjuntas
Por último, p^ (sano y normal) determina la proporción de individuos de la muestra que son sanos
según la valoración médica y, además, poseen un ICC normal.
El diagrama de barras agrupadas sirve para reflejar la asociación que existe entre las dos variables
cualitativas objeto del estudio. Es un diagrama de las frecuencias absolutas de una variable cualita-
tiva clasificadas en función de las categorías de otra variable.
35
4. Relación entre variables cualitativas
Si el diagrama de barras está agrupado por filas, reflejará visualmente la información sobre posi-
bles cambios en las proporciones condicionadas por filas. De igual modo ocurre si agrupamos los
datos por columnas.
En el diagrama del ejemplo se observa, por ejemplo, que hay más sanos (en azul) en el grupo "normal",
que en el de sujetos con cuerpo de manzana. Esto, a su vez, se relaciona con menos enfermos —sobre
todo de enfermedad cardiaca— en el primer grupo.
Atendiendo a conceptos estadísticos, se entiende que la correlación entre las dos variables cualita-
tivas observadas será más fuerte cuanto mayor sean las diferencias entre las proporciones condicio-
nadas al movernos de una categoría a otra.
Cuando se trata de problemas de correlación entre dos variables, podemos encontrarnos tres situaciones:
Tabla 5. Tipos de relaciones estadísticas. [Fuente: Montanero, J., y Minuesa, C. (2018). Estadística básica para
Ciencias de la Salud].
Es una medida de relación estadística que expresa la intensidad de la relación entre dos (o más) varia-
bles cualitativas. Su fundamento es la comparación de las frecuencias de dos caracteres que real-
mente se han calculado con las frecuencias esperadas con independencia de esos caracteres.
Para medir el grado de correlación muestral se procede de igual forma que a la hora de medir la variabilidad
de un conjunto de datos numéricos unidimensional; procederemos evaluando la distancia (al cuadrado)
entre cada uno de ellos y la medida central de referencia que antes hemos calificado como la media arit-
mética, aunque en algunos momentos este valor no es posible, dando como resultado la varianza.
Teniendo en cuenta unas frecuencias marginales concretas, construiremos una tabla bidimensional de
referencia en la que las sumas marginales se mantendrán iguales a la tabla observada pero cuyos valores
conjuntos —a los que denominamos valores esperados y representados como Ei,j— estén calculados de
forma que las proporciones condicionadas permanezcan constantes al pasar de una fila (o columna) a otra.
En ese caso, deben ser iguales a las proporciones marginales por filas (o columnas, respectivamente).
Tras construir esta matriz de referencia, vemos como el grado de correlación correspondiente a la
muestra es mayor cuanto mayor sea la distancia (entendiendo esta distancia en sentido amplio) entre
la tabla de valores observados y la tabla de valores esperados.
36
Estadística básica
La fórmula utilizada para medir la diferencia entre las dos tablas es:
(O –E )2
Xexp
2
=∑i,j ij ij
Eij
Si el valor de Xexp
2
esta próximo a 0, debemos entenderlo como una correlación casi nula en la muestra,
y cuanto más alto sea el valor de Xexp
2
, mayor es la dependencia o correlación de la muestra.
Para obtener un valor con cotas universales puede ser necesario normalizar la distancia X2. La norma-
lización más usada es el coeficiente de contingencia de Pearson, que intenta realizar una función
similar a la del coeficiente de correlación r.
√ Xexp
2
C=
Xexp
2
+n
Este coeficiente estará, para una tabla r x s, entre los valores 0 y √q-1 (q–1) , siendo q=min {r,s}.
El valor 0 representa la ausencia total de correlación y la cota superior, que depende exclusivamente
de las dimensiones de la tabla, a la mayor dependencia posible.
En caso de que solo se distingan dos categorías en las dos variables consideradas, puede realizarse
un tratamiento específico mucho más sencillo.
B
2x2
B1 B2 Total
A1 a B a+b
A A2 c d c+d
Total a+c b+d n
Coeficiente Ø
En este caso particular de tablas 2 x 2, para medir el grado en que están asociadas las variables se
puede utilizar, además del coeficiente C, el coeficiente Ø, que se define mediante la expresión
X2
Ø2= exp , la cual es igual a la expresión:
n
Ø=
√ (ad–bc)2
(a+b)(c+d)(a+c)(b+d)
Una vez analizada esta expresión, podemos determinar que Ø2 es un parámetro completamente
similar al coeficiente de correlación lineal r2. Es más, si para las dos variables cualitativas se asignan
37
4. Relación entre variables cualitativas
sendos códigos numéricos a cada una de las posibles categorías, Ø equivale al coeficiente de correla-
ción r entre las variables numéricas resultantes.
Este coeficiente podrá tomar valores entre 0 y 1. El valor 0 corresponderá con una asociación nula y el
valor 1 con una asociación total.
El objetivo de este tipo de estudios es calcular proporciones partiendo de la muestra, de manera que
puedan considerarse estimaciones o aproximaciones a las proporciones de la población. Que una
proporción concreta de la población pueda ser o no aceptablemente estimada a partir una parte de
la muestra, calculada directamente a partir de la tabla de frecuencias, dependerá de la forma en que
hemos obtenido esa muestra.
Por ejemplo, si escogemos una muestra de una población con el requisito de que un tercio sean indi-
viduos de raza blanca y el resto individuos de color, esta no es válida para estimar la proporción de
individuos de raza blanca e individuos de color en dicha población. De igual modo, si el hecho de ser o
no epiléptico no se ha tenido en cuenta a la hora de seleccionar cada individuo, no está claro en prin-
cipio si la muestra es adecuada para estimar la proporción de epilépticos, ya que no se sabe aún si
este hecho está relacionado de alguna forma con la raza. Sin embargo, la muestra sí que puede ser
adecuada en principio para estimar la proporción de epilépticos entre los individuos de raza blanca,
por un lado, y la proporción de epilépticos entre los individuos de color, por otro. También podría ser
en principio adecuada para estimar la proporción de cualquier cualidad que no guarde relación con la
raza, como podría ser el grupo sanguíneo. De tal forma, es necesario determinar qué requisito tendrá
que cumplir una muestra para que sea posible estimar cualquier proporción que estimemos.
Para justificar la estimación desde un punto de vista teórico utilizamos un procedimiento denominado
sorteo aleatorio, aunque la aplicación estricta de este procedimiento puede considerarse utópica en
la mayor parte de estudios biomédicos. Lo anteriormente comentado da lugar a la primera máxima de
la inferencia estadística:
A partir de una muestra solo se puede aspirar a la estimación de parámetros poblacionales de aque-
llas variables las cuales no han sido de algún modo controladas en el proceso de selección de estas.
Esto tiene mucha importancia en los diferentes estudios epidemiológicos, así como en ensayos clínicos.
El diagrama de árbol se utiliza para determinar todos los posibles resultados de un experimento alea-
torio. Cuando se efectúa el cálculo de la probabilidad es necesario conocer el número de elementos que
forman parte de la muestra, y estos se pueden determinar mediante la construcción de este diagrama.
38
Estadística básica
Este diagrama es utilizado en los problemas de probabilidad y también en los de conteo. A la hora de
construir un diagrama en árbol se comienza poniendo una rama para cada posibilidad, poniendo a su vez
probabilidad de que se dé esta posibilidad. Estas ramas se denominan ramas de primera generación.
El final de cada rama de primera generación está formada a su vez por un nudo del que partirán otras
ramas denominadas ramas de segunda generación, en función de la probabilidad del siguiente paso,
salvo el caso en que el nudo represente el final del experimento, en cuyo caso se denomina nudo final.
Es importante tener en cuenta que confeccionar un árbol no depende de tener el mismo número de
ramas de segunda generación que salgan de cada una de las de primera generación. También es impor-
tante tener en cuenta que la suma de probabilidades de las ramas de cada nudo ha de dar 1.
Un principio de los diagramas de árbol posibilita que estos sean más útiles para los cálculos rápidos
de probabilidad: multiplicamos las probabilidades si se trata de ramas contiguas.
P[A∩B1]
B 1]
P [A|
P[AC|B1]
] P[A∩B2]
P[B 1 | B]
2
P[B2] P[A
P[A C
|B
P[B 2 ]
n ]
P[A|Bn] P[A∩Bn]
P[A C
|B
n ]
Figura 9. Diagrama de árbol.
La fórmula de Bayes es la fórmula que posibilita calcular P(A|B) conociendo, o cuanto menos aproxi-
mándose a las probabilidades P(B|A), P(B|Ā) y P(A).
Primero, sabemos que P(B) puede descomponerse en: P(B)= P(A∩B)+P(Ā ∩B).
Una vez que obtenemos la P(B) partiendo de probabilidades que sí conocemos —aunque sea de un
modo aproximado— es posible obtener el valor de P(A|B), aplicando la fórmula de Bayes:
P(B|A) · P(A)
P(A|B) =
P(B|A) · P(A) + P(B|Ā) · P(Ā)
39
4. Relación entre variables cualitativas
Prevalencia
Incidencia
Es la proporción de personas que, aun habiendo estado sanos al inicio de un periodo determinado,
adquieren la enfermedad durante ese tiempo. Existen distintos tipos de incidencias, entre los que
encontramos la incidencia entre los individuos que presentan un posible factor de riesgo o la inci-
dencia entre los que no representan factor de riesgo. En función de estas dos incidencias se pueden
calcular los riesgos relativos, así como los riesgos atribuibles.
Cuando hablamos del estudio de los factores de riesgo, efectuamos la siguiente clasificación entre
los tipos de diseños:
Sirven para poder estimar la prevalencia, para ello se selecciona una gran muestra que represente a
la población y se determina entonces la cantidad de personas enfermas en un momento determinado.
^
La prevalencia P(E) se puede calcular entonces mediante la proporción de enfermos en la muestra, P(E).
A partir de una muestra de personas sanas que han sido expuestas al factor de riesgo y otra de
personas sanas que no hayan sido expuestas, se estudia su evolución durante un periodo de tiempo
determinado —que normalmente es largo—, y se apunta cuántos de ellos contraen la enfermedad.
Esto permite hacer una estimación directa de la incidencia de la enfermedad en ambas cohortes a
^ ^
través de las proporciones condicionadas P(E|FR) y P(E|FR), a fin de compararlas entre sí.
40
Estadística básica
Este tipo de estudios normalmente suponen un coste menor en comparación con los de prevalencia,
que implican muestras muy grandes para que se registren suficientes enfermos, y con los de cohortes,
ya que en estos es necesario un seguimiento de las cohortes durante un largo periodo de tiempo para
tener la posibilidad de que aparezca la enfermedad.
El problema que presenta esta clase de diseño es que, al ser la presencia de la enfermedad controlada
en el estudio, no podemos dar a partir de la muestra una estimación real de las distintas incidencias ni
de las prevalencias. Por otra parte, debido a que la existencia del factor de riesgo no está controlada, se
pueden estimar las proporciones condicionadas P(FR|E); P(FR|E), lo que permite hacer una estimación
correcta del denominado Odds Ratio a partir de la fórmula de Bayes, como veremos más adelante.
En cualquier caso, los datos quedan recogidos en una tabla 2 x 2 en la que se indica, por una parte, si el
individuo posee el factor de riesgo y, por otra parte, si ha desarrollado la enfermedad estudiada.
Factor
2x2
Sí No Total
Enfermo a B a+b
medad
Enfer-
Sano c d c+d
Total a+c b+d n
Tabla 7. Tabla de contingencia para el estudio de factores de riesgo. [Fuente: Montanero, J., y Minuesa, C. (2018).
Estadística básica para Ciencias de la Salud].
Según la enfermedad estudiada y el posible factor de riesgo, podemos establecer que estamos ante
un estudio de cohortes, ya que se efectúa un seguimiento de individuos inicialmente sanos.
Como se ha comentado anteriormente, en los estudios de cohortes tiene sentido valorar las inciden-
cias de la enfermedad por grupos a partir de la tabla.
Así:
^ a ^ c
P(E|FR)= P(E|FR)=
a+c c+d
41
4. Relación entre variables cualitativas
También tiene sentido en este tipo de estudios, estimar a partir de la muestra qué proporción de
personas enfermas poseen el factor de riesgo y qué proporción de personas que no están enfermas
presentan el mismo factor de riesgo.
Entre las medidas más utilizadas para valorar el riesgo que comporta un factor determinado, indepen-
dientemente de que todas puedan calcularse a partir de la tabla 2 x 2, estos valores pueden considerarse
o no estimaciones razonables de los valores poblacionales en función del tipo de estudio que se realice.
Es necesario comentar también que los propios coeficientes C y Ø se pueden considerar medidas de
riesgo, ya que expresan el grado de relación del factor y la enfermedad. Ocurre que cuando la enfer-
medad estudiada no es muy frecuente, este tipo de medidas no son muy útiles para explicar el grado de
riesgo, de forma que utilizamos otras medidas más específicas desde el punto de vista epidemiológico.
Riesgo atribuible
Se considera riesgo atribuible a la diferencia entre las incidencias de personas enfermas, es decir:
RA=P(E|FR)–P(E|FR)
Si el valor positivo hace referencia a que en la muestra hay una mayor tendencia a la enfermedad
entre aquellos que presentan el factor de riesgo. Sin embargo, un valor cercano a 0 o nulo indicará que
prácticamente no existe relación entre el factor de riesgo y la existencia de la enfermedad.
Riesgo relativo
P(E|FR)
RR=
P(E|FR)
42
Estadística básica
Es una alternativa que puede servir para valorar el riesgo relativo que puede calcularse a partir de
estudios de tipo cohortes y del tipo casos-control.
El Odds Ratio, puede estimarse de forma directa a partir de la tabla de contingencia a partir de las
fórmulas:
^ a·d ^ b·c
OR= OR=
b·c o bien a·d
^ a·d ^ b·c
Utilizaremos la expresión OR= o OR= en función de cómo se entienda en principio el
b·c a·d
riesgo, el cual será mayor cuanto mayor sea el resultado del cociente.
Cuando el valor sea próximo a 1 se podrá considerar una relación débil entre el factor y la existencia de
la enfermedad. Este ratio también es denominado razón de productos cruzados.
A esta medida no es posible darle una interpretación tan sencilla como a la del riesgo relativo. Sin
embargo, si se calculan ambos desde una misma tabla y el Odds Ratio es superior a 1, entonces el valor
aportado es mayor al del Riesgo Relativo. Si se da el caso contrario, este aportará un valor menor al
del Riesgo Relativo. Por ese motivo, es habitual realizar una interpretación de forma similar como
medidas del incremento del riesgo, teniendo en cuenta que el Odds Ratio aumenta ligeramente la
percepción del riesgo.
Es necesario comentar que una gran parte de los procedimientos de diagnóstico tienen un elevado
componente estadístico. Nos referimos a aquellos métodos que miden una variable de tipo numé-
rico que puede obtenerse a partir de una analítica (marcador PSA, HDL), de una ecografía (perímetro
craneal en un feto, tamaño de la próstata), etc.
Si se conoce aproximadamente la distribución de individuos sanos para una variable concreta —es
decir, qué valores son posibles y sus proporciones—, un valor anómalo se puede considerar en prin-
cipio como un factor patológico, lo que dará lugar a un resultado positivo en el diagnóstico, que poste-
riormente puede ser confirmado a través de otras pruebas.
Por el contrario, si el valor resultante se encuentra en los límites correspondientes a la población sana
representará un resultado negativo, lo que no implica la posibilidad de que el individuo esté enfermo.
43
4. Relación entre variables cualitativas
Para valorar si este tipo de procesos es fiable, se aplica una muestra de individuos con un diagnóstico
confirmado (sano o enfermo) y se comprueba coinciden los datos.
Ahora que sabemos cómo diseñar un procedimiento de diagnóstico, pasamos a analizar la fiabilidad
de dicho procedimiento a partir de una tabla de contingencia tipo 2 x 2.
Como podemos ver en la tabla que se mostrará más adelante, es posible que un individuo sano haya sido
diagnosticado por error con una enfermedad determinada. A esto se le llama un falso positivo. También
se puede dar el caso de que un individuo enfermo haya sido diagnosticado como sano, lo cual se consi-
dera un falso negativo. Debido a la posibilidad de estos dos errores, se determinan estas medidas:
Sensibilidad:
Se considera sensibilidad a la proporción de enfermos que han sido valorados como positivos.
Especificidad:
Ejemplo 4. Se aplica un test diagnóstico a n=1 000 individuos, 200 de los cuales sabemos que están
enfermos, mientras que de los 800 restantes sabemos que están sanos.
Diagnóstico
2x2
+ – Total
Enfermo 120 80 200
medad
Enfer-
44
Estadística básica
Para el método diagnóstico del ejemplo obtendríamos las siguientes estimaciones a partir de la tabla
obtenida:
Curvas ROC
Una tabla de contingencia puede dar lugar a diversas medidas de evaluación. Para crear una curva
ROC solo es necesario el número de verdaderos positivos (VPR) y de falsos positivos (FPR).
La VPR mide hasta donde un clasificador o prueba diagnóstica permite detectar o clasificar correcta-
mente los casos positivos, del total de los casos positivos de la prueba.
La FPR determina el número de resultados positivos incorrectos del total de los casos negativos
disponibles en la prueba.
En un espacio ROC quedan definidos por FPR y VPR los ejes x e y respectivamente. Estos reflejan los
intercambios entre verdaderos positivos y falsos positivos. Ya que VPR es igual a sensibilidad y FPR
equivale a 1-especificidad, un gráfico ROC se considera como la representación de sensibilidad frente
a (1-especificidad).
Este punto (0.1) se denomina también clasificación perfecta. Por contra, cualquier clasificación alea-
toria se verá representada por un punto de la línea diagonal, también denominada línea de no-discri-
minación, y que se representa desde el extremo inferior izquierdo hasta la esquina superior derecha.
Un caso característico de adivinación aleatoria sería por ejemplo la toma de decisiones a partir del
resultado de una moneda lanzada al aire, cuando el tamaño de la muestra aumenta, el punto de un
clasificador aleatorio de ROC se desplaza hacia la posición (0.5, 0.5).
45
4. Relación entre variables cualitativas
Ejemplo 5. Considérense los siguientes cuatro resultados de 100 instancias positivas y otras 100 negativas:
A B C
VP=63 FP=28 91 VP=77 FP=77 154 VP=24 FP=88 112
FN=37 VN=72 109 FN=23 VN=23 46 VP=76 VN=12 88
100 100 200 100 100 200 100 100 200
VPR = 0.63 VPR = 0.77 VPR = 0.24
FPR = 0.28 FPR = 0.77 FPR = 0.88
ACC = 0.68 ACC = 0.50 ACC = 0.18
Figura 10. El espacio ROC y las parcelas de los cuatro ejemplos de predicción A, B, C. Fuente: Wikipedia.
El resultado del método A es claramente el mejor de los tres. Sin embargo, el resultado de B está posi-
cionado sobre la línea de estimación aleatoria; como se puede ver en la tabla, la precisión (ACC) de
este método es de un 50 %. El método C queda posicionado como el peor, dando resultado muy bajo.
La línea de estimación aleatoria divide en dos partes el espacio ROC.
Aquellos puntos que se posicionen por encima es esta línea representarán buenos resultados de
clasificación, es decir, resultados mejores a los alcanzados a través del azar. Por el contrario, aquellos
puntos situados por debajo de la línea de estimación aleatoria representan los resultados pobres o
peores a los obtenidos a través del al azar. Se puede observar que si invertimos un predictor con una
salida pobre podríamos obtener un buen predictor.
Para elegir entre dos pruebas de diagnóstico diferentes, recurrimos a las curvas ROC, puesto que son
una medida global e independiente del punto de corte. Es por este motivo que, en el ámbito sanitario,
las curvas ROC también son conocidas como curvas de rendimiento diagnóstico.
Comparando área bajo la curva (AUC) de ambas pruebas, podemos elegir el método de diagnóstico.
46
Estadística básica
Esta área establece un valor entre 0.5 y 1, en el que 1 refleja un valor diagnóstico perfecto y 0.5 es una
prueba que no posee la capacidad de discriminar un diagnóstico. Dicho de otra forma, si AUC para una
prueba diagnóstica es 0.6, indica que hay un 60 % de posibilidad de que el diagnóstico efectuado a
una persona enferma sea más correcto que el realizado a una persona sana que haya sido escogida al
azar.
Por lo tanto, siempre se selecciona la prueba diagnóstica que tenga una mayor área por debajo de la curva.
47
Parte II. Inferencia estadística
Definimos inferencia estadística como aquel conjunto de métodos y procedimientos que utiliza la
estadística para inducir determinadas propiedades de una población.
Se pueden considerar dos clases de métodos en inferencia estadística: aquellos en los que se realiza
una estimación de parámetros y aquellos métodos de contraste de hipótesis.
• Los métodos de estimación de parámetros son los encargados de asignar un valor al parámetro
o parámetros característicos del campo sujeto del estudio. Al tratarse de una estimación, es
posible que exista algún nivel de error; por ello, para que sea posible la obtención de conclusio-
nes adaptadas a esa situación, se confeccionan los llamados intervalos de confianza.
49
5. Conceptos básicos de inferencia estadística
• Los métodos de contraste de hipótesis son aquellos cuyo objetivo es comprobar que la estima-
ción realizada se corresponde con los valores de la población. En todos los contrastes de hipó-
tesis aparecen dos supuestos: en primer lugar, la denominada hipótesis nula (H0), la cual con-
templa la idea de que un valor tendrá un determinado valor; en caso de rechazarse esta hipótesis
nula (H0), se considerará la hipótesis alternativa (H1).
i=1
^
Donde pi es la proporción de datos que presentan el valor xi. Si lo consideramos desde el punto de
vista de la población, la media poblacional, que se denota como μ, se define así:
μ = ∑ x ·p i i
Donde pi es la proporción de los datos que presentan el valor pi, es decir, la probabilidad de xi. De igual
manera que se define la media poblacional, se pueden definir en la población el resto de valores típicos.
Normalmente, se denotarán con letras griegas los parámetros poblacionales para que sea posible
distinguirlos de los parámetros muestrales o descriptivos, que se nombran con letras latinas. En otros
casos, los parámetros poblacionales se representan con letras latinas y los muestrales con la misma
letra con el símbolo ^ en la parte superior.
__ ^ ^
Muestral x S2 rxy Bj RR OR …
Poblacional μ ơ2 ρ βj RR OR …
Las conclusiones que se obtengan dependerán de lo que conozcamos sobre los parámetros poblacionales.
En el caso de que se pudieran calcular los parámetros poblacionales del mismo modo que calculamos
los muestrales, las conclusiones serían inapelables. El problema deriva en que los parámetros poblacio-
nales no se pueden calcular en la práctica, sino que tenemos que utilizar sus homólogos muestrales, es
decir, estimamos los parámetros poblacionales partiendo de unas muestras cuya fiabilidad es parcial.
50
Estadística básica
5.2. Muestreo
Ya que hemos visto que para la obtención de conclusiones en nuestro estudio partimos del análisis previo
de una muestra, es interesante que tengamos unas nociones básicas sobre el modo de seleccionarlas.
Para poder extrapolar a la totalidad de la población la descripción que representa la muestra, esta
deberá representar a la población de la que se ha extraído.
En algunos casos, como en el problema de la acidosis en bebés, es necesario seleccionar una muestra
aleatoria por cada categoría estudiada; esto mismo sucede en los estudios de cohortes, en los cuales
se selecciona una muestra de expuestos y otra de no expuestos a un posible factor de riesgo, o en las
pruebas de caso-control, en las que se selecciona una muestra de enfermos y otra de sanos.
Cabe indicar que, excepto en estudios de gran importancia, la obtención de la muestra a través del azar
en la población es algo utópico; así pues, tenemos que conformarnos con analizar los datos existentes,
siempre que se puedan eliminar los sesgos claros o la intencionalidad a la hora de utilizarlos para el estudio.
En ese caso, la muestra puede considerarse, cuando menos, arbitraria, lo que se considera suficiente
siempre que no se sobrevaloren los métodos aplicados.
Esto supone un error de partida que debemos estar en disposición de arrastrar en el resto del estudio,
añadido a otros que aparecerán posteriormente; es algo que debe tenerse muy en cuenta en las
conclusiones obtenidas, las cuales deberán relativizarse.
La mayoría de los métodos que aplicaremos en lo sucesivo están basados de una forma directa o indi-
recta en la teoría que comentamos a continuación.
Primero, tenemos que considerar que, si estamos estudiando una variable X definida sobre una pobla-
ción, con media μ y varianza ơ 2, a partir de una muestra supuestamente aleatoria de tamaño n, tanto la
__
media aritmética x como la varianza s2 de la muestra se entienden como variables numéricas, puesto
que podrán tomar distintos valores en función de la muestra particular que hayamos considerado.
Además, poseen una media y una varianza en relación con el conjunto de las posibles muestras de
tamaño n que pueden constituirse en la población.
51
5. Conceptos básicos de inferencia estadística
Proposición 1
Podemos verificar que la media aritmética obtenida de una muestra de tamaño n tiene media μ y
varianza ơ , y su distribución se asemeja al modelo de campana de Gauss si n es lo bastante grande.
2
n
__
Por lo tanto, tipificando la variable x , se verifica, para una n suficientemente grande, que:
√n ( x__ - μ)
ơ
Que representa un modelo de distribución N(0; 1)
52
Estadística básica
Es decir:
__ s
x - μ < 1,96 ·
√n
Es un valor que deja a cada lado una cola con el 5 % de los datos más extremos en la distribución N(0; 1).
Cuando afirmamos que en una campana de Gauss el 95 % de los datos están comprendidos en el
__
intervalo x + 2s, realmente se está realizando un redondeo del valor 1,96.
5.3. Estimación
Como hemos analizado anteriormente, los valores típicos estudiados son estimaciones o aproxi-
maciones de los parámetros de la población correspondiente, los cuales son más acertados cuanto
mayor sea la muestra. En cualquier caso, suponiendo que la muestra es aleatoria, podemos acotar el
error con cierto grado de confianza, es decir, podemos aportar un intervalo en el que se espera que se
encuentre el valor desconocido del parámetro poblacional.
Estas cotas están basadas en cálculos de probabilidad de mayor o menor complejidad según el caso.
Para un intervalo al 95 % de confianza de una media poblacional μ de una variable numérica, partiendo
__
de una muestra de tamaño n y con una media x y desviación típica s, es:
__
x ≤ 1,96 · S
√n
Por lo cual, el margen máximo de error en una estimación x con una confianza del 95 % será:
Emax= 1,96 · S
√n
Ejemplo, se pretende estimar la media, μ, del peso, que denotamos como X, de los niños de entre 10 y 15
años pertenecientes a una amplia población. Para ello se escogió una muestra (que supondremos alea-
toria) de n = 50 niños, los cuales aportaron una media aritmética de 38,3 kg con una desviación típica de 1,2.
__
En consecuencia, ya tenemos una estimación puntual de la media μ. La media aritmética es x = 38,3. El
margen máximo de error al 95 % de confianza es:
1,2 = 0.33
Emax= 1,96 ·
√50
Así pues, el intervalo de confianza al 95 % será de 38,3 + 0,33. Por lo tanto, podemos afirmar con una
confianza del 95 % que el peso medio de la población se encuentra entre 37,97 kg y 38,63 kg (Monta-
nero y Minuesa, 2018).
Emax= 1,96 · S
√n
53
5. Conceptos básicos de inferencia estadística
• Cuanto más grande sea la desviación típica de la muestra s, es decir, cuanto más variable sea la
muestra, mayor será el margen de error. Una gran dispersión de la variable a través de la mues-
tra supondrá a su vez la variabilidad de la media aritmética de la muestra. Es decir, puede haber
grandes variaciones entre una muestra y otra, lo que implica que sea poco fiable.
• Cuanto mayor es el tamaño muestral, n, menor será ese margen de error. Ciertamente, el tama-
ño de la muestra es el que amortigua la variabilidad cuantificada por s. A medida que el tamaño
de la muestra tiende a infinito, el margen de error tiende a 0.
• En algunos casos deseamos una confianza mayor, como puede ser un intervalo de confianza del
99 %. En tal situación, reemplazaremos el 1,96 por el valor que nos permita acotar dos colas
iguales con el 1 % del área. El valor será exactamente de 2,58. Se denominan por z0.05 en el primer
caso y z0.01 en el segundo. Por norma general, z es el valor que delimita dos colas, las cuales su-
man dos áreas cuyo valor es α.
Cuando nos encontramos con el caso de una variable cualitativa que posee dos categorías, como
puede ser el hecho de padecer o no una patología determinada, y queremos calcular un intervalo de
confianza para la proporción global de enfermos p a partir de la proporción p^ en la muestra sujeta
a estudio, aplicaremos la formula anterior a la variable numérica X, que da el valor 1 al individuo que
padece la patología y 0 al individuo que no la padece. Esta forma de proceder se justifica debido a que
la media aritmética de dicha variable es equivalente a la proporción muestral de individuos con pato-
logías, y la varianza vendrá determinada por p (1 - p), que en cualquier caso es inferior a 1/4, y en la que
p es la proporción de individuos que presentan la patología en el total de la población.
Entonces, para el cálculo de un tamaño de muestra conservador, que asegure un margen máximo de error
Emax en la estimación de la proporción poblacional p, es suficiente con despejar n en la siguiente fórmula:
Emax ≤ 1
√n
Un error muy habitual es asumir por defecto un margen máximo de error del 5 % a la hora de estimar
la proporción p (o lo que es lo mismo, confundirlo con la probabilidad de que el intervalo sea correcto),
puesto que esa cantidad puede resultar o no aceptable según el valor de p, el cual es desconocido.
A modo de ejemplo, será erróneo considerar un margen de error del 5 % en la estimación de la preva-
lencia de una patología rara.
54
Estadística básica
H0 ; µ = 5
H1 ; µ = 5
Para tomar la decisión de desmentir o no la afirmación, tenemos que basarnos en los datos obtenidos
de la muestra. Para ello actuaremos de la siguiente forma.
Se puede determinar la siguiente regla: si para una muestra del medicamento se obtiene una dosis
óptima de (media aritmética) que difiere mucho de 5, entonces concluiremos que la farmacéutica
miente; en caso contrario, creeremos su afirmación.
Sin embargo, nos encontramos con __ un problema: ¿cuándo se considera que la media de una muestra
“difiere mucho” del valor µ = 5? ¿ x = 4,5 difiere mucho de 5?
Siempre que se realiza un contraste de hipótesis, se formulan una hipótesis nula (H0) y una hipótesis
alternativa (H1).
Se denomina hipótesis nula (H0) a la hipótesis que se supone cierta de partida, y se denomina hipó-
tesis alternativa (H1) a la que reemplazará a la hipótesis nula cuando esta sea rechazada.
Debemos tener en cuenta que, a la hora de plantear un contraste, siempre existe una hipótesis que se
supone cierta (hipótesis H0), bien por experiencias pasadas o bien por interés.
En el ejemplo que estamos manejando, se supone que la farmacéutica está en lo cierto, es decir, que la
dosis óptima del medicamento es µ = 5.
Con base en los datos de una muestra, debemos decidir si aceptamos la hipótesis H0 como verdadera
o si, por el contrario, debe ser rechazada.
Por tanto, la realización de un contraste de hipótesis no consiste en decidir cuál de las dos hipó-
tesis (H0 o H1) es más creíble, sino en decidir si la muestra proporciona o no suficiente evidencia para
descartar H0.
Si en el contraste del ejemplo se acepta H0, solo se puede afirmar que no existe suficiente evidencia
para asegurar que la farmacéutica nos engaña, así que se debe creer su afirmación µ = 5 (puede que
nos mienta o puede que no); mientras que si se acepta H1, se podrá afirmar con bastante seguridad
que la farmacéutica se equivoca: µ = 5.
55
5. Conceptos básicos de inferencia estadística
Por tanto:
• Se “rechaza” H0 si los resultados proporcionados por la muestra son poco probables bajo la su-
posición de H0.
Cuando se lleva a cabo un contraste de hipótesis, solo existen dos decisiones posibles:
Como ya hemos visto, la toma de decisiones se basa en los datos de la muestra. No obstante, cuando
tomamos la decisión, podemos incurrir en dos tipos de errores:
• Rechazar H0 cuando esta hipótesis es realmente cierta. Este error es denominado de tipo I y se
trata de un problema de gran relevancia.
• Aceptar H0 cuando esta hipótesis es realmente falsa. Entonces nos encontramos ante un error
denominado de tipo II, el cual no presenta tanta gravedad como el de tipo I.
Lo óptimo es que tanto α como β sean nulos, es decir, que no se cometa ningún tipo de error o, a lo sumo,
que estos dos valores sean muy pequeños. El problema estriba en que no es posible disminuir ambos
errores al mismo tiempo, así que debemos atender al error de mayor importancia, el error tipo I.
Por tanto, fijamos el valor de α (nivel de significación); este debe ser un valor pequeño (α = 0,1; α =
0,05; α = 0,01).
56
Estadística básica
Determinar cuáles son las regiones de aceptación y rechazo dependerá de cómo establezcamos la
hipótesis alternativa, del siguiente modo:
P-valor
Es una probabilidad, por lo que haremos uso del cálculo de probabilidades para su obtención. Este
valor sirve para determinar en qué medida es verosímil la muestra, la hipótesis inicial H0.
Si P presenta un valor alto, esto refleja que la muestra sí es verosímil respecto a la hipótesis inicial,
por lo que no procedería rechazarla.
Por el contrario, si P presenta un valor bajo, esto indica que la muestra es poco verosímil con respecto
a H0, por lo cual, si seguimos el principio de máxima verosimilitud, la hipótesis inicial H0 debe ser
rechazada y, por consiguiente, debe aceptarse su alternativa H1.
57
5. Conceptos básicos de inferencia estadística
En segundo lugar, necesitamos determinar qué consideramos grande o pequeño o, lo que es lo mismo,
qué podemos entender como verosímil y qué entendemos por raro.
Ya hemos visto que lo raro o extremo supondrá como máximo un 5 % del total, por lo que 0,05 será el
valor de referencia o nivel de significación que se utilice habitualmente.
En resumen:
• Para una P > 0,05 podemos afirmar que la muestra es compatible con la hipótesis inicial, por lo
que el resultado no es significativo.
• Para una P < 0,05 podemos afirmar, por el contrario, que la muestra no es compatible con la hi-
pótesis inicial, y en ese caso el resultado sí se considera significativo.
Los test de hipótesis habitualmente aportan resultados no significativos si son aplicados a muestras
de pequeño tamaño.
Ocurre lo contrario en el caso de muestras de gran tamaño: se obtienen resultados significativos por
pequeñas evidencias que contradicen H0.
Si consideramos que el resultado de una prueba es significativo, podremos afirmar con claridad en
qué sentido se produce la correlación: se dará en el sentido que indique la muestra observada. Por el
contrario, cuando el resultado no sea significativo, el sentido de la correlación no podrá ser extrapo-
lado a la población.
Si estudiáramos, por ejemplo, la posible relación entre una variable cualitativa con dos categorías
y una variable numérica con medias poblacionales µ1 y µ2, respectivamente, a partir de ambas mues-
tras aleatorias podríamos determinar que existe una cierta tendencia o correlación si, por ejemplo, la
media de la primera muestra fuese superior a la media aritmética de la segunda muestra.
Podríamos pensar, igualmente, que una nueva muestra con igual tamaño puede reflejar un resultado
contrario, debido al propio azar del muestreo.
Pensando de esta forma, no es posible saber si µ1 es mayor que µ2 y viceversa, es decir, si la diferencia
entre las medias poblacionales es positiva o negativa, por lo que el 0 sería un valor posible para dicha
diferencia. Las medias podrían incluso ser iguales.
Esto da lugar a que la finalidad del test sea medir el grado de compatibilidad entre los datos obte-
nidos y la hipótesis inicial H0: µ1 = µ2 .
Dado que este procedimiento únicamente establece en qué medida la muestra es compatible con la
hipótesis inicial mediante un P-valor, si el resultado no es significativo, podemos interpretarlo como
una compatibilidad entre ambas, con lo cual la correlación observada queda en suspenso.
58
Estadística básica
Si, por el contrario, obtenemos un resultado significativo, esto indicará que la muestra es rara
respecto de la hipótesis inicial y, por tanto, no tendrá compatibilidad con ella. En tal caso, descar-
tamos la hipótesis inicial de que las medias son iguales, en favor de la superioridad de µ1 respecto a µ2.
Debemos tener en cuenta que las muestras pequeñas son de una gran variabilidad, lo que significa que
casi todas las situaciones posibles pueden ocurrir con una probabilidad bastante aceptable. Esto difi-
culta que una muestra pequeña sea considerada extrema desde el punto de vista de H0.
Por el contrario, las muestras grandes presentan un comportamiento muy regular, por lo que cualquier
pequeña desviación respecto al patrón medio teórico correspondiente a H0 puede considerarse una
circunstancia extrema según H0.
Todo lo anterior da lugar a que, en los problemas de correlación, obtengamos con bastante frecuencia
resultados no significativos con muestras pequeñas aun cuando se observen en ellas correlaciones
moderadas; en cambio, con muestras grandes obtendremos resultados significativos con facilidad
aun en el caso de que existan correlaciones pequeñas.
Siendo extremistas, se puede afirmar, por tanto, que en muestras sumamente grandes, todos los
contrastes de interés serán significativos.
Las tendencias que observamos en muestras de este tamaño son inmediatamente extrapoladas a la
población.
Para ello, vamos a utilizar el test que se emplea con más asiduidad en el campo de la bioestadística.
Utilizamos este método cuando queremos determinar la existencia de una relación significativa entre
una variable cualitativa binaria (como, por ejemplo, ser hipertenso o no serlo, ser diabético o no serlo)
y una variable numérica (índice de glucosa, presión arterial, etc.). El problema de relacionar las dos
variables deriva en un problema de comparación de medias poblacionales de la variable numérica, µ1 y
µ2 , que corresponden a cada categoría considerada.
H0 : µ1 = µ2
Si seleccionamos independientemente ambas muestras aleatorias para cada una de las categorías,
el algoritmo al que serán sometidos los datos es conocido como test de Student para muestras inde-
pendientes.
59
5. Conceptos básicos de inferencia estadística
En el siguiente gráfico se establece una comparativa de ambas muestras a través de diagramas de caja.
Figura 15. Diagramas de caja para la menarquia según la presencia de celiaquía. Fuente: Montanero Fernández,
J. y Minuesa Abril, C. (2018). Estadística básica para Ciencias de la Salud.
Por término medio, podemos apreciar que las mujeres celiacas de la muestra observan una menar-
quia algo más tardía que las mujeres sanas. Debemos analizar, pues, la significación de esta diferencia
hallada en la muestra. Solo entonces podremos afirmar que, por regla general, la celiaquía es un factor
asociado al momento de la primera menstruación. En principio, hemos de suponer que las dos varia-
bles no están relacionadas (µ1 = µ2), y evaluaremos si la muestra analizada sirve para contradecir esa
afirmación.
___ ___
Según este modelo inicial, las medias de las muestras x1 y x2 deben parecerse, lo que significa que la
___ ___
diferencia de sus medias (en bruto) x1 - x2 debería aproximarse a 0.
No se puede exigir que sea igual a 0, dado que tendremos que asumir las diferencias entre las mues-
tras provocadas exclusivamente por el azar inherente a dicho muestreo.
La problemática llega a la hora de valorar o cuantificar en qué medida esto se debe exclusivamente al
azar, con lo que nos encontramos ante un problema de cálculo de probabilidades.
La diferencia de medias muestrales debería seguir, según el modelo inicial, una distribución normal
cuya media sea 0, la cual, al tipificarla, debería seguir una distribución N(0; 1).
___ ___
x1 - x2
texp =
√
s21
n1
s2
- 2
n2
60
Estadística básica
El valor texp que obtenemos como resultado, o valor experimental, aglutina toda la información apor-
tada por la muestra estudiada en lo que se refiere al contraste de la hipótesis:
H0 : µ1 = µ2
El valor absoluto de este texp se considera una distancia (tipificada) entre ambas medias muestrales
que, según la hipótesis H0 : µ1 = µ2, debe ser mínima.
El P-valor puede definirse en este caso en particular como la probabilidad, según N(0; 1), de obtener
una distancia (tipificada) entre medias aritméticas, como mínimo, igual de grande que la observada en
la muestra.
Dicho de otra forma: P-valor representa el área de las colas determinadas por -|texp|, |texp|.
En el ejemplo considerado, texp = -2,18, por lo que le corresponde un valor P = 0,031. Según la explica-
ción anterior, este resultado debe considerarse significativo, es decir, nos inclinaremos por aceptar
la hipótesis alternativa H1 : µ1 ≠ µ2 , con lo que podemos llegar a la conclusión de que la celiaquía está
relacionada con la menarquia en el sentido indicado.
61
5. Conceptos básicos de inferencia estadística
Por el contrario, si hubiéramos obtenido un valor texp cercano a 0 o bien, dicho de otra forma, una
mínima diferencia entre las medias de la muestra, la hipótesis inicial H0: µ1 = µ2 sería más verosímil, al
asociarse a un P-valor elevado según una distribución N(0; 1).
Entendemos, por tanto, que la muestra es compatible con H0 y que no podemos extrapolar el sentido
de la tendencia observada a la población de la que procede dicha muestra.
De todos modos, en virtud del teorema central del límite, en aquellos casos en los que el tamaño de
la muestra sea suficientemente grande, podremos obviar este supuesto de normalidad, con lo que
podremos aplicar un modelo no paramétrico.
Esto ocurre habitualmente en el campo de las ciencias de la salud, aunque no por ello debemos darlo
por sentado.
62
Estadística básica
Para poder contrastar la hipótesis inicial de que una variable sigue el modelo de distribución normal
a partir de una muestra aleatoria de tamaño n, podemos utilizar diversos métodos, la mayoría de los
cuales están vinculados a aspectos gráficos.
Uno de estos métodos está basado directamente en los coeficientes de simetría y apuntamiento.
H0 : X ~ Normal
Rechazaremos la normalidad en el caso de que los datos observados la contradigan de una forma clara.
63
Parte II. Inferencia estadística
El test de Student se utiliza para concluir si hay una diferencia significativa entre las medias de dos
grupos. Es decir, será utilizado cuando queramos comparar dos medias, ya sean de poblaciones inde-
pendientes como normales, en las cuales asumiremos que esas variables dependientes siguen una
distribución normal.
• Esta variable independiente —como puede ser el sexo— tendrá como máximo dos niveles
(hombre y mujer).
65
6. Conceptos básicos de inferencia estadística
• En el caso de que la variable independiente tenga más de dos niveles, se utilizará posteriormen-
te un análisis de la variación unidireccional (ANOVA).
• Si la prueba arroja una t-valor que da una probabilidad de .01, diremos que la probabilidad de
conseguir esta diferencia que encontramos es por casualidad de una de cada cien veces.
Existen cuatro factores que influyen en que la diferencia entre dos medias sea considerada significativa:
• A más diferencia entre las dos medias, más probabilidad de que hallemos una diferencia esta-
dística significativa.
• Para determinar la importancia de la diferencia entre medias, juega un gran papel el tamaño de la
muestra. Una muestra mayor implica que las medias tienden a ser más estables y representativas.
• Las muestras han sido dibujadas de forma aleatoria a partir de sus respectivas poblaciones.
• Es unimodal.
• Es un estudio simétrico, es decir, existe el mismo número de sujetos arriba o abajo de la media,
con lo que la mitad izquierda es una imagen espejo de la mitad derecha.
• Presenta una forma acampanada, lo que significa que la altura máxima, que se corresponde con
la moda, se encuentra en el medio.
• Es un estudio asintótico (cuanto más nos alejamos de la media, más cerca nos encontraremos
del eje de X, pero nunca llegaremos a tocarlo).
• El número de individuos de las poblaciones deberá presentar la misma varianza (s12 = s22 ). En caso
contrario utilizaremos otro método para el cálculo del error estándar.
Para comparar las medias podemos utilizar dos test diferentes: el de Student, que acabamos de
describir, y otro test denominado test de Welch, el cual supone una pequeña variación respecto al
t-Student. Esto ocurre porque para el test de Student es necesario en principio que las distribuciones
de la variable numérica sean de tipo normal y con las mismas varianzas. Sin embargo, el test de Welch
únicamente requiere que se siga una distribución normal. Esta normalidad puede comprobarse a
través de un test o método gráfico.
66
Estadística básica
Si se cumple esta condición en ambas categorías, podríamos contrastar la hipótesis inicial de igualdad
de varianzas H0 : ơ12 = ơ22 a través del test de Levene. Si podemos aceptar también dicha hipótesis, el
test más propicio será el de Student. Si no podemos aceptar dicha hipótesis, utilizaremos el de Welch.
Tenemos una opción no paramétrica a ambos test la cual no exige la normalidad de las variables que
están siendo objeto del estudio. Se trata, por tanto, de una alternativa de especial utilidad con mues-
tras pequeñas. Dicha alternativa se conoce como test de Mann-Whitney, y consiste principalmente en
comparar los rangos o posiciones promedios de la variable numérica en función de cada una de las
categorías que hemos considerado.
Para realizar la prueba de Mann-Whitney, ponemos las observaciones de las dos muestras en orden
ascendente y asignamos un rango ordinal, de manera que 1 corresponde a la observación de menor
magnitud, 2 a la segunda, etc. Después, nos fijamos en las diferencias entre las observaciones.
La prueba se basa en una comparación de cada observación de una muestra xi con cada observación en
la segunda muestra yj. Si las muestras tienen la misma mediana, entonces cada observación tiene un 0.5
(50 %) de probabilidad de ser mayor o menor que la observación correspondiente de la otra muestra.
Es común encontrar que el test de Mann-Whitney compara medianas, sin embargo, esto solo es cierto
cuando las poblaciones comparadas difieren únicamente en su localización, pero el resto de las carac-
terísticas (dispersión, asimetría, etc.) son iguales.
Otro problema que nos encontramos comúnmente en estadística consiste en decidir si dos propor-
ciones son o no son iguales. Este contraste puede enfocarse de dos maneras distintas obteniéndose
resultados muy similares.
La primera forma consiste en considerar la variable cualitativa como una variable numérica a la que
le asignamos los valores 1 si la cualidad se da, y 0 si la cualidad no se da, de forma que el problema
puede solucionarse mediante el test de Student para la comparación de dos medias con muestras
independientes, siempre que dichas muestras sean lo suficientemente grandes. Esta técnica tiene
una ventaja, que es que nos proporciona un intervalo de confianza para la diferencia de proporciones.
La otra técnica consiste en ver el problema como un estudio de relación entre dos variables cuali-
tativas, para lo que aplicaremos el test X2, el cual comentaremos más adelante. Este método puede
aplicarse también a comparaciones de más de dos proporciones, siempre que se verifiquen las condi-
ciones que validan del test.
67
6. Conceptos básicos de inferencia estadística
En ANOVA de un factor únicamente relacionamos dos variables: una variable dependiente que es la
variable que queremos explicar, y una variable independiente que en esta técnica denominaremos
factor. La variable dependiente es escalar o cuantitativa y la variable independiente es categórica,
ya sea nominal u ordinal. Es necesario que las variables sigan una distribución normal, aunque esto es
difícil de cumplir cuando se trata de investigaciones sociales.
Por otra parte, es necesario que las varianzas de cada grupo de la variable independiente sean iguales,
es lo que se conoce por homocedasticidad. Aunque estas condiciones son las ideales, esto es difícil
de cumplir en la realidad, e igualmente podemos aplicar ANOVA. En el caso de que las medias de la
variable dependiente sean iguales en cada grupo o categoría de la variable independiente, no hay rela-
ción entre las variables.
Una vez aplicada la ANOVA de un factor, podemos realizar las siguientes interpretaciones:
• Significación:
Si la significación es menor de 0.05, determina que las dos variables están relacionadas, lo cual
implica que existen diferencias significativas entre los grupos.
• Valor de F:
Cuanto mayor sea este valor F, mayor es la relación entre las variables. Esto supone que las
medias de la variable dependiente se diferencian o varían significativamente entre los grupos
de la variable independiente.
ANOVA de un factor es utilizada con mucha asiduidad dentro del ámbito de las ciencias
sociales. Se utiliza especialmente en psicología y en análisis comparativo, para conocer si las
diferencias de un grupo respecto a otro son significativas, y cómo de fuertes son.
William Kruskal y W. Allen Wallis son los autores de una prueba basada en un método no paramétrico
que sirve para comprobar si un grupo de datos proviene de una misma población. En gran medida es
idéntica al ANOVA, aunque se reemplazan los datos por categorías. Visto de otro modo, es una exten-
sión de la prueba de la U de Mann-Whitney para 3 o más grupos.
Al ser no paramétrica, la prueba de Kruskal-Wallis no asume normalidad en los datos, a diferencia del
tradicional ANOVA. Sin embargo, sí asume —bajo la hipótesis nula— que los datos vienen de la misma
distribución. Una forma común en que se viola este supuesto es con datos heterocedásticos.
68
Estadística básica
2. La variable independiente debe ser una variable categórica con dos o más grupos.
3. Las observaciones deben ser independientes dentro de cada grupo y entre grupos.
4. Para considerar el test como una comparación de medianas, las distribuciones de cada uno de
los grupos deben tener la misma forma grosso modo y similar dispersión.
Este método es utilizado en ANOVA con la finalidad de crear intervalos de confianza para todas las
diferencias en parejas entre las medias de los niveles de los factores a la vez que se controla la tasa
de error por familia en algún nivel específico.
Es necesario tener en cuenta la tasa de error por familia cuando hacemos comparaciones múltiples,
puesto que la probabilidad de cometer un error de tipo I para una serie de comparaciones es superior
a la tasa de error para cualquier comparación individual.
Para compensar dicha tasa de error más elevada, el método de Tukey trata de ajustar los niveles de
confianza de cada uno de los intervalos individuales, de forma que el nivel de confianza simultáneo
resultante es igual al valor que se haya especificado.
Para ello, se calcula un valor llamado comparador de Tukey que se define de la siguiente forma:
w = q √(MSE/r)
El factor q se obtiene de una tabla (tabla de Tukey) que consta de filas de valores q para diferente
número de tratamientos o experimentos. Las columnas indican el valor de factor q para diferentes
grados de libertad. Normalmente, las tablas disponibles tienen significancias relativas de 0.05 y 0.01.
Cuando la diferencia entre dos valores medios sobrepasa al valor w (comparador de Tukey), se
concluye que se trata de promedios diferentes. Sin embargo, si la diferencia es menor que el número
de Tukey, entonces se trata de dos muestras con valor promedio estadísticamente idéntico. Al
número w se le conoce también como número HSD (diferencia honestamente significativa). Este
único número comparador puede aplicarse si el número de las muestras aplicadas para la prueba de
cada tratamiento es igual en cada uno de ellos.
69
6. Conceptos básicos de inferencia estadística
En este test se selecciona una muestra aleatoria de individuos y se les mide una variable numérica
antes de iniciar un tratamiento para volver a repetir esta medición una vez recibido el tratamiento.
En este caso, no se trata de una sola variable, sino de dos variables distintas: X1 y X2, medidas antes y
después de un determinado tratamiento, y realizándose sobre una única población, sin hacer distin-
ción entre categorías.
En los módulos anteriores, se ha visto que el test de Student de muestras independientes y el ANOVA
de un factor dan respuesta a la relación entre una variable cualitativa y una variable numérica. Sin
embargo, el test que estamos tratando se encuentra encuadrado en el estudio de la relación entre dos
variables numéricas.
En el caso de que el tratamiento aplicado sea efectivo, se producirá una evolución, es decir, una varia-
ción entre los valores de X1 y X2.
Ese cambio no tiene por qué producirse en un mismo sentido para todos los individuos, pero, en cual-
quier caso, al menos se dará por término medio, por lo que dicho problema se puede traducir en una
comparación entre las respectivas medias µ1 y µ2.
El test de Student para muestras relacionadas consiste en estimar la diferencia entre ambas varia-
bles, d = X1 - X2, cuya media es µd = µ1 - µ2, y contrastar la hipótesis inicial.
70
Estadística básica
H0 : µd = 0
Para realizar esta estimación, consideramos la media aritmética y desviación típica de la diferencia y
___
confrontamos el valor d a través de la tabla t-Student(n - 1), similar a la N(0; 1).
texp =
sd
√n
En el test de Student para muestras relacionadas, suponemos que se verifica que la variable d sigue
una distribución normal.
Esta condición se puede contrastar mediante un test de normalidad, aunque como hemos visto en
otros casos, el resultado del test se puede considerar válido aunque la diferencia no siga una distribu-
ción normal, siempre que la muestra sea lo suficientemente grande.
Este test de Wilcoxon es una prueba no paramétrica para comparar el rango medio de dos muestras
relacionadas y determinar si existen diferencias entre ellas. Se utiliza como alternativa a la prueba de
Student, si es imposible suponer normalidad en las muestras.
Se trata de una prueba no paramétrica de comparación de dos muestras relacionadas, por lo que no
precisa una distribución específica, sino que utiliza el nivel ordinal de la variable dependiente.
Se usa para comparar dos mediciones relacionadas y determinar si la diferencia entre ellas se debe al
azar o no (en este último caso, que la diferencia sea estadísticamente significativa). En cualquier caso,
como ya hemos visto, contamos con alternativas no paramétricas, de especial utilidad para muestras
pequeñas.
En este test se ordenan los valores absolutos de las diferencias y se les asignan unos rangos. A conti-
nuación, a estos rangos les asignamos un signo + o - en función de la diferencia. Para finalizar, compa-
ramos la suma de los rangos positivos con la de los negativos que, bajo la hipótesis inicial, deben ser
similares.
La hipótesis nula es H0 : Ø = 0. Retrotrayendo dicha hipótesis a los valores Xi, yi originales, esta viene a
decir que son, en cierto sentido, del mismo tamaño.
Para verificar la hipótesis, en primer lugar, se ordenan los valores absolutos |z1|, |z2|, ..., |zn|, y se les
asigna su rango Ri.
Como ya se ha comentado, con esta prueba se comparan las diferencias entre dos muestras de
datos tomados antes y después de un tratamiento, y se espera que el valor central sea 0. Aquellas
71
6. Conceptos básicos de inferencia estadística
diferencias iguales a 0 se eliminan, y el valor absoluto de las desviaciones respecto del valor central
se ordena de menor a mayor.
A aquellos datos que son iguales, se les asigna el lugar medio en la serie. A la hora de sumar los rangos
lo haremos por separado, en función de los signos positivos y los negativos.
S representa la más pequeña de las dos sumas. Compararemos S con el valor de las tablas estadís-
ticas utilizadas al efecto para determinar si rechazamos o no la hipótesis nula, según el nivel de signi-
ficación elegido.
Normalidad o muestras
Test de Student (2)
grandes
Muestras
independientes
No normalidad y Test de Mann-
muestras pequeñas Whitney
Normalidad de la diferencia o
Test de Student (1)
muestra grande
Muestras apareadas
No normalidad de la dife-
Test de Wilcoxon
rencia y muestra pequeña
72
Estadística básica
Una vez calculado el valor del coeficiente de correlación, sería interesante averiguar si ese
valor muestra que las variables X e Y están realmente relacionadas o solo presentan tal rela-
ción como consecuencia del azar. Es decir, nos preguntamos por la significación de dicho coefi-
ciente de correlación. Decimos que un coeficiente de correlación es significativo si podemos
afirmar, con una cierta probabilidad, que es distinto a cero.
H0 : rxy = 0 → Significa que el coeficiente de correlación procede de una población con una corre-
lación igual a cero (p = 0).
√
Sr =
1 - rxy2
N-2
Por lo tanto, a partir de cierto coeficiente de correlación rxy obtenido en una determinada
muestra, pretendemos comprobar que dicho coeficiente es posible que se encuentre dentro
de la distribución especificada por la hipótesis nula.
73
6. Conceptos básicos de inferencia estadística
Es recomendable utilizar este coeficiente de correlación cuando los datos reflejen valores
extremos, puesto que esos valores afectarán mucho al coeficiente de correlación de Pearson,
lo mismo que ocurrirá ante distribuciones no normales. No se ve afectado por los cambios en
las unidades de medida.
6∑D2
Su estadístico está determinado por la expresión p = 1 -
N (N2 - 1) , donde D es la diferencia
entre los estadísticos de orden de x - y. Consideramos N como el número de parejas de datos.
Debemos considerar la existencia de datos idénticos a la hora de ordenarlos, pero si estos son
pocos, tal circunstancia puede ser ignorada.
√
(1 - p2)
(n - 2)
Podemos interpretar el coeficiente de Spearman del mismo modo que interpretamos el coefi-
ciente de correlación de Pearson. Sus valores oscilan entre -1 y +1, y estos valores indican
asociaciones negativas o positivas respectivamente. El valor 0 implica no correlación, pero no
implica independencia.
Mediante la regresión lineal múltiple podemos generar un modelo lineal en el cual el valor de la variable
dependiente o respuesta (Y) vendrá determinado por un conjunto de variables independientes que
denominamos predictores (X1, X2, X3, ..., Xn). Se trata de una extensión de la regresión lineal simple.
Estos modelos de regresión múltiple pueden ser utilizados para realizar predicciones sobre el valor
de la variable dependiente o para hacer una evaluación de la influencia que tienen los predictores
sobre ella, aunque esto último debe ser analizado con cautela para no malinterpretar causa-efecto.
• ß0: es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predicto-
res son cero.
• ß1: es el efecto promedio que produce el incremento en una unidad de la variable predictora Xi
sobre la variable dependiente Y, manteniendo constantes el resto de variables. Son conocidos
como coeficientes parciales de regresión.
• ei: es el residuo o error, la diferencia entre el valor observado y el valor estimado por el modelo.
74
Estadística básica
Se debe tener en cuenta que la magnitud de cada coeficiente parcial de regresión dependerá de las
unidades en las que hacemos la medición de la variable predictora a la que corresponde, por lo que su
magnitud no está asociada con la importancia de cada predictor.
Para determinar qué influencia tiene en este modelo cada variable, utilizamos los coeficientes
parciales estandarizados que obtenemos al estandarizar —es decir, al sustraer la media y dividir
entre la desviación estándar— las variables predictoras, para lo que previamente se habrá realizado
un ajuste del modelo.
n - (q + 1) R2
El test de correlación múltiple depende del estadístico Fexp = · , donde q es el
q 1 - R2
número de variables explicativas.
El valor Fexp se confronta con la tabla de la distribución Fq, n - (q + 1), que con n suficientemente grande es
aproximadamente igual a la de una distribución X2 (q).
√
__
Emax = 1,96 · Sy · 1 d2 (x, x)
(1 - R ) (1 +
2
n
+ n )
En términos relativos, podemos decir que la precisión de la estimación depende de tres factores: el
valor de R2 obtenido, el tamaño de la muestra n y la posición del individuo sobre el que se efectúa la
predicción respecto a la muestra estudiada.
Los coeficientes B0, B1, B2 y B3 de la ecuación son propios de la muestra estudiada y deben interpre-
tarse como simples estimaciones de coeficientes ß0, ß1, ß2 y ß3 poblacionales.
De cualquier modo, es posible calcular intervalos de confianza para estos coeficientes, y además se
pueden calcular los llamados test parciales, que permiten contrastar hipótesis iniciales del tipo H0 : ß1 = 0,
H0 : ß2 = 0, o H0 : ß3 = 0.
75
6. Conceptos básicos de inferencia estadística
Por último, se confronta el estadístico texp con una tabla de la distribución t-Student.
Cuando las variables explicativas tienen una fuerte correlación entre sí, se producen redun-
dancias entre estas que se traducen en una gran disminución de los coeficientes de correlación
parcial y, por lo tanto, se producen un gran número de resultados no significativos en los test
parciales. Es decir, se produce una multicolinealidad.
Una opción puede ser eliminar estas variables de una en una, calculando nuevamente el modelo
en cada uno de los casos, hasta que se obtenga un modelo con resultados significativos en cada
uno de los test parciales. Este método se denomina método de selección hacia atrás o backward.
6.5. Test X2
En este método, aplicamos un test de correlación parecido al coeficiente de correlación lineal de Pearson
pero sustituyendo r por una medida de asociación a nivel cualitativo: el coeficiente de contingencia C.
El resultado del test está basado únicamente en el grado de correlación que se observa en la muestra,
el cual se cuantifica a través de C2, Ø2, r2 o R2 y el tamaño de esta.
Entendemos por valores esperados aquellos que indican la independencia absoluta entre las dos
variables.
Para utilizar la prueba X2, el nivel de medida debe ser nominal o superior. No tiene un límite superior,
por lo que no permite conocer la intensidad de la correlación. Es decir, el X2 toma valores que oscilan
entre 0 e infinito.
76
Estadística básica
Por otra parte, si aumentamos la muestra, aumentará también el valor de X2, pero hay que ser cautos
en su interpretación, puesto que eso no significa que haya una mayor correlación.
El estadístico X2 toma un valor igual a 0 cuando existe concordancia perfecta entre las frecuencias
observadas y las esperadas. Por el contrario, el estadístico toma un valor elevado cuando existe una
gran discrepancia entre las frecuencias observadas y las esperadas y, en consecuencia, deberemos
rechazar la hipótesis nula.
La prueba X2 requiere de ciertas de condiciones de validez, entre las que tenemos que se debe contar
con una cantidad suficiente de datos, sobre todo si queremos distinguir un gran número de catego-
rías en las variables estudiadas. En caso contrario se agruparán categorías hasta que lleguemos, si es
necesario, a una tabla 2 x 2.
Si aun en el caso de llegar a una tabla 2 x 2 el número de datos es demasiado pequeño —que el valor
esperado de alguna de las casillas Eij sea menor a 5—, se debe aplicar la alternativa no paramétrica
conocida como test exacto de Fisher. Esta prueba es utilizada cuando queremos estudiar si dos varia-
bles cualitativas están asociadas, es decir, si las proporciones de una variable son distintas depen-
diendo del valor que adquiera la otra variable. El test de Fisher proporciona mayor precisión que sus
equivalentes aproximados cuando el número de eventos esperado por nivel es pequeño.
Es de suma importancia tener en cuenta que el test de Fisher está diseñado para aquellos casos en
los que las frecuencias marginales de filas y columnas (los totales de cada fila y columna) son fijas, es
decir, son conocidas de antemano. Esta condición es de especial relevancia en los experimentos bioló-
gicos, ya que suele ser común poder cumplirla.
• H0: las variables son independientes, por tanto, una variable no varía entre los distintos niveles
de la otra variable.
• H1: las variables son dependientes, lo que indica que una variable varía entre los distintos niveles
de la otra variable.
Los estudios epidemiológicos referentes a factores de riesgo son considerados casos particulares en
tablas tipo 2 x 2, que dan lugar a las medidas conocidas como riesgo relativo y odds ratio. En términos
poblacionales, estos parámetros se denotan RR (riesgo relativo) y OR (odds ratio).
En caso de que un determinado factor suponga un riesgo para una enfermedad determinada se
traduce RR > 1 o bien OR > 1, según la medida de riesgo considerada.
H0 : RR = 1 o H0 : OR = 1
77
6. Conceptos básicos de inferencia estadística
Donde:
c d
Slog
2 ^
RR = +
a (a + b) b (b + d)
78
Glosario
Bioestadística:
Aplicación particular de la estadística al análisis de datos obtenidos de las ciencias biomédicas.
Carácter:
Sobre una población se pueden estudiar uno o varios caracteres. El carácter se puede entender como
una noción común, como por ejemplo el sexo, la edad, el peso, la talla, etc.
Coeficiente de asimetría:
Indica el grado de asimetría o sesgo que se da en una distribución de datos.
Covarianza:
Es el valor que refleja en qué cuantía varían dos variables aleatorias de forma conjunta respecto a sus
medias. Nos permite saber cómo se comporta una variable en función de lo que hace otra variable.
Cuartiles:
Es un tipo de medida de posición. Son tres valores de la distribución que la dividen en cuatro partes
de igual frecuencia. El primer cuartil (Q1) deja por debajo al 25 % de los sujetos y por encima al 75 %
restante. El segundo cuartil (Q2) deja el 50 % de sujetos tanto por encima como por debajo. El tercer
cuartil (Q3) deja por debajo al 75 % de los sujetos y por encima al 25 % restante.
79
Glosario
Curtosis (o apuntamiento):
Es una medida de forma que mide cuán escarpada o achatada está una curva o distribución. Este
coeficiente indica la cantidad de datos que hay cercanos a la media.
Datos estadísticos:
Valores de la variable para cada elemento o individuo de la muestra. Los datos son hechos, informa-
ciones y cifras que se recogen, analizan y resumen para su presentación e interpretación.
Desviación típica:
Representa la dispersión de la distribución y se expresa en la misma unidad de medida de la variable.
Representa la raíz cuadrada de la varianza.
Diagrama de barras:
Es una forma de representar gráficamente un conjunto de datos o valores, conformado por barras
rectangulares de longitudes proporcionales a los valores representados.
Diagrama de sectores:
Es un gráfico que consiste en un círculo dividido en sectores de amplitud proporcional a la frecuencia
de cada valor. Se utiliza con datos cualitativos y cuantitativos.
Diagrama tallo-hoja:
Es muy similar al histograma de frecuencias absolutas, ya que cada dato se identifica con una cifra de la
derecha que indica el valor de las unidades, siendo la correspondiente a su izquierda el valor de las decenas.
Distribución asimétrica:
Aquella distribución en la que la media no coincide con la mediana, con la moda o con ninguna de las
dos. También llamada sesgada.
Distribución simétrica:
Aquella distribución en la que media, mediana y moda coinciden en el mismo punto de la distribución.
Si una distribución es simétrica, se dice que no tiene sesgo o que su sesgo es igual a cero.
80
Estadística básica
Elementos o individuos:
Objetos o personas que contienen información que se pretende estudiar.
Error aleatorio:
Error debido al azar. Son debidos a la variabilidad en la medición de variables, por limitaciones en el
proceso de medida. Disminuye si se aumenta el tamaño de la muestra. Cuanto menor sea, mayor precisión.
Error tipo I o α:
Error cometido al inferir que existe una relación causal entre variables, pero la relación solo existe en
la muestra y no en la población.
Error tipo II o ꞵ:
Error cometido al inferir que no existe relación causal entre variables porque la relación no existe en
la muestra y sí en la población.
Estadística descriptiva:
Técnicas que se encargan de organizar, resumir, presentar y describir los datos de manera informativa.
Estadística inferencial:
Técnicas que se encargan de estimar los parámetros poblacionales a partir de una muestra.
Estadística:
Ciencia que recoge, organiza, presenta, analiza e interpreta con el fin de propiciar una toma de deci-
siones más eficaz.
81
Glosario
Estadístico:
Función real medible, que se obtiene de los datos observados en la muestra.
Estimación:
Adjudicar un valor aproximado a los parámetros desconocidos, sin hacer hipótesis previa sobre
dichos valores. Puede ser puntual o por intervalos.
Estimador:
Estadístico que aproxima el valor del parámetro.
Histograma:
Representación gráfica de una variable en forma de barras, donde la superficie de cada barra es
proporcional a la frecuencia de los valores representados.
Media ponderada:
Es una medida de tendencia central, apropiada cuando, en un conjunto de datos, cada uno de ellos
tiene una importancia relativa (o peso) respecto de los demás datos.
Media truncada:
Es la media aritmética que se obtiene una vez se ha excluido el 5 % de datos más extremos.
Media:
Suma de todos los valores de una variable dividido entre el número total de datos.
Mediana:
Valor de la variable de posición central en un conjunto de datos, una vez ordenados.
Método estadístico:
Procedimientos para el manejo de los datos cualitativos y cuantitativos de la investigación. Tiene
cinco etapas: recolección, recuento, presentación, descripción y análisis.
Moda:
Valor con mayor frecuencia absoluta en un conjunto de datos.
82
Estadística básica
Muestra:
Parte la población sobre la que se realizan mediciones. Para que esta sea representativa de una pobla-
ción, los elementos deben ser seleccionados aleatoriamente.
Muestreo:
Método para elegir la muestra a partir de una población.
Parámetro:
Es una característica medida de una población completa. Un ejemplo de ello sería la proporción de
mayores de 75 años con fractura de cadera.
Percentil:
Medida de posición que indica —una vez ordenados los datos de menor a mayor— el valor de la
variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo. Por
ejemplo, un individuo en el percentil 20 de altura significa que un 20 % de los individuos de su misma
edad y sexo medirían menos, y el 80 % medirían más que él.
Población:
Es un conjunto de medidas o recuento de todos los elementos que contienen información que se
desea estudiar. Puede ser finita (si conocemos el número exacto de sus elementos) o infinita (cuando
no conocemos el número exacto).
Polígonos de frecuencia:
Representación gráfica resultante de unir los puntos medios de los intervalos contiguos de un histo-
grama.
Rango (R):
Expresa la diferencia entre el valor mayor y el menor.
Rango intercuartílico:
Diferencia entre el tercer cuartil y el primero (Q3-Q1).
Regresión a la media:
Sucede al seleccionar sujetos con valores extremadamente altos o bajos de una característica que
varía con el tiempo. Al medir por segunda vez la característica, su valor va a tender a aproximarse a la
media de la población, ya que hay más sujetos próximos a la media poblacional que en los extremos.
83
Glosario
Variable dependiente:
Llamada también variable de resultado o consecuente. Se mide para ver los efectos debidos a la
variable independiente o predictora y se identifica con el efecto posible. Se da, por tanto, después en
el tiempo que la variable independiente.
Variable independiente:
Llamada también variable antecedente o predictora. Se identifica con la causa supuesta. Se da antes
en el tiempo que el efecto.
Variable:
Elemento que puede tomar cualquier valor de los comprendidos en un conjunto. Una variable esta-
dística es cada una de las características o cualidades que poseen los individuos de una población.
Pueden ser, cuantitativas y cualitativas (según su medición) o dependientes e independientes (según
su influencia en la investigación).
Variables cualitativas:
Agrupan cualidades o atributos, en la que los casos de estudio pueden formarse dos grupos. Por
ejemplo, hombre-mujer, estudiante-no estudiante, con empleo-sin empleo, etc.
Variables cuantitativas:
Aquellas variables que pueden medirse, cuantificarse, permiten una descripción o representación
numérica. Estas variables atendiendo a los valores que pueden tomar se clasifican en variables
discretas y continuas. Por ejemplo, edad, número de hijos, peso, etc.
Varianza:
Media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la
distribución.
84
Bibliografía
Cobo, E., Muñoz, P. y González, J. A. (2007). Bioestadística para no estadísticos. Barcelona: Elsevier
Health Sciences Spain.
Martín, A. y Luna del Castillo, J. (2004). Bioestadistica+: Para las ciencias de la salud (5). Madrid:
Norma-Capitel Editores.
Martínez, M. Á., Sánchez-Villegas, A., Toledo, E. A. y Faulin, J. (Eds.) (2020). Bioestadística amigable.
Barcelona: Elsevier.
Milton, J. S. (2001). Estadística para biología y ciencias de la salud. Madrid: Mc Graw Hill.
Montanero, J. y Minuesa, C. (2018). Estadística básica para Ciencias de la Salud. Alicante: Universidad
de Alicante.
Pita, S. y Pértega, S. (1997). Relación entre variables cuantitativas. Cuadernos de Atención Primaria, 4,
141-4.
Wasserstein, R. y Lazar, N. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The
American Statistician, 70(2), pp. 129-133. Doi: 10.1080/00031305.2016.1154108
85
Autora
D.ª María Isabel Fernández Vázquez