Apuntes EACS 23-24
Apuntes EACS 23-24
Apuntes EACS 23-24
Ciencias de la Salud
Fernando Plo y Javier Tejel
Con este material se pretende facilitar la labor de estudio, dando una visión
completa, rápida y sencilla de las diferentes técnicas estadísticas básicas que se
emplean en las Ciencias de la Salud, sin entrar en la mayoría de los casos en los detalles
técnicos ni en los fundamentos matemáticos complejos que hay detrás de ellas.
Deben pensarse más bien como una herramienta para facilitar el estudio de la
asignatura. En la bibliografía de la guía docente se recomiendan otros libros y manuales
para completar y ampliar los contenidos presentados en estos apuntes.
Tabla de contenidos
Prólogo ............................................................................................................................................... 2
0. La Estadística ......................................................................................................................... 5
1. Estadística descriptiva univariante ................................................................................... 7
1.1. Introducción ............................................................................................................... 7
1.2. Variables estadísticas .............................................................................................. 7
1.3. Tabla de frecuencias ............................................................................................... 10
1.4. Representaciones gráficas ..................................................................................... 12
1.5. Medidas descriptivas ............................................................................................... 18
1.5.1. Medidas de tendencia central ................................................................. 18
1.5.2. Medidas de posición .................................................................................. 23
1.5.3. Medidas de dispersión .............................................................................. 25
1.5.4. Gráfico de caja........................................................................................... 30
1.5.5. Medidas de forma...................................................................................... 32
1.6. Síntesis de datos tabulados .................................................................................. 35
1.7. Transformaciones de variables. Tipificación .................................................... 36
1.8. Otros estadísticos utilizados en Ciencias de la Salud .................................... 38
1.9. Ejercicios ................................................................................................................... 40
2. Estadística descriptiva bivariante .................................................................................. 53
2.1. Introducción ............................................................................................................. 53
2.2. Dos variables cualitativas ...................................................................................... 53
2.2.1. Tabla de contingencia ............................................................................... 54
2.2.2. Distribuciones condicionadas y marginales ......................................... 55
2.2.3. Independencia en variables cualitativas .............................................. 60
2.3. Una variable cualitativa y otra cuantitativa ...................................................... 65
2.4. Dos variables cuantitativas ................................................................................... 67
2.4.1. Diagrama de dispersión ............................................................................ 68
2.4.2. Correlación .................................................................................................. 69
2.4.3. Regresión lineal simple ............................................................................. 77
2.5. Ejercicios ................................................................................................................... 84
3. Cálculo de probabilidades .................................................................................................. 94
3.1. Introducción ............................................................................................................. 94
3.2. Concepto intuitivo de probabilidad ...................................................................... 95
3.3. Experimentos y sucesos ......................................................................................... 96
3.4. Definición de probabilidad..................................................................................... 98
3.5. Probabilidad condicionada e independencia de sucesos .................................. 99
3.6. Teorema de la probabilidad Total y Teorema de Bayes ................................ 101
3.7. Pruebas diagnósticas ............................................................................................. 103
3.8. Ejercicios ................................................................................................................. 108
4. Variables aleatorias ........................................................................................................... 114
4.1. Introducción ............................................................................................................ 114
4.2. Definición intuitiva de variable aleatoria .......................................................... 115
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
4.3.
Variables aleatorias discretas ............................................................................. 116
4.3.1. Propiedades ................................................................................................ 116
4.3.2. Bernouilli de parámetro p ....................................................................... 119
4.3.3. Binomial de parámetros n y p ................................................................. 121
4.3.4. Poisson de parámetro .......................................................................... 123
4.4. Variables aleatorias continuas ............................................................................ 124
4.4.1. Propiedades ............................................................................................... 124
4.4.2. Uniforme en el intervalo [a,b] .............................................................. 128
4.4.3. Exponencial de parámetro a .................................................................. 129
4.4.4. Normal (0,1) .............................................................................................. 130
4.4.5. Normal () .............................................................................................. 133
4.5. Ejercicios ................................................................................................................. 134
Tabla de la N(0,1) ................................................................................................... 141
5. Inferencia estadística ..................................................................................................... 142
5.1. Introducción ........................................................................................................... 142
5.2. Población y muestra............................................................................................... 142
5.3. Técnicas de muestreo ........................................................................................... 143
5.4. Estimación de parámetros ................................................................................... 145
5.5. Distribuciones de los estadísticos en el muestreo ........................................ 148
5.6. Intervalos de confianza ....................................................................................... 153
5.6.1. Intervalo de confianza para X conocida X...................................... 154
5.6.2. Intervalo de confianza para X estimando X ................................... 156
5.7. Contraste de hipótesis ......................................................................................... 157
5.7.1. Contraste H0: X = m, conocida X ....................................................... 159
5.7.2. Contraste H0: X = m, estimando X .................................................... 164
5.7.3. Otros contrastes ..................................................................................... 166
5.8. Cálculo del tamaño muestral................................................................................ 168
5.9. Ejercicios ................................................................................................................. 169
Tablas de la t de Student .................................................................................... 175
Apéndice I. Manejo de sumatorios ......................................................................................... 176
Apéndice II. Soluciones a algunos ejercicios ....................................................................... 180
4
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
0. La Estadística
5
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
6
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.1. Introducción
En este tema y el siguiente, nos centraremos en lo que hay que hacer una vez
tengamos el conjunto de datos, para sacar la mayor cantidad de información sobre los
mismos y en la forma más útil posible. En este tema, aprenderemos a describir cada una
de las variables estadísticas por separado. En el siguiente tema veremos técnicas para
describir conjuntamente varias variables y estudiar posibles relaciones entre ellas.
7
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
8
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
El conjunto de todos los valores que puede tomar una variable estadística es su
dominio o rango de valores, y cada uno de esos posibles valores se llama modalidad,
categoría o nivel de la variable.
9
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: conviene resaltar que las variables de tipo continuo siempre se nos proporcionan
“discretizadas”, con un número específico de decimales, debido a la precisión de los
instrumentos de medida. No hay que confundir el “carácter intrínseco” de una variable
continua con la “forma” en la que se nos proporciona la información.
Consideramos una variable que puede tomar k modalidades distintas, y los n valores
particulares que toma esa variable en una muestra. Llamamos frecuencia absoluta de
una modalidad al número de veces que aparece esa modalidad en la muestra. Llamamos
tabla de frecuencias absolutas a una tabla que lista todas las modalidades que toma la
variable, en esa muestra concreta, junto con la frecuencia absoluta con la que aparecen.
l m l l l xl xl l m m l m s m m
m l m l s m m m l m m s s m s
m l m s m s m s m l l l s s m
l m m s s s s m s m s
Talla s m l xl
Frec. Abs. 16 24 14 2
10
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Talla s m l xl
Porcentaje 28,57 42,86 25,00 3,57
Cuando las modalidades se pueden ordenar (esto es, para variables cualitativas
ordinales o para variables cuantitativas) también puede resultar útil trabajar con las
frecuencias acumuladas: número de observaciones que toman esa modalidad o una
modalidad menor. En el ejemplo anterior, considerando la talla como una variable ordinal
y codificando las modalidades s=1, m=2, l=3, xl=4, la tabla de frecuencias y porcentajes
acumulados sería:
Talla 1 2 3 4
Frec. Acum. 16 40 54 56
% Acum. 28,57 71,43 96,43 100
Las tablas de frecuencia son poco útiles para variables que toman un número muy
elevado de modalidades distintas en la muestra, como es habitual en el caso de variables
cuantitativas continuas. Un método para poder utilizar la tabla de frecuencias también
con una variable continua es transformarla en discreta o categórica, utilizando
intervalos de clase, que son un conjunto de intervalos disjuntos que cubren el rango de
valores que toma la variable. Para que sean disjuntos, tienen que ser intervalos
semiabiertos. El procedimiento se simplifica si son, además, de la misma longitud. Vamos
a ilustrar el procedimiento con un ejemplo.
175 162 167 166 174 168 169 165 161 165 171 172 160
167 164 175 178 168 176 160 159 167 168 161 175 164
173 161 158 159 159 157 170 168 166 165 162 160 157
163 166 156 156 161 173 167 168 178
11
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
156 156 157 157 158 159 159 159 160 160 160 161 161
161 161 162 162 163 164 164 165 165 165 166 166 166
167 167 167 167 168 168 168 168 168 169 170 171 172
173 173 174 175 175 175 176 178 178
No existe una regla única para elegir el número de intervalos en los que categorizar
o discretizar una variable continua. Algunas cuestiones relacionadas con el número de
clases que conviene tomar y cuál es la forma mejor de definir los intervalos se
comentarán en las clases con ordenador.
Nota: observa que la nueva variable se puede interpretar como variable cualitativa,
considerando los intervalos como las modalidades de la nueva variable, y también se puede
interpretar como variable discreta, considerando las marcas de clase como los valores de la
nueva variable.
Los gráficos son la representación visual de la información que contienen los datos.
Se han convertido en una herramienta imprescindible para comunicar de forma sencilla
algunas peculiaridades de las variables y también son una gran ayuda en el análisis
exploratorio de los datos.
12
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Conviene que sean sencillos, autodefinidos (para que el que las consulta tenga a la
vista toda la información relevante) y precisos (para que no induzcan a errores o malas
interpretaciones).
Diagrama de barras
En el eje de abscisas (X) se anotan las modalidades. Las escribe en orden y por lo
tanto la interpretación es más natural cuando la variable es ordinal o cuantitativa. En el
eje de ordenadas (Y) se anotan las frecuencias absolutas (o los porcentajes).
Sobre cada modalidad se dibuja una barra de forma que su altura es proporcional
a la frecuencia (o al porcentaje) de esa modalidad en la muestra. Como las frecuencias
y los porcentajes son cantidades proporcionales, el aspecto del gráfico será el mismo
en los dos casos.
Número 1 2 3 4 5 6 7 8 9 10
Frecuencia absoluta 0 1 7 5 7 5 13 12 3 3
13
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
12
10
8
Frecuencias
6
4
2
0
2 3 4 5 6 7 8 9 10
Número
Diagrama de sectores
Talla s m l xl
Frecuencia 16 24 14 2
Porcentaje 28,57 42,86 25,00 3,57
14
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Talla de camiseta
m
xl
20
10
0
s m l xl
Talla de camiseta
Ni los diagramas de barras ni los de sectores son adecuados para describir las
variables que toman un número muy elevado de modalidades distintas. Este es el caso
de la mayoría de variables cuantitativas. Para este tipo de variables se utilizan otros
gráficos, como el histograma, el gráfico de tallo y hojas, o el diagrama de caja que se
describirá en la siguiente sección.
15
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Histograma
6
4
2
0
Altura
16
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Ya hemos dicho anteriormente que no existe una regla fija para decidir cuántos
intervalos tomar ni con qué amplitud, de cara a discretizar una variable cuantitativa.
Una de las reglas más extendida es la regla de Sturges, que se comentará en las clases
con ordenador. En la práctica, como todos los paquetes estadísticos llevan ya
implementadas alguna de esas reglas, los histogramas que usaremos serán los que genere
el paquete estadístico que estemos manejando.
Otra herramienta sencilla para ‘visualizar’ la distribución de unos datos, pero sin
perder de vista su individualidad como datos, es el diagrama de tallo y hojas.
Ilustraremos su construcción utilizando el mismo conjunto de datos del ejemplo 1.4.
Para facilitar las cuentas, partimos de los datos ordenados de las alturas del
ejemplo 1.4 (aunque no es imprescindible).
156 156 157 157 158 159 159 159 160 160 160 161 161
161 161 162 162 163 164 164 165 165 165 166 166 166
167 167 167 167 168 168 168 168 168 169 170 171 172
173 173 174 175 175 175 176 178 178
Vemos que el rango de alturas se mueve entre 156 y 178. Tomamos como tallos
los dos primeros dígitos de cada dato, y como hojas el tercero. Tendremos 3
tallos: 15, 16 y 17, que representan 3 clases (de 150 a 159, de 160 a 169 y de
170 a 170). Pero para que el diagrama sea útil se recomienda que tenga, al
menos, 5 tallos y por eso vamos a duplicar el número tallos, reduciendo los
rangos a la mitad. Las 6 nuevas clases serán: 150 a 154, 155 a 159, 160 a 164,
165 a 169, 170 a 174 y 175 a 179. Como no hay ningún dato en la primera clase,
la eliminamos. Nos quedan 5 clases.
15 66778999
16 000111122344
16 5556667777888889
17 012334
17 555688
17
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Pero interpretar adecuadamente las tablas y los gráficos es un arte, para el que
hace falta entrenamiento. Es por ello conveniente disponer de números que describan
las características fundamentales de la distribución de la variable: posición central,
dispersión de los datos en torno a esa posición central, simetría, etc., de forma que su
interpretación sea sencilla.
Es razonable que esas medidas de resumen que buscamos sean funciones, más o
menos simples, de los datos de los que disponemos. Llamamos estadísticos a las
funciones que se calculan a partir de la muestra. Los estadísticos, si se escogen
adecuadamente, pueden ayudar a describir las características fundamentales de la
distribución de la variable. Veamos a continuación los principales estadísticos que se
utilizan habitualmente para ayudar a describir una variable.
18
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Media aritmética
𝑥 +𝑥 +⋯+𝑥
𝑋=
𝑛
1
𝑋= 𝑥
𝑛 =
19
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
4. Solo tiene sentido para variables numéricas, aunque algunos autores defienden su
uso también para algunas variables de tipo ordinal codificadas numéricamente (por
ejemplo, valora de 1 (muy negativa) a 10 (muy positiva) tu opinión sobre ...).
Moda
Se obtiene por recuento, y por tanto se puede calcular para cualquier tipo de
variable. La moda tiene una interpretación muy natural, pero puede no ser única. Para
variables con muchas modalidades distintas (es el caso habitual de las variables
numéricas) no se suele utilizar, a menos que estén agrupadas en clases.
Talla s m l xl
Frec. Abs. 16 24 14 2
Para variables agrupadas en clases, la clase que aparece más veces en la muestra
es la clase modal.
La clase modal es el intervalo (163, 167], que tiene como marca de clase el
valor 165.
20
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Mediana
Si hay un número par de observaciones, tenemos dos números que compiten por la
posición central (los que ocupan las posiciones n/2 y (n/2)+1). En este caso se toma como
mediana la media de esas dos observaciones. Nótese que si estas dos observaciones son
distintas, la mediana no será uno de los datos de la muestra.
156 156 157 157 158 159 159 159 160 160 160 161 161
161 161 162 162 163 164 164 165 165 165 166 166 166
167 167 167 167 168 168 168 168 168 169 170 171 172
173 173 174 175 175 175 176 178 178
Como n=48, los dos datos centrales son 166 y 166 (los que ocupan las
posiciones 24 y 25 en la ordenación). La mediana de las alturas será el
promedio de esos dos valores, que es 166.
21
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
0 0 0 0 0 0 0 5 5 5 5 6 8 8
9 10 10 10 10 10 15 15 17 17 19 20 20 20
20 20 23 23 23 26 27 30 30 40 50 50 50 50
60 60 60 70 100 100 100 114 117 200 200 300 350 450
Para estos datos, la moda sería 0, la media 53,3 y la mediana 20. De estas
tres medidas de tendencia central, quizá la más adecuada en este ejemplo
sea la mediana, debido a la fuerte asimetría que presentan los datos. Esta
asimetría se puede ver fácilmente obteniendo un histograma o un diagrama
de tallo y hojas.
40
30
Frecuencias
20
10
0
Número.de.DVD
22
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Percentiles
La mediana, tal y como la hemos definido, es mayor o igual que, al menos, el 50%
de los datos de la muestra (y también es menor o igual que, al menos, el 50% de los
datos). Esta definición se puede extender a cualquier tanto por ciento k entre 0 y 100.
150, 160, 160, 165, 185, 200, 200, 200, 210, 250
23
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Hay otras definiciones de percentil para las que el percentil 50 siempre coincide
con la mediana. Estas definiciones son mejores para algunas aplicaciones, pero también
son más engorrosas de cálculo (en Hyndman and Fan, The American Statistician 50
(1996), pp. 361-365, se describen algunas). A modo de ejemplo, vamos a explicar sólo
uno de estos métodos alternativos para el cálculo de percentiles, que es el que lleva
implementado R-Commander por defecto, al que llamaremos método “average”.
Ejemplo 1.15. Cálculo del percentil 40 para la longitud del palmo de la mano
derecha con el método average. Los datos ordenados eran:
150, 160, 160, 165, 185, 200, 200, 200, 210, 250
Los cuartiles y los deciles son los casos particulares de percentiles más utilizados.
Si tomamos k = 25, 50 y 75 tenemos los cuartiles P25 = Q1, P50 = Q2 y P75 = Q3. Los
cuartiles dividen la muestra ordenada en cuatro grupos de, aproximadamente, igual
tamaño. Llamamos deciles a los percentiles Pk para los que k es múltiplo de 10. Los
denotamos Di = P10*i, i = 1, ..., 9. Los deciles dividen la muestra ordenada en 10 grupos de
aproximadamente igual tamaño.
24
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: obsérvese que P50, Q2, D5 son distintas notaciones para el mismo concepto, y coinciden
con la mediana Med(X) cuando se calculan con el método average.
Vamos a ver a continuación las principales medidas que se han propuesto para
cuantificar esta variabilidad o dispersión de los datos de una muestra.
Rango muestral
Rango intercuartílico
Una medida de dispersión semejante al rango muestral, pero más robusta frente a
valores extremos o frente a errores en los datos, es el rango intercuartílico RI, que se
define como RI = Q3 - Q1.
Utilizando los datos y resultados del ejemplo 1.13, y calculando los cuartiles
a través de la tabla de porcentajes acumulados, tenemos:
25
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
𝑥 − 𝑋, 𝑥 − 𝑋, … , 𝑥 − 𝑋
A estas distancias se las suele denominar datos centrados. Los datos mayores que
la media dan distancias positivas y los menores dan distancias negativas. Es inmediato
comprobar que la suma de todas ellas es cero.
1
𝑆 = 𝑥 −𝑋
𝑛−1 =
Nota: Algunos libros llaman varianza muestral a 𝑚 , e incluso lo denotan como S2. Por tanto,
es conveniente que comprobéis qué definición de varianza se utiliza cuando uséis o citéis
otros libros. En estos apuntes nosotros utilizaremos la definición anterior, en la que se divide
por n-1, y esta es también la fórmula que se utiliza en la mayoría de los paquetes estadísticos
(entre ellos R).
Todos los estadísticos definidos hasta ahora se expresaban en las mismas unidades
que la variable. Por ejemplo, la media de alturas en cm también se expresa en cm. Pero
S2 es función de los cuadrados de los ‘datos centrados’ y, por lo tanto, se expresa en el
cuadrado de las unidades de las observaciones. En el caso de alturas, en cm2.
Para tener una medida de dispersión en las mismas unidades que los datos
originales, se calcula la raíz cuadrada de la varianza muestral S2, lo que proporciona lo
que se conoce con el nombre de desviación típica muestral
√
𝑆= 𝑆
S es la medida de dispersión más popular. Sólo hay que tener cuidado con esta
medida de dispersión cuando haya dudas sobre si la media muestral es adecuada como
medida de tendencia central.
26
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1
𝑆 = 𝑥 − 𝑛(𝑋 )
𝑛−1 =
𝑆
𝐶𝑉 =
𝑋
27
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
en el B, pero si nos interesa saber en qué barrio hay una mayor dispersión
relativa habrá que calcular el CV.
M(Y) = a + b*M(X)
S(Y) = b*S(X)
28
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
muestral de 29,75 libras con una desviación típica muestral de 2,2 libras. Se
desea comparar la dispersión relativa en los dos grupos.
Al ser las escalas de medida distintas en los dos grupos, vamos a pasar el peso
en libras en Estados Unidos (X) al peso en kilogramos en Estados Unidos (Y).
Sabiendo que 1 kg = 2,20462 libras, la transformación sería Y =
(1/2,20462)*X, donde a es 0 y b vale 1/2,20462. La media y desviación típica
de Y son entonces:
La dispersión medida con S es mayor en Gran Bretaña (1,5 kg) que en Estados
Unidos (0,997 kg). Si nos interesa la dispersión relativa, calcularemos los
coeficientes de variación:
29
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Por ejemplo, para los datos de la variable ‘Número de DVD’ (ver Ejemplo 1.13)
0 0 0 0 0 0 0 5 5 5 5 6 8 8
9 10 10 10 10 10 15 15 17 17 19 20 20 20
20 20 23 23 23 26 27 30 30 40 50 50 50 50
60 60 60 70 100 100 100 114 117 200 200 300 350 450
los cinco números anteriores son los siguientes, donde los cuartiles están calculados con
el método average:
30
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
400
300
Número
200
100
0
Antes de describir las características del gráfico y su relación con los cinco
números anteriores, vamos definir los llamados ‘datos atípicos’ (outliers) para este
gráfico. El rango intercuartílico (RI = Q3-Q1) se emplea para detectarlos. Se hace la
suposición de que los valores razonables de la variable no serán mayores que Q3 + 1,5*RI,
ni menores que Q1 – 1,5*RI. A los valores que están fuera de estos límites se les suele
denominar atípicos. Además, a los valores que están a una distancia superior a 3*RI de
los correspondientes cuartiles se le conoce como valores ‘muy atípicos’ o valores atípicos
extremos.
El gráfico de caja es muy útil para visualizar la distribución de una variable y para
detectar sus datos atípicos. Se construye de la siguiente manera. Su parte central es
una caja. La caja empieza en la posición del primer cuartil (Q1), que le sirve de base, y
termina en la posición del tercero (Q3), que le sirve de tapa. Dentro de esa caja hay una
línea horizontal, en la posición de la mediana (Q2). Una línea vertical une el tercer cuartil
y el mayor valor de la muestra que no es atípico. Otra línea vertical une el primer cuartil
y el menor valor de la muestra que no es atípico (estas dos líneas se conocen como
‘bigotes’). Por último, los valores atípicos se marcan con círculos y los extremos también
con círculos o con asteriscos.
31
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Por último, resaltar que, dependiendo del método de cálculo de los cuartiles, el
aspecto del gráfico puede variar un poco. Así, en el ejemplo de los DVD, si se hubiese
utilizado la primera definición de percentil, Q1 y Q3 valdrían 8 y 50, el rango
intercuartílico habría sido 42 y habrían salido también como valores atípicos los valores
113 y 117.
Vamos a ver en esta sección las dos medidas más utilizadas para estudiar la forma
de unos datos, en cuanto a su simetría y su apuntamiento.
Coeficiente de asimetría
𝑚
𝐶𝐴 =
𝑆
1
𝑚 = (𝑥 − 𝑋 )
𝑛 =
32
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
unos datos simétricos (CA = 0,03), mientras que el gráfico de la derecha muestra unos
datos asimétricos a la derecha (CA = 1,12).
30
20
30
15
20
20
10
10
10
5
0
0
0
Nota: existen algunas definiciones alternativas del coeficiente de asimetría, que son
pequeñas variantes de la definición anterior. Algunos paquetes estadísticos, como R,
permiten calcular el coeficiente de asimetría de diferentes formas, Al coeficiente anterior
se le suele denominar ‘de tipo 3’, mientras que, por ejemplo, al coeficiente de asimetría
calculado de la forma CA = [n2/((n-1) (n-2))] m3/S3, se le suele denominar ‘de tipo 2’.
Obsérvese que los dos coeficientes son prácticamente iguales cuando el tamaño muestral n
es grande.
Como en el caso del coeficiente de asimetría, también vamos a suponer que los
datos provienen de una variable cuantitativa para la que la media es una medida de
tendencia central adecuada.
𝑚
−3 𝐶𝐶 =
𝑆
donde el numerador del cociente es el momento central de cuarto orden
1
𝑚 = (𝑥 − 𝑋 )
𝑛 =
Nota: algunos paquetes estadísticos permiten calcular el coeficiente de curtosis con unas
fórmulas ligeramente distintas, como sucedía con el coeficiente de asimetría.
33
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
-4 -3 -2 -1 0 1 2 3 4
Si obtenemos una muestra de una variable estadística que sigue este modelo de
distribución, obtendríamos un histograma semejante a la campana de Gauss, un
coeficiente de asimetría próximo a 0 y un coeficiente de curtosis próximo a 0.
34
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
En muchas situaciones prácticas, en lugar de los datos originales tenemos los datos
resumidos en una tabla de frecuencias. En estas situaciones, las fórmulas de cálculo de
los estadísticos se modifican ligeramente para incorporar las frecuencias.
Supongamos que nos dan la siguiente tabla de frecuencias, donde los xi representan
los k diferentes valores de una variable X y los ni las frecuencias absolutas asociadas a
los xi.
modalidad frecuencia
x1 n1
x2 n2
… …
xk nk
𝑛= 𝑛
=
1
𝑋= 𝑥𝑛
𝑛 =
1
𝑆 = (𝑥 − 𝑋 ) 𝑛
𝑛−1 =
Número de urgencias 0 1 2 3 4 5 7
Frecuencia 6 8 9 10 12 4 1
35
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1
𝑋= (0 ∗ 6 + 1 ∗ 8 + 2 ∗ 9 + 3 ∗ 10 + 4 ∗ 12 + 5 ∗ 4 + 7 ∗ 1) = 2,62
50
1
𝑆 = ((0 − 2,62) ∗ 6 + (1 − 2,62) ∗ 8 + ⋯ + (7 − 2,62) ∗ 1) = 2,689
49
𝑋−𝑋
𝑍=
𝑆
Con esta transformación se obtiene para cada observación xi, una nueva
observación
𝑥 −𝑋
𝑧 =
𝑆
36
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
37
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Por ejemplo, podemos definir una variable que toma valor 1 si el individuo estudiado
tiene una enfermedad determinada y un 0 si no la tiene. Notemos que, en este caso, el
número de personas enfermas en la muestra es la suma de los valores de esa variable y
la proporción de individuos enfermos coincide con su media aritmética. Si multiplicamos
la media por 100 tendremos el porcentaje de la muestra que tiene esta enfermedad.
Incidencia
Hay 18 niños que han desarrollado la enfermedad en 2008. Notemos que esto
excluye a los individuos que fueron diagnosticados en 2007 o antes, y que
siguen padeciendo la enfermedad. La incidencia de la diabetes en 2008 (en
esa Comunidad Autónoma) es la proporción (o el porcentaje, si se multiplica
por 100) de la muestra (en este caso, de toda la población entre 0 y 15 años
en esa Comunidad Autónoma) que desarrollaron la enfermedad en 2008:
38
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
En los casos en los que el porcentaje es tan pequeño se suelen expresar los datos
en individuos por cada 100.000 personas en la muestra (o cada 50.000 o cada 1.000.000,
…). En el ejemplo anterior, la incidencia habría sido 11,26 casos por cada 100.000
personas de la Comunidad Autónoma en el grupo de edad entre 0 y 15 años y en 2008.
Prevalencia
39
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.9. Ejercicios
1.2. Identifica el tipo de las variables de la encuesta que se rellenó el primer día de
clase. (Ver cuestionario en la web de la asignatura).
4 5 3 2 5 4 4 3 4 4 10 2 5 2 5 5 6
0 6 2 4 6 2 2 3 1 0 4 2 8 1 4 3 7
3 8 0 8 4 1 3 2 2 2 3 7 2 5 4 1
(a) Organiza los datos en una tabla de frecuencias absolutas y relativas (en
porcentaje).
(b) Dibuja, de forma esquemática, el diagrama de barras de esta muestra.
(c) Agrupa los datos en cuatro clases (0-1, 2-3, 4-5, 6 o más) y dibuja, de forma
esquemática, el diagrama de sectores de esta muestra.
(d) Escribe, brevemente y con tus propias palabras, la información que
proporcionan la tabla de frecuencias y los gráficos.
(e) Calcula las medidas de tendencia central y dispersión que tengan sentido para
estos datos. Describe la variable utilizando estas medidas.
40
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.5. Nos han proporcionado la siguiente tabla de frecuencias de la variable edad para
una muestra de 1501 adolescentes. Calcula los valores X1, X2, X3, X4, X5 y X6 que
completarían esta tabla.
0 0 0 0 0 0 0 5 5 5 5 6 8 8
9 10 10 10 10 10 15 15 17 17 19 20 20 20
20 20 23 23 23 26 27 30 30 40 50 50 50 50
60 60 60 70 100 100 100 114 117 200 200 300 350 450
41
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
23 3 5,4 58,9
26 1 1,8 60,7
27 1 1,8 62,5
30 2 3,6 66,1
40 1 1,8 67,9
50 4 7,1 75,0
60 3 5,4 80,4
70 1 1,8 82,1
100 3 5,4 87,5
114 1 1,8 89,3
117 1 1,8 91,1
200 2 3,6 94,6
300 1 1,8 96,4
350 1 1,8 98,2
450 1 1,8 100,0
Total 56 100,0
(c) Calcula, usando la definición vista en clase, los percentiles 5, 10, 25, 50, 75, 90
y 95. Calcula también la mediana. Calcula los percentiles anteriores usando el
método average.
(d) Dibuja el diagrama de caja (boxplot) de estos datos.
(e) Calcula las medidas de tendencia central y dispersión que tengan sentido para
estos datos. Describe la variable utilizando estas medidas.
1.7. Nos han proporcionado una tabla de frecuencias de las edades de una muestra de
110 estudiantes.
42
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
43
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
59 4 10,0 67,5
60 10 25,0 92,5
62 3 7,5 100
Total 40 100
1.11. La MEDIA RECORTADA es una medida de tendencia central que se calcula como
la media muestral, pero eliminando de la muestra un porcentaje prefijado de los
datos extremos (después de ordenarlos). Este estadístico utiliza más información
de la muestra que la mediana, y es menos sensible (más robusta) que la media a
valores extremos o a errores.
(a) Calcula la media recortada si eliminamos, en cada extremo (a) el 10%, (b) el
20%, (c) el 30% y (d) el 40%.
(b) Comprueba que, para esta muestra, la media recortada al 40% coincide con la
mediana.
(c) Indica razonadamente si es cierta o no la siguiente frase: ‘en una muestra de
tamaño 100, la media recortada al 48% coincide con la mediana’.
1.12. Se dispone del número de eritrocitos (en millones por mm3) obtenidos por análisis
de sangre en una muestra de 100 varones adultos. Los estadísticos descriptivos y
el histograma de dicha variable son los siguientes:
44
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
20
15
Frecuencia
10
5
0
Eritrocitos
1.13. Calcula los percentiles 25, 50 y 75, y la mediana, para la muestra formada por los
8 datos siguientes: 1, 3, 5, 7, 11, 13, 17, 19. Calcula estos mismos estadísticos con
R-Commander. ¿Hay algo que te llame la atención?
1.14. Comprueba que coinciden las siguientes fórmulas de la varianza muestral (ver
también el Apéndice I):
1
𝑆 = (𝑥 − 𝑋 )
𝑛−1 =
1
𝑆 = 𝑥 − 𝑛𝑋
𝑛−1 =
45
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.15. Hemos detectado un error en los datos del problema 11, con la medida del palmo
en mm. en una muestra de 10 personas. Tras corregirlo y volver a ordenar los datos,
tenemos los siguientes datos.
150 160 160 165 185 200 200 200 210 250
1.18. Al año siguiente se repite el estudio para comparar el gasto medio mensual en
medicamentos por unidad familiar en Londres (L) y en Zaragoza (Z). Ahora los
datos son: en Londres es M(L) = 10,5 libras y S(L) = 1,9 libras. En Zaragoza es M(Z)
= 11,5 euros y S(Z) = 2 euros.
46
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.19. Se quiere comparar el perímetro craneal de recién nacidos a partir de una muestra
obtenida en España (variable ES) y otra muestra obtenida en EEUU (variable EU).
Se han obtenido los siguientes datos:
47
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.22. La red de vigilancia de la gripe en una Comunidad Autónoma está registrando los
contagios en la población entre 0 y 15 años (1334592 personas). El lunes de la
tercera semana de 2008 el sistema tiene registrados 802 enfermos,
diagnosticados las semanas anteriores, que todavía no se han recuperado. Los
nuevos casos en la tercera semana son los siguientes
El sistema registra 822 personas que ya tenían gripe a comienzo de la sexta semana
de 2008, en la que se detectan 1012 infectados nuevos. En esa comunidad autónoma
y para ese grupo de edad,
Mujeres Hombres
173,6 169,9
163,2 174,5
147,9 165,4
158,7 177,2
161,5 162,1
173,3 174,1
154,2 163,9
166,3 159,0
158,0 158,2
157,8 175,8
48
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(c) Si te piden comparar las alturas, teniendo en cuenta el sexo ¿crees que la
mujer que mide 166,3 es, relativamente, más alta que el hombre que mide
169,9? ¿Y es más alta que el hombre que mide 174,1?
1.24. El consumo en kWh que una compañía eléctrica ha facturado a un consumidor entre
abril de 2012 y octubre de 2013 es el siguiente (nótese que los periodos de
facturación son irregulares).
Periodo kWh
abril 2013 133
mayo 114
junio 106
julio 104
agosto 111
septiembre 107
septiembre 14
octubre 94
noviembre 110
diciembre 110
enero 127
febrero 97
marzo 120
abril 88
junio 195
agosto 219
octubre 2013 193
49
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
250
200
150
100
50
1.25. El museo arqueológico nacional presenta en su página web una pestaña con ‘El museo
en números”. En ella da información del número de visitantes, espacios, ingresos,
préstamos y colecciones en exposición. Para hacer más claras estas estadísticas,
recurren también a utilizar gráficos. En particular, para el número de colecciones
utilizan un diagrama de sectores:
50
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(a) Indica las razones para utilizar un diagrama de sectores en este caso.
(b) Entra en esa página web, explora las otras características de las que ofrecen
estadísticas (visitantes, espacios, etc.) e indica las razones por las que te
parecen adecuados (o no) los gráficos utilizados para hacer más atractiva y
fácil de asimilar esta información.
Número de ingresos 0 1 2 3 4 5 6 7
Hospitales 7 11 10 7 1 2 1 1
51
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Número de cambios 1 2 3 4 5
Estudiantes 14 20 32 10 4
1.28. Tenemos los datos (ordenados) de una muestra de la variable X: 6, 9, 9.5, …, 14,
15, 17, 17, 20. También sabemos que la mediana es 10.5 y que el primer y tercer
cuartil son Q1 = 10, Q3 = 12. Dibuja el diagrama de caja, e indica los topes de los
bigotes y cuántos atípicos hay en esta muestra y cuáles son sus valores.
52
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
2.1. Introducción
Si las dos variables son cuantitativas, la herramienta gráfica que vamos a utilizar
para describir su distribución conjunta es el diagrama de dispersión. La relación lineal
entre las dos variables la mediremos a través del coeficiente de correlación de Pearson.
53
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
entrada, que también se llama tabla de contingencia. Dichas tablas también se emplean
cuando las variables de partida son cuantitativas que toman pocas modalidades.
Y b1 b2 ... bm
X
a1 n11 n12 ... n1m n1.
a2 n21 n22 ... n2m n2.
... ... ... ... ... ...
ak nk1 nk2 ... nkm nk.
n.1 n.2 ... n.m
Observa que hemos llamado ni. = ni1 + ni2 +... + nik a la suma de las frecuencias en la
fila i-ésima. Por lo tanto, ésta es la frecuencia de la modalidad ai para la variable X en
la muestra, sea cual sea el valor de la variable Y. La columna de la derecha, con los
valores (n1.,..., nk.), es la distribución de frecuencias (marginal) de la variable X. La suma
de los ni. es el tamaño muestral n (esto es, n1. + n2. +... + nk. = n).
De forma análoga, hemos denotado con n.j = n1j + n2j +... + nkj a la suma de las
frecuencias de la modalidad bj en la columna j-ésima. La fila de abajo, con los valores
(n.1,..., n.m) es la distribución de frecuencias (marginal) de la variable Y. La suma de los
n.j también coincide con n (n.1 + n.2 +... + n.m = n).
54
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Sexo
hombre mujer Total
Talla de s 0 16 16
camiseta m 1 23 24
l 4 10 14
xl 2 0 2
Total 7 49 56
Nótese que, en una tabla de contingencia, algunos de los pares (ai,bj) pueden tener
frecuencia 0. En el ejemplo anterior, no hay ninguna persona en las casillas (s, hombre)
o (xl, mujer).
Suele ser muy usual trabajar con la tabla de contingencia en porcentajes en lugar
de con frecuencias absolutas. En ese caso, el porcentaje correspondiente al par (ai, bj)
se obtiene dividiendo su frecuencia nij entre el tamaño de la muestra n. Así, la
distribución conjunta en porcentajes en el ejemplo anterior sería:
Sexo
hombre mujer Total
Talla de s 0,00 28,57 28,57
camiseta m 1,78 41,07 42,85
l 7,14 17,86 25,00
xl 3,58 0,00 3,58
Total 12,50 87,50 100
Del total de estudiantes, un 28,57% son mujeres que usan talla de camiseta s y un
3,58% son hombres que usan talla de camiseta xl.
55
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Distribuciones condicionadas.
Hay que resaltar que estas variables condicionadas son variables estadísticas
univariantes, y se estudian con las herramientas de la Estadística Descriptiva que
hemos visto en el Tema 1.
56
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
40
30
Porcentaje
20
10
0
s m l xl
Talla
Regularidad en la realización
de ejercicio físico
alta moderada baja Total
Año 93 5 13 8 26
95 0 17 5 22
96 4 10 7 21
97 3 11 9 23
98 2 8 8 18
Total 14 59 37 110
Suele ser de utilidad expresar a la vez todas las condicionadas por filas (o por
columnas) en porcentajes. Esto permite comparar el comportamiento de las
57
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Regularidad en la realización
de ejercicio físico
alta moderada baja Total
Año 93 19,23 50,00 30,77 100
95 0,00 77,27 22,73 100
96 19,05 47,62 33,33 100
97 13,04 47,83 39,13 100
98 11,12 44,44 44,44 100
Total 12,73 53,64 33,63 100
Distribuciones marginales.
En una tabla de contingencia, a los totales, (n1., n2., nk.) y (n.1, n.2, n.m) se les conoce
con el nombre de distribuciones marginales (porque aparecen en los márgenes de la
tabla). Para cada una de las filas, el total ni. representa el número de individuos que
toman la modalidad ai de la variable X, independientemente de cuál haya sido su valor
en la variable Y. Igualmente, para cada una de las columnas, n.j representa el número de
individuos que toman la modalidad bj de la variable Y, independientemente de cuál haya
sido su valor en la variable X. Por tanto, las marginales permiten recuperar las
distribuciones, por separado, de las variables X e Y.
Regularidad en la realización
de ejercicio físico
alta moderada baja AÑO
Año 93 5 13 8 26
95 0 17 5 22
96 4 10 7 21
97 3 11 9 23
98 2 8 8 18
EJERCICIO 14 59 37 110
58
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Año 93 95 96 97 98
frecuencia 26 22 21 23 18
Observa que la suma de las frecuencias de cada una de las variables es 110,
el tamaño de la muestra.
Sexo
hombre mujer TALLA
s 0 16 16
Talla m 1 23 24
l 4 10 14
xl 2 0 2
SEXO 7 49 56
59
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1. Si sabemos que ese gen está asociado con la enfermedad, de forma que todo
individuo con ese gen (X=1) desarrolla la enfermedad (Y=1), y toda persona sana (Y=0)
no presenta ese gen (X=0), decimos que entre X e Y hay dependencia determinística.
Los valores de una de las variables automáticamente determinan los valores de la otra.
3. Puede ocurrir que haya enfermos que no presentan el gen, y que haya individuos
que presentan el gen y no estén enfermos, pero que el porcentaje de enfermos (Y=1)
sea mucho mayor entre los que presentan el gen (X=1) que entre los que no (X=0). En
esta situación decimos que entre X e Y hay una dependencia estadística. El
comportamiento de una de las variables es distinto para las diferentes modalidades de
la otra.
60
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Regularidad en la realización
de ejercicio físico
baja moderada alta Total
¿Bebe regularmente? sí 18 37 13 68
no 19 22 1 42
Total 37 59 14 110
Regularidad en la realización
de ejercicio físico
baja moderada alta Total
¿Bebe regularmente? sí 26,5% 54,4% 19,1% 100,0%
no 45,2% 52,4% 2,4% 100,0%
Total 33,6% 53,6% 12,7% 100,0%
61
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Ejercicio
baja moderada alta
50
40
Porcentaje
30
20
10
0
sí no
¿Bebe regularmente?
Nota: para poder decir algo sobre la población a partir de una muestra, es preciso que esta
muestra sea representativa. En el bloque de inferencia describiremos procedimientos de
muestreo, en particular el muestreo aleatorio simple, que permiten asegurar que las muestras
sean suficientemente representativas de la población.
62
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Con los datos del Ejemplo 2.6, el valor del estadístico Chi-cuadrado es 8,453 y el
p-valor es 0,015. Como este p-valor es menor que 0,05, este contraste permite rechazar
la independencia y diremos que hay dependencia entre Beber y Regularidad en la
realización de ejercicio físico en la población de la que se ha extraído esta muestra. El
contraste nos permite confirmar las discrepancias que ya habíamos observado a través
de los porcentajes de las filas o través del diagrama de barras agrupadas.
63
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Hiperlipemia
Sí No Total
Ciudad A 62 138 200
B 120 180 300
Total 182 318 500
Las ciudades se han puesto como filas, por conveniencia, pero también se
habrían podido poner como columnas y todo lo que sigue seguiría siendo válido.
Cuando los tamaños de las muestras no son iguales, conviene usar los
porcentajes para comparar. La tabla de porcentajes para las distribuciones
condicionadas por filas se muestra a continuación.
Hiperlipemia
Sí No Total
Ciudad A 31% 69% 100%
B 40% 60% 100%
Total 36,4% 63,6% 100%
Nota: como en el contraste de independencia, para aplicar Chi-cuadrado es necesario que las
muestras sean representativas de las poblaciones de las que se han obtenido.
64
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Con los datos del Ejemplo 2.7, el valor del estadístico Chi-cuadrado es 4,199 y el
p-valor es 0,040. Por lo tanto, este contraste permite rechazar la homogeneidad y decir
que la proporción de personas con hiperlipemia es distinta en las dos ciudades (en la
ciudad B hay una mayor hiperlipemia).
Talla de zapatos
Altura en cm 37 38 39 40
156 1 0 0 0 1
158 1 0 0 0 1
159 1 1 1 0 3
160 1 1 1 0 3
161 1 3 0 0 4
162 0 1 0 0 1
163 1 0 0 0 1
164 1 0 1 0 2
165 0 2 0 1 3
166 0 1 1 1 3
167 2 2 0 0 4
168 1 0 1 1 3
169 0 0 1 0 1
170 0 0 1 0 1
171 0 0 1 0 1
172 0 0 0 1 1
173 0 0 0 2 2
174 0 0 0 1 1
175 0 1 1 1 3
178 0 0 0 2 2
Total 10 12 9 10 41
65
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
165
160
37 38 39 40
Número
Este otro gráfico, llamado diagrama de puntos por grupos, también muestra esa
tendencia de crecimiento de la altura conforme crece la talla de zapatos. En el gráfico,
cada uno de los puntos representa la altura de un individuo.
66
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Talla 37
Altura
Talla 38
Altura
Talla 39
Altura
Talla 40
Altura
Supongamos que las dos variables X e Y que se desean estudiar conjuntamente son
cuantitativas. En esos casos, normalmente alguna de las dos variables (o las dos) toma
muchas modalidades distintas y la tabla de contingencia se hace muy grande e inútil
para entender la distribución de (X,Y).
67
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
20
10
5 10 15 20 25 30
biceps
Observa cómo el gráfico representa todos los pares de la muestra con respecto a
unos ejes de coordenadas cartesianas. En el eje de abscisas se representan las
modalidades de una de las variables, X, y en el eje de ordenadas las modalidades de la
otra variable, Y. Para cada par (xi,yi) de la muestra se marca el punto con esas
coordenadas en el plano (en este ejemplo, con “o”).
68
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
2.4.2. Correlación
En lo que sigue de este tema, asumimos que X e Y son variables numéricas que no
toman valores muy extremos y que la muestra no tiene datos erróneos. En este caso, la
media muestral es una medida adecuada de tendencia central y S es una medida
adecuada de dispersión. Por comodidad en la escritura, denotaremos indistintamente la
media muestral de X como M(X) o 𝑋 y la de Y como M(Y) o 𝑌 ̅ .
Covarianza
1
𝐶𝑜𝑣(𝑋, 𝑌 ) = 𝑥 − 𝑋 𝑦 − 𝑌̅ + ⋯ + 𝑥 − 𝑋 𝑦 − 𝑌̅ =
𝑛−1
1
= 𝑥 − 𝑋 𝑦 − 𝑌̅
𝑛−1 =
Nota: En algunos libros se define la covarianza dividiendo por n. Para pasar de nuestra
definición a la suya, bastaría multiplicar Cov(X,Y) por la constante (n-1)/n.
Para hacer las cuentas a mano, suele ser más cómodo utilizar la siguiente fórmula,
que es equivalente a la anterior:
𝑛
𝐶𝑜𝑣(𝑋, 𝑌 ) = (M(X*Y)-M(X)*M(Y))
𝑛−1
En esta fórmula, X*Y es una variable auxiliar que se construye como producto de
X e Y, y su media 𝑋𝑌 = M(X*Y) es (x1y1 + x2y2 +... + xnyn)/n.
69
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Bíceps Tríceps
Producto de
Bíceps por Tríceps
N 205 205 205
Media 9,37854 18,18634 208,47112
Nota: todos los paquetes estadísticos llevan la posibilidad de calcular las covarianzas
muestrales entre dos o más variables. A continuación, tenéis la covarianza entre las dos
variables anteriores calculada con R-Commander.
Valores grandes (en valor absoluto) de Cov(X,Y) indican una relación estadística
lineal entre X e Y, esto es, que los puntos estarán relativamente próximos a una recta.
Si Cov(X,Y) es positiva, esa recta es creciente, y si es negativa, decreciente. Para
justificar esta interpretación debemos hacer notar que el signo de Cov(X,Y) depende
solo del numerador, que es la suma de los productos de todos los datos de X e Y,
centrados. Vamos a ilustrar cómo varía esa suma y cómo se distribuyen los datos en el
plano con algunos ejemplos.
70
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
40
30
triceps
20
10
5 10 15 20 25 30
biceps
Los únicos puntos que aportan valores de (bi-M(B))(ti-M(T)) negativos son los
(pocos) que están en el segundo y el cuarto cuadrante.
Por tanto, a la vista del dibujo, esperaríamos que la covarianza fuera positiva
y relativamente grande. Esto es coherente con la covarianza que hemos
calculado para estos datos en el ejemplo 2.10: Cov(B,T) = 38,096 > 0.
En resumen, la covarianza es positiva y en el gráfico se aprecia una relación
aproximadamente lineal y creciente (de pendiente positiva) entre las
variables.
71
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Ejemplo 2.12. (Ver también ejercicio 2.11) Marcas (en segundos) obtenidas
en la carrera de los 5000 metros, hombres, en los campeonatos de Europa
celebrados entre 1934 y 1990.
820
800
Año
Se ha dibujado una recta vertical que pasa por la media de los Años, M(Año)
= 1963,9 años, y una recta horizontal que pasa por la media de las Marcas,
M(Marca) = 827,5 segundos. Vemos que no hay ningún punto en los cuadrantes
1 y 3.
En este caso, a los años por encima de la media les corresponden marcas por
debajo de la media y a los años por debajo de la media les corresponden
marcas por encima de la media. Todos los sumandos que forman la covarianza
son negativos y, por tanto, también lo será la covarianza, que resulta ser
Cov(Año, Marca) = -411,831.
72
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
tras ingerir distintas cantidades de alcohol, han permitido que se les realice
el análisis de saliva (X) y el de sangre (Y).
0.8
0.6
sangre
0.4
0.2
0.0
saliva
Vemos que los datos de (X,Y) están repartidos por los cuatro cuadrantes de
forma aparentemente aleatoria. Esto es, los valores de X (medición en saliva)
por encima de su media (0,493) están asociados tanto a valores de Y (medición
en sangre) por encima de su media (0,4372), como a valores de Y que están
por debajo de su media. Lo mismo ocurre para los datos de X que están por
debajo de su media.
Sin embargo, que la covarianza sea nula o muy pequeña NO garantiza que los datos
sean independientes. Sólo que no tienen dependencia estadística lineal. Pero podrían
tener otro tipo de relación, como se ilustra en el siguiente ejemplo.
73
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Ejemplo 2.14. (Ver también el ejercicio 2.14) Una muestra con n = 21 valores
de la variable (X,Y) tiene el siguiente gráfico de dispersión:
1.0
0.8
0.6
Y
0.4
0.2
0.0
Resulta claro que Y = X2. Esta relación se comprueba examinando los datos
originales. Para calcular la covarianza, obtenemos las medias de X, de Y, y del
producto X*Y a partir de los 21 datos de la muestra.
X Y X*Y
N 21 21 21
Media 0,0000 0,3667 0,0000
La covarianza nula nos indica que no hay dependencia estadística lineal. Pero
puede haber dependencia estadística de otro tipo, e incluso una dependencia
funcional, como ocurre en este caso concreto.
La covarianza podría ser útil para decidir si hay o no relación lineal entre X e Y,
pero para ello habría que responder a la siguiente cuestión. ¿Para qué valores podemos
decir que la covarianza es “prácticamente nula”? No se puede contestar de forma
sencilla a esta pregunta porque la covarianza depende de las unidades de medida. El
siguiente ejemplo ilustra esta dificultad.
74
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
𝐶𝑜𝑣(𝑋, 𝑌 )
𝑟(𝑋, 𝑌 ) =
𝑆(𝑋) 𝑆(𝑌 )
B T B*T
9,379 18,186 208,471 < Media
5,096 8,423 198,640 < Desv Tip
75
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: en las prácticas de ordenador veremos herramientas que nos permitirán decidir si
existe relación lineal o no entre dos variables, cuando el coeficiente de correlación sea
cercano a cero. En concreto, veremos cómo contrastar la hipótesis de que el coeficiente de
correlación es 0 en toda la población de la que se ha extraído la muestra.
76
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Ejemplo 2.17: (Ver también el ejercicio 2.12) Se cree que es posible detectar
la presencia de una sustancia en la sangre (Y) por la presencia de un
metabolito de esa sustancia en la orina (X). Se han obtenido los siguientes
datos, expresados en nanogramos por mililitro (ng/mL), con un experimento
realizado con una muestra de 14 varones sanos:
X Y
5 25,2
7,2 28
8 35
9 41
9,5 42
9,6 44
11 35,8
13 47
14 55
15 53
17 59
18 58,5
20 64,5
23 76
5 10 15 20
Concentración en orina
77
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Este gráfico sugiere una relación estadística lineal entre X e Y. Si somos capaces
de encontrar una recta, y = f(x) = a + b*x, que se ajuste bien a estos datos y si podemos
medir X (la concentración en orina) para un nuevo individuo (sea xn+1) pero no podemos
obtener yn+1 (no podemos hacerle un análisis de sangre), entonces f(xn+1) podría ser una
aproximación razonable de ese valor yn+1 desconocido.
A continuación, vamos a explicar cómo obtener la recta que ‘mejor se ajusta’ a los
datos, de cara a realizar predicciones.
Para analizar la relación entre X e Y, una vez obtenidos los datos (x1,y1), …, (xn,yn)
de las variables en la población o la muestra, el primer paso será obtener el diagrama
de dispersión de (X,Y). El gráfico sugerirá si hay relación o no, y si la hay, de que tipo
es esta relación (lineal, parabólica, exponencial, etc.).
Para encontrar esas dos constantes a* y b* hay que definir qué significa ajustarse
bien a los datos. Existen diferentes criterios sobre cuando una recta se considera que
78
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
se ajusta bien a unos datos. Uno de esos criterios, el criterio de mínimos cuadrados, es
el más empleado y es el que explicamos a continuación.
Gráficamente, los residuos no son mas que las ‘distancias verticales’ de los puntos
(xi,yi) a la recta Y = a + b*X (esas ‘distancias’ pueden ser positivas o negativas). El
siguiente gráfico muestra los residuos asociados a los datos del ejemplo 2.17 para la
recta representada en el gráfico.
70
Concentración en sangre
60
50
40
30
5 10 15 20
Concentración en orina
Una forma de conseguir que los n residuos sean pequeños conjuntamente (y por
tanto, que la aproximación de la recta sea razonablemente buena para todos los puntos
de la muestra) es imponer que lo que se conoce como el error cuadrático medio (ECM)
sea lo más pequeño posible. Este es el criterio de mínimos cuadrados. El error
cuadrático medio no es mas que el promedio de los cuadrados de los residuos:
1 1
𝐸𝐶𝑀 = 𝑒 = (𝑦 − 𝑎 − 𝑏𝑥 )
𝑛 =
𝑛 =
El problema de encontrar la recta que mejor se ajusta a los datos por el método
de mínimos cuadrados se transforma entonces en encontrar qué constantes a y b
79
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
𝐶𝑜𝑣(𝑋, 𝑌 )
𝑏=
𝑆(𝑋)
𝑎 = 𝑌 ̅ − 𝑏𝑋
𝑆(𝑌 )
𝑏 = 𝑟(𝑋, 𝑌 )
𝑆(𝑋)
También puede comprobarse (ejercicio opcional 2.6) que la recta de regresión [Y]
= a + b*X se puede reescribir de las siguientes formas:
[𝑌 ] − 𝑌 ̅ = 𝑏 (𝑋 − 𝑋 )
[𝑌 ] − 𝑌 ̅ 𝑋− 𝑋
= 𝑟(𝑋, 𝑌 )
𝑆(𝑌 ) 𝑆(𝑋)
X Y X*Y
12,807 47,428 675,842 < Media
5,269 14,402 464,241 < Desv Tip
80
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
b = 73,695/(5,269)2 = 2,654
a = 47,428 – 2,654*12,807 = 13,438
70
Concentración en sangre
60
50
40
30
5 10 15 20
Concentración en orina
Cuando se calcula la recta de regresión, hay que dar siempre una medida de lo bien
o mal que se ajusta la recta a los datos. El estadístico más utilizado para medir la bondad
del ajuste de la recta de regresión es el coeficiente de determinación R2(Y|X), que se
define como:
𝑆 (𝐸)
𝑅 (𝑌 |𝑋) = 1 −
𝑆 (𝑌 )
81
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: además de calcular la bondad del ajuste de la recta de regresión, existen otras
técnicas estadísticas que ayudan a validar el buen ajuste de la recta de regresión. Dichas
técnicas se conocen con el nombre de diagnosis del modelo. En las clases prácticas, se verá
alguna de estas técnicas, como es el gráfico de dispersión entre los residuos y los valores
ajustados.
Predicciones
Cuando la recta de regresión se ajusta bien a los datos (como norma general
podemos suponer que el ajuste es bueno cuando R2(Y|X) > 0,75), la recta de regresión
se puede utilizar para realizar predicciones. Si para un nuevo elemento de la población
el valor de la variable X es xn+1, entonces la predicción que haríamos para la variable Y
de ese elemento sería [yn+1], el valor ajustado para xn+1 por la recta de regresión.
Ejemplo 2.19. Con los 14 datos de las concentraciones en orina (X) y en
sangre (Y) del ejemplo 2.17, habíamos obtenido la recta de regresión [Y] =
82
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Aunque no es uno de los objetivos de este curso, vamos a dar una idea general
sobre en qué consiste el modelo general de regresión.
En el ejemplo 2.17, era razonable tratar de buscar una recta que se ajustase bien
a los datos. Sin embargo, en otras situaciones, es más razonable tratar de ajustar otro
modelo matemático a los datos, pues éstos tienen un comportamiento parabólico,
exponencial o logarítmico, por ejemplo.
150
100
0 10 20 30 40 50
Tiempo
83
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
2.5. Ejercicios
84
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
2.3. Nos proporcionan la siguiente tabla de doble entrada con la distribución (conjunta)
de la variable (A,T), donde A es la altura en cm. y T la talla de zapatos de una
muestra de 41 personas.
Talla de zapatos
Altura en cm 37 38 39 40 Total
156 1 0 0 0 1
158 1 0 0 0 1
159 1 1 1 0 3
160 1 1 1 0 3
161 1 3 0 0 4
162 0 1 0 0 1
163 1 0 0 0 1
164 1 0 1 0 2
165 0 2 0 1 3
166 0 1 1 1 3
167 2 2 0 0 4
168 1 0 1 1 3
169 0 0 1 0 1
170 0 0 1 0 1
171 0 0 1 0 1
172 0 0 0 1 1
173 0 0 0 2 2
174 0 0 0 1 1
175 0 1 1 1 3
178 0 0 0 2 2
Total 10 12 9 10 41
(a) Calcula las (cuatro) medianas de A condicionada a los cuatro posibles valores
de T.
(b) Calcula las (cuatro) medias de A condicionada a los cuatro posibles valores de
T.
(c) Calcula la media y la mediana de la variable A, y la moda y la mediana de la
variable T.
(d) En el fichero Excel ‘Ejercicios Tema 2’, pestaña 2.3 R tienes las dos variables
Altura y Talla. Utiliza R para obtener, a partir de estas dos variables, la tabla
de contingencia de Altura y Talla. Comprueba que coincide con la tabla anterior
y con la tabla en la pestaña 2.3 TC de ese fichero.
2.4. Los datos de la longitud del palmo de la mano derecha, PD, y de la mano izquierda,
PI, (en mm) en una muestra de 40 personas se presentan en la siguiente tabla.
También se han calculado los valores del producto PD*PI para todos los casos y las
medias y desviaciones típicas de las tres variables.
85
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
PD PI PD*PI
170 170 28900
170 170 28900
190 190 36100
190 200 38000
190 195 37050
195 190 37050
165 170 28050
180 178 32040
160 165 26400
200 200 40000
190 195 37050
190 190 36100
200 206 41200
200 205 41000
200 210 42000
210 210 44100
220 215 47300
200 200 40000
210 205 43050
170 165 28050
173 170 29410
170 175 29750
180 185 33300
170 175 29750
160 170 27200
200 200 40000
200 200 40000
165 170 28050
250 223 55750
150 140 21000
192 195 37440
190 190 36100
210 210 44100
200 195 39000
185 188 34780
200 200 40000
160 165 26400
193 192 37056
180 180 32400
165 175 28875
187,325 188,175 35567,525 < Media
19,703 17,478 6916,510 < Desv tip
(a) Calcula Cov(PD, PI). ¿En qué unidades se expresa esta covarianza?
(b) Para transformar estas medidas a metros, tenemos que dividir por 1000. Si X
= PD/1000 e Y = PI/1000 ¿Cuánto vale Cov(X, Y)? ¿En qué unidades se expresa?
Puedes usar, si lo necesitas, el resultado del ejercicio 2.5 y el apartado (a) de
86
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Cov(Z, W) = b*d*Cov(X, Y)
X Y X*Y
Media 2 3 16
Desviación típica 5 4
2.8. Medida de pliegues cutáneos. Tenemos una muestra de tamaño n = 205 compuesta
por varones de 13 años. La variable B es la medida del pliegue del bíceps y la
variable T es la medida del pliegue del tríceps.
87
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(a) Calcula M(B), M(T), S(B) y S(T), redondeando a 1 decimal, sabiendo que
B T B*B T*T
1.922,60 3.728,20 23.329,30 82.275,18 < Suma
B T B*T
9,379 18,186 208,471 < Media
5,096 8,423 198,640 < Desv Tip
X Y
7,4 30
7,5 25
8,5 31,5
9 27,5
9 39,5
11 38
13 43
14 49
14,5 55
16 48,5
17 51
18 64,5
20 63
23 68
88
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
X Y X*Y
Media 13,4214 45,250 669,1964
Desviación típica 4,9429 14,1241
2.11. Las marcas obtenidas en la carrera de los 5000 metros, hombres, en los
campeonatos de Europa celebrados entre 1934 y 1990 son:
89
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(c) Los campeonatos de Europa se celebran cada 4 años. Calcula, utilizando la recta
de regresión, las marcas que se podrían predecir para los campeonatos de
1994, 1998. 2002 y 2006. Como esos campeonatos ya se han producido, puedes
comprobar si estas predicciones son correctas o no.
2.12. Se cree que es posible detectar la presencia de una sustancia en la sangre (Y) por
la presencia de un metabolito de esa sustancia en la orina (X). Se ha realizado un
estudio para establecer una ecuación que relacione X e Y, y se han obtenido los
siguientes datos, expresados en nanogramos por mililitro (ng/mL), con un
experimento realizado con una muestra de 14 varones sanos:
X Y
5 25,2
7,2 28
8 35
9 41
9,5 42
9,6 44
11 35,8
13 47
14 55
15 53
17 59
18 58,5
20 64,5
23 76
X Y
-1 1
-0,9 0,81
-0,8 0,64
-0,7 0,49
-0,6 0,36
90
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
-0,5 0,25
-0,4 0,16
-0,3 0,09
-0,2 0,04
-0,1 0,01
0 0
0,1 0,01
0,2 0,04
0,3 0,09
0,4 0,16
0,5 0,25
0,6 0,36
0,7 0,49
0,8 0,64
0,9 0,81
1 1
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,1 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
(a) Obtén las medias y desviaciones típicas de las cuatro variables X y de las
cuatro variables Y. (Redondea a 2 decimales).
(b) Obtén el coeficiente de determinación y los coeficientes de la recta de
regresión para los cuatro pares (Xi,Yi). (Redondea a 2 decimales).
(c) ¿Crees, a la vista de esos valores, que las rectas de regresión explican igual de
bien los cuatro conjuntos de datos?
91
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(d) Obtén el gráfico de dispersión de los cuatro conjuntos de datos usando algún
software estadístico. ¿Crees, a la vista de los gráficos, que las rectas de
regresión explican igual de bien los cuatro conjuntos de datos?
2.17. En un estudio sociológico, una de las preguntas realizadas fue la siguiente: ¿está
usted satisfecho con la comunidad de vecinos en la que vive? Los resultados
obtenidos entre 230 personas de lugares y situaciones diferentes fueron:
2.18. Se quiere analizar si existe alguna relación entre la tensión sistólica y la edad en
personas del sexo femenino. Para ello, se seleccionaron aleatoriamente 36 mujeres
de una población homogénea y se midió su edad, en años, y su presión sistólica, en
mmHg. Los datos se encuentran en la pestaña 2.18 del archivo Excel ‘Ejercicios
Tema 2’. Con la siguiente tabla que recoge las medias y desviaciones típicas,
92
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
93
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
3. Cálculo de probabilidades
3.1. Introducción
Las Ciencias de la Salud tienen una fuerte componente empírica: la práctica clínica
con pacientes y situaciones reales es la que determina si un protocolo o un tratamiento
son adecuados o no. Nos interesa que lo que hemos probado y aprendido con un grupo
concreto de personas se pueda utilizar para nuevos pacientes. Nos interesa saber en
qué condiciones y con qué restricciones podemos pasar de observaciones particulares
para un grupo concreto a una regla general, aplicable a toda una población. Esto es, en
qué condiciones y con qué restricciones se puede hacer Inferencia Estadística (de la
94
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
que hablaremos en el tema 5). Pero para poder realizar inferencia, hay que aprender a
cuantificar la incertidumbre y a cuantificar los errores que se comenten aplicando a una
población los resultados observados para una muestra. El Cálculo de Probabilidades es
la herramienta que permite realizar esa cuantificación y proporciona una base sólida
sobre la que levantar el edificio de la Inferencia Estadística.
95
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Estos tres métodos de asignar probabilidades son habituales y nos serán útiles en
las aplicaciones. Pero para que estos métodos (y en general, cualquier procedimiento de
asignar probabilidades) proporcionen verdaderas medidas de la verosimilitud de
observar los sucesos, han de satisfacer una serie de reglas intuitivamente "razonables"
y que permitan obtener resultados consistentes. Esto se consigue con una definición
cuidadosa de "suceso" y una definición axiomática de "probabilidad", que pasamos a
explicar a continuación.
Las probabilidades se asignan a sucesos. Por tanto, lo primero que hay que hacer
es formalizar el concepto de suceso y las propiedades que tienen los sucesos.
Hay tres operaciones básicas que se pueden realizar sobre los sucesos, que son la
unión, la intersección y el complementario. La unión entre dos sucesos A y B, denotada
por A ∪ B, es el suceso formado por la reunión de los elementos que pertenecen a
cualquiera de los sucesos A y B. La intersección entre dos sucesos A y B, que se denota
por A ∩ B, es el suceso formado por todos los elementos que son comunes a A y B. El
suceso complementario de un suceso A, que se denota por Ac, es el suceso formado por
los elementos del espacio muestral que no están en A.
• Contenido
• A
96
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
• A∪A=A
• A∪=A
• A∪=
• Si A B, entonces A ∪ B = B
• La unión es conmutativa [A ∪ B = B ∪ A]
• La unión es asociativa [A ∪ (B ∪ C) = (A ∪ B) ∪ C]
• A∩A=A
• A∩=
• A∩=A
• Si A B, entonces A ∩ B = A
• La intersección es conmutativa [A ∩ B = B ∩ A]
• La intersección es asociativa [A ∩ (B ∩ C) = (A ∩ B) ∩ C]
• Propiedad distributiva
• A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
• A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
• Suceso complementario Ac
• (Ac) c = A
• c = , c =
• A ∪ Ac = , A ∩ Ac =
97
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Un suceso elemental puede ser "obtener un 3" (A = {3}). Otro suceso sería
"obtener un número par" (B = {2, 4, 6}), que es la unión de tres sucesos
elementales. La unión de A y B, A ∪ B, es el suceso {2, 3, 4, 6} y la intersección
de A y B, A ∩ B, es el conjunto (o suceso) vacío . El complementario de B es
Bc = {1, 3, 5}.
Ejemplo 3.2. Grupo sanguíneo. El espacio muestral está formado por los 8
resultados posibles (si consideramos Tipo y Rh)
Una vez formalizado el concepto de suceso, el siguiente paso es dar una medida de
lo verosímil (o inverosímil) que sería observar un suceso en la realización de un
experimento. Dado un suceso, a esta medida se la conoce con el nombre de probabilidad
del suceso, que es un número entre 0 y 1.
Nota: esta elección es convencional. Se podría elegir un rango entre 0 y 100 y hablar de
porcentaje de verosimilitud. Una verosimilitud del 100% indicaría que el suceso es seguro.
98
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
∞
𝑃 𝐴 = 𝑃 (𝐴 )
=
=
Estos tres axiomas son naturales y concuerdan con nuestra intuición de las
propiedades que debe verificar cualquier probabilidad bien construida. Hay otras
propiedades que también son intuitivamente naturales, pero que se puede demostrar a
partir de los axiomas. En particular, utilizaremos con frecuencia las siguientes:
P1. P() = 0.
P2. La propiedad A3 también vale para sucesiones finitas y, en particular, si A
y B son disjuntos se verifica que P(A ∪ B) = P(A) + P(B).
P3. P(Ac) = 1 - P(A).
P4. Si A B, entonces P(A) ≤ P(B).
P5. P(A) ≤ 1, para todo suceso A. Por lo tanto, 0 ≤ P(A) ≤ 1.
P6. P(A ∪ B) = P(A) + P(B) – P(A ∩ B).
99
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Para entender que esa definición es razonable, podemos considerar que, al asumir
que B ha ocurrido, B es el nuevo espacio muestral, y de A sólo interesa la parte que está
en B, esto es, A ∩ B.
Como A ∩ B = A (la intersección entre salir 6 y salir par es salir 6), aplicando
la definición se tiene que:
Este resultado coincide con nuestra intuición. Si sabemos que ha salido par,
el espacio muestral efectivo es {2,4,6} y en ese espacio, la probabilidad de 6
es 1/3.
Fijado un suceso B cualquiera, con P(B) > 0, la función P(.|B), que a cada suceso A
le asocia la probabilidad P(A|B), verifica los axiomas A1, A2 y A3. Por tanto, fijado B,
la probabilidad condicionada es una probabilidad bien definida y se le pueden aplicar
todas las propiedades de probabilidad.
P(A ∩ B) = P(B|A)*P(A)
P(A ∩ B) = P(A|B)*P(B)
100
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
P(A ∩ B) = P(A)*P(B)
En esta sección, vamos a ver dos teoremas básicos del cálculo de probabilidades,
como son el Teorema de la Probabilidad Total y el Teorema de Bayes. Estos teoremas
nos serán de utilidad en la próxima sección, cuando hablemos de pruebas diagnósticas
no perfectas.
Decimos que una colección de sucesos {A1, ..., An} forma un sistema exhaustivo y
excluyente si estos sucesos son disjuntos dos a dos (esto es, si Ai ∩ Aj = , i j) y si
su unión es el espacio muestral (⋃ = Ai = ). También se dice que {A1, ..., An} es una
partición del espacio muestral .
Usando las propiedades de la unión e intersección de sucesos, un suceso cualquiera
B puede escribirse como
B = B ∩ = B ∩ (⋃ = Ai) = ⋃ = (B ∩ Ai)
101
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Como los sucesos Ai son disjuntos dos a dos, entonces los sucesos B ∩ Ai también
son disjuntos dos a dos.
Aplicando el axioma A3 para la unión finita de los sucesos B ∩ Ai, tendremos:
P(B) = ∑ = P(B|Ai)*P(Ai)
Ejemplo 3.6. Seguimos con el juego del ejemplo 3.5. Disponemos de un dado
legal y dos urnas. La urna 1 contiene 3 bolas blancas y 1 bola negra; la urna 2,
1 bola blanca y 3 negras. Lanzamos el dado. Si obtenemos 6 (suceso A)
extraemos una bola de la urna 2; en otro caso (suceso Ac), extraemos una bola
de la urna 1. ¿Cuál es la probabilidad del suceso B = "obtener bola blanca"?
𝑃 (𝐴 ∩ 𝐵) 𝑃 𝐵 𝐴 𝑃 (𝐴 )
𝑃 𝐴 𝐵 = =
𝑃 (𝐵) 𝑃 (𝐵)
𝑃 𝐵 𝐴 𝑃 (𝐴 )
𝑃 𝐴 𝐵 =
∑ = 𝑃 (𝐵|𝐴 ) 𝑃 (𝐴 )
102
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Ejemplo 3.7. Seguimos con el juego del ejemplo 3.5. Extraemos la bola de la
urna 2 (1 bola blanca y 3 negras) si obtenemos un 6 en el lanzamiento del dado
(suceso A); en otro caso (suceso Ac) utilizamos la urna 1 (3 bolas blancas y 1
negra). ¿Cuánto vale la probabilidad de que hayamos sacado un 6, si sabemos
que la bola extraída es blanca (suceso B)?
Las pruebas diagnósticas tienen como objetivo determinar si una persona está
enferma o sana. Lo ideal sería que las pruebas diagnósticas fueran perfectas. Esto es,
que todas las personas que dieran positivo en la prueba estuvieran enfermas, y las que
dieran negativo, sanas.
Cuando se usa una prueba diagnóstica T, la partición del espacio muestral que se
realiza es considerar los sucesos complementarios y disjuntos E = "tiene la enfermedad"
y Ec = "está sano". Además, los sucesos T+="la prueba da positivo" y T-="la prueba da
negativo" también son disjuntos y complementarios, y proporcionan otra partición del
espacio muestral.
Si una persona está enferma, la prueba T puede dar positivo o negativo y tenemos
dos situaciones. La probabilidad condicionada P(T+|E) es la probabilidad de verdaderos
positivos (o tasa de verdaderos positivos en esa población) y también se conoce como
sensibilidad de la prueba diagnóstica. La probabilidad o tasa de falsos negativos es P(T-
103
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
|E). Siempre se asume que la prueba da o bien positivo (T+) o bien negativo (T-), y por
lo tanto P(T+|E) + P(T-|E) = 1.
Pero lo que más nos interesa es evaluar la probabilidad de que esta persona esté
realmente enferma si la prueba ha dado positivo. El Teorema de Bayes es el que
proporciona la fórmula para calcular esa probabilidad:
𝑃 (𝑇+|𝐸)𝑃 (𝐸)
𝑃 (𝐸|𝑇+) =
𝑃 (𝑇+|𝐸)𝑃 (𝐸) + 𝑃 (𝑇+|𝐸 )𝑃 (𝐸 )
Nota: a P(E|T+) también se le conoce con el nombre de Valor Predictivo Positivo (VP+) de la
prueba en esa población.
P(Ec|T+) = 1 - P(E|T+)
𝑃 (𝑇-|𝐸)𝑃 (𝐸)
𝑃 (𝐸|𝑇-) =
𝑃 (𝑇-|𝐸)𝑃 (𝐸) + 𝑃 (𝑇-|𝐸 )𝑃 (𝐸 )
La probabilidad de que esté sano cuando la prueba da negativo se puede calcular
como el complemento a 1 del resultado anterior:
P(Ec|T-) = 1 - P(E|T-)
104
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: P(E c|T-) es el Valor Predictivo Negativo (VP-) de la prueba en esa población.
Los datos del problema nos dicen P(T+|E) = 0,95, P(T+|Ec) = 0,01 y P(E) =
0,005. Por tanto, P(T-|E) = 1 - P(T+|E) = 0,05, P(T-|Ec) = 1 - P(T+|Ec) = 0,99 y
P(Ec) = 1 - P(E) = 0,995.
Por otra parte, la probabilidad de que esté enfermo, aunque la prueba haya
dado negativo es, aplicando otra vez el teorema de Bayes:
La probabilidad de que esté sano cuando la prueba ha dado negativo es, por
tanto, P(Ec|T-) = 1 – 0,0003 = 0,9997.
En este caso, si decidimos clasificar a una persona como sana cada vez que la
prueba sale negativa, estaremos acertando prácticamente siempre, pues en
sólo 3 de cada 10000 personas nos equivocaremos, aproximadamente.
105
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Por tanto, como P(Ec) = 1 – P(E), la precisión de una prueba diagnóstica se puede
calcular con la fórmula:
106
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
por los casos posibles) para calcular esas magnitudes asociadas a la prueba si
consideramos la muestra estudiada como nuestro espacio muestral.
La prevalencia P(E) en este grupo se puede obtener con P(E) = 30/100 = 0,3.
Nota: Estas probabilidades condicionales también se pueden calcular, con los datos que nos
proporcionan en este ejemplo, utilizando la regla de Laplace, dividiendo los casos favorables
por los casos posibles. De los 100 individuos de la muestra han dado positivo 27 enfermos y
14 sanos, y por tanto P(E|T+) =27/(27+14). Han dado negativo 3 enfermos y 56 sanos, y por
tanto P(Ec|T-) = 56/(3+56).
107
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
3.8. Ejercicios
(a) Calcula la probabilidad de que una persona vacunada, elegida al azar, haya
contraído esa enfermedad.
(b) Calcula la probabilidad de que un enfermo, elegido al azar, haya sido vacunado.
3.3. Una enfermedad provoca dos síntomas distintos, S1 y S2. Se ha establecido que la
probabilidad de observar, en estos enfermos, el segundo síntoma (S2) es 0,2. La
probabilidad de que S2 aparezca en un enfermo, que ya sabemos que presenta S1,
es 0,5. La probabilidad de que S1 aparezca en un enfermo, que ya sabemos que
presenta S2, es 0,3.
3.4. Nos proponen el siguiente juego. Disponemos de un dado legal y dos urnas, U1 y U2.
La urna U1 contiene 3 bolas blancas y 1 bola negra; la urna U2, 1 bola blanca y 3
negras. Lanzamos el dado. Si obtenemos 6, extraemos una bola de la urna U2; en
otro caso extraemos una bola de la urna U1.
108
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
3.6. Se estima que el 5% de la población de una ciudad son alcohólicos, pero en los
partes de baja nunca figura esta condición. Sin embargo, en los partes de baja
aparece algunas veces la esteatosis hepática. Nos dicen que la probabilidad de
tener esta dolencia es, entre la población de alcohólicos, del 80%, y que entre la
población no alcohólica es sólo del 2%.
3.7. Una prueba diagnóstica detecta una enfermedad, cuando el paciente tiene
efectivamente esa enfermedad, un 95% de las veces. La prueba proporciona
"falsos positivos" un 1% de las veces. El paciente pertenece a un grupo de población
en la que la probabilidad de tener esa enfermedad es de 5 entre mil.
3.8. La ecografía se utiliza como prueba diagnóstica para la colelitiasis. Nos dicen que
la tasa de verdaderos positivos de esta técnica es el 91%, la tasa de falsos
positivos es el 5%, y en la población de la que proviene nuestro paciente la
probabilidad de tener la enfermedad se estima en 0,3.
3.9. Una prueba para detectar VIH+ tiene una tasa de verdaderos positivos del 99,5%.
La probabilidad de que proporcione negativo para personas sanas es el 99,5%, y
por tanto la tasa de "falsos positivos" es de 5 entre 1000. En un estudio sobre la
109
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
3.10. En un estudio sobre la eficacia del tacto rectal en el diagnóstico del cáncer se ha
establecido que la probabilidad de verdaderos positivos es del 57%. La
probabilidad de falso positivo –que dé positivo si están sanos- es del 18%. La
probabilidad de que una persona de la población en estudio tenga la enfermedad es
del 42%.
(a) Calcula la probabilidad de que una persona que ha dado positivo en la prueba
tenga efectivamente la enfermedad.
(b) Calcula la probabilidad de que una persona que ha dado negativo en la prueba
esté realmente sana.
(c) Calcula la precisión de la prueba.
(d) En base a los resultados obtenidos, comenta si esta prueba diagnóstica te
parece buena.
3.11. Tras una prueba ciclista se obtienen muestras de sangre de dos ciclistas del país
A, tres del país B y 5 del país C. Por error en la manipulación de las muestras, los
10 tubos se mezclan antes de que se hayan podido etiquetar con el nombre y el país
del deportista. Además, se estima que el 1% de los deportistas del país A, el 2%
del B y el 10% del C han tomado sustancias prohibidas. Se asume también que la
prueba es completamente fiable. Esto es, suponemos que detecta las sustancias
prohibidas el 100% de las veces y que la tasa de falsos positivos es del 0%.
110
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
3.12. El 10% de una población tiene una enfermedad E, y las personas con esta
enfermedad presentan un síntoma S1 con probabilidad 0,2. Además, las personas
sanas de esa población presentan el síntoma S1 con una probabilidad 0,01.
(a) Calcula la probabilidad de que una persona, elegida al azar de esa población,
esté enferma y además presente el síntoma S1.
(b) Calcula la probabilidad de que una persona, elegida al azar, presente el síntoma
S1.
(c) Calcula la probabilidad de que una persona, elegida al azar en esa población y
que presenta el síntoma S1, esté enferma.
3.14. En una guardería infantil, se ha estimado que la probabilidad de que un niño tenga
tos es 0,2. Además, la probabilidad de que un niño con tos tenga fiebre es 0,4. Por
otra parte, la probabilidad de que un niño con fiebre tenga tos es 0,5.
3.15. Se dispone de una prueba de referencia A (que asumimos que es perfecta, ya que
tiene una sensibilidad y una especificidad del 100%) para determinar si una persona
tiene cierta característica genética E. Pero esta prueba es penosa para el paciente
y el resultado tarda mucho tiempo en ser conocido. Un laboratorio ha diseñado una
nueva prueba B, más rápida y menos invasiva que la prueba de referencia A. En su
informe nos indican que la sensibilidad de esa nueva prueba es del 98% y la
111
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(a) Si elegimos al azar una persona de esa muestra, ¿cuál es la probabilidad de que
presente esa característica?
(b) Si esa persona da positivo con la nueva prueba B, ¿cuál es la probabilidad de
que efectivamente presente esa característica? ¿Y de que no la presente?
(c) Si ha dado negativo, ¿cuánto valdrían esas probabilidades?
(d) ¿Cuál es la precisión de la nueva prueba B para esta muestra? ¿Y cuál es la
precisión de la prueba de referencia A?
3.16. Se quiere realizar un ensayo clínico para determinar la calidad de una nueva prueba
diagnóstica B, más rápida y menos agresiva que la prueba tradicional A, que se
asume que tiene precisión absoluta. Se ha seleccionado una muestra de 1250
personas. De las 100 personas que han dado positivo con la prueba tradicional A (y
por tanto están enfermas), 95 han dado positivo con la nueva, y 5 negativo. De los
1150 que han dado negativo con la prueba tradicional A (y por tanto están sanas),
46 han dado positivo con la nueva y 1104 negativo. Ni nosotros ni los individuos de
la muestra disponemos de la información de los resultados del ensayo para cada
persona.
112
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
113
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
4. Variables aleatorias
4.1. Introducción
114
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Las variables aleatorias son, por una parte, modelos teóricos ajustados a nuestra
experiencia de lo que son las variables estadísticas y, por otra parte, permiten utilizar
la teoría de la probabilidad para calcular probabilidades de sucesos de interés asociados
a esas variables estadísticas. Las variables aleatorias se definen proporcionando un
conjunto E, con todos los valores que puede tomar esa variable, y proporcionando
también un mecanismo de calcular las probabilidades de los sucesos relacionados con
valores de esas variables. Siempre consideraremos que E es o está contenido en la recta
real.
En lo que sigue, daremos una definición intuitiva de lo que es una variable aleatoria
y describiremos las variables aleatorias discretas y continuas más utilizadas en Ciencias
de la Salud.
Para definir de forma operativa una variable aleatoria tenemos que determinar por
una parte qué valores puede tomar esa variable, esto es, cuál va a ser el rango de esa
variable. Llamaremos E a ese conjunto y consideraremos siempre que E es la recta real
o está contenido en ella. Por otra parte, también tenemos que proporcionar un
procedimiento para calcular la distribución de probabilidad de esa variable sobre E, esto
es, para poder calcular la probabilidad de todos los sucesos relevantes contenidos en E.
La forma de hacerlo va a depender de cómo sea E.
115
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Antes de pasar a describir las variables aleatorias discretas más utilizadas, vamos
a ver las propiedades que tiene cualquier variable aleatoria discreta.
4.3.1. Propiedades
Función de probabilidad
116
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Ejemplo 4.2. La variable D, que recoge los días de la semana en las que un
individuo hace ejercicio por encima de un límite prefijado, toma valores en E
= {0, 1, 2, 3, 4, 5, 6, 7}.
D p(d)
0 0,1
1 0,1
2 0,2
3 0,15
4 0,1
5 0,2
6 0
7 0,15
Función de distribución
FX(a) = P(X ≤ a)
El suceso A = {X ≤ a} se suele denotar como “cola a la izquierda del punto a”. Por lo
tanto, FX(a) = P(X ≤ a) proporciona la probabilidad de observar la “cola a la izquierda del
punto a”. La probabilidad del suceso complementario, P(X > a), es 1 - FX(a).
117
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
D p(d) F(d)
0 0,1 0,1
1 0,1 0,2
2 0,2 0,4
3 0,15 0,55
4 0,1 0,65
5 0,2 0,85
6 0 0,85
7 0,15 1
118
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: nótese la similitud de esta fórmula con la fórmula de la media usada en el tema 1 para
variables definidas con tablas de frecuencias, si sustituimos la frecuencia relativa de k por
su probabilidad.
𝜎 = (𝑘 − 𝜇 ) 𝑝 (𝑘)
Nota: no hay que confundir la media y la desviación típica de un conjunto de datos, como se
calculaban en el tema 1 y a las que les añadimos el adjetivo muestrales, con la media y la
desviación típica de una variable aleatoria. En general, los valores (x1,…,xn) de una variable
estadística X sobre los que calculamos su media M(X) o su desviación típica S(X)
corresponden a un conjunto de individuos (muestra) de una determinada población. Por ello,
a la media M(X) y a la desviación típica S(X) calculadas sobre esos datos se les suele añadir
al adjetivo ‘muestral’. Diferentes muestras de una misma población tendrán en general
diferentes medias y desviaciones típicas muestrales.
Los conceptos de media y desviación típica de una variable aleatoria son conceptos teóricos,
que se definen a partir de la función de probabilidad. En la práctica usual de la Estadística,
dada una población, a la variable estadística que se quiere estudiar sobre esa población se le
asocia una variable aleatoria X. A la media X y desviación típica X de esa variable aleatoria,
que son únicas, se les suele añadir el adjetivo ‘poblacionales’ para distinguirlas de las
muestrales, pues hacen referencia al comportamiento medio y la variabilidad de toda la
población, respectivamente. En el siguiente tema volveremos a incidir sobre este aspecto.
Esta variable es el modelo que describe las situaciones en las que hay sólo dos
posibles resultados, como es el caso, por ejemplo, del lanzamiento de una moneda.
119
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
A una variable aleatoria X que sólo toma dos modalidades (el éxito y el fracaso) y
donde p es la probabilidad del éxito se la denomina variable aleatoria Bernoulli de
parámetro p (o simplemente Bernouilli(p)).
Nota: cuando nos refiramos a estas variables aleatorias particulares las llamaremos también
modelos o distribuciones. En este caso diremos, indistintamente, que usamos un modelo
Bernoulli, una distribución Bernoulli o una variable aleatoria Bernoulli.
Ejemplo 4.6: En un folleto del Observatorio del Ictus se dice que “la
probabilidad de que una persona sufra un ictus a lo largo de su vida” es 1/6.
Si codificamos “sufrir un ictus a lo largo de la vida” con X = 1, y no sufrirlo
con X = 0, un modelo adecuado para esta variable es una Bernoulli con
parámetro p = 1/6, con lo que
pX(0) = 5/6
pX(1) = 1/6
Nota: observa que este modelo Bernoulli de parámetro p=1/6 también sirve para describir la
variable Y que vale 1 si obtenemos un 6 en el lanzamiento de un dado legal, y 0 en otro caso.
Un mismo modelo puede ser adecuado para fenómenos distintos.
120
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
𝑛 −
𝑝 (𝑘) = 𝑝 (1 − 𝑝)
𝑘
Nota: no es difícil ver que estas probabilidades son positivas para cualquier k {0, 1, 2, ...,
n}. Además, la fórmula del binomio de Newton permite demostrar que la suma de todos ellos
es 1, y por lo tanto, que ésta es una función de probabilidad bien definida.
𝑛 𝑛!
=
𝑘 𝑘! (𝑛 − 𝑘)!
Nota: cualquier calculadora lleva incorporada una función para calcular factoriales.
121
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: las cuentas necesarias para calcular pX(k) y FX(a) para este modelo Binomial son fáciles
cuando n es pequeño. Cuando n es grande, Excel o cualquier paquete estadístico, como R-
Commander, disponen de utilidades que permiten calcularlas fácilmente.
k f probab f distrib
0 0,01562500 0,01562500
1 0,09375000 0,10937500
2 0,23437500 0,34375000
3 0,31250000 0,65625000
4 0,23437500 0,89062500
5 0,09375000 0,98437500
6 0,01562500 1,00000000
122
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
𝑒− 𝜆
𝑝 (𝑘) =
𝑘!
Nota: cualquier calculadora lleva incorporadas funciones para manejar esta constante e.
Nota: no es difícil ver que las probabilidades anteriores son positivas para cualquier k ≥ 0 y
que la suma de esas probabilidades (una sucesión infinita) vale 1. Por lo tanto, esta función
de probabilidad está bien definida.
Nota: este modelo está asociado a veces a fenómenos que se podrían describir con una
Bin(n,p), en los que la probabilidad de éxito (p) es muy pequeña y el número de repeticiones
independientes (n) es muy grande. En estas condiciones, si p y n son desconocidos, pero se
conoce el número medio de éxitos n*p = , el modelo Poisson es adecuado.
123
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Antes de describir las variables continuas más utilizadas, vamos a ver las
principales propiedades que cumple cualquier variable aleatoria continua.
4.4.1. Propiedades
Una variable aleatoria continua siempre tiene asociada una función que se conoce
con el nombre de función de densidad de probabilidad. A partir de dicha función, se
obtienen otras características de la variable, como la función de distribución, la media
o la desviación típica. Detallamos a continuación las principales propiedades de las
variables continuas.
Función de densidad
Nota: la forma concreta de calcular el área bajo f(x) en A es calcular su integral. Pero esto
está fuera de los objetivos de este curso. Para calcular las probabilidades de que X esté en
un intervalo, utilizaremos la función de distribución, como se verá más adelante.
124
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
P(X = a) = 0
Nota: esta propiedad no es tan extraña, como puede parecer a primera vista. En la práctica,
nunca vamos a observar un valor con infinitos decimales, porque cualquier medición se hace
con un instrumento de medida que tiene una determinada precisión . En ese caso, cuando
decimos que hemos observado a, en realidad estamos diciendo que hemos observado un valor
que está en el intervalo (a - /2, a + /2) por la precisión del instrumento. Por tanto, el área
bajo f(x) en ese intervalo valdrá, aproximadamente, f(a)* y será positiva si f(a) > 0.
Función de distribución
FX(a) = P(X ≤ a)
Nota: recuerda que el suceso A = {X ≤ a} se suele denotar como “cola a la izquierda del punto
a”. Por lo tanto, FX(a) es la probabilidad de la ‘“cola a la izquierda del punto a”. La probabilidad
P(X > a) es 1 - FX(a). Como en las variables aleatorias continuas la probabilidad de un punto es
cero, la probabilidad de la cola de la derecha, P(X ≥ a), también es 1 - FX(a).
Como en el caso discreto, también para una variable aleatoria X continua la función
de distribución toma valores entre 0 y 1 y es no decreciente. Además, se puede asegurar
que la función de distribución FX(a) es estrictamente creciente en los intervalos en los
que f(a) es positiva.
Nota: recuerda también que el cálculo explícito de FX(a) exigiría el cálculo del área bajo la
función de densidad en el intervalo (-∞,a], pero no es necesario hacer las cuentas resolviendo
125
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
integrales. Las funciones de Excel y los paquetes estadísticos (en particular R-Commander)
permiten calcular la función de distribución de los modelos continuos más utilizados.
P(X (a, b]) = P(X [a, b]) = P(X [a, b)) = P(X (a, b)).
Cuantiles
Por ejemplo, si queremos saber cuál es el peso a, que deja por debajo al 90% de la
población de recién nacidos (y por encima al 10%), y tenemos que el peso se puede
modelar con una variable X con función de distribución FX(a), lo que queremos averiguar
es el peso a que verifica FX(a) = 0,90.
126
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: observa la similitud de este concepto de cualtil p con el concepto de percentil p*100
para un conjunto de datos del tema 1. El cuantil p es único para una variable aleatoria continua
y hace referencia al valor de la variable tal que el p*100% de la población está a su izquierda
(en el ejemplo anterior, el peso que deja al 90% de la población a su izquierda). Por el
contrario, el percentil p*100 hace referencia al valor de la variable (calculado a partir de la
muestra) que deja al p*100% de los datos de la muestra a su izquierda. Diferentes muestras
de la población darán en general diferentes valores para el mismo percentil.
Se pueden calcular con las mismas fórmulas que en el caso discreto, pero
sustituyendo el sumatorio por la integral y la función de probabilidad por la función de
densidad. Los cálculos explícitos de estas integrales están fuera de los objetivos de
este curso.
127
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
√
xp = FX-1(p) = 8𝑝
En particular, el cuantil 0,05 será x0,05 = 0,7368, el cuantil 0,95 será x0,95 =
1,9661 y la mediana de X será x0,50 = 1,5874. La media y la varianza de X son
E(X) = 1,5 y Var(X) = 0,15.
La primera de las variables continuas que vamos a ver es la variable uniforme. Una
variable aleatoria X es uniforme en el intervalo [a, b] (también denotada por U(a,b)) si
su función de densidad es f(x) = 1/(b-a) cuando x [a, b], y 0 para el resto de valores.
El siguiente gráfico muestra la función de densidad de la U(3,8).
xp = F-1(p) = a + (b-a)*p
El modelo uniforme puede usarse para describir un fenómeno que puede ocurrir,
aleatoriamente, en cualquier punto de un rango determinado. Por ejemplo, para modelar
el punto de ruptura de una barra de longitud L, si no hay motivo para suponer que la
ruptura se puede producir con más facilidad en una zona determinada de la barra.
128
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(a) La probabilidad de que el punto de corte esté a una distancia del origen
menor que 0,2 es P(X < 0,2) = F(0,2) = 0,2.
(b) La probabilidad de que el trozo más pequeño después de la ruptura sea
menor que 0,2 es P(X < 0,2) + P(X > 0,8) = F(0,2) + (1 –F(0,8)) = 0,4.
(c) Este modelo predice que la probabilidad de que la barra se parta,
exactamente, por la mitad es P(X = 0,5) = 0.
Nota: en este ejemplo estamos asumiendo que la precisión con la que medimos el punto de
corte es infinita. Si usamos una regla con una precisión de 0,01, que se parta por la mitad
quiere decir que el punto de corte está en el intervalo (0,495, 0,505), y en este caso la
probabilidad es P(0,495 < X < 0,505) = 0,01.
− ( − )
xp = F-1(p) =
Nota: recuerda que ln(x) significa el logaritmo neperiano de x. Cualquier calculadora permite
obtener logaritmos neperianos.
129
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
− ( − )
Aplicando la fórmula del cálculo de cuantiles, x0,5 = = 3,465 minutos.
En otras palabras, el 50% de las personas no esperará más de 3,465 minutos
en la parada del autobús.
1 1
𝑓(𝑥) = √ exp − 𝑥
2𝜋 2
130
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
En general, si x > 0, esas tablas no incluyen los valores de F(-x) (la función de
distribución para valores negativos), ya que se pueden calcular a partir de los obtenidos
para valores positivos usando la fórmula:
131
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
El cuantil de orden p para la N(0,1), F-1(p), se suele denotar como zp. Para el cálculo
de cuantiles es necesario disponer de un software adecuado (como Excel o R-
Commander) o de las tablas comentadas anteriormente. Los cuantiles de la “cola de la
derecha”, desde 0,900 hasta 0,995, calculados con Excel, son:
p zp = F-1(p) p zp = F-1(p)
0,900 1,28155157 0,950 1,64485363
0,905 1,31057911 0,955 1,69539771
0,910 1,34075503 0,960 1,75068607
0,915 1,37220381 0,965 1,81191067
0,920 1,40507156 0,970 1,88079361
0,925 1,43953147 0,975 1,95996398
0,930 1,47579103 0,980 2,05374891
0,935 1,51410189 0,985 2,17009038
0,940 1,55477359 0,990 2,32634787
0,945 1,59819314 0,995 2,57582930
zp = -z1-p
Usando la primera de las tablas anteriores, P(1,5 < Z < 2,5) = FZ(2,5) – FZ(1,5)
= 0,99379033 – 0,93319280 = 0,06059753.
Usando la misma tabla, P(Z < -1) = FZ(-1) = 1 – FZ(1) = 1 - 0,84134475 =
0,15865525.
Usando la segunda tabla, z0,1 = -z0,9 = -1,28155157.
132
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Z = (X - )/.
133
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
De la misma forma, se pueden utilizar los cuantiles de la N(0,1) para calcular los
cuantiles de X, N(). Si llamamos xp al cuantil p de la distribución de X, esto es, al
punto que verifica P(X ≤ xp) = p, aplicando la tipificación se tiene
Por último, para calcular x0,05, hay que calcular primero z0,05. Se tiene que z0,05
= - z0,95 = -1,64485363. Luego x0,05 = 10 + 4*(-1,64485363) = 3,42058.
Nota: los cálculos se han realizado usando las tablas anteriores. Si se usan las tablas de la
N(0,1) que figuran al final de este capítulo, los resultados varían un poco.
4.5. Ejercicios
4.1. La probabilidad de que una persona, escogida al azar en una población determinada,
esté enferma es 0,01. Elegimos 10 personas al azar.
134
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
4.2. La probabilidad de que una persona, escogida al azar entre pacientes que verifican
ciertas características, esté enferma es 0,2. Tenemos un grupo de 5 personas que
se han elegido al azar de ese grupo de pacientes.
4.3 Un centro de referencia registra los diagnósticos de una enfermedad rara en una
comunidad autónoma. Estudiando los registros de los últimos años, ha llegado a la
conclusión de que un modelo razonable para el número de diagnósticos por año es
una variable Poisson, y que su media es 4. Asumiendo que las condiciones no van a
cambiar para el próximo año, calcula las siguientes probabilidades.
Nota: para algunos de los siguientes problemas puedes necesitar las tablas de la N(0,1) o
bien calcular su función de distribución y sus cuantiles con Excel o R-Commander. Los
resultados que obtengas pueden cambiar en algún decimal dependiendo de la tabla que uses.
(a) Obtén los cuantiles z0.9554 y z0.9772 utilizando las tablas de la normal.
(b) Calcula P(X > 2,5).
135
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(c) ¿Cuánto tiene que valer c para que el suceso {Z ≥ c} sea “raro”?
(d) ¿Cuánto tiene que valer -c para que el suceso {Z ≤ -c} sea “raro”?
(c) ¿Cuánto tiene que valer c para que el suceso {Z ≤ -c} U {Z ≥ c} sea “raro”?
4.8. Tras un ensayo clínico se ha establecido que los pacientes que sufren una
determinada patología presentan un nivel de una sustancia en plasma sanguíneo que
se puede modelar con una N(,), de media = 106 mg/dl y desviación típica = 8
mg/dl.
(a) Calcula la probabilidad de que un paciente con esa patología presente un nivel
de esta sustancia en plasma sanguíneo menor que 126 mg/dl.
(b) Calcula la probabilidad de que un paciente con esa patología presente un nivel
de esta sustancia en plasma sanguíneo entre 98 y 122 mg/dl.
(c) Calcula el cuantil 0,05 para esta distribución. ¿Cómo se puede interpretar este
valor?
(d) Calcula la proporción de pacientes con un nivel de esa sustancia mayor de 119,6
mg/dl.
136
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(e) Calcula la proporción de pacientes con un nivel de esa sustancia mayor de 102
mg/dl.
(f) Calcula el nivel de esa sustancia tal que por debajo de él se encuentra el 25%
de los pacientes.
(a) En el grupo de diabéticos, indica el valor g de la glucemia basal que deja por
debajo al 2% de los mismos (y por tanto, por encima al 98%).
Como prueba diagnóstica proponen clasificar como diabéticos a todos los que
presenten una glucemia basal superior al valor anterior g.
(b) Calcula el porcentaje de sanos que se detectarían como diabéticos con esta
prueba diagnóstica.
(c) Si sabemos que el porcentaje de diabéticos en esa población es el 10%, y
utilizamos esa prueba diagnóstica con una persona elegida al azar, ¿cuál es la
probabilidad de que sea, efectivamente, diabético si la prueba lo ha clasificado
como tal?
137
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
4.12. El número de días que transcurren hasta que un paciente en una lista de espera es
llamado para la realización de un trasplante se pude modelar con una exponencial
de parámetro 0,01.
4.14. Si un padre tiene miopía, la probabilidad de que uno de sus descendientes sea miope
es 0,5 cuando la madre no es miope, y 0,75 cuando la madre es también miope.
Supongamos que el número de descendientes de ese padre ha sido 4 y que la madre
no es miope.
138
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
4.17. Para cualquier persona, se sabe que el tiempo de respuesta ante un determinado
estímulo se comporta de manera uniforme entre medio segundo y segundo y medio.
(a) Calcula el tiempo esperado de respuesta ante ese estímulo para una persona
cualquiera.
(b) Calcula la probabilidad de que el tiempo de respuesta sea inferior a un segundo
para una persona cualquiera.
(c) Para una persona cualquiera, calcula la probabilidad de que el tiempo de
respuesta se encuentre entre 0,8 y 1,3 segundos.
(d) Calcula el tiempo de respuesta t para el que el 90% de las personas que
realizasen el experimento, su tiempo de respuesta fuese inferior a t.
139
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
140
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Tabla de la N(0,1)
La siguiente tabla permite calcular la función de distribución de la normal tipificada
para los valores positivos de 0 a 3 con dos decimales. Por ejemplo, para el valor 1,96, la
función de distribución de la normal tipificada vale FZ(1,96) = 0,9750.
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
141
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
5. Inferencia estadística
5.1. Introducción
En ambas ciencias, el modelo teórico utilizado para las variables estadísticas son
las variables aleatorias. A partir de estas últimas, el objetivo fundamental es entonces
obtener un modelo teórico completo y adecuado para todas las variables de interés, que
permita responder a las preguntas de la investigación.
142
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
compuesta por personas, por animales o por objetos. Más precisamente, nos van a
interesar las mediciones (datos) de las variables para esos individuos.
Una forma de hacer este tipo de estudios es el censo. Un censo consiste en obtener
la información de las características de interés para todos los individuos de la población.
Este camino no siempre es posible, bien por falta de tiempo, bien por el coste que
supondría, bien por la imposibilidad material de tener acceso a todos los individuos.
143
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Cuando la población no es finita, las exigencias del muestreo son las mismas: cada
observación de una variable en un individuo tiene que hacerse de forma independiente
de las observaciones en los demás individuos, y todas ellas deben de hacerse en las
mismas condiciones para garantizar que la distribución de la variable es la misma en
todos los casos.
144
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Vamos a suponer que la variable que queremos estudiar en una población tiene una
distribución conocida (Normal, Poisson, etc.), pero alguno de sus parámetros no es
conocido. Nos planteamos entonces el problema de estimar el valor de alguno esos
parámetros utilizando los valores de la muestra aleatoria simple (X1,…,Xn).
145
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
M(X) = (X1+…+Xn)/n
Observa que esta definición es un modelo teórico asociado al modelo teórico del
muestreo aleatorio simple (X1,…,Xn). Dada la población, nos planteamos extraer una
muestra (X1,…,Xn) (pero no la hemos extraído todavía) y con ella nos planteamos calcular
su media M(X) (pero no la podemos calcular todavía porque no tenemos los datos de la
muestra). Por tanto, en este modelo teórico, M(X) es una variable aleatoria, cuyos
146
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
posibles valores son las medias de las posibles muestras que se puedan extraer de la
población. En la práctica, una vez extraída la muestra, ya tendremos unos valores
concretos (x1,…,xn) de la muestra (X1,…,Xn), que nos permitirán dar un valor concreto
m(x) = (x1+…xn)/n para M(X). Este valor es el que nos servirá para estimarX. Diferentes
muestras concretas, (x1,…,xn) y (x’1,…,x’n), darán diferentes valores m(x) y m’(x) para la
media muestral M(X) y darán diferentes estimaciones para 𝜇 .
Nota: para entender mejor esta dualidad entre el valor concreto de la media, m(x), y la
variable aleatoria M(X), podemos considerar el mismo experimento mental que ya hemos
utilizado antes con la muestra aleatoria simple. Disponemos de k muestras, del mismo tamaño
n, de X. Para cada una de esas muestras calculamos la correspondiente media, m(x)1, m(x)2,
m(x)3,..., m(x)k y las denotamos con subíndices para indicar la muestra de la que provienen.
Estas medias son en general distintas, pero todas tienen el mismo modelo, la variable
aleatoria M(X), y se pueden ver como observaciones particulares (una muestra) de esa
variable M(X). La distribución de M(X) se podría aproximar con el histograma de esas k
medias.
Con estos datos, la estimación que propondríamos para X, el nivel medio de
colesterol de los pacientes del hospital, sería de 227,57.
Sea X una variable aleatoria de media X y desviación típica X, asociada a una
característica de una cierta población, y sea (X1,…,Xn) una muestra aleatoria simple de
esa variable. Un buen estimador de la desviación típica poblacional de X, X, es la
desviación típica muestral
1
𝑆(𝑋) = (𝑋 − 𝑀(𝑋))
𝑛−1 =
Como sucedía con la media muestral, S(X) es una variable aleatoria bajo el modelo
del muestreo aleatorio simple. Utilizaremos minúsculas, s(x), cuando hagamos
referencia a un valor concreto de S(X) para una muestra particular.
147
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Se puede probar que S(X) tiene buenas propiedades como estimador de X. En
particular, que utiliza toda la información de la muestra, que es mejor cuanto mayor es
la muestra, y que no tiene sesgos.
Siguiendo con el ejemplo 5.4, nos dicen que la desviación típica muestral para
los datos de los 30 pacientes escogidos es 23,72. La estimación que
propondríamos para X, la desviación típica del nivel de colesterol de los
pacientes del hospital, sería de 23,72.
Distribución de la suma Sn = X1 + … + Xn
148
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1. La media poblacional de Sn es 𝑛𝜇 .
√
2. La desviación típica poblacional de Sn es 𝑛𝜎 .
√
3. Si X es normal, la distribución de Sn es 𝑁 (𝑛𝜇 , 𝑛𝜎 ), y tipificando
𝑆 − 𝑛𝜇
𝑍= √ ≡ 𝑁 (0,1)
𝜎 𝑛
Nota: el símbolo “" significa "se distribuye como". Aquí “ N(0,1)” se usa para indicar “se
distribuye como una variable aleatoria N(0,1)”.
Nota: observa que el teorema central del límite dice que la SUMA de las n variables es
aproximadamente, normal, pero no que lo sea la distribución de X.
149
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
con qué probabilidad esas 1550 cajas serán suficientes para las necesidades
del próximo mes (30 días).
Para saber si las 1550 cajas serán suficientes, hay que calcular la probabilidad
de que S30 sea menor o igual a 1550:
√
P(S30 ≤ 1550) = P(Z ≤ (1550-1500)/ (6 30) ) ≈ P(Z ≤ 1,52) = 0,9357.
150
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Recuerda que el modelo teórico de la media muestral era la variable aleatoria M(X)
= (X1+…+Xn) /n y observa que M(X) = Sn/n. Por lo tanto, los resultados para la variable
aleatoria M(X) se pueden deducir de los obtenidos para la suma, dividiendo por la
constante n. Si X y X son la media y desviación típica de la variable X de partida, se
puede demostrar que:
𝑀(𝑋) − 𝜇
𝑍= 𝜎 ≡ 𝑁 (0,1)
√
𝑛
Nota: estos resultados indican que el valor medio de M(X) es X y que la desviación típica de
M(X) es X /√𝑛, que tiende a 0 cuando n es grande. Por tanto, la media muestral estará muy
próxima a la poblacional si n es suficientemente grande, y será un buen estimador de la media
poblacional.
Además, si X es normal la media muestral también es normal. Como la distribución de Z está
completamente determinada, la podremos usar en la siguiente sección para construir
intervalos de confianza y contrastes de hipótesis sobre la media poblacional X si la
desviación típica es conocida.
151
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
𝑀(𝑋) − 𝜇
𝑇 = ≡ 𝑡 −
𝑆(𝑋)
√
𝑛
152
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Como sucede con las variables normales, no existe una fórmula simple para calcular
la función de distribución o para calcular cuantiles. Cuando se necesiten, habrá que
recurrir a tablas o a paquetes estadísticos. Al final de este tema, encontraréis tablas
resumidas de la t de Student para diferentes grados de libertad.
Por último, como cualquier t de Student es simétrica respecto del 0, se tienen las
siguientes propiedades, similares a las de la N(0,1). Si T es una t de Student con k
grados de libertad y tp,k es el cuantil p de T,
tp,k = - t1-p,k
P(LI ≤ ≤ LS) = p.
153
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Es habitual denotar el nivel de confianza p como 1- para recalcar su relación con
otro concepto que estudiaremos más adelante: el nivel de significación de un contraste
de hipótesis.
𝑀(𝑋) − 𝜇
𝑍= 𝜎
√
𝑛
P(-z ≤ Z ≤ z) = 0,95.
Ese número z tiene que ser, por la simetría de la N(0,1) en torno a 0, el percentil
0,975, que se denota z0,975, y cuyo valor es z0,975 = 1,960.
154
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: recordemos (véase el Tema 4) que para una variable aleatoria X con función de
distribución F(x), el cuantil p es la inversa de la función de distribución en p. Para la N(0,1),
zp = F -1(p).
El cuantil 0,975, z0,975, deja a su izquierda una probabilidad 0,975 y a su derecha una
probabilidad 0,025. Por simetría, sabemos que z0,025 = -z0,975. Por tanto, P(-z0,975 ≤ Z ≤ z0,975)
es 0,95.
LI = M(X) – z1-/2 * √
LS = M(X) + z1-/2* √
LI = M(X) – z1-* √
El cuantil z que verifica que P(z ≤ Z) = 1-, es z = -z1-. La variable LS del intervalo
(-∞, LS] se obtiene despejando X en -z1- ≤ Z, y es
LS = M(X) + z1-*√
Ejemplo 5.10. Nos piden calcular un intervalo de confianza al nivel 95% para
la media de una variable X que sabemos que es Normal y que tiene una
desviación típica conocida X = 6. Al extraer una muestra de tamaño 9, se ha
observado una media muestral m(x) = 17,3.
155
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
𝑀(𝑋) − 𝜇
𝑇 =
𝑆(𝑋)
√
𝑛
que se distribuye como una t de Student con n-1 grados de libertad, si X es normal.
( )
LI = M(X) – t1-/2,n-1* √
( )
LS = M(X) + t1-/2,n-1* √
( )
LI = M(X) – t1-,n-1* √
( )
LS = M(X) + t1-,n-1* √
Ejemplo 5.11. Siguiendo con el ejemplo 5.10, nos dicen ahora que X no es
conocida, y que la desviación típica muestral de la muestra de tamaño 9 cuya
media era m(x) = 17,3 vale s(x) = 4,8. El intervalo de confianza al nivel 95%
se calcula de la siguiente forma.
156
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: el nivel de confianza de este intervalo sería exactamente 94,952%. Al elegir 2,3 como
el cuantil, estamos eligiendo 1-/2 = 0,97476, por lo que 1- = 0,94952.
157
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
podrían ser H1: > 10 ó H1: ≠ 10. Nótese que estas hipótesis alternativas pueden
contener muchos valores distintos para .
Nota: en general, diremos que "H0 se rechaza" o que "H0 no se rechaza". A veces se prefiere
usar expresiones como "se retiene" o "se mantiene", que resultan más naturales. Pero no
debemos decir que "H0 se acepta" ya que nos quedamos con ella también en los casos dudosos.
Además, diremos que la hipótesis alternativa se acepta (cuando se rechaza la hipótesis nula)
o no se acepta, cuando retenemos H0. No debemos decir que "H1 se rechaza". En los casos
dudosos puede ocurrir que no tengamos evidencia empírica suficiente para rechazar la
hipótesis nula, pero aun así la alternativa puede resultar bastante verosímil.
158
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
error de tipo II depende del verdadero valor del parámetro que estamos contrastando
y por lo tanto es una función de ese parámetro: (). Llamamos potencia del contraste
a 1 - (). Por tanto, la potencia del contraste es la probabilidad de rechazar H0 cuando
H0 es falsa.
H1: X ≠ m
Nota: recuerda que el contraste se suele plantear cuando la literatura científica (manuales,
artículos, …) sostiene que la media de esa variable es m (esta es, por lo tanto, la hipótesis
comúnmente aceptada) pero los investigadores que planean el estudio piensan que esa
hipótesis no es cierta y quieren convencer de que es falsa a los que piensan que sí es cierta,
mediante los datos de su experimento. La hipótesis alternativa es, usualmente, la que
consideran cierta los investigadores que van a realizar el experimento. Se pueden considerar
hipótesis alternativas unilaterales, dependiendo de la naturaleza del fenómeno y del
conocimiento previo que se tiene del mismo. Por ejemplo, si podemos descartar que la media
X pueda tomar valores menores que m, la alternativa sería (H1: X > m) y si descartamos que
159
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
la media X pueda tomar valores mayores que m, sería (H1: X < m). Estas alternativas
unilaterales las estudiaremos más adelante.
𝑀 (𝑋) − 𝑚
𝑍= 𝜎 ≡ 𝑁 (0,1)
√
𝑛
Nota: si calculamos M(X) para una muestra concreta y, sustituyendo en la fórmula anterior,
obtenemos un valor de Z coherente con la distribución N(0,1), los datos permiten mantener
la hipótesis nula. Pero si es un valor muy raro para la N(0.1) podremos rechazar H0 y aceptar
H1.
Este valor puede ser positivo o negativo. Cuando la hipótesis nula es cierta, la
variable aleatoria Z es N(0,1) y z0 debería estar relativamente cerca de 0. La distancia
al 0 la mide su valor absoluto |z0|.
El p-valor se calcula, en este caso, como la probabilidad de que la N(0,1) esté fuera
del intervalo (-|z0|,|z0|). Esto es, la probabilidad de obtener un valor de Z como el
160
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
p = 2*P(N(0,1) ≥ |z0|).
Además de ser una medida de concordancia con H0, el p-valor puede utilizarse
también como regla de decisión para rechazar o no la hipótesis nula. Para ello hay que
fijar, previamente, el nivel de significación del contraste, (esto es, el tamaño del error
de tipo I que estamos dispuestos a tolerar). La regla de decisión queda entonces:
161
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(a) La región de no rechazo, que contiene los valores que nos parecen razonables
y también los dudosos.
(b) La región crítica del contraste (o región de rechazo), que contiene los valores
que nos parecen lo suficientemente raros como para hacernos rechazar la
hipótesis nula.
Nota: obsérvese la relación con el intervalo de confianza bilateral [LI, LS] para X, con un
√ √
nivel de confianza 1-, donde LI=m(x)-z1-/2*X/ 𝑛 y LS=m(x)+z1-/2*X/ 𝑛.
Si m está en (LI, LS), se retiene la hipótesis nula. Si m no está en ese intervalo se rechaza
la hipótesis nula con nivel de significación .
Ejemplo 5.13. Con los datos del ejemplo 5.12, habíamos obtenido un valor z0
= 1,15. Si fijamos =0,05 como nivel de significación, obtenemos que z0,975 =
1,96. Como |1,15| < 1,96, no podemos rechazar la hipótesis nula H0: X = 15.
En la segunda definición de región crítica, los valores que la definen son m +
√ √
z1-/2*X/ 𝑛 y m - z1-/2*X/ 𝑛, es decir, 15 + 1,96*6/3 = 18,92 y 15 -
162
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1,96*6/3 = 11,08. Como 11,08 < 17,3 < 18,92, no podemos rechazar la hipótesis
nula.
y esa hipótesis es cierta, m(X) tenderá a ser mayor que m, y la variable Z tenderá a
tomar valores positivos. Por tanto, valores de z0 positivos y relativamente grandes
apoyarían la hipótesis alternativa. En este caso, el p-valor se define como la probabilidad
de observar, para una N(0,1), un valor mayor o igual que z0:
Nota: observa la relación con el intervalo de confianza unilateral [LI,+∞) para X y un nivel
√
de confianza 1-, con LI = M(X) - z1-*X/ 𝑛. Si m no está en el intervalo (LI,+∞), se rechaza
la hipótesis nula con nivel de significación , y viceversa.
Si consideramos
H1: X < m
y esa hipótesis alternativa es cierta, m(X) tenderá a ser menor que m, y la variable Z
tenderá a tomar valores negativos. Por tanto, valores de z0 negativos y relativamente
grandes en valor absoluto apoyarían la hipótesis alternativa. El p-valor se define como
la probabilidad de observar, para una N(0,1), un valor menor o igual que z0:
163
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: observa la relación con el intervalo de confianza unilateral (-∞, LS] para X, de nivel
√
de confianza 1-, con LS = M(X) + z1-*X/ 𝑛. Si m no está en (-∞, LS), se rechaza la
hipótesis nula con nivel de significación , y viceversa.
Ejemplo 5.14. Con los datos del ejemplo 5.12, supongamos que deseamos
contrastar H0: X = 15 frente a H1: X > 15. El tamaño muestral era n=9, la
media muestral era m(x) = 17,3 y la desviación típica poblacional era X = 6.
𝑀(𝑋) − 𝜇
𝑇 =
𝑆(𝑋)
√
𝑛
𝑀(𝑋) − 𝑚
𝑇 =
𝑆(𝑋)
√
𝑛
𝑚(𝑥) − 𝑚
𝑡 =
𝑠(𝑥)
√
𝑛
164
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
donde t(n-1) representa la variable aleatoria t de Student con n-1 grados de libertad y
Fn-1(x) su función de distribución. Se rechaza la hipótesis nula si el p-valor es menor o
igual que el nivel de significación prefijado.
Nota: observa la relación con el intervalo de confianza bilateral para X, de nivel de confianza
1-, cuando se estimaba X.
H1: X > m
y esta hipótesis es cierta, M(X) tenderá a ser mayor que m, y la variable T tenderá a
tomar valores positivos. Por tanto, valores de t0 positivos y relativamente grandes
apoyarían la hipótesis alternativa. El p-valor se define como la probabilidad de observar,
para una t de Student con n-1 grados de libertad, un valor mayor o igual que t0:
y se rechaza la hipótesis nula siempre que este p-valor sea menor o igual que el nivel de
significación. La región crítica será
M(X) ≥ m + t1-,n-1*S(X)/√𝑛
165
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Si consideramos
H1: X < m
y esta hipótesis alternativa es cierta, M(X) tenderá a ser menor que m, y la variable T
tenderá a tomar valores negativos. Por lo tanto, valores de t0 negativos y relativamente
grandes en valor absoluto apoyarían la hipótesis alternativa. El p-valor se define como
la probabilidad de observar, para una t con n-1 grados de libertad, un valor menor o igual
que t0:
M(X) ≤ m – t1-,n-1*S(X)/√𝑛
Nota: observa la relación de estas dos regiones críticas con los intervalos de confianza unilaterales
para X estimando X, de nivel de confianza 1-.
166
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: recuerda que la mecánica en un contraste con una hipótesis nula sobre un parámetro
se basa es un buscar un estimador de dicho parámetro y en construir un estadístico en base
a ese estimador, de forma que se pueda calcular la distribución de ese estadístico en el
muestreo aleatorio simple suponiendo que la hipótesis nula sea cierta.
H0: = X - Y = 0
y la alternativa
H1: = X - Y ≠ 0
𝑀 (𝑋) − 𝑀(𝑌 )
𝑍=
𝜎 𝜎
𝑚 + 𝑛
es una N(0,1) cuando la hipótesis nula es cierta. Si z0 es el valor que toma el estadístico
anterior para las dos muestras, entonces se rechaza la hipótesis nula siempre que el p-
valor p = 2*P(N(0,1) ≥ |z0|) sea menor o igual que el nivel de significación . El contraste
sigue siendo válido, aunque las variables de partidas no sean normales, siempre que los
tamaños muestrales sean grandes (al menos 30).
Si X y Y no son conocidas, entonces se pueden usar S(X) y S(Y) para estimarlas.
En ese caso, se puede demostrar que el estadístico
𝑀 (𝑋) − 𝑀(𝑌 )
𝑇 =
𝑆 (𝑋) 𝑆 (𝑌 )
𝑚 + 𝑛
167
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
es una t de Student cuando la hipótesis nula es cierta. Los grados de libertad de esta t
de Student, que llamaremos gdl, se calculan con una fórmula compleja.
Si t0 es el valor que toma el estadístico anterior para las dos muestras, entonces
se rechaza la hipótesis nula siempre que el p-valor p = 2*P(tgdl ≥ |t0|) sea menor o igual
que el nivel de significación . El contraste sigue siendo válido, aunque las variables de
partidas no sean normales, siempre que los tamaños muestrales sean grandes (al menos
30).
Nota: existen más variantes de este contraste, en función de si las desviaciones típicas x y
Y se pueden considerar iguales o no, pero no vamos a entrar en ellos aquí.
Como regla general, conviene que el tamaño muestral n sea el mayor posible, ya que,
en las mismas condiciones, la precisión de las estimaciones será mayor y también será
mayor la potencia de los contrastes. En todo caso, lo fundamental es que la muestra sea
representativa. Se pueden obtener mejores resultados con una muestra representativa,
aunque el tamaño muestral sea relativamente pequeño, que con una muestra sesgada con
un tamaño muestral mucho mayor.
En esta sección vamos a ilustrar el razonamiento que lleva a determinar ese tamaño
mínimo para el caso particular de querer estimar la media poblacional X con un cierto
nivel de precisión.
Asumimos que vamos a poder obtener una muestra aleatoria simple. Nos interesa
estimar la media X de una población, que suponemos que es normal y con desviación
típica X conocida, con una precisión determinada d y con confianza 1-.
Esa precisión se garantiza cuando el intervalo de confianza bilateral para X, con
√
confianza 1-, tiene una achura menor o igual que 2d. Esto es, cuando z1-/2*X/ 𝑛 ≤ d.
168
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Despejando, n tiene que ser mayor o igual que el cuadrado de z1-/2*X/d. Por tanto, n
será el menor número entero mayor o igual que
𝑧 − / 𝜎
𝑑
Para este n se puede garantizar que el error de estimación es menor o igual que d
con un nivel de confianza de, al menos, el (1-)*100%, esto es, que
Ejemplo 5.16. Se desea obtener una estimación de X, para una variable X
que sabemos que es normal y que tiene una desviación típica poblacional de X
= 0,8. Queremos saber el tamaño muestral que necesitaríamos para
garantizar una precisión de 0,1, con una confianza del 95%.
Al ser el nivel de confianza del 95%, z0,975 = 1,96. El tamaño muestral buscado
será entonces n > 1,962*0,82/0,12 = 245,86. Y el menor valor entero es n =
246.
5.9. Ejercicios
5.1. Sabemos que una variable aleatoria Z tiene una distribución N(0,1). Utilizando un
paquete estadístico hemos obtenido los valores de la función de distribución de Z:
FZ(1,5) = 0,9332 y FZ(2,5) = 0,9938.
169
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(a) Calcula la media muestral de X. ¿Crees que es una estimación razonable para
p?
(b) Calcula S2(X). ¿Crees que es una estimación razonable para la varianza de X?
(c) Sabemos que Var(X) = p*(1-p). Si llamamos m(x) a la media de los 100
lanzamientos, ¿te parece razonable estimar la varianza de X utilizando el
estimador m(x)*(1-m(x))? Calcula m(x)*(1-m(x)) y compáralo con S2(X).
5.3. El nivel de colesterol en una población se puede modelar con una variable aleatoria
X. Queremos estimar la media y la desviación típica de X. Se ha obtenido una
muestra de n = 100 mediciones del nivel de colesterol de una muestra aleatoria
simple obtenida de esa población. La media muestral obtenida es m(x) = 150. La
varianza muestral obtenida es s2(X) = 25.
5.4. El nivel de colesterol en una población se puede modelar con una variable aleatoria
X normal. Queremos estimar la media y la desviación típica de X. Se ha obtenido
una muestra de n = 100 mediciones del nivel de colesterol de una muestra aleatoria
simple obtenida de esa población. La media muestral obtenida es m(x) = 150. La
varianza es s2(X) = 25.
5.5. Nos indican que un nuevo somnífero garantiza un tiempo de sueño, X, que es una
variable aleatoria con media poblacional 8 horas y desviación típica poblacional 1
hora. Estamos convencidos de que X es normal y de que la desviación típica es
170
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
correcta, pero tenemos dudas sobre el valor de la media. Por lo tanto, queremos
contrastar:
H0: X = 8
H1: X ≠ 8
5.6. Nos indican que un nuevo somnífero garantiza un tiempo de sueño, X, que es una
variable aleatoria con media poblacional 8 horas. Estamos convencidos de que X es
normal, pero no conocemos la desviación típica de X. Queremos contrastar:
H0: X = 8
H1: X ≠ 8
171
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
H0: X = 5
H1: X > 5
5.9. La altura en una determinada población se puede describir con una variable
aleatoria normal X. Se supone que la media de X es 175. Queremos comprobar
experimentalmente esta suposición. Por lo tanto, queremos contrastar:
H0: X = 175
H1: X ≠ 175
5.10. La altura en una determinada población se puede describir con una variable
aleatoria normal X y queremos estimar su media. Obtenemos una muestra aleatoria
simple de 49 personas de esta población, y para esta muestra, la media muestral
es m(x) = 177 y la desviación típica muestral es s(x) = 14.
Puedes usar que el cuantil 0,975 para la t con 48 grados de libertad es 2,011, y que el
cuantil 0,975 para la t con 195 grados de libertad es 1,972.
172
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
5.11. El pulso tras una prueba de esfuerzo en una determinada población se puede
describir con una variable aleatoria normal X. Se supone que la media poblacional
de X es 195. Queremos comprobar esta suposición. Por lo tanto, queremos
contrastar experimentalmente:
H0: X = 195
H1: X ≠ 195
5.12. Queremos estimar la media del nivel de una sustancia en sangre para una población
determinada, con una precisión de 1 para un nivel de confianza del 90%. Sabemos
que ese nivel, para esa población, se puede modelar con una variable Normal, con
desviación típica 6. Para hacerlo, planeamos obtener una muestra aleatoria simple
de esa población.
(a) ¿Cuál es el mínimo tamaño muestral n necesario para que se verifiquen estas
especificaciones?
(b) ¿Valdría ese tamaño si no supiéramos si la distribución de esta variable es
normal?
(d) ¿Cuál sería el tamaño mínimo necesario si nos basta con una precisión de 3, y
si sabemos que X es Normal? ¿Y si no estamos seguros de que es Normal?
173
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
5.15. En un estudio reciente, se afirma que la talla de un niño recién nacido sigue una
distribución normal de media 50,5 cm y desviación típica 2,842 cm. Se ha medido
la talla (en cm) de 9 recién nacidos, obteniéndose los siguientes resultados: 48,9
51,7 42,1 48,7 52,9 49,6 50,5 44,8 y 49,1. Calcula la probabilidad de que la variable
media muestral sea menor que la media para esas 9 observaciones, y razona si la
muestra puede provenir de la población descrita.
5.16. Cierta empresa afirma que el tiempo de duración de las baterías que fabrica, y que
suministra a hospitales, sigue una distribución normal de media 2500 horas y
desviación típica 400 horas. Suponiendo que un hospital le ha comprado a esa
empresa 81 baterías, que la duración media de esas 81 baterías ha sido de 2200
horas y que sus duraciones son independientes entre sí ¿qué conclusión puedes
deducir acerca de las afirmaciones de esa empresa?
5.17. Para un cierto medicamento, la normativa estatal establece que no puede contener
más de 20 mg de un cierto excipiente. Una de las compañías que fabrica dicho
medicamento, afirma que el nivel de excipiente sigue una distribución normal de
media 12,5 mg y desviación típica 5 mg.
174
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Tablas de la t de Student
Se presentan los valores de la función de Distribución F(x) de las Variables
Aleatorias N(0,1) y t de Student con 8, 48, 80, 99 y 195 grados de libertad, para los
correspondientes valores de x.
175
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Definición.
𝑥 = 𝑥 +𝑥 +𝑥
=
𝑥 = 𝑥 + 𝑥 + …+ 𝑥 − +𝑥
=
Propiedades.
Propiedad conmutativa:
176
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(𝑥 + 𝑦 ) = 𝑥 + 𝑦 + 𝑥 + 𝑦 + … + 𝑥 + 𝑦 =
=
= 𝑦 +𝑥 +𝑦 +𝑥 +…+ 𝑦 +𝑥 = (𝑦 + 𝑥 )
=
Propiedad asociativa
(𝑥 + 𝑦 ) + 𝑧 = 𝑥 + 𝑦 + 𝑥 + 𝑦 + …+ 𝑥 + 𝑦 + 𝑧 + 𝑧 + ⋯+ 𝑧 =
= =
= 𝑥 + 𝑥 + ⋯+ 𝑥 + 𝑦 + 𝑧 + 𝑦 + 𝑧 + …+ 𝑦 + 𝑧 = 𝑥 + (𝑦 + 𝑧 )
= =
En particular,
(𝑥 + 𝑦 + 𝑧 ) = 𝑥 + 𝑦 + 𝑧
= = = =
𝑎 𝑥 = 𝑎 (𝑥 + 𝑥 + … + 𝑥 − +𝑥 )=
=
= 𝑎𝑥 + 𝑎𝑥 + ⋯ + 𝑎𝑥 = (𝑎𝑥 )
=
1. Para cualquier constante b que sea un valor real, el sumatorio de esa constante
es igual a la constante multiplicada por el número de sumandos:
𝑏 = 𝑏 + 𝑏 + ⋯ + 𝑏 = 𝑛𝑏
=
(𝑎𝑥 + 𝑏) = 𝑎𝑥 + 𝑏=𝑎 𝑥 + 𝑛𝑏
= = = =
177
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
𝑥 𝑦 + 𝑥 𝑦 + …+ 𝑥 𝑦
(𝑥 + 𝑥 + … + 𝑥 ) (𝑦 + 𝑦 + … + 𝑦 )
= 𝑥 𝑦 +𝑥 𝑦 +⋯+𝑥 𝑦 +⋯+𝑥 𝑦 +⋯+𝑥 𝑦
𝑥 + 𝑥 + …+ 𝑥
(𝑥 + 𝑥 + ⋯ + 𝑥 ) = 𝑥 + 𝑥 + ⋯ + 𝑥 + 2𝑥 𝑥 + 2𝑥 𝑥 + ⋯ + 2𝑥 − 𝑥
𝑓(𝑥 ) ≠ 𝑓( 𝑥)
= =
1
𝑆 (𝑋) = (𝑥 − 𝑋 )
𝑛−1 =
1
𝑆 (𝑋) = 𝑥 − 𝑛𝑋
𝑛−1 =
178
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1
𝑆2 (𝑋) = 𝑥 − 2𝑥 𝑋 + 𝑋
𝑛−1 = = =
1
𝑆2 (𝑋) = 𝑥 − 2𝑋 𝑥 + 𝑛𝑋
𝑛−1 = =
1 1
𝑆2 (𝑋) = 𝑥 − 2𝑋 𝑛𝑋 + 𝑛𝑋 = 𝑥 − 2𝑛𝑋 + 𝑛𝑋
𝑛−1 =
𝑛−1 =
Por tanto,
1
𝑆 (𝑋) = 𝑥 − 𝑛𝑋
𝑛−1 =
179
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.3. (a)
Días Frecuencia Porcentaje
0 3 6
1 4 8
2 11 22
3 7 14
4 10 20
5 6 12
6 3 6
7 2 4
8 3 6
9 0 0
10 1 2
Total 50 100
(c)
2-3
0-1
6 o mas
4-5
180
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.4. (a)
Perímetro Frecuencia Porcentaje Por. Acum.
331 1 2,9 2,9
334 1 2,9 5,7
336 1 2,9 8,6
337 2 5,7 14,3
338 1 2,9 17,1
339 1 2,9 20,0
340 1 2,9 22,9
341 1 2,9 25,7
342 5 14,3 40,0
343 2 5,7 45,7
345 2 5,7 51,4
346 2 5,7 57,1
347 2 5,7 62,9
348 1 2,9 65,7
349 2 5,7 71,4
351 2 5,7 77,1
352 2 5,7 82,9
353 1 2,9 85,7
356 1 2,9 88,6
358 1 2,9 91,4
360 1 2,9 94,3
361 1 2,9 97,1
365 1 2,9 100
Total 35 100
(b) 2 33* | 14
7 33. | 67789
16 34* | 012222233
(9) 34. | 556677899
10 35* | 11223
5 35. | 68
3 36* | 01
1 36. |5
181
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.5. X1 = 368.
X2 = 387*100/1501 = 25,8 = X4.
X3 = 371*100/1501 = 24,7.
X5 = 25,8 + 24,5 = 50,3.
X6 = 100.
1.6. (a) Tomando unidades como hojas y decenas y centenas como tallos:
15 0 | 000000055556889
25 1 | 0000055779
(10) 2 | 0000033367
21 3 | 00
19 4 |0
18 5 | 0000
14 6 | 000
11 7 |0
8 |
9 |
10 10 | 000
7 11 | 47
HI: 200 200 300 350 450
La última línea (HI: 200 200 300 350 450) equivale a añadir en el diagrama
una última línea de la forma:
(c)
k 5 10 25 50 75 90 95
Pk 0 0 8 20 50 117 300
5 3,75 3 0,75 0 0 0
10 6,5 6 0,5 0 0 0
50 28,5 28 0,5 20 20 20
182
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.7. (a)
Edad Frecuencia Porcentaje Porc. Acum.
18 23 20,9 20,9
19 29 26,4 47,3
20 27 24,5 71,8
21 10 9,1 80,9
22 6 5,5 86,4
23 6 5,5 91,8
24 1 0,9 92,7
25 1 0,9 93,6
26 2 1,8 95,5
28 2 1,8 97,3
34 1 0,9 98,2
41 1 0,9 99,1
45 1 0,9 100
Total 110 100
(b)
k 5 10 50 90 95
Pk 18 18 20 23 26
183
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Diagrama de caja:
|--------------[ | ]--------| o
5 15 17,5 25 30 50
Diagrama de caja:
|-------[ | ]-----| o o *
47 68 76 82 96 104(2) 119 145
Una descripción podría ser: la muestra tiene 23 datos. El peso más frecuente
es 63 kg. La mitad de la muestra tiene un peso de a lo más 65 kg. La media es
65,4 kg, con una desviación típica de 2,8 kg. El 25% de la muestra (al menos)
tiene un peso menor o igual que 63 kg y el 25% (al menos) tiene un peso mayor
o igual que 68 kg.
(b)
|----------------------------[ | ]---------------|
51 55 58 60 62
184
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1 1
𝑌= (𝑎 + 𝑏𝑥 ) = (𝑛𝑎 + 𝑏 𝑥 ) = 𝑎 + 𝑏𝑋
𝑛 𝑛
𝑆(𝑌) = ∑ (𝑦 − 𝑌) = ∑ (𝑎 + 𝑏𝑥 − 𝑎 − 𝑏𝑋) =
= ∑ 𝑏 (𝑥 − 𝑋) =𝑏 𝑆(𝑋)
185
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Nota: si b es negativo, se obtiene el mismo resultado para la media, pero hay que
cambiar b por su valor absoluto en la desviación típica: S(Y) = |b|S(X).
1.17. (a) S adecuado EN CADA MUESTRA. Pero NO para comparar pues están
medidas en unidades distintas.
(b) CV(L) = 2/9,5=0,211 CV(Z) = 2/12,5=0,160.
(c) Aplicamos el ejercicio 16:
W = datos de Zaragoza, en libras: W = Z/1,11=0,901*Z.
M(W) = 0 + 0,901*12,5 = 11,262.
S(W) = 0,901*2 = 1,802 libras < 2 libras = S(L).
Nota: CV(W) = 1,802/11,262 = 0,160.
(El mismo que Z: el CV es adimensional y hay un cambio de escala).
1.18. (a) S adecuado EN CADA MUESTRA. Pero NO para comparar pues están
medidas en unidades distintas.
(b) CV(L) = 1,9/10,5 = 0,181 CV(Z) = 2/11,5 = 0,174.
(c) Aplicamos el ejercicio 16:
W = datos de Zaragoza, en libras: W = Z/1,11 = 0,901*Z.
M(W) = 0 + 0,901*11,5 = 10,362.
S(W) = 0,901*2 = 1,802 libras < 1,9 libras = S(L).
Nota: CV(W) = 1,802/10,362 = 0,174.
(El mismo que Z: el CV es adimensional y hay un cambio de escala).
1.20. (a) 1. S es adecuado EN CADA MUESTRA. Pero NO para comparar pues están
medidas en unidades distintas.
2. NO debemos usar CV, ya que las temperaturas (en ºC y en ºF) NO tienen
un cero absoluto.
(b) Aplicamos el ejercicio 16:
W = datos de España (E) en ºF : W = 32+1,8*E
M(W) = 32+1,8*38,9 = 102,02 ºF
S(W) = 1,8*1 = 1,8 ºF = S(EEUU).
(c) Reduciendo a las mismas unidades, tienen la misma S. Igual dispersión en torno
a su media (que podría ser muy distinta).
186
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.21. (a) Incidencia = (18/159832)*100000 = 11,26 (11 casos por cada 100000
personas de la muestra).
(b) Prevalencia = ((456+18)/159832)*100000 = 296,57 (297 casos por cada
100000 personas de la muestra).
sexo altura z
1 147,9 -1,68
1 154,2 -0,9
1 157,8 -0,45
1 158 -0,43
1 158,7 -0,34
1 161,5 0,01
1 163,2 0,22
1 166,3 0,6
1 173,3 1,47
1 173,6 1,51
2 158,2 -1,37
2 159 -1,25
2 162,1 -0,82
2 163,9 -0,57
2 165,4 -0,36
2 169,9 0,26
2 174,1 0,85
2 174,5 0,9
2 175,8 1,08
2 177,2 1,28
187
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(c) Si ordenamos teniendo en cuenta el valor tipificado (columna z), la mujer que
mide 166,3 sería relativamente más alta que el hombre que mide 169,9, pero
no que el hombre que mide 174,1.
sexo altura z
1 147,9 -1,68
2 158,2 -1,37
2 159 -1,25
1 154,2 -0,9
2 162,1 -0,82
2 163,9 -0,57
1 157,8 -0,45
1 158 -0,43
2 165,4 -0,36
1 158,7 -0,34
1 161,5 0,01
1 163,2 0,22
2 169,9 0,26
1 166,3 0,6
2 174,1 0,85
2 174,5 0,9
2 175,8 1,08
2 177,2 1,28
1 173,3 1,47
1 173,6 1,51
188
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(e) La compañía podría ofrecer también el consumo medio por día en cada periodo
de facturación, y esas cantidades son comparables directamente, aunque el
número de días de cada periodo de facturación sea distinto.
1.25. (a) Se suele abusar del diagrama de sectores, pero en este caso es adecuado
utilizarlo porque la variable es nominal. A pesar de que hay 12 categorías, las
leyendas que las identifican se leen con claridad y se asocian fácilmente con
el correspondiente sector. Los sectores, además, contienen la frecuencia de
cada categoría. El gráfico presenta toda la información relevante.
(b) En esta página web la elección de los gráficos y su realización es, en general,
muy adecuada.
189
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
1.26. (a)
Ingresos Frecuencia Porcentaje Porc. Acum.
0 7 17,5 17,5
1 11 27,5 45,0
2 10 25 70,0
3 7 17,5 87,5
4 1 2,5 90,0
5 2 5,0 95,0
6 1 2,5 97,5
7 1 2,5 97,5
Total 40 100
1.27. (a)
Cambios Frecuencia Porcentaje Porc. Acum.
1 14 17,5 17,5
2 20 25,0 42,5
3 32 40,0 82,5
4 10 12,5 95,0
5 4 5,0 100
Total 80 100
190
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
2.8. (a) M(B) = 9,4; M(T) = 18,2; S(B) = 5,1; S(T) = 8,4.
191
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
2.11. Partiendo de las medias de la tabla y redondeando a tres decimales en cada paso,
se obtiene:
(a) a = 3614,244; b = -1,419.
(b) R2 = 0,925; 92.5%.
(c)
Año Predicción Marca Residuo
obtenida
1994 784,758 816,930 32,172
1998 779,082 817,460 38,378
2002 773,406 818,180 44,774
2006 767,730 82,.700 56,970
NOTA: Con los datos originales de la tabla, utilizando Excel y redondeando a tres
decimales solo al escribir los resultados se obtiene:
192
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
(c) y (e)
(e)
Satisfacción
Muy satisfecho Satisfecho Insatisfecho Muy insatisfecho
50
40
Nivel de satisfacción
30
20
10
0
Lugar de residencia
193
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
3.3. (a) P(S1) = 0,12. (b) P(S1 ∩ S2) = 0,06. (c) P(S1 ∪ S2) = 0,26.
3.9. (a) P(E|T+) = 0,038. (b) P(E|T-) = 0,000001. (c) Precisión: 0,995.
(d) P(E|T+) = 0,980 Precisión: 0.995.
3.10. (a) P(E|T+) = 0,696. (b) P(Ec|T-) = 0,725. (c) Precisión: 0,715
(d) La prueba no es muy buena, pues la precisión sólo es del 0,715, es decir, que
sólo clasificaremos correctamente un 71,5% de las veces. Además, si decidimos
clasificar como enfermo cada vez que la prueba salga positiva, nos estaremos
equivocando aproximadamente un 30,4% de las veces, y si decidimos clasificar
como sano cada vez que la prueba salga negativa, nos estaremos equivocando
aproximadamente un 27,5% de las veces.
194
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
3.12. (a) P(E ∩ S1) = 0,02. (b) P(S1) = 0,029. (c) P(E|S1) = 20/29 (= 0,69).
3.13. (a) P(T+) = 0,204. (b) P(D|T+) = 0,96078. (c) P(D|T-) = 0,005025.
3.14. (a) P(F) = 0,16. (b) P(F ∩ T) = 0,08. (c) P(F ∪ T) = 0,28.
k f. de prob. f. de dist.
0 0,90438208 0,90438208
1 0,09135172 0,99573380
2 0,00415235 0,99988615
3 0,00011185 0,99999800
4 0,00000198 0,99999998
5 0,00000002 1,00000000
195
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
6 0,00000000 1,00000000
7 0,00000000 1,00000000
8 0,00000000 1,00000000
9 0,00000000 1,00000000
10 0,00000000 1,00000000
4.2. (a) P(X=0) = 0,32768. (b) P(X=2) = 0,2048. (c) E(X) = n*p = 1.
4.3. (a) P(X=4) = 0,195. (b) P(X=0) = 0,018. (c) P(X≥2) = 0,908.
En el apartado c, P(X ≥ 2) = 1 – P(X ≤ 1) y P(X ≤ 1) = 0,0183 + 0,0733 = 0,0916. Por tanto, P(X
≥ 2) = 1 – 0,0916 = 0,9084.
4.4. (a) P(X > 1) = 0,159. (b) P(0,5 < X < 1,5) = 0,242.
(c) P(-1,5 < X < -0,5) = 0,242. (d) P(X>1,96) = 0,025.
196
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
Soluciones utilizando la tabla N(0,1) [con 2 decimales para los valores y 4 decimales para
las probabilidades] y tomando como cuantil zp el menor a tal que F(a) p.
4.12. (a) E(X) = 100 días. (b) P(X≤50) = 0,393. (c) P(X≤100) = 0,632.
(d) P(X>365) = 0,026. (e) x0,5 = 69,315 días.
4.13. (a) P(X<2) = P(X≤2) = 0,25. (b) P(2 < X ≤ 2,4) = 0,11.
(c) P(0<X≤1) = 0,0625. P(1<X≤2) = 0,1875. P(2<X≤3) = 0,3125. P(3<X≤4) = 0,4375.
√
(d) La función cuantil es xp = 4 𝑝. X0,64 = 3,2.
197
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
5.1. (a) P(Z [-1,5, 1,5]) = P(-1,5 ≤ Z ≤ 1,5) = P(Z ≤ 1.5) – P(Z < -1.5)
= P(Z ≤ 1,5) – P(Z > 1.5) = P(Z ≤ 1,5) – (1 - P(Z ≤ 1,5) ) = 2*P(Z ≤ 1,5) – 1
= 2*FZ(1,5) - 1 = 2*0,9332 – 1 = 0,8664.
(b) 1 - P(Z [-1,5, 1,5]) = 1 – 0,8664 = 0,1336
(c) P(Z > 2,5) = 1 – P(Z ≤ 2,5) = 1 - FZ(2,5) = 1 – 0,9938 = 0,0062.
(d) P(Z < -2,5) = P(Z > 2,5) = 0,0062.
5.3. (a) m(x) = 150 (b) s(x) = 5 (c) m(x) = 150 (d) s(x)/10 = 0,5
198
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
5.4. (a) Usando que z0,975 = 1.96 se tiene que LI = 150 – 1,96*4,5/10 = 149,118 y que
LS = 150 + 1,96*4,5/10 = 150,882
Redondeando a 2 decimales, el intervalo es [149,12, 150,88].
(b) Usando que t0,975,99 = 1,984 se tiene que LI = 150 – 1,984*5/10 = 149,008 y que
LS = 150 + 1,984*5/10 = 150,992.
Redondeando a 2 decimales, el intervalo es [149,01, 150,99].
(c) Usando que z0,95 = 1,645 se tiene que LI = 150 – 1,645*4,5/10 = 149,260 y que
LS = 150 + 1,645*4,5/10 = 150,740.
Redondeando a 2 decimales, los intervalos unilaterales son (-∞, 150,74] y
[149,26,+ ∞).
(d) Usando que t0,95,99 = 1,660 se tiene que LI = 150 – 1,660*5/10 = 149,170 y que
LS = 150 + 1,660*5/10 = 150.830
Redondeando a 2 decimales, los intervalos unilaterales son (-∞, 150,83] y
[149,17,+ ∞).
5.8. Si rechazamos la hipótesis nula, estaríamos diciendo que X > 5 cuando hemos
obtenido una estimación de X de 4,8. Cuando la alternativa es unilateral, el p-valor
se calcula con una cola de la distribución, en el sentido de la hipótesis alternativa.
En este caso, debemos tomar la cola de la derecha.
(a) t0 = (4,8-5)/(1/10) = -2 y el p-valor = P(t(99) ≥ -2) = 0,97588 > 0,05.
(b) No se puede rechazar la hipótesis nula al 5%.
5.10. (a) Usando que t0,975,48 = 2,011 se tiene LI = 172,978 y LS = 181,022. El intervalo
de confianza bilateral al 95% sí contiene al 175. Nótese que con estos mismos
datos, en 5.9 (b) no se puede rechazar la hipótesis nula de que la media es
175 con alternativa bilateral.
199
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
5.15. P(M(X) < 48.7) = P( Z < -1,9 ) = 0,0287. Al ser esta probabilidad tan pequeña, el
peso medio de 48,7 es bastante extraño si la distribución de la talla de recién
nacidos fuese normal de media 50,5 cm y desviación típica 2,842 cm. Por tanto, la
muestra parece no provenir de la población descrita.
5.16. P(M(X) < 2200) = P( Z < -6,75 ) ≈ 0. Al ser esta probabilidad prácticamente cero,
los datos obtenidos con la muestra no concuerdan con los datos proporcionados por
la empresa. Por tanto, si el resto de las suposiciones son correctas, las baterías
que fabrica la empresa no tienen una duración media de 2500 horas, sino que tienen
una duración media más pequeña.
200