Apuntes EACS 23-24

Estadística Aplicada a
Ciencias de la Salud
Fernando Plo y Javier Tejel
Estadística Aplicada a Ciencias de la Salud

Grado en Enfermería de la Universidad de Zaragoza
Prólogo
Estos apuntes son el resultado de organizar el material de trabajo utilizado

durante varios años en la enseñanza de la asignatura “Estadística Aplicada a Ciencias de
la Salud”, en el Grado en Enfermería de la Universidad de Zaragoza.
Con este material se pretende facilitar la labor de estudio, dando una visión
completa, rápida y sencilla de las diferentes técnicas estadísticas básicas que se
emplean en las Ciencias de la Salud, sin entrar en la mayoría de los casos en los detalles
técnicos ni en los fundamentos matemáticos complejos que hay detrás de ellas.
También se incluyen bastantes ejemplos ilustrativos y se proponen un gran número

de ejercicios para que se pueda practicar sobre las técnicas y conceptos explicados. Al
final de los apuntes, se proporcionan además las soluciones a muchos de esos ejercicios.
Estos apuntes no deberían verse como un libro de introducción a la Estadística,

pues en ellos sólo se recogen los aspectos más importantes que se enseñan durante las
aproximadamente 30 horas de teoría de un cuatrimestre, teniendo en cuenta que
también se dedica parte de esas horas a la resolución de problemas.
Deben pensarse más bien como una herramienta para facilitar el estudio de la
asignatura. En la bibliografía de la guía docente se recomiendan otros libros y manuales
para completar y ampliar los contenidos presentados en estos apuntes.
Tabla de contenidos
Prólogo ............................................................................................................................................... 2
0. La Estadística ......................................................................................................................... 5
1. Estadística descriptiva univariante ................................................................................... 7
1.1. Introducción ............................................................................................................... 7
1.2. Variables estadísticas .............................................................................................. 7
1.3. Tabla de frecuencias ............................................................................................... 10
1.4. Representaciones gráficas ..................................................................................... 12
1.5. Medidas descriptivas ............................................................................................... 18
1.5.1. Medidas de tendencia central ................................................................. 18
1.5.2. Medidas de posición .................................................................................. 23
1.5.3. Medidas de dispersión .............................................................................. 25
1.5.4. Gráfico de caja........................................................................................... 30
1.5.5. Medidas de forma...................................................................................... 32
1.6. Síntesis de datos tabulados .................................................................................. 35
1.7. Transformaciones de variables. Tipificación .................................................... 36
1.8. Otros estadísticos utilizados en Ciencias de la Salud .................................... 38
1.9. Ejercicios ................................................................................................................... 40
2. Estadística descriptiva bivariante .................................................................................. 53
2.1. Introducción ............................................................................................................. 53
2.2. Dos variables cualitativas ...................................................................................... 53
2.2.1. Tabla de contingencia ............................................................................... 54
2.2.2. Distribuciones condicionadas y marginales ......................................... 55
2.2.3. Independencia en variables cualitativas .............................................. 60
2.3. Una variable cualitativa y otra cuantitativa ...................................................... 65
2.4. Dos variables cuantitativas ................................................................................... 67
2.4.1. Diagrama de dispersión ............................................................................ 68
2.4.2. Correlación .................................................................................................. 69
2.4.3. Regresión lineal simple ............................................................................. 77
2.5. Ejercicios ................................................................................................................... 84
3. Cálculo de probabilidades .................................................................................................. 94
3.1. Introducción ............................................................................................................. 94
3.2. Concepto intuitivo de probabilidad ...................................................................... 95
3.3. Experimentos y sucesos ......................................................................................... 96
3.4. Definición de probabilidad..................................................................................... 98
3.5. Probabilidad condicionada e independencia de sucesos .................................. 99
3.6. Teorema de la probabilidad Total y Teorema de Bayes ................................ 101
3.7. Pruebas diagnósticas ............................................................................................. 103
3.8. Ejercicios ................................................................................................................. 108
4. Variables aleatorias ........................................................................................................... 114
4.1. Introducción ............................................................................................................ 114
4.2. Definición intuitiva de variable aleatoria .......................................................... 115
Estadística Aplicada a Ciencias de la Salud Fernando Plo y Javier Tejel
4.3.
Variables aleatorias discretas ............................................................................. 116
4.3.1. Propiedades ................................................................................................ 116
4.3.2. Bernouilli de parámetro p ....................................................................... 119
4.3.3. Binomial de parámetros n y p ................................................................. 121
4.3.4. Poisson de parámetro  .......................................................................... 123
4.4. Variables aleatorias continuas ............................................................................ 124
4.4.1. Propiedades ............................................................................................... 124
4.4.2. Uniforme en el intervalo [a,b] .............................................................. 128
4.4.3. Exponencial de parámetro a .................................................................. 129
4.4.4. Normal (0,1) .............................................................................................. 130
4.4.5. Normal () .............................................................................................. 133
4.5. Ejercicios ................................................................................................................. 134
Tabla de la N(0,1) ................................................................................................... 141
5. Inferencia estadística ..................................................................................................... 142
5.1. Introducción ........................................................................................................... 142
5.2. Población y muestra............................................................................................... 142
5.3. Técnicas de muestreo ........................................................................................... 143
5.4. Estimación de parámetros ................................................................................... 145
5.5. Distribuciones de los estadísticos en el muestreo ........................................ 148
5.6. Intervalos de confianza ....................................................................................... 153
5.6.1. Intervalo de confianza para X conocida X...................................... 154
5.6.2. Intervalo de confianza para X estimando X ................................... 156
5.7. Contraste de hipótesis ......................................................................................... 157
5.7.1. Contraste H0: X = m, conocida X ....................................................... 159
5.7.2. Contraste H0: X = m, estimando X .................................................... 164
5.7.3. Otros contrastes ..................................................................................... 166
5.8. Cálculo del tamaño muestral................................................................................ 168
5.9. Ejercicios ................................................................................................................. 169
Tablas de la t de Student .................................................................................... 175
Apéndice I. Manejo de sumatorios ......................................................................................... 176
Apéndice II. Soluciones a algunos ejercicios ....................................................................... 180
4
0. La Estadística
La Estadística actual puede considerarse como el resultado de la unión de dos

disciplinas que evolucionaron independientemente en el tiempo hasta confluir en el siglo
XIX: el cálculo de probabilidades, desarrollado como teoría matemática de la
incertidumbre, y la Estadística (o ciencia del Estado), que estudiaba la descripción de
datos. La integración de ambas disciplinas da lugar a una ciencia que estudia cómo
obtener conclusiones de la investigación empírica mediante el uso de modelos
matemáticos.
Un modelo matemático es una abstracción simplificada de una realidad compleja y

siempre existirá cierta discrepancia entre lo observado y lo que el modelo predice. La
Estadística proporciona una metodología para juzgar esas discrepancias entre la
realidad y la teoría, y su uso es fundamental en cualquier investigación científica que
requiera el análisis de datos y el diseño de experimentos, como sucede en las
investigaciones experimentales en Ciencias de la Salud.
En una investigación científica, el investigador usualmente se plantea una serie de

preguntas que quiere responder, basándose precisamente en la evidencia empírica. Por
tanto, siempre se realiza el planteamiento de un problema que se desea resolver, los
objetivos que se quieren alcanzar y la información a recoger para alcanzar esos
objetivos. En la fase de diseño de la investigación, se determina el colectivo (la
población) sobre el que se va a realizar el estudio y las características (las variables)
que se van a observar o medir. En la mayoría de los casos, no es posible obtener los
valores de las variables para todos los individuos de la población y solo se pueden
estudiar las variables en un subconjunto de la población que se llama muestra. Uno de
los objetivos fundamentales de la Estadística es precisamente evaluar hasta qué punto
se pueden aplicar a toda la población los resultados obtenidos con la muestra, mediante
el análisis de los datos obtenidos en el trascurso de la investigación y la cuantificación
de los errores que se cometen en esa aplicación.
La Estadística actual trata de dar respuesta a una gran variedad de situaciones

prácticas. Algunos ejemplos del uso de la Estadística serían los siguientes.
 Descripciones: ¿qué proporción de diabéticos hay en una población? ¿Cuántas

veces acude un paciente medio a su médico de atención primaria a lo largo de un
año?
5
 Medición de relaciones: ¿existe relación entre la obesidad y el sedentarismo?

¿Cómo cambia el nivel de colesterol con la edad?
 Contraste de hipótesis: ¿se produce mejoría en la salud general de un paciente
tras una determinada terapia? ¿Son igual de eficaces dos medicamentos para
aliviar los síntomas de una enfermedad?
 Predicciones: ¿cuál será el número de enfermos que ingresarán en un hospital el
mes que viene? ¿Qué tensión arterial sistólica tendrá un paciente tras un mes
siguiendo un determinado tratamiento?
Estos apuntes se dividen en tres bloques: la Estadística Descriptiva, que trata

sobre la organización, presentación y resumen de los datos, la Probabilidad, que estudia
las leyes que rigen los fenómenos aleatorios, y la Inferencia Estadística, en la que se
trata de inferir propiedades de una población a partir de los resultados de una muestra
representativa de dicha población.
Los dos primeros capítulos se dedican a la Estadística Descriptiva Univariante y

Bivariante. El tercer capítulo se dedica a explicar los fundamentos del Cálculo de
Probabilidades y en el cuarto se describen los modelos probabilísticos para las variables
estadísticas: las Variables Aleatorias. Por último, el quinto capítulo se dedica a una
introducción a los métodos y conceptos de la Inferencia Estadística.
6
1. Estadística descriptiva univariante
1.1. Introducción
La Estadística Descriptiva es una metodología para la descripción gráfica y

numérica de datos, que proporciona un conjunto de procedimientos para organizar,
resumir, representar y analizar dichos datos.
En este tema y el siguiente, nos centraremos en lo que hay que hacer una vez
tengamos el conjunto de datos, para sacar la mayor cantidad de información sobre los
mismos y en la forma más útil posible. En este tema, aprenderemos a describir cada una
de las variables estadísticas por separado. En el siguiente tema veremos técnicas para
describir conjuntamente varias variables y estudiar posibles relaciones entre ellas.
1.2. Variables estadísticas
Comenzamos precisando algunos conceptos. Llamamos población al colectivo que

queremos estudiar, y del que nos interesan una o varias características. La población
puede estar constituida por personas o animales, pero también por objetos, reales o
hipotéticos.
Cuando podemos acceder a todos los miembros de la población, tenemos un censo.

Frecuentemente, esto es imposible o demasiado costoso y se trabaja con un sub-
conjunto de la población, al que llamamos muestra. Por extensión, también se llama
muestra al conjunto de datos que se han obtenido. Si queremos aplicar nuestro análisis
a toda la población, procuraremos que la muestra sea tan representativa como sea
posible de esa población. Cada uno de los miembros de esa muestra será un caso
(individuo, unidad estadística) de la misma.
Llamamos variables estadísticas a las características y llamamos datos a los

valores concretos que toman estas características para cada uno de los casos.
Ejemplo 1.1. Medición de pliegues cutáneos en adolescentes.
7
En un estudio observacional sobre la relación entre forma física y

obesidad (objetivo del estudio) en adolescentes entre 13 y 16 años de la
Comunidad Autónoma Aragonesa (población de interés), realizada en 1996 por
un equipo de profesores de la Universidad de Zaragoza, se seleccionaron
varios grupos de estudiantes de colegios públicos en Huesca, Teruel,
Zaragoza y su provincia (muestra observada). Para un total de 1501
estudiantes (tamaño de la muestra), se obtuvieron, entre otros, los datos
correspondientes a las siguientes variables: el sexo, la edad, el peso en kg, la
altura en cm, y, para evaluar indirectamente el porcentaje de grasa, la medida
en mm de los pliegues cutáneos (bíceps, tríceps, subescapular, suprailíaco,
abdomen y muslo). La muestra estudiada es el conjunto de 1501 estudiantes,
y también el conjunto de datos (en este caso, las n = 1501 observaciones de
las 10 variables).
Si vamos a estudiar k variables sobre n individuos de la muestra, el conjunto de

datos se puede disponer en una hoja de cálculo, con k columnas, una por cada variable,
y con n filas, una por cada caso de la muestra. Los datos en una fila son las observaciones
de los valores de las k variables para ese individuo concreto. Los datos en cada columna
son las observaciones de una variable para todos los individuos de la muestra. Los datos
del ejemplo 1.1 tendrían el siguiente aspecto.
8
Ejemplo 1.2. Efectos de un fármaco.
En un estudio experimental sobre el efecto de un fármaco sobre

pacientes que sufren una enfermedad, el investigador quiere medir la
temperatura corporal, el número de respuestas correctas en un test de
atención (con 10 preguntas) y un indicador del nivel de toxicidad (que puede
tomar cualquier valor con decimales entre 0 y 10), a un grupo de 25 pacientes,
seleccionados de acuerdo con un protocolo prefijado, que han tomado de
forma controlada ese medicamento durante un mes. También piensa que
pueden ser relevantes el sexo del paciente y su grupo sanguíneo, y anota estos
valores para cada paciente.
En este ejemplo, la población de interés es el conjunto de pacientes,

presentes y futuros, que sufren esa enfermedad. La muestra disponible es el
conjunto de pacientes, n = 25, sobre los que se puede realizar el estudio.
Es un convenio habitual representar las variables con letras mayúsculas. En el

ejemplo anterior, las variables estadísticas son 5: sexo (S), grupo sanguíneo (G),
temperatura (T), respuestas (R) y toxicidad (X). Los valores particulares de esas
variables en cada paciente (los datos) se suelen denotar con letras minúsculas y es usual
utilizar subíndices para distinguir los valores de la variable para distintos individuos. En
el ejemplo anterior, las temperaturas T medidas en los pacientes 3 y 7 se denotarían
como t3 = 36,4 y t7 = 36,8.
El conjunto de todos los valores que puede tomar una variable estadística es su
dominio o rango de valores, y cada uno de esos posibles valores se llama modalidad,
categoría o nivel de la variable.
Algunas variables (sexo, grupo sanguíneo) toman valores en un conjunto de

modalidades que son cualidades y no tienen, de forma natural, ningún valor numérico
asociado a ellas. A estas variables las llamamos cualitativas. Las variables cualitativas
se pueden clasificar como ordinales y nominales. Son ordinales cuando es posible
establecer, de forma razonable, un orden entre sus modalidades. Son nominales cuando
no tiene sentido ordenar sus modalidades. La variable que recoge las respuestas a la
pregunta ‘Indica el grado de satisfacción’, con las opciones ‘bajo’, ‘normal’ y ‘alto’, puede
considerarse como una variable ordinal. Sin embargo, el sexo o el grupo sanguíneo son,
claramente, variables nominales.
Llamamos cuantitativas (o numéricas) a las variables que se expresan, de forma

natural, como números (temperatura, respuestas correctas o peso). Las variables
cuantitativas son continuas si pueden tomar cualquier valor en un intervalo numérico de
la recta real. Esto es lo que ocurre con las variables temperatura o peso. Entre dos
valores cualesquiera tiene sentido pensar en un valor intermedio si tenemos
9
instrumentos de medición suficientemente precisos. Sin embargo, la variable

‘respuestas correctas’ para una prueba con 10 preguntas sólo puede tomar valores
enteros entre 0 y 10. A las variables cuantitativas que sólo pueden tomar valores en un
conjunto finito (o infinito numerable) de valores las llamamos discretas.
Nota: conviene resaltar que las variables de tipo continuo siempre se nos proporcionan
“discretizadas”, con un número específico de decimales, debido a la precisión de los
instrumentos de medida. No hay que confundir el “carácter intrínseco” de una variable
continua con la “forma” en la que se nos proporciona la información.
1.3. Tabla de frecuencias
Consideramos una variable que puede tomar k modalidades distintas, y los n valores
particulares que toma esa variable en una muestra. Llamamos frecuencia absoluta de
una modalidad al número de veces que aparece esa modalidad en la muestra. Llamamos
tabla de frecuencias absolutas a una tabla que lista todas las modalidades que toma la
variable, en esa muestra concreta, junto con la frecuencia absoluta con la que aparecen.
Cuando el número de modalidades de una variable es pequeño con respecto al

tamaño n de la muestra, esta forma de presentar el conjunto de datos es, en general,
mucho más fácil de interpretar que la lista de datos ‘cruda’.
Ejemplo 1.3. Tallas de camiseta.
Hemos obtenido (mediante cuestionario) la talla de camiseta de 56

alumnos y alumnas de un curso de Estadística. Los datos obtenidos son los
siguientes.
l m l l l xl xl l m m l m s m m
m l m l s m m m l m m s s m s
m l m s m s m s m l l l s s m
l m m s s s s m s m s
El número de modalidades que toma la variable “talla de camiseta” es 4

(s, m, l y xl). La correspondiente tabla de frecuencias absolutas se muestra
a continuación.
Talla s m l xl
Frec. Abs. 16 24 14 2
Llamamos frecuencia relativa de una modalidad al cociente entre la frecuencia

absoluta de esa modalidad y el número n de observaciones. Si lo multiplicamos por 100,
10
tenemos el porcentaje de cada modalidad en la muestra. En el ejemplo anterior, la tabla

de porcentajes (redondeando a dos decimales) es la siguiente.
Talla s m l xl
Porcentaje 28,57 42,86 25,00 3,57
La tabla de frecuencias relativas o la de porcentajes es más fácil de interpretar

que la de frecuencias absolutas, ya que no dependen del tamaño n de la muestra. Esto
permite una comparación directa con tablas de frecuencias relativas o de porcentajes
de otras muestras, aunque los tamaños sean distintos.
Cuando las modalidades se pueden ordenar (esto es, para variables cualitativas
ordinales o para variables cuantitativas) también puede resultar útil trabajar con las
frecuencias acumuladas: número de observaciones que toman esa modalidad o una
modalidad menor. En el ejemplo anterior, considerando la talla como una variable ordinal
y codificando las modalidades s=1, m=2, l=3, xl=4, la tabla de frecuencias y porcentajes
acumulados sería:
Talla 1 2 3 4
Frec. Acum. 16 40 54 56
% Acum. 28,57 71,43 96,43 100
Las tablas de frecuencia son poco útiles para variables que toman un número muy
elevado de modalidades distintas en la muestra, como es habitual en el caso de variables
cuantitativas continuas. Un método para poder utilizar la tabla de frecuencias también
con una variable continua es transformarla en discreta o categórica, utilizando
intervalos de clase, que son un conjunto de intervalos disjuntos que cubren el rango de
valores que toma la variable. Para que sean disjuntos, tienen que ser intervalos
semiabiertos. El procedimiento se simplifica si son, además, de la misma longitud. Vamos
a ilustrar el procedimiento con un ejemplo.
Ejemplo 1.4. Alturas
Hemos obtenido (mediante cuestionario) la altura de 48 alumnas de un curso

de Estadística.
175 162 167 166 174 168 169 165 161 165 171 172 160
167 164 175 178 168 176 160 159 167 168 161 175 164
173 161 158 159 159 157 170 168 166 165 162 160 157
163 166 156 156 161 173 167 168 178
Para manipular mejor los datos, los ordenamos.
11
156 156 157 157 158 159 159 159 160 160 160 161 161
161 161 162 162 163 164 164 165 165 165 166 166 166
167 167 167 167 168 168 168 168 168 169 170 171 172
173 173 174 175 175 175 176 178 178
Determinamos agrupar por intervalos de longitud 4 centímetros, empezando

en 155. La primera clase será el intervalo (155,159]. Comprobamos que hay 8
datos en ese intervalo. Como valor representativo, o marca de clase tomamos
el punto medio del intervalo (157). La segunda clase será (159,163], con marca
de clase 161 y 10 datos. Repitiendo el procedimiento obtenemos la tabla:
Intervalo (155,159] (159,163] (163,167] (167,171] (171,175] (175,179]

Marca de clase 157 161 165 169 173 177
Frec. Abs. 8 10 12 8 7 3
Nótese que si tomamos intervalos cerrados por la izquierda y abiertos por la

derecha ([155,159), [159, 163), ...) las frecuencias pueden ser distintas (5,
12,…).
Conviene resaltar que, aunque la tabla de frecuencias es más fácil de interpretar

que la lista de datos ‘crudos’, hemos perdido información al agrupar datos distintos en
una única clase, con un único representante, su marca de clase. Cuando tengamos que
operar con esta variable deberemos tomar, siempre que podamos, los valores originales.
No existe una regla única para elegir el número de intervalos en los que categorizar
o discretizar una variable continua. Algunas cuestiones relacionadas con el número de
clases que conviene tomar y cuál es la forma mejor de definir los intervalos se
comentarán en las clases con ordenador.
Nota: observa que la nueva variable se puede interpretar como variable cualitativa,
considerando los intervalos como las modalidades de la nueva variable, y también se puede
interpretar como variable discreta, considerando las marcas de clase como los valores de la
nueva variable.
1.4. Representaciones gráficas
Los gráficos son la representación visual de la información que contienen los datos.
Se han convertido en una herramienta imprescindible para comunicar de forma sencilla
algunas peculiaridades de las variables y también son una gran ayuda en el análisis
exploratorio de los datos.
12
Conviene que sean sencillos, autodefinidos (para que el que las consulta tenga a la
vista toda la información relevante) y precisos (para que no induzcan a errores o malas
interpretaciones).
Todos los paquetes estadísticos incluyen un repertorio muy grande de gráficos ya

programados y fáciles de usar. Veremos algunos en las clases con ordenador. En esta
sección describiremos los diagramas de barras, los diagramas de sectores, los
histogramas y los gráficos de tallo y hojas.
Diagrama de barras
Es adecuado para variables que toman un número relativamente pequeño de

modalidades en la muestra. Representa de forma gráfica la misma información que
proporcionan las tablas de frecuencia.
En el eje de abscisas (X) se anotan las modalidades. Las escribe en orden y por lo
tanto la interpretación es más natural cuando la variable es ordinal o cuantitativa. En el
eje de ordenadas (Y) se anotan las frecuencias absolutas (o los porcentajes).
Sobre cada modalidad se dibuja una barra de forma que su altura es proporcional
a la frecuencia (o al porcentaje) de esa modalidad en la muestra. Como las frecuencias
y los porcentajes son cantidades proporcionales, el aspecto del gráfico será el mismo
en los dos casos.
Ejemplo 1.5. Números aleatorios y su percepción.
Se ha pedido a 56 alumnos de un curso de Estadística que elijan

aleatoriamente un número entero entre 1 y 10. La tabla de frecuencias
obtenida es:
Número 1 2 3 4 5 6 7 8 9 10
Frecuencia absoluta 0 1 7 5 7 5 13 12 3 3
Este diagrama de barras ilustra con mucha claridad la discrepancia con lo

esperado (que todos los números aparecieran aproximadamente con la misma
frecuencia) cuando nos piden que elijamos números al azar. Al parecer, hay
algunos números que consideramos “más aleatorios” que otros.
13
12
10
8
Frecuencias
6
4
2
0
2 3 4 5 6 7 8 9 10
Número
Diagrama de sectores
Se utiliza para variables con pocas modalidades. Se llama también diagrama de

tarta (pie chart). Se construye dividiendo un círculo en sectores de forma que el área
de cada ‘pedazo de la tarta’ sea proporcional a la frecuencia de la correspondiente
modalidad. Son muy adecuados para variables nominales, ya que las modalidades se
representan en un círculo y por lo tanto no se sugiere de forma subliminal un orden
entre ellas.
Ejemplo 1.6. Tallas de camiseta.
Vamos a revisar los datos del Ejemplo 1.3.
Talla s m l xl
Frecuencia 16 24 14 2
Porcentaje 28,57 42,86 25,00 3,57
Para estos datos, el diagrama o gráfico de sectores tiene esta apariencia.

Observa cómo el área de cada uno de los sectores es proporcional a la
frecuencia de cada modalidad. Por ejemplo, el área correspondiente a la
modalidad ‘m’ representa el 42,86% del área total del círculo.
14
Talla de camiseta
m
xl
Un diagrama de barras con porcentajes de los mismos datos se muestra a

continuación.
40
30
Porcentajes
20
10
0
s m l xl
Talla de camiseta
Ni los diagramas de barras ni los de sectores son adecuados para describir las
variables que toman un número muy elevado de modalidades distintas. Este es el caso
de la mayoría de variables cuantitativas. Para este tipo de variables se utilizan otros
gráficos, como el histograma, el gráfico de tallo y hojas, o el diagrama de caja que se
describirá en la siguiente sección.
15
Histograma
El histograma es un gráfico útil para visualizar la distribución de frecuencias en

variables cuantitativas continuas (y también discretas, si toman muchas modalidades
distintas). Formalmente es muy semejante al gráfico de barras, pero aquí las barras son
contiguas.
Para construirlo, el primer paso es transformar la variable continua en discreta

utilizando intervalos de clase, y después obtener la tabla de frecuencias absolutas de
las clases. En el eje de las X se marcarán los intervalos de clase y sobre ellos se
construye una barra de forma que su área sea proporcional a la frecuencia de la clase.
Si los intervalos tienen la misma longitud, que es lo habitual, el área es proporcional a la
altura. Los intervalos de clase deben cubrir todo el rango de valores de la variable, sin
dejar huecos, por lo que las barras tienen que ser contiguas.
En el ejemplo 1.4 se obtuvieron los siguientes intervalos de clase con sus

correspondientes frecuencias absolutas.
Intervalo (155,159] (159,163] (163,167] (167,171] (171,175] (175,179]

Marca de clase 157 161 165 169 173 177
Frec. Abs. 8 10 12 8 7 3
El histograma de la variable altura sería entonces el siguiente:

12
10
8
Frecuencia
6
4
2
0
155 160 165 170 175
Altura
16
Ya hemos dicho anteriormente que no existe una regla fija para decidir cuántos
intervalos tomar ni con qué amplitud, de cara a discretizar una variable cuantitativa.
Una de las reglas más extendida es la regla de Sturges, que se comentará en las clases
con ordenador. En la práctica, como todos los paquetes estadísticos llevan ya
implementadas alguna de esas reglas, los histogramas que usaremos serán los que genere
el paquete estadístico que estemos manejando.
Diagrama de tallo y hojas
Otra herramienta sencilla para ‘visualizar’ la distribución de unos datos, pero sin
perder de vista su individualidad como datos, es el diagrama de tallo y hojas.
Ilustraremos su construcción utilizando el mismo conjunto de datos del ejemplo 1.4.
Para facilitar las cuentas, partimos de los datos ordenados de las alturas del
ejemplo 1.4 (aunque no es imprescindible).
156 156 157 157 158 159 159 159 160 160 160 161 161
161 161 162 162 163 164 164 165 165 165 166 166 166
167 167 167 167 168 168 168 168 168 169 170 171 172
173 173 174 175 175 175 176 178 178
Vemos que el rango de alturas se mueve entre 156 y 178. Tomamos como tallos
los dos primeros dígitos de cada dato, y como hojas el tercero. Tendremos 3
tallos: 15, 16 y 17, que representan 3 clases (de 150 a 159, de 160 a 169 y de
170 a 170). Pero para que el diagrama sea útil se recomienda que tenga, al
menos, 5 tallos y por eso vamos a duplicar el número tallos, reduciendo los
rangos a la mitad. Las 6 nuevas clases serán: 150 a 154, 155 a 159, 160 a 164,
165 a 169, 170 a 174 y 175 a 179. Como no hay ningún dato en la primera clase,
la eliminamos. Nos quedan 5 clases.
Disponemos los tallos en una fila y a la derecha anotamos las correspon-

dientes hojas (el tercer dígito). Para obtener el diagrama de tallo y hojas.
15 66778999
16 000111122344
16 5556667777888889
17 012334
17 555688
17
Este gráfico proporciona una imagen gráfica de la forma de la distribución de los

datos que es similar a la que proporcionaría el histograma de los mismos datos, si usamos
las clases de los tallos como los intervalos de clase del histograma y si aplicamos al
histograma resultante un giro de 90º.
La longitud de la fila de números tiene que ser proporcional a su cantidad. Por lo

tanto, todos los caracteres se tienen que escribir con la misma anchura. Los tipos de
letra que tienen esa propiedad se llaman monoespaciados. En este diagrama hemos
utilizado el tipo Courier New. Otro tipo monoespaciado es Lucida Console. Nótese
también que este gráfico permitiría recomponer la lista de números original.
1.5. Medidas descriptivas
Para cada variable disponemos de n datos y, para describir el comportamiento de

esa variable en la muestra, interesa saber cómo se distribuyen esos datos en su rango
de modalidades. La lista de datos ‘crudos’ tiene toda la información de la que podemos
disponer, pero es difícil de interpretar, sobre todo si n es muy grande. Nuestra
capacidad para interpretar esa información aumenta si ordenamos los datos, o si
calculamos su tabla de frecuencias, y se mejora mediante los gráficos, que permiten
‘ver’ la forma de la distribución.
Pero interpretar adecuadamente las tablas y los gráficos es un arte, para el que
hace falta entrenamiento. Es por ello conveniente disponer de números que describan
las características fundamentales de la distribución de la variable: posición central,
dispersión de los datos en torno a esa posición central, simetría, etc., de forma que su
interpretación sea sencilla.
Es razonable que esas medidas de resumen que buscamos sean funciones, más o
menos simples, de los datos de los que disponemos. Llamamos estadísticos a las
funciones que se calculan a partir de la muestra. Los estadísticos, si se escogen
adecuadamente, pueden ayudar a describir las características fundamentales de la
distribución de la variable. Veamos a continuación los principales estadísticos que se
utilizan habitualmente para ayudar a describir una variable.
1.5.1. Medidas de tendencia central
Queremos un número que represente el ‘valor medio’ o ‘posición central’ de una

variable. Se han propuesto muchas medidas de la tendencia central, cada una con sus
ventajas e inconvenientes. Vamos a definir las tres más utilizadas: media, mediana y
moda.
18
Media aritmética
Es la suma de todos los valores dividida por el tamaño n de la muestra.

La media (media aritmética muestral o media muestral) de los n valores de la
variable X se denota como M(X), o más frecuentemente como 𝑋 , y es:
𝑥 +𝑥 +⋯+𝑥
𝑋=
𝑛
Es habitual utilizar la notación (equivalente) de sumatorio:
1
𝑋= 𝑥
𝑛 =
Ejemplo 1.9. Medida del palmo (mano derecha).
Pedimos a diez alumnas de un curso de Estadística que midan, en milímetros,

el palmo de su mano derecha. Obtenemos los siguientes valores.
200 165 250 150 16 210 200 185 200 160
La suma de estos 10 valores es 1736 mm, y la media será 173,6 mm (17,36

cm).
La media es la medida de tendencia central más utilizada, y será nuestra primera

opción cuando analicemos datos cuantitativos, porque es sencilla de entender e
interpretar, y tiene buenas propiedades estadísticas (las comentaremos en el tema de
inferencia).
Pero también presenta algunas desventajas:
1. Para variables discretas, la media puede no pertenecer al rango de modalidades de

la variable.
2. Es sensible a errores no detectados en la muestra. Unas pocas observaciones con
valores mucho mayores (o mucho menores) que el resto, pueden alterar
sustancialmente su valor. En el ejemplo 1.9, detectamos que el quinto caso (16) es
erróneo, y revisando los cuestionarios, comprobamos que el valor correcto es 160.
Ahora la suma de los 10 valores es 1880, y la media es 188 mm (18,8 cm). Un solo
dato erróneo cambia la media en 1,44 cm.
3. Aunque no haya datos erróneos, la sensibilidad a valores extremos puede hacer
que la media no sea una medida adecuada de la tendencia central para variables
muy asimétricas. La representación gráfica, junto con un estadístico que veremos
más adelante, nos ayudarán a estudiar la simetría de una muestra.
19
4. Solo tiene sentido para variables numéricas, aunque algunos autores defienden su
uso también para algunas variables de tipo ordinal codificadas numéricamente (por
ejemplo, valora de 1 (muy negativa) a 10 (muy positiva) tu opinión sobre ...).
Moda
Es el dato (modalidad) de la muestra que aparece repetido más veces. Siempre

toma valores en el rango de modalidades de la variable.
Se obtiene por recuento, y por tanto se puede calcular para cualquier tipo de
variable. La moda tiene una interpretación muy natural, pero puede no ser única. Para
variables con muchas modalidades distintas (es el caso habitual de las variables
numéricas) no se suele utilizar, a menos que estén agrupadas en clases.
Ejemplo 1.10: Tallas de camiseta.
En el ejemplo 1.3 obteníamos la siguiente tabla de frecuencias. La moda es la

categoría ‘m’.
Talla s m l xl
Frec. Abs. 16 24 14 2
Para variables agrupadas en clases, la clase que aparece más veces en la muestra
es la clase modal.
En el ejemplo 1.4 obteníamos, mediante intervalos de clase, la tabla de

frecuencias:
Intervalo (155,159] (159,163] (163,167] (167,171] (171,175] (175,179]

Marca de clase 157 161 165 169 173 177
Frec. Abs. 8 10 12 8 7 3
La clase modal es el intervalo (163, 167], que tiene como marca de clase el
valor 165.
20
Mediana
Una forma sencilla de entender mejor el comportamiento de una variable es

ordenar los datos. El primer valor será el mínimo, y el último, el máximo. Llamamos
mediana, Med(X), a la observación que ocupa la posición central en esta lista ordenada
de valores de la variable X. Se calcula de la siguiente manera.
Si hay un número impar de observaciones en la muestra (esto es, si n es impar) es

la modalidad que, en la lista ordenada, ocupa la posición (n+1)/2.
Si hay un número par de observaciones, tenemos dos números que compiten por la
posición central (los que ocupan las posiciones n/2 y (n/2)+1). En este caso se toma como
mediana la media de esas dos observaciones. Nótese que si estas dos observaciones son
distintas, la mediana no será uno de los datos de la muestra.
Ejemplo 1.12: Alturas
En el ejemplo 1.4 los datos ordenados correspondientes a las alturas eran:
156 156 157 157 158 159 159 159 160 160 160 161 161
161 161 162 162 163 164 164 165 165 165 166 166 166
167 167 167 167 168 168 168 168 168 169 170 171 172
173 173 174 175 175 175 176 178 178
Como n=48, los dos datos centrales son 166 y 166 (los que ocupan las
posiciones 24 y 25 en la ordenación). La mediana de las alturas será el
promedio de esos dos valores, que es 166.
Una propiedad interesante de la mediana es que se puede garantizar que al menos

el 50% de las observaciones son menores o iguales que la mediana y que al menos el 50%
de las observaciones son mayores o iguales que la mediana.
La mediana tiene la ventaja de que es menos sensible a valores extremos que la

media, ya que en su cálculo se utiliza la posición relativa (en la lista ordenada de valores
de la muestra) pero no el valor concreto de las observaciones, salvo el de la central (o
las dos centrales, si n es par). Por tanto, la mediana es más robusta que la media
aritmética a errores en la recogida o manejo de los datos, y puede ser más adecuada
que la media como medida de tendencia central para variables cuantitativas muy
asimétricas o para muestras en las que se sospecha que hay datos erróneos.
21
Sin embargo, la mediana tiene la desventaja de que no utiliza toda la información

de la muestra. Sólo utiliza la posición relativa de los datos, pero no los valores concretos
de la mayoría de las observaciones.
Ejemplo 1.13. Número de DVD.
Se ha preguntado a un grupo de 56 estudiantes el número de DVD que poseen.

Se han obtenido (después de ordenarlos) los siguientes datos:
0 0 0 0 0 0 0 5 5 5 5 6 8 8
9 10 10 10 10 10 15 15 17 17 19 20 20 20
20 20 23 23 23 26 27 30 30 40 50 50 50 50
60 60 60 70 100 100 100 114 117 200 200 300 350 450
Para estos datos, la moda sería 0, la media 53,3 y la mediana 20. De estas
tres medidas de tendencia central, quizá la más adecuada en este ejemplo
sea la mediana, debido a la fuerte asimetría que presentan los datos. Esta
asimetría se puede ver fácilmente obteniendo un histograma o un diagrama
de tallo y hojas.
40
30
Frecuencias
20
10
0
0 100 200 300 400
Número.de.DVD
La variable toma un número grande (25) de modalidades distintas y la moda

(0) no parece entonces una medida de ‘tendencia central’ adecuada para estos
datos. La media, 53,3, tampoco parece representar bien la ‘tendencia central’,
ya que se ve muy afectada por unos pocos valores muy grandes. Nótese, en
particular, que el 75% de las personas en la muestra poseen menos de 53
DVD. La mediana de los 56 datos es 20 y podría ser una buena elección como
medida de tendencia central para estos datos. Al menos la mitad de la
muestra tiene 20 DVD o menos y al menos la mitad de la muestra tiene 20
DVD o más.
22
1.5.2. Medidas de posición
Las medidas de posición marcan puntos de interés sobre la distribución de los

datos de una cierta variable. Las medidas de centralización son un caso particular de
medidas de posición, marcando puntos de interés en el ‘centro’ de la distribución. Las
otras medidas de posición más utilizadas son los percentiles, que pasamos a definir a
continuación.
Percentiles
La mediana, tal y como la hemos definido, es mayor o igual que, al menos, el 50%
de los datos de la muestra (y también es menor o igual que, al menos, el 50% de los
datos). Esta definición se puede extender a cualquier tanto por ciento k entre 0 y 100.
Llamamos percentil k, Pk , al primer valor de la muestra ordenada que es mayor o

igual que el k% de los datos. Nótese que Pk es también menor o igual que, al menos, el
(100-k)% de los datos.
Ejemplo 1.14. Cálculo de los percentiles 40 y 65 para los 10 datos de la

longitud del palmo de la mano derecha. Los datos ordenados son:
150, 160, 160, 165, 185, 200, 200, 200, 210, 250
La tabla de frecuencias y porcentajes acumulados nos facilita buscar el

primer dato, en la muestra ordenada, que es mayor o igual que el k% de los
datos de la muestra:
Palmo frec frec acum % acum

150 1 1 10
160 2 3 30
165 1 4 40
185 1 5 50
200 3 8 80
210 1 9 90
250 1 10 100
El percentil 40 es el dato tal que el porcentaje acumulado en la tabla asociado

a ese dato es igual o superior a 40. En nuestro ejemplo, el percentil 40 es el
tercer dato de la tabla (P40 = 165). El percentil 65 es el dato cuyo porcentaje
acumulado en la tabla sea igual o superior a 65. En este caso, el percentil 65
es el quinto dato (P65 = 200).
23
El cálculo de un percentil con la definición que acabamos de dar es muy sencillo y

el percentil obtenido es siempre un elemento de la muestra. Pero este método tiene
algunas deficiencias. En particular, el percentil 50, P50, puede no coincidir con la mediana
cuando n es par. Con los datos del ejemplo 1.14, P50 = 185, mientras que la mediana es el
promedio del dato que ocupa la posición quinta (185) y el que ocupa la posición sexta
(200), por lo que Med(X) = 192,5.
Hay otras definiciones de percentil para las que el percentil 50 siempre coincide
con la mediana. Estas definiciones son mejores para algunas aplicaciones, pero también
son más engorrosas de cálculo (en Hyndman and Fan, The American Statistician 50
(1996), pp. 361-365, se describen algunas). A modo de ejemplo, vamos a explicar sólo
uno de estos métodos alternativos para el cálculo de percentiles, que es el que lleva
implementado R-Commander por defecto, al que llamaremos método “average”.
Queremos obtener el percentil k con el método average, al que llamaremos Pk(a),

de una muestra (x1,…,xn) con n observaciones. Primero ordenaremos esa muestra de
menor a mayor y denotamos a esta muestra ordenada como (x(1), …, x(n)), donde x(1)
denota el valor más pequeño, x(2) el siguiente valor más pequeño y así sucesivamente.
Calculamos la parte entera (la llamamos i) y la parte decimal (la llamamos d) de la
( )∗
expresión + 1. El percentil k calculado con el método average es:
Pk(a) = (1-d)*x(i) + d*x(i+1).
Ejemplo 1.15. Cálculo del percentil 40 para la longitud del palmo de la mano
derecha con el método average. Los datos ordenados eran:
150, 160, 160, 165, 185, 200, 200, 200, 210, 250
Para el percentil 40, ( − )∗ + 1 = ∗ + 1 = 4,6. Por tanto, i=4 y d=0,6. En la

muestra ordenada, el cuarto elemento es 165 y el quinto 185. Entonces, P40(a)
= (1-0,6)*165 + 0,6*185 = 177.
Cuartiles, deciles y cuantiles
Los cuartiles y los deciles son los casos particulares de percentiles más utilizados.
Si tomamos k = 25, 50 y 75 tenemos los cuartiles P25 = Q1, P50 = Q2 y P75 = Q3. Los
cuartiles dividen la muestra ordenada en cuatro grupos de, aproximadamente, igual
tamaño. Llamamos deciles a los percentiles Pk para los que k es múltiplo de 10. Los
denotamos Di = P10*i, i = 1, ..., 9. Los deciles dividen la muestra ordenada en 10 grupos de
aproximadamente igual tamaño.
24
Llamamos cuantil p, donde p es un valor entre 0 y 1, al percentil k=100*p.
Nota: obsérvese que P50, Q2, D5 son distintas notaciones para el mismo concepto, y coinciden
con la mediana Med(X) cuando se calculan con el método average.
1.5.3. Medidas de dispersión
Además de especificar el ‘centro’ de unos datos, siempre es importante dar una

medida su variabilidad en torno a su ‘valor central’. Por ejemplo, supongamos que los
salarios (en euros) de cinco empleados en la empresa A son 1000, 1200, 1500, 1600 y
5200, y los salarios de cinco empleados en la empresa B son 1900, 2000, 2100, 2200 y
2300. El salario medio en las dos empresas es 2100 euros, pero es evidente que en la
empresa B hay una menor variabilidad de los datos alrededor de esos 2100 euros que en
la empresa A.
Vamos a ver a continuación las principales medidas que se han propuesto para
cuantificar esta variabilidad o dispersión de los datos de una muestra.
Rango muestral
El rango muestral es la diferencia entre el máximo y el mínimo valor de las

observaciones: R = Máximo - Mínimo. Es fácil de calcular y de interpretar, y se expresa
en las mismas unidades de medida que las observaciones.
Por otra parte, es muy sensible a valores extremos y, en particular, a errores en

la medición o registro de las observaciones, por lo que sólo se utiliza como una primera
aproximación de la variabilidad de los datos.
Rango intercuartílico
Una medida de dispersión semejante al rango muestral, pero más robusta frente a
valores extremos o frente a errores en los datos, es el rango intercuartílico RI, que se
define como RI = Q3 - Q1.
Utilizando los datos y resultados del ejemplo 1.13, y calculando los cuartiles
a través de la tabla de porcentajes acumulados, tenemos:
Rango muestral R = Máximo - Mínimo = 450 - 0 = 450

Rango intercuartílico RI = Q3 - Q1 = P75 - P25 = 50 - 8 = 42
25
Varianza y desviación típica
Para variables cuantitativas la media es, usualmente, la medida de tendencia

central más adecuada. En estos casos, parece razonable que el estadístico que mida la
dispersión sea función de las distancias de los datos a su media:
𝑥 − 𝑋, 𝑥 − 𝑋, … , 𝑥 − 𝑋
A estas distancias se las suele denominar datos centrados. Los datos mayores que
la media dan distancias positivas y los menores dan distancias negativas. Es inmediato
comprobar que la suma de todas ellas es cero.
Una forma de eliminar el signo de los ‘datos centrados’ es elevarlos al cuadrado.

Cuanto mayor sea la suma de estos cuadrados, mayor dispersión tendrán los datos en
torno a su media. Se define entonces varianza muestral como:
1
𝑆 = 𝑥 −𝑋
𝑛−1 =
El promedio de los datos centrados se conoce como momento central de segundo

orden y se define como
1
𝑚 = 𝑥 −𝑋
𝑛 =
Nota: Algunos libros llaman varianza muestral a 𝑚 , e incluso lo denotan como S2. Por tanto,
es conveniente que comprobéis qué definición de varianza se utiliza cuando uséis o citéis
otros libros. En estos apuntes nosotros utilizaremos la definición anterior, en la que se divide
por n-1, y esta es también la fórmula que se utiliza en la mayoría de los paquetes estadísticos
(entre ellos R).
Todos los estadísticos definidos hasta ahora se expresaban en las mismas unidades
que la variable. Por ejemplo, la media de alturas en cm también se expresa en cm. Pero
S2 es función de los cuadrados de los ‘datos centrados’ y, por lo tanto, se expresa en el
cuadrado de las unidades de las observaciones. En el caso de alturas, en cm2.
Para tener una medida de dispersión en las mismas unidades que los datos
originales, se calcula la raíz cuadrada de la varianza muestral S2, lo que proporciona lo
que se conoce con el nombre de desviación típica muestral
√
𝑆= 𝑆
S es la medida de dispersión más popular. Sólo hay que tener cuidado con esta
medida de dispersión cuando haya dudas sobre si la media muestral es adecuada como
medida de tendencia central.
26
El cálculo de S2 y de S es laborioso y usualmente lo haremos con ordenador. Si no

nos queda más remedio que hacerlo a mano, podemos utilizar la siguiente fórmula, que
es equivalente a la anterior y algo más cómoda de cuentas:
1
𝑆 = 𝑥 − 𝑛(𝑋 )
𝑛−1 =
Ejemplo 1.17. Cálculo de S para la longitud del palmo de la mano derecha.

Los datos ordenados son 150, 160, 160, 165, 185, 200, 200, 200, 210 y 250.
La media de estos datos es 188 mm, la suma de los datos al cuadrado es
361750 y la suma de cuadrados de los datos centrados es 8310. Aplicando las
definiciones anteriores, se tiene que m2 = 831 mm2, S2 = 923,3 mm2 y S = 30,4
mm (redondeando a un decimal). Usando la segunda fórmula se obtienen los
mismos valores para S2 y para S.
Dispersión relativa. El coeficiente de variación
El coeficiente de variación es una medida de la dispersión relativa de la variable

que se define como:
𝑆
𝐶𝑉 =
𝑋
Nótese que si la media fuera cero, el coeficiente de variación no estaría bien

definido. En general, este coeficiente sólo se utiliza para variables positivas y para las
que el cero es un valor absoluto.
El coeficiente de variación es adimensional, pues al expresarse la media y la

desviación típica muestral en las mismas unidades que la variable original, éstas se
cancelan al realizar el cociente.
El coeficiente de variación es muy útil cuando hay que comparar la dispersión

relativa entre dos grupos.
Ejemplo 1.18. Pesos de niñas de 2 años.
En un estudio sobre el peso de niñas de 2 años en dos barrios distintos de

Gran Bretaña, se ha obtenido una media muestral de 16,9 kg con una
desviación típica muestral de 1,1 kg en el barrio A, mientras que en el barrio
B se ha obtenido una media muestral de 10,8 kg con una desviación típica
muestral de 0,9 kg. La dispersión medida con S es mayor en el barrio A que
27
en el B, pero si nos interesa saber en qué barrio hay una mayor dispersión
relativa habrá que calcular el CV.
Para el barrio A, el CV será 1,1/16,9 = 0,065

Para el barrio B, el CV será 0,9/10,8 = 0,083
En consecuencia, los coeficientes de variación indican que el barrio B presenta
mayor dispersión relativa que el barrio A.
El coeficiente de variación es invariante al cambio de unidades
En algunas situaciones, la información que se proporciona para cada uno de los

grupos viene dada en unidades de medida distintas. Por ejemplo, si queremos comparar
los datos de dos comunidades, una en Gran Bretaña y otra en Estados Unidos, nos podían
haber dado la información de Gran Bretaña en kilogramos y la información de Estados
Unidos en libras. La magnitud es la misma, peso, pero las unidades de medida son
distintas, kilogramos y libras. En estos casos, para comparar la dispersión, una
alternativa es pasar las unidades de medida de uno de los grupos a las unidades de
medida del otro, y entonces calcular los correspondientes coeficientes de variación.
Pero si se quiere comparar la dispersión relativa con el CV, no hace falta

transformar kilogramos a libras o viceversa, ya que el CV no se altera por estas
transformaciones. Vamos a comprobarlo como caso particular de un resultado algo más
general.
Si la variable Y se obtiene de la variable X con una transformación Y = a + b*X,

donde a y b son constantes y b > 0, se puede asegurar que la media y la desviación típica
de Y verifican
M(Y) = a + b*M(X)
S(Y) = b*S(X)
La demostración es sencilla y se propone como ejercicio 1.16.
En los cambios de unidades Y = a + b*X, en los que la constante a es 0, el coeficiente

de variación no se modifica. En efecto,
CV(Y) = S(Y)/M(Y) = (b*S(X))/(b*M(X)) = CV(X).
Ejemplo 1.19. Pesos de niñas de 2 años.
En otro estudio sobre el peso de niñas de 2 años en Gran Bretaña se ha

obtenido una media muestral de 12,5 kg con una desviación típica muestral de
1,50 kg. En un estudio semejante en Estados Unidos se ha obtenido una media
28
muestral de 29,75 libras con una desviación típica muestral de 2,2 libras. Se
desea comparar la dispersión relativa en los dos grupos.
Al ser las escalas de medida distintas en los dos grupos, vamos a pasar el peso
en libras en Estados Unidos (X) al peso en kilogramos en Estados Unidos (Y).
Sabiendo que 1 kg = 2,20462 libras, la transformación sería Y =
(1/2,20462)*X, donde a es 0 y b vale 1/2,20462. La media y desviación típica
de Y son entonces:
Media(Y) = (1/2,20462)*29,75 = 13,494 (kg)
S(Y) = (1/2,20462)*2,2 = 0,997 (kg)
La dispersión medida con S es mayor en Gran Bretaña (1,5 kg) que en Estados
Unidos (0,997 kg). Si nos interesa la dispersión relativa, calcularemos los
coeficientes de variación:
Para el grupo de Gran Bretaña, 1,50/12,5 = 0,12

Para el grupo de Estados Unidos, 0,997/13,494 = 0,074
En este caso, el grupo de Gran Bretaña también presenta mayor dispersión

relativa que el grupo de Estados Unidos.
En el ejemplo anterior, observa que si hubiésemos calculado directamente el

coeficiente de variación para los datos de Estados Unidos en libras, hubiésemos
obtenido CV = 2,2/29,75 = 0,074, es decir, el mismo coeficiente que el calculado con los
datos expresados en kilogramos. Esto es debido a que el coeficiente de variación no
cambia cuando se realiza un cambio de unidades (Y=b*X), como ya hemos comentado
anteriormente. Por tanto, en el ejemplo, no necesitamos pasar de libras a kilogramos
para calcular el coeficiente de variación. En el ejercicio 1.19 se presenta otro ejemplo
del efecto de transformaciones del tipo Y = b*X.
Sin embargo, el coeficiente de variación no es invariante a transformaciones del

tipo Y = a + b*X, cuando la constante sumada es distinta de 0.
Ejemplo 1.20. Temperaturas en grados Centígrados y Fahrenheit.
Si X tiene datos de temperatura en grados Centígrados, podemos construir

una nueva variable Y, con la misma información, pero en grados Fahrenheit,
con la transformación Y = 32 + 1,8*X.
Llamamos AC a la variable que mide la temperatura en ºC de las cámaras del
fabricante A, y AF a la variable que mide esa temperatura en ºF. Hemos
obtenido muestras de 25 cámaras de A, con M(AC) = 2ºC y S(AC) = 1ºC. Por
29
lo tanto, el CV(AC) = 1/2 = 0,5. Sabemos que M(AF) = 32+1,8*2 = 35,6ºF, y

S(AF) = 1,8*1 = 1,8ºF. Por tanto, el CV(AF) = 1,8/35,6 = 0,05, que es mucho
más pequeño que CV(AC).
El coeficiente de variación no debería usarse para temperaturas en ºC o en ºF, ya

que el 0 es convencional en estas dos escalas, y hemos advertido que el CV sólo se debe
emplear para variables positivas en las que el 0 sea un valor absoluto.
En el ejercicio 1.20 se presenta otro ejemplo de uso de estas transformaciones.
1.5.4. Gráfico de caja
Podemos resumir mucha información relevante sobre la distribución de una

variable con sólo cinco números: el mínimo y el máximo (que nos dan, en particular, el
rango de la variable), el primer y el tercer cuartil (que nos dan el rango intercuartílico)
y la mediana (que mide la tendencia central).
Por ejemplo, para los datos de la variable ‘Número de DVD’ (ver Ejemplo 1.13)
0 0 0 0 0 0 0 5 5 5 5 6 8 8
9 10 10 10 10 10 15 15 17 17 19 20 20 20
20 20 23 23 23 26 27 30 30 40 50 50 50 50
60 60 60 70 100 100 100 114 117 200 200 300 350 450
los cinco números anteriores son los siguientes, donde los cuartiles están calculados con
el método average:
Mínimo Q1 Med Q3 Máximo

0 8,75 20 52,5 450
Estos estadísticos se conocen como el ‘resumen de 5 números’ (Five-Number

Summary) y están en la base del cálculo de un gráfico muy popular, el diagrama de caja
(Boxplot) de Tukey. El diagrama de caja obtenido para los datos de la variable ‘Número
de DVD’ tiene el aspecto que se muestra a continuación:
30
400
300
Número
200
100
0
Antes de describir las características del gráfico y su relación con los cinco
números anteriores, vamos definir los llamados ‘datos atípicos’ (outliers) para este
gráfico. El rango intercuartílico (RI = Q3-Q1) se emplea para detectarlos. Se hace la
suposición de que los valores razonables de la variable no serán mayores que Q3 + 1,5*RI,
ni menores que Q1 – 1,5*RI. A los valores que están fuera de estos límites se les suele
denominar atípicos. Además, a los valores que están a una distancia superior a 3*RI de
los correspondientes cuartiles se le conoce como valores ‘muy atípicos’ o valores atípicos
extremos.
En el ejemplo de los DVD, Q3 + 1,5*RI = 52,5+1,5*43,75 = 118,125, Q1 –

1,5*RI = 8,75 -1,5*43,75 = -56,875, Q3 + 3*RI = 52,5+3*43,75 = 183,75 y
Q1 - 3*RI = 8,75 -3*43,75 = -122,5. Entonces, cualquier valor de la muestra
entre 118,125 y 183,75 o entre -122,5 y -56,875 será atípico y cualquier valor
de la muestra superior a 183,75 o inferior a -122,5 será dato extremo (los
datos 200, 200, 300, 350 y 450 son, por lo tanto, atípicos extremos).
El gráfico de caja es muy útil para visualizar la distribución de una variable y para
detectar sus datos atípicos. Se construye de la siguiente manera. Su parte central es
una caja. La caja empieza en la posición del primer cuartil (Q1), que le sirve de base, y
termina en la posición del tercero (Q3), que le sirve de tapa. Dentro de esa caja hay una
línea horizontal, en la posición de la mediana (Q2). Una línea vertical une el tercer cuartil
y el mayor valor de la muestra que no es atípico. Otra línea vertical une el primer cuartil
y el menor valor de la muestra que no es atípico (estas dos líneas se conocen como
‘bigotes’). Por último, los valores atípicos se marcan con círculos y los extremos también
con círculos o con asteriscos.
31
En el ejemplo de los DVD, la caja empieza en el 8,75 y termina en el 52,5. Los

bigotes terminan en el 0 y en el 117 (la menor y la mayor de las observaciones
que no son atípicas, es decir, la menor y la mayor de las observaciones que se
encuentran en el rango [-56,875, 118,25]). Los valores atípicos extremos 200,
200, 300, 350 y 450 aparecen marcados con círculos.
Por último, resaltar que, dependiendo del método de cálculo de los cuartiles, el
aspecto del gráfico puede variar un poco. Así, en el ejemplo de los DVD, si se hubiese
utilizado la primera definición de percentil, Q1 y Q3 valdrían 8 y 50, el rango
intercuartílico habría sido 42 y habrían salido también como valores atípicos los valores
113 y 117.
1.5.5. Medidas de forma
Vamos a ver en esta sección las dos medidas más utilizadas para estudiar la forma
de unos datos, en cuanto a su simetría y su apuntamiento.
Coeficiente de asimetría
Consideremos un conjunto de datos de una variable cuantitativa y asumamos que la

media es una medida de tendencia central adecuada, y por lo tanto que también S es
una buena medida de dispersión. Queremos obtener una medida de asimetría para este
conjunto con respecto a la media.
Se llama coeficiente de asimetría (skewness) de una muestra al cociente:
𝑚
𝐶𝐴 =
𝑆
donde el numerador es el momento central de tercer orden
1
𝑚 = (𝑥 − 𝑋 )
𝑛 =
El coeficiente de asimetría es adimensional y su interpretación es la siguiente. Si

CA toma un valor positivo grande, indica asimetría a la derecha. Valores negativos
grandes indican asimetría a la izquierda. Datos simétricos en torno a la media están
asociados a valores de CA cercanos a 0. En la siguiente tabla, el gráfico de la izquierda
muestra unos datos asimétricos a la izquierda (CA=-0,92), el gráfico central muestra
32
unos datos simétricos (CA = 0,03), mientras que el gráfico de la derecha muestra unos
datos asimétricos a la derecha (CA = 1,12).
30
20
30
15
20
20
10
10
10
5
0
0
0
-6 -5 -4 -3 -2 -1 0 140 150 160 170 180 190 200 210 1 2 3 4 5 6
Nota: existen algunas definiciones alternativas del coeficiente de asimetría, que son
pequeñas variantes de la definición anterior. Algunos paquetes estadísticos, como R,
permiten calcular el coeficiente de asimetría de diferentes formas, Al coeficiente anterior
se le suele denominar ‘de tipo 3’, mientras que, por ejemplo, al coeficiente de asimetría
calculado de la forma CA = [n2/((n-1) (n-2))] m3/S3, se le suele denominar ‘de tipo 2’.
Obsérvese que los dos coeficientes son prácticamente iguales cuando el tamaño muestral n
es grande.
Coeficiente de apuntamiento o Curtosis
Como en el caso del coeficiente de asimetría, también vamos a suponer que los
datos provienen de una variable cuantitativa para la que la media es una medida de
tendencia central adecuada.
El coeficiente de apuntamiento o coeficiente de curtosis es un coeficiente

adimensional y se define como:
𝑚
−3 𝐶𝐶 =
𝑆
donde el numerador del cociente es el momento central de cuarto orden
1
𝑚 = (𝑥 − 𝑋 )
𝑛 =
Nota: algunos paquetes estadísticos permiten calcular el coeficiente de curtosis con unas
fórmulas ligeramente distintas, como sucedía con el coeficiente de asimetría.
Para comprender mejor la interpretación del coeficiente de apuntamiento,

conviene adelantar algún detalle de la descripción de la distribución Normal tipificada
(N(0,1)) o ‘campana de Gauss’, que se comentará con más detalle en el tema 4.
La función de densidad de probabilidad es el ‘modelo teórico’ del histograma de

frecuencias absolutas. La densidad de probabilidad de la Normal tipificada tiene el
siguiente aspecto:
33
Densidad de la normal N(0,1)
-4 -3 -2 -1 0 1 2 3 4
Si obtenemos una muestra de una variable estadística que sigue este modelo de
distribución, obtendríamos un histograma semejante a la campana de Gauss, un
coeficiente de asimetría próximo a 0 y un coeficiente de curtosis próximo a 0.
Para distribuciones o datos simétricos, la interpretación del coeficiente de

curtosis es entonces la siguiente. Cuando el coeficiente de curtosis es positivo y grande,
la distribución de esos datos es más apuntada que la campana de Gauss y se conoce con
el nombre de distribución leptocúrtica. Si es negativo, y grande en valor absoluto, esto
indica que su forma es menos apuntada que la campana de Gauss y se conoce como
distribución platocúrtica. Si el coeficiente de curtosis toma valores próximos a cero, la
distribución es similar a Normal y se conoce con el nombre de distribución mesocúrtica.
La siguiente tabla muestra en la parte izquierda una distribución leptocúrtica

(CC=1,02), en la parte central una distribución mesocúrtica (CC=-0,16) y en la parte
derecha una distribución platocúrtica (CC=-1,52).
34
1.6. Síntesis de datos tabulados
En muchas situaciones prácticas, en lugar de los datos originales tenemos los datos
resumidos en una tabla de frecuencias. En estas situaciones, las fórmulas de cálculo de
los estadísticos se modifican ligeramente para incorporar las frecuencias.
Supongamos que nos dan la siguiente tabla de frecuencias, donde los xi representan
los k diferentes valores de una variable X y los ni las frecuencias absolutas asociadas a
los xi.
modalidad frecuencia
x1 n1
x2 n2
… …
xk nk
El tamaño de la muestra es entonces:
𝑛= 𝑛
=
la fórmula para la media es:
1
𝑋= 𝑥𝑛
𝑛 =
y la fórmula para S2 es:
1
𝑆 = (𝑥 − 𝑋 ) 𝑛
𝑛−1 =
Ejemplo 1.23. En 50 colegios de una determinada ciudad, se ha controlado el

número de veces que los servicios de enfermería del colegio han atendido
alguna urgencia en un día determinado. Los resultados obtenidos han sido los
siguientes:
Número de urgencias 0 1 2 3 4 5 7
Frecuencia 6 8 9 10 12 4 1
En este caso, n = 6+8+9+10+12+4+1 = 50 y aplicando las fórmulas anteriores:
35
1
𝑋= (0 ∗ 6 + 1 ∗ 8 + 2 ∗ 9 + 3 ∗ 10 + 4 ∗ 12 + 5 ∗ 4 + 7 ∗ 1) = 2,62
50
1
𝑆 = ((0 − 2,62) ∗ 6 + (1 − 2,62) ∗ 8 + ⋯ + (7 − 2,62) ∗ 1) = 2,689
49
1.7. Transformaciones de variables. Tipificación
En algunas circunstancias es conveniente realizar transformaciones en las

variables antes de realizar un análisis. Si la variable X es una altura en pulgadas y
queremos expresar nuestros resultados en cm, podemos construir una nueva variable Y,
con la misma información en cm, utilizando que una pulgada es 2,54 cm. La
transformación es en este caso Y = 2,54*X. Si X tiene datos de temperatura en grados
Centígrados, podemos construir una nueva variable Y, con la misma información, pero en
grados Fahrenheit, con la transformación Y = 32 + 1,8*X. Ya hemos visto algunos
ejemplos de estas transformaciones en las secciones anteriores.
También es posible realizar transformaciones utilizando estadísticos que se han

calculado a partir de la muestra que queremos transformar. Ya hemos visto un ejemplo
cuando hemos definido los ‘datos centrados’, que son los datos originales a los que se
les ha restado la media muestral. La media de estos datos centrados es 0, y el promedio
de sus cuadrados (dividiendo por n-1) es, por definición, la varianza muestral. La
transformación en este caso es
𝑌 =𝑋−𝑋
Llamamos observaciones tipificadas a las observaciones ‘centradas’ divididas por

S. Si llamamos Z a la variable tipificada, la transformación es
𝑋−𝑋
𝑍=
𝑆
Con esta transformación se obtiene para cada observación xi, una nueva
observación
𝑥 −𝑋
𝑧 =
𝑆
Nótese que la variable tipificada Z es adimensional, y es inmediato comprobar que

tiene media 0 y desviación típica 1. El proceso de tipificación lo que hace básicamente
es transformar unos datos cualesquiera xi en otros zi que se comportan como si se
hubiesen obtenido de una variable Z con media 0 y desviación típica 1. Si la variable
original X es normal, entonces Z será Normal(0,1).
36
La tipificación permite comparar variables con medias o desviaciones típicas muy

distintas, o que están expresadas en distintas unidades. Vamos a ilustrar cómo utilizar
la tipificación para comparar, a través del siguiente ejemplo.
Ejemplo 1.24. Comparación de notas heterogéneas.
Los 150 alumnos de una titulación se han repartido aleatoriamente en 3 grupos

distintos de 50 personas para realizar el último curso. La nota de este último
curso determina el orden con el que estos alumnos pueden solicitar las plazas
de prácticas al terminar la titulación, pero los criterios de calificación en
cada grupo son muy dispares y las notas ni siquiera se han calculado en el
mismo rango de valores. La media muestral y S para cada grupo son:
Grupo A Grupo B Grupo C

Media 5,2 12,7 92
S 2 5 30
También se nos dice que las muestras de A, B y C son relativamente simétricas

en torno a sus medias y que no se observan valores muy extremos. En esta
situación, nos preguntamos cómo ordenar a las siguientes seis personas, dos
de cada grupo, de cara a solicitar las plazas de prácticas.
Grupo A Nota A Grupo B Nota B Grupo C Nota C

Luis 5,3 Ana 10,9 José 89
Juan 6,5 Pilar 15,7 María 113
Una manera de homogeneizar las puntuaciones en los grupos, de forma que

luego nos permitan ordenar a los alumnos según su nota, es precisamente la
tipificación de las notas en cada uno de los grupos. Para ordenar a las seis
personas anteriores, hay que tipificar sus valores teniendo en cuenta la media
y la desviación típica obtenidas en cada uno de los grupos. Así, la puntación
tipificada de Luis sería (5,3-5,2)/2 = 0,05 y la de Ana (10,9-12,7)/5 = -0,36.
Si hacemos la transformación para todos ellos, se tiene
Grupo A Z(A) Grupo B Z(B) Grupo C Z(C)

Luis 0,05 Ana -0,36 José -0,1
Juan 0,65 Pilar 0,6 María 0,7
Ahora estos datos sí se pueden comparar, ya que expresan la posición relativa

de cada nota en su grupo. El orden con el que estos alumnos pueden solicitar
las plazas de prácticas sería: María, Juan, Pilar, Luis, José y Ana.
37
1.8. Otros estadísticos utilizados en Ciencias de la Salud
En estudios epidemiológicos o en ensayos clínicos es muy habitual utilizar variables

que solo pueden tomar dos valores. Estas variables se llaman dicotómicas.
Por ejemplo, podemos definir una variable que toma valor 1 si el individuo estudiado
tiene una enfermedad determinada y un 0 si no la tiene. Notemos que, en este caso, el
número de personas enfermas en la muestra es la suma de los valores de esa variable y
la proporción de individuos enfermos coincide con su media aritmética. Si multiplicamos
la media por 100 tendremos el porcentaje de la muestra que tiene esta enfermedad.
En Ciencias de la Salud hay dos estadísticos que se utilizan frecuentemente y que

conviene conocer: la incidencia y la prevalencia.
Incidencia
Llamamos incidencia de una condición, en una muestra y en un periodo de tiempo

determinado, a la proporción de individuos de la muestra que han adquirido esa condición
en ese periodo de tiempo.
Si esa condición es una enfermedad, la incidencia de esa enfermedad es la

proporción de individuos sanos que la desarrollan en ese periodo. Esta medida permite
evaluar la velocidad de propagación de la enfermedad.
Ejemplo 1.25. Diabetes Melitus (Datos simulados)
En una comunidad autónoma se ha establecido un protocolo de detección y

control de diabetes entre la población de 0 a 15 años. Este protocolo se
comenzó a aplicar en el año 2007. En 2008 se volvió a revisar a toda la
población (159.832 niños), se controlaron 456 casos que ya se habían
diagnosticado y se diagnosticaron 18 nuevos casos. ¿Cuál es la incidencia de
esta enfermedad en 2008?
Hay 18 niños que han desarrollado la enfermedad en 2008. Notemos que esto
excluye a los individuos que fueron diagnosticados en 2007 o antes, y que
siguen padeciendo la enfermedad. La incidencia de la diabetes en 2008 (en
esa Comunidad Autónoma) es la proporción (o el porcentaje, si se multiplica
por 100) de la muestra (en este caso, de toda la población entre 0 y 15 años
en esa Comunidad Autónoma) que desarrollaron la enfermedad en 2008:
Incidencia = (18/159.832)*100 = 0,01126%
38
En los casos en los que el porcentaje es tan pequeño se suelen expresar los datos
en individuos por cada 100.000 personas en la muestra (o cada 50.000 o cada 1.000.000,
…). En el ejemplo anterior, la incidencia habría sido 11,26 casos por cada 100.000
personas de la Comunidad Autónoma en el grupo de edad entre 0 y 15 años y en 2008.
Prevalencia
Llamamos prevalencia de una condición en una muestra, y en un instante

determinado a la proporción (o el porcentaje, si se multiplica por 100) de individuos en
la muestra que la cumplen en ese instante. La prevalencia de una condición también se
puede calcular en un periodo de tiempo predeterminado.
Si la condición es una enfermedad, la prevalencia indica la proporción de la muestra

que está enferma en un instante (o en el periodo de tiempo indicado). Esta medida es
útil para planificar las necesidades asistenciales (camas, medicamentos,...) que va a
plantear la enfermedad.
Ejemplo 1.26. Diabetes Melitus (Datos simulados)
Como parte del protocolo de detección y control de diabetes entre la

población de 0 a 15 años en una Comunidad Autónoma (159.832 niños), el 15
de febrero de 2008 se ha comprobado el censo de personas que tienen
diabetes. Hay un total de 459 (456 que se habían diagnosticado en 2007 y 3
personas más que se han diagnosticado en 2008). ¿Cuál es la prevalencia de
la diabetes el 15 de febrero de 2008?
La prevalencia es el porcentaje de individuos con diabetes en ese día,

independientemente de cuando fueron diagnosticados. Por tanto,
Prevalencia = (459/159.832)*100 = 0,287%
El porcentaje es relativamente pequeño. Expresándolo en individuos con la

enfermedad por cada 100.000 casos de la muestra se tiene que la prevalencia
es de 287 casos por cada 100.000 personas de la Comunidad Autónoma en el
grupo de edad entre 0 y 15 años, el 15 de febrero de 2008.
En este caso, la prevalencia de esta enfermedad en un día es mayor que la

incidencia en todo el año 2008, pero en otros casos puede ocurrir lo contrario.
39
1.9. Ejercicios
1.1. Clasifica las siguientes variables.
(a) Temperatura de un paciente en grados centígrados.

(b) Peso de un recién nacido en libras.
(c) Condición de fumador o no fumador (1, 0).
(d) Provincia de residencia de un paciente (Huesca, Teruel, Zaragoza).
(e) Número de DNI (sin letra) de un empleado.
(f) Personas ingresadas en un servicio de urgencias durante un día.
(g) Velocidad en Km/h de un vehículo en el momento del accidente.
1.2. Identifica el tipo de las variables de la encuesta que se rellenó el primer día de
clase. (Ver cuestionario en la web de la asignatura).
1.3. En un estudio sobre la amnesia postraumática tras una lesión en la cabeza, se

registran los siguientes tiempos de hospitalización, en días, de 50 pacientes.
4 5 3 2 5 4 4 3 4 4 10 2 5 2 5 5 6
0 6 2 4 6 2 2 3 1 0 4 2 8 1 4 3 7
3 8 0 8 4 1 3 2 2 2 3 7 2 5 4 1
(a) Organiza los datos en una tabla de frecuencias absolutas y relativas (en
porcentaje).
(b) Dibuja, de forma esquemática, el diagrama de barras de esta muestra.
(c) Agrupa los datos en cuatro clases (0-1, 2-3, 4-5, 6 o más) y dibuja, de forma
esquemática, el diagrama de sectores de esta muestra.
(d) Escribe, brevemente y con tus propias palabras, la información que
proporcionan la tabla de frecuencias y los gráficos.
(e) Calcula las medidas de tendencia central y dispersión que tengan sentido para
estos datos. Describe la variable utilizando estas medidas.
1.4. En un estudio sobre el crecimiento de los varones en EEUU se obtuvieron los

siguientes datos sobre la variable X, ‘perímetro craneal de un niño recién nacido,
en milímetros’.
331 345 337 334 337 365 349 358 360

349 348 341 342 345 342 338 339 340
361 342 347 336 347 351 342 343 346
352 351 353 356 352 343 346 342
40
(a) Organiza los datos en una tabla de frecuencias.

(b) Construye el diagrama de tallo y hojas.
(c) Usando tus propias palabras, describe la distribución del perímetro craneal en
este grupo.
(d) Calcula las medidas de tendencia central y dispersión que tengan sentido para
1.5. Nos han proporcionado la siguiente tabla de frecuencias de la variable edad para
una muestra de 1501 adolescentes. Calcula los valores X1, X2, X3, X4, X5 y X6 que
completarían esta tabla.
Frecuencia Porcentaje Porc. Acum.

13 años 387 X2 X4
14 años X1 24,5 X5
15 años 371 X3 75,0
16 años 375 25,0 X6
Total 1501 100,0
1.6. Se ha preguntado a un grupo de 56 estudiantes el número de DVD que poseen. Se

han obtenido (después de ordenarlos) los siguientes datos:
0 0 0 0 0 0 0 5 5 5 5 6 8 8
9 10 10 10 10 10 15 15 17 17 19 20 20 20
20 20 23 23 23 26 27 30 30 40 50 50 50 50
60 60 60 70 100 100 100 114 117 200 200 300 350 450
(a) Obtén el diagrama de tallo y hojas de estos datos. (Sugerencia: completa a la

izquierda con ceros para que todos los números sean de tres cifras). Nota que
muchos ‘tallos’ no tendrán ninguna ‘hoja’. ¿Hay que ponerlos en el diagrama?
(b) Comprueba que se obtiene la siguiente tabla de frecuencias:

0 7 12,5 12,5
5 4 7,1 19,6
6 1 1,8 21,4
8 2 3,6 25,0
9 1 1,8 26,8
10 5 8,9 35,7
15 2 3,6 39,3
17 2 3,6 42,9
19 1 1,8 44,6
20 5 8,9 53,6
41
23 3 5,4 58,9
26 1 1,8 60,7
27 1 1,8 62,5
30 2 3,6 66,1
40 1 1,8 67,9
50 4 7,1 75,0
60 3 5,4 80,4
70 1 1,8 82,1
100 3 5,4 87,5
114 1 1,8 89,3
117 1 1,8 91,1
200 2 3,6 94,6
300 1 1,8 96,4
350 1 1,8 98,2
450 1 1,8 100,0
Total 56 100,0
(c) Calcula, usando la definición vista en clase, los percentiles 5, 10, 25, 50, 75, 90
y 95. Calcula también la mediana. Calcula los percentiles anteriores usando el
método average.
(d) Dibuja el diagrama de caja (boxplot) de estos datos.
(e) Calcula las medidas de tendencia central y dispersión que tengan sentido para
1.7. Nos han proporcionado una tabla de frecuencias de las edades de una muestra de
110 estudiantes.
(a) Completa la tabla calculando los valores de A, B y C.

(b) Calcula los percentiles 5, 10, 50, 90 y 95.
(c) Calcula las medidas de tendencia central y dispersión que tengan sentido para

18 años 23 20,9 20,9
19 años 29 26,4 A
20 años 27 24,5 71,8
21 años 10 B 80,9
22 años 6 5,5 86,4
23 años 6 5,5 91,8
24 años 1 0,9 92,7
25 años 1 0,9 93,6
26 años 2 C 95,5
42
28 años 2 1,8 97,3

34 años 1 0,9 98,2
41 años 1 0,9 99,1
45 años 1 0,9 100,0
Total 110 100,0
1.8. Calcula el diagrama de caja (boxplot) de estas dos muestras:
(a) 5, 10, 15, 16, 17, 18, 20, 25, 30, 50

(b) Una muestra de la que sabemos que su mediana es 76, sus cuartiles 1 y 3 son
68 y 82, respectivamente, y tal que sus datos, ordenados, son: 47, 49, 50, 52,
56, ..., 96, 104, 104, 119, 145.
1.9. A partir de la tabla de frecuencias de la variable ‘Peso’, con n = 23 datos
Peso Frecuencia Porcentaje Porc. Acum.

62 3 13 13
63 5 21,7 34,8
64 2 8,7 43,5
65 4 17,4 60,9
66 2 8,7 69,6
67 1 4,3 73,9
68 2 8,7 82,6
70 4 17,4 100
Total 23 100
(a) Calcula los cuartiles y la mediana.

(b) Dibuja el boxplot de los datos de la variable. En particular etiqueta los
extremos de los ‘bigotes’ con el valor del caso correspondiente.
1.10. A partir de la tabla de frecuencias de la variable ‘Peso’, con n = 40 datos
Peso Frecuencia Porcentaje Porc. Acum.

51 2 5,0 5,0
53 1 2,5 7,5
54 3 7,5 15,0
55 5 12,5 27,5
56 4 10,0 37,5
57 4 10,0 47,5
58 4 10,0 57,5
43
59 4 10,0 67,5
60 10 25,0 92,5
62 3 7,5 100
Total 40 100
(a) Calcula los cuartiles y la mediana.

(b) Dibuja el boxplot de los datos de la variable. En particular etiqueta los
extremos de los ‘bigotes’ con el valor del caso correspondiente.
1.11. La MEDIA RECORTADA es una medida de tendencia central que se calcula como
la media muestral, pero eliminando de la muestra un porcentaje prefijado de los
datos extremos (después de ordenarlos). Este estadístico utiliza más información
de la muestra que la mediana, y es menos sensible (más robusta) que la media a
valores extremos o a errores.
Para ilustrar cómo se calcula y qué propiedades tiene se propone el siguiente

ejercicio. Pedimos a diez alumnas de un curso de Estadística que midan, en
milímetros, el palmo de su mano derecha. Obtenemos (después de ordenar los
números) los siguientes valores:
16 150 160 165 185 200 200 200 210 250
(a) Calcula la media recortada si eliminamos, en cada extremo (a) el 10%, (b) el
20%, (c) el 30% y (d) el 40%.
(b) Comprueba que, para esta muestra, la media recortada al 40% coincide con la
mediana.
(c) Indica razonadamente si es cierta o no la siguiente frase: ‘en una muestra de
tamaño 100, la media recortada al 48% coincide con la mediana’.
1.12. Se dispone del número de eritrocitos (en millones por mm3) obtenidos por análisis
de sangre en una muestra de 100 varones adultos. Los estadísticos descriptivos y
el histograma de dicha variable son los siguientes:
Media Desv. Típ. IR CV CA CC Mín. Q1 Q2 Q3 Máx. n

4,78 0,32 0,46 0,06 0,089 -0,47 4,02 4,54 4,77 5,01 5,51 100
44
20
15
Frecuencia
10
5
0
4.0 4.5 5.0 5.5
Eritrocitos
(a) ¿Qué estadísticos elegirías para medir la tendencia central y la dispersión?

(b) ¿Es razonable calcular los coeficientes de asimetría y curtosis para esta
variable? Si piensas que sí, ¿cómo se interpretarían?
(c) A la vista de los estadísticos descriptivos calculados y del histograma, ¿crees
que la distribución Normal es un modelo teórico adecuado para estos datos?
1.13. Calcula los percentiles 25, 50 y 75, y la mediana, para la muestra formada por los
8 datos siguientes: 1, 3, 5, 7, 11, 13, 17, 19. Calcula estos mismos estadísticos con
R-Commander. ¿Hay algo que te llame la atención?
1.14. Comprueba que coinciden las siguientes fórmulas de la varianza muestral (ver
también el Apéndice I):
1
𝑆 = (𝑥 − 𝑋 )
𝑛−1 =
1
𝑆 = 𝑥 − 𝑛𝑋
𝑛−1 =
45
1.15. Hemos detectado un error en los datos del problema 11, con la medida del palmo
en mm. en una muestra de 10 personas. Tras corregirlo y volver a ordenar los datos,
tenemos los siguientes datos.
150 160 160 165 185 200 200 200 210 250
(a) Calcula la media. ¿Es adecuada como medida de tendencia central?

(b) Calcula S, el rango y el rango intercuartílico. ¿Descartarías alguna de las tres
medidas de dispersión?
(c) Describe, brevemente, la dispersión de los datos de esta muestra utilizando
esas tres medidas. ¿Cuál de ellas preferirías, si tuvieras que usar sólo una, y
por qué?
1.16. Si aplicamos la transformación Y = a + bX, con b > 0 a un conjunto de datos, estamos

cambiando el origen y la escala de los datos. Usando las propiedades de los
sumatorios, comprueba que M(Y) = a + b*M(X) y que S(Y) = b*S(X), donde M(X) y
S(X) son la media y la desviación típica muestral de X, respectivamente, y M(Y) y
S(Y) la media y desviación típica muestral de Y.
1.17. Se ha hecho un estudio para comparar el gasto medio mensual en medicamentos

por unidad familiar en Londres (variable L) y en Zaragoza (variable Z). La media de
la muestra obtenida en Londres es M(L) = 9,5 libras y la desviación típica muestral
S(L) = 2 libras. La media de Zaragoza es M(Z) = 12,5 euros y la desviación típica
muestal S(Z) = 2 euros.
(a) ¿Es adecuada S como medida de dispersión en la muestra de Londres? ¿Y en la

de Zaragoza? ¿Y para comparar las dispersiones entre las dos muestras?
(b) Calcula el coeficiente de variación de las dos muestras (redondea los
resultados a 3 decimales). Indica, a partir de estos valores, en que muestra
hay más dispersión relativa.
(c) Calcula cuanto valdrían M(Z) y S(Z) si se expresaran en libras (puedes suponer
que el cambio es 1 libra = 1,11 euros; redondea los resultados a 3 decimales).
¿Tiene sentido ahora utilizar S como medida de dispersión? Si es así, indica
para que muestra hay más dispersión.
1.18. Al año siguiente se repite el estudio para comparar el gasto medio mensual en
medicamentos por unidad familiar en Londres (L) y en Zaragoza (Z). Ahora los
datos son: en Londres es M(L) = 10,5 libras y S(L) = 1,9 libras. En Zaragoza es M(Z)
= 11,5 euros y S(Z) = 2 euros.
(a) ¿Es adecuada S como medida de dispersión en la muestra de Londres? ¿Y en la

de Zaragoza? ¿Y para comparar las dispersiones entre las dos muestras?
46
(b) Calcula el coeficiente de variación de las dos muestras (redondea los

resultados a 3 decimales). Indica, a partir de estos valores, en que muestra
hay más dispersión.
(c) Calcula cuanto valdrían M(Z) y S(Z) si se expresaran en libras (puedes suponer
que el cambio es 1 libra = 1,11 euros; redondea los resultados a 3 decimales).
¿Tiene sentido ahora utilizar S como medida de dispersión? Si es así, indica
para que muestra hay más dispersión.
1.19. Se quiere comparar el perímetro craneal de recién nacidos a partir de una muestra
obtenida en España (variable ES) y otra muestra obtenida en EEUU (variable EU).
Se han obtenido los siguientes datos:
En España, la media es M(ES) = 35,2 cm. y S(ES) = 0,91 cm.

En EEUU, la media es M(EU) = 13,6 pulgadas y S(EU) = 0,31 pulgadas.
(a) Calcula el coeficiente de variación e indica, a partir de estos valores en que

muestra hay más dispersión (redondea los resultados a 3 decimales).
(b) Calcula cuanto valdrían M(ES) y S(ES) si se expresaran en pulgadas (una
pulgada (inch) son 2,54 centímetros) y redondea los resultados a 3 decimales.
1.20. Nos han proporcionado un resumen estadístico de las temperaturas de un grupo de

personas con gripe en España (una media de 38,9ºC y una desviación típica de 1ºC)
y en Estados Unidos (una media de 102ºF y una desviación típica de 1,8ºF).
(a) ¿Puedes indicar en qué grupo la fiebre presenta mayor dispersión? En

particular, indica:
1. ¿Sería adecuada la desviación típica muestral S para comparar la dispersión
de los datos en los dos grupos?
2. ¿Sería adecuado el coeficiente de variación CV?
(b) Sabemos que la transformación que permite pasar de grados centígrados a
grados Fahrenheit es F = 32 + 1,8*C. Sin conocer los datos originales, ¿podemos
saber cuánto valdrán la media y la desviación típica de los datos de España en
grados Fahrenheit? Puedes usar los resultados del ejercicio 1.16.
(c) ¿Puedes indicar, ahora, en qué grupo la fiebre presenta mayor dispersión?
1.21. En una comunidad autónoma se ha establecido un protocolo de detección y control

de diabetes entre la población de 0 a 15 años. Este protocolo se comenzó a aplicar
en el año 2000. En 2008 se volvió a revisar a toda la población (159832 niños), se
controlaron 456 casos que ya se habían diagnosticado y se diagnosticaron 18
nuevos casos.
(a) ¿Cuál es la incidencia de esta enfermedad en esa Comunidad Autónoma en

2008?
47
(b) ¿Cuál es la prevalencia de esta enfermedad en esa Comunidad Autónoma en

2008?
1.22. La red de vigilancia de la gripe en una Comunidad Autónoma está registrando los
contagios en la población entre 0 y 15 años (1334592 personas). El lunes de la
tercera semana de 2008 el sistema tiene registrados 802 enfermos,
diagnosticados las semanas anteriores, que todavía no se han recuperado. Los
nuevos casos en la tercera semana son los siguientes
Lunes Martes Miércoles Jueves Viernes Sábado Domingo

181 291 330 352 401 383 323
El sistema registra 822 personas que ya tenían gripe a comienzo de la sexta semana
de 2008, en la que se detectan 1012 infectados nuevos. En esa comunidad autónoma
y para ese grupo de edad,
(a) ¿Cuál es la incidencia semanal de la gripe en la tercera semana de 2008? ¿Y en

la sexta?
(b) ¿Cuál es la prevalencia de la gripe el lunes de la tercera semana de 2008?
(c) ¿Y la prevalencia semanal en la sexta semana de 2008?
1.23. Disponemos de las alturas en cm de 20 jóvenes de 16 años, 10 chicos y 10 chicas.
Mujeres Hombres
173,6 169,9
163,2 174,5
147,9 165,4
158,7 177,2
161,5 162,1
173,3 174,1
154,2 163,9
166,3 159,0
158,0 158,2
157,8 175,8
(a) Comprueba que la media y la desviación típica muestrales (redondeando a dos

decimales) de las mujeres son, respectivamente, 161,45 y 8,05; y la de los
hombres 168,01 y 7,18.
(b) Calcula el valor tipificado de estas alturas, tanto para mujeres como para
hombres.
48
(c) Si te piden comparar las alturas, teniendo en cuenta el sexo ¿crees que la
mujer que mide 166,3 es, relativamente, más alta que el hombre que mide
169,9? ¿Y es más alta que el hombre que mide 174,1?
1.24. El consumo en kWh que una compañía eléctrica ha facturado a un consumidor entre
abril de 2012 y octubre de 2013 es el siguiente (nótese que los periodos de
facturación son irregulares).
Periodo kWh
abril 2013 133
mayo 114
junio 106
julio 104
agosto 111
septiembre 107
septiembre 14
octubre 94
noviembre 110
diciembre 110
enero 127
febrero 97
marzo 120
abril 88
junio 195
agosto 219
octubre 2013 193
La compañía quiere informar al consumidor de su consumo entre abril de 2012 y

abril de 2013, y le proporciona el siguiente gráfico, que titula “Su historial de
consumo en kWh”:
49
(a) ¿Crees que este gráfico informa adecuadamente al consumidor de la evolución

de su consumo?
(b) Te proponen dos posibles títulos: “Evolución de su consumo” y “Evolución de su
consumo facturado”. Indica cuál prefieres y la razón.
(c) ¿Se te ocurre alguna forma de mejorar esta gráfica?
(d) Para informar del consumo entre agosto de 2012 y agosto de 2013 la compañía
elige el siguiente diagrama de barras.
250
200
150
100
50
¿Crees que informa adecuadamente de la evolución del consumo? ¿Se te ocurre

alguna mejora?
(e) Aunque no está en la tabla, la compañía dispone del dato del número de días en
cada periodo facturado. ¿Se te ocurre alguna forma de utilizarlo para hacer
más clara la información de la tabla y de los gráficos?
1.25. El museo arqueológico nacional presenta en su página web una pestaña con ‘El museo
en números”. En ella da información del número de visitantes, espacios, ingresos,
préstamos y colecciones en exposición. Para hacer más claras estas estadísticas,
recurren también a utilizar gráficos. En particular, para el número de colecciones
utilizan un diagrama de sectores:
50
(a) Indica las razones para utilizar un diagrama de sectores en este caso.
(b) Entra en esa página web, explora las otras características de las que ofrecen
estadísticas (visitantes, espacios, etc.) e indica las razones por las que te
parecen adecuados (o no) los gráficos utilizados para hacer más atractiva y
fácil de asimilar esta información.
1.26. En la siguiente tabla, se muestra el número de ingresos mensuales debido a una

rara enfermedad, en 40 hospitales españoles.
Número de ingresos 0 1 2 3 4 5 6 7
Hospitales 7 11 10 7 1 2 1 1
(a) Obtén la tabla de frecuencias incorporando los porcentajes y los porcentajes

acumulados.
(b) Calcula el porcentaje de hospitales con al menos dos ingresos y el porcentaje
de hospitales con a lo sumo cinco ingresos.
(c) Calcula los cuartiles.
(d) Calcula la media, la moda y la mediana.
(e) Calcula el rango y la desviación típica muestral.
51
1.27. Para un conjunto de 80 estudiantes, se ha contabilizado el número de veces que

han cambiado de teléfono móvil. Los resultados se muestran en la siguiente tabla.
Número de cambios 1 2 3 4 5
Estudiantes 14 20 32 10 4
(a) Obtén la tabla de frecuencias incorporando los porcentajes y los porcentajes

acumulados.
(b) Calcula el porcentaje de estudiantes que han cambiado al menos dos veces de
móvil.
(c) Calcula los cuartiles por dos métodos distintos.
(d) Calcula la media, la moda y la mediana.
(e) Calcula el rango y la desviación típica muestral.
1.28. Tenemos los datos (ordenados) de una muestra de la variable X: 6, 9, 9.5, …, 14,
15, 17, 17, 20. También sabemos que la mediana es 10.5 y que el primer y tercer
cuartil son Q1 = 10, Q3 = 12. Dibuja el diagrama de caja, e indica los topes de los
bigotes y cuántos atípicos hay en esta muestra y cuáles son sus valores.
52
2. Estadística descriptiva bivariante
2.1. Introducción
En este tema vamos estudiar cómo describir conjuntamente dos variables

estadísticas, X e Y, observadas para el mismo grupo de individuos, y veremos cómo
estudiar su posible relación. Para remarcar que este estudio lo hacemos
“conjuntamente” denotaremos estas variables bidimensionales como pares (X,Y), y las
modalidades observadas también serán pares, (x,y), formados por las modalidades de X
y de Y. Las herramientas que vamos a utilizar dependerán del tipo de las variables X e
Y.
Desde un punto de vista descriptivo, si las dos variables son cualitativas

(categóricas) podemos describir su distribución conjunta con una tabla de frecuencias
de doble entrada. En esta tabla anotamos las frecuencias con las que aparecen cada uno
de los pares de modalidades (x,y) en la muestra. Veremos también la relación de esta
distribución conjunta de (X,Y) con las distribuciones de X y de Y por separado (las
llamaremos distribuciones marginales), así como con las distribuciones de una de ellas
cuando la otra variable toma un valor fijo determinado (las llamaremos distribuciones
condicionadas).
Si una de las variables es cuantitativa (numérica) y la otra es categórica,

estudiaremos la distribución de la variable cuantitativa para cada uno de los niveles de
la variable cualitativa con las herramientas de la estadística descriptiva univariante y
las compararemos entre sí.
Si las dos variables son cuantitativas, la herramienta gráfica que vamos a utilizar
para describir su distribución conjunta es el diagrama de dispersión. La relación lineal
entre las dos variables la mediremos a través del coeficiente de correlación de Pearson.
2.2. Dos variables cualitativas
Cuando las dos variables, X e Y, son cualitativas, la herramienta básica para

describir la distribución conjunta de las variables es la tabla de frecuencias de doble
53
entrada, que también se llama tabla de contingencia. Dichas tablas también se emplean
cuando las variables de partida son cuantitativas que toman pocas modalidades.
2.2.1. Tabla de contingencia
Sea (X,Y) una variable bidimensional, donde la variable X puede tomar k

modalidades distintas (a1,..., ak) y la variable Y puede tomar m modalidades distintas
(b1,..., bm). Dada una muestra (x1, y1), (x2, y2), …, (xn, yn) correspondiente a esa variable
(X,Y), la tabla de contingencia asociada es una tabla de frecuencias de doble entrada,
en la que se representan las frecuencias con las que se observan los pares (ai, bj) en la
muestra.
Una tabla de contingencia tiene el siguiente aspecto, donde nij representa la

frecuencia con la que se observa el par (ai, bj).
Y b1 b2 ... bm
X
a1 n11 n12 ... n1m n1.
a2 n21 n22 ... n2m n2.
... ... ... ... ... ...
ak nk1 nk2 ... nkm nk.
n.1 n.2 ... n.m
Observa que hemos llamado ni. = ni1 + ni2 +... + nik a la suma de las frecuencias en la
fila i-ésima. Por lo tanto, ésta es la frecuencia de la modalidad ai para la variable X en
la muestra, sea cual sea el valor de la variable Y. La columna de la derecha, con los
valores (n1.,..., nk.), es la distribución de frecuencias (marginal) de la variable X. La suma
de los ni. es el tamaño muestral n (esto es, n1. + n2. +... + nk. = n).
De forma análoga, hemos denotado con n.j = n1j + n2j +... + nkj a la suma de las
frecuencias de la modalidad bj en la columna j-ésima. La fila de abajo, con los valores
(n.1,..., n.m) es la distribución de frecuencias (marginal) de la variable Y. La suma de los
n.j también coincide con n (n.1 + n.2 +... + n.m = n).
Ejemplo 2.1. En una encuesta, se ha preguntado a un grupo de estudiantes,

entre otras cosas, su sexo (variable S) y la talla de camiseta que utilizan
(variable T). Queremos obtener la distribución de frecuencias de la variable
bidimensional (T,S). La tabla de doble entrada es:
54
Sexo
hombre mujer Total
Talla de s 0 16 16
camiseta m 1 23 24
l 4 10 14
xl 2 0 2
Total 7 49 56
Esta información permite describir conjuntamente las variables. Por ejemplo,

del total de estudiantes, hay 16 mujeres que usan talla s de camiseta y hay
sólo dos personas, que además son hombres, que usan talla de camiseta xl.
Nótese que, en una tabla de contingencia, algunos de los pares (ai,bj) pueden tener
frecuencia 0. En el ejemplo anterior, no hay ninguna persona en las casillas (s, hombre)
o (xl, mujer).
Suele ser muy usual trabajar con la tabla de contingencia en porcentajes en lugar
de con frecuencias absolutas. En ese caso, el porcentaje correspondiente al par (ai, bj)
se obtiene dividiendo su frecuencia nij entre el tamaño de la muestra n. Así, la
distribución conjunta en porcentajes en el ejemplo anterior sería:
Sexo
hombre mujer Total
Talla de s 0,00 28,57 28,57
camiseta m 1,78 41,07 42,85
l 7,14 17,86 25,00
xl 3,58 0,00 3,58
Total 12,50 87,50 100
Del total de estudiantes, un 28,57% son mujeres que usan talla de camiseta s y un
3,58% son hombres que usan talla de camiseta xl.
2.2.2. Distribuciones condicionadas y marginales
Además de la distribución conjunta, siempre es de interés estudiar el

comportamiento de una variable para las diferentes modalidades de la otra (variables
condicionadas) y el comportamiento de cada una de las variables independientemente
de la otra (marginales). Veamos con detalle estas distribuciones.
55
Distribuciones condicionadas.
Consideremos una tabla de contingencia asociada a la distribución de la variable

bidimensional (X,Y). Cada fila i-ésima de la tabla proporciona la distribución de
frecuencias de la variable Y, condicionada a que la variable X valga ai. De todos los
individuos de la muestra, seleccionamos sólo a los ni. que verifican la condición (X = ai).
Esta variable condicionada es, a todos los efectos, una nueva variable estadística, que
será del mismo tipo que la variable Y, y que denotaremos como Y|X=ai.
De la misma forma, cada columna j-ésima proporciona una tabla de frecuencias de

la variable X, condicionada a que Y = bj, con n.j individuos, que denotaremos X|Y=bj. Por
tanto, se tienen tantas distribuciones condicionadas como filas y columnas tenga la tabla
de contingencia.
Hay que resaltar que estas variables condicionadas son variables estadísticas
univariantes, y se estudian con las herramientas de la Estadística Descriptiva que
hemos visto en el Tema 1.
Ejemplo 2.2. Con los datos de la tabla de frecuencias de la variable (T,S)

obtenida en el ejemplo 2.1, se puede calcular la distribución de la variable T,
condicionada a que S = mujer (T|S=mujer):
T | Sexo = mujer Frec absol Frec relat Porcentaje

s 16 0,327 32,7
m 23 0,469 46,9
l 10 0,204 20,4
xl 0 0,0 0,0
El tamaño muestral de esta variable condicionada ya no es 56, sino 49, que es

el número de mujeres. Por tanto, las frecuencias relativas y los porcentajes
se calculan sobre el total de mujeres (49) y no sobre el número total de
individuos en la muestra (n = 56). La variable es del mismo tipo que T, esto es,
cualitativa ordinal. A partir de su tabla de frecuencias, podemos calcular, por
ejemplo, la moda o la mediana como estadísticos de tendencia central. Se
puede comprobar que Moda(T|S=mujer) = m, con una frecuencia de 23, y que
Mediana(T|S=mujer) = m (ocupa la posición 25, que es la posición central para
los 49 casos de esta muestra). La representación gráfica de la variable la
realizaríamos a través del gráfico de barras.
56
40
30
Porcentaje
20
10
0
s m l xl
Talla
Ejemplo 2.3. Conocemos el año de la obtención de los datos (variable A) y la

regularidad en la realización de ejercicio físico (variable E) de los 110
individuos de una muestra (datos del fichero pulso). La distribución conjunta
de la variable bidimensional (A,E) es.
Regularidad en la realización
de ejercicio físico
alta moderada baja Total
Año 93 5 13 8 26
95 0 17 5 22
96 4 10 7 21
97 3 11 9 23
98 2 8 8 18
Total 14 59 37 110
A partir de esta tabla de contingencia, se pueden obtener las distribuciones

condicionadas. Por ejemplo, la variable E, condicionada a que A=96 (E|A=96)
tiene la siguiente distribución de frecuencias:
E | A = 96 alta moderada baja

frecuencia 4 10 7
porcentaje 19,05 47,62 33,33
Vemos que la moda de la distribución condicionada E|A=96 es la categoría

‘moderada’, con una frecuencia absoluta de 10.
Suele ser de utilidad expresar a la vez todas las condicionadas por filas (o por
columnas) en porcentajes. Esto permite comparar el comportamiento de las
57
condicionadas de una de las variables para las diferentes modalidades de la otra, de

cara a buscar posibles relaciones entre las variables. En el ejemplo anterior, la tabla
con las condicionas por filas en porcentajes es la siguiente:
alta moderada baja Total
Año 93 19,23 50,00 30,77 100
95 0,00 77,27 22,73 100
96 19,05 47,62 33,33 100
97 13,04 47,83 39,13 100
98 11,12 44,44 44,44 100
Total 12,73 53,64 33,63 100
A partir de esos porcentajes, parece que la condicionada del ejercicio físico en el

año 95 se comporta de forma distinta al resto de las condicionadas.
Distribuciones marginales.
En una tabla de contingencia, a los totales, (n1., n2., nk.) y (n.1, n.2, n.m) se les conoce
con el nombre de distribuciones marginales (porque aparecen en los márgenes de la
tabla). Para cada una de las filas, el total ni. representa el número de individuos que
toman la modalidad ai de la variable X, independientemente de cuál haya sido su valor
en la variable Y. Igualmente, para cada una de las columnas, n.j representa el número de
individuos que toman la modalidad bj de la variable Y, independientemente de cuál haya
sido su valor en la variable X. Por tanto, las marginales permiten recuperar las
distribuciones, por separado, de las variables X e Y.
Ejemplo 2.4. La distribución conjunta de la variable (Año, Ejercicio) del

ejemplo 2.3 era:
alta moderada baja AÑO
Año 93 5 13 8 26
95 0 17 5 22
96 4 10 7 21
97 3 11 9 23
98 2 8 8 18
EJERCICIO 14 59 37 110
58
Las distribuciones marginales se encuentran resaltadas en negrita en la tabla.

Así, la distribución de frecuencias de la variable Ejercicio es:
Ejercicio alta moderada baja

frecuencia 14 59 37
y la distribución de frecuencia de la variable Años es:
Año 93 95 96 97 98
frecuencia 26 22 21 23 18
Observa que la suma de las frecuencias de cada una de las variables es 110,
el tamaño de la muestra.
Como cada una de las marginales es la distribución de una de las variables

independientemente de la otra, las marginales se estudian con las herramientas de la
Estadística Descriptiva Univariante descritas en el tema 1. En el ejemplo anterior, para
la variable Ejercicio, la moda y la mediana serían “moderada” y la moda para la variable
Año sería el año 93.
Ejemplo 2.5. Las distribuciones de frecuencia de las variables T, "Talla" y S,

"Sexo" correspondientes a la tabla de contingencia del ejemplo 2.1 se
presentan remarcadas en negrita.
Sexo
hombre mujer TALLA
s 0 16 16
Talla m 1 23 24
l 4 10 14
xl 2 0 2
SEXO 7 49 56
La suma de las dos distribuciones de frecuencias proporciona el tamaño n de

la muestra, que en este caso es 56. Como se ha comentado anteriormente,
cada una de las distribuciones marginales se estudia por separado con las
herramientas de la Estadística Descriptiva Univariante.
59
2.2.3. Independencia en variables cualitativas
Además de la descripción conjunta a través de la tabla de contingencia, siempre

interesa tratar de establecer si existe algún tipo de relación entre las dos variables.
Los conceptos de dependencia e independencia estadísticas son dos conceptos básicos
ligados al estudio de esa relación. Vamos a ilustrar estos conceptos con un mismo
ejemplo y tres situaciones distintas.
Supongamos que X es una variable dicotómica, que vale 1 si un individuo tiene un

determinado gen y 0 en otro caso, e Y es otra variable dicotómica que vale 1 si el
individuo tiene una determinada enfermedad y 0 en otro caso.
1. Si sabemos que ese gen está asociado con la enfermedad, de forma que todo
individuo con ese gen (X=1) desarrolla la enfermedad (Y=1), y toda persona sana (Y=0)
no presenta ese gen (X=0), decimos que entre X e Y hay dependencia determinística.
Los valores de una de las variables automáticamente determinan los valores de la otra.
2. Si la presencia o ausencia de ese gen no afecta al desarrollo de la enfermedad,

y por lo tanto, el porcentaje de personas enfermas es el mismo entre los que presentan
el gen (X=1) y los que no (X=0), entonces decimos que entre X (gen o no) e Y (enfermedad
o no) hay independencia. El comportamiento de una de las variables es el mismo para las
diferentes modalidades de la otra.
3. Puede ocurrir que haya enfermos que no presentan el gen, y que haya individuos
que presentan el gen y no estén enfermos, pero que el porcentaje de enfermos (Y=1)
sea mucho mayor entre los que presentan el gen (X=1) que entre los que no (X=0). En
esta situación decimos que entre X e Y hay una dependencia estadística. El
comportamiento de una de las variables es distinto para las diferentes modalidades de
la otra.
Vamos a ver a continuación el contraste Chi-cuadrado para tablas de contingencia,

que sirve para analizar la relación de dependencia (o independencia) estadística entre
dos variables categóricas.
Tablas de contingencia e independencia de las variables.
Las tablas de contingencia proporcionan información sobre la relación de

dependencia o independencia estadística entre dos variables categóricas. Si X e Y son
independientes, los valores que toma una de ellas no influirán en la distribución de los
valores de la otra y, por lo tanto, sus distribuciones condicionadas serán muy
semejantes entre sí, y también serán semejantes a la distribución marginal. Si hay
dependencia, estás distribuciones pueden ser muy distintas. Veamos un ejemplo.
60
Ejemplo 2.6. Conocemos la regularidad en la realización de ejercicio físico

(variable E), y el hábito de beber (variable B) de los 110 individuos de una
muestra (datos del fichero pulso).
baja moderada alta Total
¿Bebe regularmente? sí 18 37 13 68
no 19 22 1 42
Total 37 59 14 110
Queremos comprobar si la variable regularidad en la realización de ejercicio

físico es semejante entre los que beben regularmente, (E|B=sí) y los que no
lo hacen (E|B=no). La comparación se hace difícil cuando se utilizan las
frecuencias absolutas si, como en este caso, el número de observaciones en
cada fila es muy distinto. Es más fácil comparar las condicionadas cuando se
utilizan los porcentajes de las mismas.
baja moderada alta Total
¿Bebe regularmente? sí 26,5% 54,4% 19,1% 100,0%
no 45,2% 52,4% 2,4% 100,0%
Total 33,6% 53,6% 12,7% 100,0%
Nótese la diferencia entre las condicionadas (si, no) y la diferencia entre

éstas y la distribución marginal (Total).
Para apreciar gráficamente la diferencia o la semejanza entre las condicionadas,

podemos usar las gráficas de barras por grupos. Estas gráficas no son más que la
representación conjunta de los diagramas de barras de las condicionadas en
porcentajes. La gráfica de barras por grupos correspondiente al ejemplo anterior,
donde los grupos son Beber = sí y Beber = no, se muestra a continuación.
61
Ejercicio
baja moderada alta
50
40
Porcentaje
30
20
10
0
sí no
¿Bebe regularmente?
La apreciación de las discrepancias entre los porcentajes por filas de las

condicionadas, o entre los diagramas de barras, es muy subjetiva. Por ello, es útil
disponer de un procedimiento objetivo que nos permita decidir si hay discrepancias
entre las condicionadas (y entonces diremos que hay dependencia entre las variables) o
no las hay (y entonces diremos que hay independencia entre las variables). A
continuación, describimos dicho procedimiento.
Contraste de independencia Chi-cuadrado (2)
Los contrastes de independencia permiten cuantificar ese grado de discrepancia

entre las variables y resumirlo en una cantidad: el valor crítico o p-valor del contraste.
En el tema sobre inferencia se explicarán con detalle cuáles son los elementos que
intervienen en un contraste de hipótesis. Por ahora, sólo vamos resaltar los aspectos
más relevantes que necesitamos para estudiar la relación entre dos variables
cualitativas.
La hipótesis de base del contraste de independencia (hipótesis nula) es que X e Y

son independientes en la población de la que se ha obtenido la muestra.
Nota: para poder decir algo sobre la población a partir de una muestra, es preciso que esta
muestra sea representativa. En el bloque de inferencia describiremos procedimientos de
muestreo, en particular el muestreo aleatorio simple, que permiten asegurar que las muestras
sean suficientemente representativas de la población.
El p-valor es una medida de concordancia de los datos con la hipótesis de

independencia. Puede tomar valores entre 0 y 1. Valores grandes apoyan la hipótesis
nula. Valores pequeños indican discrepancia. Se suele considerar el nivel 0,05 como
límite para rechazar la hipótesis de independencia (y se dice que el ‘nivel de significación
del contraste’ es del 5%). En este caso, si el p-valor p es menor que 0,05 rechazamos la
62
hipótesis de independencia y decimos que entre X e Y hay dependencia estadística.

Conviene recalcar que cuando el contraste permite rechazar la independencia entre X
e Y, esto no garantiza que la dependencia estadística sea muy grande.
Uno de los contrastes de independencia más utilizados, el contraste Chi-cuadrado

2
( ), se obtiene comparando las frecuencias observadas en cada casilla de la tabla, nij,
con las frecuencias esperadas en esa misma casilla si hubiera independencia entre X e
Y. Esta frecuencia esperada se calcula con la fórmula ni.*n.j/n.
Nota: la justificación intuitiva de esa fórmula es la siguiente. La frecuencia observada de

X=ai es ni.; su frecuencia relativa será ni./n. Análogamente, la frecuencia observada de Y=bj
es n.j; su frecuencia relativa será n.j/n. La frecuencia observada de (X,Y) = (ai,bj) es nij; por
tanto su frecuencia relativa será nij/n. Si las variables son independientes, la frecuencia
relativa de (ai,bj), no debería ser muy distinta del producto de las frecuencias relativas, por
separado, de X=ai y de Y=bj. Por tanto, nij/n debe ser parecido a (ni./n)*(n.j/n). Multiplicando
ambas cantidades por n tenemos que nij debe ser parecido a ni.*n.j/n. Esta última cantidad es
la que definimos como frecuencia esperada bajo la hipótesis de independencia.
Cualquier paquete estadístico proporciona las frecuencias esperadas en una tabla

de contingencia, la medida de discrepancia (estadístico Chi-cuadrado) y el
correspondiente p-valor. En las prácticas de ordenador veremos ejemplos de aplicación
de este contraste y se proporcionarán indicaciones para utilizarlo e interpretarlo.
Con los datos del Ejemplo 2.6, el valor del estadístico Chi-cuadrado es 8,453 y el
p-valor es 0,015. Como este p-valor es menor que 0,05, este contraste permite rechazar
la independencia y diremos que hay dependencia entre Beber y Regularidad en la
realización de ejercicio físico en la población de la que se ha extraído esta muestra. El
contraste nos permite confirmar las discrepancias que ya habíamos observado a través
de los porcentajes de las filas o través del diagrama de barras agrupadas.
Tablas de contingencia y homogeneidad
Las tablas de contingencia también se pueden utilizar para describir la distribución

de una misma variable estadística, medida de forma independiente en k poblaciones
distintas. Si esa variable puede tomar m modalidades, las frecuencias de las k muestras
se pueden resumir en una tabla de contingencia k*m.
Ejemplo 2.7. Se cree que la proporción de personas con hiperlipemia (exceso

de grasa en sangre) es distinta en dos ciudades, A y B. Para comprobarlo, se
seleccionan dos muestras aleatorias, una en la ciudad A y otra en la ciudad B,
y se recoge el número de personas hiperlipémicas en cada muestra. Los datos
obtenidos se pueden resumir en una tabla de contingencia, en la que las filas
son los datos de cada ciudad, A y B, y las columnas las frecuencias de los
63
valores de la variable categórica Hiperlipemia (en este caso con dos

modalidades, Sí y No).
Hiperlipemia
Sí No Total
Ciudad A 62 138 200
B 120 180 300
Total 182 318 500
Las ciudades se han puesto como filas, por conveniencia, pero también se
habrían podido poner como columnas y todo lo que sigue seguiría siendo válido.
Cuando los tamaños de las muestras no son iguales, conviene usar los
porcentajes para comparar. La tabla de porcentajes para las distribuciones
condicionadas por filas se muestra a continuación.
Hiperlipemia
Sí No Total
Ciudad A 31% 69% 100%
B 40% 60% 100%
Total 36,4% 63,6% 100%
En la muestra de la ciudad A, el porcentaje de personas con hiperlipemia es

del 31%, mientras que en la muestra de la ciudad B, es del 40%. Por tanto,
parece que en la ciudad B hay una mayor hiperlipemia que en la ciudad A.
Cuando la frecuencia relativa (o porcentaje) de cada modalidad de Y es similar en

cada una de las muestras decimos que hay homogeneidad de proporciones. Esta
hipótesis de homogeneidad también se puede analizar con un contraste Chi-cuadrado.
La hipótesis nula en este caso es la homogeneidad de Y. Esto es, que la distribución de
la variable Y (hiperlipemia en el ejemplo) es la misma en todas las poblaciones
muestreadas (en la ciudad A y en la B).
Nota: como en el contraste de independencia, para aplicar Chi-cuadrado es necesario que las
muestras sean representativas de las poblaciones de las que se han obtenido.
El p-valor que proporciona Chi-cuadrado es una medida de concordancia de los

datos con la hipótesis de homogeneidad. Si el p-valor p es menor que 0,05, rechazamos
la hipótesis de homogeneidad (al nivel de significación del 5%) y decimos que Y no se
distribuye de la misma forma en todas las poblaciones. En las prácticas de ordenador
profundizaremos en el uso de este tipo de contrastes de homogeneidad de proporciones.
64
Con los datos del Ejemplo 2.7, el valor del estadístico Chi-cuadrado es 4,199 y el
p-valor es 0,040. Por lo tanto, este contraste permite rechazar la homogeneidad y decir
que la proporción de personas con hiperlipemia es distinta en las dos ciudades (en la
ciudad B hay una mayor hiperlipemia).
2.3. Una variable cualitativa y otra cuantitativa
Esta situación aparece de forma natural cuando la variable cualitativa X

representa distintos estratos de una población o distintas poblaciones muestreadas
independientemente. En este caso, el interés se centra en describir la distribución de
la variable cuantitativa Y en cada uno de los estratos o poblaciones (es decir, las
condicionadas de la variable Y para las diferentes modalidades de la variable X) y en
comparar esas distribuciones condicionadas entre sí. Por ejemplo, si estudiamos (Sexo,
Altura), nos interesará comparar las dos distribuciones condicionadas de la variable
Altura. Veamos otro ejemplo.
Ejemplo 2.8. (Ver también el ejercicio 2.3) Hemos recogido, mediante

encuesta, la altura y la talla de zapatos de alumnos de un curso de Estadística.
Llamaremos T a la variable ‘Talla de zapatos’ (cualitativa ordinal), que toma
los valores 37, 38, 39 y 40, y llamaremos A a la variable ‘Altura en cm’
(cuantitativa). La tabla de frecuencias se muestra continuación.
Talla de zapatos
Altura en cm 37 38 39 40
156 1 0 0 0 1
158 1 0 0 0 1
159 1 1 1 0 3
160 1 1 1 0 3
161 1 3 0 0 4
162 0 1 0 0 1
163 1 0 0 0 1
164 1 0 1 0 2
165 0 2 0 1 3
166 0 1 1 1 3
167 2 2 0 0 4
168 1 0 1 1 3
169 0 0 1 0 1
170 0 0 1 0 1
171 0 0 1 0 1
172 0 0 0 1 1
173 0 0 0 2 2
174 0 0 0 1 1
175 0 1 1 1 3
178 0 0 0 2 2
Total 10 12 9 10 41
65
La tabla de contingencia proporciona la distribución de frecuencias de la

variable bidimensional (A,T). Las cuatro columnas proporcionan las cuatro
distribuciones condicionadas de la Altura para los valores de T = 37, 38, 39
y 40. Al tomar muchos valores una de las variables (Altura), observa cómo la
tabla se vuelve poco útil y poco manejable y hay que utilizar otras
herramientas para el análisis de la variable bidimensional (A,T).
Para la descripción y comparación de las condicionadas de la variable Y, lo usual es

aplicar a cada una de las condicionadas las técnicas de la estadística descriptiva
univariante (fundamentalmente histograma, diagrama de caja y medidas descriptivas)
y utilizar los resultados obtenidos para realizar la descripción y la comparación. En las
prácticas con ordenador se verá con detalle cómo realizar este tipo de estudios.
A continuación, se muestra un diagrama de caja por grupos, que representa las

distribuciones de la variable altura condicionadas a las diferentes tallas de zapatos, tal
y como se describían en el ejemplo anterior. Visualmente, podemos observar cómo la
altura tiende a ser mayor, conforme aumenta la talla de zapatos.
175
170
Altura
165
160
37 38 39 40
Número
Este otro gráfico, llamado diagrama de puntos por grupos, también muestra esa
tendencia de crecimiento de la altura conforme crece la talla de zapatos. En el gráfico,
cada uno de los puntos representa la altura de un individuo.
66
Talla 37
160 165 170 175
Altura
Talla 38
160 165 170 175
Altura
Talla 39
160 165 170 175
Altura
Talla 40
160 165 170 175
Altura
2.4. Dos variables cuantitativas
Supongamos que las dos variables X e Y que se desean estudiar conjuntamente son
cuantitativas. En esos casos, normalmente alguna de las dos variables (o las dos) toma
muchas modalidades distintas y la tabla de contingencia se hace muy grande e inútil
para entender la distribución de (X,Y).
La alternativa más utilizada para describir, en estas situaciones, la distribución

conjunta de (X,Y) es la representación gráfica de sus valores como puntos en un plano,
a través de los llamados diagramas de dispersión. Con ellos, se puede también observar
la posible relación entre las dos variables X e Y. Si se observa una buena relación lineal
entre las variables, ésta se puede cuantificar a través del coeficiente de correlación
de Pearson y se pueden realizar predicciones de una de las variables a partir de la otra
con la recta de regresión lineal.
A continuación, vamos a ir describiendo todos estos aspectos relacionados con el

estudio de la variable bidimensional (X,Y) cuando las dos variables X e Y son
cuantitativas.
67
2.4.1. Diagrama de dispersión
El diagrama de dispersión representa gráficamente la distribución de (X,Y),

dibujando cada par (xi,yi) de la muestra como un punto en el plano.
Ejemplo 2.9. (Ver también ejercicio 2.8) Consideramos una muestra de

tamaño n = 205 compuesta por varones de 13 años. La variable B es la medida
del pliegue del bíceps y la variable T, la medida del pliegue del tríceps, en mm.
El diagrama de dispersión para estas variables, tiene el siguiente aspecto.
40
30
triceps
20
10
5 10 15 20 25 30
biceps
Observa cómo el gráfico representa todos los pares de la muestra con respecto a
unos ejes de coordenadas cartesianas. En el eje de abscisas se representan las
modalidades de una de las variables, X, y en el eje de ordenadas las modalidades de la
otra variable, Y. Para cada par (xi,yi) de la muestra se marca el punto con esas
coordenadas en el plano (en este ejemplo, con “o”).
El gráfico de dispersión proporciona una primera aproximación muy útil para

comprender si hay alguna relación entre las variables y, si la hay, para intuir el tipo de
relación (lineal, exponencial, …). También permite detectar datos que se alejan en
exceso del resto, que podrían ser datos erróneos, atípicos o influyentes, y que
convendría estudiar con más detalle.
En el ejemplo anterior, vemos que a mayores valores para el bíceps corresponden

mayores valores para el tríceps, y que este crecimiento podría representarse de forma
aproximada con una recta. También vemos un dato, el que tiene un valor de
aproximadamente 30 para la variable bíceps, que parece alejarse un poco del
comportamiento de los demás.
68
2.4.2. Correlación
El diagrama de dispersión permite intuir la relación de dependencia o

independencia entres dos variables X e Y cuantitativas. Cuando se sospecha que existe
una relación lineal entre las dos variables, se dispone de dos estadísticos (los
coeficientes de covarianza y de correlación) que permiten cuantificar ese tipo de
dependencia.
En lo que sigue de este tema, asumimos que X e Y son variables numéricas que no
toman valores muy extremos y que la muestra no tiene datos erróneos. En este caso, la
media muestral es una medida adecuada de tendencia central y S es una medida
adecuada de dispersión. Por comodidad en la escritura, denotaremos indistintamente la
media muestral de X como M(X) o 𝑋 y la de Y como M(Y) o 𝑌 ̅ .
Covarianza
La covarianza es un estadístico que mide la asociación (la relación estadística)

entre dos variables estadísticas. Si se dispone de una muestra (x1,y1), ..., (xn,yn) de la
variable bidimensional (X,Y), se define la covarianza muestral como
1
𝐶𝑜𝑣(𝑋, 𝑌 ) = 𝑥 − 𝑋 𝑦 − 𝑌̅ + ⋯ + 𝑥 − 𝑋 𝑦 − 𝑌̅ =
𝑛−1
1
= 𝑥 − 𝑋 𝑦 − 𝑌̅
𝑛−1 =
Estamos promediando los productos de los datos de X e Y centrados, pero

dividimos por n-1, como en la definición de varianza muestral.
Nota: En algunos libros se define la covarianza dividiendo por n. Para pasar de nuestra
definición a la suya, bastaría multiplicar Cov(X,Y) por la constante (n-1)/n.
La covarianza se construye a partir del producto de valores de X y de Y, centrados.

Sus unidades serán por tanto el producto de las unidades de X y de Y. Por ejemplo, si X
e Y son cm, entonces la covarianza se expresa en cm2, y si X se expresa en kg e Y en m,
la covarianza se expresaría en kg*m.
Para hacer las cuentas a mano, suele ser más cómodo utilizar la siguiente fórmula,
que es equivalente a la anterior:
𝑛
𝐶𝑜𝑣(𝑋, 𝑌 ) = (M(X*Y)-M(X)*M(Y))
𝑛−1
En esta fórmula, X*Y es una variable auxiliar que se construye como producto de
X e Y, y su media 𝑋𝑌 = M(X*Y) es (x1y1 + x2y2 +... + xnyn)/n.
69
Ejemplo 2.10. (Ver también el ejercicio 2.8) Consideramos la muestra de

tamaño n = 205 compuesta por varones de 13 años. La variable B es la medida
del pliegue del bíceps y la variable T, la medida del pliegue del tríceps, en mm.
Podemos calcular la covarianza muestral usando las medias de B y T, y la media

de la variable producto B*T.
Bíceps Tríceps
Producto de
Bíceps por Tríceps
N 205 205 205
Media 9,37854 18,18634 208,47112
Aplicando la fórmula, y redondeando el resultado a tres decimales, se tiene:
Cov(B,T) = 205*[208,47112 - 9,37854*18,18634]/204 = 38,096
Nota: todos los paquetes estadísticos llevan la posibilidad de calcular las covarianzas
muestrales entre dos o más variables. A continuación, tenéis la covarianza entre las dos
variables anteriores calculada con R-Commander.
Interpretación gráfica de la covarianza
Valores grandes (en valor absoluto) de Cov(X,Y) indican una relación estadística
lineal entre X e Y, esto es, que los puntos estarán relativamente próximos a una recta.
Si Cov(X,Y) es positiva, esa recta es creciente, y si es negativa, decreciente. Para
justificar esta interpretación debemos hacer notar que el signo de Cov(X,Y) depende
solo del numerador, que es la suma de los productos de todos los datos de X e Y,
centrados. Vamos a ilustrar cómo varía esa suma y cómo se distribuyen los datos en el
plano con algunos ejemplos.
Ejemplo 2.11. Consideramos otra vez la muestra de tamaño n = 205

compuesta por varones de 13 años. La variable B es la medida del pliegue del
bíceps y la variable T, la medida del pliegue del tríceps, en mm. El
correspondiente diagrama de dispersión de (B,T) es el siguiente:
70
40
30
triceps
20
10
5 10 15 20 25 30
biceps
El diagrama de dispersión sugiere una relación estadística lineal y creciente

entre B y T. Se han dibujado dos rectas perpendiculares que definen cuatro
cuadrantes. La recta vertical señala la posición de la media de B, M(B) = 9,4.
La horizontal, la posición de la media de T, M(T) = 18,2. Los círculos con
valores grandes de B (por encima de su media M(B) = 9,4) tienen también, en
general, valores grandes de T (por encima de su media M(T) = 18,2) y, por lo
tanto, para estos valores ‘grandes’ de B, la mayoría de los círculos están en el
primer cuadrante (superior derecho), donde (bi-M(B)) > 0, (ti-M(T)) > 0 y su
producto, (bi-M(B))(ti-M(T)), también es positivo.
La mayoría de círculos con valores pequeños de B (por debajo de su media

M(B)) están en el tercer cuadrante (cuadrante inferior izquierdo) y tienen,
por tanto, valores pequeños de T (por debajo de su media M(T)). En este
tercer cuadrante (bi-M(B)) < 0, (ti-M(T)) < 0 y por tanto su producto, (bi-
M(B))(ti-M(T)), es positivo.
Los únicos puntos que aportan valores de (bi-M(B))(ti-M(T)) negativos son los
(pocos) que están en el segundo y el cuarto cuadrante.
Por tanto, a la vista del dibujo, esperaríamos que la covarianza fuera positiva
y relativamente grande. Esto es coherente con la covarianza que hemos
calculado para estos datos en el ejemplo 2.10: Cov(B,T) = 38,096 > 0.
En resumen, la covarianza es positiva y en el gráfico se aprecia una relación
aproximadamente lineal y creciente (de pendiente positiva) entre las
variables.
71
Ejemplo 2.12. (Ver también ejercicio 2.11) Marcas (en segundos) obtenidas
en la carrera de los 5000 metros, hombres, en los campeonatos de Europa
celebrados entre 1934 y 1990.
El gráfico de dispersión de la variable (Año, Marca) presenta el siguiente

aspecto:
880
860
840
Marca
820
800
1940 1950 1960 1970 1980 1990
Año
Se ha dibujado una recta vertical que pasa por la media de los Años, M(Año)
= 1963,9 años, y una recta horizontal que pasa por la media de las Marcas,
M(Marca) = 827,5 segundos. Vemos que no hay ningún punto en los cuadrantes
1 y 3.
En este caso, a los años por encima de la media les corresponden marcas por
debajo de la media y a los años por debajo de la media les corresponden
marcas por encima de la media. Todos los sumandos que forman la covarianza
son negativos y, por tanto, también lo será la covarianza, que resulta ser
Cov(Año, Marca) = -411,831.
En este segundo ejemplo la covarianza es negativa y en el gráfico se aprecia

una relación aproximadamente lineal y decreciente (de pendiente negativa)
entre las variables.
Ejemplo 2.13. Se ha diseñado un sistema para medir, con un análisis de saliva,

el porcentaje de alcohol en sangre. Se sospecha que este sistema es muy malo.
Para comprobarlo, se ha realizado un experimento con 50 voluntarios que,
72
tras ingerir distintas cantidades de alcohol, han permitido que se les realice
el análisis de saliva (X) y el de sangre (Y).
El gráfico de dispersión de la variable (X,Y) es el siguiente.
0.8
0.6
sangre
0.4
0.2
0.0
0.2 0.4 0.6 0.8
saliva
Vemos que los datos de (X,Y) están repartidos por los cuatro cuadrantes de
forma aparentemente aleatoria. Esto es, los valores de X (medición en saliva)
por encima de su media (0,493) están asociados tanto a valores de Y (medición
en sangre) por encima de su media (0,4372), como a valores de Y que están
por debajo de su media. Lo mismo ocurre para los datos de X que están por
debajo de su media.
Los factores (xi-M(X))(yi-M(Y)) del primer y tercer cuadrante serán positivos, y

los del segundo y cuarto cuadrante, negativos. Como los círculos están repartidos
de forma irregular, los sumandos positivos y negativos tenderán a equilibrarse, y
es de esperar que la covarianza sea próxima a cero. Para estos 50 datos en
concreto, la covarianza es Cov(X, Y) = -0,001
Resumiendo, tenemos un valor prácticamente nulo de la covarianza y en el

gráfico no se aprecia ninguna relación lineal (ni de ningún otro tipo) entre las
variables.
Sin embargo, que la covarianza sea nula o muy pequeña NO garantiza que los datos
sean independientes. Sólo que no tienen dependencia estadística lineal. Pero podrían
tener otro tipo de relación, como se ilustra en el siguiente ejemplo.
73
Ejemplo 2.14. (Ver también el ejercicio 2.14) Una muestra con n = 21 valores
de la variable (X,Y) tiene el siguiente gráfico de dispersión:
1.0
0.8
0.6
Y
0.4
0.2
0.0
-1.0 -0.5 0.0 0.5 1.0
Resulta claro que Y = X2. Esta relación se comprueba examinando los datos
originales. Para calcular la covarianza, obtenemos las medias de X, de Y, y del
producto X*Y a partir de los 21 datos de la muestra.
X Y X*Y
N 21 21 21
Media 0,0000 0,3667 0,0000
Cov(X,Y) = 21*[M(X*Y) - M(X)*M(Y)]/20 = 0
La covarianza nula nos indica que no hay dependencia estadística lineal. Pero
puede haber dependencia estadística de otro tipo, e incluso una dependencia
funcional, como ocurre en este caso concreto.
La covarianza podría ser útil para decidir si hay o no relación lineal entre X e Y,
pero para ello habría que responder a la siguiente cuestión. ¿Para qué valores podemos
decir que la covarianza es “prácticamente nula”? No se puede contestar de forma
sencilla a esta pregunta porque la covarianza depende de las unidades de medida. El
siguiente ejemplo ilustra esta dificultad.
Ejemplo 2.15. Disponemos de n = 40 observaciones de dos variables (X,Y)

que representan dos mediciones, en metros, obtenidas de la misma persona.
Queremos ver si entre estas variables hay una relación estadística lineal.
74
Al calcular la covarianza para esos datos, obtenemos que Cov(X, Y) =

0,000326 m2. La covarianza es positiva, pero muy pequeña, y sería tentador
decir que es “prácticamente nula”. Pero la covarianza depende de las unidades.
Estos datos son los tamaños del palmo de la mano derecha (X) y de la mano
izquierda (Y) de la misma persona (ver ejercicio 2.4 (b)). Si las cuentas se
hacen en mm, que sería más natural, la covarianza es 326 mm2 (ver ejercicios
2.4 (a) y 2.5). Con las variables en metros, la covarianza sugeriría que no hay
relación entre ellas, pero con las variables en milímetros, la covarianza
sugeriría que sí.
Para soslayar esta dificultad de la covarianza, se define una medida de la “relación

estadística lineal” entre dos variables X e Y que no depende de las unidades de medida.
Esta medida es el coeficiente de correlación que pasamos a explicar a continuación.
Coeficiente de correlación lineal
El coeficiente de correlación lineal de Pearson es una función de la muestra (un

estadístico) que se define como:
𝐶𝑜𝑣(𝑋, 𝑌 )
𝑟(𝑋, 𝑌 ) =
𝑆(𝑋) 𝑆(𝑌 )
El denominador siempre es positivo, pues es el producto de dos cantidades siempre

positivas, S(X) y S(Y). Por tanto, el signo de r = r(X,Y) es el de la covarianza y se
interpreta de la misma manera que la covarianza: r > 0 indica una relación lineal creciente
y r < 0 indica una relación lineal decreciente. Despejando en esa definición, Cov(X,Y)
también se puede expresar como función de r:
𝐶𝑜𝑣(𝑋, 𝑌 ) = 𝑟(𝑋, 𝑌 ) 𝑆(𝑋) 𝑆(𝑌 )
Ejemplo 2.16. Consideramos de nuevo la muestra de tamaño n = 205,

compuesta por varones de 13 años. La variable B es la medida del pliegue del
bíceps y la variable T, la medida del pliegue del tríceps, en mm.
Nos proporcionan las medias y las desviaciones típicas de las variables B y T,

y de la variable producto B*T:
B T B*T
9,379 18,186 208,471 < Media
5,096 8,423 198,640 < Desv Tip
75
Aplicando las fórmulas, y redondeando a tres decimales:
Cov(B,T) = 205*(208,471-9,379*18,186)/204 = 38,090

r(B,T) = 38,090/(5,096*8,426) = 0,887
Nota: cualquier paquete estadístico permite calcular el coeficiente de correlación lineal de

Pearson entre dos (o más) variables. A continuación, tenéis el coeficiente de correlación
entre las dos variables anteriores calculado con R-Commander.
Las principales propiedades del coeficiente de correlación lineal de Pearson

figuran a continuación.
1. El coeficiente de correlación r no depende de las unidades de medida. En

efecto, la covarianza se expresa en el producto de las unidades de X y de Y.
Como S(X) y S(Y) se expresan en las unidades de X e Y, el cociente r no tiene
dimensión.
2. El coeficiente de correlación r toma valores en el intervalo [-1,1]. (La
demostración de esta propiedad se deja como ejercicio opcional).
3. Si r = 1, puede comprobarse que los puntos de la variable (X,Y) están en una
recta, y que esa recta tiene pendiente positiva (esto es, cuando X crece, Y
también crece). Si r es próximo a 1, esa relación lineal es aproximada, y la
aproximación es mejor cuanto mayor es r.
4. Si r = -1, puede comprobarse que los puntos de la muestra de la variable (X,Y)
están en una recta, y que esa recta tiene pendiente negativa (esto es, cuando
X crece, Y decrece). Si r está cerca de -1, la relación lineal es aproximada, y
la aproximación es mejor cuanto más cerca está r de -1.
5. Si r es próximo a cero no hay relación estadística lineal entre las variables, o
bien esta relación es muy pequeña. Nótese que podría haber dependencia
estadística no lineal, o incluso dependencia funcional exacta, como hemos visto
en el ejemplo 2.14.
Nota: en las prácticas de ordenador veremos herramientas que nos permitirán decidir si
existe relación lineal o no entre dos variables, cuando el coeficiente de correlación sea
cercano a cero. En concreto, veremos cómo contrastar la hipótesis de que el coeficiente de
correlación es 0 en toda la población de la que se ha extraído la muestra.
76
2.4.3. Regresión lineal simple
En muchas situaciones prácticas se plantea la siguiente situación. ¿Cómo podemos

utilizar la observación de X para predecir o aproximar el correspondiente valor de Y
para la misma unidad muestral?
Ejemplo 2.17: (Ver también el ejercicio 2.12) Se cree que es posible detectar
la presencia de una sustancia en la sangre (Y) por la presencia de un
metabolito de esa sustancia en la orina (X). Se han obtenido los siguientes
datos, expresados en nanogramos por mililitro (ng/mL), con un experimento
realizado con una muestra de 14 varones sanos:
X Y
5 25,2
7,2 28
8 35
9 41
9,5 42
9,6 44
11 35,8
13 47
14 55
15 53
17 59
18 58,5
20 64,5
23 76
Con estos datos tenemos el siguiente diagrama de dispersión:

70
Concentración en sangre
60
50
40
30
5 10 15 20
Concentración en orina
77
Este gráfico sugiere una relación estadística lineal entre X e Y. Si somos capaces
de encontrar una recta, y = f(x) = a + b*x, que se ajuste bien a estos datos y si podemos
medir X (la concentración en orina) para un nuevo individuo (sea xn+1) pero no podemos
obtener yn+1 (no podemos hacerle un análisis de sangre), entonces f(xn+1) podría ser una
aproximación razonable de ese valor yn+1 desconocido.
A continuación, vamos a explicar cómo obtener la recta que ‘mejor se ajusta’ a los
datos, de cara a realizar predicciones.
Modelo de regresión lineal
En general, llamamos variable predictora o independiente (X) a la variable que

podemos manipular y sospechamos que influye, y llamamos variable resultado o
dependiente (Y) a la que obtenemos y pensamos que es influida por X. En algunos textos
y paquetes estadísticos, a la variable X se la denomina variable explicativa y a la variable
Y se la denomina variable explicada.
Nota: en algunas situaciones está claro cuál es la variable independiente y cuál la

dependiente. Por ejemplo, en un experimento controlado, podemos fijar una serie de valores
para la variable X y, para cada uno de ellos, medimos el valor de Y. Esta es la situación que
nos encontramos en un ensayo clínico, cuando administramos diversas dosis de un compuesto
(X) y medimos, para cada uno de ellos, el efecto que produce (Y).
En otras situaciones, la elección de la variable independiente y la dependiente no es unívoca.

Esto sucede en los estudios observacionales, donde para cada caso de la muestra observamos
(o medimos) las dos variables X e Y. Por ejemplo, cuando obtenemos peso (X) y altura (Y) de
n individuos. En estas situaciones, tendría sentido plantearse predecir Y a partir de X
(predecir la altura a partir del peso) y también predecir X a partir de Y (predecir el peso a
partir de la altura).
Para analizar la relación entre X e Y, una vez obtenidos los datos (x1,y1), …, (xn,yn)
de las variables en la población o la muestra, el primer paso será obtener el diagrama
de dispersión de (X,Y). El gráfico sugerirá si hay relación o no, y si la hay, de que tipo
es esta relación (lineal, parabólica, exponencial, etc.).
Supongamos que observamos una relación lineal importante en nuestros datos.

Entonces nos planteamos el problema de encontrar la recta que mejor se ajuste a los
datos. La ecuación de una recta en el plano es Y = a + b*X, donde a y b son dos constantes
arbitrarias. Luego entre todas las rectas del plano, queremos encontrar las constantes
a* y b* de forma que la recta Y = a* + b**X sea la que mejor se ajuste a los datos.
Para encontrar esas dos constantes a* y b* hay que definir qué significa ajustarse
bien a los datos. Existen diferentes criterios sobre cuando una recta se considera que
78
se ajusta bien a unos datos. Uno de esos criterios, el criterio de mínimos cuadrados, es
el más empleado y es el que explicamos a continuación.
Criterio de mínimos cuadrados
Sea Y = a + b*X una recta cualquiera. Para el valor xi de la observación (xi,yi), se

define valor predicho o valor ajustado 𝑦 = [yi] al que se obtiene para Y sustituyendo X
por xi en la ecuación de la recta, es decir, [yi] = a + b*xi. A partir del valor ajustado, se
define el residuo ei para la observación (xi,yi) como la diferencia entre el valor
observado para la variable Y, yi, y el valor ajustado para xi, [yi] , es decir, ei = yi – [yi] =
yi – (a + b*xi).
Gráficamente, los residuos no son mas que las ‘distancias verticales’ de los puntos
(xi,yi) a la recta Y = a + b*X (esas ‘distancias’ pueden ser positivas o negativas). El
siguiente gráfico muestra los residuos asociados a los datos del ejemplo 2.17 para la
recta representada en el gráfico.
70
60
50
40
30
5 10 15 20
Una forma de conseguir que los n residuos sean pequeños conjuntamente (y por
tanto, que la aproximación de la recta sea razonablemente buena para todos los puntos
de la muestra) es imponer que lo que se conoce como el error cuadrático medio (ECM)
sea lo más pequeño posible. Este es el criterio de mínimos cuadrados. El error
cuadrático medio no es mas que el promedio de los cuadrados de los residuos:
1 1
𝐸𝐶𝑀 = 𝑒 = (𝑦 − 𝑎 − 𝑏𝑥 )
𝑛 =
𝑛 =
El problema de encontrar la recta que mejor se ajusta a los datos por el método
de mínimos cuadrados se transforma entonces en encontrar qué constantes a y b
79
minimizan la expresión anterior. Puede probarse, con un sencillo procedimiento

matemático, que los valores de a y b que minimizan el error cuadrático medio son:
𝐶𝑜𝑣(𝑋, 𝑌 )
𝑏=
𝑆(𝑋)
𝑎 = 𝑌 ̅ − 𝑏𝑋
Llamamos recta de regresión de Y sobre X (o recta de regresión mínimo

cuadrática) a la recta [Y] = a + b*X, donde a y b se calculan con las expresiones
anteriores. El coeficiente a es el punto en el que la recta corta al eje de ordenadas.
Esto es, el valor que toma [Y] cuando X = 0. El coeficiente b (se llama ‘coeficiente de
regresión’) es la pendiente de la recta. Por tanto, un incremento de una unidad en X
implica un incremento de b unidades en [Y].
Podemos expresar b como función del coeficiente de correlación r usando la

fórmula Cov(X,Y) = r(X,Y)*S(X)*S(Y):
𝑆(𝑌 )
𝑏 = 𝑟(𝑋, 𝑌 )
𝑆(𝑋)
También puede comprobarse (ejercicio opcional 2.6) que la recta de regresión [Y]
= a + b*X se puede reescribir de las siguientes formas:
[𝑌 ] − 𝑌 ̅ = 𝑏 (𝑋 − 𝑋 )
[𝑌 ] − 𝑌 ̅ 𝑋− 𝑋
= 𝑟(𝑋, 𝑌 )
𝑆(𝑌 ) 𝑆(𝑋)
Observa en particular que la recta de regresión de Y sobre X pasa siempre por el

punto (𝑋 , 𝑌 ̅ ).
Ejemplo 2.18. Con los 14 datos de las concentraciones en orina (X) y en

sangre (Y) del ejemplo 2.17, se tienen los siguientes valores de las medias y
las desviaciones típicas de las variables X, Y y de la variable producto X*Y.
X Y X*Y
12,807 47,428 675,842 < Media
5,269 14,402 464,241 < Desv Tip
El cálculo de los coeficientes a y b de la recta de regresión sería:
Cov(X,Y) = 14*(675,842-12,807*47,428)/13 = 73,695
80
b = 73,695/(5,269)2 = 2,654
a = 47,428 – 2,654*12,807 = 13,438
El gráfico de dispersión con la recta de regresión [Y] = 13,438 + 2,654*X

añadida figura a continuación.
70
60
50
40
30
5 10 15 20
Media y varianza de los residuos
Los n residuos, ei = yi - [yi] = yi – (a + b*xi), asociados a la recta de regresión se

pueden ver como una nueva variable estadística E, que mide el error de aproximación.
Por construcción, las constantes a y b de la recta de regresión minimizan el error

cuadrático medio. Se puede comprobar además que hacen que la suma de los residuos
sea 0. Por lo tanto, su media es M(E) = 0. Como M(E) = 0, la varianza muestral de E,
S2(E), vale 𝑆 (𝐸) = − ∑ = 𝑒 , la suma de los residuos al cuadrado dividida por n-1. A
la varianza muestral de E se la suele denominar varianza residual. Ya que S2(E) =
ECM*n/(n-1), las constantes de la recta de regresión a y b también son las que minimizan
la varianza residual.
Nota: en algunos libros se llama varianza residual al error cuadrático medio.
Bondad del ajuste de la recta de regresión
Cuando se calcula la recta de regresión, hay que dar siempre una medida de lo bien
o mal que se ajusta la recta a los datos. El estadístico más utilizado para medir la bondad
del ajuste de la recta de regresión es el coeficiente de determinación R2(Y|X), que se
define como:
𝑆 (𝐸)
𝑅 (𝑌 |𝑋) = 1 −
𝑆 (𝑌 )
81
Las propiedades fundamentales del coeficiente de determinación son las

siguientes:
1. El coeficiente de determinación toma valores entre 0 y 1.

2. Valores próximos a 1 indican buenas aproximaciones. En efecto, cuanto mejor
es el ajuste, más pequeños son los errores (o residuos) y más pequeño será
S2(E). Por lo tanto, el coeficiente de determinación R2(Y|X) es más grande. El
ajuste perfecto se tiene cuando S2(E) = 0 y, por tanto, R2(Y|X) = 1.
3. Valores de R2(Y|X) próximos a 0 indican que el ajuste a la recta es malo. En
general, valores de R2(Y|X) próximos a 0 indican que la varianza residual S2(E)
es casi tan grande como la varianza de Y, S2(Y), y por lo tanto que los errores
de aproximación son muy grandes.
4. El peor ajuste se obtiene cuando R2(Y|X) = 0. En efecto, el peor ajuste se
obtiene cuando los valores de X no proporcionan ninguna información sobre Y.
En este caso, la mejor predicción de Y para un nuevo individuo será la media de
los casos ya observados, M(Y), sin tener en cuenta el valor de X para ese
individuo. Esto equivale a aproximar Y por la recta ‘trivial’ [Y] = a + b*X, donde
los coeficientes son a = M(Y) y b = 0. En este caso, ei = (yi - M(Y)), S2(E) = S2(Y)
y R2(Y|X) = 0.
5. Podemos interpretar el cociente S2(E)/S2(Y) como la proporción de la
variabilidad de Y que no explica la recta de regresión, y su complemento a 1, el
coeficiente de determinación R2(Y|X), como la proporción de variabilidad que
sí explica la recta de regresión. Por esta razón decimos que 100*R2(Y|X) es el
porcentaje de la variabilidad de Y que está explicado por la recta de regresión.
6. Para la recta de regresión, se puede demostrar que R2(Y|X) = r2(X,Y), es decir,
el coeficiente de determinación coincide con el cuadrado del de correlación.
Nota: además de calcular la bondad del ajuste de la recta de regresión, existen otras
técnicas estadísticas que ayudan a validar el buen ajuste de la recta de regresión. Dichas
técnicas se conocen con el nombre de diagnosis del modelo. En las clases prácticas, se verá
alguna de estas técnicas, como es el gráfico de dispersión entre los residuos y los valores
ajustados.
Predicciones
Cuando la recta de regresión se ajusta bien a los datos (como norma general
podemos suponer que el ajuste es bueno cuando R2(Y|X) > 0,75), la recta de regresión
se puede utilizar para realizar predicciones. Si para un nuevo elemento de la población
el valor de la variable X es xn+1, entonces la predicción que haríamos para la variable Y
de ese elemento sería [yn+1], el valor ajustado para xn+1 por la recta de regresión.
Ejemplo 2.19. Con los 14 datos de las concentraciones en orina (X) y en
sangre (Y) del ejemplo 2.17, habíamos obtenido la recta de regresión [Y] =
82
13,438 + 2,654*X. Si un nuevo varón presenta 12 ng/ml del metabolito de la

sustancia en orina (variable X), esperaríamos 13,438 + 2,654*12 = 45,286
ng/ml de esa sustancia en sangre (variable Y).
Modelo general de regresión
Aunque no es uno de los objetivos de este curso, vamos a dar una idea general
sobre en qué consiste el modelo general de regresión.
En el ejemplo 2.17, era razonable tratar de buscar una recta que se ajustase bien
a los datos. Sin embargo, en otras situaciones, es más razonable tratar de ajustar otro
modelo matemático a los datos, pues éstos tienen un comportamiento parabólico,
exponencial o logarítmico, por ejemplo.
En el siguiente diagrama de dispersión se muestra un ejemplo de una relación que

no es lineal. La relación es más de tipo parabólico o exponencial. No tendría sentido en
el ejemplo calcular la recta de regresión, y sí tendría más sentido tratar de ajustar una
parábola a los datos (Y = a + b*X + c*X2) o una función de tipo exponencial (Y = a + eb*X).
200
Virus
150
100
0 10 20 30 40 50
Tiempo
En el modelo general de regresión, dada una familia de funciones f(X) (por

ejemplo, las parábolas), se trata de buscar la función f*(X) de esa familia que mejor se
ajuste a los datos. Esta función f*(X) será la que minimice el error cuadrático medio,
donde los residuos se definen ahora como las ‘distancias verticales’ de los puntos (xi,yi)
a la función f(X), es decir, ei = yi – f(xi). En el caso de la familia de las parábolas, se
trataría de buscar las constantes a*, b* y c* de forma que la parábola Y = a* + b**X +
c**X2 sea la que minimice el error cuadrático medio, donde los residuos serían ei = yi –
(a + b*xi + c*xi2).
83
2.5. Ejercicios
2.1. La variable estadística X (discreta) mide el nivel de toxicidad en sangre de una

cobaya sometida a uno (y solo uno) de entre tres tratamientos; la variable Y es el
tratamiento aplicado. En total se han utilizado 170 cobayas. Los resultados
obtenidos se resumen en la siguiente tabla de contingencia:
tratamiento 1 tratamiento 2 tratamiento 3

Nivel 1 15 10 5 30
Nivel 2 15 A 10 35
Nivel 3 10 20 15 45
Nivel 4 5 B 15 35
Nivel 5 5 15 5 25
50 C 50 170
(a) Calcula cuánto valen A, B y C.

(b) Calcula cuánto vale la mediana de la distribución marginal de X y la moda de la
distribución marginal de Y.
(c) Calcula las (tres) medias de X condicionada a que Y sea el tratamiento 1, el 2 o
el 3 (asume que la variable nivel es discreta que toma valores de 1 a 5).
2.2. La variable estadística X es la puntuación obtenida en un ‘test’ de reflejos por los

participantes en un estudio clínico; la variable Y es el código del hospital en el que
se ha realizado la prueba. En total han participado 170 personas en el estudio. Los
resultados obtenidos se resumen en la siguiente tabla de contingencia:
Hospital 1 Hospital 2 Hospital 3

1 10 A 15 40
2 10 15 B 50
3 15 10 10 35
4 8 15 5 28
5 7 5 5 17
50 60 C 170
(a) Calcula cuánto valen A, B y C.

(b) Calcula cuánto valen la mediana de la distribución marginal de X y las (tres)
medianas de la distribución de X condicionada a que Y sea el Hospital 1, el 2 o
el 3. ¿Tienen que coincidir necesariamente estas medianas?
(c) Calcula la mediana de la distribución marginal de Y. ¿Qué interpretación le
darías?
84
2.3. Nos proporcionan la siguiente tabla de doble entrada con la distribución (conjunta)
de la variable (A,T), donde A es la altura en cm. y T la talla de zapatos de una
muestra de 41 personas.
Talla de zapatos
Altura en cm 37 38 39 40 Total
156 1 0 0 0 1
158 1 0 0 0 1
159 1 1 1 0 3
160 1 1 1 0 3
161 1 3 0 0 4
162 0 1 0 0 1
163 1 0 0 0 1
164 1 0 1 0 2
165 0 2 0 1 3
166 0 1 1 1 3
167 2 2 0 0 4
168 1 0 1 1 3
169 0 0 1 0 1
170 0 0 1 0 1
171 0 0 1 0 1
172 0 0 0 1 1
173 0 0 0 2 2
174 0 0 0 1 1
175 0 1 1 1 3
178 0 0 0 2 2
Total 10 12 9 10 41
(a) Calcula las (cuatro) medianas de A condicionada a los cuatro posibles valores
de T.
(b) Calcula las (cuatro) medias de A condicionada a los cuatro posibles valores de
T.
(c) Calcula la media y la mediana de la variable A, y la moda y la mediana de la
variable T.
(d) En el fichero Excel ‘Ejercicios Tema 2’, pestaña 2.3 R tienes las dos variables
Altura y Talla. Utiliza R para obtener, a partir de estas dos variables, la tabla
de contingencia de Altura y Talla. Comprueba que coincide con la tabla anterior
y con la tabla en la pestaña 2.3 TC de ese fichero.
2.4. Los datos de la longitud del palmo de la mano derecha, PD, y de la mano izquierda,
PI, (en mm) en una muestra de 40 personas se presentan en la siguiente tabla.
También se han calculado los valores del producto PD*PI para todos los casos y las
medias y desviaciones típicas de las tres variables.
85
PD PI PD*PI
170 170 28900
170 170 28900
190 190 36100
190 200 38000
190 195 37050
195 190 37050
165 170 28050
180 178 32040
160 165 26400
200 200 40000
190 195 37050
190 190 36100
200 206 41200
200 205 41000
200 210 42000
210 210 44100
220 215 47300
200 200 40000
210 205 43050
170 165 28050
173 170 29410
170 175 29750
180 185 33300
170 175 29750
160 170 27200
200 200 40000
200 200 40000
165 170 28050
250 223 55750
150 140 21000
192 195 37440
190 190 36100
210 210 44100
200 195 39000
185 188 34780
200 200 40000
160 165 26400
193 192 37056
180 180 32400
165 175 28875
187,325 188,175 35567,525 < Media
19,703 17,478 6916,510 < Desv tip
(a) Calcula Cov(PD, PI). ¿En qué unidades se expresa esta covarianza?
(b) Para transformar estas medidas a metros, tenemos que dividir por 1000. Si X
= PD/1000 e Y = PI/1000 ¿Cuánto vale Cov(X, Y)? ¿En qué unidades se expresa?
Puedes usar, si lo necesitas, el resultado del ejercicio 2.5 y el apartado (a) de
86
este ejercicio. Indica razonadamente si crees que existe relación estadística

lineal entre X e Y.
(c) Calcula los coeficientes de correlación r(PD, PI) y r(X, Y).
(d) Calcula los coeficientes de la recta de regresión de PI sobre PD. Indica qué
porcentaje de variabilidad explica esta recta de regresión. Obtén lo mismo
para la recta de regresión de PD sobre PI.
(e) Calcula también las rectas de regresión de Y sobre X y de X sobre Y. Nota que
las puedes obtener a partir de (d) sin necesidad de hacer nuevos cálculos.
(f) Comprueba tus resultados resolviendo los apartados anteriores a partir de los
datos originales y utilizando un software estadístico.
(Los datos están también en la pestaña 2.4 del fichero Excel ‘Ejercicios Tema
2’, en moodle).
2.5. (OPCIONAL) Comprueba que si a, b, c y d son números reales, y X e Y son variables

estadísticas, las nuevas variables Z = a + b*X y W = c + d*Y verifican
Cov(Z, W) = b*d*Cov(X, Y)
2.6. (OPCIONAL) La recta de regresión de Y sobre X es [Y] = a + b*X, donde los

coeficientes de la recta son a = M(Y) – b*M(X) y b = Cov(X,Y)/S2(X). Comprueba
que también se puede escribir de las siguientes formas:
[Y] = M(Y) – Cov(X,Y) *M(X)/S2(X) + (Cov(X,Y)/S2(X))*X
[Y] – M(Y) = b*(X-M(X))
([Y] – M(Y))/S(Y) = r*(X-M(X))/S(X)
2.7. Se han obtenido n = 21 datos de la variable estadística bidimensional (X,Y) y, a

partir de ellos, se han calculado los siguientes estadísticos:
X Y X*Y
Media 2 3 16
Desviación típica 5 4
(a) Calcula los coeficientes a y b de la recta de regresión de Y sobre X.

(b) ¿Cuál sería el valor ajustado correspondiente a X = 3? ¿Cuál sería el residuo
del punto (3,5)?
2.8. Medida de pliegues cutáneos. Tenemos una muestra de tamaño n = 205 compuesta
por varones de 13 años. La variable B es la medida del pliegue del bíceps y la
variable T es la medida del pliegue del tríceps.
87
(a) Calcula M(B), M(T), S(B) y S(T), redondeando a 1 decimal, sabiendo que
B T B*B T*T
1.922,60 3.728,20 23.329,30 82.275,18 < Suma
(b) Calcula la covarianza Cov(B,T) y el coeficiente de correlación r(B,T),

redondeando los resultados a tres decimales, sabiendo que
B T B*T
9,379 18,186 208,471 < Media
5,096 8,423 198,640 < Desv Tip
(c) Calcula los coeficientes de la recta de regresión y el coeficiente de

determinación, tanto de T sobre B, como de B sobre T.
(d) Comprueba estas cuentas utilizando un software estadístico a partir de los
datos originales. (Véase la pestaña 2.8 del fichero Excel ‘Ejercicios Tema 2’,
en moodle).
2.9. Se ha realizado un estudio para establecer una ecuación que relacione la

concentración de estroma en saliva (X) con la concentración de estroma en plasma
libre (Y). Se obtuvieron los siguientes datos de 14 varones sanos:
X Y
7,4 30
7,5 25
8,5 31,5
9 27,5
9 39,5
11 38
13 43
14 49
14,5 55
16 48,5
17 51
18 64,5
20 63
23 68
A partir de estos datos podemos calcular los estadísticos (medias, varianzas y

covarianzas) que necesitamos para calcular los coeficientes a y b de la recta de
regresión de Y sobre X. En particular, a y b se pueden calcular directamente si
conocemos las medias de X e Y, y de la variable auxiliar X*Y, y las desviaciones
típicas de X e Y.
88
X Y X*Y
Media 13,4214 45,250 669,1964
Desviación típica 4,9429 14,1241
(a) Calcula a y b (con tres decimales) a partir de estos estadísticos y comprueba

si coinciden (o no) con
a b
8,645 2,727
(b) ¿Qué porcentaje de la variabilidad de Y explica la recta de regresión?

(c) Calcula los coeficientes de la recta de regresión de X sobre Y, y su coeficiente
de determinación.
(d) Comprueba estas cuentas utilizando un software estadístico, a partir de los
datos originales. (Véase la pestaña 2.9 del fichero Excel ‘Ejercicios Tema 2’,
en moodle).
2.10. (OPCIONAL) Comprueba a partir de sus definiciones que el cuadrado del

coeficiente de correlación lineal y el coeficiente de determinación de la recta de
regresión coinciden. Esto es, que R2(Y|X) = r(X,Y)2.
2.11. Las marcas obtenidas en la carrera de los 5000 metros, hombres, en los
campeonatos de Europa celebrados entre 1934 y 1990 son:
Año Marca Año*Año Marca*Marca Año*Marca

1934 876,8 3740356 768778,24 1695731,2
1938 866,8 3755844 751342,24 1679858,4
1946 848,6 3786916 720121,96 1651375,6
1950 843 3802500 710649 1643850
1954 836,6 3818116 699899,56 1634716,4
1958 833,4 3833764 694555,56 1631797,2
1962 840,6 3849444 706608,36 1649257,2
1966 822,8 3865156 676999,84 1617624,8
1969 824,8 3876961 680295,04 1624031,2
1971 812,6 3884841 660318,76 1601634,6
1974 797,2 3896676 635527,84 1573672,8
1978 808,5 3912484 653672,25 1599213
1982 808,9 3928324 654319,21 1603239,8
1986 790,15 3944196 624337,0225 1569237,9
1990 802 3960100 643204 1595980
1963,867 827,517 3857045,200 685375,259 1624748,007 <Media
(a) Calcula los coeficientes de la recta de regresión de Y (Marca) sobre X (Año

del campeonato).
(b) Calcula el coeficiente de determinación de esta recta e indica el porcentaje de
variabilidad explicada por esta recta de regresión.
89
(c) Los campeonatos de Europa se celebran cada 4 años. Calcula, utilizando la recta
de regresión, las marcas que se podrían predecir para los campeonatos de
1994, 1998. 2002 y 2006. Como esos campeonatos ya se han producido, puedes
comprobar si estas predicciones son correctas o no.
2.12. Se cree que es posible detectar la presencia de una sustancia en la sangre (Y) por
la presencia de un metabolito de esa sustancia en la orina (X). Se ha realizado un
estudio para establecer una ecuación que relacione X e Y, y se han obtenido los
siguientes datos, expresados en nanogramos por mililitro (ng/mL), con un
experimento realizado con una muestra de 14 varones sanos:
X Y
5 25,2
7,2 28
8 35
9 41
9,5 42
9,6 44
11 35,8
13 47
14 55
15 53
17 59
18 58,5
20 64,5
23 76
(a) Calcula la covarianza y el coeficiente de correlación lineal de (X,Y).

(b) Calcula los coeficientes de la recta de regresión de Y sobre X.
(c) Indica qué porcentaje de la variabilidad de Y explica la recta de regresión.
(d) ¿Qué porcentaje de la variabilidad de X explicaría la recta de regresión de X
sobre Y?
2.13. (OPCIONAL) Demuestra que el coeficiente de correlación lineal r toma siempre

valores en el intervalo [-1, 1].
2.14. Nos han proporcionado el siguiente conjunto de datos:
X Y
-1 1
-0,9 0,81
-0,8 0,64
-0,7 0,49
-0,6 0,36
90
-0,5 0,25
-0,4 0,16
-0,3 0,09
-0,2 0,04
-0,1 0,01
0 0
0,1 0,01
0,2 0,04
0,3 0,09
0,4 0,16
0,5 0,25
0,6 0,36
0,7 0,49
0,8 0,64
0,9 0,81
1 1
(a) Comprueba que la covarianza entre X e Y es 0.

(b) Calcula el coeficiente de correlación lineal. ¿Puede asegurarse que estas dos
variables son estadísticamente independientes?
2.15. Disponemos de los siguientes cuatro conjuntos de datos, etiquetados (X1,Y1),

(X2,Y2), (X3,Y3), y (X4,Y4). Este es el bien conocido ‘cuarteto de Anscombe’. Los
datos están en la pestaña 2.15 del fichero Excel ‘Ejercicios Tema 2’.
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,1 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
(a) Obtén las medias y desviaciones típicas de las cuatro variables X y de las
cuatro variables Y. (Redondea a 2 decimales).
(b) Obtén el coeficiente de determinación y los coeficientes de la recta de
regresión para los cuatro pares (Xi,Yi). (Redondea a 2 decimales).
(c) ¿Crees, a la vista de esos valores, que las rectas de regresión explican igual de
bien los cuatro conjuntos de datos?
91
(d) Obtén el gráfico de dispersión de los cuatro conjuntos de datos usando algún
software estadístico. ¿Crees, a la vista de los gráficos, que las rectas de
regresión explican igual de bien los cuatro conjuntos de datos?
2.16. (OPCIONAL) Si llamamos E a la variable formada por los residuos de la recta de

regresión de Y sobre X, comprueba:
(a) M(E)=0
(b) Cov(E,X)=0
(c) La recta de regresión de E sobre X es [E]=0.
2.17. En un estudio sociológico, una de las preguntas realizadas fue la siguiente: ¿está
usted satisfecho con la comunidad de vecinos en la que vive? Los resultados
obtenidos entre 230 personas de lugares y situaciones diferentes fueron:
Lugar de Nivel de satisfacción

residencia Muy satis. Satisfecho Insatisfecho Muy insatis. Total
Rural 30 15 10 5
Suburbano A B 15 10 85
Urbano 10 C 20 40
Total 50 230
(a) Calcula cuánto valen A, B, C.

(b) Construye las distribuciones marginales.
(c) Expresa, en tanto por ciento, las distribuciones condicionadas de la variable
“Nivel de satisfacción” para cada una de las categorías de la variable “Lugar de
residencia”. (Recuerda que la suma de los porcentajes de cada distribución
condicionada debe ser 100).
(d) Calcula la moda de cada una de estas distribuciones condicionadas.
(e) Comprueba los resultados anteriores utilizando un software estadístico y
obtén un diagrama de barras agrupado para visualizar cómo se distribuye la
variable nivel de satisfacción para cada uno de los lugares de residencia. A la
vista de dicho diagrama, ¿se observa alguna diferencia de comportamiento de
la variable “Nivel de satisfacción”, según el lugar de residencia?
2.18. Se quiere analizar si existe alguna relación entre la tensión sistólica y la edad en
personas del sexo femenino. Para ello, se seleccionaron aleatoriamente 36 mujeres
de una población homogénea y se midió su edad, en años, y su presión sistólica, en
mmHg. Los datos se encuentran en la pestaña 2.18 del archivo Excel ‘Ejercicios
Tema 2’. Con la siguiente tabla que recoge las medias y desviaciones típicas,
Edad Presión Edad*presión

Media 47,611 141,944 7049,083
Desviación típica 16,313 24,246
92
(a) Calcula la covarianza muestral y el coeficiente de correlación de Pearson para

estas dos variables. ¿Sería razonable hablar de una relación lineal entre las
dos variables?
(b) Calcula la recta de regresión de la presión sistólica frente a la edad. ¿Qué
porcentaje de variabilidad explica esta recta de regresión?
(c) ¿Qué previsión darías para la presión sistólica de una nueva mujer cuya edad
fuese de 35 años?
(d) Si nos dicen que el residuo asociado a una mujer con una presión sistólica de
135mmHg es de -7,357, ¿cuál es la edad de la mujer?
93
3. Cálculo de probabilidades
3.1. Introducción
La Probabilidad es una teoría matemática que proporciona modelos útiles para

describir situaciones sujetas a incertidumbre. Estos modelos permiten evaluar las
consecuencias de tomar una u otra decisión en las situaciones en las que no podemos
predecir exactamente el resultado de nuestras acciones.
Vamos a ilustrarlo con un juego de azar: pagamos un euro y, si acertamos en el

resultado del lanzamiento de una moneda, ganamos dos euros. Una persona con aversión
al riesgo posiblemente se negaría a jugar. No hay forma de saber a ciencia cierta qué
resultado se va a obtener en el lanzamiento de la moneda. Pero disponemos de una
percepción intuitiva, aunque quizá rudimentaria, de las probabilidades de las distintas
opciones en situaciones aleatorias sencillas. En este caso, si la moneda es legal, su
simetría y regularidad nos llevan a pensar que los dos resultados (cara y cruz) tienen
las mismas posibilidades de salir y, en general, este juego se podría considerar
equitativo. Si el premio por acertar fueran tres euros, muchas personas estarían
dispuestas a jugar.
No tenemos necesidad de apostar en los juegos de azar, pero en muchas

situaciones prácticas el profesional en ciencias de la salud está obligado a decidir, le
guste o no, entre opciones cuyo resultado no se puede garantizar de antemano:
¿conviene ponerse una vacuna o no?, ¿conviene recurrir a una operación o es mejor
someterse a un tratamiento alternativo? Está claro que disponer de una "teoría del
azar" fiable, rigurosa y sólida desde el punto de vista matemático puede ser muy útil a
la hora de tomar decisiones en situaciones con incertidumbre.
Las Ciencias de la Salud tienen una fuerte componente empírica: la práctica clínica
con pacientes y situaciones reales es la que determina si un protocolo o un tratamiento
son adecuados o no. Nos interesa que lo que hemos probado y aprendido con un grupo
concreto de personas se pueda utilizar para nuevos pacientes. Nos interesa saber en
qué condiciones y con qué restricciones podemos pasar de observaciones particulares
para un grupo concreto a una regla general, aplicable a toda una población. Esto es, en
qué condiciones y con qué restricciones se puede hacer Inferencia Estadística (de la
94
que hablaremos en el tema 5). Pero para poder realizar inferencia, hay que aprender a
cuantificar la incertidumbre y a cuantificar los errores que se comenten aplicando a una
población los resultados observados para una muestra. El Cálculo de Probabilidades es
la herramienta que permite realizar esa cuantificación y proporciona una base sólida
sobre la que levantar el edificio de la Inferencia Estadística.
En este tema, veremos la definición de probabilidad y los conceptos básicos

asociados a ella, que nos permitirán en el capítulo siguiente definir las variables
aleatorias. También veremos el Teorema de Bayes y sus aplicaciones a las pruebas
diagnósticas.
3.2. Concepto intuitivo de probabilidad
Llamamos sucesos a los posibles resultados de un experimento o una observación.

La probabilidad de un suceso es una medida cuantitativa de la verosimilitud de
observarlo. Convencionalmente, la probabilidad se mide en un rango que va de 0 a 1,
siendo 0 la probabilidad de un suceso imposible y 1 la de un suceso seguro.
En un lanzamiento de moneda, podemos considerar los sucesos “obtener cara” y

“obtener cruz”. Si la moneda es legal, parece razonable suponer que la verosimilitud
(probabilidad) de esos dos sucesos es la misma. El suceso “obtener o cara o cruz” sería
un suceso seguro y le asignaríamos probabilidad 1. “No obtener ni cara ni cruz” sería un
suceso imposible y le asignaríamos probabilidad 0.
Para asignar probabilidades se podría utilizar un razonamiento de simetría. Si

todos los resultados tienen las mismas posibilidades de ocurrir, la probabilidad de un
suceso sería el número de casos favorables partido por el número de casos posibles.
Esta es la regla de Laplace. En un lanzamiento de moneda legal, la probabilidad de cara
sería 1/2. En el lanzamiento de un dado legal, la probabilidad de obtener un número par
sería 3/6.
En muchas situaciones de interés no es posible describir todos los resultados de

un experimento de forma que sean igualmente verosímiles, pero sí que podemos repetir
el experimento muchas veces. Por ejemplo, si analizamos el efecto de un analgésico y en
100 pacientes, elegidos al azar de una población, se obtiene mejoría en 97, podríamos
utilizar la frecuencia observada 97/100 para asignar una probabilidad al suceso “mejoría
si toma el analgésico” para otra persona de esa misma población. Esta es una
aproximación frecuentista.
En algunas situaciones tampoco la experimentación es posible, pero aun así

podemos recurrir al juicio de un experto para evaluar la probabilidad de que ocurra un
95
resultado. En este caso la probabilidad es una medida subjetiva de la verosimilitud de

un suceso.
Estos tres métodos de asignar probabilidades son habituales y nos serán útiles en
las aplicaciones. Pero para que estos métodos (y en general, cualquier procedimiento de
asignar probabilidades) proporcionen verdaderas medidas de la verosimilitud de
observar los sucesos, han de satisfacer una serie de reglas intuitivamente "razonables"
y que permitan obtener resultados consistentes. Esto se consigue con una definición
cuidadosa de "suceso" y una definición axiomática de "probabilidad", que pasamos a
explicar a continuación.
3.3. Experimentos y sucesos
Las probabilidades se asignan a sucesos. Por tanto, lo primero que hay que hacer
es formalizar el concepto de suceso y las propiedades que tienen los sucesos.
Llamamos espacio muestral al conjunto de todos los posibles resultados de un

experimento. Es costumbre denotar al espacio muestral con la letra griega . Los
resultados del experimento son los elementos del espacio muestral. Llamamos suceso a
cualquier conjunto A de resultados de ese experimento. Si el elemento x es uno de los
resultados que componen A decimos que x pertenece a A y lo denotamos con x ∈ A. Si
A está formado por un sólo elemento, a, lo llamamos suceso elemental. Lo denotamos
A = {a}. Llamamos conjunto vacío al conjunto que no contiene ningún elemento y lo
denotamos por . En particular, el conjunto vacío  y el espacio muestral  también
son sucesos. Si todos los elementos del suceso A pertenecen también al suceso B
decimos que A está contenido en B, lo denotamos A  B y decimos que A es un
subconjunto de B. Se suele denotar con F al espacio de sucesos.
Hay tres operaciones básicas que se pueden realizar sobre los sucesos, que son la
unión, la intersección y el complementario. La unión entre dos sucesos A y B, denotada
por A ∪ B, es el suceso formado por la reunión de los elementos que pertenecen a
cualquiera de los sucesos A y B. La intersección entre dos sucesos A y B, que se denota
por A ∩ B, es el suceso formado por todos los elementos que son comunes a A y B. El
suceso complementario de un suceso A, que se denota por Ac, es el suceso formado por
los elementos del espacio muestral que no están en A.
No es difícil demostrar (o comprobar, usando diagramas de Venn) las siguientes

propiedades, en las que A y B son sucesos cualesquiera:
• Contenido
• A
96
• Unión de sucesos (conjuntos)
• A∪A=A
• A∪=A
• A∪=
• Si A  B, entonces A ∪ B = B
• La unión es conmutativa [A ∪ B = B ∪ A]
• La unión es asociativa [A ∪ (B ∪ C) = (A ∪ B) ∪ C]
• Intersección de sucesos (conjuntos)
• A∩A=A
• A∩=
• A∩=A
• Si A  B, entonces A ∩ B = A
• La intersección es conmutativa [A ∩ B = B ∩ A]
• La intersección es asociativa [A ∩ (B ∩ C) = (A ∩ B) ∩ C]
Decimos que A y B son sucesos disjuntos si A ∩ B = 
• Propiedad distributiva
• A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
• A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
• Suceso complementario Ac
• (Ac) c = A
• c = , c = 
• A ∪ Ac = , A ∩ Ac = 
Ejemplo 3.1. Lanzamiento de un dado. El espacio muestral está formado por

los 6 resultados posibles
 = {1, 2, 3, 4, 5, 6}
97
Un suceso elemental puede ser "obtener un 3" (A = {3}). Otro suceso sería
"obtener un número par" (B = {2, 4, 6}), que es la unión de tres sucesos
elementales. La unión de A y B, A ∪ B, es el suceso {2, 3, 4, 6} y la intersección
de A y B, A ∩ B, es el conjunto (o suceso) vacío . El complementario de B es
Bc = {1, 3, 5}.
Ejemplo 3.2. Grupo sanguíneo. El espacio muestral está formado por los 8
resultados posibles (si consideramos Tipo y Rh)
 = {0+, A+, B+, AB+, 0-, A-, B-, AB-}
El conjunto {A+} es un suceso elemental. Por abuso de notación se usa a veces

A+ en lugar de {A+}. El suceso "Tipo A" es {A+, A-} y el suceso "Rh +" es {0+,
A+, B+, AB+}
3.4. Definición de probabilidad
Una vez formalizado el concepto de suceso, el siguiente paso es dar una medida de
lo verosímil (o inverosímil) que sería observar un suceso en la realización de un
experimento. Dado un suceso, a esta medida se la conoce con el nombre de probabilidad
del suceso, que es un número entre 0 y 1.
Nota: esta elección es convencional. Se podría elegir un rango entre 0 y 100 y hablar de
porcentaje de verosimilitud. Una verosimilitud del 100% indicaría que el suceso es seguro.
No se pueden asignar probabilidades a sucesos de cualquier forma si se quiere

garantizar que los resultados obtenidos con el manejo de esas probabilidades sean
matemáticamente consistentes. La definición rigurosa de probabilidad es una definición
axiomática, que en particular permite modelar experimentos con un número infinito de
resultados.
Los axiomas son un conjunto pequeño de propiedades a partir de las cuales se

pueden demostrar todas las demás. Para que la definición sea útil tanto los axiomas
como las propiedades que se deducen de los axiomas deben concordar con nuestra
intuición.
Nota: la elaboración de una teoría matemática rigurosa de la probabilidad se asocia a la obra

del matemático ruso Andrei N. Kolmogorov (1903-1987) que, en una monografía publicada en
1933, propone una definición axiomática (la Probabilidad es una función verificando tres
propiedades: Axiomas de Kolmogorov) y desarrolla la teoría a partir de esos axiomas.
Llamaremos probabilidad a una función P que asigna un número a cada suceso A de

F. La función P verifica los siguientes tres axiomas:
98
A1. P(A) ≥ 0, para cualquier suceso A.

A2. P() = 1.
A3. Dada una sucesión de sucesos, disjuntos dos a dos, la probabilidad de su
unión es la suma de las probabilidades de cada uno de los sucesos.
Formalmente, A3 se puede escribir así: dados {𝐴 } = sucesos disjuntos dos a dos,

(es decir Ai ∩ Aj = , ij), se cumple
∞
𝑃 𝐴 = 𝑃 (𝐴 )
=
=
Estos tres axiomas son naturales y concuerdan con nuestra intuición de las
propiedades que debe verificar cualquier probabilidad bien construida. Hay otras
propiedades que también son intuitivamente naturales, pero que se puede demostrar a
partir de los axiomas. En particular, utilizaremos con frecuencia las siguientes:
P1. P() = 0.
P2. La propiedad A3 también vale para sucesiones finitas y, en particular, si A
y B son disjuntos se verifica que P(A ∪ B) = P(A) + P(B).
P3. P(Ac) = 1 - P(A).
P4. Si A  B, entonces P(A) ≤ P(B).
P5. P(A) ≤ 1, para todo suceso A. Por lo tanto, 0 ≤ P(A) ≤ 1.
P6. P(A ∪ B) = P(A) + P(B) – P(A ∩ B).
La propiedad P6 se conoce como principio de inclusión-exclusión y se puede

generalizar a la unión de más de dos sucesos. Para tres sucesos la fórmula es:
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩ C)
Observa la alternancia de signos.
3.5. Probabilidad condicionada e independencia de sucesos
En muchas situaciones prácticas, hay que calcular la probabilidad de algún suceso,

teniendo información adicional sobre la ocurrencia de otro suceso. Aparece entonces
de forma natural la noción de probabilidad condicionada. Llamamos probabilidad de A
condicionada a B a la probabilidad de que ocurra A si ya sabemos que ha ocurrido B.
Lo definimos con la siguiente fórmula, asumiendo que P(B) > 0 para evitar casos triviales:
P(A|B) = P(A ∩ B)/P(B)
99
Para entender que esa definición es razonable, podemos considerar que, al asumir
que B ha ocurrido, B es el nuevo espacio muestral, y de A sólo interesa la parte que está
en B, esto es, A ∩ B.
Ejemplo 3.3. Lanzamiento de un dado legal. Asumimos que cada cara se

obtiene con probabilidad 1/6. Llamamos A al suceso "obtener 6". Se tiene que
P(A) = 1/6. Llamamos B al suceso "obtener par". Se tiene que P(B) = 1/2.
Como A ∩ B = A (la intersección entre salir 6 y salir par es salir 6), aplicando
la definición se tiene que:
P(A|B) = P(A ∩ B)/P(B) = (1/6)/(1/2) = 1/3.
Este resultado coincide con nuestra intuición. Si sabemos que ha salido par,
el espacio muestral efectivo es {2,4,6} y en ese espacio, la probabilidad de 6
es 1/3.
Fijado un suceso B cualquiera, con P(B) > 0, la función P(.|B), que a cada suceso A
le asocia la probabilidad P(A|B), verifica los axiomas A1, A2 y A3. Por tanto, fijado B,
la probabilidad condicionada es una probabilidad bien definida y se le pueden aplicar
todas las propiedades de probabilidad.
Ejemplo 3.4. Sea B el suceso “obtener un número par” al lanzar un dado. La

función de probabilidad condicionada P(.|B) asignaría las siguientes
probabilidades a los sucesos elementales {1}, {2}, {3}, {4}, {5}, {6} asociados al
lanzamiento de un dado: P(2|B) = P(4|B) = P(6|B) = 1/3 y P(1|B) = P(3|B) =
P(5|B) = 0.
Análogamente, la probabilidad de B condicionada a A, si P(A) > 0, es
P(B|A) = P(A ∩ B)/P(A)
La probabilidad de la intersección se puede expresar en función de las

probabilidades condicionadas, despejando P(A ∩ B) en las fórmulas anteriores
P(A ∩ B) = P(B|A)*P(A)
P(A ∩ B) = P(A|B)*P(B)
En muchos casos prácticos es más fácil asignar valores a una probabilidad

condicionada que a una intersección. Por lo tanto, estas fórmulas van a ser útiles para
la resolución de problemas.
100
Ejemplo 3.5. Nos proponen el siguiente juego. Disponemos de un dado legal y

dos urnas. La urna 1 contiene 3 bolas blancas y 1 bola negra, y la urna 2, 1 bola
blanca y 3 negras. Lanzamos el dado. Si obtenemos 6, extraemos una bola de
la urna 2; en otro caso, extraemos una bola de la urna 1.
Llamando A al suceso "sacar un 6" y B al suceso "sacar bola blanca", ¿cuál

sería la probabilidad de obtener a la vez un 6 y una bola blanca?
Es inmediato que P(A) = 1/6 y P(B|A) = 1/4. Aplicando la fórmula obtenemos
que P(A ∩ B) = (1/4)*(1/6) = 1/24.
El concepto de probabilidad condicionada está ligado al de independencia de

sucesos. Decimos que A y B son sucesos independientes si se verifica que
P(A ∩ B) = P(A)*P(B)
Vamos a comprobar que esta definición de independencia de sucesos coincide con

la idea intuitiva de que independencia entre A y B implica que la observación de un
suceso, B, no aporta ninguna información sobre la ocurrencia, o no, del suceso A. Esto
es, que P(A|B) = P(A).
En efecto, si se verifica que P(A|B) = P(A), se tiene que P(A ∩ B) = P(A|B)*P(B) =

P(A)*P(B). De forma recíproca, si se cumple la definición de sucesos independientes y
P(A ∩ B) = P(A)*P(B), se tiene que P(A|B) = P(A ∩ B)/P(B) = P(A)*P(B)/P(B) = P(A).
Nota: como A y B son intercambiables, la independencia entre A y B también equivale a que

P(B|A) = P(B).
3.6. Teorema de la probabilidad Total y Teorema de Bayes
En esta sección, vamos a ver dos teoremas básicos del cálculo de probabilidades,
como son el Teorema de la Probabilidad Total y el Teorema de Bayes. Estos teoremas
nos serán de utilidad en la próxima sección, cuando hablemos de pruebas diagnósticas
no perfectas.
Decimos que una colección de sucesos {A1, ..., An} forma un sistema exhaustivo y
excluyente si estos sucesos son disjuntos dos a dos (esto es, si Ai ∩ Aj = , i  j) y si
su unión es el espacio muestral (⋃ = Ai = ). También se dice que {A1, ..., An} es una
partición del espacio muestral .
Usando las propiedades de la unión e intersección de sucesos, un suceso cualquiera
B puede escribirse como
B = B ∩  = B ∩ (⋃ = Ai) = ⋃ = (B ∩ Ai)
101
Como los sucesos Ai son disjuntos dos a dos, entonces los sucesos B ∩ Ai también
son disjuntos dos a dos.
Aplicando el axioma A3 para la unión finita de los sucesos B ∩ Ai, tendremos:
P(B) = P( ⋃ = (B ∩ Ai) ) = ∑ = P(B ∩ Ai)
Utilizando que P(B ∩ Ai) = P(B|Ai)*P(Ai), obtenemos la forma habitual de lo que se

conoce como el Teorema de la Probabilidad Total (TPT):
P(B) = ∑ = P(B|Ai)*P(Ai)
Si se conocen los valores de las probabilidades condicionadas P(B|Ai), y de las

probabilidades P(Ai) para todo i, el Teorema de la Probabilidad Total permite calcular
P(B). Las probabilidades P(Ai) se suelen llamar probabilidades a priori de los sucesos Ai.
Ejemplo 3.6. Seguimos con el juego del ejemplo 3.5. Disponemos de un dado
legal y dos urnas. La urna 1 contiene 3 bolas blancas y 1 bola negra; la urna 2,
1 bola blanca y 3 negras. Lanzamos el dado. Si obtenemos 6 (suceso A)
extraemos una bola de la urna 2; en otro caso (suceso Ac), extraemos una bola
de la urna 1. ¿Cuál es la probabilidad del suceso B = "obtener bola blanca"?
En este ejemplo, la familia de sucesos exhaustiva y excluyente es “sacar un

6” y “no sacar un 6”, que equivale a la familia de sucesos exhaustiva y
excluyente “elegir la urna 2” y “elegir la urna 1”. Por tanto, las probabilidades
a priori de elegir la urna 2 y elegir la urna 1 son 1/6 y 5/6, respectivamente.
Aplicando el Teorema de la Probabilidad Total,
P(B) = P(B|A)*P(A) + P(B|Ac)*P(Ac) = (1/4)*(1/6) + (3/4)*(5/6) = 2/3
Sabiendo que se ha observado un suceso B, el Teorema de Bayes (TB) proporciona

una fórmula para calcular las probabilidades condicionadas P(Aj|B), para cualquier
suceso Aj de la partición del espacio muestral. Para obtener dicha probabilidad, usamos
la definición de probabilidad condicionada:
𝑃 (𝐴 ∩ 𝐵) 𝑃 𝐵 𝐴 𝑃 (𝐴 )
𝑃 𝐴 𝐵 = =
𝑃 (𝐵) 𝑃 (𝐵)
Sustituyendo P(B) en el denominador según la fórmula del Teorema de la

Probabilidad Total, se obtiene la fórmula habitual del Teorema de Bayes:
𝑃 𝐵 𝐴 𝑃 (𝐴 )
𝑃 𝐴 𝐵 =
∑ = 𝑃 (𝐵|𝐴 ) 𝑃 (𝐴 )
102
A estas probabilidades P(Aj|B) se las llama probabilidades a posteriori, porque son

las probabilidades de los sucesos Aj una vez que sabemos que se ha observado el suceso
B.
Ejemplo 3.7. Seguimos con el juego del ejemplo 3.5. Extraemos la bola de la
urna 2 (1 bola blanca y 3 negras) si obtenemos un 6 en el lanzamiento del dado
(suceso A); en otro caso (suceso Ac) utilizamos la urna 1 (3 bolas blancas y 1
negra). ¿Cuánto vale la probabilidad de que hayamos sacado un 6, si sabemos
que la bola extraída es blanca (suceso B)?
P(A|B) = P(B|A)*P(A)/P(B) = (1/4)*(1/6)/(2/3) = 1/16
¿Y la probabilidad de haber obtenido un 6, si la bola extraída es negra (suceso

Bc)?
P(A|Bc) = P(Bc|A)*P(A)/P(Bc) = (3/4)*(1/6)/(1/3) = 3/8
3.7. Pruebas diagnósticas
Las pruebas diagnósticas tienen como objetivo determinar si una persona está
enferma o sana. Lo ideal sería que las pruebas diagnósticas fueran perfectas. Esto es,
que todas las personas que dieran positivo en la prueba estuvieran enfermas, y las que
dieran negativo, sanas.
Pero la mayoría de las pruebas disponibles no son perfectas. En esas situaciones,

hay que cuantificar los errores que se cometen clasificando una persona como sana en
base a que la prueba ha dado negativa, cuando en realidad está enferma, y también los
errores clasificando a una persona como enferma en base a que la prueba ha dado
positiva, cuando en realidad está sana.
Cuando se usa una prueba diagnóstica T, la partición del espacio muestral que se
realiza es considerar los sucesos complementarios y disjuntos E = "tiene la enfermedad"
y Ec = "está sano". Además, los sucesos T+="la prueba da positivo" y T-="la prueba da
negativo" también son disjuntos y complementarios, y proporcionan otra partición del
espacio muestral.
Si una persona está enferma, la prueba T puede dar positivo o negativo y tenemos
dos situaciones. La probabilidad condicionada P(T+|E) es la probabilidad de verdaderos
positivos (o tasa de verdaderos positivos en esa población) y también se conoce como
sensibilidad de la prueba diagnóstica. La probabilidad o tasa de falsos negativos es P(T-
103
|E). Siempre se asume que la prueba da o bien positivo (T+) o bien negativo (T-), y por
lo tanto P(T+|E) + P(T-|E) = 1.
Si condicionamos al suceso Ec = "está sano", tenemos la probabilidad o tasa de

verdaderos negativos, P(T-|Ec), que se conoce como especificidad de la prueba
diagnóstica. La probabilidad de su complementario, P(T+|Ec), es la probabilidad o tasa
de falsos positivos. También en este caso, P(T-|Ec) + P(T+|Ec) = 1.
Estas cuatro probabilidades son específicas de la prueba diagnóstica, pero no

tienen en cuenta la prevalencia de la enfermedad en las distintas poblaciones en la que
se puede aplicar la prueba. Para calcular la probabilidad de que la prueba de positivo
para una persona elegida al azar en una población necesitaremos conocer además la
prevalencia de la enfermedad en esa población.
Si P(E) es la prevalencia de una enfermedad en una población, esto es, la

probabilidad de que una persona, elegida al azar en esa población, esté enferma,
podemos calcular, utilizando el Teorema de la Probabilidad Total, las probabilidades de
que la prueba de positivo, P(T+) o negativo P(T-) para esa persona elegida al azar.
Pero lo que más nos interesa es evaluar la probabilidad de que esta persona esté
realmente enferma si la prueba ha dado positivo. El Teorema de Bayes es el que
proporciona la fórmula para calcular esa probabilidad:
𝑃 (𝑇+|𝐸)𝑃 (𝐸)
𝑃 (𝐸|𝑇+) =
𝑃 (𝑇+|𝐸)𝑃 (𝐸) + 𝑃 (𝑇+|𝐸 )𝑃 (𝐸 )
Nota: a P(E|T+) también se le conoce con el nombre de Valor Predictivo Positivo (VP+) de la
prueba en esa población.
La probabilidad de que esté sano cuando la prueba ha dado positivo se puede

calcular como el complemento a 1 del resultado anterior:
P(Ec|T+) = 1 - P(E|T+)
El Teorema de Bayes también proporciona una fórmula para calcular la probabilidad

de que la persona esté enferma cuando la prueba ha dado negativo:
𝑃 (𝑇-|𝐸)𝑃 (𝐸)
𝑃 (𝐸|𝑇-) =
𝑃 (𝑇-|𝐸)𝑃 (𝐸) + 𝑃 (𝑇-|𝐸 )𝑃 (𝐸 )
La probabilidad de que esté sano cuando la prueba da negativo se puede calcular
como el complemento a 1 del resultado anterior:
P(Ec|T-) = 1 - P(E|T-)
104
Nota: P(E c|T-) es el Valor Predictivo Negativo (VP-) de la prueba en esa población.
Ejemplo 3.8. Una prueba diagnóstica detecta una enfermedad, cuando el

paciente está realmente enfermo, un 95% de las veces (esto es, su
sensibilidad es del 95%). La prueba proporciona "falsos positivos" un 1% de
las veces (esto es, su especificidad es del 99%).
El paciente se ha elegido, al azar, de un grupo (población) en el que la

probabilidad de tener esa enfermedad es de 5 entre mil (0,005, esto es, un
0,5 %) y no disponemos de información adicional sobre su estado de salud. Si
le aplicamos la prueba y da positiva, ¿cuál es la probabilidad de que,
efectivamente, esté enfermo?
Los datos del problema nos dicen P(T+|E) = 0,95, P(T+|Ec) = 0,01 y P(E) =
0,005. Por tanto, P(T-|E) = 1 - P(T+|E) = 0,05, P(T-|Ec) = 1 - P(T+|Ec) = 0,99 y
P(Ec) = 1 - P(E) = 0,995.
Como nos piden P(E|T+), aplicando el teorema de Bayes:
P(E|T+) = [0,95*0,005]/[0,95*0,005 + 0,01*0,995] =

= 0,00475/0,0147 = 0,323
La probabilidad de que esté sano cuando la prueba ha dado positivo es en este

caso P(Ec|T+) = 1 – 0,323 = 0,677.
A la vista de las dos probabilidades calculadas, si decidimos clasificar siempre

a una persona como enferma cada vez que la prueba sale positiva, nos
estaremos equivocando aproximadamente las dos terceras partes de las
veces.
Por otra parte, la probabilidad de que esté enfermo, aunque la prueba haya
dado negativo es, aplicando otra vez el teorema de Bayes:
P(E|T-) = (0,05*0,005)/[0,05*0,005 + 0,99*0,995] = 0,0003
La probabilidad de que esté sano cuando la prueba ha dado negativo es, por
tanto, P(Ec|T-) = 1 – 0,0003 = 0,9997.
En este caso, si decidimos clasificar a una persona como sana cada vez que la
prueba sale negativa, estaremos acertando prácticamente siempre, pues en
sólo 3 de cada 10000 personas nos equivocaremos, aproximadamente.
105
En conclusión, la prueba anterior es buena para clasificar como sano cuando

sale negativo (no nos equivocaremos casi nunca), pero es mala para clasificar
como enfermo cuando sale positivo (nos equivocaremos las dos terceras
partes de las veces).
En los prospectos de las pruebas diagnósticas se suele indicar, además de su

sensibilidad y su especificidad, su precisión (accuracy, en inglés). La precisión de una
prueba diagnóstica se define como la probabilidad de que proporcione un resultado
correcto. El resultado es correcto en dos situaciones distintas. Primero, cuando el
paciente está enfermo y la prueba es positiva, esto es, si se observa el suceso E ∩ T+.
Segundo, si el paciente está sano y la prueba es negativa, esto es, si se observa el suceso
Ec ∩ T-.
El suceso C = “obtener un resultado correcto para la persona examinada” es la unión

de esos dos sucesos disjuntos, C = (E ∩ T+) ∪ (Ec ∩ T-), y su probabilidad P(C) es la suma
de las probabilidades P(E ∩ T+) + P(Ec ∩ T-). Pero, como ya hemos visto, estas
probabilidades se pueden expresar como P(E ∩ T+) = P(T+|E)*P(E), esto es, la
sensibilidad de la prueba por la probabilidad de que la persona esté enferma, y como
P(Ec ∩ T-) = P(T-|Ec)*P(Ec), esto es, la especificidad de la prueba por la probabilidad de
que la persona esté sana.
Por tanto, como P(Ec) = 1 – P(E), la precisión de una prueba diagnóstica se puede
calcular con la fórmula:
P(C) = P(T+|E)*P(E)+ P(T-|Ec)*(1- P(E))
Ejemplo 3.9. En el ejemplo 3.8, la sensibilidad de la prueba diagnóstica

utilizada era P(T+|E) = 0,95, y su especificidad era P(T-|Ec) = 0,99. Además,
la prevalencia de la enfermedad era P(E) = 0,005. Con estos datos, la precisión
de la prueba es:
P(T+|E)*P(E)+ P(T-|Ec)*(1- P(E)) = 0,95*0,005+0,99*0,995 = 0,9898
En consecuencia, si utilizamos esta prueba diagnóstica en esa población con

esa prevalencia, realizaremos un pronóstico correcto un 98,98% de las veces.
En diferentes situaciones prácticas, las especificaciones de una prueba

diagnóstica o la prevalencia de una enfermedad en una población pueden ser
desconocidas. En esos casos, si se dispone de los resultados de la prueba diagnóstica
para una muestra representativa de la población, se pueden estimar dichas magnitudes.
Aunque lo referente a la estimación de parámetros se verá en el Tema 5, vamos a
ilustrar con un ejemplo cómo utilizar la regla de Laplace (dividir los casos favorables
106
por los casos posibles) para calcular esas magnitudes asociadas a la prueba si
consideramos la muestra estudiada como nuestro espacio muestral.
Ejemplo 3.10. Al tomar a un grupo de 100 pacientes, se ha observado que 30

de ellos están enfermos y 70 sanos. También se ha observado que, de los 30
enfermos, 27 han dado positivo con una prueba diagnóstica y 3 han dado
negativo, y de los 70 sanos, 14 han dado positivo y 56 negativo. Calcula la
prevalencia de la enfermedad, así como la sensibilidad, la especificidad y la
precisión de esa prueba diagnóstica en esa muestra.
La prevalencia P(E) en este grupo se puede obtener con P(E) = 30/100 = 0,3.
(1) Si de los 30 enfermos, 27 han dado positivo y 3 negativo, la sensibilidad

en ese grupo es P(T+|E) = 27/30 = 0,9. Los falsos negativos serán el
complemento a 1, o equivalentemente, P(T-|E) = 3/30 = 0,1.
(2) Si de los 70 sanos, 14 han dado positivo y 56 negativo, la especificidad es

P(T-|Ec) = 56/70 = 0,8. Los falsos positivos serán P(T+|Ec) = 14/70 = 0,2.
(3) Por tanto, la precisión de la prueba diagnóstica es:
0,9*0,3 + 0,8*0,7 = 0,83
O, equivalentemente, el número de resultados correctos (27 + 56) dividido

por el total de pacientes, 100.
Utilizando estos valores, podemos calcular los valores predictivos positivo y

negativo de la prueba diagnóstica en esa muestra con las fórmulas habituales.
(1) El valor predictivo positivo, redondeando a tres decimales, es:
P(E|T+) = [0,9*0,3]/[0,9*0,3 + 0,2*0,7] = 0,659

(2) El valor predictivo negativo, redondeando a tres decimales, es:
P(Ec|T-) = [0,8*0,7]/[0,8*0,7 + 0,1*0,3] = 0,949
Nota: Estas probabilidades condicionales también se pueden calcular, con los datos que nos
proporcionan en este ejemplo, utilizando la regla de Laplace, dividiendo los casos favorables
por los casos posibles. De los 100 individuos de la muestra han dado positivo 27 enfermos y
14 sanos, y por tanto P(E|T+) =27/(27+14). Han dado negativo 3 enfermos y 56 sanos, y por
tanto P(Ec|T-) = 56/(3+56).
107
3.8. Ejercicios
3.1. Una enfermedad provoca dos síntomas distintos y fáciles de detectar. Se ha

establecido que la probabilidad de que estos enfermos presenten el primer síntoma
(S1) es 0,3, la probabilidad de que presenten el segundo (S2) es 0,2.
(a) Suponiendo que la probabilidad de observar alguno de los síntomas en un

enfermo es de 0,4, calcula la probabilidad de observar los dos síntomas en un
enfermo elegido al azar.
3.2. La proporción de individuos vacunados en una población se estima en el 80%. En una

epidemia, el 10% de la población contrae la enfermedad. Nos aseguran que la
probabilidad de que una persona esté vacunada y haya contraído la enfermedad es
0,02.
(a) Calcula la probabilidad de que una persona vacunada, elegida al azar, haya
contraído esa enfermedad.
(b) Calcula la probabilidad de que un enfermo, elegido al azar, haya sido vacunado.
3.3. Una enfermedad provoca dos síntomas distintos, S1 y S2. Se ha establecido que la
probabilidad de observar, en estos enfermos, el segundo síntoma (S2) es 0,2. La
probabilidad de que S2 aparezca en un enfermo, que ya sabemos que presenta S1,
es 0,5. La probabilidad de que S1 aparezca en un enfermo, que ya sabemos que
presenta S2, es 0,3.
(a) Calcula la probabilidad de observar S1 en un enfermo.

(b) Calcula la probabilidad de observar los dos síntomas en un enfermo.
(c) Calcula la probabilidad de observar alguno de los síntomas en un enfermo.
3.4. Nos proponen el siguiente juego. Disponemos de un dado legal y dos urnas, U1 y U2.
La urna U1 contiene 3 bolas blancas y 1 bola negra; la urna U2, 1 bola blanca y 3
negras. Lanzamos el dado. Si obtenemos 6, extraemos una bola de la urna U2; en
otro caso extraemos una bola de la urna U1.
(a) ¿Cuál es la probabilidad de que la bola extraída sea blanca?

(b) Si la bola extraída es blanca ¿Cuánto vale la probabilidad de que la urna elegida
sea la U2? ¿Cuánto vale la probabilidad de que sea la U1?
(c) ¿Cuánto valen estas probabilidades si la bola extraída es negra?
3.5. En la Escuela de Ciencias de la Salud, el 50% de los estudiantes están matriculados

en Enfermería, y de ellos, el 25% está en último curso; el 30% de los estudiantes
108
estudian Terapia Ocupacional y de ellos, el 20% está en último curso; el 20% de

los estudiantes estudian Fisioterapia y de ellos, el 30% está en último curso.
(a) ¿Cuál es la probabilidad de que un estudiante de la Escuela, elegido al azar,

esté en último curso?
(b) Si ese estudiante, elegido al azar, está en último curso, ¿cuál es la probabilidad
de que estudie Enfermería? ¿Y la probabilidad de que estudie Fisioterapia? ¿Y
la de que estudie Terapia Ocupacional?
3.6. Se estima que el 5% de la población de una ciudad son alcohólicos, pero en los
partes de baja nunca figura esta condición. Sin embargo, en los partes de baja
aparece algunas veces la esteatosis hepática. Nos dicen que la probabilidad de
tener esta dolencia es, entre la población de alcohólicos, del 80%, y que entre la
población no alcohólica es sólo del 2%.
(a) ¿Cuál es la probabilidad de que una persona cualquiera de esa ciudad,

diagnosticada con esteatosis hepática, sea alcohólica?
(b) Si una persona, seleccionada aleatoriamente, no padece esteatosis hepática,
¿Cuál es la probabilidad de que sea alcohólica?
3.7. Una prueba diagnóstica detecta una enfermedad, cuando el paciente tiene
efectivamente esa enfermedad, un 95% de las veces. La prueba proporciona
"falsos positivos" un 1% de las veces. El paciente pertenece a un grupo de población
en la que la probabilidad de tener esa enfermedad es de 5 entre mil.
(a) Si le aplicamos la prueba y da positiva, ¿cuál es la probabilidad de que,

efectivamente, esté enfermo?
(b) Si le aplicamos la prueba y da negativa, ¿cuál es la probabilidad de que, aun así,
el paciente esté enfermo?
3.8. La ecografía se utiliza como prueba diagnóstica para la colelitiasis. Nos dicen que
la tasa de verdaderos positivos de esta técnica es el 91%, la tasa de falsos
positivos es el 5%, y en la población de la que proviene nuestro paciente la
probabilidad de tener la enfermedad se estima en 0,3.
(a) Calcula la probabilidad de que esté enfermo, si la prueba da positivo.

(b) Calcula la probabilidad de que esté enfermo, aunque la prueba haya dado
negativo.
3.9. Una prueba para detectar VIH+ tiene una tasa de verdaderos positivos del 99,5%.
La probabilidad de que proporcione negativo para personas sanas es el 99,5%, y
por tanto la tasa de "falsos positivos" es de 5 entre 1000. En un estudio sobre la
109
prevalencia del VIH en una población se ha establecido que la probabilidad de que

una persona elegida al azar tenga esa enfermedad es 0,0002.
(a) Calcula la probabilidad de que esté enfermo, si la prueba da positivo.

(b) Calcula la probabilidad de que esté enfermo, aunque la prueba haya dado
negativo.
(c) Calcula la precisión de la prueba.
(d) Si en el colectivo del que proviene nuestro paciente se ha establecido que el
20% padecen la enfermedad, el paciente se ha elegido al azar en este colectivo
y la prueba da positivo, ¿cuál es la probabilidad de que esta persona esté
realmente enferma? ¿Cuál es ahora la precisión de la prueba para este
colectivo?
3.10. En un estudio sobre la eficacia del tacto rectal en el diagnóstico del cáncer se ha
establecido que la probabilidad de verdaderos positivos es del 57%. La
probabilidad de falso positivo –que dé positivo si están sanos- es del 18%. La
probabilidad de que una persona de la población en estudio tenga la enfermedad es
del 42%.
(a) Calcula la probabilidad de que una persona que ha dado positivo en la prueba
tenga efectivamente la enfermedad.
(b) Calcula la probabilidad de que una persona que ha dado negativo en la prueba
esté realmente sana.
(c) Calcula la precisión de la prueba.
(d) En base a los resultados obtenidos, comenta si esta prueba diagnóstica te
parece buena.
3.11. Tras una prueba ciclista se obtienen muestras de sangre de dos ciclistas del país
A, tres del país B y 5 del país C. Por error en la manipulación de las muestras, los
10 tubos se mezclan antes de que se hayan podido etiquetar con el nombre y el país
del deportista. Además, se estima que el 1% de los deportistas del país A, el 2%
del B y el 10% del C han tomado sustancias prohibidas. Se asume también que la
prueba es completamente fiable. Esto es, suponemos que detecta las sustancias
prohibidas el 100% de las veces y que la tasa de falsos positivos es del 0%.
(a) Si elegimos un tubo al azar, ¿Cuál es la probabilidad de que detectemos alguna

sustancia prohibida?
(b) Si elegimos un tubo al azar y detectamos una sustancia prohibida, ¿Cuál es la
probabilidad de que la muestra elegida sea de un ciclista de C?
(c) Asumamos que la prueba NO es completamente fiable, y que solo detecta
sustancias prohibidas, cuando las han tomado, un 99,8% de las veces. Además,
su tasa de falsos positivos es de 1 entre 1000. Si elegimos un tubo al azar y la
110
prueba da positivo, ¿cuál es la probabilidad de que el correspondiente ciclista

no haya tomado sustancias prohibidas?
3.12. El 10% de una población tiene una enfermedad E, y las personas con esta
enfermedad presentan un síntoma S1 con probabilidad 0,2. Además, las personas
sanas de esa población presentan el síntoma S1 con una probabilidad 0,01.
(a) Calcula la probabilidad de que una persona, elegida al azar de esa población,
esté enferma y además presente el síntoma S1.
(b) Calcula la probabilidad de que una persona, elegida al azar, presente el síntoma
S1.
(c) Calcula la probabilidad de que una persona, elegida al azar en esa población y
que presenta el síntoma S1, esté enferma.
3.13. En un sistema de producción de jeringuillas se sabe que un 20% de las jeringuillas

pueden salir defectuosas. Por ello, se ha implantado un sistema de control. Cuando
una jeringuilla es defectuosa el sistema de control la detecta en el 98% de las
veces. Cuando una jeringuilla no es defectuosa el mismo sistema la clasifica como
defectuosa el 1% de las veces.
(a) Calcula la probabilidad de que, elegida una jeringuilla al azar, el sistema de

control la detecte como defectuosa.
(b) Calcula la probabilidad de que una jeringuilla que el sistema de control clasifica
como defectuosa, sea realmente defectuosa.
(c) Calcula la probabilidad de que una jeringuilla sea defectuosa, aun cuando el
sistema de control no la haya clasificado como tal.
3.14. En una guardería infantil, se ha estimado que la probabilidad de que un niño tenga
tos es 0,2. Además, la probabilidad de que un niño con tos tenga fiebre es 0,4. Por
otra parte, la probabilidad de que un niño con fiebre tenga tos es 0,5.
(a) Calcula la probabilidad de que un niño elegido al azar tenga fiebre.

(b) Calcula la probabilidad de que un niño elegido al azar tenga a la vez fiebre y
tos.
(c) Calcula la probabilidad de que un niño elegido al azar tenga o fiebre, o tos o las
dos cosas.
3.15. Se dispone de una prueba de referencia A (que asumimos que es perfecta, ya que
tiene una sensibilidad y una especificidad del 100%) para determinar si una persona
tiene cierta característica genética E. Pero esta prueba es penosa para el paciente
y el resultado tarda mucho tiempo en ser conocido. Un laboratorio ha diseñado una
nueva prueba B, más rápida y menos invasiva que la prueba de referencia A. En su
informe nos indican que la sensibilidad de esa nueva prueba es del 98% y la
111
especificidad es del 99%. En un hospital deciden hacer un estudio con la nueva

prueba B, y seleccionan una muestra de 1000 individuos. Les hacen la prueba de
referencia A, detectando que 320 presentan esa característica y los 680
restantes no. Por un error de manipulación, esa información se pierde y no sabemos
quiénes presentan esa característica y quiénes no.
(a) Si elegimos al azar una persona de esa muestra, ¿cuál es la probabilidad de que
presente esa característica?
(b) Si esa persona da positivo con la nueva prueba B, ¿cuál es la probabilidad de
que efectivamente presente esa característica? ¿Y de que no la presente?
(c) Si ha dado negativo, ¿cuánto valdrían esas probabilidades?
(d) ¿Cuál es la precisión de la nueva prueba B para esta muestra? ¿Y cuál es la
precisión de la prueba de referencia A?
3.16. Se quiere realizar un ensayo clínico para determinar la calidad de una nueva prueba
diagnóstica B, más rápida y menos agresiva que la prueba tradicional A, que se
asume que tiene precisión absoluta. Se ha seleccionado una muestra de 1250
personas. De las 100 personas que han dado positivo con la prueba tradicional A (y
por tanto están enfermas), 95 han dado positivo con la nueva, y 5 negativo. De los
1150 que han dado negativo con la prueba tradicional A (y por tanto están sanas),
46 han dado positivo con la nueva y 1104 negativo. Ni nosotros ni los individuos de
la muestra disponemos de la información de los resultados del ensayo para cada
persona.
(a) ¿Cuál es la prevalencia de la enfermedad en esa muestra?

(b) Si elegimos al azar a una persona de esa muestra, ¿cuál es la probabilidad de
que la nueva prueba B de un falso positivo? ¿Y la probabilidad de un falso
negativo?
(c) Si seleccionamos una persona al azar de esa muestra y ha dado positivo con la
nueva prueba B, ¿cuál es la probabilidad de que esté enferma? ¿Y de que no
esté enferma?
(d) Si seleccionamos una persona al azar de esa muestra y ha dado negativo con la
nueva prueba B, ¿cuál es la probabilidad de que esté enferma? ¿Y de que no
esté enferma?
(e) ¿Cuál es la precisión de la nueva prueba B en esa muestra?
3.17. El procedimiento para confirmar si una persona que presenta un síntoma

característico (suceso S) tiene neumonía (suceso N) la detecta (suceso +) un 90%
de las veces y no la detecta (suceso -) un 10% de las veces. Este procedimiento
también proporciona un 2% de falsos positivos. Se sabe que todas las personas que
tienen neumonía presentan ese síntoma, pero solo un 5% de los que presentan ese
síntoma tienen neumonía.
112
(a) Calcula P(N|S), P(S|N), P(+|N) y P(-|Nc).
El procedimiento sólo se va a aplicar a personas que presenten ese síntoma. Por

tanto, en ese colectivo P(N) = P(N|S).
(b) Calcula la probabilidad de que el procedimiento dé positivo para una persona

de ese colectivo.
(c) Si el procedimiento ha dado positivo para una persona de ese colectivo, calcula
la probabilidad de que, efectivamente, tenga neumonía.
113
4. Variables aleatorias
4.1. Introducción
Ya hemos comentado en temas anteriores, que uno de los objetivos fundamentales

de la Estadística es aplicar a toda la población los resultados obtenidos para una
muestra de la población y cuantificar los errores que se cometen en esa extrapolación.
Para poder realizar esa cuantificación, el primer paso que hay que dar es modelizar
matemáticamente las variables estadísticas que se estudian sobre los individuos de la
muestra o de la población. Las Variables Aleatorias son precisamente los modelos
teóricos que se utilizan para describir las variables estadísticas y su distribución. Estos
modelos son los que permiten utilizar la teoría de la probabilidad para calcular las
probabilidades de los sucesos de interés.
Por ejemplo, en un estudio sobre la relación de la hipertensión arterial con el

colesterol podemos tener la variable categórica X, que vale 1 si el individuo tiene
hipertensión y 0 en otro caso, y las variables cuantitativas D, que recoge el número de
días por semana en los que esa persona hace ejercicio por encima de un nivel prefijado,
P, que recoge su peso, y C, su nivel de colesterol.
Como se comentó en el tema anterior, el espacio muestral  describe todos los

resultados que se pueden obtener al realizar un experimento o que se pueden identificar
al analizar un fenómeno. Por tanto, en el ejemplo anterior el espacio muestral lo
compondrían todos los valores posibles de todas esas variables para la población que
queremos estudiar. Los sucesos de interés podrían ser si un individuo tiene hipertensión
(esto es, si X = 1) o si su nivel de colesterol es menor o igual que 200 (esto es, si C ≤
200).
En dicho ejemplo, además de describir los sucesos que se desea estudiar, X = 1 y

C ≤ 200, interesará cuantificar con qué probabilidad pueden suceder en la población que
se está estudiando, o dicho de otra forma, interesará calcular con qué probabilidad un
individuo tendrá hipertensión, es decir, P(X = 1), o con qué probabilidad su nivel de
colesterol será menor o igual a 200, es decir, P(C ≤ 200). Las variables aleatorias son
precisamente los modelos matemáticos que se añaden a las variables estadísticas para
cuantificar esas probabilidades.
114
Las variables aleatorias son, por una parte, modelos teóricos ajustados a nuestra
experiencia de lo que son las variables estadísticas y, por otra parte, permiten utilizar
la teoría de la probabilidad para calcular probabilidades de sucesos de interés asociados
a esas variables estadísticas. Las variables aleatorias se definen proporcionando un
conjunto E, con todos los valores que puede tomar esa variable, y proporcionando
también un mecanismo de calcular las probabilidades de los sucesos relacionados con
valores de esas variables. Siempre consideraremos que E es o está contenido en la recta
real.
Este procedimiento se justifica si recordamos cómo analizábamos en Estadística

Descriptiva la distribución de una variable en la muestra. Para las variables cualitativas
seguíamos la práctica de asignar a cada posible nivel de la variable un código numérico.
Para las variables cuantitativas, el valor de la variable para un individuo concreto era ya
directamente un número. En ambos casos, el rango de valores E que puede tomar cada
variable estaba completamente determinado. Para caracterizar la distribución de la
variable sobre ese rango de valores E utilizábamos la frecuencia de cada posible nivel,
para las variables cualitativas o discretas, y de cada intervalo de clase, para las
variables continuas. La frecuencia con la que un nivel (o un intervalo de clase) se observa
en la muestra se puede relacionar con la probabilidad de que, al elegir al azar un individuo
de la población y observar su valor, se observe ese nivel o ese intervalo de clase. Esas
probabilidades (proporcionadas por las variables aleatorias) son el modelo teórico para
las frecuencias observadas.
En lo que sigue, daremos una definición intuitiva de lo que es una variable aleatoria
y describiremos las variables aleatorias discretas y continuas más utilizadas en Ciencias
de la Salud.
4.2. Definición intuitiva de variable aleatoria
Para definir formalmente una variable aleatoria, se requieren unos amplios

conocimientos matemáticos sobre los que no vamos a entrar. Por tanto, sólo vamos a dar
una definición intuitiva.
Para definir de forma operativa una variable aleatoria tenemos que determinar por
una parte qué valores puede tomar esa variable, esto es, cuál va a ser el rango de esa
variable. Llamaremos E a ese conjunto y consideraremos siempre que E es la recta real
o está contenido en ella. Por otra parte, también tenemos que proporcionar un
procedimiento para calcular la distribución de probabilidad de esa variable sobre E, esto
es, para poder calcular la probabilidad de todos los sucesos relevantes contenidos en E.
La forma de hacerlo va a depender de cómo sea E.
115
Si E es discreto (esto es, finito o numerable) el procedimiento es definir una

función de probabilidad, que asigna una probabilidad a cada una de las modalidades de
E. A estas variables aleatorias las llamamos discretas, y son los modelos que
utilizaremos para las variables estadísticas categóricas y para las cuantitativas
discretas.
Si E es un intervalo de la recta real, el número de modalidades posibles es infinito

no numerable y, por lo tanto, el procedimiento para calcular la distribución de
probabilidad de la variable sobre E es algo más complejo, y el cálculo de las
probabilidades de los intervalos en E se realiza a través de una función llamada función
de densidad. A estas variables aleatorias las llamamos continuas, y son los modelos que
utilizaremos para las variables estadísticas cuantitativas continuas.
4.3. Variables aleatorias discretas
Una variable aleatoria X es discreta si el rango de modalidades E que puede tomar

es un conjunto finito o numerable. Por fijar ideas y sin pérdida de generalidad, vamos
a suponer que E está contenido en el conjunto de los números naturales.
Antes de pasar a describir las variables aleatorias discretas más utilizadas, vamos
a ver las propiedades que tiene cualquier variable aleatoria discreta.
4.3.1. Propiedades
Toda variable aleatoria discreta lleva asociada una función de probabilidad. A

partir de ella, se definen la función de distribución y la media y desviación típica de la
variable. Veamos con detalle estos conceptos.
Función de probabilidad
Sea X una variable aleatoria discreta, cuyo rango de modalidades es E. Llamamos

función de probabilidad de X a la función que asigna a cada modalidad, k  E, su
probabilidad:
pX(k) = P(X = k).
Nota: en algunos textos la llaman “función de masa de probabilidad” o “función de cuantía”.

Si no hay ambigüedad sobre la variable X, no usaremos el subíndice: pX(k) = p(k).
Por la definición de probabilidad dada en el tema anterior, una función de

probabilidad ha de cumplir que pX(k) ≥ 0, para todo k, y que la suma de los pX(k), cuando
k recorre todo E, es 1. Además, la probabilidad de cualquier suceso contenido en E, A 
116
E, se puede calcular sumando las probabilidades de todos sus elementos, pX(k), k  A.

Por lo tanto, la función de probabilidad pX(k) determina (esto es, permite calcular) la
distribución de probabilidad de X.
Ejemplo 4.1. Si X toma valor 1 cuando un individuo tiene HTA (hipertensión

arterial) y 0 en otro caso, podemos tomar E = {0, 1}. Si la frecuencia de HTA
en población muestreada es del 20%, y elegimos un individuo al azar, la
probabilidad de que sea hipertenso es 0,2. En este caso un modelo razonable
de función de probabilidad sería p(0) = 0,8 y p(1) = 0,2.
Ejemplo 4.2. La variable D, que recoge los días de la semana en las que un
individuo hace ejercicio por encima de un límite prefijado, toma valores en E
= {0, 1, 2, 3, 4, 5, 6, 7}.
Las funciones de probabilidad admisibles tienen que tomar valores no

negativos y que sumen 1. Una de las posibles funciones de probabilidad sería
D p(d)
0 0,1
1 0,1
2 0,2
3 0,15
4 0,1
5 0,2
6 0
7 0,15
Función de distribución
Llamamos función de distribución de X a la función que, para cada punto a de la

recta real, toma el valor:
FX(a) = P(X ≤ a)
El suceso A = {X ≤ a} se suele denotar como “cola a la izquierda del punto a”. Por lo
tanto, FX(a) = P(X ≤ a) proporciona la probabilidad de observar la “cola a la izquierda del
punto a”. La probabilidad del suceso complementario, P(X > a), es 1 - FX(a).
La función de distribución sólo tiene sentido para variables con un orden

prestablecido (cualitativas ordinales o cuantitativas). En general, esta función es no
decreciente y toma valores entre 0 y 1. Si la dibujamos, veremos que es una función
constante a trozos, con saltos en los puntos de probabilidad positiva.
117
Ejemplo 4.3. La función de distribución en los valores que toma la variable D,

días de la semana en las que hace ejercicio, es la columna de la derecha de la
tabla:
D p(d) F(d)
0 0,1 0,1
1 0,1 0,2
2 0,2 0,4
3 0,15 0,55
4 0,1 0,65
5 0,2 0,85
6 0 0,85
7 0,15 1
Para esta variable, la función de distribución tiene el siguiente aspecto.
Observa que, entre dos valores de la variable, por ejemplo, el 1 y el 2, la

función se mantiene constante, pues no hay ningún valor en ese rango que
tenga probabilidad positiva.
Media, varianza y desviación típica
De la misma forma que obtuvimos medidas de tendencia central y de dispersión

para muestras de variables estadísticas, se podrían definir medidas de tendencia
central y de dispersión para las variables aleatorias.
118
La media X de la variable aleatoria X se define como la suma, para todos los

valores k de E, de k*pX(k). Esto es,
𝜇 = 𝑘 𝑝 (𝑘)
A la media de una variable aleatoria X también se le suele llamar Esperanza de X

y se denota E(X).
Nota: nótese la similitud de esta fórmula con la fórmula de la media usada en el tema 1 para
variables definidas con tablas de frecuencias, si sustituimos la frecuencia relativa de k por
su probabilidad.
La varianza 𝜎 de la variable aleatoria X, que también se suele denotar por Var(X),

se define como la suma, para todos los valores k de E, de (k -X)2*pX(k). Esto es:
𝜎 = (𝑘 − 𝜇 ) 𝑝 (𝑘)
Llamamos desviación típica de X a la raíz cuadrada positiva de la varianza de X, y

la denotaremos X.
Ejemplo 4.4. La media y la varianza de la variable D, días de la semana en las

que hace ejercicio, aplicando las fórmulas anteriores, son E(D) = 3,4 días y
Var(D) = 4,64 días2.
Nota: no hay que confundir la media y la desviación típica de un conjunto de datos, como se
calculaban en el tema 1 y a las que les añadimos el adjetivo muestrales, con la media y la
desviación típica de una variable aleatoria. En general, los valores (x1,…,xn) de una variable
estadística X sobre los que calculamos su media M(X) o su desviación típica S(X)
corresponden a un conjunto de individuos (muestra) de una determinada población. Por ello,
a la media M(X) y a la desviación típica S(X) calculadas sobre esos datos se les suele añadir
al adjetivo ‘muestral’. Diferentes muestras de una misma población tendrán en general
diferentes medias y desviaciones típicas muestrales.
Los conceptos de media y desviación típica de una variable aleatoria son conceptos teóricos,
que se definen a partir de la función de probabilidad. En la práctica usual de la Estadística,
dada una población, a la variable estadística que se quiere estudiar sobre esa población se le
asocia una variable aleatoria X. A la media X y desviación típica X de esa variable aleatoria,
que son únicas, se les suele añadir el adjetivo ‘poblacionales’ para distinguirlas de las
muestrales, pues hacen referencia al comportamiento medio y la variabilidad de toda la
población, respectivamente. En el siguiente tema volveremos a incidir sobre este aspecto.
4.3.2. Bernouilli de parámetro p
Esta variable es el modelo que describe las situaciones en las que hay sólo dos
posibles resultados, como es el caso, por ejemplo, del lanzamiento de una moneda.
119
Si llamamos “éxito” a obtener cara, y suponemos que la probabilidad de obtener

cara es p, el fracaso será obtener cruz y su probabilidad será 1 – p. Si codificamos éxito
como X = 1 y fracaso como X = 0, tenemos que el rango de valores de X es E = {0, 1} y la
función de probabilidad es
pX(0) = 1-p, pX(1) = p
Esta función depende de un parámetro, la probabilidad p (0 < p < 1) y verifica que

pX(k) ≥ 0, k  {0, 1}, y también que pX(0) + pX(1) = 1.
A una variable aleatoria X que sólo toma dos modalidades (el éxito y el fracaso) y
donde p es la probabilidad del éxito se la denomina variable aleatoria Bernoulli de
parámetro p (o simplemente Bernouilli(p)).
Nota: cuando nos refiramos a estas variables aleatorias particulares las llamaremos también
modelos o distribuciones. En este caso diremos, indistintamente, que usamos un modelo
Bernoulli, una distribución Bernoulli o una variable aleatoria Bernoulli.
La media de una variable aleatoria X Bernoulli de parámetro p es E(X) = p, y su

varianza es Var(X) = p*(1-p).
Ejemplo 4.5: La variable X vale 1 si sale cara en el lanzamiento de una moneda

legal y 0 en otro caso. Un modelo razonable para esta variable es la
distribución Bernoulli con p = 1/2. Con este modelo las probabilidades de cara
y cruz son las mismas:
pX(0) = pX(1) = 1/2.
Para este modelo la media de X es 1/2 y la varianza es 1/4.
Ejemplo 4.6: En un folleto del Observatorio del Ictus se dice que “la
probabilidad de que una persona sufra un ictus a lo largo de su vida” es 1/6.
Si codificamos “sufrir un ictus a lo largo de la vida” con X = 1, y no sufrirlo
con X = 0, un modelo adecuado para esta variable es una Bernoulli con
parámetro p = 1/6, con lo que
pX(0) = 5/6
pX(1) = 1/6
Para este modelo, la media de X es 1/6 y la varianza es 5/36.
Nota: observa que este modelo Bernoulli de parámetro p=1/6 también sirve para describir la
variable Y que vale 1 si obtenemos un 6 en el lanzamiento de un dado legal, y 0 en otro caso.
Un mismo modelo puede ser adecuado para fenómenos distintos.
120
4.3.3. Binomial de parámetros n y p
Este modelo es el que se utiliza para situaciones en las que observamos n

repeticiones independientes de un experimento que tiene una probabilidad constante
p de éxito. La variable Binomial cuenta el número k de éxitos obtenidos en las n
repeticiones. Por ejemplo, en el lanzamiento de una moneda 10 veces, la variable Binomial
controlaría el número de caras obtenidas en esos 10 lanzamientos, suponiendo que salir
cara es el éxito del experimento.
El modelo Bernoulli de parámetro p (obtención de éxito en un experimento) se

puede ver como un caso particular del modelo Binomial con parámetros n y p, cuando n
= 1. Por tanto, el modelo Binomial es la extensión natural del modelo Bernouilli.
Nota: de hecho, la variable binomial de parámetros n y p (suma de éxitos en n repeticiones

independientes) se puede representar como la suma de n variables independientes Bernouilli
con parámetro p.
La variable aleatoria X Binomial de parámetros n y p (usualmente la denotaremos

por Bin(n,p)) puede tomar las modalidades E = {0, 1, 2, ..., n}. La función de probabilidad
de X, para cada k  {0, 1, 2, ..., n}, es
𝑛 −
𝑝 (𝑘) = 𝑝 (1 − 𝑝)
𝑘
Nota: no es difícil ver que estas probabilidades son positivas para cualquier k  {0, 1, 2, ...,
n}. Además, la fórmula del binomio de Newton permite demostrar que la suma de todos ellos
es 1, y por lo tanto, que ésta es una función de probabilidad bien definida.
La definición de esta función de probabilidad se puede justificar con

razonamientos de tipo combinatorio en los que no vamos a entrar. El término ( ) se
conoce con el nombre de “número combinatorio n sobre k” y representa el número de
formas distintas en que se pueden extraer subconjunto de tamaño k de un conjunto de
n elementos. El número combinatorio ( ) se calcula con la siguiente fórmula
𝑛 𝑛!
=
𝑘 𝑘! (𝑛 − 𝑘)!
donde n! (factorial de n), se calcula como el producto n! = n*(n-1)*...*2*1. Por convenio,

se define 0! = 1.
Nota: cualquier calculadora lleva incorporada una función para calcular factoriales.
Si X es una variable Bin(n,p), su media es E(X) = n*p y su varianza es Var(X) =

n*p*(1-p).
121
Para calcular la función de distribución, FX(a), de una Bin(n,p) para un valor a

cualquiera, basta con sumar las probabilidades de las modalidades de E = {0, 1, 2, ..., n}
que sean menores o iguales que a.
Nota: las cuentas necesarias para calcular pX(k) y FX(a) para este modelo Binomial son fáciles
cuando n es pequeño. Cuando n es grande, Excel o cualquier paquete estadístico, como R-
Commander, disponen de utilidades que permiten calcularlas fácilmente.
Ejemplo 4.7. Lanzamos a la vez 6 monedas legales y contamos el número X de

caras obtenidas ¿Qué valores puede tomar X? ¿Cuál es la probabilidad de
obtener 3 caras? ¿Cuál es la probabilidad de obtener, como mucho, 2 caras?
¿Y la de obtener al menos 2 caras? ¿En media, cuantas caras esperaría
obtener?
El experimento es equivalente a lanzar 6 veces una moneda legal y contar

cuantas veces se ha tenido éxito (hemos observado cara). El número de caras
X va de un mínimo de 0 a un máximo de 6. Un modelo adecuado para X es la
distribución Binomial con n = 6 y p = 1/2. Puede comprobarse que las funciones
de probabilidad y de distribución para los 7 valores posibles son:
k f probab f distrib
0 0,01562500 0,01562500
1 0,09375000 0,10937500
2 0,23437500 0,34375000
3 0,31250000 0,65625000
4 0,23437500 0,89062500
5 0,09375000 0,98437500
6 0,01562500 1,00000000
En particular, la probabilidad de obtener exactamente 3 caras (y por tanto 3

cruces) es P(X = 3) = 0,3125.
Nota: este resultado se puede interpretar en términos frecuentistas: si repetimos el

lanzamiento de 6 monedas muchas veces, aproximadamente el 31,25% de las veces
obtendremos 3 caras y 3 cruces.
La probabilidad de obtener como mucho 2 caras es P(X ≤ 2) = P(X = 0) + P(X =

1) + P(X = 2) = 0,34375 y la probabilidad de obtener al menos 2 caras es P(X
≥ 2) = 1 – P(X ≤ 1) = 1 – 0,109375 = 0,890625.
La media de X es E(X) = n*p = 6*(1/2) = 3. Esperaríamos observar, en media,

3 caras. La varianza es Var(X) = n*p*(1-p) = 1,5. Por tanto, la desviación típica
en torno a esa media es X = 1,225 caras.
122
4.3.4. Poisson de parámetro 
La tercera y última variable discreta que vamos a ver es la Poisson de parámetro

positivo o simplemente Poisson(). El conjunto de modalidades E de una Poisson de
parámetro  es el conjunto de los números naturales, es decir, E = {0, 1, 2, ...}, y la
probabilidad para la modalidad k se define con la fórmula
𝑒− 𝜆
𝑝 (𝑘) =
𝑘!
donde e representa la constante matemática conocida como número e y cuyo valor

aproximado es 2,71828.
Nota: cualquier calculadora lleva incorporadas funciones para manejar esta constante e.
Nota: no es difícil ver que las probabilidades anteriores son positivas para cualquier k ≥ 0 y
que la suma de esas probabilidades (una sucesión infinita) vale 1. Por lo tanto, esta función
de probabilidad está bien definida.
La media de una variable X, Poisson de parámetro , es E(X) =  y su varianza es

Var(X) = .
El modelo Poisson se suele utilizar para describir el número de veces que se

observa un suceso (número de éxitos) en un espacio de tiempo fijo, o en una región del
espacio determinada, donde el parámetro  representa el número medio de éxitos.
La distribución de Poisson se puede utilizar, por ejemplo, para describir el número de
personas con una enfermedad rara que se atienden durante un año en un hospital o el
número de reacciones alérgicas que se producen en una campaña de vacunación.
Nota: este modelo está asociado a veces a fenómenos que se podrían describir con una
Bin(n,p), en los que la probabilidad de éxito (p) es muy pequeña y el número de repeticiones
independientes (n) es muy grande. En estas condiciones, si p y n son desconocidos, pero se
conoce el número medio de éxitos n*p = , el modelo Poisson es adecuado.
Ejemplo 4.8. Se estima que el número de personas atendidas en un hospital

por meningitis durante un año (variable X) se comporta como una Poisson de
parámetro =10. Calcula la probabilidad de que en un año se atiendan sólo 4
casos de meningitis y la probabilidad de que se atiendan en un año al menos 2
casos de meningitis.
Aplicando la fórmula anterior, P(X=4) = e-10 104 / 4! = 0,0189 y P(X≥2) = 1-

P(X≤1) = 1- (P(X=0) + P(X=1)) = 0,9995006.
123
4.4. Variables aleatorias continuas
Una variable aleatoria X es continua si el rango de modalidades E que puede tomar

es infinito no numerable. Esto ocurre cuando E es un intervalo en la recta o toda la recta
real.
Antes de describir las variables continuas más utilizadas, vamos a ver las
principales propiedades que cumple cualquier variable aleatoria continua.
4.4.1. Propiedades
Una variable aleatoria continua siempre tiene asociada una función que se conoce
con el nombre de función de densidad de probabilidad. A partir de dicha función, se
obtienen otras características de la variable, como la función de distribución, la media
o la desviación típica. Detallamos a continuación las principales propiedades de las
variables continuas.
Función de densidad
El rango E de una variable continua tiene “demasiados puntos” y no es posible

asignar una probabilidad a cada punto de forma coherente, por lo que no se puede
construir una función de probabilidad como en el caso discreto. La aproximación para el
cálculo de probabilidades asociadas a sucesos ha de ser necesariamente distinta y está
basada en la función de densidad, que permite asignar probabilidades a intervalos
contenidos en E.
Llamamos función de densidad de probabilidad (o, simplemente, función de

densidad) a una función f(x), no negativa, definida en E y que verifica que el área entre
esa función y el eje de abscisas es 1. Las funciones de densidad permiten calcular la
probabilidad de un intervalo contenido en E (en general, la probabilidad de un suceso
cualquiera A contenido en E). Si X es una variable continua con función de densidad f(x),
la probabilidad P(X  A) es el área entre la función f(x) y el eje de abscisas sobre el
conjunto A.
Nota: la forma concreta de calcular el área bajo f(x) en A es calcular su integral. Pero esto
está fuera de los objetivos de este curso. Para calcular las probabilidades de que X esté en
un intervalo, utilizaremos la función de distribución, como se verá más adelante.
Con esta definición, la probabilidad de un punto cualquiera es 0. En efecto, un punto

a se puede ver como un intervalo de longitud nula. El área sobre a es la longitud de la
base por la altura: 0*f(a) = 0. Por tanto, para las variables aleatorias continuas la
probabilidad de que X tome un único valor a, para cualquier a, es
124
P(X = a) = 0
Nota: esta propiedad no es tan extraña, como puede parecer a primera vista. En la práctica,
nunca vamos a observar un valor con infinitos decimales, porque cualquier medición se hace
con un instrumento de medida que tiene una determinada precisión . En ese caso, cuando
decimos que hemos observado a, en realidad estamos diciendo que hemos observado un valor
que está en el intervalo (a - /2, a + /2) por la precisión del instrumento. Por tanto, el área
bajo f(x) en ese intervalo valdrá, aproximadamente, f(a)* y será positiva si f(a) > 0.
Ejemplo 4.9. El siguiente gráfico muestra la función f(x) = 0,1*e-0,1x, para x ≥

0. Se puede demostrar que el área entre la función y el eje de abscisas vale
1, por lo que f(x) es una función de densidad.
Función de distribución
La función de distribución de una variable aleatoria continua X con rango E, se

define, para cualquier a de E, de la misma forma que para una variable aleatoria discreta:
FX(a) = P(X ≤ a)
Nota: recuerda que el suceso A = {X ≤ a} se suele denotar como “cola a la izquierda del punto
a”. Por lo tanto, FX(a) es la probabilidad de la ‘“cola a la izquierda del punto a”. La probabilidad
P(X > a) es 1 - FX(a). Como en las variables aleatorias continuas la probabilidad de un punto es
cero, la probabilidad de la cola de la derecha, P(X ≥ a), también es 1 - FX(a).
Como en el caso discreto, también para una variable aleatoria X continua la función
de distribución toma valores entre 0 y 1 y es no decreciente. Además, se puede asegurar
que la función de distribución FX(a) es estrictamente creciente en los intervalos en los
que f(a) es positiva.
Nota: recuerda también que el cálculo explícito de FX(a) exigiría el cálculo del área bajo la
función de densidad en el intervalo (-∞,a], pero no es necesario hacer las cuentas resolviendo
125
integrales. Las funciones de Excel y los paquetes estadísticos (en particular R-Commander)
permiten calcular la función de distribución de los modelos continuos más utilizados.
La función de distribución permite calcular de forma sencilla la probabilidad de

que la variable X esté en el intervalo (a, b] mediante la siguiente fórmula:
P(X  (a, b]) = P(a < X ≤ b) = P(X ≤ b) - P(X ≤ a) = FX(b) - FX(a)
Cuando la variable aleatoria X es continua, la probabilidad de los puntos a y b es

cero, y por tanto
P(X  (a, b]) = P(X  [a, b]) = P(X  [a, b)) = P(X  (a, b)).
Ejemplo 4.10. El siguiente gráfico muestra la función de distribución de la

variable aleatoria X cuya función de densidad era f(x) = 0,1*e-0,1x para x ≥ 0,
y que vale F(x) = 1 - e-0,1x. Observa que es no negativa, no decreciente y se
encuentra entre 0 y 1.
Cuantiles
La función de distribución de X en un punto a, FX(a), proporciona la probabilidad

de la cola a la izquierda de a (esto es, la probabilidad de que X valga, como mucho, a).
En muchas situaciones prácticas se plantea el problema inverso: dada una probabilidad
p, ¿cuál es el punto a que “deja a su izquierda” una probabilidad p?
Por ejemplo, si queremos saber cuál es el peso a, que deja por debajo al 90% de la
población de recién nacidos (y por encima al 10%), y tenemos que el peso se puede
modelar con una variable X con función de distribución FX(a), lo que queremos averiguar
es el peso a que verifica FX(a) = 0,90.
126
Si existe la función inversa de FX(a), podemos despejar a en esa ecuación y

obtenemos que a = FX-1(0,90). Llamamos cuantil 0,90 (percentil 90) de X a este punto a
= FX-1(0,90). En general, dada una probabilidad p, llamamos cuantil p de X (o cuantil de
orden p de X), y lo denotaremos por xp, al punto xp = FX-1(p).
Si no es posible calcular la inversa de la función de distribución, o esta inversa no

es única, una fórmula más general de cálculo del cuantil p es la siguiente: el menor a del
rango E de la variable aleatoria X tal que FX(a) ≥ p. En el caso particular de que la
inversa existe y es única, las dos definiciones coinciden. Esta definición más general de
cuantil vale tanto para las variables aleatorias discretas como para las continuas.
Cuando la función inversa existe, se tiene que FX(FX-1(p)) = p, para toda

probabilidad p. Y también que FX-1(FX(a)) = a, para todo punto a del rango E de la variable
aleatoria X.
Hemos indicado antes que la probabilidad de que X esté en un intervalo es el área

entre la función de densidad y el eje de abscisas en ese intervalo. Con esta
interpretación, el cuantil p de X es el punto xp de E que deja, a su izquierda, un área p
entre la función de densidad y el eje de abscisas. Por lo tanto, es también el punto xp
que deja a su derecha un área 1 – p.
Nota: observa la similitud de este concepto de cualtil p con el concepto de percentil p*100
para un conjunto de datos del tema 1. El cuantil p es único para una variable aleatoria continua
y hace referencia al valor de la variable tal que el p*100% de la población está a su izquierda
(en el ejemplo anterior, el peso que deja al 90% de la población a su izquierda). Por el
contrario, el percentil p*100 hace referencia al valor de la variable (calculado a partir de la
muestra) que deja al p*100% de los datos de la muestra a su izquierda. Diferentes muestras
de la población darán en general diferentes valores para el mismo percentil.
Media, varianza y desviación típica
Se pueden calcular con las mismas fórmulas que en el caso discreto, pero
sustituyendo el sumatorio por la integral y la función de probabilidad por la función de
densidad. Los cálculos explícitos de estas integrales están fuera de los objetivos de
este curso.
Ejemplo 4.11. La función f(x) = 0,375*x2, si x  (0, 2) (y que vale 0 para el

resto de valores) es una función de densidad. Por lo tanto, permite construir
una variable aleatoria X continua que toma valores en E = (0, 2). Su función
de distribución es F(x) = 0,125*x3, si x  (0, 2) (vale 0 si x ≤ 0 y 1 si x ≥ 2).
Esta función tiene inversa en (0, 2) y por lo tanto podemos dar una forma
explícita para los cuantiles de X:
127
√
xp = FX-1(p) = 8𝑝
En particular, el cuantil 0,05 será x0,05 = 0,7368, el cuantil 0,95 será x0,95 =
1,9661 y la mediana de X será x0,50 = 1,5874. La media y la varianza de X son
E(X) = 1,5 y Var(X) = 0,15.
4.4.2. Uniforme en el intervalo [a,b]
La primera de las variables continuas que vamos a ver es la variable uniforme. Una
variable aleatoria X es uniforme en el intervalo [a, b] (también denotada por U(a,b)) si
su función de densidad es f(x) = 1/(b-a) cuando x  [a, b], y 0 para el resto de valores.
El siguiente gráfico muestra la función de densidad de la U(3,8).
Este modelo es adecuado para variables estadísticas cuyo rango E es un intervalo

determinado [a, b] y cuando la probabilidad de observar X en un intervalo contenido en
E es proporcional a su longitud. Su función de distribución es
F(x) = (x-a)/(b-a) si x  [a, b] (0, si x < a; 1 si x > b)
La media de X es E(X) = (a+b)/2 y la varianza Var(X) = (b-a)2/12. Los cuantiles se

pueden calcular con la función inversa de F(x). Para cualquier probabilidad p, el cuantil
de orden p de X es:
xp = F-1(p) = a + (b-a)*p
El modelo uniforme puede usarse para describir un fenómeno que puede ocurrir,
aleatoriamente, en cualquier punto de un rango determinado. Por ejemplo, para modelar
el punto de ruptura de una barra de longitud L, si no hay motivo para suponer que la
ruptura se puede producir con más facilidad en una zona determinada de la barra.
Ejemplo 4.12. Si X es uniforme en el intervalo [0, 1], su función de densidad

es f(x) = 1, si x  [0, 1], y es 0 para el resto de valores. Su función de
128
distribución es F(x) = x, si x  [0, 1] (0, si x < 0; 1 si x > 1) y su inversa es x =

F-1(p) = p. Su media es E(X) = 1/2 y su varianza Var(X) = 1/12.
Si aceptamos este modelo para el punto de ruptura de una barra de longitud

1, podemos contestar a estas tres preguntas: (a) cuál es la probabilidad de
que, tras el corte, el trozo de la izquierda sea menor que 0,2, (b) cuál es la
probabilidad de que el trozo más pequeño sea menor que 0,2 y (c) cuál es la
probabilidad de que el punto de corte esté exactamente en la mitad de la
barra.
(a) La probabilidad de que el punto de corte esté a una distancia del origen
menor que 0,2 es P(X < 0,2) = F(0,2) = 0,2.
(b) La probabilidad de que el trozo más pequeño después de la ruptura sea
menor que 0,2 es P(X < 0,2) + P(X > 0,8) = F(0,2) + (1 –F(0,8)) = 0,4.
(c) Este modelo predice que la probabilidad de que la barra se parta,
exactamente, por la mitad es P(X = 0,5) = 0.
Nota: en este ejemplo estamos asumiendo que la precisión con la que medimos el punto de
corte es infinita. Si usamos una regla con una precisión de 0,01, que se parta por la mitad
quiere decir que el punto de corte está en el intervalo (0,495, 0,505), y en este caso la
probabilidad es P(0,495 < X < 0,505) = 0,01.
4.4.3. Exponencial de parámetro a
La segunda de las variables aleatorias continuas que vamos a ver es la exponencial.

Una variable aleatoria X es exponencial de parámetro a (a > 0) si su función de densidad
es f(x) = aexp(-a*x), cuando x ≥ 0, (0 para el resto de valores). Su función de
distribución es F(x) = 1 – exp(-a*x), si x ≥ 0, (0, si x < 0).
Nota: recuerda que exp(x) es lo mismo que ex.
Su media es E(X) = 1/a y su varianza Var(X) = 1/a2. Para cualquier probabilidad p,

los cuantiles se pueden calcular con la función inversa de la función de distribución,
− ( − )
xp = F-1(p) =
Nota: recuerda que ln(x) significa el logaritmo neperiano de x. Cualquier calculadora permite
obtener logaritmos neperianos.
La forma de la función de densidad de una exponencial es similar a la del ejemplo

4.9. Ese ejemplo muestra la función de densidad de una exponencial de parámetro 0,1.
La variable exponencial es útil como modelo para tiempos de espera hasta que ocurre un
determinado suceso y, en particular, para modelar tiempos de supervivencia.
129
Ejemplo 4.13. Supongamos que el tiempo (en minutos) de espera en una

parada de autobús (variable X) se comporta como una variable exponencial de
parámetro 0,2. Nos preguntamos cuál será la probabilidad de que una persona
cualquiera de la parada tenga que esperar más de 10 minutos y cuál será el
cuantil 0,5 de la variable X.
Aplicando la fórmula de la función de distribución, la probabilidad de que una

persona cualquiera en la parada del autobús tenga que esperar más de 10
minutos será P(X>10) = 1 – P(X ≤ 10) = 1-(1-exp(-0,2*10)) = 0,135.
− ( − )
Aplicando la fórmula del cálculo de cuantiles, x0,5 = = 3,465 minutos.
En otras palabras, el 50% de las personas no esperará más de 3,465 minutos
en la parada del autobús.
4.4.4. Normal (0,1)
Vamos con la tercera de las variables aleatorias continuas, la normal tipificada,

que es una de las variables aleatorias más importantes en estadística. Una variable
aleatoria es normal tipificada (normal estándar o N(0,1)) si su rango es toda la recta
real y su función de densidad es
1 1
𝑓(𝑥) = √ exp − 𝑥
2𝜋 2
Es habitual utilizar Z para denotar la normal tipificada, aunque no es obligatorio.

Su media es E(Z) = 0 y su varianza es Var(Z) = 1. Por tanto, su desviación típica es
también 1. La función de densidad es simétrica en torno al 0, es positiva para cualquier
x, aunque es extremadamente pequeña para valores de x grandes en valor absoluto, y
tiene forma de campana, por lo que también es conocida esta variable como la “campana
de Gauss”. Esta función tiene el siguiente aspecto:
130
La función de distribución de la normal tipificada Z es estrictamente creciente y

su inversa, la función cuantil, existe y es única para toda probabilidad p. Sin embargo,
no puede darse una fórmula explícita para estas dos funciones, como sucedía por
ejemplo con la uniforme o la exponencial. Pero sí se pueden calcular utilizando Excel o
con cualquier paquete estadístico (en particular, con R-Commander). Por ejemplo, los
valores de la función de distribución F(x) de la N(0,1) para los puntos entre 0,0 y 2,9,
calculados utilizando Excel, son:
x F(x) x F(x) x F(x)

0,0 0,50000000 1,0 0,84134475 2,0 0,97724987
0,1 0,53982784 1,1 0,86433394 2,1 0,98213558
0,2 0,57925971 1,2 0,88493033 2,2 0,98609655
0,3 0,61791142 1,3 0,90319952 2,3 0,98927589
0,4 0,65542174 1,4 0,91924334 2,4 0,99180246
0,5 0,69146246 1,5 0,93319280 2,5 0,99379033
0,6 0,72574688 1,6 0,94520071 2,6 0,99533881
0,7 0,75803635 1,7 0,95543454 2,7 0,99653303
0,8 0,78814460 1,8 0,96406968 2,8 0,99744487
0,9 0,81593987 1,9 0,97128344 2,9 0,99813419
Si no se dispone de un software para calcular la función de distribución, la forma

de obtenerla es usando unas tablas preparadas para tal propósito. Muchos manuales de
Estadística incluyen tablas con la función de distribución de la N(0,1) y también nosotros
las incluimos al final de este tema.
En general, si x > 0, esas tablas no incluyen los valores de F(-x) (la función de
distribución para valores negativos), ya que se pueden calcular a partir de los obtenidos
para valores positivos usando la fórmula:
131
F(-x) = P(Z ≤ -x) = P(Z ≥ x) = 1 - F(x)
El razonamiento (por simetría) del porqué de la fórmula anterior es el siguiente.

Para cualquier x > 0, la probabilidad P(Z ≤ -x) es el área entre la función de densidad y
el eje de abscisas desde -∞ hasta –x. Como la función de densidad de la N(0,1) es
simétrica en torno a 0, esta área es igual que la contenida entre la función de densidad
y el eje de abscisas desde x hasta +∞.
El cuantil de orden p para la N(0,1), F-1(p), se suele denotar como zp. Para el cálculo
de cuantiles es necesario disponer de un software adecuado (como Excel o R-
Commander) o de las tablas comentadas anteriormente. Los cuantiles de la “cola de la
derecha”, desde 0,900 hasta 0,995, calculados con Excel, son:
p zp = F-1(p) p zp = F-1(p)
0,900 1,28155157 0,950 1,64485363
0,905 1,31057911 0,955 1,69539771
0,910 1,34075503 0,960 1,75068607
0,915 1,37220381 0,965 1,81191067
0,920 1,40507156 0,970 1,88079361
0,925 1,43953147 0,975 1,95996398
0,930 1,47579103 0,980 2,05374891
0,935 1,51410189 0,985 2,17009038
0,940 1,55477359 0,990 2,32634787
0,945 1,59819314 0,995 2,57582930
Por un razonamiento de simetría, similar al que hemos comentado para la función

de distribución, los cuantiles de probabilidades menores que 0,5 se pueden calcular en
función de los cuantiles de probabilidades mayores que 0,5. En concreto, para toda
probabilidad p se verifica que
zp = -z1-p
Ejemplo 4.14. Vamos a calcular para una variable Z, N(0,1), la probabilidad

de que la variable se encuentre entre 1,5 y 2,5, la probabilidad de que sea
menor que -1 y el cuantil 0,1.
Usando la primera de las tablas anteriores, P(1,5 < Z < 2,5) = FZ(2,5) – FZ(1,5)
= 0,99379033 – 0,93319280 = 0,06059753.
Usando la misma tabla, P(Z < -1) = FZ(-1) = 1 – FZ(1) = 1 - 0,84134475 =
0,15865525.
Usando la segunda tabla, z0,1 = -z0,9 = -1,28155157.
132
4.4.5. Normal ()
La última de las variables aleatorias que vamos a ver es la generalización de la

normal tipificada: la normal de parámetros  y  (N(,)). La familia de distribuciones
normales es quizá una de las más importantes, pues muchas variables de la naturaleza
responden a este modelo normal.
Como la normal tipificada, su rango es toda la recta real. Su función de densidad

es
1 1 𝑥−𝜇
𝑓(𝑥) = √ exp −
𝜎 2𝜋 2 𝜎
La media y desviación típica de la normal N(,) son precisamente  y , por lo que

usualmente se habla de una normal de media  y desviación típica , en lugar de una
normal de parámetros  y .
La función de densidad es positiva para cualquier x y simétrica respecto de la

media . Su forma es también acampanada. El siguiente gráfico muestra la función de
densidad de una N(4,2). Observa que es simétrica respecto del 4 (su media) y es más
achatada que la función de densidad de la N(0,1), pues se achata la función (y se dispersa
la variable) debido a que la desviación típica,  = 2, es mayor que 1.
Una variable aleatoria X, N(,), se puede generar a partir de una variable

aleatoria Z, N(0,1), para cualquier par de constantes  y , ( > 0), con la siguiente
transformación:
X =  + *Z,
Por otra parte, si X es N(,), la variable N(0,1) se puede recuperar mediante la

siguiente transformación (tipificación):
Z = (X - )/.
133
Estas transformaciones permiten utilizar la función de distribución de la N(0,1),

FZ(x), para calcular la función de distribución de X. La función de distribución de una
variable X, N(), en el punto a es la función de distribución de la N(0,1) en el punto
tipificado (a - )/. En efecto,
FX(a) = P(X ≤ a) = P(Z ≤ (a - )/) = FZ((a - )/).
De la misma forma, se pueden utilizar los cuantiles de la N(0,1) para calcular los
cuantiles de X, N(). Si llamamos xp al cuantil p de la distribución de X, esto es, al
punto que verifica P(X ≤ xp) = p, aplicando la tipificación se tiene
p = P(X ≤ xp) = P(Z ≤ (xp - )/)
por lo que zp = (xp - )/, donde zp es el cuantil p de Z, la normal tipificada. Despejando,

xp =  + *zp.
Ejemplo 4.15. Vamos a calcular para una variable X, N(10,4), la probabilidad

de que la variable se encuentre entre 14 y 20, la probabilidad de que sea a lo
más 4 y el cuantil 0,05.
Si Z es la N(0,1), tipificando y usando la tabla de la función de distribución

de Z, tenemos que P(14 < X < 20) = P((14-10)/4 < Z < (20-10)/4) = P(1 < Z < 2,5)
= FZ(2,5) – FZ(1) = 0,99379033 - 0,84134475 = 0,15244558.
La segunda probabilidad de obtiene de la forma P(X ≤ 4) = P(Z ≤ -1,5) = 1 –

FZ(1,5) = 1 - 0,93319280 = 0,06680720.
Por último, para calcular x0,05, hay que calcular primero z0,05. Se tiene que z0,05
= - z0,95 = -1,64485363. Luego x0,05 = 10 + 4*(-1,64485363) = 3,42058.
Nota: los cálculos se han realizado usando las tablas anteriores. Si se usan las tablas de la
N(0,1) que figuran al final de este capítulo, los resultados varían un poco.
4.5. Ejercicios
4.1. La probabilidad de que una persona, escogida al azar en una población determinada,
esté enferma es 0,01. Elegimos 10 personas al azar.
(a) ¿Cuál es la probabilidad de que todas estén sanas?

(b) ¿Cuál es la probabilidad de que haya exactamente 2 enfermas?
(c) ¿Y la probabilidad de que haya alguna persona enferma?
134
(d) Calcula la probabilidad de que haya más de 3 enfermos.

(e) Calcula la probabilidad de que haya menos de 3 enfermos.
4.2. La probabilidad de que una persona, escogida al azar entre pacientes que verifican
ciertas características, esté enferma es 0,2. Tenemos un grupo de 5 personas que
se han elegido al azar de ese grupo de pacientes.
(a) Calcula la probabilidad de que ninguna esté enferma.

(b) Calcula la probabilidad de que haya exactamente 2 enfermas.
(c) Calcula el número esperado de enfermos en ese grupo (esto es, la media de
esta variable aleatoria).
4.3 Un centro de referencia registra los diagnósticos de una enfermedad rara en una
comunidad autónoma. Estudiando los registros de los últimos años, ha llegado a la
conclusión de que un modelo razonable para el número de diagnósticos por año es
una variable Poisson, y que su media es 4. Asumiendo que las condiciones no van a
cambiar para el próximo año, calcula las siguientes probabilidades.
(a) La probabilidad de que haya 4 diagnósticos.

(b) La probabilidad de que no se diagnostique ningún caso.
(c) La probabilidad de que se diagnostiquen al menos 2 casos.
Nota: para algunos de los siguientes problemas puedes necesitar las tablas de la N(0,1) o
bien calcular su función de distribución y sus cuantiles con Excel o R-Commander. Los
resultados que obtengas pueden cambiar en algún decimal dependiendo de la tabla que uses.
4.4. Llamamos X a una variable aleatoria N(0,1). Utilizando su función de distribución,

calcula las siguientes probabilidades.
(a) La probabilidad de que X sea mayor que 1.

(b) La probabilidad de que X esté en el intervalo [0,5 , 1,5].
(c) La probabilidad de que X esté en el intervalo [-1,5 , -0,5].
(d) La probabilidad de que X sea mayor que 1,96.
4.5. Si F(x) es la función de distribución de una variable aleatoria Z, que es N(0,1),

sabemos que F(1,645) = 0,95 y que F(1,960) = 0,975. Por lo tanto, el cuantil z0.95
es 1,645 y el cuantil z0.975 = 1,960.
(a) Obtén los cuantiles z0.9554 y z0.9772 utilizando las tablas de la normal.
(b) Calcula P(X > 2,5).
135
En el tema 5 analizaremos tres tipos de “regiones críticas” para la variable Z

y un número c > 0: la cola a la derecha, {Z ≥ c}, la cola a la izquierda, {Z ≤ -c}, y la
unión de esas dos colas, {Z ≤ -c} U {Z ≥ c}. También definiremos un “nivel de
significación”, 𝛼, con 0 < 𝛼 < 1, que indica una probabilidad lo suficientemente
baja para que un suceso nos parezca “raro”. Se suele usar 𝛼 = 0,05, pero pueden
considerarse otros valores. Si decimos que un suceso es “raro” cuando sólo ocurre
un 5% de las veces (esto es, si 𝛼 = 0,05),
(c) ¿Cuánto tiene que valer c para que el suceso {Z ≥ c} sea “raro”?
(d) ¿Cuánto tiene que valer -c para que el suceso {Z ≤ -c} sea “raro”?
(c) ¿Cuánto tiene que valer c para que el suceso {Z ≤ -c} U {Z ≥ c} sea “raro”?
4.6. La probabilidad de presentar una característica genética en una población es p =

0,05.
(a) Tomando una muestra de 8 individuos, calcula la probabilidad de que

exactamente tres individuos presenten la característica.
(b) Tomando una muestra de 80 individuos, calcula el número esperado de
individuos con esa característica.
(c) (OPCIONAL) Con la muestra de 80 individuos, calcula la probabilidad de que
exactamente 3 individuos presenten la característica.
4.7. El tiempo de supervivencia de un paciente, en años, tras un tipo de intervención

quirúrgica, se puede modelar con una variable aleatoria continua Exponencial de
parámetro a = 0,1.
(a) Calcula la probabilidad de que el paciente fallezca durante el primer año.

(b) Calcula la probabilidad de que su tiempo de supervivencia sea superior a 5
años.
4.8. Tras un ensayo clínico se ha establecido que los pacientes que sufren una
determinada patología presentan un nivel de una sustancia en plasma sanguíneo que
se puede modelar con una N(,), de media  = 106 mg/dl y desviación típica  = 8
mg/dl.
(a) Calcula la probabilidad de que un paciente con esa patología presente un nivel
de esta sustancia en plasma sanguíneo menor que 126 mg/dl.
(b) Calcula la probabilidad de que un paciente con esa patología presente un nivel
de esta sustancia en plasma sanguíneo entre 98 y 122 mg/dl.
(c) Calcula el cuantil 0,05 para esta distribución. ¿Cómo se puede interpretar este
valor?
(d) Calcula la proporción de pacientes con un nivel de esa sustancia mayor de 119,6
mg/dl.
136
(e) Calcula la proporción de pacientes con un nivel de esa sustancia mayor de 102
mg/dl.
(f) Calcula el nivel de esa sustancia tal que por debajo de él se encuentra el 25%
de los pacientes.
4.9. Unos investigadores han concluido que la distribución de la glucemia basal en

individuos sanos (X) tiene una distribución normal con media 80 y desviación típica
10, mientras que la distribución de la glucemia basal en individuos diabéticos (Y)
es también normal, pero con media 160 y desviación típica 30.
(a) En el grupo de diabéticos, indica el valor g de la glucemia basal que deja por
debajo al 2% de los mismos (y por tanto, por encima al 98%).
Como prueba diagnóstica proponen clasificar como diabéticos a todos los que
presenten una glucemia basal superior al valor anterior g.
(b) Calcula el porcentaje de sanos que se detectarían como diabéticos con esta
prueba diagnóstica.
(c) Si sabemos que el porcentaje de diabéticos en esa población es el 10%, y
utilizamos esa prueba diagnóstica con una persona elegida al azar, ¿cuál es la
probabilidad de que sea, efectivamente, diabético si la prueba lo ha clasificado
como tal?
4.10. (OPCIONAL) Un médico aplica un test a 10 alumnos de un colegio para detectar

una enfermedad cuya prevalencia sobre la población de alumnos es del 10%. La
sensibilidad del test es del 80% y la especificidad del 75%.
(a) ¿Cuál es la probabilidad de que exactamente a cuatro alumnos de los 10 les dé

un resultado positivo?
(b) Si en la muestra hay cuatro alumnos a los que el test les da positivo, ¿cuál es
la probabilidad de que, entre estos, exactamente dos estén sanos?
(c) Calcular la probabilidad de que el test suministre un resultado incorrecto para
dos alumnos de entre los 10. Calcular la probabilidad de que el resultado sea
correcto para más de siete alumnos de entre los 10.
AYUDA: para contestar los apartados anteriores, tendréis que usar binomiales, con
distintos parámetros en cada apartado. Los datos sobre sensibilidad y especificidad os
permitirán calcular el parámetro p de las diferentes binomiales.
4.11. El tiempo, en horas, hasta la desaparición de un síntoma tras la aplicación de un

tratamiento se puede modelar con una variable exponencial de parámetro a = 0,02.
En un paciente elegido al azar, calcula las siguientes probabilidades.
137
(a) La probabilidad de que haya desaparecido cuando han pasado 12h.

(b) La probabilidad de que no haya desaparecido a los 2 días.
(c) La probabilidad de que no haya desaparecido una semana después.
(d) La probabilidad de un suceso modela la frecuencia con la que puedo esperar
observarlo en muchas repeticiones realizadas en las mismas condiciones y de
forma independiente. Si aceptamos este principio, calcula el número de días
que tendremos que esperar para que, en la revisión, el síntoma haya
desaparecido en, al menos, el 85% de los pacientes.
4.12. El número de días que transcurren hasta que un paciente en una lista de espera es
llamado para la realización de un trasplante se pude modelar con una exponencial
de parámetro 0,01.
(a) Calcula el tiempo medio que tardarán el llamarle.

(b) Calcula la probabilidad de que lo hayan llamado los primeros 50 días.
(c) Calcula la probabilidad de que lo hayan llamado los primeros 100 días.
(d) Calcula la probabilidad de que NO lo hayan llamado cuando ya ha pasado un año
(365 días).
(e) Calcula la mediana de X.
4.13. La distribución del colesterol, expresada en gr/L, en una población particular, se

puede modelar como una variable aleatoria continua X con función de densidad de
probabilidad f(x) = x/8, si 0 < x < 4 y función de distribución F(x) = x2/16, si 0 < x
< 4.
(a) Calcula la probabilidad de que X sea menor o igual que 2.

(b) Calcula la probabilidad de que sea mayor que 2, pero menor o igual que 2,4.
(c) Si consideramos los intervalos de clase (0,1], (1,2], (2,3] y (3, 4], calcula la
probabilidad de que X esté en cada uno de esos intervalos.
(d) Calcula el valor del nivel de colesterol que deja por debajo al 64% de esa
población.
4.14. Si un padre tiene miopía, la probabilidad de que uno de sus descendientes sea miope
es 0,5 cuando la madre no es miope, y 0,75 cuando la madre es también miope.
Supongamos que el número de descendientes de ese padre ha sido 4 y que la madre
no es miope.
(a) Calcula la probabilidad de que sólo 1 de sus descendientes sea miope.

(b) Calcula la probabilidad de que todos sus descendientes sean miopes.
(c) Calcula la probabilidad de que al menos uno de sus descendientes sea miope.
(d) Calcula el número esperado de descendientes con miopía.
(e) Contesta a las preguntas anteriores suponiendo que la madre es también miope.
138
4.15. Sea X una variable aleatoria exponencial de parámetro 0,3.
(a) Calcula la probabilidad de que X sea mayor que 2.

(b) Calcula la probabilidad de que X sea menor que 4.
(c) Calcula la probabilidad de que X esté entre 3 y 6.
(d) Calcula la probabilidad de que X sea menor que 2 o mayor que 8.
(e) Calcula los cuantiles 0,25 y 0,6.
4.16. Sea X una variable aleatoria U(10,20).

(d) Calcula la probabilidad de que X sea menor que 12 o mayor que 18.
(e) Calcula los cuantiles 0,25 y 0,6.
4.17. Para cualquier persona, se sabe que el tiempo de respuesta ante un determinado
estímulo se comporta de manera uniforme entre medio segundo y segundo y medio.
(a) Calcula el tiempo esperado de respuesta ante ese estímulo para una persona
cualquiera.
(b) Calcula la probabilidad de que el tiempo de respuesta sea inferior a un segundo
para una persona cualquiera.
(c) Para una persona cualquiera, calcula la probabilidad de que el tiempo de
respuesta se encuentre entre 0,8 y 1,3 segundos.
(d) Calcula el tiempo de respuesta t para el que el 90% de las personas que
realizasen el experimento, su tiempo de respuesta fuese inferior a t.
4.18. Sea X una variable aleatoria N(20,4).

(d) Calcula los cuantiles 0,4 y 0,9.
4.19. Dos determinados fabricantes facilitan analgésicos a un determinado hospital. El

primero de los fabricantes facilita el 70% de los analgésicos y el segundo el 30%
restante. Para el primer fabricante, se sabe que el tiempo necesario para que uno
de sus analgésicos surta efecto en una persona cualquiera se comporta como una
normal de media 30 minutos y desviación típica 4 minutos. Para los analgésicos del
segundo de los fabricantes, ese tiempo es normal de media 36 minutos y desviación
típica 8 minutos. Sabiendo que el tiempo de respuesta tras administrar un
139
analgésico a un paciente ha sido inferior a 32 minutos, calcula las siguientes

probabilidades.
(a) La probabilidad de que el analgésico administrado por el hospital al paciente

provenga del primer fabricante.
(b) La probabilidad de que el analgésico administrado por el hospital al paciente
provenga del segundo fabricante.
140
Tabla de la N(0,1)
La siguiente tabla permite calcular la función de distribución de la normal tipificada
para los valores positivos de 0 a 3 con dos decimales. Por ejemplo, para el valor 1,96, la
función de distribución de la normal tipificada vale FZ(1,96) = 0,9750.
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
141
5. Inferencia estadística
5.1. Introducción
En muchas investigaciones científicas se tiene que determinar el colectivo o

población de interés sobre el que se quiere obtener resultados, el problema que se
quiere resolver y, en particular, las preguntas a las que se quiere responder. Para poder
hacerlo, es necesario obtener los valores de algunas de las características relevantes
para ese problema (variables estadísticas) en un número suficientemente grande de
individuos de ese colectivo.
Usualmente, no se puede acceder a toda la población, y se tiene que realizar una

inferencia a partir de lo que se obtenga en un subgrupo o muestra representativa de
esa población. La teoría del muestreo es precisamente la ciencia que proporciona las
herramientas para la elección de esa muestra representativa, mientras que la inferencia
estadística es la ciencia que proporciona las técnicas adecuadas para aplicar a la
población objeto del estudio los resultados obtenidos sobre la muestra.
En ambas ciencias, el modelo teórico utilizado para las variables estadísticas son
las variables aleatorias. A partir de estas últimas, el objetivo fundamental es entonces
obtener un modelo teórico completo y adecuado para todas las variables de interés, que
permita responder a las preguntas de la investigación.
En lo que sigue, vamos a estudiar el método de obtención de muestras más

utilizado, el muestreo aleatorio simple, y tres tipos de procedimientos habituales en
inferencia estadística: la estimación de parámetros, los intervalos de confianza y los
contrastes de hipótesis. Previamente, revisaremos los conceptos de población y
muestra.
5.2. Población y muestra
Llamamos población al conjunto de individuos de los que queremos obtener

información (midiendo u observando los valores de las variables de interés en esos
individuos). Aunque hablemos de individuos o casos, una población puede estar
142
compuesta por personas, por animales o por objetos. Más precisamente, nos van a
interesar las mediciones (datos) de las variables para esos individuos.
Ejemplo 5.1. Nivel de colesterol
Estamos interesados en el nivel de colesterol de las personas de Zaragoza

que cumplen los requisitos de admisibilidad para entrar un ensayo clínico
concreto y a una fecha determinada. Llamamos población al conjunto de todas
esas personas, pero también al conjunto de mediciones del nivel de colesterol
de esas personas en esa fecha.
Ejemplo 5.2. Rendimiento de un tratamiento
Como paso previo a la autorización para distribuir un medicamento, se hace

un estudio sobre cobayas de un determinado tipo. En particular, interesa
medir el nivel de toxicidad y la eficacia de una serie de dosis de ese
medicamento. La población está formada por esos cobayas, y también
llamaremos población a las mediciones de las reacciones a la medicación en
todos esos cobayas.
Una forma de hacer este tipo de estudios es el censo. Un censo consiste en obtener
la información de las características de interés para todos los individuos de la población.
Este camino no siempre es posible, bien por falta de tiempo, bien por el coste que
supondría, bien por la imposibilidad material de tener acceso a todos los individuos.
Un procedimiento alternativo es medir las variables que nos interesan en un

subgrupo de la población, este subgrupo y, más precisamente, los datos obtenidos para
este subgrupo, son la muestra.
La forma de seleccionar la muestra debe garantizar que ésta sea lo

suficientemente representativa como para que los resultados obtenidos sobre ella se
puedan aplicar a toda la población. Trataremos este problema en la siguiente sección.
5.3. Técnicas de muestreo
Para obtener muestras representativas de una población, existen diferentes

técnicas de muestro. Nosotros vamos a centrarnos en una de las técnicas de muestro
más utilizadas, el muestreo aleatorio simple.
Dentro de las técnicas de muestreo, se suelen distinguir dos situaciones: el

muestreo simple, en el que la muestra es obtenida en un único paso, y los muestreos
complejos, en los que la obtención de la muestra necesita de varios pasos. Los muestreos
143
complejos más habituales son el muestreo estratificado y el muestreo por

conglomerados, pero estos procedimientos están fuera de los objetivos de este curso y
no los vamos a describir.
El muestreo simple puede ser no probabilístico o probabilístico. En el muestreo no

probabilístico, la probabilidad de cada posible muestra no se conoce de antemano; más
bien se utilizan procedimientos específicos para conseguir algún objetivo determinado.
Estos procedimientos pueden producir sesgos en la selección de la muestra que pueden
ser importantes.
Nota: dos ejemplos de muestreo no probabilístico son el muestreo de voluntarios, en el que

se deja a la decisión de cada persona el entrar o no en la muestra, y el muestreo de
conveniencia, en el que se le indican al encuestador los objetivos a cumplir (una determinada
proporción de hombres y mujeres, o de distintas franjas de edad) y se deja a su criterio la
selección de los individuos.
En el muestreo probabilístico la elección de la muestra se deja al azar, como

resultado de algún tipo de sorteo, pero de forma que se conozca de antemano la
probabilidad de que un individuo concreto entre en la muestra y también se conozca la
probabilidad de obtener cada una de las posibles muestras de n individuos.
El muestreo probabilístico más utilizado es el muestreo aleatorio simple. En una

población finita este muestreo aleatorio simple se puede realizar con un procedimiento
conceptualmente sencillo. Asociamos un número distinto a cada individuo de la población
y luego sorteamos entre todos esos números (utilizando algún procedimiento similar al
bombo de la lotería) y repetimos el procedimiento tantas veces como haga falta para
obtener todos los individuos de la muestra.
Con este procedimiento garantizamos que cada individuo de la población tiene la

misma probabilidad de ser elegido y que la elección de un individuo no influye en la
elección de otros. Con ello, todas las muestras posibles de tamaño n de la población
tienen la misma probabilidad de ser obtenidas. Además, si suponemos un modelo
teórico (variable aleatoria) para la característica de interés (variable estadística) en
toda la población, podemos estar seguros de que la distribución de esa característica
en la muestra tiene el mismo modelo teórico que en la población y además que todas las
observaciones en la muestra son independientes entre sí.
Cuando la población no es finita, las exigencias del muestreo son las mismas: cada
observación de una variable en un individuo tiene que hacerse de forma independiente
de las observaciones en los demás individuos, y todas ellas deben de hacerse en las
mismas condiciones para garantizar que la distribución de la variable es la misma en
todos los casos.
144
En particular, si la observación es el resultado de un experimento, habrá que tener

cuidado de que ese experimento se realice siempre en las mismas condiciones, las
mediciones se hagan con el mismo o similar instrumento, con el mismo protocolo de
obtención y de forma que las mediciones anteriores no puedan influir en la medición
actual.
En definitiva, en el muestreo aleatorio simple, el modelo teórico de una muestra

de tamaño n de una variable X será una n-tupla de variables aleatorias (X1,…,Xn). El
muestreo aleatorio simple garantiza que todas ellas tienen la misma distribución, la de
X, y además que estas variables son independientes entre sí.
La muestra concreta de tamaño n que obtendremos la consideraremos como una

realización particular de esa n-tupla teórica (X1,…,Xn), y la denotaremos con minúsculas:
(x1,…,xn).
Para entender mejor la diferencia entre el modelo teórico (X1,…,Xn) y su realización

concreta (x1,…,xn), podemos imaginar el siguiente experimento mental: obtenemos, de
forma independiente y en las mismas condiciones, un número muy grande, k, de muestras
de tamaño n. Cada "observación" de ese experimento mental está formada por estos n
números (x1,…,xn). Estas k n-tuplas serán, en general, distintas. Pero el modelo teórico
(X1,…,Xn) es siempre el mismo.
En lo que sigue, cuando hablemos de muestra, entenderemos que estamos hablando

de una muestra aleatoria simple.
5.4. Estimación de parámetros
En esta sección vamos a ver la primera de las técnicas de la inferencia estadística,

como es la estimación de algún parámetro de interés de una población.
Vamos a suponer que la variable que queremos estudiar en una población tiene una
distribución conocida (Normal, Poisson, etc.), pero alguno de sus parámetros no es
conocido. Nos planteamos entonces el problema de estimar el valor de alguno esos
parámetros utilizando los valores de la muestra aleatoria simple (X1,…,Xn).
Llamamos estimador de un parámetro (de una variable asociada una población) al

estadístico que se utiliza para estimar ese parámetro. Recuerda que un estadístico no
es mas que una función W(X1,…,Xn) de la muestra (X1,…,Xn),
Ejemplo 5.3. Lanzamientos de una moneda.
145
En un programa de televisión proponen el siguiente juego: van a lanzar una

moneda, y ganaremos un premio si acertamos el resultado, cara o cruz.
Sabemos que este lanzamiento es un experimento Bernoulli de parámetro p,
donde p es la probabilidad de obtener cara. Si la moneda es legal, p sería 0,5
y nuestras posibilidades de ganar son las mismas si decimos cara o cruz.
Pero si p es desconocido a priori (no es 0,5), y somos capaces de estimarlo,

podemos mejorar nuestras opciones apostando por el resultado más probable.
Supongamos que podemos disponer de la moneda y nos dejan realizar 20
lanzamientos previos. Si obtenemos 2 caras y 18 cruces, parece razonable
suponer que p < 0,5, y que sería más provechoso apostar por cruz. Una
estimación razonable de la probabilidad de obtener cara es la frecuencia
relativa observada de caras en los 20 lanzamientos: 2/20 = 0,1.
En términos generales, el problema de estimación se suele plantear de la siguiente

manera: dada una muestra aleatoria simple (X1,…,Xn) proveniente de una variable
aleatoria X que depende de un parámetro  desconocido, dar una estimación del valor
de  a partir de una función de la muestra (estimador). En el ejemplo anterior, la variable
X era una Bernouilli de parámetro p desconocido, la muestra estaba formada por los 20
lanzamientos de la moneda y el estimador de p era la frecuencia relativa.
Se han propuesto en la literatura diferentes métodos para construir estimadores

con buenas propiedades en diferentes situaciones. Nosotros no vamos a entrar en ningún
detalle y sólo vamos a describir los dos estimadores más utilizados, que nos permiten
estimar la media y la desviación típica de una variable asociada a una población.
Estimación de la media poblacional X
Sea X una variable aleatoria de media X asociada a una característica de una

cierta población, y sea (X1,…,Xn) una muestra aleatoria simple de esa variable. Se puede
demostrar que la media muestral
M(X) = (X1+…+Xn)/n
es un buen estimador de la media poblacional (X). En particular, que utiliza toda la

información de la muestra, que es mejor cuanto mayor es el tamaño de la muestra y que
no tiene sesgos.
Observa que esta definición es un modelo teórico asociado al modelo teórico del
muestreo aleatorio simple (X1,…,Xn). Dada la población, nos planteamos extraer una
muestra (X1,…,Xn) (pero no la hemos extraído todavía) y con ella nos planteamos calcular
su media M(X) (pero no la podemos calcular todavía porque no tenemos los datos de la
muestra). Por tanto, en este modelo teórico, M(X) es una variable aleatoria, cuyos
146
posibles valores son las medias de las posibles muestras que se puedan extraer de la
población. En la práctica, una vez extraída la muestra, ya tendremos unos valores
concretos (x1,…,xn) de la muestra (X1,…,Xn), que nos permitirán dar un valor concreto
m(x) = (x1+…xn)/n para M(X). Este valor es el que nos servirá para estimarX. Diferentes
muestras concretas, (x1,…,xn) y (x’1,…,x’n), darán diferentes valores m(x) y m’(x) para la
media muestral M(X) y darán diferentes estimaciones para 𝜇 .
Nota: para entender mejor esta dualidad entre el valor concreto de la media, m(x), y la
variable aleatoria M(X), podemos considerar el mismo experimento mental que ya hemos
utilizado antes con la muestra aleatoria simple. Disponemos de k muestras, del mismo tamaño
n, de X. Para cada una de esas muestras calculamos la correspondiente media, m(x)1, m(x)2,
m(x)3,..., m(x)k y las denotamos con subíndices para indicar la muestra de la que provienen.
Estas medias son en general distintas, pero todas tienen el mismo modelo, la variable
aleatoria M(X), y se pueden ver como observaciones particulares (una muestra) de esa
variable M(X). La distribución de M(X) se podría aproximar con el histograma de esas k
medias.
Ejemplo 5.4. Nivel de colesterol.
En un hospital, se está estudiando el nivel de colesterol de los pacientes

ingresados (población) y se asume que el nivel de colesterol de cualquier
paciente se comporta como una variable aleatoria X de media X y desviación
típica X (desconocidas). Como no quieren analizar a todos los pacientes,
deciden realizar un sorteo y miden el nivel de colesterol de los 30 pacientes
sorteados (muestra). Los niveles de colesterol para los 30 pacientes elegidos
son 215, 240, 190, …, 260, cuya media es m(x) = 227,57.
Con estos datos, la estimación que propondríamos para X, el nivel medio de
colesterol de los pacientes del hospital, sería de 227,57.
Estimación de la desviación típica poblacional X
Sea X una variable aleatoria de media X y desviación típica X, asociada a una
característica de una cierta población, y sea (X1,…,Xn) una muestra aleatoria simple de
esa variable. Un buen estimador de la desviación típica poblacional de X, X, es la
desviación típica muestral
1
𝑆(𝑋) = (𝑋 − 𝑀(𝑋))
𝑛−1 =
Como sucedía con la media muestral, S(X) es una variable aleatoria bajo el modelo
del muestreo aleatorio simple. Utilizaremos minúsculas, s(x), cuando hagamos
referencia a un valor concreto de S(X) para una muestra particular.
147
Se puede probar que S(X) tiene buenas propiedades como estimador de X. En
particular, que utiliza toda la información de la muestra, que es mejor cuanto mayor es
la muestra, y que no tiene sesgos.
Siguiendo con el ejemplo 5.4, nos dicen que la desviación típica muestral para
los datos de los 30 pacientes escogidos es 23,72. La estimación que
propondríamos para X, la desviación típica del nivel de colesterol de los
pacientes del hospital, sería de 23,72.
Nota: para estimar la varianza 𝜎 usaremos 𝑆 (𝑋) = −

∑ = 𝑋 − 𝑀(𝑋)
5.5. Distribuciones de los estadísticos en el muestreo
Antes de continuar describiendo otras técnicas de la inferencia estadística, vamos

a ver en esta sección algunas propiedades adicionales que tienen algunos estadísticos
bajo el muestreo aleatorio simple. Estas propiedades son fundamentales para poder
construir intervalos de confianza y contrastes de hipótesis, las otras técnicas de la
inferencia estadística que explicaremos más adelante.
Recuerda que el modelo teórico de una muestra de tamaño n de una variable X es

una n-tupla de variables aleatorias (X1,…,Xn) y que, cuando el muestreo es aleatorio
simple, todas las variables Xi son independientes y tienen la misma distribución que X.
Recuerda también que M(X), la media muestral, era una variable aleatoria bajo el
muestreo aleatorio simple. Eso sucede para cualquier estadístico W(X1,…,Xn) que se
defina a partir de la muestra: el estadístico es una variable aleatoria. Para cada muestra
concreta (x1,…,xn), el estadístico w(x1,…,xn) es un número, pero si consideramos todas
las muestras posibles tendremos un valor del estadístico, en general distinto, para cada
muestra. Tiene sentido entonces plantear el problema de calcular la media, la desviación
típica, y la distribución de probabilidad de W(X1,…,Xn).
A continuación, vamos a estudiar las características de la distribución de dos

estadísticos en particular, la suma y la media muestral. Estudios similares se pueden
hacer para cualquier otro estadístico.
Distribución de la suma Sn = X1 + … + Xn
Si X es una variable aleatoria con media poblacional X y desviación típica

poblacional X, para cada muestra (x1,…,xn) podemos calculamos su suma sn = x1+…+xn.
148
Se puede asegurar que para la variable aleatoria Sn = X1 + … + Xn, que es el modelo

teórico de estas sumas, se tienen las siguientes propiedades:
1. La media poblacional de Sn es 𝑛𝜇 .
√
2. La desviación típica poblacional de Sn es 𝑛𝜎 .
√
3. Si X es normal, la distribución de Sn es 𝑁 (𝑛𝜇 , 𝑛𝜎 ), y tipificando
𝑆 − 𝑛𝜇
𝑍= √ ≡ 𝑁 (0,1)
𝜎 𝑛
Nota: el símbolo “" significa "se distribuye como". Aquí “ N(0,1)” se usa para indicar “se
distribuye como una variable aleatoria N(0,1)”.
Teorema Central del Límite y sus aplicaciones
Cuando no se conoce la distribución de X, pero el tamaño muestral n es

suficientemente grande, se puede asegurar también que:
√
la distribución de Sn es, aproximadamente, 𝑁 (𝑛𝜇 , 𝑛𝜎 ).
Este resultado de aproximación se conoce como Teorema Central del Límite y es

muy útil porque permite aplicar los procedimientos estadísticos válidos bajo la
suposición de que la variable X es normal, en las situaciones en las que no se conoce cuál
es la distribución de la variable pero el tamaño muestral n es suficientemente grande,
que son bastante frecuentes en las aplicaciones.
La aproximación es mejor cuanto mayor es n. Si no se tiene ninguna información

sobre la distribución de X se acepta que la aproximación es razonablemente buena
cuando el tamaño muestral n es 30 o más.
Nota: observa que el teorema central del límite dice que la SUMA de las n variables es
aproximadamente, normal, pero no que lo sea la distribución de X.
El Teorema Central del Límite se puede aplicar también a variables discretas X,

como se puede ver en los siguientes ejemplos.
Ejemplo 5.6: Cajas de guantes.
Supongamos que en un hospital el stock de cajas de guantes de latex es de

1550 cajas. La experiencia nos dice que se suelen gastar diariamente
alrededor de 50 cajas, con una desviación típica de 6 cajas. Nos preguntamos
149
con qué probabilidad esas 1550 cajas serán suficientes para las necesidades
del próximo mes (30 días).
Vamos a llamar X al número de cajas de guantes que se consumen diariamente,

que será una variable aleatoria con X = 50 y X = 6.
El número de cajas de guantes que se consumirán los próximos 30 días será
S30 = X1 + … + X30, donde Xi representa el número de cajas de guantes
gastadas el día i. Observa que la distribución de cada una de las Xi es la misma
que la distribución de X. Suponiendo que la cantidad de cajas de guantes que
se gastan un día no tiene nada que ver con la cantidad de cajas que se gastan
otro día (esto es, que los Xi son independientes), por el Teorema Central del
√
Límite, la distribución de S30 será, aproximadamente, N(30*50, 6 30 ). Como
n = 30, la aproximación será razonablemente buena.
Para saber si las 1550 cajas serán suficientes, hay que calcular la probabilidad
de que S30 sea menor o igual a 1550:
√
P(S30 ≤ 1550) = P(Z ≤ (1550-1500)/ (6 30) ) ≈ P(Z ≤ 1,52) = 0,9357.
Por tanto, tenemos un 93,57% de posibilidades de poder satisfacer las

necesidades de guantes durante el próximo mes con esas 1550 cajas.
Ejemplo 5.7: Cajas de guantes (2)
Siguiendo con el ejemplo anterior, se podría plantear el problema inverso, es

decir, cuántas cajas de guantes deberíamos de tener en stock para garantizar
que vamos a cubrir las necesidades de cajas de guantes con probabilidad 0,99,
al menos, en los siguientes 30 días.
El número de cajas necesario, c, tiene que cumplir P(S30 ≤ c) = 0,99, o

equivalentemente (tipificando), P(Z ≤ (c-1500)/ (6√30)) = 0,99.
Como el cuantil de orden 0,99 de una distribución N(0,1) es 2,33, entonces

(c-1500)/ (6√30) = 2,33, con lo que c = 1576,57 < 1577 (Redondeando por
exceso podemos garantizar que la probabilidad es 0,99 o mayor). Luego
deberíamos tener en stock 1577 cajas de guantes para garantizar al 99% que
vamos a poder satisfacer las demandas de cajas de guantes en los próximos
30 días.
150
Distribución de la media muestral, conocida X
Recuerda que el modelo teórico de la media muestral era la variable aleatoria M(X)
= (X1+…+Xn) /n y observa que M(X) = Sn/n. Por lo tanto, los resultados para la variable
aleatoria M(X) se pueden deducir de los obtenidos para la suma, dividiendo por la
constante n. Si X y X son la media y desviación típica de la variable X de partida, se
puede demostrar que:
1. La media poblacional de M(X) es 𝜇 .

2. La desviación típica poblacional de M(X) es 𝜎 /√𝑛.
3. Si X es normal, la distribución de M(X) es 𝑁(𝜇 , ) y tipificando
√
𝑀(𝑋) − 𝜇
𝑍= 𝜎 ≡ 𝑁 (0,1)
√
𝑛
Nota: estos resultados indican que el valor medio de M(X) es X y que la desviación típica de
M(X) es X /√𝑛, que tiende a 0 cuando n es grande. Por tanto, la media muestral estará muy
próxima a la poblacional si n es suficientemente grande, y será un buen estimador de la media
poblacional.
Además, si X es normal la media muestral también es normal. Como la distribución de Z está
completamente determinada, la podremos usar en la siguiente sección para construir
intervalos de confianza y contrastes de hipótesis sobre la media poblacional X si la
desviación típica es conocida.
Cuando no se conoce la distribución de X, el Teorema Central del Límite permite

asegurar que el resultado 3 también es cierto, aunque de forma aproximada, y que esa
aproximación es mejor cuanto mayor es n. Como ya hemos indicado, en ausencia de
información sobre la distribución de X se considera que la aproximación es buena a
partir de n = 30.
Siguiendo con el ejemplo 5.4, un investigador piensa que el nivel de colesterol

(variable X) de cualquier paciente es una N(200,15). Nos preguntamos hasta
qué punto esta suposición es consistente con la información proporcionada
por los 30 pacientes, que daba un nivel medio de colesterol m(x) = 227,57.
Como X es N(200,15), desde el punto de vista teórico M(X) es una

N(200,15/√30), ya que n=30. Si calculamos P(M(X) ≥ 227,57) obtenemos
P(M(X) ≥ 227,57) = P(Z ≥ (227,57-200)/(15/√30)) = P(Z ≥ 10,07) = 0. Esto
indica que el suceso M(X) ≥ 227,57 es muy raro para la distribución
N(200,15/√30), por lo que la suposición del investigador no es consistente con
la información proporcionada por la muestra.
151
Distribución de la media muestral, estimando X
En la práctica, la desviación típica X no suele ser conocida y se estima utilizando

S(X). Sustituyendo X por S(X) en Z, se obtiene una nueva variable aleatoria, que
denotaremos T:
𝑀(𝑋) − 𝜇
𝑇 = ≡ 𝑡 −
𝑆(𝑋)
√
𝑛
La distribución de T es simétrica en torno a 0, pero ya no es N(0,1). Depende del

tamaño muestral n y se llama t de Student con n-1 grados de libertad. Si X es normal,
este resultado es exacto y T se distribuye como una t de Student con n-1 grados de
libertad para cualquier tamaño n. Si X no es normal, este resultado es válido de forma
aproximada para valores de n suficientemente grandes.
Veamos con un poco más de detalle esta familia de distribuciones t de Student.
Distribución t de Student con k grados de libertad
La función de densidad de la variable aleatoria t de Student con k grados de

libertad es simétrica y con forma de campana. Solo depende de un parámetro, sus k
grados de libertad. El siguiente gráfico, que se ha obtenido utilizando R, permite
comparar la forma de la función de densidad de la N(0,1), en línea discontinua, con las
funciones de densidad de la t de Student para 1, 2, 5 y 30 grados de libertad.
152
Observa que cuando el número de grados de libertad k es pequeño, la t tiene más

"peso" en las colas que la N(0,1), pero conforme aumenta k, la t tiende a parecerse cada
vez más a la N(0,1).
La media de la t de Student con k grados de libertad es 0, si k  2 (la t con 1 grado

de libertad no tiene media). Si k  3, su varianza es finita y vale k/(k-2).
Como sucede con las variables normales, no existe una fórmula simple para calcular
la función de distribución o para calcular cuantiles. Cuando se necesiten, habrá que
recurrir a tablas o a paquetes estadísticos. Al final de este tema, encontraréis tablas
resumidas de la t de Student para diferentes grados de libertad.
Por último, como cualquier t de Student es simétrica respecto del 0, se tienen las
siguientes propiedades, similares a las de la N(0,1). Si T es una t de Student con k
grados de libertad y tp,k es el cuantil p de T,
FT(-x) = P(T ≤ -x) = P(T ≥ x) = 1 - FT(x)
tp,k = - t1-p,k
Ejemplo 5.9. Sea T es una t de Student con 8 grados de libertad. Vamos a

calcular P(T ≤ 1), P(T ≤ -2) y el cuantil 0,97.
Usando la tabla de la t de Student con 8 grados de libertad, tenemos que P(T

≤ 1) = 0,8267 y que P(T ≤ -2) = 1 - P(T ≤ 2) = 1 – 0,95974 = 0,04026. Por último,
como P(T ≤ 2,2) = 0,97050, el cuantil 0,97 será aproximadamente t0,97,8 = 2,2.
5.6. Intervalos de confianza
Otra de las técnicas muy usadas de la inferencia es la construcción de intervalos

de confianza. Se asume que se tiene una muestra aleatoria simple (X1,…,Xn), que proviene
de una variable aleatoria X que depende de un parámetro  desconocido.
Un intervalo de confianza de nivel p para un parámetro  de una variable aleatoria

X está formado por dos estadísticos, un límite inferior LI, y un límite superior LS, de
forma que el intervalo aleatorio [LI, LS] cubre al parámetro  con probabilidad p.
Formalmente:
P(LI ≤  ≤ LS) = p.
153
Al intervalo [LI, LS] lo llamamos intervalo de confianza bilateral de nivel p (o

100*p%) para el parámetro .
Nota: si volvemos a considerar el experimento mental de obtener muchas muestras distintas,

para cada una de ellas podemos construir un intervalo de confianza. El nivel de confianza
puede interpretarse como el porcentaje de esos intervalos de confianza que tienen en su
interior el parámetro .
Es habitual denotar el nivel de confianza p como 1- para recalcar su relación con
otro concepto que estudiaremos más adelante: el nivel de significación  de un contraste
de hipótesis.
Pueden definirse de forma análoga los intervalos de confianza unilaterales [LI,+∞)

y (-∞, LS], que son los que verifican, respectivamente, que P(LI ≤ ) = 1- y que P( ≤
LS) = 1-.
Existen diversos procedimientos para construir intervalos de confianza sobre

diferentes parámetros en distintas circunstancias. Nosotros sólo vamos a ver cómo
obtener intervalos de confianza para la media poblacional X en dos situaciones
distintas: cuando X es conocida y cuando no lo es y la tenemos que estimar.
5.6.1. Intervalo de confianza para X conocida X
Llamamos intervalo de confianza de nivel 95% para la media X de una población

(variable) X normal al par de estadísticos LI y LS que verifican:
P(LI ≤ X ≤ LS) = 0,95.
El cálculo explícito de LI y LS se puede realizar utilizando la distribución de la

variable aleatoria M(X) tipificada
𝑀(𝑋) − 𝜇
𝑍= 𝜎
√
𝑛
que es N(0,1). Como el nivel de confianza es 95%, necesitamos encontrar un número z

que verifique
P(-z ≤ Z ≤ z) = 0,95.
Ese número z tiene que ser, por la simetría de la N(0,1) en torno a 0, el percentil
0,975, que se denota z0,975, y cuyo valor es z0,975 = 1,960.
154
Nota: recordemos (véase el Tema 4) que para una variable aleatoria X con función de
distribución F(x), el cuantil p es la inversa de la función de distribución en p. Para la N(0,1),
zp = F -1(p).
El cuantil 0,975, z0,975, deja a su izquierda una probabilidad 0,975 y a su derecha una
probabilidad 0,025. Por simetría, sabemos que z0,025 = -z0,975. Por tanto, P(-z0,975 ≤ Z ≤ z0,975)
es 0,95.
En general, para un nivel de confianza cualquiera 1-, el valor de z será z1-/2.

Despejando X en el suceso {-z ≤ Z ≤ z} con z = z1-/2, se obtienen los dos límites
LI = M(X) – z1-/2 * √
LS = M(X) + z1-/2* √
Este intervalo de confianza también se puede utilizar cuando la distribución de X

es desconocida. En ese caso el nivel de confianza es aproximado, pero la aproximación
es buena si n es suficientemente grande.
El intervalo de confianza al 95% es el más habitual, pero pueden construirse

intervalos de confianza para otros niveles (por ejemplo, al 90% o al 99%, con los
cuantiles z0,95 y z0,995, respectivamente).
Los intervalos de confianza unilaterales al nivel 1- se construyen de forma análoga
a partir de Z. El cuantil z que verifica que P(Z ≤ z) = 1-, es z1-. La variable LI del
intervalo [LI,+∞) se obtiene despejando X en la desigualdad Z ≤ z1-, y es
LI = M(X) – z1-* √
El cuantil z que verifica que P(z ≤ Z) = 1-, es z = -z1-. La variable LS del intervalo
(-∞, LS] se obtiene despejando X en -z1- ≤ Z, y es
LS = M(X) + z1-*√
Ejemplo 5.10. Nos piden calcular un intervalo de confianza al nivel 95% para
la media de una variable X que sabemos que es Normal y que tiene una
desviación típica conocida X = 6. Al extraer una muestra de tamaño 9, se ha
observado una media muestral m(x) = 17,3.
Al ser el nivel de confianza 1-=0,95, a través de las tablas de la N(0,1)

obtenemos que z0,975 = 1,96.
Por tanto, LI = 17,3 – 1,96*6/3 = 13,38 y LS = 17,3 + 1,96*6/3 = 21,22. El
intervalo de confianza para la media al 95% es [13,38, 21,22].
155
5.6.2. Intervalo de confianza para X estimando X
Supongamos que X no es conocida. Entonces el intervalo de confianza habrá que

construirlo estimando X con S(X) y usando la variable
𝑀(𝑋) − 𝜇
𝑇 =
𝑆(𝑋)
√
𝑛
que se distribuye como una t de Student con n-1 grados de libertad, si X es normal.
Con un procedimiento semejante al utilizado en la sección anterior, se puede

obtener el intervalo [LI, LS] para X, con nivel de confianza 1-, donde:
( )
LI = M(X) – t1-/2,n-1* √
( )
LS = M(X) + t1-/2,n-1* √
y t1-/2,n-1 es el cuantil 1-(/2) de una t de Student con n-1 grados de libertad.

Este intervalo de confianza también se puede utilizar cuando X no es normal. En
ese caso el nivel de confianza es aproximado, pero la aproximación es buena si n es
suficientemente grande.
Nota: observa que el intervalo es semejante al obtenido en la sección anterior, cambiando X

por su estimación S(x) y los cuantiles de la N(0,1) por los de la t con n-1 grados de libertad.
Los intervalos unilaterales son [LI,+∞) y (-∞, LS], con
( )
LI = M(X) – t1-,n-1* √
( )
LS = M(X) + t1-,n-1* √
Ejemplo 5.11. Siguiendo con el ejemplo 5.10, nos dicen ahora que X no es
conocida, y que la desviación típica muestral de la muestra de tamaño 9 cuya
media era m(x) = 17,3 vale s(x) = 4,8. El intervalo de confianza al nivel 95%
se calcula de la siguiente forma.
Al ser el nivel de confianza 1-=0,95, a través de las tablas de la t de Student

con 8 grados de libertad, obtenemos que aproximadamente z0,975,8 es 2,3 (P(T
≤ 2,3) = 0,97476).
156
Por tanto, LI = 17,3–2,3*4,8/3 = 13,62 y LS = 17,3+2,3*4,8/3 = 20,98. El

intervalo de confianza al nivel, aproximadamente, del 95% es [13,62, 20,98].
Nota: el nivel de confianza de este intervalo sería exactamente 94,952%. Al elegir 2,3 como
el cuantil, estamos eligiendo 1-/2 = 0,97476, por lo que 1- = 0,94952.
5.7. Contraste de hipótesis
Otras de las técnicas básicas de la inferencia estadística es el contraste de

hipótesis. De forma muy general, en un contraste de hipótesis de lo que se trata es de
corroborar o refutar una hipótesis que se realiza sobre una población (variable), en
base a la información que proporciona una muestra.
Cuando se van a realizar contrastes de hipótesis, se suele distinguir entre

contrastes paramétricos y contrastes no paramétricos. Los contrastes paramétricos
aparecen en la inferencia paramétrica, en la que se asume que la distribución de una
variable X se puede describir con un modelo teórico determinado (por ejemplo, como
una distribución normal) pero con alguno de sus parámetros desconocido. En este
contexto, en los contrastes paramétricos se plantean cuestiones sobre alguno de esos
parámetros.
Una hipótesis estadística paramétrica es una proposición acerca de los

parámetros de un modelo o variable. Por ejemplo, que la media de X valga X = 10, o, si
consideramos muestras de dos poblaciones X e Y, que las medias de esas dos poblaciones
sean iguales, esto es, que X - Y = 0.
Nota: en los procedimientos de la inferencia estadística no paramétrica, no se asume, en

general, que la distribución de la variable es conocida. En este otro contexto, los contrastes
no paramétricos se plantean cuestiones más generales, y son los que permiten decidir, por
ejemplo, si una variable X es normal, o si dos variables X e Y son independientes entre sí.
Aunque en estas notas no nos vamos a detener en este tipo de contrastes, veremos alguno
de ellos en las prácticas con ordenador.
A lo largo de esta sección, vamos a ir viendo algunos de los elementos asociados a

cualquier contraste de hipótesis paramétrico. En lo que sigue, vamos a llamar  al
parámetro que queremos contrastar, y según los casos este parámetro será la media, la
desviación típica, la diferencia de medias, etcétera.
Un contraste de hipótesis siempre lleva asociadas dos hipótesis estadísticas: la

hipótesis nula y la hipótesis alternativa. Llamamos hipótesis nula a la hipótesis de
partida que se desea contrastar, que denotaremos con H0, y llamamos hipótesis
alternativa, que denotaremos con H1, a la hipótesis que se acepta cuando se rechaza
la hipótesis nula. Una hipótesis nula podría ser H0:  = 10 e hipótesis alternativas
157
podrían ser H1:  > 10 ó H1:  ≠ 10. Nótese que estas hipótesis alternativas pueden
contener muchos valores distintos para .
En una investigación, H0 suele coincidir con lo comúnmente aceptado y H1 suele ser

lo que los investigadores quieren probar. El objetivo que se plantean los investigadores
es convencer a quienes lean sus informes de que, en realidad, H0 es falsa. Para
convencerles, hará falta que los datos, la evidencia que el experimento proporciona, sea
muy clara en contra de la hipótesis nula. Por tanto, la hipótesis nula se mantiene cuando
los datos la apoyan y también en los casos de duda, y sólo se rechaza si los datos
experimentales la contradicen claramente.
Nota: en general, diremos que "H0 se rechaza" o que "H0 no se rechaza". A veces se prefiere
usar expresiones como "se retiene" o "se mantiene", que resultan más naturales. Pero no
debemos decir que "H0 se acepta" ya que nos quedamos con ella también en los casos dudosos.
Además, diremos que la hipótesis alternativa se acepta (cuando se rechaza la hipótesis nula)
o no se acepta, cuando retenemos H0. No debemos decir que "H1 se rechaza". En los casos
dudosos puede ocurrir que no tengamos evidencia empírica suficiente para rechazar la
hipótesis nula, pero aun así la alternativa puede resultar bastante verosímil.
Para comprender mejor la mecánica de los contrastes, se suele usar la analogía de

que la hipótesis nula es equivalente a la presunción de la inocencia de un acusado en un
juicio penal. Cuando se rechaza la inocencia, se acepta la alternativa (que es culpable) y
se envía al acusado a la cárcel. Por lo tanto, la evidencia en contra del acusado debería
ser muy clara para decidir declararlo culpable (en el contraste de hipótesis, esa
evidencia la proporciona la muestra). Pero cuando no se rechaza (veredicto de no
culpabilidad), tampoco se puede asegurar que el acusado sea inocente. El tribunal solo
afirma que no hay suficientes evidencias como para enviarlo a la cárcel (en el contraste
de hipótesis, la muestra no proporciona las evidencias suficientes en contra de la
hipótesis nula).
Para cada contraste, llamamos error de tipo I a rechazar H0 cuando H0 es cierta.

Llamamos nivel de significación del contraste a la probabilidad de cometer ese error
de tipo I y se llama tamaño del error a la probabilidad de cometerlo. El nivel de
significación se suele denotar con la letra griega . El nivel de significación usual en la
literatura científica es  = 0,05, pero se pueden usar otros niveles (por ejemplo,  =
0,1, 0,01,…) dependiendo de las características de la investigación.
Nota: intuitivamente, cuando un investigador fija un nivel de significación, lo que hace es

cuantificar el error que está dispuesto a cometer rechazando H0 cuando en realidad H0 es
cierta. Por ejemplo, si el investigador fija un nivel de significación  = 0,05, y al realizar el
contraste rechaza H0, entonces sólo tiene un “riesgo” del 5% de estar equivocándose al
rechazar H0.
Llamamos error de tipo II a no rechazar H0 cuando H0 es falsa. La probabilidad de

cometer error de tipo II (el tamaño de este error) se suele denotar con la letra . El
158
error de tipo II depende del verdadero valor del parámetro  que estamos contrastando
y por lo tanto es una función de ese parámetro: (). Llamamos potencia del contraste
a 1 - (). Por tanto, la potencia del contraste es la probabilidad de rechazar H0 cuando
H0 es falsa.
Nota: naturalmente, en el diseño de un contraste de hipótesis, interesa conseguir que los

tamaños de los dos errores sean muy pequeños. Pero, en general, cuando se disminuye el error
de tipo I, se aumenta el de tipo II, y viceversa. Por tanto, hay que llegar a un compromiso
que proporcione un nivel de significación () suficientemente pequeño y una potencia (1 -  ())
suficientemente grande. En este curso no vamos a profundizar en los procedimientos
utilizados para conseguir este compromiso.
El resto de conceptos asociados a cualquier contraste de hipótesis, así como la

dinámica en la realización de los contrastes, los vamos a ver a través de varios ejemplos,
en los que describiremos cómo contrastar valores para la media poblacional X. En estos
contrastes suponemos que la variable X es normal, pero también se pueden utilizar si no
conocemos la distribución de X pero el tamaño muestral n es suficientemente grande.
Nota: recuerda que la aproximación (que es consecuencia del Teorema Central del Límite) es
mejor cuanto mayor es n y en ausencia de información sobre la distribución de X, se suele
considerar suficientemente grande cuando n ≥ 30.
5.7.1. Contraste H0: X = m, conocida X
Supondremos que X es normal de media X y desviación típica conocida X, y que

se dispone de una muestra aleatoria simple (X1,…,Xn) de dicha variable. Si es
comúnmente aceptado que el valor de la media poblacional es m, esta será la hipótesis
nula:
H0: X = m
La hipótesis alternativa más simple es afirmar que la media es distinta de m. Esta

alternativa se llama bilateral, porque no presupone el sentido de la alternativa. El
verdadero valor de X podría ser mayor o menor que m.
H1: X ≠ m
Nota: recuerda que el contraste se suele plantear cuando la literatura científica (manuales,
artículos, …) sostiene que la media de esa variable es m (esta es, por lo tanto, la hipótesis
comúnmente aceptada) pero los investigadores que planean el estudio piensan que esa
hipótesis no es cierta y quieren convencer de que es falsa a los que piensan que sí es cierta,
mediante los datos de su experimento. La hipótesis alternativa es, usualmente, la que
consideran cierta los investigadores que van a realizar el experimento. Se pueden considerar
hipótesis alternativas unilaterales, dependiendo de la naturaleza del fenómeno y del
conocimiento previo que se tiene del mismo. Por ejemplo, si podemos descartar que la media
X pueda tomar valores menores que m, la alternativa sería (H1: X > m) y si descartamos que
159
la media X pueda tomar valores mayores que m, sería (H1: X < m). Estas alternativas
unilaterales las estudiaremos más adelante.
Una de las formas de construir el contraste de hipótesis es seguir el siguiente

procedimiento. Se parte de un estimador del parámetro y, a partir de él, se construye
una variable aleatoria de forma que, si H0 es cierta, su distribución es conocida. Por lo
tanto, si H0 es cierta, los datos obtenidos en la muestra deberían ser coherentes con
esa distribución. Si no lo son, la evidencia experimental nos está indicando que la
hipótesis nula podría ser falsa. Veamos este procedimiento para el caso H0: X = m.
Para contrastar H0: X = m, partimos del estimador M(X) de X. Si X es normal, la

variable aleatoria M(X) es también normal, su media es X y su desviación típica es
√
X/ 𝑛. Tipificando, obtenemos una variable aleatoria Z con distribución N(0,1). Esto
es
𝑀(𝑋) − 𝜇
𝑍= 𝜎 ≡ 𝑁 (0,1)
√
𝑛
Si H0 es cierta, entonces X = m, y sustituyéndola en Z seguimos teniendo la misma

distribución
𝑀 (𝑋) − 𝑚
𝑍= 𝜎 ≡ 𝑁 (0,1)
√
𝑛
Nota: si calculamos M(X) para una muestra concreta y, sustituyendo en la fórmula anterior,
obtenemos un valor de Z coherente con la distribución N(0,1), los datos permiten mantener
la hipótesis nula. Pero si es un valor muy raro para la N(0.1) podremos rechazar H0 y aceptar
H1.
Cálculo del p-valor
El p-valor es una medida de la concordancia de la muestra con la hipótesis nula. Se

calcula con el siguiente procedimiento: llamando m(x) al valor de la media muestral para
nuestra muestra concreta, obtendremos el valor explícito de Z para esta muestra:
𝑚(𝑥) − 𝑚
𝑧 = 𝜎
√
𝑛
Este valor puede ser positivo o negativo. Cuando la hipótesis nula es cierta, la
variable aleatoria Z es N(0,1) y z0 debería estar relativamente cerca de 0. La distancia
al 0 la mide su valor absoluto |z0|.
El p-valor se calcula, en este caso, como la probabilidad de que la N(0,1) esté fuera
del intervalo (-|z0|,|z0|). Esto es, la probabilidad de obtener un valor de Z como el
160
observado o todavía más alejado del 0, si la verdadera distribución de Z es N(0,1). Por

la simetría de la N(0,1) en torno a 0 esta probabilidad es
p = 2*P(N(0,1) ≥ |z0|).
Nota: podemos calcular el p-valor utilizando la función de distribución FZ(x) de la N(0,1), y

usando que P(N(0,1) ≥ |z0|) = 1 - FZ(|z0|). El p-valor será p = 2*(1 - FZ(|z0|)).
Valores grandes de p serán coherentes con H0. En particular, la concordancia

perfecta la tenemos cuando la media muestral coincide con m, y por tanto z0 = 0. En
este caso p = 1. Pero conforme crece |z0|, el p-valor disminuye, y p-valores pequeños
indican discrepancia con H0, ya que, cuanto mayor sea |z0|, más difícil es mantener que
la observación z0 pertenece a una variable aleatoria N(0,1), y mayor es la evidencia a
favor de H1.
Además de ser una medida de concordancia con H0, el p-valor puede utilizarse
también como regla de decisión para rechazar o no la hipótesis nula. Para ello hay que
fijar, previamente, el nivel de significación del contraste,  (esto es, el tamaño del error
de tipo I que estamos dispuestos a tolerar). La regla de decisión queda entonces:
Rechazamos H0 si p ≤  y no la rechazamos (retenemos la hipótesis nula H0) en

otro caso.
Nota: en algunos manuales se propone rechazar si p < , y no rechazar en otro caso.
Ejemplo 5.12. Siguiendo con el ejemplo 5.10, supongamos que deseamos

contrastar H0: X = 15 frente a H1: X ≠ 15, donde X es la media de una cierta
variable X, que sabemos que es Normal y que tiene una desviación típica
conocida X = 6. También sabemos que la media muestral m(x) es 17,3, para
una muestra de tamaño n = 9.
Como X es conocida, calculamos z0 = (17,3-15)/(6/3) = 1,15. Buscando en las

tablas de la normal tipificada, el p-valor es p = 2*P(N(0,1) ≥ |z0|) = 2*P(N(0,1)
≥ 1,15) = 2*(1-FZ(1,15)) = 2*(1-0,8749) = 0,2502.
Si fijamos un nivel de significación  = 0,05, no podemos rechazar H0 puesto
que 0,2502 es mayor que 0,05.
Región crítica del contraste
Un procedimiento alternativo al del p-valor para tomar la decisión de rechazar o

no H0 consiste en dividir el rango de todos los valores posibles de la muestra, o
alternativamente todos los valores de la variable 𝑍 = ( √ )− , en dos regiones.
161
(a) La región de no rechazo, que contiene los valores que nos parecen razonables
y también los dudosos.
(b) La región crítica del contraste (o región de rechazo), que contiene los valores
que nos parecen lo suficientemente raros como para hacernos rechazar la
hipótesis nula.
Cuando la hipótesis alternativa es bilateral, como es nuestro caso, el verdadero

valor de la media X podría ser mayor o menor que m y parece razonable considerar
regiones críticas simétricas en torno a 0. Tomaremos como región de no rechazo un
intervalo de la forma (-z,z), y como región crítica, los puntos que están fuera de ese
intervalo.
Cuando H0 es cierta, Z es N(0,1). El nivel de significación  es la probabilidad de

rechazar H0 cuando es cierta. Por tanto, queremos que la probabilidad de que Z esté en
la región crítica, P(|Z| ≥ z), sea , y la de que esté en la región de no rechazo sea P(-z <
Z < z) = 1-. Por tanto debemos tomar z = z1-/2.
La regla de decisión quedaría así:
1. Calculamos el valor z0 de Z para la muestra obtenida.

2. Rechazamos la hipótesis nula si |z0| ≥ z1-/2 (el valor absoluto de z0 es mayor que
z1-/2). Esto es, si z0 está fuera del intervalo (-z1-/2, z1-/2).
La región crítica también se puede expresar en función de la media muestral.

Despejando M(x) en la expresión
√
|Z| = | (M(x) - m)/(X/ 𝑛) | ≥ z1-/2
se obtienen dos desigualdades:

√
M(x) ≥ m + z1-/2*X/ 𝑛
√
M(x) ≤ m - z1-/2*X/ 𝑛
Se rechaza la hipótesis nula si m(x) satisface alguna de esas dos condiciones.
Nota: obsérvese la relación con el intervalo de confianza bilateral [LI, LS] para X, con un
√ √
nivel de confianza 1-, donde LI=m(x)-z1-/2*X/ 𝑛 y LS=m(x)+z1-/2*X/ 𝑛.
Si m está en (LI, LS), se retiene la hipótesis nula. Si m no está en ese intervalo se rechaza
la hipótesis nula con nivel de significación .
Ejemplo 5.13. Con los datos del ejemplo 5.12, habíamos obtenido un valor z0
= 1,15. Si fijamos =0,05 como nivel de significación, obtenemos que z0,975 =
1,96. Como |1,15| < 1,96, no podemos rechazar la hipótesis nula H0: X = 15.
En la segunda definición de región crítica, los valores que la definen son m +
√ √
z1-/2*X/ 𝑛 y m - z1-/2*X/ 𝑛, es decir, 15 + 1,96*6/3 = 18,92 y 15 -
162
1,96*6/3 = 11,08. Como 11,08 < 17,3 < 18,92, no podemos rechazar la hipótesis
nula.
Hipótesis alternativas unilaterales
Se puede hacer un desarrollo similar para las hipótesis alternativas unilaterales.

Si consideramos
H1: X > m
y esa hipótesis es cierta, m(X) tenderá a ser mayor que m, y la variable Z tenderá a
tomar valores positivos. Por tanto, valores de z0 positivos y relativamente grandes
apoyarían la hipótesis alternativa. En este caso, el p-valor se define como la probabilidad
de observar, para una N(0,1), un valor mayor o igual que z0:
p = P(N(0,1) ≥ z0) = 1 - FZ(z0)

y se rechaza la hipótesis nula si el p-valor es menor o igual que el nivel de significación.
La región crítica será

√
M(X) ≥ m + z1-*X/ 𝑛
Nota: observa la relación con el intervalo de confianza unilateral [LI,+∞) para X y un nivel
√
de confianza 1-, con LI = M(X) - z1-*X/ 𝑛. Si m no está en el intervalo (LI,+∞), se rechaza
la hipótesis nula con nivel de significación , y viceversa.
Si consideramos
H1: X < m
y esa hipótesis alternativa es cierta, m(X) tenderá a ser menor que m, y la variable Z
tenderá a tomar valores negativos. Por tanto, valores de z0 negativos y relativamente
grandes en valor absoluto apoyarían la hipótesis alternativa. El p-valor se define como
la probabilidad de observar, para una N(0,1), un valor menor o igual que z0:
p = P(N(0,1) ≤ z0) = FZ(z0)
y se rechaza la hipótesis nula si el p-valor es menor o igual que el nivel de significación.
La región crítica será en este caso

√
M(X) ≤ m – z1-*X/ 𝑛
163
Nota: observa la relación con el intervalo de confianza unilateral (-∞, LS] para X, de nivel
√
de confianza 1-, con LS = M(X) + z1-*X/ 𝑛. Si m no está en (-∞, LS), se rechaza la
hipótesis nula con nivel de significación , y viceversa.
Ejemplo 5.14. Con los datos del ejemplo 5.12, supongamos que deseamos
contrastar H0: X = 15 frente a H1: X > 15. El tamaño muestral era n=9, la
media muestral era m(x) = 17,3 y la desviación típica poblacional era X = 6.
El valor de z0 sigue siendo el mismo que antes, z0 = (17,3-15)/(6/3) = 1,15,

pero el p-valor es ahora distinto p = P(N(0,1) ≥ z0) = 1-FZ(1,15) = 0,1251. Si
fijamos un nivel de significación  = 0,05, no podemos rechazar H0 puesto que
0,1251 es mayor que 0,05.
5.7.2. Contraste H0: X = m, estimando X
Como en la sección anterior, deseamos contrastar la hipótesis nula H0: X = m

frente a la alternativa H0: X ≠ m, pero ahora la desviación típica poblacional X no es
conocida. En este caso, dada la muestra aleatoria simple (X1,…,Xn), X se puede estimar
con la desviación típica muestral, S(X), y sabemos que la variable
𝑀(𝑋) − 𝜇
𝑇 =
𝑆(𝑋)
√
𝑛
se distribuye como una t de Student con n-1 grados de libertad, si X es normal. Si H0

es cierta, entonces X = m, y la variable
𝑀(𝑋) − 𝑚
𝑇 =
𝑆(𝑋)
√
𝑛
también se distribuye como una t de Student con n-1 grados de libertad.
El p-valor se puede calcular con un procedimiento similar al descrito en la sección

anterior. Primero se calcula el valor de T para esa muestra concreta:
𝑚(𝑥) − 𝑚
𝑡 =
𝑠(𝑥)
√
𝑛
y el p-valor se define entonces como
p = 2*P(t(n-1) ≥ |t0|) = 2*(1–Fn-1(|t0|)),
164
donde t(n-1) representa la variable aleatoria t de Student con n-1 grados de libertad y
Fn-1(x) su función de distribución. Se rechaza la hipótesis nula si el p-valor es menor o
igual que el nivel de significación prefijado.
La región crítica es similar a la obtenida cuando X era conocida, sustituyendo X

por su estimador S(X), y usando, en lugar de los percentiles de la N(0,1), los de la t de
Student con n-1 grados de libertad. La regla de decisión, para un nivel de significación
 sería:
1. Calculamos el valor t0 de T para la muestra obtenida.

2. Rechazamos la hipótesis nula si |t0| ≥ t1-/2,n-1. Esto es, si t0 está fuera del
intervalo (-t1-/2,n-1, t1-/2,n-1), donde t1-/2,n-1 es el cuantil 1-(/2) de una t de
Student con n-1 grados de libertad.
La región crítica también se puede expresar en función de la media muestral.
Despejando M(X) en
√
|T| = |(M(X) – m)/(S(X)/ 𝑛)| ≥ t1-/2,n-1.
se obtienen dos desigualdades. Se rechaza la hipótesis nula si se verifica alguna de las

dos:
√
M(X) ≥ m + t1-/2,n-1*S(X)/ 𝑛
√
M(X) ≤ m – t1-/2,n-1*S(X)/ 𝑛
Nota: observa la relación con el intervalo de confianza bilateral para X, de nivel de confianza
1-, cuando se estimaba X.
Si consideramos la hipótesis alternativa unilateral
H1: X > m
y esta hipótesis es cierta, M(X) tenderá a ser mayor que m, y la variable T tenderá a
tomar valores positivos. Por tanto, valores de t0 positivos y relativamente grandes
apoyarían la hipótesis alternativa. El p-valor se define como la probabilidad de observar,
para una t de Student con n-1 grados de libertad, un valor mayor o igual que t0:
p = P(t(n-1) ≥ t0) = 1 – Fn-1(t0)
y se rechaza la hipótesis nula siempre que este p-valor sea menor o igual que el nivel de
significación. La región crítica será
M(X) ≥ m + t1-,n-1*S(X)/√𝑛
165
Si consideramos
H1: X < m
y esta hipótesis alternativa es cierta, M(X) tenderá a ser menor que m, y la variable T
tenderá a tomar valores negativos. Por lo tanto, valores de t0 negativos y relativamente
grandes en valor absoluto apoyarían la hipótesis alternativa. El p-valor se define como
la probabilidad de observar, para una t con n-1 grados de libertad, un valor menor o igual
que t0:
p = P(t(n-1) ≤ t0) = Fn-1(t0)

y se rechaza la hipótesis nula siempre que este p-valor sea menor o igual que el nivel de
significación. La región crítica será
M(X) ≤ m – t1-,n-1*S(X)/√𝑛
Nota: observa la relación de estas dos regiones críticas con los intervalos de confianza unilaterales
para X estimando X, de nivel de confianza 1-.
Ejemplo 5.15. Supongamos que deseamos contrastar H0: X = 15 frente a H1:

X ≠ 15, para una variable X que sabemos que es normal pero de la que
desconocemos su desviación típica poblacional. Para una muestra de tamaño n
= 49, nos dicen que la media muestral es m(x) = 16,2 y la desviación típica
muestral es s(x) = 4.
Como X es desconocida, calculamos t0 = (16,2-15)/(4/7) = 2,1. A través de la

tabla de la t de Student con 48 grados de libertad, el p-valor será p = 2*P(t(n-
1) ≥ |2,1|) = 2*(1–Fn-1(2,1)) = 2*(1-0,9795) = 0,041. Si fijamos un nivel de
significación  = 0,05, rechazamos H0 puesto que 0,041 < 0,05.
5.7.3. Otros contrastes
En las clases de prácticas con ordenador, realizaremos contrastes de hipótesis e

interpretaremos el p-valor para un conjunto de situaciones más amplio. En particular,
veremos contrastes de igualdad de medias, en los que la hipótesis nula se puede escribir
H0:  = X - Y = 0, y de igualdad de varianzas, en los que se puede escribir H0:  = X/Y
= 1. También veremos contrastes para la igualdad de proporciones, con H0:  = pX - pY =
0, y algunos contrastes no paramétricos, como los de independencia, homogeneidad y
bondad de ajuste.
Los conceptos, bases teóricas e interpretación de resultados son similares a los

que hemos comentado en estas notas para el caso particular del contraste sobre el valor
166
de la media poblacional. A modo de ilustración, vamos a ver cómo se construye el

contraste sobre igualdad de medias.
Nota: recuerda que la mecánica en un contraste con una hipótesis nula sobre un parámetro 
se basa es un buscar un estimador de dicho parámetro y en construir un estadístico en base
a ese estimador, de forma que se pueda calcular la distribución de ese estadístico en el
muestreo aleatorio simple suponiendo que la hipótesis nula sea cierta.
Contraste sobre dos medias
En este contraste, se parte de dos muestras aleatorias simples (X1,…,Xm) e

(Y1,…,Yn), que provienen de dos variables aleatorias independientes X e Y, con medias X
y Y y desviaciones típicas X y Y. Se desea contrastar si las dos medias X y Y se
pueden considerar iguales o, por el contrario, son distintas.
En este caso, la hipótesis nula es:
H0:  = X - Y = 0
y la alternativa
H1:  = X - Y ≠ 0
Si X e Y se suponen normales con desviaciones típicas conocidas, se puede

demostrar que un buen estimador de X - Y es M(X) – M(Y), y que entonces el
estadístico
𝑀 (𝑋) − 𝑀(𝑌 )
𝑍=
𝜎 𝜎
𝑚 + 𝑛
es una N(0,1) cuando la hipótesis nula es cierta. Si z0 es el valor que toma el estadístico
anterior para las dos muestras, entonces se rechaza la hipótesis nula siempre que el p-
valor p = 2*P(N(0,1) ≥ |z0|) sea menor o igual que el nivel de significación . El contraste
sigue siendo válido, aunque las variables de partidas no sean normales, siempre que los
tamaños muestrales sean grandes (al menos 30).
Si X y Y no son conocidas, entonces se pueden usar S(X) y S(Y) para estimarlas.
En ese caso, se puede demostrar que el estadístico
𝑀 (𝑋) − 𝑀(𝑌 )
𝑇 =
𝑆 (𝑋) 𝑆 (𝑌 )
𝑚 + 𝑛
167
es una t de Student cuando la hipótesis nula es cierta. Los grados de libertad de esta t
de Student, que llamaremos gdl, se calculan con una fórmula compleja.
Si t0 es el valor que toma el estadístico anterior para las dos muestras, entonces
se rechaza la hipótesis nula siempre que el p-valor p = 2*P(tgdl ≥ |t0|) sea menor o igual
que el nivel de significación . El contraste sigue siendo válido, aunque las variables de
partidas no sean normales, siempre que los tamaños muestrales sean grandes (al menos
30).
Nota: existen más variantes de este contraste, en función de si las desviaciones típicas x y
Y se pueden considerar iguales o no, pero no vamos a entrar en ellos aquí.
5.8. Cálculo del tamaño muestral
Como regla general, conviene que el tamaño muestral n sea el mayor posible, ya que,
en las mismas condiciones, la precisión de las estimaciones será mayor y también será
mayor la potencia de los contrastes. En todo caso, lo fundamental es que la muestra sea
representativa. Se pueden obtener mejores resultados con una muestra representativa,
aunque el tamaño muestral sea relativamente pequeño, que con una muestra sesgada con
un tamaño muestral mucho mayor.
En algunas circunstancias, por cuestiones de tiempo disponible o de coste, el

tamaño n tiene que ser limitado, y nos podemos plantear cual sería el n mínimo que
permitiera cumplir los objetivos de nuestra investigación. Ese tamaño mínimo dependerá
del tipo de muestreo que se ha realizado, del modelo que podamos asumir sobre las
variables implicadas, de los parámetros que conozcamos y también del efecto que
queramos ser capaces de detectar con nuestro experimento. Existe software de libre
disposición que permite calcular ese tamaño mínimo en cada circunstancia.
En esta sección vamos a ilustrar el razonamiento que lleva a determinar ese tamaño
mínimo para el caso particular de querer estimar la media poblacional X con un cierto
nivel de precisión.
Cálculo del tamaño muestral para estimar X
Asumimos que vamos a poder obtener una muestra aleatoria simple. Nos interesa
estimar la media X de una población, que suponemos que es normal y con desviación
típica X conocida, con una precisión determinada d y con confianza 1-.
Esa precisión se garantiza cuando el intervalo de confianza bilateral para X, con
√
confianza 1-, tiene una achura menor o igual que 2d. Esto es, cuando z1-/2*X/ 𝑛 ≤ d.
168
Despejando, n tiene que ser mayor o igual que el cuadrado de z1-/2*X/d. Por tanto, n
será el menor número entero mayor o igual que
𝑧 − / 𝜎
𝑑
Para este n se puede garantizar que el error de estimación es menor o igual que d
con un nivel de confianza de, al menos, el (1-)*100%, esto es, que
P(|M(X) - X|≤ d) ≥ 1-.
Ejemplo 5.16. Se desea obtener una estimación de X, para una variable X
que sabemos que es normal y que tiene una desviación típica poblacional de X
= 0,8. Queremos saber el tamaño muestral que necesitaríamos para
garantizar una precisión de 0,1, con una confianza del 95%.
Al ser el nivel de confianza del 95%, z0,975 = 1,96. El tamaño muestral buscado
será entonces n > 1,962*0,82/0,12 = 245,86. Y el menor valor entero es n =
246.
5.9. Ejercicios
Nota: para la realización de la mayoría de los ejercicios, necesitarás la tabla de la N(0,1) y

las tablas de la t de Student. Al final de los ejercicios dispones de tablas resumidas de la t
de Student para algunos grados de libertad (y también una tabla resumida de la N(0,1)). Si
no encuentras alguna probabilidad o algún cuantil que te interese en esas tablas, puedes usar
R-Commander para obtenerlo o las tablas de la N(0,1). En este último caso, el valor será
aproximado y la aproximación será mejor cuanto mayor sea n.
5.1. Sabemos que una variable aleatoria Z tiene una distribución N(0,1). Utilizando un
paquete estadístico hemos obtenido los valores de la función de distribución de Z:
FZ(1,5) = 0,9332 y FZ(2,5) = 0,9938.
(a) Calcula la probabilidad de observar Z en el intervalo [-1,5, 1,5].

(b) Calcula la probabilidad que Z esté fuera del intervalo [-1,5, 1,5].
(c) Calcula la probabilidad de que Z sea mayor que 2,5.
(d) Calcula la probabilidad de que Z sea menor que -2,5.
5.2. Queremos estimar la probabilidad p de que en el lanzamiento de una moneda (que

sospechamos que está cargada) se obtenga cara. Un modelo razonable es una
169
variable aleatoria X, Bernoulli de parámetro p. Realizamos 100 lanzamientos de esa

moneda y obtenemos 10 caras y 90 cruces.
(a) Calcula la media muestral de X. ¿Crees que es una estimación razonable para
p?
(b) Calcula S2(X). ¿Crees que es una estimación razonable para la varianza de X?
(c) Sabemos que Var(X) = p*(1-p). Si llamamos m(x) a la media de los 100
lanzamientos, ¿te parece razonable estimar la varianza de X utilizando el
estimador m(x)*(1-m(x))? Calcula m(x)*(1-m(x)) y compáralo con S2(X).
5.3. El nivel de colesterol en una población se puede modelar con una variable aleatoria
X. Queremos estimar la media y la desviación típica de X. Se ha obtenido una
muestra de n = 100 mediciones del nivel de colesterol de una muestra aleatoria
simple obtenida de esa población. La media muestral obtenida es m(x) = 150. La
varianza muestral obtenida es s2(X) = 25.
(a) ¿Qué estimación utilizarías para la media poblacional de X?

(b) ¿Y para la desviación típica poblacional de X?
(c) ¿Y para la media poblacional de la variable aleatoria M(X)?
(d) ¿Y para la desviación típica poblacional de M(X)?
5.4. El nivel de colesterol en una población se puede modelar con una variable aleatoria
X normal. Queremos estimar la media y la desviación típica de X. Se ha obtenido
una muestra de n = 100 mediciones del nivel de colesterol de una muestra aleatoria
simple obtenida de esa población. La media muestral obtenida es m(x) = 150. La
varianza es s2(X) = 25.
(a) Calcula un intervalo de confianza bilateral al 95% para la media de X, si

sabemos que la desviación típica poblacional de X es 4.5.
(b) Calcula un intervalo de confianza al 95% para la media de X, si no conocemos
la desviación típica poblacional de X.
(c) Calcula los intervalos de confianza unilaterales al 95% para la media de X, si
sabemos que la desviación típica poblacional de X es 4.5.
(d) Calcula los intervalos de confianza unilaterales al 95% para la media de X, si
no conocemos la desviación típica poblacional de X.
Puedes usar que el cuantil 0,95 para la t con 99 g.l. es 1,660, que el cuantil 0,975 para
la t con 99 g.l. es 1,984, que el cuantil 0,95 para la N(0,1) es 1,645 y que el cuantil 0,975
para la N(0,1) es 1,96.
5.5. Nos indican que un nuevo somnífero garantiza un tiempo de sueño, X, que es una
variable aleatoria con media poblacional 8 horas y desviación típica poblacional 1
hora. Estamos convencidos de que X es normal y de que la desviación típica es
170
correcta, pero tenemos dudas sobre el valor de la media. Por lo tanto, queremos
contrastar:
H0: X = 8
H1: X ≠ 8
Proporcionamos el somnífero a 9 personas elegidas aleatoriamente de la población

de interés. Se obtiene una media muestral m(x) = 7.
(a) Calcula el p-valor para esta muestra.

(b) ¿Rechazaríamos H0 con un nivel de significación del 5%?
5.6. Nos indican que un nuevo somnífero garantiza un tiempo de sueño, X, que es una
variable aleatoria con media poblacional 8 horas. Estamos convencidos de que X es
normal, pero no conocemos la desviación típica de X. Queremos contrastar:
H0: X = 8
H1: X ≠ 8
Proporcionamos el somnífero a 9 personas elegidas aleatoriamente de la población

de interés. Se obtiene una media muestral m(x) = 7 y una desviación típica muestral
s(x) = 1,5.
(a) Calcula el p-valor para esta muestra.

5.7. El nivel en sangre de un principio activo a las 24 horas de haber administrado un

medicamento se describe con una variable aleatoria X, y se supone que es normal.
Nos han dicho que la media poblacional de X es 5. Queremos comprobar
experimentalmente si esa es la media poblacional. Por lo tanto, queremos
contrastar:
H0: X = 5
H1: X ≠ 5
Les administramos el tratamiento a 100 pacientes elegidos aleatoriamente de la

población de interés y obtenemos el valor de X para cada uno de ellos. Se obtiene
una media muestral m(x) = 5,2 y una desviación típica muestral s(x) = 1.
(a) Calcula el p-valor.

(c) Calcula el p-valor si m(x) = 4,8 e indica si se rechazaría H0 al 5%.
5.8. El nivel en sangre de un principio activo a las 24 horas de haber administrado un

medicamento se describe con una variable aleatoria X, que se supone que es normal.
171
Se supone también que la media poblacional de X es 5. Queremos contrastar

experimentalmente esa hipótesis con la alternativa de que es mayor:
H0: X = 5
H1: X > 5
Proporcionamos el medicamento a 100 pacientes, que se han elegido aleatoriamente

de la población de interés, y medimos el valor de X para cada uno de ellos. Se
obtiene una media muestral m(x) = 4,8 y una desviación típica muestral s(x) = 1.

(b) ¿Rechazaríamos la H0 con un nivel de significación del 5%?
5.9. La altura en una determinada población se puede describir con una variable
aleatoria normal X. Se supone que la media de X es 175. Queremos comprobar
experimentalmente esta suposición. Por lo tanto, queremos contrastar:
H0: X = 175
H1: X ≠ 175
Obtenemos una muestra aleatoria simple de 49 personas de esta población. Se

obtiene una media muestral m(x) = 177 y una desviación típica muestral s(x) = 14.

(c) Calcula el p-valor e indica si se rechazaría H0 al 5% si los datos fueran los
mismos pero obtenidos de una muestra de 196 individuos.
5.10. La altura en una determinada población se puede describir con una variable
aleatoria normal X y queremos estimar su media. Obtenemos una muestra aleatoria
simple de 49 personas de esta población, y para esta muestra, la media muestral
es m(x) = 177 y la desviación típica muestral es s(x) = 14.
(a) Calcula un intervalo de confianza bilateral al 95% para su media poblacional.

¿Contiene el valor 175? Compara este resultado con lo obtenido en el problema
5.9 (b).
(b) Si la muestra es de 196 personas, con los mismos datos de m(x) y s(x), calcula
un intervalo de confianza bilateral al 95% para su media poblacional. ¿Contiene
el valor 175? Compara este resultado con lo obtenido en el problema 5.9 (c).
Puedes usar que el cuantil 0,975 para la t con 48 grados de libertad es 2,011, y que el
cuantil 0,975 para la t con 195 grados de libertad es 1,972.
172
5.11. El pulso tras una prueba de esfuerzo en una determinada población se puede
describir con una variable aleatoria normal X. Se supone que la media poblacional
de X es 195. Queremos comprobar esta suposición. Por lo tanto, queremos
contrastar experimentalmente:
H0: X = 195
H1: X ≠ 195
Obtenemos una muestra aleatoria simple de 81 personas de esta población. Se

obtiene una media muestral m(x) = 190 y una desviación típica muestral s(x) = 18.
(a) Calcula su p-valor.

(c) El investigador quiere probar que esta población tiene una media inferior a 195
(por tanto, la hipótesis alternativa es H1: X < 195). ¿Cómo interpretarías los
resultados obtenidos en ese caso? En particular, calcula el p-valor de la
muestra para este nuevo contraste e indica si se puede aceptar, con esos datos
y a un nivel de significación del 5%, la hipótesis alternativa.
5.12. Queremos estimar la media del nivel de una sustancia en sangre para una población
determinada, con una precisión de 1 para un nivel de confianza del 90%. Sabemos
que ese nivel, para esa población, se puede modelar con una variable Normal, con
desviación típica 6. Para hacerlo, planeamos obtener una muestra aleatoria simple
de esa población.
(a) ¿Cuál es el mínimo tamaño muestral n necesario para que se verifiquen estas
especificaciones?
(b) ¿Valdría ese tamaño si no supiéramos si la distribución de esta variable es
normal?
(d) ¿Cuál sería el tamaño mínimo necesario si nos basta con una precisión de 3, y
si sabemos que X es Normal? ¿Y si no estamos seguros de que es Normal?
5.13. Se ha observado que el número de ingresos diarios en un centro hospitalario se

comporta como una variable aleatoria de media 30 y desviación típica 5. Suponiendo
que los ingresos diarios en el hospital son independientes entre sí, calcula las
siguientes cantidades.
(a) La probabilidad de que el número de ingresos haya sido superior a 7920,

después de 256 días.
(b) La probabilidad de que el número de ingresos en un año de 365 días haya sido
inferior a 10700.
(c) El cuantil 0,99 para el número de ingresos en un año de 365 días.
173
5.14. Un nuevo tratamiento antibiótico para las infecciones urinarias, se ha demostrado

efectivo en un 80% de los afectados, con la desaparición de la infección al cabo de
una semana. En un hospital se ha administrado dicho tratamiento a un total de 196
pacientes. ¿Cuál es la probabilidad de que el número de pacientes a los que les
desaparece la infección en una semana se encuentre entre 160 y 170?
5.15. En un estudio reciente, se afirma que la talla de un niño recién nacido sigue una
distribución normal de media 50,5 cm y desviación típica 2,842 cm. Se ha medido
la talla (en cm) de 9 recién nacidos, obteniéndose los siguientes resultados: 48,9
51,7 42,1 48,7 52,9 49,6 50,5 44,8 y 49,1. Calcula la probabilidad de que la variable
media muestral sea menor que la media para esas 9 observaciones, y razona si la
muestra puede provenir de la población descrita.
5.16. Cierta empresa afirma que el tiempo de duración de las baterías que fabrica, y que
suministra a hospitales, sigue una distribución normal de media 2500 horas y
desviación típica 400 horas. Suponiendo que un hospital le ha comprado a esa
empresa 81 baterías, que la duración media de esas 81 baterías ha sido de 2200
horas y que sus duraciones son independientes entre sí ¿qué conclusión puedes
deducir acerca de las afirmaciones de esa empresa?
5.17. Para un cierto medicamento, la normativa estatal establece que no puede contener
más de 20 mg de un cierto excipiente. Una de las compañías que fabrica dicho
medicamento, afirma que el nivel de excipiente sigue una distribución normal de
media 12,5 mg y desviación típica 5 mg.
(a) Calcula la probabilidad de que, en la fabricación del medicamento, éste supere

el límite impuesto por la normativa estatal.
(b) Calcula la probabilidad de que contenga entre 17 y 20 mg del excipiente.
(c) Un grupo de expertos piensa que la compañía farmacéutica les engaña y decide
tomar una muestra de 25 de esos medicamentos ya comercializados. Si la
cantidad media que se observe es superior a 18 mg, los expertos realizarán una
reclamación a la empresa farmacéutica. Calcula la probabilidad de que eso
suceda. ¿Te parece adecuada la manera de proceder de los inspectores y
realizar la reclamación si la cantidad media que se observe es superior a 18
mg?
174
Tablas de la t de Student
Se presentan los valores de la función de Distribución F(x) de las Variables
Aleatorias N(0,1) y t de Student con 8, 48, 80, 99 y 195 grados de libertad, para los
correspondientes valores de x.
x t8 t48 t80 t99 t195 N(0,1)

0,0 ,50000 ,50000 ,50000 ,50000 ,50000 ,50000
0,1 ,53860 ,53962 ,53970 ,53973 ,53978 ,53983
0,2 ,57676 ,57884 ,57901 ,57905 ,57916 ,57926
0,3 ,61409 ,61726 ,61752 ,61760 ,61775 ,61791
0,4 ,65019 ,65453 ,65489 ,65499 ,65520 ,65542
0,5 ,68473 ,69032 ,69078 ,69091 ,69118 ,69146
0,6 ,71744 ,72434 ,72490 ,72506 ,72540 ,72575
0,7 ,74811 ,75635 ,75702 ,75722 ,75762 ,75804
0,8 ,77659 ,78617 ,78696 ,78719 ,78766 ,78814
0,9 ,80280 ,81369 ,81459 ,81485 ,81538 ,81594
1,0 ,82670 ,83884 ,83984 ,84013 ,84073 ,84134
1,1 ,84834 ,86159 ,86268 ,86300 ,86366 ,86433
1,2 ,86777 ,88199 ,88316 ,88350 ,88420 ,88493
1,3 ,88510 ,90010 ,90133 ,90169 ,90243 ,90320
1,4 ,90046 ,91603 ,91731 ,91768 ,91845 ,91924
1,5 ,91400 ,92992 ,93122 ,93160 ,93238 ,93319
1,6 ,92587 ,94192 ,94323 ,94361 ,94439 ,94520
1,7 ,93622 ,95220 ,95349 ,95386 ,95464 ,95543
1,8 ,94522 ,96093 ,96218 ,96255 ,96330 ,96407
1,9 ,95302 ,96828 ,96948 ,96983 ,97055 ,97128
2,0 ,95974 ,97441 ,97555 ,97588 ,97656 ,97725
2,1 ,96553 ,97950 ,98056 ,98086 ,98149 ,98214
2,2 ,97050 ,98367 ,98465 ,98493 ,98551 ,98610
2,3 ,97476 ,98708 ,98797 ,98823 ,98875 ,98928
2,4 ,97841 ,98984 ,99064 ,99087 ,99133 ,99180
2,5 ,98153 ,99206 ,99277 ,99297 ,99338 ,99379
2,6 ,98419 ,99382 ,99445 ,99463 ,99498 ,99534
2,7 ,98646 ,99523 ,99577 ,99592 ,99623 ,99653
2,8 ,98840 ,99633 ,99680 ,99693 ,99719 ,99744
2,9 ,99005 ,99719 ,99759 ,99770 ,99792 ,99813
3,0 ,99146 ,99786 ,99820 ,99829 ,99847 ,99865
175
Apéndice I. Manejo de sumatorios
Definición.
El sumatorio es un operador matemático, denotado por la letra griega sigma

mayúscula (), que permite representar de manera abreviada sumas con muchos
sumandos, con un número indeterminado de ellos, o incluso con infinitos sumandos. Los
sumandos de un sumatorio se expresan generalmente como una variable (habitualmente
x, y, z, …), cuyos valores dependen de un índice (habitualmente i, j, k …) que toma valores
enteros. El índice empieza tomando el valor que aparece en la parte inferior del
sumatorio y se va incrementando en una unidad hasta llegar al valor que aparece en la
parte superior del sumatorio. Así, por ejemplo,
𝑥 = 𝑥 +𝑥 +𝑥
=
representa la suma de los valores de la variable x desde el primero hasta el tercero. En

general,
𝑥 = 𝑥 + 𝑥 + …+ 𝑥 − +𝑥
=
representa la suma de los primeros n valores de la variable x. La expresión anterior se

lee: “sumatorio de x sub-i desde i igual a 1 hasta n”.
El índice del sumatorio puede tomar cualquier conjunto de números enteros, es

decir, no tiene porqué empezar en 1 (aunque en las expresiones que aparecen a
continuación casi siempre será así para simplificar la notación). La única condición que
se tiene que cumplir es que el primer valor del índice, el que aparece abajo, sea menor
o igual que el último valor del índice, el que aparece arriba. Es decir, en la suma
∑ = 𝑥 , el índice k tiene que ser menor o igual que n para que la suma tenga sentido. Por
ejemplo, si queremos sumar los valores de x desde 3 hasta 5, debemos tomar n = 5 y k
= 3, es decir, ∑ = 𝑥 .
Propiedades.
El sumatorio es simplemente una manera abreviada de representar una suma. Por

tanto, cumple todas las propiedades de ésta.
 Propiedad conmutativa:
176
(𝑥 + 𝑦 ) = 𝑥 + 𝑦 + 𝑥 + 𝑦 + … + 𝑥 + 𝑦 =
=
= 𝑦 +𝑥 +𝑦 +𝑥 +…+ 𝑦 +𝑥 = (𝑦 + 𝑥 )
=
 Propiedad asociativa
(𝑥 + 𝑦 ) + 𝑧 = 𝑥 + 𝑦 + 𝑥 + 𝑦 + …+ 𝑥 + 𝑦 + 𝑧 + 𝑧 + ⋯+ 𝑧 =
= =
= 𝑥 + 𝑥 + ⋯+ 𝑥 + 𝑦 + 𝑧 + 𝑦 + 𝑧 + …+ 𝑦 + 𝑧 = 𝑥 + (𝑦 + 𝑧 )
= =
En particular,
(𝑥 + 𝑦 + 𝑧 ) = 𝑥 + 𝑦 + 𝑧
= = = =
 Propiedad distributiva. Para cualquier valor real a,
𝑎 𝑥 = 𝑎 (𝑥 + 𝑥 + … + 𝑥 − +𝑥 )=
=
= 𝑎𝑥 + 𝑎𝑥 + ⋯ + 𝑎𝑥 = (𝑎𝑥 )
=
Otras propiedades básicas del sumatorio son las siguientes:
1. Para cualquier constante b que sea un valor real, el sumatorio de esa constante
es igual a la constante multiplicada por el número de sumandos:
𝑏 = 𝑏 + 𝑏 + ⋯ + 𝑏 = 𝑛𝑏
=
2. Para cualesquiera valores reales a y b, combinando la propiedad anterior con

las propiedades asociativa y distributiva:
(𝑎𝑥 + 𝑏) = 𝑎𝑥 + 𝑏=𝑎 𝑥 + 𝑛𝑏
= = = =
3. Los valores recorridos por el índice se pueden separar en varios sumatorios,

puesto que si n0 ≤ n, se tiene 𝑥 + 𝑥 + ⋯ + 𝑥 = (𝑥 + 𝑥 + ⋯ + 𝑥 ) + (𝑥 + +
⋯ + 𝑥 ):
𝑥 = 𝑥 + 𝑥
= = = +
177
Errores comunes al manejar sumatorios.
A continuación, se describen algunos de los errores más comunes que se producen

al manejar sumatorios.
 ∑= 𝑥𝑦 ≠ ∑= 𝑥 ∑= 𝑦 puesto que el primer miembro de la desigualdad

es
𝑥 𝑦 + 𝑥 𝑦 + …+ 𝑥 𝑦
y el segundo miembro de la desigualdad es
(𝑥 + 𝑥 + … + 𝑥 ) (𝑦 + 𝑦 + … + 𝑦 )
= 𝑥 𝑦 +𝑥 𝑦 +⋯+𝑥 𝑦 +⋯+𝑥 𝑦 +⋯+𝑥 𝑦
 ∑= 𝑥 ≠ ∑= 𝑥 puesto que el primer miembro de la desigualdad es
𝑥 + 𝑥 + …+ 𝑥
y el segundo miembro de la desigualdad es
(𝑥 + 𝑥 + ⋯ + 𝑥 ) = 𝑥 + 𝑥 + ⋯ + 𝑥 + 2𝑥 𝑥 + 2𝑥 𝑥 + ⋯ + 2𝑥 − 𝑥
 En general, si f es una función no lineal, entonces
𝑓(𝑥 ) ≠ 𝑓( 𝑥)
= =
Así, ∑ = 𝑥 ≠ ∑ = 𝑥 , ∑ = log(𝑥 ) ≠ log ∑ = 𝑥 ó ∑= 𝑥 ≠ ∑= 𝑥 .
Aplicación a la varianza muestral
Dada una muestra (x1,x2,…,xn) proveniente de una variable aleatoria X, la varianza

muestral S2(X) se define como:
1
𝑆 (𝑋) = (𝑥 − 𝑋 )
𝑛−1 =
donde 𝑋 = ∑ = 𝑥 es la media muestral. Utilizando las propiedades del sumatorio,

veamos que la varianza muestral es equivalente a:
1
𝑆 (𝑋) = 𝑥 − 𝑛𝑋
𝑛−1 =
178
Aplicando el binomio de Newton,

𝑛 𝑛
1 2 1 2
𝑆2 (𝑋) = (𝑥𝑖 − 𝑋) = (𝑥2𝑖 − 2𝑥𝑖 𝑋 − 𝑋 )
𝑛−1 𝑖=1
𝑛−1 𝑖=1
y por la propiedad asociativa,
1
𝑆2 (𝑋) = 𝑥 − 2𝑥 𝑋 + 𝑋
𝑛−1 = = =
Usando la propiedad distributiva en el segundo sumatorio (𝑋 es un valor real) y la

propiedad 1 en el tercer sumatorio, se obtiene:
1
𝑆2 (𝑋) = 𝑥 − 2𝑋 𝑥 + 𝑛𝑋
𝑛−1 = =
Por la definición de media muestral, ∑𝑛𝑖=1 𝑥𝑖 = 𝑛𝑋, y aplicando esta igualdad a la

expresión anterior,
1 1
𝑆2 (𝑋) = 𝑥 − 2𝑋 𝑛𝑋 + 𝑛𝑋 = 𝑥 − 2𝑛𝑋 + 𝑛𝑋
𝑛−1 =
𝑛−1 =
Por tanto,
1
𝑆 (𝑋) = 𝑥 − 𝑛𝑋
𝑛−1 =
como se quería demostrar.
179
Apéndice II. Soluciones a algunos ejercicios
Tema 1. Estadística descriptiva univariante
1.1. (a), (b) Cuantitativa, continua.

(c), (d), (e) Cualitativa, nominal.
(f) Cuantitativa, discreta.
(g) Cuantitativa, continua.
1.3. (a)
Días Frecuencia Porcentaje
0 3 6
1 4 8
2 11 22
3 7 14
4 10 20
5 6 12
6 3 6
7 2 4
8 3 6
9 0 0
10 1 2
Total 50 100
(c)
2-3
0-1
6 o mas
4-5
180
(e) Media = 3,66 Moda = 2 Mediana = 3,5.

Rango = 10 RI = Q3 – Q1 = 5 – 2 = 3 S = 2,255.
1.4. (a)
Perímetro Frecuencia Porcentaje Por. Acum.
331 1 2,9 2,9
334 1 2,9 5,7
336 1 2,9 8,6
337 2 5,7 14,3
338 1 2,9 17,1
339 1 2,9 20,0
340 1 2,9 22,9
341 1 2,9 25,7
342 5 14,3 40,0
343 2 5,7 45,7
345 2 5,7 51,4
346 2 5,7 57,1
347 2 5,7 62,9
348 1 2,9 65,7
349 2 5,7 71,4
351 2 5,7 77,1
352 2 5,7 82,9
353 1 2,9 85,7
356 1 2,9 88,6
358 1 2,9 91,4
360 1 2,9 94,3
361 1 2,9 97,1
365 1 2,9 100
Total 35 100
(b) 2 33* | 14
7 33. | 67789
16 34* | 012222233
(9) 34. | 556677899
10 35* | 11223
5 35. | 68
3 36* | 01
1 36. |5
(d) Media = 346 Mediana = 345.

Rango = 34 RI = 10 S = 7,907.
(Q1 y Q3 están calculados con el método usual).
181
1.5. X1 = 368.
X2 = 387*100/1501 = 25,8 = X4.
X3 = 371*100/1501 = 24,7.
X5 = 25,8 + 24,5 = 50,3.
X6 = 100.
1.6. (a) Tomando unidades como hojas y decenas y centenas como tallos:
15 0 | 000000055556889
25 1 | 0000055779
(10) 2 | 0000033367
21 3 | 00
19 4 |0
18 5 | 0000
14 6 | 000
11 7 |0
8 |
9 |
10 10 | 000
7 11 | 47
HI: 200 200 300 350 450
La última línea (HI: 200 200 300 350 450) equivale a añadir en el diagrama
una última línea de la forma:
(120 o más) (5 casos)
(c)
k 5 10 25 50 75 90 95
Pk 0 0 8 20 50 117 300
Las posiciones 28 y 29 las ocupa el 20, luego Mediana = 20.

Los percentiles con el método average son:
k (n-1)*k/100+1 i d x(i) x(i+1) Pk (a)
5 3,75 3 0,75 0 0 0
10 6,5 6 0,5 0 0 0
25 14,75 14 0,75 8 9 8,75
50 28,5 28 0,5 20 20 20
182
75 42,25 42 0,25 50 60 52,5
90 50,5 50 0,5 114 117 115,5
95 53,25 53 0,25 200 300 225
(e) Media = 53,34 (dudosa) Moda = 0 (dudosa) Mediana = 20.

S = 88,29 (dudosa) Rango = 450 (dudosa) RI = 42.
(RI usa Q1 y Q3 calculados con el método usual).
(RI = 43,75 si Q1 y Q3 se calculan con el método average).
1.7. (a)
Edad Frecuencia Porcentaje Porc. Acum.
18 23 20,9 20,9
19 29 26,4 47,3
20 27 24,5 71,8
21 10 9,1 80,9
22 6 5,5 86,4
23 6 5,5 91,8
24 1 0,9 92,7
25 1 0,9 93,6
26 2 1,8 95,5
28 2 1,8 97,3
34 1 0,9 98,2
41 1 0,9 99,1
45 1 0,9 100
Total 110 100
A = 20,9 + 26,4 = 47,3.

B = 10*100/110 = 9,1.
C = 2*100/110 = 1,8.
(b)
k 5 10 50 90 95
Pk 18 18 20 23 26
(c) Media = 20,56 Moda= 19 Mediana = 20.

Rango = 27 RI = 2 S = 3,922.
1.8. (a) Q1= 15 Q2= 17 Q3= 25 Mediana = 17,5.
183
Diagrama de caja:
|--------------[ | ]--------| o
5 15 17,5 25 30 50
(b) Q1= 68 Q3= 82 RI = 14 Mediana = 76.
Diagrama de caja:
|-------[ | ]-----| o o *
47 68 76 82 96 104(2) 119 145
1.9. (a) Q1 = 63 Q2 =65 Q3 =68 Mediana = X(12) =65.
(b) |------[ | ]------------- |

62 63 65 68 70
(c) Media = 65,391 Moda= 63 Mediana = 65.

Rango = 70-62 = 8 RI = 5 S = 2,776 CV = 0,042.
Una descripción podría ser: la muestra tiene 23 datos. El peso más frecuente
es 63 kg. La mitad de la muestra tiene un peso de a lo más 65 kg. La media es
65,4 kg, con una desviación típica de 2,8 kg. El 25% de la muestra (al menos)
tiene un peso menor o igual que 63 kg y el 25% (al menos) tiene un peso mayor
o igual que 68 kg.
1.10. (a) Q1 = P25 = 55 Q2 = P50 = 58 Q3 = P75 = 60 Mediana = 58.
(b)
|----------------------------[ | ]---------------|
51 55 58 60 62
(c) La moda es 60, con 10 repeticiones. El rango es R = 62-51 = 11. La mediana es

58 (en este caso, coincide con Q2; el 57,5% de la muestra pesa 58 o menos; el
52,5% pesa 58 o más). El RI = 5. La media es 57,45, S2 = 8,1 y S = 2,846.
1.11. (a) Media (sin recortar) = 173,6 mm.

16, 150, 160, 165, 185, 200, 200, 200, 210, 250
Media recortada 10% = 183,75 mm.
16, 150, 160, 165, 185, 200, 200, 200, 210, 250
Media recortada 20% = 185 mm
16, 150, 160, 165, 185, 200, 200, 200, 210, 250
184
Media recortada 30% = 187,5 mm

16, 150, 160, 165, 185, 200, 200, 200, 210, 250
Media recortada 40% = 192,5 mm.
(b) La media recortada al 40% coincide con la mediana (192,5).
(c) Media recortada al 48%: si hay 100 datos (quitamos 96).
• Quedan los 4 datos centrales.
• La media recortada es el promedio de esos 4 datos.
• La mediana es el promedio de los 2 centrales y podría no coincidir.
– Contraejemplo: … 10, 11, 13, 90, …
• Mediana = 12.
• MR(48%) = 31.
• Pero la MR al 49% COINCIDE con la mediana SIEMPRE (si n = 100).
1.12. (a) Media y S.

(b) Sí es razonable. El CA mide si la variable es simétrica o no. El CC mide si tiene
el mismo apuntamiento que la normal o no.
(c) La distribución Normal es un modelo teórico adecuado para estos datos.
1.13. (a) Q1 = 3, Q2 = 7, Q3 = 13 (usando porcentajes acumulados).

Mediana = (7+11)/2 = 9.
Con R:
R utiliza otra(s) formula(s) para calcular los percentiles (y en particular para

los cuantiles).
1.15. (a) Suma = 1880 Media = 188 (adecuada).

(b) S =30,386 Rango = 100 RI =40 (Adecuadas).
(c) Preferimos Media y S (datos cuantitativos, no hay valores extremos, no hay
datos erróneos).
1.16. Si aplicamos la transformación a muestra de n números x1, …, xn, obtenemos otra

muestra de n números y1, …, yn, donde yi = a + bxi. La media de Y verifica, usando
las propiedades de la suma, que
1 1
𝑌= (𝑎 + 𝑏𝑥 ) = (𝑛𝑎 + 𝑏 𝑥 ) = 𝑎 + 𝑏𝑋
𝑛 𝑛
De la misma forma, la varianza de Y verifica
𝑆(𝑌) = ∑ (𝑦 − 𝑌) = ∑ (𝑎 + 𝑏𝑥 − 𝑎 − 𝑏𝑋) =
= ∑ 𝑏 (𝑥 − 𝑋) =𝑏 𝑆(𝑋)
185
Si b > 0, tomando raíces cuadradas se obtiene que S(Y) = bS(X).
Nota: si b es negativo, se obtiene el mismo resultado para la media, pero hay que
cambiar b por su valor absoluto en la desviación típica: S(Y) = |b|S(X).
1.17. (a) S adecuado EN CADA MUESTRA. Pero NO para comparar pues están
medidas en unidades distintas.
(b) CV(L) = 2/9,5=0,211 CV(Z) = 2/12,5=0,160.
(c) Aplicamos el ejercicio 16:
W = datos de Zaragoza, en libras: W = Z/1,11=0,901*Z.
M(W) = 0 + 0,901*12,5 = 11,262.
S(W) = 0,901*2 = 1,802 libras < 2 libras = S(L).
Nota: CV(W) = 1,802/11,262 = 0,160.
(El mismo que Z: el CV es adimensional y hay un cambio de escala).
1.18. (a) S adecuado EN CADA MUESTRA. Pero NO para comparar pues están
(b) CV(L) = 1,9/10,5 = 0,181 CV(Z) = 2/11,5 = 0,174.
(c) Aplicamos el ejercicio 16:
W = datos de Zaragoza, en libras: W = Z/1,11 = 0,901*Z.
M(W) = 0 + 0,901*11,5 = 10,362.
S(W) = 0,901*2 = 1,802 libras < 1,9 libras = S(L).
Nota: CV(W) = 1,802/10,362 = 0,174.
(El mismo que Z: el CV es adimensional y hay un cambio de escala).
1.19. (a) CV(ES) = 0,91/35,2 = 0,026 CV(EU) = 0,31/13,6 = 0,023.

(b) Aplicamos el ejercicio 16:
W = datos de España, en pulgadas: W = ES/2,54 = 0,394*ES
M(W) = 0 + 0,394*35,2 = 13,869 [o 35,2/2,54 = 13,858]
S(W) = 0,394*0,91 = 0,359 pulgadas > 0,31 pulgadas = S(EU).
1.20. (a) 1. S es adecuado EN CADA MUESTRA. Pero NO para comparar pues están
2. NO debemos usar CV, ya que las temperaturas (en ºC y en ºF) NO tienen
un cero absoluto.
(b) Aplicamos el ejercicio 16:
W = datos de España (E) en ºF : W = 32+1,8*E
M(W) = 32+1,8*38,9 = 102,02 ºF
S(W) = 1,8*1 = 1,8 ºF = S(EEUU).
(c) Reduciendo a las mismas unidades, tienen la misma S. Igual dispersión en torno
a su media (que podría ser muy distinta).
186
1.21. (a) Incidencia = (18/159832)*100000 = 11,26 (11 casos por cada 100000
personas de la muestra).
(b) Prevalencia = ((456+18)/159832)*100000 = 296,57 (297 casos por cada
100000 personas de la muestra).
1.22. Resultados por cada 100000 habitantes.

(a) Tercera semana: Nuevos = 181+291+330+352+401+383+323 =2261.
Incidencia = (2261/1334592)*100000 = 169,42.
(169 casos por cada 100000 personas en la muestra).
Sexta Semana: Incidencia = (1012/1334592)*100000 = 75,83.
(b) Prevalencia = ((802+181)/1334592)*100000 = 73,66.
(c) Prevalencia = ((822+1012/1334592)*100000 = 137,42.
1.23. En la columna ‘sexo’ hemos codificado: 1 = mujer y 2 = hombre.

(b) En la columna ‘z’ tenemos el valor tipificado (con las correspondientes medias
y desviaciones típicas muestrales, y redondeando a 2 decimales).
sexo altura z
1 147,9 -1,68
1 154,2 -0,9
1 157,8 -0,45
1 158 -0,43
1 158,7 -0,34
1 161,5 0,01
1 163,2 0,22
1 166,3 0,6
1 173,3 1,47
1 173,6 1,51
2 158,2 -1,37
2 159 -1,25
2 162,1 -0,82
2 163,9 -0,57
2 165,4 -0,36
2 169,9 0,26
2 174,1 0,85
2 174,5 0,9
2 175,8 1,08
2 177,2 1,28
187
(c) Si ordenamos teniendo en cuenta el valor tipificado (columna z), la mujer que
mide 166,3 sería relativamente más alta que el hombre que mide 169,9, pero
no que el hombre que mide 174,1.
sexo altura z
1 147,9 -1,68
2 158,2 -1,37
2 159 -1,25
1 154,2 -0,9
2 162,1 -0,82
2 163,9 -0,57
1 157,8 -0,45
1 158 -0,43
2 165,4 -0,36
1 158,7 -0,34
1 161,5 0,01
1 163,2 0,22
2 169,9 0,26
1 166,3 0,6
2 174,1 0,85
2 174,5 0,9
2 175,8 1,08
2 177,2 1,28
1 173,3 1,47
1 173,6 1,51
1.24. (a) El gráfico representa la evolución del consumo facturado, y no la evolución

del consumo mensual (hay dos importes para septiembre de 2012).
(b) “Evolución de su consumo facturado”. La gráfica sugiere irregularidad, que está
más en los periodos de facturación o en la ausencia de datos que en el consumo
real.
(c) Si se quiere mantener el diagrama de línea, habría que procurar que los
periodos representados fueran homogéneos. Juntando los dos valores de
septiembre en uno, y eliminando el valor 0 de abril de 2013 (no corresponde a
ausencia de consumo, sino a falta de información), quedaría una gráfica menos
abrupta:
188
(d) Si se agrupa la información disponible en periodos iguales (de 2 meses), el

gráfico de barras queda:
(e) La compañía podría ofrecer también el consumo medio por día en cada periodo
de facturación, y esas cantidades son comparables directamente, aunque el
número de días de cada periodo de facturación sea distinto.
1.25. (a) Se suele abusar del diagrama de sectores, pero en este caso es adecuado
utilizarlo porque la variable es nominal. A pesar de que hay 12 categorías, las
leyendas que las identifican se leen con claridad y se asocian fácilmente con
el correspondiente sector. Los sectores, además, contienen la frecuencia de
cada categoría. El gráfico presenta toda la información relevante.
(b) En esta página web la elección de los gráficos y su realización es, en general,
muy adecuada.
189
1.26. (a)
Ingresos Frecuencia Porcentaje Porc. Acum.
0 7 17,5 17,5
1 11 27,5 45,0
2 10 25 70,0
3 7 17,5 87,5
4 1 2,5 90,0
5 2 5,0 95,0
6 1 2,5 97,5
7 1 2,5 97,5
Total 40 100
(b) Al menos dos: 55%. Cinco o menos: 95%.

(c) Q1 = 1, Q2 = 2, Q3 = 3.
(d) Media = 1,975 Moda = 1 Mediana = 2.
(e) Rango = 7 S = 1,671.
1.27. (a)
Cambios Frecuencia Porcentaje Porc. Acum.
1 14 17,5 17,5
2 20 25,0 42,5
3 32 40,0 82,5
4 10 12,5 95,0
5 4 5,0 100
Total 80 100
(b) Al menos dos: 82.5%.

(c) Q1 = 2, Q2 = 3, Q3 = 3 por el método usual y por el método average.
(d) Media = 2,625 Moda = 3 Mediana = 3.
(e) Rango = 4 S = 1,072.
1.28. (a) El diagrama de caja tendría el siguiente aspecto:

o |---[ | ]------------| o *
6 9 10 10.5 12 15 17, 17 20
Los topes de los bigotes son el 9 y el 15. Hay 3 atípicos: 6, 17, 17, y uno
extremo: 20.
190
Tema 2. Estadística descriptiva bivariante
2.1. (a) A = 10; B = 15; C = 70.

(b) Mediana(X) = 3; Moda(Y) = 2.
(Si Y no es ordinal, no tiene sentido calcular la mediana).
(c) Media (X condicionada a tratamiento 1) =
= (1*15+2*15+3*10+4*5+5*5)/50 = 2,4.
Media (X condicionada a tratamiento 2) = 3,214.
Media (X condicionada a tratamiento 3) = 3,1.
2.2. (a) A = 15; B = 25; C = 60.

(b) Med(X) = (X(85)+X(86))/2 = 2.
Med(X condicionado a Y=1) = 3.
Med(X condicionado a Y=2) = 2,5.
Med(X condicionado a Y=3) = 2.
(c) No tiene sentido porque Y no es ordinal.
2.3. (a) Med(A condicionado a T=37) = 162.

Med(A condicionado a T=38) = 163,5.
Med(A condicionado a T=39) = 168.
Med(A condicionado a T=40) = 173.
(b) Media(A condicionado a T=37) = 162,3.
Media(A condicionado a T=38) = 164,08.
(c) Media(A) = 166,24.
Mediana(A) = 166.
Moda(T) = 38.
Mediana(T) = 38.
2.4. (a) Cov(PD,PI) = 325,788 mm2.

(b) Cov(X,Y) = 0,000326 m2.
La relación entre X e Y es la misma que entre PD y PI.
(c) r(PD, PI) = r(X, Y) = 0,946.
(d) Recta [PI] = a + b*PD > b= 0,839 ; a = 30,977.
Recta [PD] = a’ + b’*PI > b’ = 1,066; a’ = -13,359.
Las dos tendrán el mismo R = r2 = 0,895.
2
(e) Misma b y b’; a y a’ se dividen por 1000.
2.7. (a) a = 2,16; b = 0,42.

(b) [Y] = 3,42; e = 1,58.
2.8. (a) M(B) = 9,4; M(T) = 18,2; S(B) = 5,1; S(T) = 8,4.
191
(b) Cov(B,T) = 38,090; r(B,T) = 0,887.

(c) RR de T sobre B. [T] = a + b *B.
b = r*S(T)/S(B) = cov(B,T)/S2(B) = 1,467.
a = M(T) – b*M(B) = 4,430.
RR de B sobre T. [B] = a’ + b’ *T.
b’ = r*S(B)/S(T) = cov(B,T)/S2(T) = 0,537.
a’ = M(B) – b’*M(T) = -0,385,
Para las dos, el coeficiente de determinación es el mismo: R2 = r2 = 0,787.
2.9. (a) Coinciden.

(b) R2 = 0,911; se explica el 91,1%.
(c) a*= -1,694; b*= 0,334; R2 es la misma.
2.11. Partiendo de las medias de la tabla y redondeando a tres decimales en cada paso,
se obtiene:
(a) a = 3614,244; b = -1,419.
(b) R2 = 0,925; 92.5%.
(c)
Año Predicción Marca Residuo
obtenida
1994 784,758 816,930 32,172
1998 779,082 817,460 38,378
2002 773,406 818,180 44,774
2006 767,730 82,.700 56,970
NOTA: Con los datos originales de la tabla, utilizando Excel y redondeando a tres
decimales solo al escribir los resultados se obtiene:
(a) a = 3593,548; b = -1,408.

(b) R2 = 0,915; 91,5%.
(c)
Año Predicción Marca Residuo
obtenida
1994 785,075 816,930 31,855
1998 779,441 817,460 38,019
2002 773,807 818,180 44,373
2006 768,173 82,.700 56,527
2.12. (a) Cov(X,Y) = 73,683; r = 0,971.

(b) a = 13,440; b = 2,654.
(c) R2 = 0,943; 94,3%.
(d) El mismo.
192
2.14. (a) Cov(X,Y) = 0.

(b) r = 0; no puede garantizarse la independencia de X e Y.
2.15. (a) Redondeando a 2 decimales,

M(Xi) = 9,00; M(Yi) = 7,50.
S(Xi) = 3,32; S(Yi) = 2,03.
(b) Redondeando a 2 decimales, son los mismos para los 4 conjuntos de datos: a =
3,00; b = 0,50; R2 = 0,67.
2.17. (a) A = 40; B = 20; C = 15.

(b) y (e)
(c) y (e)
(d) Condicionando a Rural y a Suburbano, la moda es Muy satisfecho, pero

condicionando a Urbano, la moda es Muy insatisfecho.
(e)
Satisfacción
Muy satisfecho Satisfecho Insatisfecho Muy insatisfecho
50
40
Nivel de satisfacción
30
20
10
0
Rural Suburbano Urbano
Lugar de residencia
193
2.18. (a) Cov(X,Y) = 299,301; r = 0,757; Sí.

(b) a = 88,395; b = 1,125; R2 = 0,573; 57,3%.
(c) [Presión] = 127,760 mmHg.
(d) Edad = 48 años.
Tema 3. Cálculo de probabilidades
3.1. (a) P(S1 ∩ S2) = 0,1.
3.2. (a) P(E|V) = 0,025. (b) P(V|E) = 0,2.
3.3. (a) P(S1) = 0,12. (b) P(S1 ∩ S2) = 0,06. (c) P(S1 ∪ S2) = 0,26.
3.4. (a) P(B) = 2/3.

(b) P(U2|B) = 1/16. El complementario es P(U1|B) = 15/16.
(c) P(U2|Bc) = 3/8. El complementario es P(U1|Bc) = 5/8.
3.5. (a) P(UC) = 0,245.

(b) P(E|UC) = 0,510. P(F|UC) = 0,245. P(TO|UC) = 0,245.
3.6. (a) P(A|E) = 0,678. (b) P(A|Ec) = 0,011.
3.7. (a) P(E|T+) = [0,95*0,005]/[0,95*0,005 + 0,01*0,995] = 0,323.

(b) P(E|T-) = 0,0003.
3.8. (a) P(E|T+) = 0,886. (b) P(E|T-) = 0,039.
3.9. (a) P(E|T+) = 0,038. (b) P(E|T-) = 0,000001. (c) Precisión: 0,995.
(d) P(E|T+) = 0,980 Precisión: 0.995.
3.10. (a) P(E|T+) = 0,696. (b) P(Ec|T-) = 0,725. (c) Precisión: 0,715
(d) La prueba no es muy buena, pues la precisión sólo es del 0,715, es decir, que
sólo clasificaremos correctamente un 71,5% de las veces. Además, si decidimos
clasificar como enfermo cada vez que la prueba salga positiva, nos estaremos
equivocando aproximadamente un 30,4% de las veces, y si decidimos clasificar
como sano cada vez que la prueba salga negativa, nos estaremos equivocando
aproximadamente un 27,5% de las veces.
3.11. (a) E = ha tomado sustancias prohibidas. P(E) = 0,058.

(b) P(C|E) = 0,862.
(c) T+ = la prueba da positivo: P(Ec|T+) = 0,016.
194
3.12. (a) P(E ∩ S1) = 0,02. (b) P(S1) = 0,029. (c) P(E|S1) = 20/29 (= 0,69).
3.13. (a) P(T+) = 0,204. (b) P(D|T+) = 0,96078. (c) P(D|T-) = 0,005025.
3.14. (a) P(F) = 0,16. (b) P(F ∩ T) = 0,08. (c) P(F ∪ T) = 0,28.
3.15. (a) Como la prueba de referencia A es perfecta, podemos obtener la prevalencia

de la característica E en esa muestra dividiendo casos favorables por casos
posibles, P(E) = 320/1000 = 0,32.
(b) P(E|T+) = 0,979 P(Ec|T+) = 0,021.
(c) P(E|T-) = 0,009 P(Ec|T-) = 0,991.
(d) La precisión de la nueva prueba B es 0,9868 y la precisión de la prueba de
referencia A es 1.
3.16. (a) P(E) = 100/1250 = 0,08.

(b) P(T+|Ec) = 0,04 P(T-|E) = 0,05.
(c) P(E|T+) = 0,674 P(Ec|T+) = 0,326.
(d) P(E|T-) = 0,005 P(Ec|T-) = 0,995
(e) La precisión es 0,9592 (acertaremos un 95,92% de las veces).
3.17. (a) P(N|S) = 0,05, P(S|N) = 1, P(+|N) = 0,9 y P(-|Nc) =0,98.

(b) P(+) = 0,064.
(c) P(N|+) = 0,7031.
Tema 4. Variables aleatorias
4.1. (a) P(X = 0) = 0,90438208. (b) P(X = 2) = 0,00415235.

(c) P(X > 0) = 0,09561792. (d) P(X > 3) = 0,00000200.
(e) P(X < 3) = 0,99988615.
Puedes calcular estas probabilidades a mano, usando las fórmulas de la Binomial, o
utilizar la siguiente tabla con las funciones de probabilidad y de distribución de la
Binomial con parámetros n=10 y p=0,01, redondeadas a 8 decimales.
k f. de prob. f. de dist.
0 0,90438208 0,90438208
1 0,09135172 0,99573380
2 0,00415235 0,99988615
3 0,00011185 0,99999800
4 0,00000198 0,99999998
5 0,00000002 1,00000000
195
6 0,00000000 1,00000000
7 0,00000000 1,00000000
8 0,00000000 1,00000000
9 0,00000000 1,00000000
10 0,00000000 1,00000000
4.2. (a) P(X=0) = 0,32768. (b) P(X=2) = 0,2048. (c) E(X) = n*p = 1.
4.3. (a) P(X=4) = 0,195. (b) P(X=0) = 0,018. (c) P(X≥2) = 0,908.
En el apartado c, P(X ≥ 2) = 1 – P(X ≤ 1) y P(X ≤ 1) = 0,0183 + 0,0733 = 0,0916. Por tanto, P(X
≥ 2) = 1 – 0,0916 = 0,9084.
4.4. (a) P(X > 1) = 0,159. (b) P(0,5 < X < 1,5) = 0,242.
(c) P(-1,5 < X < -0,5) = 0,242. (d) P(X>1,96) = 0,025.
4.5. (a) x0,9554 = 1,7. x0,9772 = 2,0.

(b) P(X>2,5) = 1 – 0,9938 = 0,0062.
(c) c = z0,95 = 1,645.
(d) -c = z0,95 = -z0,95 = -1,645.
(e) c = z0,975 = 1,960.
4.6. (a) P(X = 3) = 0,005416. (b) E(Y) = 80*0,05 = 4.

(c) P(Y = 3) = 0,1978. (Si aproximamos con Poisson (4): 0,1954).
4.7. (a) P(X ≤ 1) = 0,095. (b) P(X > 5) = 0,607.
4.8. (a) P(X < 126) = P(X ≤ 126) = 0,9938.

(b) P(98 ≤ X ≤ 122 ) = 0,81859.
(c) x0,05 = 92,840 (usando que z0,05 = -1,645).
INTERPRETACIÓN: El 5% de los que padecen esta patología tienen un nivel de la
sustancia en plasma sanguíneo menor o igual que este número.
(d) P(X ≥ 119,5) = 0,0446.

(e) P(X ≥ 102) = 0,6915.
(f) x0,25 = 100,56 (usando que z0,25 = -0,68).
INTERPRETACIÓN: El 25% de los que padecen esta patología tienen un nivel de la
sustancia en plasma sanguíneo menor o igual que este número.
4.9. (a) x0,02 = 98,2 (aproximadamente; el valor exacto es 98,3875).

Definimos T+ = {GB>98,2}. Nótese que P(T+|E) = P(X>98,2) = 0,9803.
(b) P(X>98,2) = P(Z>1,82) = 0,0344 (Un 3,44%).
Nótese que P(T+|Ec) = P(X>98,2) = 0,0344.
196
(c) P(E|T+) = 0,760.
Soluciones utilizando la tabla N(0,1) [con 2 decimales para los valores y 4 decimales para
las probabilidades] y tomando como cuantil zp el menor a tal que F(a)  p.
4.10. (a) X: Bin(10,P(T+)) con P(T+) = 0,305 (Teorema de la probabilidad total).

P(X=4) = 0,2048.
(b) X: Bin(4,P(Ec|T+)) con P(Ec|T+) = 0,738 (Teorema de Bayes).
P(X=2) = 0,2243.
(c) X: Bin(10, P(test incorrecto)).
P(test incorrecto) = P((T+ ∩ Ec) ∪ (T-∩E)) = 0,245.
P(X=2) = 0,2852.
P(X≤2) = 0,5407.
4.11. (a) P(X ≤ 12) = 0,213.

(b) P(X > 48) = 0,383.
(c) P(X > 168) = 0,035.
(d) Es el percentil 85: 94,86 horas (3,95 días). A los 4 días el síntoma habrá
desaparecido en un 85,3% de los pacientes.
4.12. (a) E(X) = 100 días. (b) P(X≤50) = 0,393. (c) P(X≤100) = 0,632.
(d) P(X>365) = 0,026. (e) x0,5 = 69,315 días.
4.13. (a) P(X<2) = P(X≤2) = 0,25. (b) P(2 < X ≤ 2,4) = 0,11.
(c) P(0<X≤1) = 0,0625. P(1<X≤2) = 0,1875. P(2<X≤3) = 0,3125. P(3<X≤4) = 0,4375.
√
(d) La función cuantil es xp = 4 𝑝. X0,64 = 3,2.
4.14. (a) P(X = 1) = 0,25.

(b) P(X = 4) = 0,0625.
(c) P(X ≥ 1) = 0,9375.
(d) E(X) = n*p = 2.
(a’) P(X = 1) = 0,046875.

(b’) P(X = 4) = 0,316406.
(c’) P(X ≥ 1) = 0,9961.
(d’) E(X) = n*p = 3.
4.15. (a) P(X > 2) = 0,5488.

(b) P(X < 4) = 0,6988.
(c) P(3 ≤ X ≤ 6) = 0,2413.
(d) P((X < 2) ∪ (X > 8)) = 0,542.
(e) x0,25 = 0,9589. x0,6 = 3,0543.
197
4.16. (a) P(X > 12) = 0,8.

(b) P(X < 14) = 0,4.
(c) P(13 ≤ X ≤ 16) = 0,3.
(d) P((X < 12) U (X > 18)) = 0,4.
(e) x0,25 = 12,5. x0,6 = 16.
4.17. (a) E(T) = 1 segundo.

(b) P(T < 1) = 0,5.
(c) P(0,8 ≤ T ≤ 1,3) = 0,5.
(d) t0,9 = 1,4 segundos.
4.18. (a) P(X > 12) = 0,9772.

(b) P(X < 16) = 0,1587.
(c) P(12 ≤ X ≤ 16) = 0,1359.
(d) x0,4 = 18,96. x0,9 = 25,16.
4.19. (a) P(Fab. 1 | T < 32) = 0,8395. Teorema de Bayes.

(b) P(Fab. 2 | T < 32) = 0,1605. Teorema de Bayes.
Tema 5. Inferencia Estadística
5.1. (a) P(Z  [-1,5, 1,5]) = P(-1,5 ≤ Z ≤ 1,5) = P(Z ≤ 1.5) – P(Z < -1.5)
= P(Z ≤ 1,5) – P(Z > 1.5) = P(Z ≤ 1,5) – (1 - P(Z ≤ 1,5) ) = 2*P(Z ≤ 1,5) – 1
= 2*FZ(1,5) - 1 = 2*0,9332 – 1 = 0,8664.
(b) 1 - P(Z  [-1,5, 1,5]) = 1 – 0,8664 = 0,1336
(c) P(Z > 2,5) = 1 – P(Z ≤ 2,5) = 1 - FZ(2,5) = 1 – 0,9938 = 0,0062.
(d) P(Z < -2,5) = P(Z > 2,5) = 0,0062.
5.2. (a) m(x) = 0,1. Coincide con la frecuencia observada de éxitos.

(b) s2(x) = [(1-0,1)2*10+ (0-0,1)2*90]/99 = [8,1+0,9]/99 = 0,091.
En general, S2(X) es un buen estimador de la varianza.
(b) m(x)*(1-m(x)) = 0,09.

Puede comprobarse que m(x)*(1-m(x)) coincide con m2(X). Si n es suficientemente grande los
valores de S2(X) y m2(X) son muy parecidos.
5.3. (a) m(x) = 150 (b) s(x) = 5 (c) m(x) = 150 (d) s(x)/10 = 0,5
198
5.4. (a) Usando que z0,975 = 1.96 se tiene que LI = 150 – 1,96*4,5/10 = 149,118 y que
LS = 150 + 1,96*4,5/10 = 150,882
Redondeando a 2 decimales, el intervalo es [149,12, 150,88].
(b) Usando que t0,975,99 = 1,984 se tiene que LI = 150 – 1,984*5/10 = 149,008 y que
LS = 150 + 1,984*5/10 = 150,992.
Redondeando a 2 decimales, el intervalo es [149,01, 150,99].
(c) Usando que z0,95 = 1,645 se tiene que LI = 150 – 1,645*4,5/10 = 149,260 y que
LS = 150 + 1,645*4,5/10 = 150,740.
Redondeando a 2 decimales, los intervalos unilaterales son (-∞, 150,74] y
[149,26,+ ∞).
(d) Usando que t0,95,99 = 1,660 se tiene que LI = 150 – 1,660*5/10 = 149,170 y que
LS = 150 + 1,660*5/10 = 150.830
Redondeando a 2 decimales, los intervalos unilaterales son (-∞, 150,83] y
[149,17,+ ∞).
5.5. (a) z0= -3 y p-valor = 2*P(N(0,1) ≥ 3) = 2*0,00135 = 0,0027.

(b) Se rechaza la hipótesis nula al 5%.
5.6. (a) t0=(7-8)/(1,5/3)=-2 y p-valor=2*P(t(8) ≥ 2) = 2*0,040258 = 0.080516.

(b) No se puede rechazar la hipótesis nula al 5%.
5.7. (a) t0=(5,2-5)/(1/10)=2 y p-valor = 2*P(t(99) ≥ 2) = 2*0,02412 = 0,04824.

(c) t0 = (4,8-5)/(1/10) = -2. El p-valor es el mismo y se rechaza la hipótesis nula al
5%.
5.8. Si rechazamos la hipótesis nula, estaríamos diciendo que X > 5 cuando hemos
obtenido una estimación de X de 4,8. Cuando la alternativa es unilateral, el p-valor
se calcula con una cola de la distribución, en el sentido de la hipótesis alternativa.
En este caso, debemos tomar la cola de la derecha.
(a) t0 = (4,8-5)/(1/10) = -2 y el p-valor = P(t(99) ≥ -2) = 0,97588 > 0,05.
5.9. (a) t0 = (177-175)/(14/7) = 1 y p-valor = 2*P(t(48) ≥ 1) = 2*0,16116 = 0,32232.

(c) t0 = (177-175)/(14/14) = 2 y p-valor = 2*P(t(195) ≥ 2) = 0,04688. Se rechaza
la hipótesis nula al 5%.
5.10. (a) Usando que t0,975,48 = 2,011 se tiene LI = 172,978 y LS = 181,022. El intervalo
de confianza bilateral al 95% sí contiene al 175. Nótese que con estos mismos
datos, en 5.9 (b) no se puede rechazar la hipótesis nula de que la media es
175 con alternativa bilateral.
199
(b) Usando que t0,975,195 = 1,972 se tiene LI = 175,028 y LS = 178,972. El intervalo

de confianza bilateral al 95% no contiene 175. Nótese que, con estos mismos
datos, en 5.9 (c) sí se puede rechazar la hipótesis nula de que la media es 175
con alternativa bilateral.
5.11. (a) t0 = (190-195)/(18/9) = -2y5 y el p-valor = 2*P(t(80) ≥ 2,5) = 0,01446.

(c) t0 = -2.5 y el p-valor = P(t(80) ≤ -2.5) = P(t(80) ≥ 2.5) = 0,00723 (hay que tomar
la cola de la izquierda). Se rechaza la hipótesis nula al 5%, y por tanto se acepta
la alternativa.
5.12. (a) Usando z0,95 = 1,645, n ≥ 97,4. Tomaríamos n = 98 (o mayor).

(b) Los cálculos se basan en la normalidad de la media muestral, y esta normalidad
se asume cuando n  30, aunque X no sea normal. Por tanto, n = 98 sería
adecuado.
(c) Usando z0,95 = 1,645, n ≥ 10,8. Tomaríamos n = 11 (o mayor), si podemos asumir
que X es normal. Si X no es normal, n = 11 es un tamaño muestral demasiado
pequeño. Se recomienda tomar n = 30 (o mayor) ya que se seguirá cumpliendo
que n ≥ 10.8, y además podemos asumir la normalidad de la media muestral.
5.13. (a) P(S256 > 7920) = P(Z > 3) = 0,0013.

(b) P(S365 < 10700) = P(Z < -2,617) ≈ 0,0044.
√
(c) P(S365 < x) = 0,99 ⇒ (x-30*365)/(5 365 ) = 2,33 ⇒ x = 11172,57 < 11173.
5.14. P(160 ≤ S196 ≤ 170) ≈ P(0,57 ≤ Z ≤ 2,36) = 0,2752.
5.15. P(M(X) < 48.7) = P( Z < -1,9 ) = 0,0287. Al ser esta probabilidad tan pequeña, el
peso medio de 48,7 es bastante extraño si la distribución de la talla de recién
nacidos fuese normal de media 50,5 cm y desviación típica 2,842 cm. Por tanto, la
muestra parece no provenir de la población descrita.
5.16. P(M(X) < 2200) = P( Z < -6,75 ) ≈ 0. Al ser esta probabilidad prácticamente cero,
los datos obtenidos con la muestra no concuerdan con los datos proporcionados por
la empresa. Por tanto, si el resto de las suposiciones son correctas, las baterías
que fabrica la empresa no tienen una duración media de 2500 horas, sino que tienen
una duración media más pequeña.
5.17. (a) P(X > 20) = P(Z > 1,5) = 0,06681.

(b) P(17 ≤ X ≤ 20) = P(0,9 ≤ Z ≤ 1,5) = 0,1173.
(c) P(M(X) > 18) = P(Z > 5,5) ≈ 0. Sí que habría que realizar la reclamación. Con las
especificaciones de la compañía, la probabilidad de que se obtenga una media
muestral superior a 18 es prácticamente nula.
200

Apuntes EACS 23-24

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Apuntes EACS 23-24

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes EACS 23-24

Cargado por

Copyright:

Formatos disponibles

Estadística Aplicada a

Estadística Aplicada a Ciencias de la Salud

Estos apuntes son el resultado de organizar el material de trabajo utilizado

También se incluyen bastantes ejemplos ilustrativos y se proponen un gran número

Estos apuntes no deberían verse como un libro de introducción a la Estadística,

La Estadística actual puede considerarse como el resultado de la unión de dos

Un modelo matemático es una abstracción simplificada de una realidad compleja y

En una investigación científica, el investigador usualmente se plantea una serie de

La Estadística actual trata de dar respuesta a una gran variedad de situaciones

 Descripciones: ¿qué proporción de diabéticos hay en una población? ¿Cuántas

 Medición de relaciones: ¿existe relación entre la obesidad y el sedentarismo?

Estos apuntes se dividen en tres bloques: la Estadística Descriptiva, que trata

Los dos primeros capítulos se dedican a la Estadística Descriptiva Univariante y

1. Estadística descriptiva univariante

La Estadística Descriptiva es una metodología para la descripción gráfica y

1.2. Variables estadísticas

Comenzamos precisando algunos conceptos. Llamamos población al colectivo que

Cuando podemos acceder a todos los miembros de la población, tenemos un censo.

Llamamos variables estadísticas a las características y llamamos datos a los

Ejemplo 1.1. Medición de pliegues cutáneos en adolescentes.

En un estudio observacional sobre la relación entre forma física y

Si vamos a estudiar k variables sobre n individuos de la muestra, el conjunto de

Ejemplo 1.2. Efectos de un fármaco.

En un estudio experimental sobre el efecto de un fármaco sobre

En este ejemplo, la población de interés es el conjunto de pacientes,

Es un convenio habitual representar las variables con letras mayúsculas. En el

Algunas variables (sexo, grupo sanguíneo) toman valores en un conjunto de

Llamamos cuantitativas (o numéricas) a las variables que se expresan, de forma

instrumentos de medición suficientemente precisos. Sin embargo, la variable

1.3. Tabla de frecuencias

Cuando el número de modalidades de una variable es pequeño con respecto al

Ejemplo 1.3. Tallas de camiseta.

Hemos obtenido (mediante cuestionario) la talla de camiseta de 56

El número de modalidades que toma la variable “talla de camiseta” es 4

Llamamos frecuencia relativa de una modalidad al cociente entre la frecuencia

tenemos el porcentaje de cada modalidad en la muestra. En el ejemplo anterior, la tabla

La tabla de frecuencias relativas o la de porcentajes es más fácil de interpretar

Ejemplo 1.4. Alturas

Hemos obtenido (mediante cuestionario) la altura de 48 alumnas de un curso

Para manipular mejor los datos, los ordenamos.

Determinamos agrupar por intervalos de longitud 4 centímetros, empezando

Intervalo (155,159] (159,163] (163,167] (167,171] (171,175] (175,179]

Nótese que si tomamos intervalos cerrados por la izquierda y abiertos por la

Conviene resaltar que, aunque la tabla de frecuencias es más fácil de interpretar

1.4. Representaciones gráficas

Todos los paquetes estadísticos incluyen un repertorio muy grande de gráficos ya

Es adecuado para variables que toman un número relativamente pequeño de

Ejemplo 1.5. Números aleatorios y su percepción.

Se ha pedido a 56 alumnos de un curso de Estadística que elijan

Este diagrama de barras ilustra con mucha claridad la discrepancia con lo

Se utiliza para variables con pocas modalidades. Se llama también diagrama de

Ejemplo 1.6. Tallas de camiseta.

Vamos a revisar los datos del Ejemplo 1.3.

Para estos datos, el diagrama o gráfico de sectores tiene esta apariencia.

Un diagrama de barras con porcentajes de los mismos datos se muestra a

El histograma es un gráfico útil para visualizar la distribución de frecuencias en

Para construirlo, el primer paso es transformar la variable continua en discreta

Ejemplo 1.7. Alturas

Pk(a) = (1-d)x(i) + dx(i+1).