Chugar
Chugar
Chugar
1
2 Estadística para Biología y Ciencias de la Salud
cualesquiera que sean las conclusiones, deben basarse solamente en el estudio de una porción
o muestra de esas personas.
Las variables aleatorias se agrupan en dos categorías: continuas y discretas. Una variable
aleatoria continua es una variable que puede tomar cualquier valor en algún intervalo o
porción continua de los números reales. En el estudio de la enfermedad cardíaca, la variab le
edad es continua, como lo es también la variable peso. Por ejemplo, la edad de una persona
puede tomar cualquier valor entre 18 y, digamos, 110 años, intervalo continuo de tiempo. Y el
peso de una persona puede situarse en cualquier lugar, digamos entre 40 y, quizá, 270 kg. Una
variable aleatoria discreta es una variable que toma su valor en puntos aislados. De este
modo, el conjunto de los posibles valores es finito o infinito numerable. Con frecuencia, las
variables aleatorias discretas surgen en la práctica en conexión con las variables de conteo. El
número de cigarrillos fumados por día es discreto. Si contamos la parte de un cigarro fumado
como un cigarro entero, entonces su conjunto de posibles valores es {0, 1, 2, 3, 4, 5,...}, una
colección infinita numerable. Si el historial familiar se estudia registrando el número de
padres y abuelos que experimentaron dolencias cardíacas, entonces esta variable es también
discreta. El conjunto de sus posibles valores es {0, 1, 2, 3, 4, 5, 6}, una colección finita.
Generalmente, las variables aleatorias se indican con letras mayúsculas.
Una medida descriptiva relacionada con una variable aleatoria, cuando la variable se
considera sobre toda la población, se denomina parámetro. Los parámetros se indican gene-
ralmente con letras griegas. Para recordar que los parámetros describen poblaciones sólo hay
que observar que ambos empiezan por p. Un parámetro con el que es frecuente encontrarse es
el valor promedio de la población o media de la población. Este parámetro se indica mediante
la letra griega μ. Por ejemplo, en el estudio de las enfermedades cardíacas, el investigador
estaría interesado en determinar el valor promedio de cigarros fumados al día por los miem-
bros de la población. No es posible obtener el valor exacto de este parámetro, salvo que sean
estudiados todos los miembros de la población. Puesto que es imposible hacerlo, el valor
exacto de μ seguirá siendo desconocido incluso tras haber finalizado nuestro estudio. Sin
embargo, podremos utilizar métodos estadísticos para aproximarnos a su valor basándonos en
los datos obtenidos a partir de la muestra de pacientes extraída de la población.
Una medida descriptiva relacionada con una variable aleatoria, cuando la variable sólo se
considera sobre una muestra, se denomina estadístico. Los estadísticos tienen dos fines. Por
un lado, describen la muestra que está disponible y, por otro, sirven como aproximación a los
parámetros correspondientes a la población. Por ejemplo, la media de cigarros fumados dia-
riamente por los miembros de una muestra de pacientes con enfermedades cardíacas es un
estadístico. Se le denomina promedio de la muestra o media muestral. Su valor para una
muestra dada, probablemente, no será exactamente igual a la media μ de la población. Sin
embargo, se espera que al menos su valor se aproxime a μ.
Un estadístico, o usuario estadístico, siempre está trabajando en dos mundos. El mundo
ideal está al nivel de la población y es de naturaleza teórica. Es el mundo que desearíamos
ver. El mundo de la realidad es el mundo de la muestra. Este es el nivel en el que realmer te
operamos. Esperamos que las características de nuestra muestra reflejen bien las característi-
cas de la población. Es decir, tratamos nuestra muestra como un microcosmos que refleja a
toda la población. La idea se ilustra en la Figura 1.1.
Nos interesamos principalmente por tres cuestiones concernientes al comportamiento de
la variable aleatoria. Son éstas:
1. ¿Cuál es la posición de la variable? Es decir, ¿alrededor de qué valor fluctúa la
variable?
2. ¿Qué cantidad de variación existe? Es decir, los valores de la variable observados,
¿tienden a agruparse o se encuentran muy dispersos?
Métodos descriptivos 3
Población
(mundo ideal, pero teórico,
cuyas características se
describen mediante
parámetros)
Muestra
(mundo real y alcanzable
cayas características se
describen mediante estudios)
Figura 1.1. La muestra se visualiza como una población en miniatura. Se espera que el comporta-
miento de la variable aleatoria estudiada en la muestra proporcione una imagen precisa de su com-
portamiento en la población.
Recuérdese que una variable aleatoria discreta es una variable aleatoria que puede tomar
como máximo un número finito o un número infinito numerable de valores posibles. Las
variables aleatorias discretas surgen frecuentemente en los datos de cualquier estudio. Por
ejemplo, quizá queramos comparar la opinión de las mujeres con la opinión de los hombres
sobre el tema del aborto. De ahí que una variable del estudio sea el «sexo». Esta variable es
discreta pues sólo toma los dos valores que aparecen de forma natural, «masculino» o «feme-
nino». Podríamos preguntarnos: ¿Está usted a favor de la legalización del aborto si se solicita
durante el primer trimestre del embarazo? Dado que la respuesta a esta pregunta varía de una
persona a otra, nos encontramos ante una variable aleatoria. El investigador puede decidir
registrar cada respuesta como «sí», «no», «indeciso» o «no sabe, no contesta». De esta forma,
se crea una variable aleatoria discreta con cuatro valores posibles. Para comprender y resumir
estos datos, es útil presentarlos en una tabla o gráfico, en la que aparezcan los valores posibles
de la variable aleatoria y el número de veces que cada valor se repite. A este número se le
denomina frecuencia absoluta o simplemente frecuencia. El Ejemplo 1.1.1 recoge esta idea.
Ejemplo 1.1.1. Se realiza un estudio comparativo de dos geriátricos del oeste de Virginia.
El objetivo del estudio es determinar el tipo de pacientes a los que se atiende y averiguar
dónde van los pacientes cuando dejan el geriátrico. Están implicadas cuatro variables aleato-
rias discretas: sexo (codificado por el investigador como F = femenino o M = masculino),
diagnóstico (codificado como RM = retrasado mental, EM = enfermo mental, FE = físicamen-
4 Estadística para Biología y Ciencias de la Salud
M EM 29 2 F EM 72 6
M RM 35 7 M EM 52 7
F FE 34 7 F FE 31 7
M EM 36 7 M FE 35 7
F RM 25 7 M FE 42 7
F EM 20 7 F EM 29 2
F FE 31 7 F RM 61 7
F FE 89 1 F EM 18 3
M RM 42 7 F RM 64 7
M EM 41 7 M FE 51 7
F FE 47 7 F FE 30 7
M FE 41 2 F RM 35 7
M EM 87 7 M FE 40 6
F RM 56 1 M RM 76 3
F RM 50 7 M FE 59 7
F FE 28 7 F EM 71 6
M RM 35 7 F EM 62 7
F FE 23 7 F EM 65 3
F RM 39 3 M RM 51 7
M FE 42 7 F RM 18 7
Categoría Frecuencia
EM (enfermo mental) 12
RM (retrasado mental) 13
FE (físicamente enfermo) 15
Métodos descriptivos 5
formando así una frecuencia relativa. La Tabla 1.2 proporciona las distribuciones de frecuen-
cias y de frecuencias relativas de la variable diagnóstico del Ejemplo 1.1.1. Las frecuencias
relativas pueden multiplicarse por 100 para obtener el porcentaje de observaciones que co-
rresponden a cada categoría. Esta información es útil puesto que los porcentajes son rápida-
mente comprendidos por todos. La Tabla 1.3 muestra el resumen completo de la variable
diagnóstico.
La Tabla 1.4 es el resumen completo de los datos tal y como lo presentaría el SAS, iniciales
de Statistical Analysis System, paquete informático de amplio uso entre analistas de datos,
estadísticos e investigadores. Algunas nociones básicas del SAS se explican en la sección de
Herramientas Computacionales de este libro. Obsérvese que el SAS ha listado las variables de
diagnóstico por orden alfabético. También ha incluido una columna llamada «frecuencia acu-
mulada» y otra llamada «porcentaje acumulado». La palabra acumulado/a significa que los
valores se suman acumulándose. Así, la frecuencia acumulada 25 se obtiene al sumar el número
de pacientes con retraso mental (13), que se encuentra en la segunda fila, al número de pacien-
tes con enfermedades mentales (12), que se encuentra en la primera fila; la frecuencia acumula-
da 40 es la suma de todos los valores en la columna de frecuencias (40 = 12 + 13 + 15).
Obsérvese que si los datos han sido introducidos correctamente, el último número de la co-
lumna de frecuencias acumuladas debe ser el tamaño de la muestra.
La columna de porcentaje acumulado se obtiene sumando la columna de porcentaje; su
último valor debe ser siempre 100 %. No obstante, en algunas tablas los porcentajes pueden
no sumar 100 % exactamente, debido a diferencias en el redondeo. Debemos señalar que,
cuando los valores de las variables no son numéricos o tienen un orden lineal no natural, la
distribución acumulada puede no ser significativa. El código del SAS usado para hacer esta
tabla se proporciona en la sección de Herramientas Computacionales al final de este capítulo.
Frecuencia
Categoría Frecuencia relativa Porcentaje
Tabla 1.4. F r e c u e n c i a s y p o r c e n t a j e s p a r a l a v a r i a b l e d i a g n ó s t i c o d e l
Ejemplo 1 . 1 . 1
Frecuencia Porcentaje
Diagnóstico Frecuencia Porcentaje acumulada acumulado
EM 12 30.0 12 30.0
RM 13 32.5 25 62.5
FE 15 37.5 40 100.0
6 Estadística para Biología y Ciencias de la Salud
Gráficos de barras
EM RM FE EM RM FE
(a) (b)
EM RM FE
(c)
Figura 1.2. (a) Gráfico de barras de frecuencias para la variable diagnóstico del Ejemplo 1.1.
(b) gráfico de barras de frecuencias relativas para la variable diagnóstico; (c) gráfico de barras de
porcentajes para la variable diagnóstico.