Chugar

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

Métodos descriptivos

La estadística se ha convertido en una herramienta indispensable para la mayoría de los


científicos. ¿Qué es la estadística y cómo pueden utilizarse las técnicas estadísticas para
responder a las cuestiones prácticas propuestas por los científicos?
Se ha definido la estadística como el arte de la decisión frente a la incertidumbre. Comen-
zaremos describiendo un problema típico que requiere una solución estadística y utilizaremos
este ejemplo para introducir parte del lenguaje subyacente al campo de la estadística. Los
términos se usan aquí a nivel intuitivo. Se definirán después, más rigurosamente, cuando
surja la necesidad.
Un investigador, estudiando una enfermedad cardíaca en personas de 18 años o mayores,
ha identificado cuatro factores potencialmente asociados con el desarrollo de la misma: la
edad, el peso, el número de cigarrillos fumados por día y los antecedentes familiares de
enfermedad cardíaca. El investigador quiere acumular pruebas que confirmen estos factores
como contribuyentes al desarrollo de la enfermedad, o demuestren que no son importantes.
¿Cómo debe proceder?
Aquí se plantea un problema estadístico. ¿Qué características lo identifican como tal?
Simplemente éstas:
1. El problema se asocia a un grupo grande de objetos (en este caso, personas) acerca de
los cuales van a hacerse inferencias. Este grupo de objetos se llama población.
2. Ciertas características de los miembros de la población son de particular interés. El
valor de cada una de esas características puede cambiar de objeto a objeto dentro de
la población. Estas características se llaman variables aleatorias: variables porque
cambian de valor; aleatorias porque su comportamiento depende del azar y es impre-
decible.
3. La población es demasiado grande para ser estudiada en su totalidad. Por tanto, debe-
mos hacer inferencias sobre la población basadas en lo observado estudiando sólo
una porción, o muestra, de objetos de la población.
En el estudio de factores que afectan a la enfermedad cardíaca, la población es el conjunto
de todas las personas que padecen la enfermedad. Las variables aleatorias de interés son la
edad y el peso del paciente, el número de cigarrillos fumados por día y la historia familiar. Es
imposible identificar y estudiar a cada persona con enfermedad cardíaca. De este modo,

1
2 Estadística para Biología y Ciencias de la Salud

cualesquiera que sean las conclusiones, deben basarse solamente en el estudio de una porción
o muestra de esas personas.
Las variables aleatorias se agrupan en dos categorías: continuas y discretas. Una variable
aleatoria continua es una variable que puede tomar cualquier valor en algún intervalo o
porción continua de los números reales. En el estudio de la enfermedad cardíaca, la variab le
edad es continua, como lo es también la variable peso. Por ejemplo, la edad de una persona
puede tomar cualquier valor entre 18 y, digamos, 110 años, intervalo continuo de tiempo. Y el
peso de una persona puede situarse en cualquier lugar, digamos entre 40 y, quizá, 270 kg. Una
variable aleatoria discreta es una variable que toma su valor en puntos aislados. De este
modo, el conjunto de los posibles valores es finito o infinito numerable. Con frecuencia, las
variables aleatorias discretas surgen en la práctica en conexión con las variables de conteo. El
número de cigarrillos fumados por día es discreto. Si contamos la parte de un cigarro fumado
como un cigarro entero, entonces su conjunto de posibles valores es {0, 1, 2, 3, 4, 5,...}, una
colección infinita numerable. Si el historial familiar se estudia registrando el número de
padres y abuelos que experimentaron dolencias cardíacas, entonces esta variable es también
discreta. El conjunto de sus posibles valores es {0, 1, 2, 3, 4, 5, 6}, una colección finita.
Generalmente, las variables aleatorias se indican con letras mayúsculas.
Una medida descriptiva relacionada con una variable aleatoria, cuando la variable se
considera sobre toda la población, se denomina parámetro. Los parámetros se indican gene-
ralmente con letras griegas. Para recordar que los parámetros describen poblaciones sólo hay
que observar que ambos empiezan por p. Un parámetro con el que es frecuente encontrarse es
el valor promedio de la población o media de la población. Este parámetro se indica mediante
la letra griega μ. Por ejemplo, en el estudio de las enfermedades cardíacas, el investigador
estaría interesado en determinar el valor promedio de cigarros fumados al día por los miem-
bros de la población. No es posible obtener el valor exacto de este parámetro, salvo que sean
estudiados todos los miembros de la población. Puesto que es imposible hacerlo, el valor
exacto de μ seguirá siendo desconocido incluso tras haber finalizado nuestro estudio. Sin
embargo, podremos utilizar métodos estadísticos para aproximarnos a su valor basándonos en
los datos obtenidos a partir de la muestra de pacientes extraída de la población.
Una medida descriptiva relacionada con una variable aleatoria, cuando la variable sólo se
considera sobre una muestra, se denomina estadístico. Los estadísticos tienen dos fines. Por
un lado, describen la muestra que está disponible y, por otro, sirven como aproximación a los
parámetros correspondientes a la población. Por ejemplo, la media de cigarros fumados dia-
riamente por los miembros de una muestra de pacientes con enfermedades cardíacas es un
estadístico. Se le denomina promedio de la muestra o media muestral. Su valor para una
muestra dada, probablemente, no será exactamente igual a la media μ de la población. Sin
embargo, se espera que al menos su valor se aproxime a μ.
Un estadístico, o usuario estadístico, siempre está trabajando en dos mundos. El mundo
ideal está al nivel de la población y es de naturaleza teórica. Es el mundo que desearíamos
ver. El mundo de la realidad es el mundo de la muestra. Este es el nivel en el que realmer te
operamos. Esperamos que las características de nuestra muestra reflejen bien las característi-
cas de la población. Es decir, tratamos nuestra muestra como un microcosmos que refleja a
toda la población. La idea se ilustra en la Figura 1.1.
Nos interesamos principalmente por tres cuestiones concernientes al comportamiento de
la variable aleatoria. Son éstas:
1. ¿Cuál es la posición de la variable? Es decir, ¿alrededor de qué valor fluctúa la
variable?
2. ¿Qué cantidad de variación existe? Es decir, los valores de la variable observados,
¿tienden a agruparse o se encuentran muy dispersos?
Métodos descriptivos 3

Población
(mundo ideal, pero teórico,
cuyas características se
describen mediante
parámetros)

Muestra
(mundo real y alcanzable
cayas características se
describen mediante estudios)

Figura 1.1. La muestra se visualiza como una población en miniatura. Se espera que el comporta-
miento de la variable aleatoria estudiada en la muestra proporcione una imagen precisa de su com-
portamiento en la población.

3. ¿Cuál es la forma de la distribución? Es decir, ¿tienden los valores a adoptar forma de


campana, plana, en U u otra diferente?
En este capítulo introducimos algunas técnicas gráficas y analíticas que pueden utilizarse
para responder a estas cuestiones.

1.1. TABLAS DE DISTRIBUCIÓN: DATOS DISCRETOS

Recuérdese que una variable aleatoria discreta es una variable aleatoria que puede tomar
como máximo un número finito o un número infinito numerable de valores posibles. Las
variables aleatorias discretas surgen frecuentemente en los datos de cualquier estudio. Por
ejemplo, quizá queramos comparar la opinión de las mujeres con la opinión de los hombres
sobre el tema del aborto. De ahí que una variable del estudio sea el «sexo». Esta variable es
discreta pues sólo toma los dos valores que aparecen de forma natural, «masculino» o «feme-
nino». Podríamos preguntarnos: ¿Está usted a favor de la legalización del aborto si se solicita
durante el primer trimestre del embarazo? Dado que la respuesta a esta pregunta varía de una
persona a otra, nos encontramos ante una variable aleatoria. El investigador puede decidir
registrar cada respuesta como «sí», «no», «indeciso» o «no sabe, no contesta». De esta forma,
se crea una variable aleatoria discreta con cuatro valores posibles. Para comprender y resumir
estos datos, es útil presentarlos en una tabla o gráfico, en la que aparezcan los valores posibles
de la variable aleatoria y el número de veces que cada valor se repite. A este número se le
denomina frecuencia absoluta o simplemente frecuencia. El Ejemplo 1.1.1 recoge esta idea.

Ejemplo 1.1.1. Se realiza un estudio comparativo de dos geriátricos del oeste de Virginia.
El objetivo del estudio es determinar el tipo de pacientes a los que se atiende y averiguar
dónde van los pacientes cuando dejan el geriátrico. Están implicadas cuatro variables aleato-
rias discretas: sexo (codificado por el investigador como F = femenino o M = masculino),
diagnóstico (codificado como RM = retrasado mental, EM = enfermo mental, FE = físicamen-
4 Estadística para Biología y Ciencias de la Salud

te enfermo), edad y destino al dejar el geriátrico (codificado como 1 = fallecido, 2 = hogar de


familiares, 3 = hospital, 4 = calle, 5 = otro geriátrico, 6 = sanatorio particular, 7 = no ha dejado
el geriátrico). (Los datos presentados son de un geriátrico real y han sido recogidos de un
estudio más amplio realizado por el laboratorio estadístico y Debbie Thompson, Departamen-
to de Trabajos Sociales, Radford University, 1990.)

Sexo Diagnóstico Edad Destino Sexo Diagnóstico Edad Destino

M EM 29 2 F EM 72 6
M RM 35 7 M EM 52 7
F FE 34 7 F FE 31 7
M EM 36 7 M FE 35 7
F RM 25 7 M FE 42 7
F EM 20 7 F EM 29 2
F FE 31 7 F RM 61 7
F FE 89 1 F EM 18 3
M RM 42 7 F RM 64 7
M EM 41 7 M FE 51 7
F FE 47 7 F FE 30 7
M FE 41 2 F RM 35 7
M EM 87 7 M FE 40 6
F RM 56 1 M RM 76 3
F RM 50 7 M FE 59 7
F FE 28 7 F EM 71 6
M RM 35 7 F EM 62 7
F FE 23 7 F EM 65 3
F RM 39 3 M RM 51 7
M FE 42 7 F RM 18 7

La distribución de frecuencias para la variable diagnóstico se muestra en la Tabla l.1.


Obsérvese que la tabla relaciona la categoría en la que se ubica la respuesta junto con la
cantidad de observaciones por categoría.
En la mayoría de estudios se obtienen recuentos de frecuencias, los cuales proporcionan
una valiosa idea del comportamiento de la variable aleatoria objeto del estudio. Sin embargo,
los recuentos de frecuencia por sí solos pueden causar confusión. Por ejemplo, supongamos
que nos dicen que se han diagnosticado 10 nuevos casos de síndrome de inmunodeficiencia
adquirida (SIDA) en un hospital particular durante el mes de junio. ¿Es ello motivo de alar-
ma? Quizá sí o quizá no. Naturalmente, depende del número de personas que hayan pasado a
prueba de la enfermedad. Diez casos descubiertos entre 20 personas analizadas describen un
panorama completamente diferente a 10 casos hallados entre 1000 personas analizadas. Para
dar una perspectiva de un recuento de frecuencias, consideramos el recuento relativo al total,

Tabla 1.1. Distribución de frecuencias de la


variable diagnóstico del Ejemplo 1.1.1

Categoría Frecuencia
EM (enfermo mental) 12
RM (retrasado mental) 13
FE (físicamente enfermo) 15
Métodos descriptivos 5

formando así una frecuencia relativa. La Tabla 1.2 proporciona las distribuciones de frecuen-
cias y de frecuencias relativas de la variable diagnóstico del Ejemplo 1.1.1. Las frecuencias
relativas pueden multiplicarse por 100 para obtener el porcentaje de observaciones que co-
rresponden a cada categoría. Esta información es útil puesto que los porcentajes son rápida-
mente comprendidos por todos. La Tabla 1.3 muestra el resumen completo de la variable
diagnóstico.
La Tabla 1.4 es el resumen completo de los datos tal y como lo presentaría el SAS, iniciales
de Statistical Analysis System, paquete informático de amplio uso entre analistas de datos,
estadísticos e investigadores. Algunas nociones básicas del SAS se explican en la sección de
Herramientas Computacionales de este libro. Obsérvese que el SAS ha listado las variables de
diagnóstico por orden alfabético. También ha incluido una columna llamada «frecuencia acu-
mulada» y otra llamada «porcentaje acumulado». La palabra acumulado/a significa que los
valores se suman acumulándose. Así, la frecuencia acumulada 25 se obtiene al sumar el número
de pacientes con retraso mental (13), que se encuentra en la segunda fila, al número de pacien-
tes con enfermedades mentales (12), que se encuentra en la primera fila; la frecuencia acumula-
da 40 es la suma de todos los valores en la columna de frecuencias (40 = 12 + 13 + 15).
Obsérvese que si los datos han sido introducidos correctamente, el último número de la co-
lumna de frecuencias acumuladas debe ser el tamaño de la muestra.
La columna de porcentaje acumulado se obtiene sumando la columna de porcentaje; su
último valor debe ser siempre 100 %. No obstante, en algunas tablas los porcentajes pueden
no sumar 100 % exactamente, debido a diferencias en el redondeo. Debemos señalar que,
cuando los valores de las variables no son numéricos o tienen un orden lineal no natural, la
distribución acumulada puede no ser significativa. El código del SAS usado para hacer esta
tabla se proporciona en la sección de Herramientas Computacionales al final de este capítulo.

Tabla 1.2. Distribución de frecuencias y de frecuencias relativas


de la variable diagnóstico del Ejemplo 1.1.1

Categoría Frecuencia Frecuencia relativa

EM (enfermo mental) 12 12/40 = 0.300

Tabla 1.3. Distribución completa de la variable diagnóstico del Ejemplo 1.1.1

Frecuencia
Categoría Frecuencia relativa Porcentaje

EM (enfermo mental) 12 12/40 = 0.300 30.0


RM (retrasado mental) 13 13/40 = 0.325 32.5
FE (físicamente enfermo) 15 15/40 = 0.375 37.5

Tabla 1.4. F r e c u e n c i a s y p o r c e n t a j e s p a r a l a v a r i a b l e d i a g n ó s t i c o d e l
Ejemplo 1 . 1 . 1

Frecuencia Porcentaje
Diagnóstico Frecuencia Porcentaje acumulada acumulado

EM 12 30.0 12 30.0
RM 13 32.5 25 62.5
FE 15 37.5 40 100.0
6 Estadística para Biología y Ciencias de la Salud

Gráficos de barras

Para transmitir visualmente la información contenida en una tabla de distribución, se puede


utilizar un gráfico de barras verticales. Cada categoría está representada por una barra verti
cal, todas de la misma anchura. Las alturas de las barras dependen del número de observacio
nes por categoría. El eje vertical del gráfico puede representar frecuencias, frecuencias relati-
vas o porcentajes. Cada tipo de gráfico es informativo, y los dos últimos tienen la ventaja de
que sus escalas verticales no dependen de los datos. En el caso de un gráfico de barras de
frecuencias relativas, varían de 0 a 1 y, en el caso de un gráfico de porcentajes, de 0 %
100%. La Figura 1.2 muestra todos estos gráficos para la variable diagnóstico del Ejem-
plo 1.1.1. Si se desea, las barras pueden colocarse horizontalmente. De hecho, los gráficos de
barras horizontales son algunas veces preferibles al escribir informes, puesto que requieran

EM RM FE EM RM FE
(a) (b)

EM RM FE
(c)

Figura 1.2. (a) Gráfico de barras de frecuencias para la variable diagnóstico del Ejemplo 1.1.
(b) gráfico de barras de frecuencias relativas para la variable diagnóstico; (c) gráfico de barras de
porcentajes para la variable diagnóstico.

También podría gustarte