04 - Alberici - Capítulo 3 - Tablas y Gráficos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

CAPÍTULO 3

TRATAMIENTO DE DATOS: TABLAS Y GRÁFICOS

Como se comentó en el Capítulo 2, la estadística descriptiva se dedica a la


presentación, organización y resumen de los datos. La presentación de las
características principales de los datos puede realizarse a través de tablas, gráficos
y medidas de resumen.

ETAPAS DE UN ESTUDIO ESTADÍSTICO

Recolección de datos

Resumen de datos
(tablas y gráficos)

Análisis de los datos

Extracción de conclusiones

Toma de decisiones

Las tablas y los gráficos ofrecen una visión sintética del fenómeno observado
y de las relaciones entre sus diversas variables. En este capítulo se presentarán
formas simples de resumir y representar gráficamente conjuntos de datos.

3.1. TABLAS
La presentación de datos de manera ordenada permite analizar y obtener
conclusiones de una forma más fácil. Una primera ordenación se realiza mediante
el uso tablas, en las que se organizan los datos de acuerdo a ciertas características.
 Tabla de entrada de datos: Es una tabla en la cual solo aparecen los datos
obtenidos en la investigación científica o experimento. Es la tabla más sencilla y
se utiliza cuando no se necesita mayor información. Con los datos de esta tabla
pueden hacerse diversas representaciones gráficas y calcularse determinadas
características numéricas como la media o la mediana. Ejemplo:
Datos 10, 1, 6, 9, 2, 5, 7, 4, 3, 8

Tabla de entrada de datos X 1 2 3 4 5 6 7 8 9 10

ESTADÍSTICA I Javier Alberici 32


 Tablas de doble entrada: Son aquellas tablas que presentan dos variables. Están
formadas en la cabecera de las filas por la categoría de una variable y en las
columnas por la otra variable. En las casillas de la tabla se coloca la frecuencia o
número de elementos que reúnen a la vez las dos categorías o valores de las dos
variables que se cruzan. Son útiles en el análisis bivariable.

 Tablas de contingencia: Para analizar la relación de dependencia o


independencia entre dos variables cualitativas nominales, es necesario
estudiar su distribución mediante una tabla de contingencia. La tabla de
contingencia es una tabla de doble entrada, donde en cada casilla figura
el número de casos que poseen un nivel de uno de los factores analizados
y otro nivel del segundo factor analizado. El ejemplo propuesto es una tabla
de contingencia 2x2, ya que tiene dos atributos (FUMA Y SEXO) y cada
uno de ellos tiene dos niveles:

SEXO
HOMBRE MUJER Marginal
SI A B a+b
FUMA NO B D c+d
Marginal a+c b+d a+b+c+d

El estudio de la influencia de una variable (variable independiente) sobre la


forma en que se modifica otra (variable dependiente) es conocido como análisis
bivariado y será multivariado cuando el estudio evalúe de forma simultánea el efecto
de dos o más variables independientes sobre una variable dependiente. Este es un
proceso clave en la identificación de las posibles causas de los problemas de salud
y también de factores que, aun cuando no puedan ser finalmente considerados
causales, resulten estar asociados a estos daños.

Correlación de colesterolemia entre los hijos con colesterol > 200 mg/dl o < 200 mg/dl y ambos
padres hipercolesterolémicos (> 240 mg/dl) o ambos normales (< 240 mg/dl)

ESTADÍSTICA I Javier Alberici 33


 Tabla de frecuencia: Están formadas por las categorías o valores de una variable
y sus frecuencias o cantidad de datos que cumplen esa condición.

3.2. DISTRIBUCIÓN DE FRECUENCIAS


Una distribución de frecuencias es una tabla en la que los datos se organizan
en clases, es decir, en grupos de valores que describen alguna característica de los
datos. En una tabla de frecuencias, se muestra el número de observaciones del
conjunto de datos que caen en cada clase o se expresa la frecuencia relativa de
cada valor como una fracción o un porcentaje del número total de observaciones.
Para confeccionar la tabla se realiza un agrupamiento de los datos en
intervalos y se cuenta el número de observaciones que caen dentro de cada uno de
ellos. Dichos intervalos se denominan intervalos de clase y la diferencia entre el
extremo superior e inferior de cada intervalo se conoce como amplitud del intervalo.
Al valor de la variable en el centro de cada intervalo se le llama marca de clase.

 Reglas para la formación de tablas de frecuencia:


1) Determinar rango: Es la diferencia entre el mayor y el menor de los datos
observados, sirve para el cálculo del intervalo de clase.
2) Determinar número de intervalos y su tamaño: Conocido el rango, hay que
dividir este en un número adecuado de intervalos de clase. En lo posible,
todos los intervalos deben tener el mismo tamaño.
3) Hallar el número de observaciones correspondientes a cada valor:
Realizadas las operaciones anteriores, se procede a contar el número de
elementos de cada clase.

 Características de las escalas de medición:


o Las escalas deben ser exhaustivas: En ellas deben poder ubicarse todos
los valores posibles de la variable que se va a medir. En caso que resulte
difícil construir una escala con todas las posibilidades, será preciso agregar
el código “otros” para resumir allí toda la información que no sea correcto
ubicar en las restantes posiciones.
o Sus intervalos deben ser mutuamente excluyentes: Cada dato recogido
sólo puede pertenecer a una y sólo una de las categorías de la escala. Nunca
se debe comenzar un intervalo con el mismo valor con que finaliza el anterior.
Ejemplo: Intervalos de edades “de 20 a 25 años” y “de 25 a 30 años” no son
mutuamente excluyentes.

ESTADÍSTICA I Javier Alberici 34


PESO (Kg) FRECUENCIA
50 a 59 [50, 60) 8
60 a 69 [60, 70) 10 [ = Incluido
70 a 79 [70, 80) 16
80 a 89 [80,90) 14 ) = No incluido
90 a 99 [90,100) 12
TOTAL 60

En la primera columna de esta tabla se escriben los distintos valores de la


variable (X) ordenados de mayor a menor. Es posible hacer también una tabla de
frecuencias de una variable cualitativa. En ese caso, en la primera columna se
escribirán las diferentes cualidades o atributos que puede tomar la variable.

Para completar una tabla con la distribución de frecuencias de una


variable cuantitativa se deben calcular: frecuencia absoluta, frecuencia
relativa, frecuencia absoluta acumulada y frecuencia relativa acumulada.

 Frecuencia absoluta (f): La frecuencia absoluta de una variable estadística es el


número de veces que aparece en la muestra dicho valor de la variable. La
frecuencia absoluta es una medida que está influida por el tamaño de la muestra,
al aumentar el tamaño de la muestra aumentará también el tamaño de la
frecuencia absoluta. Esto hace que no sea una medida útil para poder comparar.
Para esto es necesario la frecuencia relativa, que es el cociente entre la frecuencia
absoluta y el tamaño de la muestra.
 Frecuencia relativa (h): Se calcula dividiendo la frecuencia absoluta
correspondiente (f) entre el número total de datos (n).
 Porcentaje (%): La frecuencia relativa es un tanto por uno, pero es bastante
frecuente hablar siempre en términos de tantos por ciento o porcentajes. El
porcentaje resulta de multiplicar la frecuencia relativa por 100.
 Frecuencia absoluta acumulada (F): La frecuencia absoluta acumulada de un
valor de la variable es el número de veces que ha aparecido en la muestra un valor
menor o igual que el dicha variable. Se calcula como la suma de todas las
frecuencias absolutas correspondientes a los valores anteriores al intervalo y la
suya propia. No tiene sentido para variables cualitativas.
 Frecuencia relativa acumulada (H): Al igual que en el caso anterior, la frecuencia
relativa acumulada es la frecuencia absoluta acumulada dividido por el tamaño de
la muestra. La frecuencia relativa acumulada del último valor es 1.

ESTADÍSTICA I Javier Alberici 35


Ejemplo: En una encuesta a 20 alumnos de un colegio primario sobre el número de
miembros de su familia se obtuvieron las siguientes respuestas:
3, 5, 4, 3, 5, 6, 8, 3, 3, 5, 7, 5, 6, 5, 4, 4, 7, 4, 5, 3

DISTRIBUCIÓN DE FRECUENCIAS
Miembros Frec. Absoluta Frec. % Relativa
por familia (x) absoluta acumulada Relativa Acumulada
3 5 5 0,25 25 0,25
4 4 9 0,2 20 0,45
5 6 15 0,3 30 0,75
6 2 17 0,1 10 0,85
7 2 19 0,1 10 0,95
8 1 20 0,05 5 1
TOTAL 20 20 1 100 % 1

3.3. MATRIZ DE DATOS


La matriz de datos es una forma de sistematizar la información recogida en
una investigación. Mediante el análisis de la matriz de datos es posible obtener
conocimiento científico para describir, explicar y predecir las relaciones entre las
variables. Para la confección se deben incluir tres conceptos:
 Unidad de análisis (S)
 Variable (V)
 Dato, valor o respuesta (D)
Los valores que conforman cada variable deben ser codificados
numéricamente para facilitar el análisis posterior, por ejemplo: Sexo como “1”
(Varón) / “2” (Mujer) o Estado civil como “1” (Soltero) / “2” (Casado) / “3”
(Divorciado). Así, suponiendo que se haya trabajado con una muestra de 10
personas, la matriz sería:

EJEMPLO DE MATRIZ 10 x 3
VARIABLES
UNIDAD 1. Sexo 2. Estado civil 3. Lugar
DE ANALISIS de residencia
01 1 1 …
02 2 2 …
03 1 2
04 1 2
05 2 1
06 1 1
07 2 1
08 2 2
09 1 2
10 1 3

ESTADÍSTICA I Javier Alberici 36


Cada fila de la matriz corresponde a una unidad de análisis (identificada por
un código de 01 a 10), cada una de las dos columnas a una variable y en las celdas
figuran los valores.
Una matriz de datos permite distribuir los datos recopilados en tablas para
resumir la información y facilitar su análisis estadístico. Además de la tabulación
simple o univariable, es posible tabular un mayor número de forma simultánea, lo
cual posibilita hacer un análisis bivariable o multivariable de los datos.

3.4. REPRESENTACIONES GRÁFICAS


Después de construir la tabla de frecuencias, es conveniente realizar la
representación gráfica correspondiente. Las representaciones gráficas permiten
una visualización más rápida y global de la información recogida.
Las representaciones gráficas deben conseguir que un simple análisis visual
ofrezca la mayor información posible. El tipo de gráfico a seleccionar dependerá del
tipo de variable que se desee representar, distinguiendo la presentación de gráficos
para variables categóricas y para variables numéricas.
Los componentes de un gráfico son similares a las de una tabla estadística.
Las partes esenciales que debe contener son:
 Número: Permite identificar y ubicar el gráfico en una publicación o dentro de
un capítulo. Puede ser con numeración continua o por capítulos.
 Título: Se ubica en la parte superior del gráfico, expresando de manera
concisa el contenido de la información presentada. Debe indicar los
siguientes aspectos: ¿qué?, ¿cómo?, ¿dónde?, ¿cuándo?
 Cuerpo: Figura, ejes o escala, leyenda o referencias.
 Notas: Nota, llamadas, fuente de información.

 Diagrama de barras: Se utiliza para presentar variables cualitativas (nominales u


ordinales) o cuantitativas discretas no agrupadas en intervalos. Se representan
sobre ejes de coordenadas, en el eje X se colocan los valores de la variable y
sobre el eje Y las frecuencias absolutas o relativas. Los datos se representan
mediante barras de una altura proporcional a la frecuencia.
Las frecuencias de cada categoría de la distribución se representan por barras
o columnas de longitud proporcional, separados unas de otras. También pueden
representarse horizontalmente, intercambiando los ejes. Existen tres clases
principales de gráficos de barras:
o Barras simples: Se emplean para graficar hechos únicos.

ESTADÍSTICA I Javier Alberici 37


Aporte de leche o equivalente lácteo
(en cc) en desayuno

o Barras múltiples: Es recomendable para comparar una serie estadística con


otra. Para ello emplea barras simples de distinto color o tramado en un
mismo plano cartesiano, una al lado de la otra.

Ingesta de lípidos totales aportados por grupos de alimentos en el grupo de estudio según el IMC

o Barras compuestas: En este gráfico las barras de la segunda serie se


colocan encima de las barras de la primera serie en forma respectiva. Su
objetivo es la representación de las frecuencias relativas (%) observadas en
clasificaciones dobles, es decir, cuando son dos los criterios de clasificación.

ESTADÍSTICA I Javier Alberici 38


DIAGRAMA DE BARRAS

Barras simples
15

10 Barras compuestas
20
5
15
A B C
10
Barras múltiples
15
5
10
A B C
5

A B C

 Histogramas: Se utiliza con variables agrupadas en intervalos, representando en


el eje X rectángulos cuyas bases son cada uno de los intervalos y la altura es la
frecuencia absoluta correspondiente a dicho intervalo. Son similares a los
diagramas de barras, pero para variables cuantitativas continuas, por lo que las
barras se grafican pegadas para representar la continuidad de la escala.
Cuando se realizan representaciones correspondientes a edades de
población, se representan horizontalmente para obtener las llamadas pirámides de
población, que no son más que dos histogramas a izquierda y derecha, para
hombres y mujeres.

 Polígonos de frecuencias: Son gráficos lineales que se utilizan para variables


cuantitativas. Para realizar estos polígonos se unen los puntos medios de las
bases superiores del diagrama de barras o del histograma según la variable sea
agrupada en intervalos o no agrupada. Cuando la muestra se agrupa por
intervalos, se trabaja con la marca de clase del intervalo (punto medio del
intervalo). Los polígonos no se usan para datos nominales u ordinales ya que, al
unir los puntos, se quiere dar la sensación de que existe una transición entre un
punto y el siguiente.
Hay algunas diferencias entre los histogramas y los polígonos de frecuencias.
En primer lugar, en los histogramas parece estar implícito que los

ESTADÍSTICA I Javier Alberici 39


datos se distribuyen de manera uniforme a lo largo de todo el intervalo (barra). Con
un polígono de frecuencia, se representan los intervalos mediante el valor del punto
medio. Esta es una representación más próxima a lo que se hace realmente en
estadística ya que si no se conoce el valor exacto de una variable, se utiliza
habitualmente un punto medio como aproximación. Una segunda diferencia es que
los polígonos de frecuencias comienzan y terminan tocando el eje X. Para llevar
esto a cabo se añade un intervalo suplementario en el extremo superior, con
frecuencia absoluta igual a cero. En el extremo inferior se prolonga la línea
exactamente hasta el origen.

o HISTOGRAMA
Frecuencia
EJE Y
FRECUENCIAS

o POLÍGONO DE FRECUENCIAS EJE X Variable

 Diagrama de sectores: En este gráfico se representa la frecuencia relativa de


cada categoría como una porción de un círculo, en la que el ángulo se corresponde
con la frecuencia correspondiente. Se utilizan principalmente en variables
cualitativas nominales con no más de 6 categorías.
Se basa en una proporcionalidad entre la frecuencia y el ángulo central de
una circunferencia, de tal manera que a la frecuencia total le corresponde el ángulo
central de 360°. Para construir se aplica la siguiente fórmula:

X= Frecuencia relativa * 360° .


Sumatoria frecuencia relativa

Cada uno de las categorías cuenta con un color o tramado distinto. La leyenda
con las referencias siempre debe ir en forma ordenada, tal cual se presentan en la
tabla y de la misma forma deben ir ubicados los sectores en el gráfico.

ESTADÍSTICA I Javier Alberici 40


Administración de alimentación enteral por
sonda nasogástrica. Distribución según
porcentaje de adecuación.

 Dirección: Desde el primer sector, los demás sectores se van situando en


sentido de las agujas del reloj o en sentido inverso.
 Ángulo inicial: Los sectores se colocan a partir de una posición de reloj
especificada, por ejemplo: a las 12:00.

 Diagrama de cajas (Box Plot): Es la representación gráfica de la mediana,


percentiles, valores extremos y dispersión. El box-plot se utiliza para comparar
gráficamente el comportamiento de una variable en distintos grupos,
representados cada uno por una caja o box.

Máximo

Percentil 75%
Mediana 50%
Percentil 25%

Mínimo

La ventaja que posee con respecto a los demás diagramas es que este gráfico
posee características como centro y dispersión de los datos y la principal desventaja
que posee es que no presenta ninguna información acerca de las frecuencias que
presentan los datos.

ESTADÍSTICA I Javier Alberici 41


500
Colesterol en sangre

400

300

200

100

Cáncer ACV Enf. coronaria Otra Desconocida

Nivel de colesterol en sangre según causas de muerte

 Diagrama de dispersión: Se utilizan para apreciar la relación entre dos variables


numéricas. Representa gráficamente cada punto (X,Y) que corresponden a los
valores correlativos de una distribución bivariante.

GRÁFICO DE DISPERSIÓN

 Correlación lineal: Existe una relación


lineal negativa si al aumentar los valores
de la variable independiente disminuyen
los valores de la variable dependiente y la
relación lineal es positiva si al aumentar
los valores de la variable independiente Negativa Positiva
también aumentan los valores de la
variable dependiente.

 Correlación no lineal: Existe una


relación entre las variables, pero no es
lineal.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre


las variables con un intervalo de confianza determinado. La correlación puede ser
positiva (aumento), negativa (descenso) o nula (las variables no están
correlacionadas). Se puede dibujar una línea de ajuste, llamada también línea de
tendencia, con el fin de estudiar la correlación entre las variables.
ESTADÍSTICA I Javier Alberici 42
EJE Y
Peso en Kg

EJE X - Altura en cm

3.5. ELABORACIÓN DE TABLAS Y GRÁFICOS MEDIANTE EXCEL


Ver Capítulo 8 “Uso de informática en estadística descriptiva”.

ESTADÍSTICA I Javier Alberici 43

También podría gustarte