Estadística Descriptiva
Estadística Descriptiva
Estadística Descriptiva
Zamalloa Cornejo
INTRODUCCION
INTRODUCCION
Iniciamos este capítulo con la definición de algunos conceptos elementales y básicos,
y sin embargo pilares, para una comprensión intuitiva y real de lo que es la Bioestadística.
Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de datos
numéricos: distinguir y clasificar las características en estudio, enseñarle a organizar y tabular
1
Bioestadística Mgt. Rina M. Zamalloa Cornejo
las medidas obtenidas mediante la construcción de tablas de frecuencia y por último los
métodos para elaborar una imagen que sea capaz de mostrar gráficamente unos resultados.
DEFINICION DE ESTADISTICA
Como establece M.G. Kendall, definir en que consiste o qué es la Estadística ha sido
una materia que ha dividido a lo largo de la historia a los propios estadísticos. Desde Quetelet
que la consideraba la reina de las ciencias hasta autores que la definen como una técnica más,
al servicio de otras ramas del conocimiento. La característica común ha sido la multiplicidad
de definiciones que se han escrito sobre estadística. W.F. Willcox, en 1935, reúne 115
definiciones y aporta una más para sustituirlas, sin lograrlo. El número de definiciones de
estadística ha seguido aumentando.
La estadística es la rama de las matemáticas que describe los fenómenos donde no hay
un componente absoluto, es decir es discreta, y sus modelos son estocásticos. La estadística
ayuda a todas las demás ciencias a generar modelos matemáticos "generales" donde se haya
considerado el componente aleatorio.
Es una disciplina de estudio relacionada con la recopilación, organización y resumen
de datos y la obtención de inferencias a partir de esos datos.
La Estadística es una disciplina científica que se dedica a la recopilación, descripción,
análisis e interpretación de datos y, por ello, constituye la metodología científica que permite
transformar datos en información. Esto la hace especialmente atractiva, ya que en cualquier
sociedad desarrollada existe una inmensa variedad de problemas cuya solución sólo es posible
mediante la utilización de técnicas estadísticas.
En una forma práctica, la estadística proporciona los métodos científicos para la
recopilación, organización, resumen, representación y análisis de datos o hechos, que se
presten a una evaluación numérica; tales como: fenómenos sociales, económicos, políticos,
culturales, etc.
Estadística descriptiva:
Describe, analiza y representa un grupo de datos utilizando métodos numéricos,
tabulares y/o gráficos que resumen y presentan la información contenida en ellos. Se puede
definir como aquel método que contiene la recolección, organización, presentación y resumen
de una serie de datos. El análisis que se realiza se limita en sí mismo a los datos recolectados
y no se puede realiza inferencia alguna o generalizaciones alguna, acerca de la población de
2
Bioestadística Mgt. Rina M. Zamalloa Cornejo
donde provienen esos datos estadísticos; es decir a partir de una muestra de datos (recogida
según una técnica concreta), es la descripción de las características más importantes,
entendiendo como características, aquellas cantidades que nos proporcionen información
sobre el tema de interés del cual hacemos el estudio.
Estadística inferencial:
Es aquella rama de la estadística que apoyándose en el cálculo de probabilidades y a
partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones u otras
generalizaciones sobre un conjunto mayor de datos. Puede definirse como aquella rama de la
estadística que hace posible la estimación de una característica de una población o la toma de
una decisión referente a una población, fundamentándose sólo en los resultados de la muestra.
Población:
Estadísticamente, la población se define como un conjunto de individuos o de objetos
que poseen una o varias características comunes que interesan al investigador. No se refiere
esta definición únicamente a los seres vivientes; una población puede estar constituida por los
habitantes de un país o por lo peces de un estanque, así como por los establecimientos
comerciales de un barrio o las unidades de vivienda de una ciudad. Al número de elementos
de la población se denota por N.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas.
Aquí el término infinito no está siendo tomado con el rigor semántico de la palabra; por
ejemplo, los peces dentro de un estanque son un conjunto finito; sin embargo, en términos
estadísticos, puede ser considerado como infinito.
Muestra:
Conjunto de elementos que forman parte de población. La muestra representa a esta
población.
También se puede definir como el subconjunto de la población a la cual se le efectúa
la medición con el fin de estudiar las propiedades del conjunto del cual es obtenida. Existen
diversos métodos para calcular el tamaño de la muestra y también para tomar los elementos
que la conforman, la muestra debe ser representativa de la población y sus elementos
escogidos al azar para asegurar la objetividad de la investigación.
3
Bioestadística Mgt. Rina M. Zamalloa Cornejo
VARIABLE
Es la característica de la población que interesa al investigador y se está midiendo.
Existen dos categorías o tipo de variables:
4
Bioestadística Mgt. Rina M. Zamalloa Cornejo
o Variable ordinal este tipo de variable puede tomar distintos valores ordenados
según una escala preestablecida, ejemplo: grado de instrucción, nivel de
satisfacción, etc.
o Variable discreta, aquella que entre dos valores próximos no puede tomar
ningún valor. Ejemplos: el número de hijos de una familia, el de obreros de
una fabrica, el de alumnos de la universidad, etc.
Las variables se denotan por las mayúsculas de letras finales del alfabeto castellano U, V, X,
Y, Z. A su vez cada una de estas variables puede tomar distintos valores y se denota por las
letras minúsculas u, v, x, y, z, etc. o colocando un subíndice en las letras minúsculas, que
indica orden.
Ejemplos.
1) En una fábrica se quiere realizar un estudio sobre la duración de los focos para lo cual se
procedió de la siguiente manera, se seleccionaron al azar el 5% de los focos producidos cada
día durante una semana, posteriormente se iluminaron todos y se procedió a anotar la duración
de cada uno, después se promediaron los tiempos para hallar el tiempo promedio de vida de
todo el lote.
2) Se quiere determinar la estatura promedio de los niños cubanos de 5 años de edad. Para lo
anterior se selecciona un grupo de niños mediante un procedimiento que garantice se
encuentren bien representados los niños cubanos por sexo, razas y lugares de residencia
(urbano y rural).
5
Bioestadística Mgt. Rina M. Zamalloa Cornejo
PARÁMETRO Y ESTADÍGRAFO
Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos de
poblaciones, o de sus muestras, diferenciándose entre ellas las que se refieren a las mismas
poblaciones y a las muestras.
o PARÁMETRO – Es una medida resumen que se obtiene a base de los datos de una
población es decir que cuantifica una característica de esa población. Nos referimos a
las funciones, tales como las medias, desviaciones típicas, momentos, coeficientes de
correlación, etc. Los parámetros son cantidades, las cuales son constantes para
distribuciones en particular, pero pueden tomar diferentes valores para diferentes
miembros de familias de distribuciones del mismo tipo.
media poblacional
2 varianza poblacional
p proporción poblacional
6
Bioestadística Mgt. Rina M. Zamalloa Cornejo
7
Bioestadística Mgt. Rina M. Zamalloa Cornejo
8
Bioestadística Mgt. Rina M. Zamalloa Cornejo
REVISIÓN DE LA LITERATURA
Se ausculta y se dispone qué estudios e investigaciones se han realizado sobre el
asunto o problema a investigar. Pueden considerarse estudios e investigaciones relacionadas,
o sea, no necesariamente tienen que ser tan similares como la investigación que se propone.
Deben de disponerse en orden cronológico comenzando con las menos recientes y terminar
con las actuales. También hay que considerar, si hay tres preguntas de investigación, presentar
los estudios según el orden de las preguntas. Puede también presentarse los estudios según las
variables de la investigación propuesta.
METODOLOGÍA
Diseño: Mediante la presentación de un flujograma se ilustra las partes o componentes de la
investigación demostrando así mismo el procedimiento de cómo se va a llevar a cabo la
investigación.
9
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Instrumentos: Debe describir los instrumentos o medios de cómo va a recoger los datos para
la investigación. Ya sea pruebas, cuestionarios o listas de cotejo, etc., debe de describirlos
indicando su magnitud en números de reactivos… indicar cuánto tiempo toma en
contestarse…
Los instrumentos van a estar determinados según las preguntas de investigación propuestas en
la primera parte.
Debe de procurar por la validez y la confiabilidad de los instrumentos e informarla.
Análisis estadístico: Indicar que tipo de estadísticas se va a calcular y qué análisis se va llevar
a cabo. Esto dependerá según las preguntas de investigación establecidas en la primera parte
de la propuesta.
LA RECOLECCIÓN
Una de las etapas más importantes de la investigación es la recolección de la
información, la cual ha de partir, a menos que se tenga experiencia con muestras análogas, de
una o varias muestras piloto en las cuales se pondrán a prueba los cuestionarios y se obtendrá
una aproximación de la variabilidad de la población, con el fin de calcular el tamaño exacto
de la muestra que conduzca a una estimación de los parámetros con la precisión establecida.
El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad
de las preguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de
tomar teniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y
las limitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de
técnica, etc. Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se
puede conseguir; es determinar si la encuesta se debe aplicar por teléfono, por correo, o si se
necesitan agentes directos que recojan la información; establecer su número óptimo y preparar
su entrenamiento adecuado.
10
Bioestadística Mgt. Rina M. Zamalloa Cornejo
PRESENTACIÓN DE LA INFORMACION
Una vez recolectados los datos es necesario organizarlos, clasificarlos y resumirlos
adecuadamente, de manera tal que posibilite un mejor análisis de la información obtenida. Un
recurso muy útil para este fin lo constituye las medidas resumen.
Se presentan los hallazgos según el orden que fueron formuladas las preguntas, las
hipótesis, objetivos de la investigación. Se presentan los datos estadísticos, por medio de
tablas y/o gráficas en la forma más objetiva posible o medidas cuantitativas resumen. No debe
hacerse ningún juicio o comentario. Sólo se presentan los datos y hechos con sus estadísticas
correspondientes.
Una información estadística adquiere más claridad cuando se presenta en la forma
adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con
las variables que se van a presentar y la forma de hacerlo. No es aconsejable saturar un
informe con tablas y gráficos redundantes que, antes que claridad, crean confusión.
Además, la elección de determinada tabla o gráfico para mostrar los resultados, debe
hacerse no sólo en función de las variables que relaciona, sino del lector a quien va dirigido el
informe
PUBLICACIÓN
Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros
estudiosos del mismo problema a quienes se les puede aportar información, conocimientos y
otros puntos de vista acerca de él.
11
Bioestadística Mgt. Rina M. Zamalloa Cornejo
El censo: Esta técnica consiste en la obtención de datos procedentes de todos los elementos de
la población u objeto de estudio, en un tiempo determinado y siguiendo un cuestionario
previamente elaborado.
La encuesta: Se diferencia del censo en que la encuesta se aplica solo a una muestra de la
población u objeto de estudio.
12
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Número de orden: El mismo se emplea para facilitar la referencia a la tabla en el texto. Debe
asignársele un número consecutivo a cada tabla siguiendo el orden en que se citan por primera
vez en el texto. Este número la identifica y se coloca precediendo al título. Ej.: Tabla 1, Tabla
2. Cuadro 1, Cuadro 2. No debe usarse indistintamente Tabla 1, Cuadro 2.
Título: Debe ser completo, claro y conciso, es decir, debe reflejar claramente en qué consiste
el contenido y con qué criterios se clasificaron los elementos a que se hace referencia,
ubicándolo además en tiempo y lugar. Para ser completo, el título debe responder a las
preguntas qué, cómo, dónde y cuándo.
Cuadro o cuerpo de la tabla: Esta constituido por un grupo de casillas o celdas formadas por el
entrecruzamiento de filas y columnas. La primera fila se reserva para indicar a qué se refieren
los datos subyacentes y que unidad de medida se utilizó. En la primera columna se reflejan las
diferentes clases según la escala de clasificación empleada.
13
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Notas explicativas o aclaratorias: Se utilizan cuando se desea aclarar algo, por lo general del
título o del cuerpo de la tabla, la significación estadística o alguna breve nota aclaratoria del
contenido, que puede indicarse mediante símbolos colocados como exponentes.
Las tablas estadísticas suelen clasificarse según el número de variables que representan
en:
• Simple (unidimensional): una variable.
• Compuesta (bidimensionales o multidimensional): dos variables, tres o más variables.
Deben ser autoexplicativas, o sea, que se expliquen por sí mismas, por lo que se debe
evitar presentar demasiada información en ellas en aras de ganar claridad. En general, como
forma de presentación se utilizan cuadros uni y bidimensionales, reservándose el uso de los
multidimensionales para fines de trabajo.
Sexo
Frecuencia Porcentaje
Femenino 68 80,0
Masculino 17 20,0
Total 85 100,0
14
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Cuadro Nº 2
Distribución de pacientes según indicación terapeútica, Hospital Regional Cusco - 2003
Indicación terapéutica
Frecuencia Porcentaje
Artritis reumatoide 54 63,5
Lupus eritematoso
9 10,6
sistémico
Transplante renal 21 24,7
Esclerosis sistémica 1 1,2
Total 85 100,0
Sexo
Femenino Masculino Total
N° % N° % N° %
Indicación Artritis reumatoide 44 64,7% 10 58,8% 54 63,5%
terapéutica Lupus eritematoso
9 13,2% 0 ,0% 9 10,6%
sistémico
Transplante renal 15 22,1% 6 35,3% 21 24,7%
Esclerosis sistémica 0 ,0% 1 5,9% 1 1,2%
Total 68 100,0% 17 100,0% 85 100,0%
GRÁFICO
La forma gráfica constituye un complemento importante para la presentación de los
resultados ya que permite incrementar la información científica que se trata de transmitir. Son
representaciones visuales que emplean símbolos, barras, polígonos y sectores, de los datos
contenidos en tablas o cuadros. La utilidad de los gráficos es doble, ya que pueden servir no
sólo como sustituto a las tablas o cuadros, sino que también constituyen por sí mismos una
poderosa herramienta para el análisis de los datos, siendo en ocasiones el medio más efectivo
y fácil no sólo para describir y resumir la información, sino también para analizarla
El gráfico, al igual que las tablas, debe ser auto explicativo, sencillo y de fácil
comprensión.
Las partes del gráfico son:
• Número de orden.
15
Bioestadística Mgt. Rina M. Zamalloa Cornejo
• Título
• Cuerpo o gráfico propiamente dicho
• Leyenda
El número de orden y el título deben cumplir los mismos requisitos señalados
anteriormente para la tabla o cuadro estadístico.
El cuerpo o gráfico propiamente dicho, varía en su configuración en dependencia del
tipo de dato que se representa, pero siempre debe indicar claramente las coordenadas, las
escalas y las unidades de medida, reservando el eje de las abscisas (eje X) para la variable y el
eje de las ordenadas (eje Y) para las frecuencias.
La leyenda permite identificar claramente los diferentes elementos del cuerpo del
gráfico. Existen varios tipos de gráficos, o representaciones gráficas, utilizándose cada uno de
ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al
presentar la información, mencionaremos algunas consideraciones que conviene tomar en
cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de
la manera más eficaz posible y sin distorsiones:
El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o
de las ordenadas) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas
al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las
frecuencias. Las gráficas más comúnmente usadas en estadística descriptiva son: gráfico de
barras, gráfico de línea, gráfica circular (o "de pastel")
GRAFICO DE BARRAS
Un gráfico de barras, también conocido como gráfico de columnas, es un diagrama
con barras rectangulares de longitudes proporcional al de los valores que representan. Los
gráficos de barras son usados para comparar dos o más valores. Existen dos principales clases
de gráficos de barras:
Barra simple: se emplean para graficar hechos únicos
Barras compuesta: es muy recomendable para comprar una serie estadística con otra, para ello
emplea barras simples se distinto color o tramado en un mismo plano cartesiano, una al lado
de la otra.
16
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Indicación terapéutica
70,0%
60,0%
50,0%
40,0%
Porcentaje
63,53%
30,0%
20,0%
24,71%
10,0%
10,59%
0,0% 1,18%
Artriti Lupu Tran Escle
s re uma s e ri s p lan rosis
toide tema te re sisté
toso nal mica
sisté
mico
Indicación terapéutica
Fuente: Registros del H.R. Cusco
GRAFICO DE LINEAS
Cuando los datos se relacionan entre sí, es decir, cuando podemos decir que existe
cierta continuidad entre las observaciones (como por ejemplo el crecimiento poblacional, la
17
Bioestadística Mgt. Rina M. Zamalloa Cornejo
evolución del peso o estatura de una persona a través del tiempo, el desempeño académico de
un estudiante a lo largo de su instrucción escolar, las variaciones presentadas en la medición
realizada en algún experimento cada segundo o minuto) se pueden utilizar las gráficas de
líneas, que consisten en una serie de puntos trazados en las intersecciones de las marcas de
clase y las frecuencias de cada una, uniéndose consecutivamente con líneas:
Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos
individuos a lo largo de cinco observaciones anuales.
GRÁFICOS DE SECTORES
Cuando los datos representan partes de un total y se desea ver la importancia de cada
parte en relación a las otras o al total, se utiliza este tipo de diagrama.
El gráfico de sectores, gráfico circular, o, como es tradicionalmente llamado gráfico de
pastel es un diagrama circular donde los valores de cada categoría estadística representada son
proporcionales a las respectivas medidas de los ángulos (1% en el gráfico de sector equivale a
3,6º). Es decir, es el resultado de dividir un círculo en sectores circulares de ángulos
proporcionales a las frecuencias absolutas (Nº) de cada valor de la variable. Para calcular los
grados de cada sector se divide la frecuencia entre el número de datos y se multiplica por 360.
Gráfico Nº 3
Distribución de pacientes según sexo, Hospital Regional Cusco - 2003
Sexo
Femenino
Masculino
20,0%
80,0%
18
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Gráfico Nº 4
Distribución de pacientes según indicación terapeútica, Hospital Regional Cusco - 2003
19
Bioestadística Mgt. Rina M. Zamalloa Cornejo
INTRODUCCION
DEFINICIONES
Uno de los primeros pasos que se realiza en cualquier estudio estadístico es la
tabulación de resultados, es decir, recoger la información de la muestra resumida en una tabla
en la que a cada valor de la variable se le asocian determinados números que representan el
número de veces que ha aparecido, su proporción con respecto a otros valores de la variable,
etc. Estos números se denominan frecuencias.
forma: y 'i −1 − y 'i ) donde y 'i −1 es el límite inferior y y 'i es el límite superior del intervalo.
conceptos:
20
Bioestadística Mgt. Rina M. Zamalloa Cornejo
n
muestra
i = n1 + n2 + ..........+ nk = n
i =1
n
Absoluta
i = n ; 0 ni n i = 1, 2, ......., k
i =1
Nk = n
Relativa Hi H i = h j = h1 + h2 + .......... + h j
j =1
Acumulada
Ni
Hi = ; Hk = 1
n
21
Bioestadística Mgt. Rina M. Zamalloa Cornejo
yi ni Ni hi Hi
y1 n1 N1 = n1 n1 N1
h1 = H1 = h1 =
n n
y2 n2 N2 = n1 + n2 n2 N2
h2 = H 2 = h1 + h2 =
n n
yk nk Nk = n1 + n2 + + nk = n nk Nk
hk = H k = h1 + h2 + + hk = =1
n n
Ejercicio
Se quiere saber el número de hijos por matrimonio de una villa. Para este propósito, se elige
una muestra representativa de 50 matrimonios de ella. Se obtienen los siguientes datos:
0 2 1 2 2 0 1 2 1 3 2 3 2
2 2 1 2 4 2 0 3 3 3 0 2 1
4 3 1 3 2 3 3 3 4 2 2 4 2
3 3 2 3 3 2 2 4 2 2 3
Elaborar una tabla de distribución de frecuencias.
Solución
yi ni Ni hi Hi
0 4 4 0,08 0,08
1 6 10 0,12 0,20
2 20 30 0,40 0,60
3 15 45 0,30 0,90
4 5 50 0,10 1
50 1
22
Bioestadística Mgt. Rina M. Zamalloa Cornejo
y 'i−1 − y 'i ) y sus puntos medios yi marcas de clase (valor que nos representa la información
que contiene un intervalo).
Como cada observación debe quedar perfectamente encasillada en uno y sólo un
intervalo de clase, debemos decidir a qué intervalos pertenecen los extremos de las clases, por
lo que habrán de tomarse intervalos semiabiertos o tomando el extremo de cada clase con un
decimal más que las observaciones. Con el fin de que la clasificación esté bien hecha, los
intervalos se deben construir de manera que el límite superior de una clase coincida con el
límite inferior de la siguiente, y además, adoptando el criterio de que los intervalos sean
cerrados por la izquierda y abiertos por la derecha.
Por otro lado, tenemos la amplitud de cada intervalo, que puede ser constante o
variable. Si procuramos que todas las clases tengan la misma amplitud y los límites de cada
clase sean números redondos (múltiplos p. ej. de 5) conseguiremos simplificar mucho los
cálculos (siempre y cuando no se pierda demasiada información con estas consideraciones).
Debemos observar un hecho importante, se entiende que cuando hacemos una
agrupación en intervalos de clase, para nosotros solamente cuenta el número de observaciones
que caen dentro de cada uno de los intervalos y no la colocación en su interior, es decir,
suponemos que la distribución de estos valores en el intervalo es homogénea, en esto radica
la pérdida de información que supone agrupar los datos de las observaciones.
23
Bioestadística Mgt. Rina M. Zamalloa Cornejo
y 'i−1 − y 'i ) yi ni Ni hi Hi
y '0 − y '1 )
y1 =
y '0 + y '1 n1 N1 = n1
h1 =
n1
H1 = h1 =
N1
2 n n
y '1 − y '2 )
y2 =
y '1 + y '2 n2 N2 = n1 + n2
h2 =
n2
H 2 = h1 + h2 =
N2
2 n n
y 'k −1 − y 'k ) yk =
y 'k −1 + y 'k nk Nk = n1 + + nk = n
hk =
nk
H k = h1 + + hk =
Nk
=1
2 n n
MAS DEFINICIONES
➢ RANGO (R): Es el intervalo en que se distribuyen los datos y se determina restándole
el mayor valor observado el menor valor observado:
R = XMax - XMin
➢ AMPLITUD DE CLASE: Para una distribución de frecuencias que tiene clases del
mismo tamaño, la amplitud de clase se obtiene restando el límite inferior de una clase
del límite superior de la misma clase: Ci = y 'i − y 'i −1
R
Si la tabla de distribución de frecuencias tiene amplitud constante entonces: C =
K
➢ MARCA DE CLASE (punto medio): punto que divide a la clase en dos partes iguales.
Es el promedio entre los límites superior e inferior de la clase.
y 'i −1 + y 'i
yi =
2
La marca de clase no es más que una forma abreviada de representar un
intervalo mediante uno de sus puntos. Por ello hemos tomado como representante, el
punto medio del mismo. Esto está plenamente justificado, si recordamos que cuando
se mide una variable continua como el peso, la cantidad con cierto número de
decimales que expresa esta medición, no es el valor exacto de la variable, sino una
medida que contiene cierto margen de error, y por tanto representa a todo un intervalo
del cual ella es el centro.
24
Bioestadística Mgt. Rina M. Zamalloa Cornejo
1. No existe ninguna ley que defina cómo obtener el número de intervalos de clase, pero
la experiencia recomienda que no sea menor que 5 ni mayor que 20. Por lo tanto, la
R R
amplitud de clase puede ser: C .
20 5
2. Si n 25 k = 5 . Si n 25 k = n
R
Amplitud: C = y´i − y´i −1 = LS − LI o C=
k
Solución: R = 15 − 2 = 13
R R 13 13
1. 20 C 5 20 C 5
0, 7 C 2, 6
2. n 25 k = n
n = 50 k = 50 = 7, 071 7
R 13
C= = = 1,8 2
k 7
25
Bioestadística Mgt. Rina M. Zamalloa Cornejo
3. Regla de Sturges:
k = 1 + 3,32 log n = 1 + 3,32 log 50 = 6, 64
k 7
R 13
Amplitud: C = = = 1,8 2
k 7
GRÁFICOS
1. HISTOGRAMA
El histograma es la representación gráfica en el plano coordenado de las características
concentradas en la tabla de la distribución de una variable cuantitativa continua, que
representa frecuencias mediante el volumen de las áreas. Un histograma consiste en un
conjunto de rectángulos con:
(a) En el eje de las abscisas (horizontal) se representan las clases con centros en las marcas de
clase y longitudes iguales a los tamaños de los intervalos de clase.
(b) En el eje de las ordenadas (vertical) representamos las frecuencias absolutas o relativas.
En el caso de un histograma para intervalos desiguales sólo se señalizan los valores sobre el
eje horizontal, el eje vertical no tiene sentido porque las frecuencias corresponden al área de
cada rectángulo.
26
Bioestadística Mgt. Rina M. Zamalloa Cornejo
27
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Histograma 4: parece faltarle una parte y por ello se le llama censurado o sesgado (en este
caso, a la izquierda). No representa una variabilidad natural y por tanto hay que sospechar que
se han eliminado algunos valores. Igual ocurre con las curvas de frecuencias poco asimétricas
o sesgadas a la izquierda o de asimetría negativa.
2. POLÍGONOS DE FRECUENCIA
El polígono de frecuencias es una representación gráfica de la distribución de frecuencias
que resulta esencialmente equivalente al histograma y se obtiene uniendo mediante segmentos
los centros de las bases superiores de los rectángulos del histograma (es decir, los puntos de
las marcas de clase).
28
Bioestadística Mgt. Rina M. Zamalloa Cornejo
EJERCICIOS
1. Los valores de una población se clasifican en tablas de frecuencias de 5 intervalos de
amplitud constante. Con los siguientes resultados:
N2 = 4n1 n4 = 2n1 n = 60 N4 = 54 n3 = 4n5 R = 30 y3 = 100
Elaborar la tabla de distribución de frecuencias, graficar el polígono de frecuencias y la Ojiva.
2. Se sabe que la edad de 50 trabajadores de la clínica Sr. de Huanca tiene una distribución
simétrica de cinco intervalos de clase, además y0' = 20 , y2' = 40 , n4 = 10 y H 4 = 0,84 .
29
Bioestadística Mgt. Rina M. Zamalloa Cornejo
INTRODUCCION
En este capítulo consideraremos datos correspondientes a un solo carácter, el cual,
como antes dijimos llamaremos variable estadística. Todo análisis estadístico se inicia con
una primera fase descriptiva de los datos, ésta tiene por objeto sintetizar la información
mediante el cálculo de medidas estadísticas o medidas resumen que hacen referencia al
análisis de una sola variable (análisis unidimensional).
30
Bioestadística Mgt. Rina M. Zamalloa Cornejo
MEDIA ARITMÉTICA
➢ Media para datos no agrupados: Para datos no agrupados, la media de una muestra
es la suma de todos los valores divididos entre el número total de los mismos:
n
x i
x1 + x2 + ....... + xn
X = i =1
=
n n
Ejemplo
Una variable de interés en un estudio del cangrejo Xanthidae (pequeño cangrejo que habita en
las proximidades de Gloucester Point, Virginia) es el número de huevos puestos por
individuo. Las siguientes son las observaciones obtenidas para 45 cangrejos: 1959, 4534,
2802, 2462 y 3412. Calcular el número medio de huevos puestos.
Solución
n
x i
1959 + 4534 + 2802 + 2462 + 3412
X = i =1
=
n 5
X = 3033,8 huevos
31
Bioestadística Mgt. Rina M. Zamalloa Cornejo
➢ Media para datos agrupados - Si los datos vienen agrupados en una tabla de
k
n y i i
n1 y1 + n2 y2 + ....... + nk yk
frecuencias, la expresión de la media es: Y = i =1
=
n n
Ejemplo
1. Una muestra de diez mercados dio el número total de infectados por COVID-19. Calcule el
número medio de infectados.
yi ni Ni ni yi
0 1 1 0
1 2 3 2
2 4 7 8
3 2 9 6
4 1 10 4
total 10 20
Solución:
n
ni yi
20
i =1
Y = = = 2
n 10
y 'i−1 − y 'i ) yi ni yi ni
2 - 4 3 3 9
4 - 6 5 7 35
6 - 8 7 12 84
8 - 10 9 17 153
10 - 12 11 5 55
12 - 14 13 4 52
14 - 16 15 2 30
50 418
32
Bioestadística Mgt. Rina M. Zamalloa Cornejo
m n X j j
w i xi
Xp = i =1
m
w
i =1
i
Ejemplo
- Supongamos tres variedades de naranja, que se venden a 6, a 8 y a 9 pesos. El precio medio
6+8+9
(media aritmética simple) es: X = = 7, 66
3
- Si las cantidades de cada clase de naranja son, respectivamente, 125, 72 y 3 la media
ponderada es:
6x125+8x72+3x9
Xp =
125+72+3
7. M cX = c M X
33
Bioestadística Mgt. Rina M. Zamalloa Cornejo
8. M aX b = a M X b
9. La media es la única medida de ubicación donde la suma de las desviaciones de cada valor
n
con respecto a la media, siempre es cero: ( x − X ) = 0 .
i =1
i
10. La media aritmética de los valores de una variable no varía si todas las frecuencias de su
distribución se multiplican o dividen por un mismo número.
MEDIANA
La mediana, a diferencia de la media no busca el valor central del recorrido de la
variable según la cantidad de observaciones, sino que busca determinar el valor que tiene
aquella observación que divide la cantidad de observaciones en dos mitades iguales. Por lo
tanto, es necesario atender a la ordenación de los datos, y debido a ello, este cálculo depende
de la posición relativa de los valores obtenidos. Es necesario, antes que nada, ordenar los
datos de menor a mayor (o viceversa).
Ejemplo
Calcule la mediana para la edad de una muestra de cinco estudiantes: 21, 25, 19, 20 y 22.
Solución:
Al ordenar los datos de manera ascendente y es n impar quedan: 19, 20, 21, 22, 25 entonces la
mediana es 21.
Ejemplo
1. Los siguientes datos corresponden la cantidad de hemoglobina en el primer trimestre de 8
mujeres gestantes 11,4; 11,1; 11,2; 11,3; 11,2; 11,4; 11,5; 11,2 gr/lt
Solución:
34
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Ordenando los datos de mayor a menor valor: 11,1; 11,2; 11,2; 11,2; 11,3; 11,4; 11,4; 11,5. Se
observa que en la parte central de los datos no hay dato alguno por lo que la mediana se
determina con el promedio de los datos subrayados, entonces:
X4 + X5
Me =
2
11, 2 + 11,3
Me = = 11, 25 gr/lt
2
2. Una muestra de diez mercados dio el número total de infectados por COVID-19. Calcule la
mediana de los infectados.
xi ni N
0 1 1
1 2 3
2 4 7
3 2 9
4 1 10
total 10
Solución:
Xn + Xn
+1
Como n es par: M e = 2 2
2
- Primero se debe calcular las posiciones:
n 10 n 10
= = 5 y +1 = + 1 =6
2 2 2 2
Luego ubicar estas posiciones en las frecuencias absolutas acumuladas de la tabla de
distribución de frecuencias y reemplazar en la fórmula:
Xn + Xn
+1 2 + 2
Me = 2 2
= = 2
2 2
Nota: Es imprescindible para calcular el valor de la mediana el que primero se ordenen los
datos en cuanto a su magnitud, ya que, de no hacerlo se incurriría en un grave error.
35
Bioestadística Mgt. Rina M. Zamalloa Cornejo
n
− Ni −1
Por lo tanto, la fórmula para calcular la mediana sería: M e = yi' −1 + C
2
( Ni − Ni −1 )
1
− H i −1
- Cálculo a partir de la frecuencia relativa: M e = yi' −1 + C
2
( H i − H i −1 )
Ejemplo:
En la siguiente tabla de distribución de frecuencias, se proporcionan los pesos (redondeados a
la libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un
hospital
y 'i−1 − y 'i ) yi ni Ni
2 - 4 (2+C) 3 3 3
4 - 6 (4+C) 5 7 10
6 - 8 7 12 22
8 - 10 9 17 39
10 - 12 11 5 44
12 - 14 13 4 48
14 - 16 15 2 50
50
Calcular la mediana del peso de los bebés recién nacidos
n
− Ni −1
Solución: M e = yi' −1 + C
2 = 8 + 2 ( 25 − 22 ) = 8,35
( Ni − Ni −1 ) ( 39 − 22 )
PROPIEDADES DE LA MEDIANA
1. La mediana es única para cada conjunto de datos.
2. No se ve afectada por valores muy grandes o muy pequeños, y por lo tanto es una medida
valiosa de tendencia central cuando ocurren.
3. Puede obtenerse para datos de nivel de razón, de intervalo y ordinal. Puede calcularse para
una distribución de frecuencias con una clase de extremo abierto, si la mediana no se
encuentra en una de estas clases.
MODA
La moda se define como aquel valor o valores que más se repiten o que tienen mayor
frecuencia entre los datos que se han obtenido en una muestra, la muestra de una población
nos genera la distribución de los datos una vez que estos se han graficado y en esta gráfica es
posible observar la moda o modas de la misma, es por esto que una distribución de datos
36
Bioestadística Mgt. Rina M. Zamalloa Cornejo
puede ser amodal (carece de moda), unimodal (tiene una sola moda), bimodal (tiene dos
modas) o polimodal (tiene más de dos modas).
La medida de tendencia central más fácil de obtener es la moda. Esto es cierto debido
a que la moda puede encontrarse simplemente por inspección más que por cálculos (Levin,
1979).
En el caso de que la variable sea continua se utiliza la siguiente expresión para calcular
la moda:
1
M 0 = y 'i −1 + c donde: 1 = ni − ni −1 2 = ni − ni +1
1 + 2
Ejemplo
1. Las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75,
81, 87.
Solución
Como la calificación 81 es la que más ocurre, la calificación modal es 81, M 0 = 81
2. Una muestra de diez cines en una gran área metropolitana dio el número total de películas
exhibidas la semana anterior. Calcule la moda de las películas proyectadas.
xi ni
0 1
1 2
2 4
3 2
4 1
total 10
Solución:
Como el número de películas que tiene mayor frecuencia es 2, entonces:
M0 = 2
37
Bioestadística Mgt. Rina M. Zamalloa Cornejo
y 'i−1 − y 'i ) ni
2 - 4 3
4 - 6 7
6 - 8 12
8 - 10 17
10 - 12 5
12 - 14 4
14 - 16 2
50
Solución
1 = ni − ni−1 = 17 − 12 = 5 2 = ni − ni +1 = 17 − 5 = 12
1 5
M 0 = y 'i −1 + c = 8 + 2 = 8,59
1 + 2 5 + 12
38
Bioestadística Mgt. Rina M. Zamalloa Cornejo
a la vez son mayores que la moda entonces, se dice que la distribución está sesgada
positivamente o que tiene un sesgo a la derecha.
FRACTILES
CUARTIL
La mediana, como vimos separa en dos mitades el conjunto ordenado de
observaciones. Podemos aún dividir cada mitad en dos de tal manera que resulten cuatro
partes iguales. Cada una de esas divisiones se conoce como Cuartil y lo simbolizaremos
mediante la letra Q agregando un subíndice según a cuál de los cuatro cuartiles nos estemos
refiriendo.
De aquí diremos que el cuartil divide al conjunto de observaciones en cuatro partes
iguales.
39
Bioestadística Mgt. Rina M. Zamalloa Cornejo
- Se llama primer cuartil Q1 a la mediana de la mitad que contiene los datos más pequeños.
Este cuartil, corresponde al menor valor que supera – o que deja por debajo de él- a la cuarta
parte de los datos.
- Se llama segundo cuartil Q2 a la mediana.
- Se llama tercer cuartil Q3 a la mediana de la mitad formada por las observaciones más
grandes. El tercer cuartil es el menor valor que supera – o que deja por debajo de él- a las tres
cuartas partes de las observaciones.
Ejemplo
Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles.
yi ni Ni
0 14 14
1 10 24
2 15 39
40
Bioestadística Mgt. Rina M. Zamalloa Cornejo
3 26 65
4 20 85
5 15 100
n=100
Solución:
Xn + Xn
+ 1 X 25 + X 26 2+2
1. Primer cuartil: Q1 = 4 4
= = =2
2 2 2
X2n + X 2n
+ 1 X 50 + X 51 3+3
2. Segundo cuartil: Q2 = 4 4
= = =3
2 2 2
X 3n + X 3n
+1 X 75 + X 76 4+4
3. Tercer cuartil: Q3 = 4 4
= = =4
2 2 2
Ejemplo:
En la siguiente tabla de distribución de frecuencias, se proporcionan los pesos (redondeados a
la libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un
hospital
y 'i−1 − y 'i ) yi ni Ni
2 - 4 3 3 3
4 - 6 5 7 10
6 - 8 7 12 22
8 - 10 9 17 39
10 - 12 11 5 44
12 - 14 13 4 48
14 - 16 15 2 50
50
Calcular el segundo cuartil del peso de los bebés recién nacidos
Solución
jn
− Ni −1
Q j = yi' −1 + C
4
( Ni − Ni −1 )
Q2 = 8 + 2
( 25 − 22 ) = 8,35
( 39 − 22 )
DECIL
41
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Ejemplo:
En la siguiente tabla de distribución de frecuencias, se proporcionan los pesos (redondeados a
la libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un
hospital
y 'i−1 − y 'i ) yi ni Ni
2 - 4 3 3 3
4 - 6 5 7 10
6 - 8 7 12 22
8 - 10 9 17 39
10 - 12 11 5 44
12 - 14 13 4 48
14 - 16 15 2 50
50
Calcular aquel peso que es mayor que el 80% de los pesos de los bebés recién nacidos.
Solución
jn
− Ni −1
D j = yi' −1 + C
10
( Ni − Ni −1 )
D8 = 10 + 2
( 40 − 39 ) = 10, 40
( 44 − 39 )
42
Bioestadística Mgt. Rina M. Zamalloa Cornejo
PERCENTIL
Divide al conjunto de observaciones ordenadas en 100 partes iguales
Primer caso - Variable discreta y n impar
Pj = X n + 1 para j = 1, 2, …., 99
x j
100
MEDIDAS DE DISPERSION
Una de las funciones de la estadística se relaciona con el cálculo de la variabilidad.
Conocer las medidas de dispersión (variación) es de suma importancia, ya que la no
consideración de diferencias puede conducir a errores de juicio en la toma de decisiones
(Sánchez, 1992). Una medida particular de tendencia central da lugar a un valor que, en
cierto sentido, "representa" a todos los valores que toma la variable estadística en estudio
(Glass & Stanley, 1974). Sin embargo, cuando se usa cualquier medida de tendencia central,
ésta nos da sólo un cuadro incompleto de un conjunto de datos y, por consiguiente, podría
conducir a conclusiones erróneas o distorsionadas (Levin, 1979), porque este proceso pasa por
alto las diferencias entre las puntuaciones en sí (Glass & Stanley, 1974). Sería incorrecto
concluir que dos conjuntos de datos son iguales sólo porque tienen las mismas medidas de
tendencia central, es decir, que el valor de la media aritmética sea el mismo para ambos
conjuntos, cuando la distancia de los datos de ambos conjuntos se distribuyen de una forma
diferente (Elorza, 1987).
Para describir una distribución en forma más completa o para interpretar con más
detalle una calificación, necesitamos información adicional acerca de la dispersión de las
calificaciones con respecto a nuestra medida de tendencia central (Haber & Runyon, 1992).
Es necesario un índice de cómo están diseminados los valores alrededor del centro de la
distribución. A tales distancias se les suele denominar medidas de dispersión o variación.
43
Bioestadística Mgt. Rina M. Zamalloa Cornejo
RANGO
Una manera de medir la variación en un conjunto de valores es calculando el rango.
El rango es la más sencilla y directa de las medidas de dispersión (Runyon & Haber, 1992) y a
la vez la menos confiable (Sánchez, 1992). Se trata simplemente de la distancia entre el valor
menor y el valor mayor en un conjunto de observaciones. El hecho de que sólo tome en
consideración dos valores, hace que la medida sea muy pobre. Nótese que, si hay un valor
extremo en la distribución, se tendrá la impresión de que la dispersión es grande cuando, en
realidad, si hiciéramos caso omiso de esa calificación, podríamos encontrar que dicha
distribución es, por el contrario, una distribución "compacta". El rango o recorrido refleja
únicamente las dos calificaciones extremas de la distribución (Runyon & Haber, 1992), es
decir, solamente dos puntuaciones exactas de un grupo son las que los determina, ignorando
así, todas las demás puntuaciones.
El rango no puede darnos una idea precisa con respecto a la dispersión y en el mejor
de los casos, debe considerarse sólo como un índice preliminar o muy aproximado (Levin,
1977). Puede expresarse de la siguiente manera:
R = XMax - XMin
44
Bioestadística Mgt. Rina M. Zamalloa Cornejo
VARIANZA
La varianza también está definida como el promedio de las diferencias elevadas al
cuadrado entre cada valor que se tiene en la muestra (xi) y la media aritmética X .
- Varianza para datos no agrupados:
n
(x − X )
i
2
S2 = i =1
n −1
1 k 2
S2 =
n − 1 i =1
xi − nX 2
- Varianza para datos agrupados:
k
ni ( yi − Y )2
i =1
S2 =
n −1
1 k 2
S = ni yi − nY
2 2
n − 1 i =1
(n − 1)S + n ( X
i i
2
i i − X )2
S2 = i =1 i =1
n −1
45
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Ejemplo:
1. Los siguientes datos son la cantidad de glucosa en miligramos encontrada en muestras de
sangre de algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3, determine su varianza.
Solución:
Lo primero que hay que calcular es la media aritmética de la muestra como ya se ha hecho
anteriormente.
− 14.2 + 12.1 + 15.6 + 18.1 + 14.3 74.3
x= = = 14.86mg
5 5
n
(x − X )
i
2
S2 = i =1
n −1
2 2 2
( 14.2 2− 140.86 ) ++( 12
.4356 .1 − 14+.86
7.6176 ) + ....
0.5476 + 10+ (.4976
14.3 −+14
0..3136
86 ) 19.412 2
s2 = s = == = 4.853mg
5 −1 4 4
S2 =
1 k 2
ni yi − nY =
n − 1 i =1
2
49
1
(
3898 − 50 8,362 ( )) = 8, 2351lb 2
Desviación estándar
Es la desviación o diferencia promedio que existe entre cada valor de la muestra y la media
aritmética de la muestra. Y se obtiene a partir de la varianza, sacándole raíz cuadrada.
S = S2
46
Bioestadística Mgt. Rina M. Zamalloa Cornejo
Ejemplo
Por tanto, la desviación estándar de los ejercicios anteriores será:
1. S = S 2 = 4,853 = 2, 20 mg
La interpretación de este resultado sería, que la cantidad de glucosa encontrada en la muestra
es en promedio de 14.86 miligramos y que la cantidad de glucosa en la muestra se aleja o
dispersa en promedio 2.20 mg alrededor de la media.
2. S = S 2 = 8, 2351 = 2,87 lb
Existe una dispersión de 8,84 lb en el peso de los bebés recién nacidos respecto al promedio.
COEFICIENTE DE VARIACION
Otra medida de dispersión que se suele utilizar es el coeficiente de variación ( CV ).
Es una medida de dispersión relativa de los datos y se calcula dividiendo la desviación típica
muestral por la media y multiplicando el cociente por 100.
S
CV = x 100%
X
Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o
más grupos o comparar dispersiones a escalas distintas pues es una medida invariante ante
cambios de escala. Sirve para comparar variables que están a distintas escalas pero que están
correlacionadas estadísticamente y sustantivamente con un factor en común. Es decir, ambas
variables tienen una relación causal con ese factor.
Es importante que todos los valores sean positivos y su media por tanto un valor
positivo. A mayor valor de CV mayor heterogeneidad de los valores de la variable; y a menor
CV , mayor homogeneidad en los valores de la variable
Ejemplo
Si tenemos el peso de 5 pacientes 70, 60, 56, 83 y 79 Kg y la TAS de los mismos 150, 170,
135, 180 y 195 mmHg. ¿Qué distribución es más dispersa, el peso o la tensión arterial?
Solución:
X peso = 69, 6 S peso = 11, 675
47
Bioestadística Mgt. Rina M. Zamalloa Cornejo
S 23,822
CVTAS = = = 0,1435
X 166
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
48