Estad. Descp Ucm Ucm 24

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 34

UNIVERSIDAD DE

CIENCIA MEDICAS

DOCUMENTO DE APOYO PARA EL


DESARROLLO DEL CURSO DE
BIOESTADISTICA

Elaborado: MsC. Roberto Gutiérrez

JUNIO 2024
1

INTRODUCCIÓN

Los contenidos a desarrollar en esta asignatura permitirán al futuro profesional el


conocimiento de aspectos importantes de la estadística como ciencia, sus orígenes,
evolución y desarrollo. También conocerá algunos métodos e instrumentos de
recolección de datos y desarrollará habilidades haciendo uso de softwares
especializados para el ordenamiento, arreglo de datos, cálculo de medidas de resumen,
construcción y uso de indicadores, haciendo uso de las nuevas tecnologías de la
información y la comunicación (NTICs) relacionados al quehacer de la salud

El desarrollo de este curso tiene un alto contenido práctico, se trabaja con bases de
datos en donde en cada encuentro el estudiante pondrá en práctica lo desarrollado en
las clases, la forma de evaluación se hará conforme los temas de cada encuentro sobre
la misma base de datos para que al finalizar el curso el estudiante tenga todos los
elementos de un análisis descriptivo con sus respectivos resultados y conclusiones que
apoyen la toma de decisión oportuna.

Prof. Roberto Gutiérrez


2

I. ESTADÍSTICA

Con frecuencia escuchamos o leemos frases como las siguientes:

a. La fecundidad en Nicaragua corresponde a 2.4 hijos por mujer.


b. Las mujeres con menor nivel educativo tienen más hijos.
c. Un estudio de 500 adolescentes, sobre la edad promedio a la que inician sus
relaciones sexuales es a 14 años.
d. Las mujeres han aumentado el uso de métodos de anticoncepción.
e. El número de hijos es inversamente proporcional al nivel académico de las
mujeres.
f. Las muertes maternas han disminuido.
g. Las mujeres que realizan controles prenatales ha aumentado.
h. Un investigador ha determinado que existe una correlación entre la nota
promedio y las horas de estudio independiente de un estudiante.

En los enunciados anteriores se mide alguna característica o se cuenta el número de


resultados favorables referentes a una situación, se establecen relaciones entre
cantidades y se hacen estimaciones. Esta información nos permite conocer las
características de los elementos de una población y a partir de ésta tomar decisiones
apropiadas, generalmente este procedimiento se hace por medio de una muestra.

En general, la Estadística tiene como objetivo la recolección, análisis y presentación de


conjuntos de datos, obtenidos de una población por medio de la elección de una
muestra aleatoria y a partir de esta información tomar decisiones sobre la totalidad de
los elementos de la población.

Para su estudio la Estadística se divide en Estadística Descriptiva, (Teoría de


Probabilidades) y Estadística Inferencial.

¿Porque estadística y Bioestadística? En dependencia del tipo de datos, si estos


corresponden a químicos – biológicos, se dice que para su análisis se aplica la
bioestadística. Cabe señalar que los métodos estadísticos se pueden aplicar a todo tipo
de datos.

El análisis estadístico se puede aplicar a poblaciones o bien a muestras, una población


corresponde a un conjunto de individuos que poseen características similares que se
pueden medir u observar, estas poblaciones pueden ser finitas o bien infinitas
(suficientemente grandes). Cuando se estudia toda una población se dice que se ha
realizado un censo.

Al realizar un censo las características estudiadas se conocen como parámetros, los


cuales se representan por letreas griegas, es de suponer que se conocen los

Prof. Roberto Gutiérrez


3

verdaderos valores de esas características. (lo cual no es necesariamente cierto, ya


que por diversas razones se tienen omisiones).

¿Qué dificultades se pueden tener al realizar un censo?

Las dificultades de trabajar con poblaciones, la estadística la resuelve utilizando


muestras, una muestra es una parte de la población que debe tener las mismas
características de la población; ¿Cómo se logra esto? En general seleccionando de
forma aleatoria a cada individuo que conformara la muestra y utilizando un tamaño de
muestra adecuado.

Las características que se quieren estudiar en una población, también se puede


estudiar en una muestra. En este caso se dice que se tienen estimaciones de los
parámetros. En la siguiente tabla se tienen algunos ejemplos:

Característica Parámetro Estimación


Media aritmética µ ̅
𝑿
Varianza 𝝈𝟐 S2
Desviación estándar 𝛔 S
Proporción P ̂
𝒑

Ejercicios 1

1.- Investigar que estudia cada una de las ramas de la Estadística.

2.- Un fabricante de medicamentos desea conocer la proporción de personas cuya


hipertensión (presión sanguínea alta) puede ser controlada con un nuevo producto
fabricado por la compañía. Al realizar un estudio en 5000 individuos hipertensos se
encontró que 80% de ellos pudo controlar su hipertensión utilizando el nuevo
medicamento. Suponiendo que esas 5000 personas son representativas del grupo de
pacientes de hipertensión, conteste las siguientes preguntas:

a) ¿Cuál es la población?
b) ¿Cuál es la muestra?
c) Identifique el parámetro de interés.
d) Identifique el estadístico e indique su valor.
e) ¿Se conoce el valor del parámetro?

3.- Establezca la diferencia entre muestra y población.

4.- Desventajas de trabajar con población, ventajas de trabajar con muestras

Prof. Roberto Gutiérrez


4

II. ESTADÍSTICA DESCRIPTIVA

La estadística descriptiva se encarga de recolectar, almacenar, ordenar, procesar y


presentar datos mediante tablas de frecuencia, gráficos y cálculos de parámetros o
estimadores, o sea se describe de forma cuantitativa el conjunto de datos.

Se puede decir entontes, que trata dos aspectos: el obtener información de los datos
también conocido como “análisis exploratorio de datos” y por otro lado se preocupa de
la "presentación de resultados".

Utilizando estadística descriptiva se puede estudiar tanto poblaciones como muestras,


o sea puede calcular parámetros o estimadores.

De una población de adolescentes se tiene la talla, peso, sexo, número de hermanos


entre otros. Si revisamos la característica “talla” esta varia de un adolescente a otro,
igual pasa con el “peso” y con el “número de hermanos”. La característica que varía de
un individuo a otro se conocen como variable. Estas tres variables tienen en común
que son numéricas. El sexo también varía, unos adolescentes son mujeres y otros
hombres, quiere decir que el sexo también es variable pero no numérica.

VARIABLES ESTADÍSTICAS

Revisemos algunos conceptos:


 Unidad de estudio: Según Hurtado de Barrera (2000), “la unidad de estudio se
refiere al contexto, al ser o entidad poseedores de las características, evento,
cualidad o variable, que desea estudiar, una unidad de estudio puede ser una
persona, un objeto, un grupo, una extensión geográfica, una institución, entre
otras”.
O sea, es el objeto que observamos (individuo o sujeto)
 Dato: es el valor que se asigna a los individuos ya sean letras o números.
 Una característica que puede variar de unidad en unidad es llamada variable.
 Una colección de datos generados por una o más variables en un contexto
definido y almacenados por cualquier medio, se llama base de datos.

Uno de los primeros pasos en el estudio de algún fenómeno, consiste en caracterizar


las partes de dicho fenómeno. Por ejemplo, podríamos estudiar la nota promedio en la
asignatura de epidemiología de acuerdo al sexo, en este caso tenemos dos cantidades
que son: la nota promedio y el sexo.

La nota y el sexo serían las variables en estudio. Una clasificación general de estas es
que unas son inherentes a cantidades como la nota, mientras que sexo representa una
cualidad. Para este estudio podríamos decir que la nota promedio es del 84.5 para las

Prof. Roberto Gutiérrez


5

mujeres y 83.5 para los hombres, esto sería el resultado del estudio del fenómeno en
cuestión.

Una clasificación de las variables será:

Variables cualitativas: son aquellas que clasifican las unidades de estudio en


cualidades o categorías. Las categorías pueden tener un orden natural (ordinales) o no
(nominales). Las variables cualitativas también se les llama variables categóricas. Con
estas variables podemos contar número de casos, comparar entre categorías, pero no
podemos realizar operaciones numéricas.

Variables cuantitativas: son aquellas que dan como resultado valores numéricos, son
medibles representan medidas o frecuencias (talla, peso, número de controles
prenatales), se pueden realizar operaciones numéricas con estas variables.

Además, distinguimos dentro de las variables cuantitativas las discretas y las continuas.
Una variable discreta es aquella en la que se puede contar el número posible de valores.
Una variable continua puede tomar cualquier valor en un intervalo de valores dado.

La clasificación de las variables se muestra en el cuadro:


Continuas: Pueden
tomar cualquier valor
dentro de un intervalo
Cuantitavitas numérico
(Numéricas)
Discretas: Toman
valores numéricos
Variables puntuales.
Generalmente enteros.

Cualitativas
(categoricas)

Ejercicios 2

A continuación, se presentan algunas características.


1.- ¿Qué valores toman estas variables (recorrido de la variable)?

a) Uso de Métodos Anticonceptivos.


b) Características de las Viviendas.
c) Tendencia de la Mortalidad infantil.
d) Nivel de la mortalidad infantil.

Prof. Roberto Gutiérrez


6

e) Nivel de escolaridad de la madre (ultimo nivel aprobado).


f) Años de escolaridad de la madre.
g) Asistencia a controles prenatales
h) Número de controles prenatales recibidas.

2.- De acuerdo a los valores que toman las variables, mencione a qué tipo de variable
corresponden.

3.- Diseñe un instrumento para aplicar un censo a los maestrantes, donde se consideren
las variables establecidas en esta actividad anterior.

4.- Investigar las escalas de medición de las variables.

En general se puede decir que cuando la variable es cualitativa:

 La escala de medición Nominal: está asociada a nombres, no se establece


relación entre las categorías de la variable. Ejemplo: Procedencia, Sexo,
Religión.

 La escala Ordinal: tiene asociado un orden entre las categorías de la variable.


Ejemplo: Nivel educacional, Estado nutricional, Nivel Socioeconómico.

En el caso de las variables cuantitativas, recuerde que se dividen en discretas y


continuas:

La variable cuantitativa discreta: sólo puede tomar cifras que se encuentran separadas,
o sea que no hay valores entre dos cifras consecutivas, obteniendo un valor exacto.
Ejemplo: El número de respuestas correctas en una prueba de 5 preguntas de V o F,
estas pueden ser: {0,1, 2, 3, 4, 5} respuestas correctas, otro ejemplo puede ser el
número de hermanos, el número de consultas externas, el número de pacientes con
neumonía.

Las variables Continuas: puede tomar cualquier valor en un intervalo, a diferencia de la


variable discreta puede existir otros valores entre dos cifras consecutivas. Por ejemplo:
Cantidad de agua en un recipiente de 250 ml. Puede contener cualquier cantidad entre
cero y 250 ml

0 250 ml

Prof. Roberto Gutiérrez


7

El peso, talla y la temperatura de un paciente también son ejemplos de variables


cuantitativas continuas

 Las escalas de medidas de razón e intervalo corresponden por lo general para


las variables cuantitativas ya sean discretas o continuas. En este caso se debe
analizar la existencia del valor cero. Para la variable temperatura el valor cero
no indicaría ausencia de temperatura, esta variable se mide en escala de
intervalo. Si el cero indica usencia se dice que esta variable se mide en escala
de razón.

Ejercicio 3

Clasificar las variables y asignar su respectiva escala de medida

Clasificar como:
 variable Escala de medida
cualitativa -Nominal
Nombre Variable  cuantitativa -Ordinal
discreta -Razón
 cuantitativa -Intervalo
continua
V1 Edad del paciente

V2 Sexo del paciente

V3 Nivel socioeconómico

V4 Hábito de fumar

V5 Sedentarismo

V6 Nivel de estudios

V7 Peso en kilogramos

V8 Talla en metros

V9 Lugar de Atención del Parto


Realización de Citología del Cérvix (Cuello
V10 Uterino)
V11 Enfermedades más comunes del niño

V12 Uso de condón en la última relación sexual

V13 Tasas específicas de fecundidad


Número de hijos nacidos vivos por edad
V14 actual de las mujeres
Número de hombres con los que ha tenido
V15 hijos

Prof. Roberto Gutiérrez


8

III. Métodos gráficos y numéricos para describir variables cualitativas

La distribución de frecuencia de una variable muestra los valores posibles de la variable


y cuantas veces ocurren de forma ordenada.

Tablas de frecuencias (distribución de frecuencias).

Lo primero que hacemos al querer describir variables cualitativas es establecer las


categorías de la variable y contar cuántas unidades caen en cada una. Esto lo
presentamos en una tabla de distribución de frecuencias de la forma siguiente:

Frecuencia
Categorías de
(número de Porcentaje
la variable
casos)

….. … ..

Total n 100

Ejemplo de una distribución de una variable cualitativa:

Tabla No. 1
Distribución de frecuencias del sexo de los pacientes que acudieron a consulta
externa. HFVP diciembre 2020

Frecuencia
Sexo de
(número de Porcentaje
estudiantes
casos)
Masculino 16 44.4
Femenino 20 55.6
Total 36 100
Fuente: Estadísticas HFVP

Cabe señalar que toda distribución debe de tener un título que exprese al menos, lo
que se presenta, de donde son los datos y la fecha, y al pie de página la fuente de
donde se obtuvo los datos.

Ejercicio 4

Elabore una distribución de frecuencia y un gráfico para representar los siguientes datos
obtenidos en un estudio en el cual a 40 pacientes se les pidió juzgar la atención recibida
al momento de realizar control prenatal:

muy buena, buena, buena, adecuada, excelente, buena, buena, buena, muy buena,
mala, buena, buena, buena, buena, buena, muy buena, buena, adecuada, buena,
malísima, muy buena, adecuada, buena, buena, excelente, muy buena, buena, buena,

Prof. Roberto Gutiérrez


9

buena, adecuada, adecuada, muy buena, buena, muy buena, excelente, muy buena,
adecuada, buena, buena, muy buena.

Ejemplo de una variable cuantitativa:

Tabla No. 2
Distribución de frecuencias de la edad de los pacientes que acudieron a consulta
externa. HFVP diciembre 2016

Edad de los Frecuencia


estudiantes (número de Porcentaje
(años) casos)
16 21 45.7
17 15 32.6
18 10 21.7
Total 46 100.0
Fuente: Estadística HFVP

Como se observa a continuación, en el caso de la variable cualitativa se tienen


cualidades en la primera columna y números para la variable cuantitativa.

Edad de los
Sexo de
pacientes
pacientes
(años)
Masculino 16
Femenino 17
Total 18
Total

Gráficos para variables cualitativas.

La distribución de frecuencia de la variable puede ser presentada de alguna manera


gráfica (visual), uno de los gráficos más usados en variables cualitativas son los
diagramas sectoriales o de pastel y los gráficos de barra simple. En el caso de un gráfico
sectorial la frecuencia de cada categoría de la variable queda representado por un
“slice” o área, completando los 3600.

En el gráfico de barras cada barra representa una categoría de la variable y la altura de


dicha barra corresponde a la frecuencia (número de casos de cada categoría). Cabe
señalar también se puede usar el porcentaje de cada categoría.

Prof. Roberto Gutiérrez


10

Gráfico1 . Sexo de los pacientes que


acudieron a consulta externa.
HFVP diciembre 2020

20
16

Masculino Femenino
Fuente cuadro No. 1

Métodos gráficos para describir variables cuantitativas

Las variables cualitativas (numéricas) se pueden representar gráficamente mediante:

 Gráfico de tallo y hojas.


 Gráfico de barras simple, para variables discretas
 Histograma o polígono de frecuencia para variables continuas
 Gráfico lineal, para variables continuas

Los siguientes datos corresponden a la edad de las mujeres que asisten a realizar
control prenatal en el HBC en el mes de enero 2021.

56 43 37 33
40 36 47 27
32 29 60 34
42 44 30 58
40 41 46 30
46 31 52 34
38 57 44 38
29 27 29 32
38 33 40 46
30 43 60 36

Organizaremos los datos de menor a mayor usando un diagrama de tallo y hojas. Al


observar los datos, se tienen edades que inician con el digito 2, con el digito 3, con el
digito 4, digito 5 y digito 6. Estos valores serán nuestro tallo, y los valores que
acompañan a estos dígitos serán las hojas. Coloquemos estos dígitos en una columna.

Prof. Roberto Gutiérrez


11

2
3
4
5
6

Por ejemplo, tenemos para el digito “2” las edades de: 29, 29, 27, 29 y 27 años. En el
caso del digito 3, tenemos las edades 32, 38, 38 30, 36, 31, 33, 37, 30, 33, 34, 30, 34,
38, 32 y 36 años. Esto se podemos realizar para los restantes dígitos, pero resulta más
sencillo colocarlos en usando el tallo anterior.

2 9 9 7 9 7
3 2 8 8 0 6 1 3 7 0 3 4 0 4 8 2 6
4 0 2 0 6 3 4 1 3 7 6 4 0 6
5 6 7 2 8
6 0 0

Ahora ordenamos cada fila de datos de menor a mayor

2 7 7 9 9 9
3 0 0 0 1 2 2 3 3 4 4 6 6 7 8 8 8
4 0 0 0 1 2 3 3 4 4 6 6 6 7
5 2 6 7 8
6 0 0

Ahora tenemos información de la distribución de los datos, podemos fácilmente


determinar el valor mínimo observado, el máximo, el dato que más se repite y ver la
forma que tiene la distribución de los datos de las edades de las mujeres.

Algunas formas de una distribución de frecuencia.

 Simétrica: la distribución puede ser dividida en dos partes alrededor de un valor


central y cada parte es el reflejo de la otra.

 Sesgada: Un lado de la distribución se alarga más que el otro. La dirección del


sesgo es la dirección del lado más largo.

 Unimodal: La distribución tiene un único máximo que muestra el valor más


común (más frecuente) en los datos.

Prof. Roberto Gutiérrez


12

 Bimodal: La distribución tiene dos máximos. Generalmente se presenta cuando


los datos provienen de distintas poblaciones.

 Uniforme: Todos los valores de la distribución tienen la misma frecuencia, o sea


se repiten la misma cantidad de veces.

Ahora construyamos una distribución de frecuencia (tabla de frecuencia) de los datos


de las edades de las mujeres que acudieron a control prenatal, la distribución es un
arreglo tabular, así que iniciamos desde el valor mínimo y avanzamos hasta llegar a la
máxima edad.

2 7 7 9 9 9
3 0 0 0 1 2 2 3 3 4 4 6 6 7 8 8 8
4 0 0 0 1 2 3 3 4 4 6 6 6 7
5 2 6 7 8
6 0 0

Al revisar los datos se puede observar que la edad 27 se repite dos veces, en este caso
la frecuencia para la edad 27 es dos, luego la edad 29 su frecuencia es 3, se continua
este proceso hasta llegar a la edad máxima 60 años. Los resultados se muestran a
continuación.

Prof. Roberto Gutiérrez


13

Tabla 3. Edad de las mujeres que asisten a realizar control prenatal en el HBC en
el mes de enero 2021

Edad Frecuencia
27 2
29 3
30 3
31 1
32 2
33 2
34 2
36 2
37 1
38 3
40 3
41 1
42 1
43 2
44 2
46 3
47 1
52 1
56 1
57 1
58 1
60 2
Total 40

Se ha construido la distribución de frecuencia, podemos observar que la edad menor


es de 27 años y la máxima de 60 años. Las edades más frecuentes corresponden a 29,
30, 38, 40 y 46. Podemos completar la distribución para un mejor análisis de los
resultados usando porcentajes y con un gráfico.

Dado que la variable es cuantitativa continua su gráfico adecuado es un histograma, en


donde cada barra corresponde a un valor y su altura a la frecuencia (número de veces
que se repite dicho valor), también se puede realizar un polígono de frecuencia

Prof. Roberto Gutiérrez


14

Gráfico 3. Edad de las mujeres que asisten a realizar control


prenatal. HBC enero 2021
3.5

2.5

1.5 3 3 3 3 3

1 2 2 2 2 2 2 2 2

0.5 1 1 1 1 1 1 1 1 1

0
27 29 30 31 32 33 34 36 37 38 40 41 42 43 44 46 47 52 56 57 58 60
Edad

Gráfico 3. Edad de las mujeres que asisten a realizar control


prenatal. HBC enero 2021
3.5

3 3 3 3 3 3

2.5

2 2 2 2 2 2 2 2 2

1.5

1 1 1 1 1 1 1 1 1 1

0.5

0
27 29 30 31 32 33 34 36 37 38 40 41 42 43 44 46 47 52 56 57 58 60
Edad

Prof. Roberto Gutiérrez


15

Ejercicio 5

En un estudio de dos semanas en la sala de consulta externa se atendió a 110


pacientes, los siguientes datos corresponde al peso en kilogramos (datos fueron
redondeados)

65 36 49 84 79 56 28 43 67 36 70 76 60 48 55 51 54 45 44 35 51 40
43 78 37 40 68 72 55 62 22 82 41 21 35 61 45 33 61 77 60 85 68 85
88 50 60 56 57 46 39 57 73 65 35 45 53 34 67 42 69 52 68 52 47 84
59 48 76 74 70 51 40 75 56 45 22 62 65 55 61 73 50 53 59 41 54 33
35 62 52 63 32 80 64 53 74 34 72 41 74 82 58 26 35 47 50 38 70 39

a. Construya un gráfico de tallos y hojas


b. Construye una distribución de frecuencia
c. Construya un histograma

DISTRIBUCIÓN DE FRECUENCIAS EN INTEVALOS DE CLASE

En la actividad 3, se elaboró una tabla de frecuencias tomando como clase a cada valor
diferente que tomaba la variable, esto se puede hacer cuando el número de valores
diferentes no es muy grande. Si se tienen datos cuya amplitud o rango es muy grande
se agrupan en subgrupos llamados clases. El número de clases que se deben usar
depende de la cantidad de datos, los estudiosos de la Estadística han recomendado
que:

Agrupemos los valores de la variable en intervalos de clase contiguos y elegidos
convenientemente para no perder mucha información. No existe un criterio claro de cuál
debe ser el número de clases que debemos escoger, Norcliffe establece que el número
de clases debe ser, aproximadamente igual a la raíz cuadrada positiva del número de
datos. Normalmente, el número de intervalos de clase se suele fijar entre 5 y 15 de tal
manera que en cada clase se tengan, al menos, 5 observaciones. De todas formas, el
investigador los acomodará a las condiciones específicas del problema estadístico
objeto de estudio (se tomarán tantos intervalos como sean necesarios para recubrir
todo el recorrido de la variable). Otro criterio es la fórmula de Sturges

K 13.322 log n

Losextremos de los intervalos de clase se denominan extremos de clase o límites
de clase y sus puntos medios marcas de clase (valor que nos representa la
información que contiene un intervalo).

Como cada observación debe quedar perfectamente encasillada en uno y sólo un


intervalo de clase, debemos decidir a qué intervalos pertenecen los extremos de las
clases, por lo que habrán de tomarse intervalos semiabiertos o cerrados, en el segundo

Prof. Roberto Gutiérrez


16

criterio se separan con un incremento el cual puede tomar el valor de 1, 0.1, 0.01,
0.001 de acuerdo a los datos.

Por otro lado tenemos la amplitud de cada intervalo, que puede ser constante o
variable. Si procuramos que todas las clases tengan la misma amplitud y los límites de
cada clase sean números redondos (múltiplos por ejemplo de 5) conseguiremos
simplificar mucho los cálculos (siempre y cuando no se pierda demasiada información
debido a estas consideraciones).

Debemos observar un hecho importante, se entiende que cuando hacemos una


agrupación en intervalos de clase, para nosotros solamente cuenta el número de
observaciones que caen dentro de cada uno de los intervalos y no la colocación en su
interior, es decir, suponemos que la distribución de estos valores en el intervalo es
homogénea, en esto radica la pérdida de información que supone agrupar los datos de
las observaciones.

En la siguiente tabla se muestran el número de partos atendidas durante el mes de


noviembre 2020 en las unidades de salud.

115 153 121


148 116 159
157 160 186
171 181 152
192 198 148
139 120 137
140 142 116
164 145 173
177 120 162
149 198 101

La elaboración de una distribución de frecuencias se puede resumir en los siguientes


pasos:
1.- Calcular la amplitud o rango de los datos R = máximo – mínimo=198 –101= 97.

2.- Calcular el número de clases. Si usamos la fórmula de Sturges

K = 1 + 3.322log n =1+3.322 log 30= 5.9 = 6 clases

𝑅+1 98
3.- Determinar el tamaño de clase (amplitud) 𝑊= = = 16.33 = 17
𝑘 6

4.- Determinar los intervalos de clase, estos deben cumplir la condición de que el primer
intervalo debe contener al primer elemento y el último al elemento mayor, como los

Prof. Roberto Gutiérrez


17

datos son enteros tomáremos un (incremento) =16, que es el valor que separa una
clase de la otra, por lo tanto, es incremento es igual a W-= 16.

Al iniciar con la primera clase se tiene: el dato menor (101) como límite inferior y 117
como límite superior, que se obtiene sumando al límite inferior el incremento (101 + 16
= 117). Este proceso repite hasta que se tienen las 6 clases propuestas.

Límite Límite
Clase
inferior superior
1 101 117
2 118 134
3 135 151
4 152 168
5 169 185
6 186 202

Al construir la tabla con una amplitud de 16, el límite superior del intervalo de clase 6
es 202, dicho valor no corresponde a la observación máxima que es de 198. Esto se
comprueba multiplicando: 0.67*6=4.02, de antemano sabemos que tendremos al final
4 valores no observados.

5.- Al construir todas las clases, se encuentra la frecuencia absoluta de cada clase, esto
consiste en contar el número de observaciones que pertenecen a cada una de ellas.

Límite Límite Frecuencia


Clase
inferior superior absoluta
1 101 117 4
2 118 134 3
3 135 151 8
4 152 168 7
5 169 185 4
6 186 202 4

Como regla general se debe redondear hacia arriba el tamaño de la amplitud de los
intervalos de clase.

La tabla de frecuencia se completa con los porcentajes y los porcentajes acumulados


los cuales se construyen a través de:

Prof. Roberto Gutiérrez


18

 Frecuencia relativa (fr): cociente entre la frecuencia y el total de datos (n).


fr=fi/n

 Frecuencia porcentual (%): corresponde a la frecuencia relativa multiplica por


cien.

 Frecuencia acumulada (fa): la frecuencia acumulada de una clase,


corresponde a la frecuencia de dicha clase agregando la suma de las
frecuencias anteriores a dicha clase.

 Frecuencia acumulada relativa (far): corresponde a la frecuencia acumulada


entre el total de datos.
far= fa/n
 Frecuencia acumulada porcentual: es la frecuencia acumulada relativa
multiplicada por cien.

 Punto medio o marca de clase: corresponde a la suma del límite inferior y el


límite superior dividido entre dos.

Distribución de frecuencia del número de partos atendidas durante el mes de


noviembre 2020 en una unidad de salud

far fa % Punto
fr fa
Límite Límite Frecuencia % (frecuencia (frecuencia medio
Clase (frecuencia (frecuencia
inferior superior absoluta Porcentaje acumulada acumulada (marca de
relativa) acumulada)
relativa) porcentual) clase)

1 101 117 4 0.133 13.3 4 0.133 13.3 109


2 118 134 3 0.100 10.0 7 0.233 23.3 126
3 135 151 8 0.267 26.7 15 0.500 50.0 143
4 152 168 7 0.233 23.3 22 0.733 73.3 160
5 169 185 4 0.133 13.3 26 0.867 86.7 177
6 186 202 4 0.133 13.3 30 1.000 100.0 194
Total 30 1.00 100

La forma de presentar dicha tabla en un informe se muestra a continuación y dado que


corresponde a una variable cuantitativa discreta su gráfico es de barra simple.

Prof. Roberto Gutiérrez


19

Distribución de frecuencia del número de partos atendidas durante el mes de


noviembre 2020 en una unidad de salud

fa %
Número de Frecuencia % (frecuencia
partos absoluta Porcentaje acumulada
porcentual)
101-117 4 13.3 13.3
118-134 3 10.0 23.3
135-151 8 26.7 50.0
152-168 7 23.3 73.3
169-185 4 13.3 86.7
186-202 4 13.3 100.0
Total 30 100

Fuente: Registro hospital

Utilizando los datos de la edad de las mujeres que asisten a realizar control prenatal en
el HBC en el mes de enero 2021, construiremos una tabla agrupada de 5 intervalos de
clase.
1. Rango = 60 - 27=33 años

2. El valor del número de intervalos se fijó en 5 (k = 5)


𝑅+1 (33+1)
3. Amplitud, 𝑊 = = = 6.8 ≅ 7
𝑘 5
4. Incremento, ∆ = W - 1 =6

Prof. Roberto Gutiérrez


20

Edad de las mujeres que asisten a realizar control prenatal en el HBC en el mes
de enero 2021

Edad frecuencia %
27-33 13 32.5
34-40 11 27.5
41-47 10 25
48-54 1 2.5
55-61 5 12.5
Total 40 100

Ejercicio 6

1.- Utilizando los datos de la tarea 4, construir una distribución de frecuencia, determine
el valor de “K” (número de intervalos) usando la fórmula de Sturges.
2.- Construya un gráfico apropiado.
3.- Construya una distribución de frecuencia utilizando 5 intervalos de clase.
4.- Construya un gráfico apropiado.
5.- Comente los resultados.

Prof. Roberto Gutiérrez


21

MEDIDAS DE RESUMEN

Cuanto se tiene un conjunto de datos, los organizamos en distribuciones de frecuencia


y obtenemos una impresión visual al graficarlas. Si bien la distribución de frecuencia ya
nos entrega información de cómo es el comportamiento del fenómeno en estudio al
igual que el gráfico, ahora estamos interesados en resumir los valores de los datos
mediante un único valor, que contenga toda la información de los datos observados.

A este conjunto de medidas se llaman medidas de resumen, su objetivo es que dado


un conjunto de datos se resumirá toda información de los datos en uno solo valor. Se
tienen cuatro tipos de medidas: tendencia central, variación (variabilidad), posición y
forma.

MEDIDAS DE TENDENCIA CENTRAL: DATOS NO AGRUPADOS

Las medidas de tendencia central, tratan de ubicar el centro de la distribución de los


datos, estudiaremos la media aritmética, la mediana y la moda.

Media aritmética

Un alumno de contabilidad de un Politécnico, obtuvo las siguientes calificaciones en las


materias del primer trimestre:

Matemática general 80
Informática básica 90
Introducción contabilidad 100
Historia de Nicaragua 90
Técnicas de lectura, redacción y ortografía 80
Geografía 90

Un valor que representa a todas las calificaciones es la media aritmética, también


llamado promedio o simplemente media. Este valor se obtiene sumando todos los
valores observados (datos) y se divide dicha suma entre el número de datos:

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 80 + 90 + 100 + 90 + 80 + 90


𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 = = = 88.3
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 6

Su fórmula se escribe:
__ ∑𝑛𝑖=1 𝑥𝑖
𝑋= 𝑛
Donde
xi : representa la i-ésima observación o dato
n: total de observaciones (datos)
∑𝑛𝑖=1 𝑥𝑖 : la letra griega sigma indica suma, desde el primer dato hasta el total de
datos (n).
Prof. Roberto Gutiérrez
22

¿Cómo se interpreta la media aritmética de las calificaciones del estudiante? El


estudiante obtuvo una calificación de 88.3 en cada una de las asignaturas.

Ahora calculemos la media de la edad de las mujeres

__ ∑40
𝑖 =1 𝑥𝑖 27 + 27 + 29 + ⋯ + 58 + 60 + 60 1588
𝑋 = = = = 39.7𝑎ñ𝑜𝑠
40 40 40

¿Cómo se interpreta la media aritmética de las edades de las mujeres? Si todos los
pacientes tienen la misma edad, esta sería de 39.7 años. O sea que estadísticamente
cada uno de los pacientes tiene la edad de 39.7 años.

Retomando el ejemplo 2, “número partos atendidos por las unidades de salud”

__ ∑30
𝑖 =1 𝑥𝑖 115 + 148 + 157 + ⋯ + 173 + 162 + 101 4540
𝑋 = 30 = 30
=
30
= 151.3 𝑝𝑎𝑟𝑡𝑜𝑠

¿Cómo se interpreta la media aritmética? En todos los días hubo 151 partos.

Observaciones:

 La media aritmética es el punto de equilibrio de los datos.


 La media aritmética es sensible a datos extremos.

Esto nos hace pensar que si efectivamente la media aritmética representa bien a un
conjunto de datos (n) en cualquier situación. Para verificar, si la media representa bien
o no a los datos, debemos examinar el tipo de distribución de estos, la mejor forma es
mediante el gráfico de las observaciones y verificar la variabilidad, tema que
examinaremos más adelante. Esto nos llega a concluir que no siempre la media será
un buen representante.

Dada esta conclusión se tiene otra medida de tendencia central. Como la Moda, en el
ejemplo de las calificaciones de las asignaturas de un estudiante, es el número 90, se
representa como mo, y es el dato que aparece con mayor frecuencia. En los siguientes
conjuntos de datos, no se tiene una única moda, se dice que la distribución de los datos
es multimodal. Encuentre las modas de ambas distribuciones.

Otra medida es la Mediana, la cual es el dato que divide al conjunto de datos en dos
partes iguales, de tal manera que la mitad de los datos es menor o igual que la mediana
y la otra mitad es mayor. Para determinarla se deben ordenar los datos en forma
ascendente.

Prof. Roberto Gutiérrez


23

Se presentan dos situaciones en dependencia del total de datos “n”, si el número de


datos es impar la mediana “corresponde al valor en la posición central de los
datos” y si el total de datos es impar, la mediana corresponde al “promedio de los dos
valores centrales”.

Ordenando los datos de las calificaciones: 80, 80, 90, 90, 90, 100 entonces la mediana
es el número 90, que se representa como “me=90”, como el número de elementos es
par, se calcula el promedio de los dos datos que ocupan la posición central. Como hay
6 datos los datos 80, 80 quedan a la izquierda y los datos 90 y 100 quedan a la derecha
de la mediana.

90 + 90
𝑚𝑒 = = 90
2
Veamos un segundo ejemplo:

5, 5, 6, 7, 8, 9, 9, 10,12

Dato que n=9 es un número impar, la mediana corresponde al valor que se encuentra
al centro de la distribución, quedando a la izquierda de la mediana los datos 5, 5, 6, 7 y
a la derecha el 9, 9, 10 y 12.
𝑚𝑒 = 8

En general para determinar la mediana se sigue el siguiente procedimiento:

a) Ordenar los datos en forma ascendente.


(𝑛+1)
b) Calcular la posición central usando 𝑃𝑐 = donde “n” es el total de los
2
datos.
c) La mediana corresponde al dato que se encuentra en dicha posición, es único
si n es impar, si es par se obtiene como el promedio de los dos valores
centrales.

Las siguientes graficas muestran algunos tipos de distribuciones y la ubicación de las


medidas de resumen en cada una de ellas.

Prof. Roberto Gutiérrez


24

Ejercicios 7

Usando los criterios anteriores calcule la media aritmética, moda y mediana de los
siguientes conjuntos de datos:

a) 12, 15, 11, 16, 17, 14, 23, 21, 11

b) 3.4, 6.1, 3.2, 4.9, 6.2, 6.1, 5.6, 7.3, 6.1

c) ¿Qué medida de tendencia central se puede calcular de los siguientes datos?


M, M, F, M, M, F, F, M, F, M

 Investigar en que situaciones es más recomendable el uso de la mediana que la


media aritmética.

 Investigar ¿Qué es la media Ponderada y la media Geométrica?, sus


principales aplicaciones y dar 2 ejemplos de cada una.

 Cabe señalar que al trabajar con muestras las medidas anteriores se les llama
estimadores, al trabajar con población serian parámetros. Investigar ambos
conceptos.

 Calcular la media, media y moda para todas las bases de datos estudiadas.

MEDIDAS DE DISPERSIÓN

Las medidas de dispersión tratan, dar información del grado de variabilidad de un


conjunto de datos. Esto nos da información de cómo se comportan los datos de un
individuo a otro, si están cerca o alejados.

Rango: es la diferencia entre el máximo valor y el mínimo valor de un conjunto de


datos.

VARIANZA Y DESVIACIÓN ESTÁNDAR

Calcular e interpretar la desviación estándar de un conjunto de datos no agrupados,


analicemos la siguiente situación.

Se tiene que otorgar premio al estudiante que tenga el promedio más alto del grupo, al
calcular el promedio para cada estudiante se presenta la siguiente situación: dos
alumnos que cursan el segundo trimestre en un centro tecnológico tienen el mismo
promedio (datos están divididos entre 10 por comodidad de los cálculos)

En la siguiente tabla se presentan las calificaciones de las 6 asignaturas:

Prof. Roberto Gutiérrez


25

Materia Alumno 1 Alumno 2


1 7 5
2 8 8
3 7 10
4 9 6
5 9 9
6 8 10

Al calcular la media aritmética de cada alumno, notamos que aunque ambos tienen la
misma media aritmética =8, al observar las calificaciones de cada alumno, nos
podemos dar cuenta que el primero tiene calificaciones más homogéneas y en el
segundo están más dispersas.

Por lo que podemos concluir que la media aritmética no es suficiente para describir
totalmente un conjunto de datos, necesitamos una medida que mida la variabilidad
existente entre los valores de las observaciones. Por ejemplo, el primer alumno dos
calificaciones coinciden con el promedio, la calificación de 7 está a una distancia de un
punto para alcanzar la media y la calificación 9 también está a un punto de alcanzar al
promedio. Observamos, estas distancias para el caso de 7 y 9, al restar a cada dato el
promedio se tiene: 7 – 8 = -1 y con nueve como calificación: 9 – 8 = 1.

Tanto al valor 1 y -1 se le llama desviación con respecto a la media. En el caso del


alumno 2, se tiene desviaciones más grandes, por ejemplo, la calificación diez tiene una
desviación de: 10 – 8 = 2, en el caso de cinco como calificación: 5 – 8 = - 3.

Debido a este hecho es que anteriormente se aseguró que las calificaciones del alumno
1 eran más homogéneas que las del alumno 2, dado que las deviaciones con respecto
a la media son más pequeñas.

En la siguiente tabla se muestran las desviaciones de las calificaciones de ambos


alumnos, al sumar las desviaciones se obtiene que en ambos casos son igual a cero.

Materia Alumno 1 Desviación 1 Alumno 2 Desviación 2


1 7 -1 5 -3
2 8 0 8 0
3 7 -1 10 2
4 9 1 6 -2
5 9 1 9 1
6 8 0 10 2

 La suma de las desviaciones con respecto a la media aritmética es cero. Por eso
hecho se dice que la media es el punto de equilibrio de los datos.

Prof. Roberto Gutiérrez


26

Las medidas de dispersión más utilizadas son la varianza y la desviación estándar.


La varianza se define como el promedio de las desviaciones al cuadrado y la raíz de la
varianza es la llamada desviación estándar. Para calcular la varianza se usa la fórmula:

(∑𝑛𝑖=1 𝑥𝑖 )2
∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅) 2 ∑𝑛𝑖=1 𝑥𝑖2− 𝑛𝑋 ̅2 ∑𝑛𝑖=1 𝑥𝑖2 −
𝑆 = 2
= = 𝑛
𝑛−1 𝑛−1 𝑛−1
Materia Alumno 1 (𝑥𝑖 − 𝑋̅) (𝑥𝑖 − 𝑋̅)2 Alumno 2 (𝑥𝑖 − 𝑋̅) (𝑥𝑖 − 𝑋̅)2
1 7 -1 1 5 -3 9
2 8 0 0 8 0 0
3 7 -1 1 10 2 4
4 9 1 1 6 -2 4
5 9 1 1 9 1 1
6 8 0 0 10 2 4
4 22

4
La varianza del primer alumno es 𝑆12 = = 0.8 puntos al cuadrado, para el segundo
5
22
alumno es 𝑆22 = = 4.4 puntos al cuadrado, por lo que se tiene el inconveniente que al
5
interpretar ambos resultados, estos están afectados por el cuadrado a que fueron
elevados al momento del cálculo.

Recordemos que las desviaciones entre cada valor y la media aritmética se elevan al
cuadrado para evitar el problema de los signos de las diferencias y evitar que la suma
sea siempre cero. Al calcular la raíz cuadrada de la varianza se obtiene la desviación
estándar:

∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2
𝑆= √
𝑛−1
La desviación estándar del primer alumno es: 𝑆1 = √0.8 = 0.894 y la desviación
estándar del segundo alumno es: 𝑆2 = √4.4 = 2.098

Como la desviación estándar de las calificaciones del alumno 2 es mayor que la del
alumno 1, concluimos que las calificaciones del alumno 1 son menos dispersas. ¿Cómo
interpretamos este resultado?

 La desviación estándar se puede interpretar como aproximadamente un


promedio de las distancias al cuadrado de las observaciones a la media.
 Si todas las observaciones son iguales la desviación estándar es cero.
 La desviación estándar siempre será un número positivo y mientras más
alejados están los valores del promedio, mayor será la desviación estándar, por
ende la variabilidad.

Prof. Roberto Gutiérrez


27

Ejercicios 8

Usando los criterios anteriores calcule la varianza y la desviación estándar de los


siguientes conjuntos de datos:

a) 12, 15, 11, 16, 17, 14, 23, 21, 11

b) 3.4, 6.1, 3.2, 4.9, 6.2, 6.1, 5.6, 7.3, 6.1

c) Calcular la media, media, moda, rango, varianza y desviación estándar de los


conjuntos de datos estudiados.

MEDIDAS DE POSICIÓN.

Las medidas de posición son medidas que describen la posición que tiene un valor
específico en relación con el resto de los datos en una población o muestra.

Las medidas de posición más usuales son los percentiles cuartiles, deciles y los
percentiles.

Percentiles: dividen al conjunto de datos en 100 partes iguales. Se tienen 99


percentiles, sin perder generalidad supónganos que los datos están distribuidos en una
línea, cada percentil separa a los datos en dos partes una a la izquierda de dicho
percentil y otra a la derecha.

1% 1% 1% 1% ….. ….. 1% 1% 1% 1% 1%

Mínimo P1 P2 P3 P4 P50 P96 P97 P98 P99 Máximo

Por ejemplo, el P1, tiene a su izquierda el 1% de las observaciones y el 99% de las


observaciones a su derecha. El percentil P2, tiene a su izquierda el 2% de las
observaciones y el 98% de las observaciones a su derecha.

De igual manera se tiene el percentil P50, tiene a su izquierda el 50% de las


observaciones y el 50% de las observaciones a su derecha. El percentil P98, tiene a su
izquierda el 98% de las observaciones y el 2% de las observaciones a su derecha, por
último, se tiene el percentil P99, tiene a su izquierda el 99% de las observaciones y el
1% de las observaciones a su derecha. Se puede observar que el percentil 50 coincide
con la mediana.

DECILES
De forma similar el conjunto de datos puede ser divido en 10 partes iguales de 10%
cada parte, estos son los deciles, se necesitan 9 deciles para realizar esta división.

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%

Prof. Roberto Gutiérrez


28

Mínimo D1 D2 D3 D4 D5 D6 D7 D8 D9 Máximo

Ahora el conjunto de datos está dividido en 10 partes iguales, el D1, tiene a su izquierda
el 10% de las observaciones y el 90% de las observaciones a su derecha. El percentil
D2, tiene a su izquierda el 20% de las observaciones y el 80% de las observaciones a
su derecha.

El D5 tiene a su izquierda el 50% de las observaciones y el 50% de las observaciones


a su derecha. El percentil D8, tiene a su izquierda el 80% de las observaciones y el 20%
de las observaciones a su derecha, por último, se tiene el percentil D9, tiene a su
izquierda el 90% de las observaciones y el 10% de las observaciones a su derecha. Se
puede observar que el D5 coincide con la mediana.

CUARTILES

El conjunto de datos se puede dividir también en 4 partes iguales de 25% cada parte,
son los llamados cuartiles, de forma gráfica se tiene

25% 25% 25% 25%

Mínimo Q1 Q2 Q3 Máximo

El Q1, tiene a su izquierda el 25% de las observaciones y el 75% de las observaciones


a su derecha, el percentil Q2, tiene a su izquierda el 50% de las observaciones y el 50%
de las observaciones a su derecha y el percentil Q3, tiene a su izquierda el 75% de las
observaciones y el 25% de las observaciones a su derecha. Ahora el cuartil dos coincide
con la mediana.

Se ha estudiado tres maneras de separar al conjunto de datos, los cuales están


relacionados, ya mencionamos que el P50, D5 y Q2 separan al conjunto de datos en 2
partes iguales de 50% cada parte. De igual manera podemos decir que el P10 y el D1
separan dos datos en dos partes, 10% a la izquierda y 90% a la derecha, así cada uno
de los 9 deciles tiene un percentil que separa de igual manera a los datos.

Si tomamos el P25 y los comparamos con el Q1, ambos separan a los datos con 25 a
su izquierda y 75% a la derecha. El Q2 y el P50 separan de la misma forma a los datos
al igual que el Q3 y el P75.

Prof. Roberto Gutiérrez


29

En general se pueden establecer las siguientes relaciones:

Deciles Cuartiles Percentiles


D1 P10
D2 P20
Q1 P25
D3 P30
D4 P40
D5 Q2 P50 me
D6 P60
D7 P70
Q3 P75
D8 P80
D9 P90

Se establecen formas particulares para determinar las distintas medidas de posición,


pero al establecer las relaciones mostradas en la tabla anterior, podemos estudiar los
percentiles y asociar los deciles y los cuartiles.

En general para determinar los percentiles se sigue el siguiente procedimiento:

a) Ordenar los datos en forma ascendente.


(𝑛+1)𝑃
b) Calcular la posición del percentil, usando 𝑃𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 = donde “n”
100
es el total de los datos y “P” el percentil que se desea encontrar.

c) El percentil corresponde al dato que se encuentra en dicha posición, es único si


n es impar, si es par se obtiene como el promedio de los dos valores centrales.

Si retomamos el ejemplo de la edad de las mujeres, estos están ordenados de menor


a mayor, cada edad (valor) ocupan una posición especifica en la distribución de datos,
por ejemplo la edad 27 ocupa la posición uno en la distribución, la edad 27 se repite,
esta edad 27 ocupa la posición 2, la edad 9 ocupa la posición 3, y así sucesivamente
hasta la edad 60 que ocupan la posición 29 y 30 respectivamente.

2 7 7 9 9 9
3 0 0 0 1 2 2 3 3 4 4 6 6 7 8 8 8
4 0 0 0 1 2 3 3 4 4 6 6 6 7
5 2 6 7 8
6 0 0

Prof. Roberto Gutiérrez


30

Determinemos el percentil 10, los datos están ordenados por lo que procedemos a
ubicar la posición donde se encuentra el percentil 10. Se tienen n=40 y P=10, usando
la fórmula:
(40 + 1)10
𝑃𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 = = 4.1
100
El valor 4.1 se redondea a 4, este valor corresponde a la posición donde se encuentra
el percentil 10, al revisar los datos se tiene que el valor 29 está en dicha posición, se
escribe P10=29 años.

2 7 7 9 9 9
3 0 0 0 1 2 2 3 3 4 4 6 6 7 8 8 8
4 0 0 0 1 2 3 3 4 4 6 6 6 7
5 2 6 7 8
6 0 0

Por lo que el 10% de los pacientes tienen menos de 29 años y el 90% tienen 29 años
o más.

Ahora determinemos el percentil 90, se tiene n=40 y P=90:

(40 + 1)90
𝑃𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 = = 36.9 = 37
100
La posición es 37 el valor en esa posición es la edad 57 años. Por lo que el 90% de los
pacientes tienen menos de 57 años y el 10% tienen 57 años o más.

Cabe señalar que en general se está interesado en los datos más pequeños y los más
grandes, por lo que el percentil 10 y 90, o bien el percentil 5 y 95, siempre se calculan
de manera conjunto, en el caso de las edades.

10% 10%

Mínimo P10 P90 Máximo


29 57

En este caso se interpreta que el 10% de los pacientes tienen 29 años o menos y que
el 10% tiene una edad de 57 años o más, y que el 80% tiene edades entre 29 y 57 años,
aproximadamente.

De igual manera se usan los percentiles 5 y 95, quedando un 5% de los datos más
pequeños, un 5% de los datos más grandes y un 90% entre el valor de ambos
percentiles.

Prof. Roberto Gutiérrez


31

Ejercicios 10

Calcular los decirles, cuartiles, percentiles 5, 10, 90 y 95 de los datos estudiados


anteriormente

Tablas de contingencia

Para analizar la relación de dependencia o independencia entre dos variables


cualitativas nominales, es necesario estudiar su distribución conjunta o tabla de
contingencia. La tabla de contingencia es una tabla de doble entrada, donde en cada
casilla figurará el número de casos o individuos que poseen un nivel de uno de los
factores o características analizadas y otro nivel del otro factor analizado.

La tabla de contingencia se define por el número de atributos o variables que se


analizan conjuntamente y el número de modalidades o niveles de los mismos. El
ejemplo propuesto es una tabla de contingencia 2x2, ya que tiene dos atributos (FUMA
Y SEXO) y cada uno de ellos tiene dos niveles.

En esta tabla se puede observar en primer lugar que de los 233 individuos de los que
se tiene información 108 son hombres y 125 son mujeres. Asimismo, se sabe que 123
de ellos fuman y 110 no. La tabla de contingencia nos permite tener información cruzada
sobre ambas variables: de los 108 hombres, 65 fuman y 43 no, mientras que, en el caso
de las mujeres, 58 fuman y 67 no. De los que fuman 65 son hombres y 58 mujeres, de
los que no fuman 43 son hombres y 67 mujeres.

Las tablas de contingencia tienen dos objetivos fundamentales:

1) Organizar la información contenida en un experimento cuando ésta es de


carácter bidimensional, es decir, cuando está referida a dos factores (variables
cualitativas).

2) A partir de la tabla de contingencia se puede además analizar si existe alguna


relación de dependencia o independencia entre los niveles de las variables
cualitativas objeto de estudio. El hecho de que dos variables sean
independientes significa que los valores de una de ellas no están influidos por la
modalidad o nivel que adopte la otra.

Prof. Roberto Gutiérrez


32

Cuando utilicemos el SPSS nos dará el nivel de significación, es decir la probabilidad


de rechazar la hipótesis nula siendo cierta y por tanto la probabilidad de equivocarnos
si rechazamos la hipótesis nula. Si esta probabilidad es muy pequeña (<0,05),
rechazaremos la hipótesis nula y en consecuencia diremos que los atributos son
dependientes. Por el contrario, si el nivel de significación fuera superior a 0,05 la
probabilidad de equivocarnos si concluyéramos que los factores son dependientes sería
muy alta, y por tanto cabría esperar que nos equivocaríamos en nuestra conclusión, y
por tanto aceptaremos la hipótesis nula de independencia.

Sexo
Fuma Total
Hombre Mujer
Si 65 (a) 58 (b) 123 (a+b)
No 43 c 67 (d) 110 (c+d)
233
Total 108 (a+c) 125 (b+d)
(a+b+c+d)

Porcentaje por fila


Sexo
Fuma Total
Hombre Mujer
Si a/(a+b) b/(a+b) 100
No c/(c+d) d/(c+d) 100
Total (a+c)/h (b+d)/h 100

Sexo
Fuma Total
Hombre Mujer
Si 52.85 47.15 100
No 39.09 60.91 100
Total 46.35 53.65 100

Porcentaje por columna


Sexo
Fuma Total
Hombre Mujer
Si a/(a+c) b/(b+d) (a+b)/h
No c/(a+c) d/(b+d) (c+d)/h
Total 100 100 100

Prof. Roberto Gutiérrez


33

Sexo
Fuma Total
Hombre Mujer
Si 60.19 46.40 52.79
No 39.81 53.60 47.21
Total 100.00 100.00 100.00

Dadas las siguientes tablas calcular porcentajes por fila y columna.

Presión Sexo
Total
Sistólica Varón Mujer
Normal 7 5 12

Alta 30 23 53

Total 37 28 65

Tratamiento Sexo
aplicado Hombre Mujer Total
Placebo 12 9 21
IECA 13 11 24
Ca 12 8 20
Antagonista
+ Diurético
Total 37 28 65

Tratamiento Presión Sistólica


aplicado Normal Alta Total
Placebo 1 20 21
IECA 8 16 24
Ca 3 17 20
Antagonista
+ Diurético
Total 12 53 65

Prof. Roberto Gutiérrez

También podría gustarte