Estad. Descp Ucm Ucm 24
Estad. Descp Ucm Ucm 24
Estad. Descp Ucm Ucm 24
CIENCIA MEDICAS
JUNIO 2024
1
INTRODUCCIÓN
El desarrollo de este curso tiene un alto contenido práctico, se trabaja con bases de
datos en donde en cada encuentro el estudiante pondrá en práctica lo desarrollado en
las clases, la forma de evaluación se hará conforme los temas de cada encuentro sobre
la misma base de datos para que al finalizar el curso el estudiante tenga todos los
elementos de un análisis descriptivo con sus respectivos resultados y conclusiones que
apoyen la toma de decisión oportuna.
I. ESTADÍSTICA
Ejercicios 1
a) ¿Cuál es la población?
b) ¿Cuál es la muestra?
c) Identifique el parámetro de interés.
d) Identifique el estadístico e indique su valor.
e) ¿Se conoce el valor del parámetro?
Se puede decir entontes, que trata dos aspectos: el obtener información de los datos
también conocido como “análisis exploratorio de datos” y por otro lado se preocupa de
la "presentación de resultados".
VARIABLES ESTADÍSTICAS
La nota y el sexo serían las variables en estudio. Una clasificación general de estas es
que unas son inherentes a cantidades como la nota, mientras que sexo representa una
cualidad. Para este estudio podríamos decir que la nota promedio es del 84.5 para las
mujeres y 83.5 para los hombres, esto sería el resultado del estudio del fenómeno en
cuestión.
Variables cuantitativas: son aquellas que dan como resultado valores numéricos, son
medibles representan medidas o frecuencias (talla, peso, número de controles
prenatales), se pueden realizar operaciones numéricas con estas variables.
Además, distinguimos dentro de las variables cuantitativas las discretas y las continuas.
Una variable discreta es aquella en la que se puede contar el número posible de valores.
Una variable continua puede tomar cualquier valor en un intervalo de valores dado.
Cualitativas
(categoricas)
Ejercicios 2
2.- De acuerdo a los valores que toman las variables, mencione a qué tipo de variable
corresponden.
3.- Diseñe un instrumento para aplicar un censo a los maestrantes, donde se consideren
las variables establecidas en esta actividad anterior.
La variable cuantitativa discreta: sólo puede tomar cifras que se encuentran separadas,
o sea que no hay valores entre dos cifras consecutivas, obteniendo un valor exacto.
Ejemplo: El número de respuestas correctas en una prueba de 5 preguntas de V o F,
estas pueden ser: {0,1, 2, 3, 4, 5} respuestas correctas, otro ejemplo puede ser el
número de hermanos, el número de consultas externas, el número de pacientes con
neumonía.
0 250 ml
Ejercicio 3
Clasificar como:
variable Escala de medida
cualitativa -Nominal
Nombre Variable cuantitativa -Ordinal
discreta -Razón
cuantitativa -Intervalo
continua
V1 Edad del paciente
V3 Nivel socioeconómico
V4 Hábito de fumar
V5 Sedentarismo
V6 Nivel de estudios
V7 Peso en kilogramos
V8 Talla en metros
Frecuencia
Categorías de
(número de Porcentaje
la variable
casos)
….. … ..
Total n 100
Tabla No. 1
Distribución de frecuencias del sexo de los pacientes que acudieron a consulta
externa. HFVP diciembre 2020
Frecuencia
Sexo de
(número de Porcentaje
estudiantes
casos)
Masculino 16 44.4
Femenino 20 55.6
Total 36 100
Fuente: Estadísticas HFVP
Cabe señalar que toda distribución debe de tener un título que exprese al menos, lo
que se presenta, de donde son los datos y la fecha, y al pie de página la fuente de
donde se obtuvo los datos.
Ejercicio 4
Elabore una distribución de frecuencia y un gráfico para representar los siguientes datos
obtenidos en un estudio en el cual a 40 pacientes se les pidió juzgar la atención recibida
al momento de realizar control prenatal:
muy buena, buena, buena, adecuada, excelente, buena, buena, buena, muy buena,
mala, buena, buena, buena, buena, buena, muy buena, buena, adecuada, buena,
malísima, muy buena, adecuada, buena, buena, excelente, muy buena, buena, buena,
buena, adecuada, adecuada, muy buena, buena, muy buena, excelente, muy buena,
adecuada, buena, buena, muy buena.
Tabla No. 2
Distribución de frecuencias de la edad de los pacientes que acudieron a consulta
externa. HFVP diciembre 2016
Edad de los
Sexo de
pacientes
pacientes
(años)
Masculino 16
Femenino 17
Total 18
Total
20
16
Masculino Femenino
Fuente cuadro No. 1
Los siguientes datos corresponden a la edad de las mujeres que asisten a realizar
control prenatal en el HBC en el mes de enero 2021.
56 43 37 33
40 36 47 27
32 29 60 34
42 44 30 58
40 41 46 30
46 31 52 34
38 57 44 38
29 27 29 32
38 33 40 46
30 43 60 36
2
3
4
5
6
Por ejemplo, tenemos para el digito “2” las edades de: 29, 29, 27, 29 y 27 años. En el
caso del digito 3, tenemos las edades 32, 38, 38 30, 36, 31, 33, 37, 30, 33, 34, 30, 34,
38, 32 y 36 años. Esto se podemos realizar para los restantes dígitos, pero resulta más
sencillo colocarlos en usando el tallo anterior.
2 9 9 7 9 7
3 2 8 8 0 6 1 3 7 0 3 4 0 4 8 2 6
4 0 2 0 6 3 4 1 3 7 6 4 0 6
5 6 7 2 8
6 0 0
2 7 7 9 9 9
3 0 0 0 1 2 2 3 3 4 4 6 6 7 8 8 8
4 0 0 0 1 2 3 3 4 4 6 6 6 7
5 2 6 7 8
6 0 0
2 7 7 9 9 9
3 0 0 0 1 2 2 3 3 4 4 6 6 7 8 8 8
4 0 0 0 1 2 3 3 4 4 6 6 6 7
5 2 6 7 8
6 0 0
Al revisar los datos se puede observar que la edad 27 se repite dos veces, en este caso
la frecuencia para la edad 27 es dos, luego la edad 29 su frecuencia es 3, se continua
este proceso hasta llegar a la edad máxima 60 años. Los resultados se muestran a
continuación.
Tabla 3. Edad de las mujeres que asisten a realizar control prenatal en el HBC en
el mes de enero 2021
Edad Frecuencia
27 2
29 3
30 3
31 1
32 2
33 2
34 2
36 2
37 1
38 3
40 3
41 1
42 1
43 2
44 2
46 3
47 1
52 1
56 1
57 1
58 1
60 2
Total 40
2.5
1.5 3 3 3 3 3
1 2 2 2 2 2 2 2 2
0.5 1 1 1 1 1 1 1 1 1
0
27 29 30 31 32 33 34 36 37 38 40 41 42 43 44 46 47 52 56 57 58 60
Edad
3 3 3 3 3 3
2.5
2 2 2 2 2 2 2 2 2
1.5
1 1 1 1 1 1 1 1 1 1
0.5
0
27 29 30 31 32 33 34 36 37 38 40 41 42 43 44 46 47 52 56 57 58 60
Edad
Ejercicio 5
65 36 49 84 79 56 28 43 67 36 70 76 60 48 55 51 54 45 44 35 51 40
43 78 37 40 68 72 55 62 22 82 41 21 35 61 45 33 61 77 60 85 68 85
88 50 60 56 57 46 39 57 73 65 35 45 53 34 67 42 69 52 68 52 47 84
59 48 76 74 70 51 40 75 56 45 22 62 65 55 61 73 50 53 59 41 54 33
35 62 52 63 32 80 64 53 74 34 72 41 74 82 58 26 35 47 50 38 70 39
En la actividad 3, se elaboró una tabla de frecuencias tomando como clase a cada valor
diferente que tomaba la variable, esto se puede hacer cuando el número de valores
diferentes no es muy grande. Si se tienen datos cuya amplitud o rango es muy grande
se agrupan en subgrupos llamados clases. El número de clases que se deben usar
depende de la cantidad de datos, los estudiosos de la Estadística han recomendado
que:
Agrupemos los valores de la variable en intervalos de clase contiguos y elegidos
convenientemente para no perder mucha información. No existe un criterio claro de cuál
debe ser el número de clases que debemos escoger, Norcliffe establece que el número
de clases debe ser, aproximadamente igual a la raíz cuadrada positiva del número de
datos. Normalmente, el número de intervalos de clase se suele fijar entre 5 y 15 de tal
manera que en cada clase se tengan, al menos, 5 observaciones. De todas formas, el
investigador los acomodará a las condiciones específicas del problema estadístico
objeto de estudio (se tomarán tantos intervalos como sean necesarios para recubrir
todo el recorrido de la variable). Otro criterio es la fórmula de Sturges
K 13.322 log n
Losextremos de los intervalos de clase se denominan extremos de clase o límites
de clase y sus puntos medios marcas de clase (valor que nos representa la
información que contiene un intervalo).
criterio se separan con un incremento el cual puede tomar el valor de 1, 0.1, 0.01,
0.001 de acuerdo a los datos.
Por otro lado tenemos la amplitud de cada intervalo, que puede ser constante o
variable. Si procuramos que todas las clases tengan la misma amplitud y los límites de
cada clase sean números redondos (múltiplos por ejemplo de 5) conseguiremos
simplificar mucho los cálculos (siempre y cuando no se pierda demasiada información
debido a estas consideraciones).
𝑅+1 98
3.- Determinar el tamaño de clase (amplitud) 𝑊= = = 16.33 = 17
𝑘 6
4.- Determinar los intervalos de clase, estos deben cumplir la condición de que el primer
intervalo debe contener al primer elemento y el último al elemento mayor, como los
datos son enteros tomáremos un (incremento) =16, que es el valor que separa una
clase de la otra, por lo tanto, es incremento es igual a W-= 16.
Al iniciar con la primera clase se tiene: el dato menor (101) como límite inferior y 117
como límite superior, que se obtiene sumando al límite inferior el incremento (101 + 16
= 117). Este proceso repite hasta que se tienen las 6 clases propuestas.
Límite Límite
Clase
inferior superior
1 101 117
2 118 134
3 135 151
4 152 168
5 169 185
6 186 202
Al construir la tabla con una amplitud de 16, el límite superior del intervalo de clase 6
es 202, dicho valor no corresponde a la observación máxima que es de 198. Esto se
comprueba multiplicando: 0.67*6=4.02, de antemano sabemos que tendremos al final
4 valores no observados.
5.- Al construir todas las clases, se encuentra la frecuencia absoluta de cada clase, esto
consiste en contar el número de observaciones que pertenecen a cada una de ellas.
Como regla general se debe redondear hacia arriba el tamaño de la amplitud de los
intervalos de clase.
far fa % Punto
fr fa
Límite Límite Frecuencia % (frecuencia (frecuencia medio
Clase (frecuencia (frecuencia
inferior superior absoluta Porcentaje acumulada acumulada (marca de
relativa) acumulada)
relativa) porcentual) clase)
fa %
Número de Frecuencia % (frecuencia
partos absoluta Porcentaje acumulada
porcentual)
101-117 4 13.3 13.3
118-134 3 10.0 23.3
135-151 8 26.7 50.0
152-168 7 23.3 73.3
169-185 4 13.3 86.7
186-202 4 13.3 100.0
Total 30 100
Utilizando los datos de la edad de las mujeres que asisten a realizar control prenatal en
el HBC en el mes de enero 2021, construiremos una tabla agrupada de 5 intervalos de
clase.
1. Rango = 60 - 27=33 años
Edad de las mujeres que asisten a realizar control prenatal en el HBC en el mes
de enero 2021
Edad frecuencia %
27-33 13 32.5
34-40 11 27.5
41-47 10 25
48-54 1 2.5
55-61 5 12.5
Total 40 100
Ejercicio 6
1.- Utilizando los datos de la tarea 4, construir una distribución de frecuencia, determine
el valor de “K” (número de intervalos) usando la fórmula de Sturges.
2.- Construya un gráfico apropiado.
3.- Construya una distribución de frecuencia utilizando 5 intervalos de clase.
4.- Construya un gráfico apropiado.
5.- Comente los resultados.
MEDIDAS DE RESUMEN
Media aritmética
Matemática general 80
Informática básica 90
Introducción contabilidad 100
Historia de Nicaragua 90
Técnicas de lectura, redacción y ortografía 80
Geografía 90
Su fórmula se escribe:
__ ∑𝑛𝑖=1 𝑥𝑖
𝑋= 𝑛
Donde
xi : representa la i-ésima observación o dato
n: total de observaciones (datos)
∑𝑛𝑖=1 𝑥𝑖 : la letra griega sigma indica suma, desde el primer dato hasta el total de
datos (n).
Prof. Roberto Gutiérrez
22
__ ∑40
𝑖 =1 𝑥𝑖 27 + 27 + 29 + ⋯ + 58 + 60 + 60 1588
𝑋 = = = = 39.7𝑎ñ𝑜𝑠
40 40 40
¿Cómo se interpreta la media aritmética de las edades de las mujeres? Si todos los
pacientes tienen la misma edad, esta sería de 39.7 años. O sea que estadísticamente
cada uno de los pacientes tiene la edad de 39.7 años.
__ ∑30
𝑖 =1 𝑥𝑖 115 + 148 + 157 + ⋯ + 173 + 162 + 101 4540
𝑋 = 30 = 30
=
30
= 151.3 𝑝𝑎𝑟𝑡𝑜𝑠
¿Cómo se interpreta la media aritmética? En todos los días hubo 151 partos.
Observaciones:
Esto nos hace pensar que si efectivamente la media aritmética representa bien a un
conjunto de datos (n) en cualquier situación. Para verificar, si la media representa bien
o no a los datos, debemos examinar el tipo de distribución de estos, la mejor forma es
mediante el gráfico de las observaciones y verificar la variabilidad, tema que
examinaremos más adelante. Esto nos llega a concluir que no siempre la media será
un buen representante.
Dada esta conclusión se tiene otra medida de tendencia central. Como la Moda, en el
ejemplo de las calificaciones de las asignaturas de un estudiante, es el número 90, se
representa como mo, y es el dato que aparece con mayor frecuencia. En los siguientes
conjuntos de datos, no se tiene una única moda, se dice que la distribución de los datos
es multimodal. Encuentre las modas de ambas distribuciones.
Otra medida es la Mediana, la cual es el dato que divide al conjunto de datos en dos
partes iguales, de tal manera que la mitad de los datos es menor o igual que la mediana
y la otra mitad es mayor. Para determinarla se deben ordenar los datos en forma
ascendente.
Ordenando los datos de las calificaciones: 80, 80, 90, 90, 90, 100 entonces la mediana
es el número 90, que se representa como “me=90”, como el número de elementos es
par, se calcula el promedio de los dos datos que ocupan la posición central. Como hay
6 datos los datos 80, 80 quedan a la izquierda y los datos 90 y 100 quedan a la derecha
de la mediana.
90 + 90
𝑚𝑒 = = 90
2
Veamos un segundo ejemplo:
5, 5, 6, 7, 8, 9, 9, 10,12
Dato que n=9 es un número impar, la mediana corresponde al valor que se encuentra
al centro de la distribución, quedando a la izquierda de la mediana los datos 5, 5, 6, 7 y
a la derecha el 9, 9, 10 y 12.
𝑚𝑒 = 8
Ejercicios 7
Usando los criterios anteriores calcule la media aritmética, moda y mediana de los
siguientes conjuntos de datos:
Cabe señalar que al trabajar con muestras las medidas anteriores se les llama
estimadores, al trabajar con población serian parámetros. Investigar ambos
conceptos.
Calcular la media, media y moda para todas las bases de datos estudiadas.
MEDIDAS DE DISPERSIÓN
Se tiene que otorgar premio al estudiante que tenga el promedio más alto del grupo, al
calcular el promedio para cada estudiante se presenta la siguiente situación: dos
alumnos que cursan el segundo trimestre en un centro tecnológico tienen el mismo
promedio (datos están divididos entre 10 por comodidad de los cálculos)
Al calcular la media aritmética de cada alumno, notamos que aunque ambos tienen la
misma media aritmética =8, al observar las calificaciones de cada alumno, nos
podemos dar cuenta que el primero tiene calificaciones más homogéneas y en el
segundo están más dispersas.
Por lo que podemos concluir que la media aritmética no es suficiente para describir
totalmente un conjunto de datos, necesitamos una medida que mida la variabilidad
existente entre los valores de las observaciones. Por ejemplo, el primer alumno dos
calificaciones coinciden con el promedio, la calificación de 7 está a una distancia de un
punto para alcanzar la media y la calificación 9 también está a un punto de alcanzar al
promedio. Observamos, estas distancias para el caso de 7 y 9, al restar a cada dato el
promedio se tiene: 7 – 8 = -1 y con nueve como calificación: 9 – 8 = 1.
Debido a este hecho es que anteriormente se aseguró que las calificaciones del alumno
1 eran más homogéneas que las del alumno 2, dado que las deviaciones con respecto
a la media son más pequeñas.
La suma de las desviaciones con respecto a la media aritmética es cero. Por eso
hecho se dice que la media es el punto de equilibrio de los datos.
(∑𝑛𝑖=1 𝑥𝑖 )2
∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅) 2 ∑𝑛𝑖=1 𝑥𝑖2− 𝑛𝑋 ̅2 ∑𝑛𝑖=1 𝑥𝑖2 −
𝑆 = 2
= = 𝑛
𝑛−1 𝑛−1 𝑛−1
Materia Alumno 1 (𝑥𝑖 − 𝑋̅) (𝑥𝑖 − 𝑋̅)2 Alumno 2 (𝑥𝑖 − 𝑋̅) (𝑥𝑖 − 𝑋̅)2
1 7 -1 1 5 -3 9
2 8 0 0 8 0 0
3 7 -1 1 10 2 4
4 9 1 1 6 -2 4
5 9 1 1 9 1 1
6 8 0 0 10 2 4
4 22
4
La varianza del primer alumno es 𝑆12 = = 0.8 puntos al cuadrado, para el segundo
5
22
alumno es 𝑆22 = = 4.4 puntos al cuadrado, por lo que se tiene el inconveniente que al
5
interpretar ambos resultados, estos están afectados por el cuadrado a que fueron
elevados al momento del cálculo.
Recordemos que las desviaciones entre cada valor y la media aritmética se elevan al
cuadrado para evitar el problema de los signos de las diferencias y evitar que la suma
sea siempre cero. Al calcular la raíz cuadrada de la varianza se obtiene la desviación
estándar:
∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2
𝑆= √
𝑛−1
La desviación estándar del primer alumno es: 𝑆1 = √0.8 = 0.894 y la desviación
estándar del segundo alumno es: 𝑆2 = √4.4 = 2.098
Como la desviación estándar de las calificaciones del alumno 2 es mayor que la del
alumno 1, concluimos que las calificaciones del alumno 1 son menos dispersas. ¿Cómo
interpretamos este resultado?
Ejercicios 8
MEDIDAS DE POSICIÓN.
Las medidas de posición son medidas que describen la posición que tiene un valor
específico en relación con el resto de los datos en una población o muestra.
Las medidas de posición más usuales son los percentiles cuartiles, deciles y los
percentiles.
1% 1% 1% 1% ….. ….. 1% 1% 1% 1% 1%
DECILES
De forma similar el conjunto de datos puede ser divido en 10 partes iguales de 10%
cada parte, estos son los deciles, se necesitan 9 deciles para realizar esta división.
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
Mínimo D1 D2 D3 D4 D5 D6 D7 D8 D9 Máximo
Ahora el conjunto de datos está dividido en 10 partes iguales, el D1, tiene a su izquierda
el 10% de las observaciones y el 90% de las observaciones a su derecha. El percentil
D2, tiene a su izquierda el 20% de las observaciones y el 80% de las observaciones a
su derecha.
CUARTILES
El conjunto de datos se puede dividir también en 4 partes iguales de 25% cada parte,
son los llamados cuartiles, de forma gráfica se tiene
Mínimo Q1 Q2 Q3 Máximo
Si tomamos el P25 y los comparamos con el Q1, ambos separan a los datos con 25 a
su izquierda y 75% a la derecha. El Q2 y el P50 separan de la misma forma a los datos
al igual que el Q3 y el P75.
2 7 7 9 9 9
3 0 0 0 1 2 2 3 3 4 4 6 6 7 8 8 8
4 0 0 0 1 2 3 3 4 4 6 6 6 7
5 2 6 7 8
6 0 0
Determinemos el percentil 10, los datos están ordenados por lo que procedemos a
ubicar la posición donde se encuentra el percentil 10. Se tienen n=40 y P=10, usando
la fórmula:
(40 + 1)10
𝑃𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 = = 4.1
100
El valor 4.1 se redondea a 4, este valor corresponde a la posición donde se encuentra
el percentil 10, al revisar los datos se tiene que el valor 29 está en dicha posición, se
escribe P10=29 años.
2 7 7 9 9 9
3 0 0 0 1 2 2 3 3 4 4 6 6 7 8 8 8
4 0 0 0 1 2 3 3 4 4 6 6 6 7
5 2 6 7 8
6 0 0
Por lo que el 10% de los pacientes tienen menos de 29 años y el 90% tienen 29 años
o más.
(40 + 1)90
𝑃𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 = = 36.9 = 37
100
La posición es 37 el valor en esa posición es la edad 57 años. Por lo que el 90% de los
pacientes tienen menos de 57 años y el 10% tienen 57 años o más.
Cabe señalar que en general se está interesado en los datos más pequeños y los más
grandes, por lo que el percentil 10 y 90, o bien el percentil 5 y 95, siempre se calculan
de manera conjunto, en el caso de las edades.
10% 10%
En este caso se interpreta que el 10% de los pacientes tienen 29 años o menos y que
el 10% tiene una edad de 57 años o más, y que el 80% tiene edades entre 29 y 57 años,
aproximadamente.
De igual manera se usan los percentiles 5 y 95, quedando un 5% de los datos más
pequeños, un 5% de los datos más grandes y un 90% entre el valor de ambos
percentiles.
Ejercicios 10
Tablas de contingencia
En esta tabla se puede observar en primer lugar que de los 233 individuos de los que
se tiene información 108 son hombres y 125 son mujeres. Asimismo, se sabe que 123
de ellos fuman y 110 no. La tabla de contingencia nos permite tener información cruzada
sobre ambas variables: de los 108 hombres, 65 fuman y 43 no, mientras que, en el caso
de las mujeres, 58 fuman y 67 no. De los que fuman 65 son hombres y 58 mujeres, de
los que no fuman 43 son hombres y 67 mujeres.
Sexo
Fuma Total
Hombre Mujer
Si 65 (a) 58 (b) 123 (a+b)
No 43 c 67 (d) 110 (c+d)
233
Total 108 (a+c) 125 (b+d)
(a+b+c+d)
Sexo
Fuma Total
Hombre Mujer
Si 52.85 47.15 100
No 39.09 60.91 100
Total 46.35 53.65 100
Sexo
Fuma Total
Hombre Mujer
Si 60.19 46.40 52.79
No 39.81 53.60 47.21
Total 100.00 100.00 100.00
Presión Sexo
Total
Sistólica Varón Mujer
Normal 7 5 12
Alta 30 23 53
Total 37 28 65
Tratamiento Sexo
aplicado Hombre Mujer Total
Placebo 12 9 21
IECA 13 11 24
Ca 12 8 20
Antagonista
+ Diurético
Total 37 28 65