Guia 1 Estadistica
Guia 1 Estadistica
Guia 1 Estadistica
Para tener éxito en el desarrollo de este nuevo tema, debemos tener en cuenta los conceptos: de Estadística
Descriptiva y Probabilidades, como: Medidas de tendencia central, gráficos de frecuencias, manejo de la
información, probabilidad compuesta, probabilidad total y fórmula de Laplace en el cálculo de las
probabilidades.
En esta Unidad:
Estadística Descriptiva
Aplicarás conceptos estadísticos: muestra, población y tipos de variables.
Ordenarás y organizarás la información.
Analizarás y construirás tablas y gráficos.
Determinarás medidas de tendencia central: media aritmética, moda y mediana.
Calcularás medidas de dispersión: rango, desviación estándar y varianza.
Conocerás e interpretarás las medidas de posición: cuartiles, quintiles, deciles y percentiles.
Estadística Inferencial
Determinarás la homogeneidad y heterogeneidad de una muestra.
Compararás distribuciones de distintas muestras de poblaciones dependiendo del tipo de muestreo
aplicado.
Determinarás y calcularás funciones de probabilidad y distribución de una variable aleatoria
discreta.
Estudiarás la correlación y regresión lineal de distribuciones bidimensionales.
Reconocerás distribuciones normales y binominales. Y calcularás probabilidades con ellas.
Introducción
Existen diferentes razones por las cuales los profesionales deben conocer los fundamentos de la estadística
como instrumento del trabajo cotidiano. En esta guía se pretende dar a conocer algunas nociones estadísticas
que nos ayudarán a explorar y describir, en un primer momento, nuestros datos.
Poblaciones y Muestras
La población representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser
inaccesible. Es, en definitiva, un colectivo homogéneo que reúne unas características determinadas.
La muestra es el conjunto menor de individuos (subconjunto de la población accesible y limitado sobre el que
realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la población).
El individuo es cada uno de los componentes de la población y la muestra. La muestra debe ser representativa
de la población y con ello queremos decir que cualquier individuo de la población en estudio debe haber
tenido la misma probabilidad de ser elegido.
Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos señalar:
a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
b. Como consecuencia del punto anterior ahorraremos costes.
c. Estudiar la totalidad de los pacientes o personas con una característica determinada en muchas
ocasiones puede ser una tarea inaccesible o imposible de realizar.
d. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y mediciones
realizadas a un reducido número de individuos pueden ser más exactas y plurales que si las tuviésemos
que realizar a una población.
e. La selección de muestras específicas nos permitirá reducir la heterogeneidad de una población al indicar
los criterios de inclusión y/o exclusión.
Tipos de datos
Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensión arterial
sistólica, etcétera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es
medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos además concretar la escala
de medida que aplicaremos a cada variable.
La naturaleza de las observaciones será de gran importancia a la hora de elegir el método estadístico más
apropiado para abordar su análisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos tipos:
variables cuantitativas o variables cualitativas.
a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse
numéricamente. Las variables cuantitativas pueden ser de dos tipos:
o Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango
numérico determinado (edad, peso, talla).
b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a cada
caso en una de varias categorías. La situación más sencilla es aquella en la que se clasifica cada caso en
uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o
binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no es suficiente y se
requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión, etcétera).
o Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por
categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo, profesión,
presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
o Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las
categorías (grados de disnea, estadiaje de un tumor, etcétera).
Estadística descriptiva
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al
análisis descriptivo de los mismos. Para variables categóricas, como el sexo o la estatura, se quiere conocer el
número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del
total, y expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de
optar por un método de análisis distinto, respondiendo a las siguientes preguntas:
Las medidas de centralización vienen a responder a la primera pregunta. La medida más evidente que
podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. La media no es
más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se
dispone.
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de
edad de estos sujetos será de:
Más formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestión,
el valor medio vendrá dado por:
Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observación equidistante
de los extremos.
La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de dicho valor y a la
otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se
encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez
60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a la
variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.
La m edian a se encuentra en el inter valo donde la frecu enc ia acum ulada llega hasta la m itad de la
s um a de las f recu enc ias abs o lu tas .
b. Medidas de dispersión
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersión de
los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de los datos
es la más utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media
aritmética de la distribución.
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como
unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.
Sx2=
La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa
en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada
en estadística.
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para
realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.
Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas expresiones.
En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como denominador n, el valor sería
20.678. A efectos de cálculo lo haremos como n-1 y el resultado seria 21,79.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es una
estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que
necesitamos para realizar inferencias a la población.
Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud como
medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la distribución.
Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza y
desviación típica:
← Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy alejados
de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo serán.
← Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la
mitad la desviación típica, la muestra se tiene que multiplicar por 4.
← Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a 0.
← Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será
detectado.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión relativa de
los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el cuociente por
100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más grupos. Así, por
ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviación
típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su
desviación típica de 21,3. La pregunta sería: ¿qué distribución es más dispersa, el peso o la tensión arterial? Si
comparamos las desviaciones típicas observamos que la desviación típica de la tensión arterial es mucho
mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que
calculamos los coeficientes de variación:
CV de la variable peso =
CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre cuando los valores de su
media y mediana están próximos), se usan para describir esa variable su media y desviación típica. En el caso
de distribuciones asimétricas, la mediana y la amplitud son medidas más adecuadas. En este caso, se suelen
utilizar además los cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición. El percentil es el
valor de la variable que indica el porcentaje de una distribución que es igual o menor a esa cifra.
Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de sí al 80% del total
de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de sí el 25%, 50% y el
75% del total de las puntuaciones y así tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer
cuartil (Q3).
Los deci les son los nueve valo res que div ide n la serie de dato s en di ez par tes igual es .
Los deci les dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D 5 coi nci de con l a m edian a .
Los perce nti l es son los 9 9 valo res que div ide n la serie de dato s en 10 0 par tes igual es .
Los perce nti l es dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P 5 0 coi nc i de con l a m ediana .
Cálculo de los percentiles
a. Define la población.
b. Define la muestra.
c. Define la(s) variable(s) aleatoria(s).
1 . Indica que var iables son cual itati vas y cuales cua nti tati vas :
1 Comida Favorita.
2 Profesión que te gusta.
3 Número de goles marcados por tu equipo favorito en la última temporada.
4 Número de alumnos de tu Instituto.
5 El color de los ojos de tus compañeros de clase.
6 Coeficiente intelectual de tus compañeros de clase.
2 . De las siguientes var iables indica cuáles son dis cretas y cuales co nti n uas .
3 . Clasificar las siguientes var iabl es en cual itati vas y cua nti tati vas dis cretas o co nti nuas .
5 . El número de estrellas de los hoteles de una ciudad viene dado por la siguiente serie:
3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4, 1.
Construir la tabla de distribución de frecuencias y dibuja el gráfico más adecuado.
6 . Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes:
5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6,
3, 5, 5, 6, 7.
Construir la tabla de distribución de frecuencias y dibuja el gráfico más adecuado.
7 . Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:
Peso [50, 60) [60, 70) [70, 80) [80,90) [90, 100) [100, 110) [110, 120)
fi 8 10 16 14 10 5 2
8 . Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física.
3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34,
32, 35, 28, 38, 41, 48, 15, 32, 13.
9 . Sea una distribución estadística que viene dada por la siguiente tabla:
xi 61 64 67 70 73
fi 5 18 42 27 8
Calcular:
1 La m o da, m ediana y m edia .
2 El rango, var ianza y desv ia ció n tí pica .
1 1 . El resultado de lanzar dos dados 120 veces viene dado por la tabla :
Sumas 2 3 4 5 6 7 8 9 10 11 12
Veces 3 8 9 11 20 19 16 13 11 6 4
Edad Fi
[0, 2) 4
[2, 4) 11
[4, 6) 24
[6, 8) 34
[8, 10) 40
1 . M e di a ar i tm éti ca y de svi ac i ón tí pi ca .
2 . ¿Entre qué valores se encuentran las 1 0 e dade s c e ntral e s ?
3 . Representar el polí gono de f re c ue nc i as absol utas ac um ul adas .