U1 Estadística
U1 Estadística
U1 Estadística
unidimensional
TUAGIES 2021
1
Las unidades individuales que conforman una población o muestra se llaman “unidades
elementales”, y pueden clasificarse en variables cualitativas o cuantitativas según ciertas
características.
Tipos de variables
Variables Cualitativas: son aquellas que clasifican las unidades en categorías. Las
categorías pueden o no tener un orden natural. Son también llamadas variables
categóricas. Por ejemplo: lugar de nacimiento, profesión, estado civil, género, etc.
Variables Cuantitativas: toman valores numéricos que son mediciones (longitud,
peso) o frecuencias (cantidad). Dentro de estas variables podemos distinguir :
• variables discretas: los valores varían con cantidades definidas, son
resultado de un conteo, por ejemplo 1 hijo, 2 hijos…
• variables continuas: puede tomar cualquier valor en un intervalo, pueden
tomar valores con decimales, por ejemplo peso, altura, longitud, etc.
Organización de datos
Gráficos de Tallos y Hojas.
El diagrama "tallo y hojas" sirve para organizar datos cuantitativos, permite obtener
simultáneamente una distribución de frecuencias de la variable y su representación
gráfica.
Esta representación de los datos es semejante a la de un histograma, pero además de ser
fáciles de elaborar, presentan más información que estos.
2
Pasos para construir un gráfico de tallos y hojas
1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segundos
dígitos se convierten en hojas.
2. Enumere los posibles valores de tallos en una columna vertical.
3. Anote la hoja para cada observación junto al valor de tallo.
4. Indique las unidades para tallos y hojas en algún lugar de la gráfica Veamos un ejemplo:
La siguiente tabla muestra la frecuencia de circulación de una línea de colectivos
determinada:
5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.37 20.32
6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.50 20.37
6.18 7.50 9.24 11.37 13.50 15.32 17.07 19.02 20.50
6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.07 21.02
6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.20 21.07
6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.37 21.20
7.02 8.24 10.07 12.37 14.32 16.07 18.02 19.50 21.32
7.07 8.32 10.32 13.02 14.37 16.20 18.07 20.02 21.37
7.20 8.37 10.37 13.07 14.50 16.32 18.20 20.07 21.38
7.25 8.51 11.02 13.20 15.02 16.37 18.32 20.20
Armar un gráfico de tallos y hojas tomando como tallos las horas y como hojas los
minutos:
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37 50
14 | 02 07 20 32 37 50
15 | 02 07 20 32 37 50
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37 38
3
La frecuencia del colectivo se deduce fácilmente de la longitud de las filas y es, además,
muy fácil ver en qué minutos de cada hora pasan típicamente los mismos.
Ahora puede observarse que en varios horarios coinciden los minutos, esto nos permite
acotar aún más el gráfico, agupando los tallos y hojas que se corresponden, sin perder
información y ganando claridad.
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 11 12 | 02 07 32 37
13 15 16 17 18 19 20 | 02 07 20 32 37 50
21| 02 07 20 32 37 38
Al final tenemos 59 campos de 2 dígitos, 118 caracteres más los separadores, es decir 4
veces menos dígitos que con el horario original, menos espacio y más claridad.
Esto nos da idea de que una disposición apropiada de los datos puede ser doblemente
informativa y que la representación gráfica puede contribuir enormemente a la
percepción de patrones y a la comprensión de la naturaleza de los fenómenos.
Una gráfica de tallos y hojas da información sobre los siguientes aspectos de los
datos:
• Identificación de un valor típico o representativo.
• Grado de dispersión en torno al valor típico.
• Presencia de brechas en los datos.
• Grado de simetría en la distribución de los valores.
• Número y localización de crestas.
• Presencia de valores afuera de la gráfica.
Gráficas de puntos
4
Ejercicio Propuesto:
La siguiente lista de datos refiere al comportamiento de los sellos anulares del motor de un
cohete. Aquí datos derivados de observaciones en
en cada encendido de prueba o lanzamiento del motor de un cohete del transbordador
84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67 53 67 75 61 70
81 76 79 75 76 58 31
Ejercitación sugerida
5
e) Si se selecciona una persona al azar de este grupo, ¿es más posible que su
masa corporal sea menor que 60 kg o mayor que 70 kg?
f) ¿Cuál es la masa corporal promedio de las personas que están entre 69 kg y
80 kg?
TABLAS DE FRECUENCIAS
Datos
Frecuencia absoluta
Frecuencia relativa
fr= fi/n
La suma de las frecuencias relativas es igual a 1.
6
Frecuencia relativa acumulada
Ejercicio propuesto:
23 12 34 23 12 15 10 45 45 12 23 23 15 45 43 30
7
4,5
4
3,5
3
2,5
Litros
2
1,5
1
0,5
0
10 12 15 23 30 34 43 45
Límites de la clase
Amplitud de la clase
Marca de clase
23 12 34 23 12 15 10 45 45 12 23 23 15 45 43 30
8
Intervalos Fi Fr
Ejercicios Propuestos
2. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en
un examen de Física.
9
Representaciones gráficas
En el caso de una variable discreta, los gráficos que pueden construirse son los
siguientes:
Frecuencias
Absolutas
Frecuencias
Relativas
Frecuencias Absolutas
Acumuladas
Frecuencias Relativas
Acumuladas
10
El histograma de frecuencias consiste en una serie de rectángulos, que tienen sus
bases en el eje de las x y de una amplitud igual a la longitud o amplitud de los
intervalos, y con centro en los puntos medios de cada intervalo.
Para construir uno, dado un conjunto de datos, debemos seguir los siguientes pasos.
11
• Dibujamos el eje de las abscisas de tal forma que incluya como mínimo el rango de
los datos y, posteriormente, dividimos este rango en los intervalos dados.
Polígono de frecuencia
Una muestra consta sólo de un número limitado de elementos y por lo tanto su distribución
será marcada con irregularidades y rupturas. Sin embargo si el tamaño de la muestra
aumenta y la amplitud de los intervalos disminuye, podemos trabajar con un polígono de
frecuencias más suavizado que se aproxima a una curva.
Curvas simétricas
Se caracterizan por el hecho de que las observaciones que equidistan del máximo central
tienen la misma frecuencia.
12
La curva tiene forma de campana y este modelo en forma de campana se denomina curva
de distribución normal o simplemente curva normal. Esta curva tiene muchísimas
características que ya describiremos.
Curvas asimétricas o sesgadas En estas curvas, la cola a un lado del máximo es mayor que
al otro lado.
Si la cola mayor se presenta a la derecha, se dice que es asimétrica a la derecha o que tiene
sesgo positivo
13
Ejercicio Propuesto:
Total:
14
ELEMENTOS DE ESTADÍSTICA DESCRIPTIVA
Tanto de los datos clasificados como de los gráficos se desprende claramente que
hay determinados valores que se presentan más a menudo y otros menos
frecuentemente.
15
Medidas de posición
Las medidas de posición son cifras que describen la ubicación de las distribuciones
de frecuencias con respecto al eje de coordenadas.
Media aritmética
Veamos un ejemplo:
Moda
La moda es el valor que más se repite. También podemos decir que la moda es el
valor con mayor frecuencia absoluta o el valor que ocurre con más frecuencia. La
16
3 2
4 5
5 3
Mediana
Si n es impar
4 - 5 - 7 - 10 - 11 - 13 - 15
x1 x2 x3 x4 x5 x6 x7
Mediana: = 10
Si n es par
4 - 5 - 8 - 10 - 11 - 12
x1 x2 x3 x4 x5 x6
17
Teniendo en cuenta nuestro ejemplo:
5, 5, 5, 4, 4, 4, 4, 4, 3, 3.
4+4
n es par → → =4
Cuartiles
Son valores de la variable que dividen a la distribución en cuatro partes iguales.
Primer cuartil (Q1) Es aquel valor de la variable que deja el 25% de los datos por debajo
Tercer cuartil: Es el valor de la variable que deja el 75% por debajo y el 25% por encima.
18
Medidas de dispersión
Rango
x x
R max mín
Variancia
19
Desvío estándar
20
Rango intercuartil
Es la diferencia entre el tercer y el primer cuartil
RI= Q3 – Q1
Es la medida de variabilidad adecuada para acompañar a la mediana.
Coeficiente de variación
Es una medida de dispersión relativa, que se expresa en porcentaje.
Se utiliza para comparar la dispersión que tienen dos distribuciones con distintas
medias aritméticas o que están expresadas en distintas unidades.
Es una medida de dispersión independiente de las unidades en que está expresada
la variable.
21
Asimetría de la Distribución
Curtosis
Indica que tan puntuda o achatada se encuentra una distribución respecto a un
comportamiento normal (distribución normal).
22
Gráfico de cajas
El gráfico de caja (“box-plot” en inglés) es una forma de presentación estadística
destinada, fundamentalmente, a resaltar aspectos de la distribución de las observaciones
en una o más series de datos cuantitativos. Reemplaza, en consecuencia, al histograma y
a la curva de distribución de frecuencias sobre los que tiene ventajas en cuanto a la
información que brinda y a la apreciación global que surge de la lectura
Este gráfico utiliza una sola escala: la correspondiente a la variable de los datos que se
presentan. Es decir, no utiliza escala de frecuencias. Por lo tanto, no corresponde
asociarlo a los que utilizan el sistema de coordenadas cartesianas.
Los elementos que los constituyen son:
Este gráfico brinda información sobre la forma general de la curva: simetría, curtosis
(curvas más “afinadas” o más “aplanadas”), el punto de la mediana, la distribución de las
observaciones a ambos lados de los valores centrales y la presencia (y el/los valor/es)
de valores atípicos.
23
Se insiste que este gráfico no refiere la frecuencia para cada valor; pero, sí, con los
elementos señalados se puede inferir cómo se distribuyen esas frecuencias a lo largo de
la escala de referencia.
Es importante tener en cuenta los datos atípicos leves para poder hacer un gráfico lo más
acertado, para ello basta calcular valores
Ejemplo
Propuesto:
Dada la siguiente tabla de datos realizar el gráfico de cajas y bigotes simple y el gráfico de
cajas con datos atípicos.
Edades f F
13 4 4
14 6 10
24
15 7 17
16 8 25
17 13 38
18 7 45
19 4 49
22 1 50
50
•
•
•
•
•
Recuerda: para calcular rápido el Q1, Q2, Q3 primero convine determinar la posición de cada
cuartil para luego determina su valor.
25