U1 Estadística

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

2022 Estadística

unidimensional
TUAGIES 2021

Lic. Andrea Ramos


UTN-FRRO
Algunas definiciones básicas
Población: es el conjunto o totalidad de elementos bajo estudio. La población se clasifica
en:

• Finita: tiene un número limitado de elementos Infinita: tiene un número


ilimitado de elementos.
Cuando es imposible estudiar la población por ser muy grande o por razones de tiempo y/o
costos, se trabaja con una muestra.
Muestra: subconjunto o parte de la población.
El estudio de la población recibe el nombre de Censo o enumeración completa, mientras
que el estudio de la muestra recibe el nombre de muestreo.

La estadística es la ciencia que proporciona técnicas y métodos para la recolección,


sistematización y análisis de datos con el fin de poder llegar a tomar decisiones frente a
situaciones de incertidumbre.
Tiene aplicación en distintos campos como:

• Cs económicas y administración: Control de calidad, minimización de


costos, inventarios y asuntos empresariales.
• Marketing y comercialización: investigación de mercado, asesoramientos
financieros para la inversión.
• Cs Médicas: efectividad de un tratamiento/medicamento, análisis
poblacional de contagios.
• Cs Políticas: Imagen pública de cierto candidato, análisis de resultados
electorales.

1
Las unidades individuales que conforman una población o muestra se llaman “unidades
elementales”, y pueden clasificarse en variables cualitativas o cuantitativas según ciertas
características.

Tipos de variables
 Variables Cualitativas: son aquellas que clasifican las unidades en categorías. Las
categorías pueden o no tener un orden natural. Son también llamadas variables
categóricas. Por ejemplo: lugar de nacimiento, profesión, estado civil, género, etc.
 Variables Cuantitativas: toman valores numéricos que son mediciones (longitud,
peso) o frecuencias (cantidad). Dentro de estas variables podemos distinguir :
• variables discretas: los valores varían con cantidades definidas, son
resultado de un conteo, por ejemplo 1 hijo, 2 hijos…
• variables continuas: puede tomar cualquier valor en un intervalo, pueden
tomar valores con decimales, por ejemplo peso, altura, longitud, etc.

Organización de datos
Gráficos de Tallos y Hojas.
El diagrama "tallo y hojas" sirve para organizar datos cuantitativos, permite obtener
simultáneamente una distribución de frecuencias de la variable y su representación
gráfica.
Esta representación de los datos es semejante a la de un histograma, pero además de ser
fáciles de elaborar, presentan más información que estos.

2
Pasos para construir un gráfico de tallos y hojas
1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segundos
dígitos se convierten en hojas.
2. Enumere los posibles valores de tallos en una columna vertical.
3. Anote la hoja para cada observación junto al valor de tallo.
4. Indique las unidades para tallos y hojas en algún lugar de la gráfica Veamos un ejemplo:
La siguiente tabla muestra la frecuencia de circulación de una línea de colectivos
determinada:
5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.37 20.32
6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.50 20.37
6.18 7.50 9.24 11.37 13.50 15.32 17.07 19.02 20.50
6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.07 21.02
6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.20 21.07
6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.37 21.20
7.02 8.24 10.07 12.37 14.32 16.07 18.02 19.50 21.32
7.07 8.32 10.32 13.02 14.37 16.20 18.07 20.02 21.37
7.20 8.37 10.37 13.07 14.50 16.32 18.20 20.07 21.38
7.25 8.51 11.02 13.20 15.02 16.37 18.32 20.20

Armar un gráfico de tallos y hojas tomando como tallos las horas y como hojas los
minutos:
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37 50
14 | 02 07 20 32 37 50
15 | 02 07 20 32 37 50
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37 38

3
La frecuencia del colectivo se deduce fácilmente de la longitud de las filas y es, además,
muy fácil ver en qué minutos de cada hora pasan típicamente los mismos.
Ahora puede observarse que en varios horarios coinciden los minutos, esto nos permite
acotar aún más el gráfico, agupando los tallos y hojas que se corresponden, sin perder
información y ganando claridad.
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 11 12 | 02 07 32 37
13 15 16 17 18 19 20 | 02 07 20 32 37 50
21| 02 07 20 32 37 38

Al final tenemos 59 campos de 2 dígitos, 118 caracteres más los separadores, es decir 4
veces menos dígitos que con el horario original, menos espacio y más claridad.
Esto nos da idea de que una disposición apropiada de los datos puede ser doblemente
informativa y que la representación gráfica puede contribuir enormemente a la
percepción de patrones y a la comprensión de la naturaleza de los fenómenos.
Una gráfica de tallos y hojas da información sobre los siguientes aspectos de los
datos:
• Identificación de un valor típico o representativo.
• Grado de dispersión en torno al valor típico.
• Presencia de brechas en los datos.
• Grado de simetría en la distribución de los valores.
• Número y localización de crestas.
• Presencia de valores afuera de la gráfica.
Gráficas de puntos

Una gráfica de puntos es un resumen atractivo de datos numéricos cuando el conjunto


de datos es razonablemente pequeño o existen pocos valores de datos distintos.

Cada observación está representada por un punto sobre la ubicación correspondiente en


una escala de medición horizontal. Cuando un valor ocurre más de una vez, existe un
punto por cada ocurrencia y estos puntos se apilan verticalmente.
Como con la gráfica de tallos y hojas, una gráfica de puntos da información sobre la
localización, dispersión, extremos y brechas.

4
Ejercicio Propuesto:

La siguiente lista de datos refiere al comportamiento de los sellos anulares del motor de un
cohete. Aquí datos derivados de observaciones en
en cada encendido de prueba o lanzamiento del motor de un cohete del transbordador
84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67 53 67 75 61 70
81 76 79 75 76 58 31

Realizar un gráfico de puntos para la situación anteriormente planteada.

Ejercitación sugerida

1. Construye el diagrama de tallo y hoja y de puntos, para cada situación planteada:

a) A. Número de revistas vendidas en los kioscos de una comuna:


52 – 89 - 54 – 44 – 48 – 36 – 54 – 65 – 52 – 62 – 86 – 51 – 19 – 15 – 32 – 12 –
58 – 62 – 58 – 98 – 32 – 54 – 58 – 28 – 86 – 84 – 76 – 40.

b) Estaturas de los asistentes a una fiesta de cumpleaños:


0,89 - 1,29 – 1,12 – 0,92 – 1,34 – 1,35 – 0,81 – 1, 29 – 1, 19 – 0,97 – 0, 94 –
1,35 – 0,
88 – 1,27 – 1,10 – 1,12 – 0, 90 – 1,39 – 0,81 – 1,29

c) Cantidad de horas que ven televisión a la semana los alumnos de 1° año:


10 - 13 - 15 - 19 - 24 - 12 - 13 - 15 - 20 – 24 - 12 - 13 - 18 - 24 - 27 - 29 - 36 -
32 - 30 – 35
2. El siguiente diagrama de tallo y hojas corresponde a la masa corporal (en kg) de
personas de varias edades:

a) ¿Cuál es la menor masa corporal de todo el grupo?


b) ¿Cuántas personas tienen una masa corporal mayor que 70 kg?
c) ¿Cuántas personas tienen una masa corporal entre 55 kg y 75 kg?
d) ¿A cuántas personas se les registró su masa corporal?

5
e) Si se selecciona una persona al azar de este grupo, ¿es más posible que su
masa corporal sea menor que 60 kg o mayor que 70 kg?
f) ¿Cuál es la masa corporal promedio de las personas que están entre 69 kg y
80 kg?

TABLAS DE FRECUENCIAS

Las Tablas de frecuencias son herramientas de Estadística donde se


colocan los datos en columnas representando los distintos valores recogidos
en la muestra y las frecuencias (las veces) en que ocurren.

ELEMENTOS DE LAS TABLAS DE FRECUENCIAS

Datos

Los datos son los valores de la muestra recogida en el estudio estadístico

Frecuencia absoluta

La frecuencia absoluta (fi) es el número de veces que aparece un


determinado valor en un estudio estadístico. Número de veces que se repite
el í-esimo valor de la variable. La suma de las frecuencias absolutas es igual
al número total de datos, que se representa por n

Frecuencia absoluta acumulada

La Frecuencia absoluta acumulada (Fi) es la suma de las frecuencias


absolutas de todos los valores inferiores o iguales al valor considerado.

Frecuencia relativa

La frecuencia relativa (fr) es la proporción de veces que se repite un


determinado dato.

La frecuencia relativa es el cociente entre la frecuencia absoluta de un


determinado valor y el número total de datos.

fr= fi/n
La suma de las frecuencias relativas es igual a 1.

6
Frecuencia relativa acumulada

La frecuencia relativa acumulada (Fr) es el número de observaciones menores o


iguales al í-esimo valor de la variable pero en forma relativa.

Ejercicio propuesto:

A continuación, se anotan los litros de combustible utilizados para realizar


un viaje en distintos días de un mes.

23 12 34 23 12 15 10 45 45 12 23 23 15 45 43 30

Completar la siguiente tabla de frecuencia:

Algunas interpretaciones de los datos recopilados:


-----------------------------------------------------------------------------------------------------------------
----------
-----------------------------------------------------------------------------------------------------------------
-----------------------------------------------------------------------------------------------------------------
-----------------------------------------------------------------------------------------------------------------
----------------
Representación gráfica de los datos recopilados:

7
4,5
4
3,5
3
2,5
Litros
2
1,5
1
0,5
0
10 12 15 23 30 34 43 45

Distribución de frecuencias agrupadas

La distribución de frecuencias agrupadas o tabla con datos agrupados se


emplea si las variables toman un número grande de valores o la variable es
continua.

Se agrupan los valores en intervalos que tengan la misma amplitud


denominados clases. A cada clase se le asigna su frecuencia
correspondiente.

Límites de la clase

Cada clase está delimitada por el límite inferior de la clase y el límite


superior de la clase.

Amplitud de la clase

La amplitud de la clase es la diferencia entre el límite superior e inferior de


la clase.

Marca de clase

La marca de clase es el punto medio de cada intervalo y es el valor que


representa a todo el intervalo para el cálculo de algunos parámetros. La
marca de clase se representa por xi y es el promedio entre los extremos del
intervalo.

Resolvamos el mismo ejemplo anterior pero utilizando datos agrupados:

23 12 34 23 12 15 10 45 45 12 23 23 15 45 43 30

8
Intervalos Fi Fr

Ejercicios Propuestos

1. Las calificaciones de alumnos en Matemáticas han sido las siguientes:

a- Construir la tabla de distribución de frecuencias.


b- Interpretar la fila 3.

2. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en
un examen de Física.

a- Construir la tabla de frecuencias.


b- Cuántos alumnos tienen puntaje superior a 38?
c- ¿Qué porcentaje de notas está entre 10 y 25?

9
Representaciones gráficas

Toda la información contenida en una tabla de frecuencias puede representarse


gráficamente, con el objetivo de describir con más simplicidad los datos
recolectados.

Las representaciones gráficas de los distintos tipos de frecuencias se hacen en un


sistema de coordenadas, donde, en el eje de las abscisas se colocan los valores de
la variable y en el eje de las ordenadas la frecuencia que va a representarse.

En el caso de una variable discreta, los gráficos que pueden construirse son los
siguientes:

Frecuencias
Absolutas

Histograma y Polígono de Frecuencias

Frecuencias
Relativas

Frecuencias Absolutas
Acumuladas

Polígono de frecuencias acumulativo

Frecuencias Relativas
Acumuladas

Para representar los distintos tipos de frecuencias absolutas se utiliza el


histograma de frecuencias y el polígono de frecuencias.

10
El histograma de frecuencias consiste en una serie de rectángulos, que tienen sus
bases en el eje de las x y de una amplitud igual a la longitud o amplitud de los
intervalos, y con centro en los puntos medios de cada intervalo.

La altura del rectángulo muestra la densidad de frecuencia y multiplicando la altura


por su base, obtenemos el área del rectángulo.
El área del rectángulo es proporcional a la frecuencia, esto vale cuando todos los
intervalos tienen la misma amplitud.
Construcción de un histograma para datos discretos
En primer lugar, se determina la frecuencia y la frecuencia relativa de cada valor x. Luego
se marcan los valores x posibles en una escala horizontal. Sobre cada valor, se traza un
rectángulo cuya altura es la frecuencia relativa (o alternativamente, la frecuencia) de dicho
valor.
La construcción de un histograma para datos continuos (mediciones) implica
subdividir el eje de medición en un número adecuado de intervalos de clase o clases, de tal
suerte que cada observación quede contenida en exactamente una clase.
Construcción de un histograma para datos continuos: anchos de clase iguales
Se determina la frecuencia y la frecuencia relativa de cada clase. Se marcan los límites
de clase sobre un eje de medición horizontal. Sobre cada intervalo de clase, se traza un
rectángulo cuya altura es la frecuencia relativa correspondiente (o frecuencia).

Construcción de un histograma para datos continuos: anchos de clase desiguales


Después de determinar las frecuencias y las frecuencias relativas, se calcula la altura de
cada rectángulo con la fórmula altura del rectángulo. Las alturas del rectángulo resultante
en general se conocen como densidades y la escala vertical es la escala de densidades. Esta
prescripción también funcionará cuando los anchos de clase son iguales.

• Histograma de frecuencias absolutas.

Representa la frecuencia absoluta mediante la altura de las barras.

• Histograma de frecuencias relativas.

Representa la frecuencia relativa mediante la altura de las barras.

Para construir uno, dado un conjunto de datos, debemos seguir los siguientes pasos.

11
• Dibujamos el eje de las abscisas de tal forma que incluya como mínimo el rango de
los datos y, posteriormente, dividimos este rango en los intervalos dados.

• Dibujamos el eje de las ordenadas representando las frecuencias absolutas o


relativas según sea el caso.

• Se dibujan los rectángulos de anchura igual y proporcional al intervalo (en nuestro


caso todos tendrán la misma anchura) y de altura igual a la frecuencia absoluta o relativa,
según sea el caso.

Polígono de frecuencia

Un polígono de frecuencias da la misma información de un histograma, para esto


graficamos un punto por cada clase del conjunto de datos en donde en la entrada de las
abscisas se toma el valor del punto medio de la clase y en la entrada las ordenadas tendrán
en mismo valor que la altura del rectángulo. Al final, unimos cada punto con su sucesor y
su antecesor.
Distintas formas de distribuciones de frecuencias
Una ventaja del polígono de frecuencias es que sugiere el uso de una curva suave, como una
representación idealizada de la distribución de la población.

Una muestra consta sólo de un número limitado de elementos y por lo tanto su distribución
será marcada con irregularidades y rupturas. Sin embargo si el tamaño de la muestra
aumenta y la amplitud de los intervalos disminuye, podemos trabajar con un polígono de
frecuencias más suavizado que se aproxima a una curva.
Curvas simétricas

Se caracterizan por el hecho de que las observaciones que equidistan del máximo central
tienen la misma frecuencia.

12
La curva tiene forma de campana y este modelo en forma de campana se denomina curva
de distribución normal o simplemente curva normal. Esta curva tiene muchísimas
características que ya describiremos.
Curvas asimétricas o sesgadas En estas curvas, la cola a un lado del máximo es mayor que

al otro lado.

Si la cola mayor se presenta a la derecha, se dice que es asimétrica a la derecha o que tiene
sesgo positivo

Si la cola más larga se encuentra ubicada a la izquierda, se dice que es asimétrica a la


izquierda o que tiene sesgo negativo.

13
Ejercicio Propuesto:

Dados los siguientes datos:


Edad Personas

Total:

Realizar el histograma de frecuencia absoluta, el histograma de frecuencias acumuladas y


sus respectivos polígonos de frecuencia.

14
ELEMENTOS DE ESTADÍSTICA DESCRIPTIVA

Medidas de posición y dispersión

En el capítulo anterior hemos visto cómo se construye una distribución de


frecuencias y cómo pueden representarse gráficamente las mismas.

Las distribuciones de frecuencias son estadísticas descriptivas, pero es más


interesante tener una sola medida como estadística.

Tanto de los datos clasificados como de los gráficos se desprende claramente que
hay determinados valores que se presentan más a menudo y otros menos
frecuentemente.

La mayoría de las representaciones gráficas toman la forma campanular, es obvio


que los valores característicos están en la parte central de las distribuciones.

Se utiliza la expresión medidas de tendencia central o medidas de posición o


promedios para referirnos a los valores que caracterizan la ubicación de la
distribución de frecuencias con respecto al eje de coordenadas, mientras que las
medidas de dispersión nos dan idea sobre la dispersión de los datos alrededor de
esos valores centrales.
Encontraremos ciertos números que sirven para describir un conjunto de datos. Si
el conjunto en estudio es la muestra, dichos números reciben el nombre de
estadísticas o estimadores y se utilizan para estimar características similares en
la población, de la cual fue obtenida la muestra, que se denominan parámetros.

Veremos media aritmética, moda y mediana dentro de las medidas de posición y


rango, variancia, desvío estándar y coeficiente de variación dentro de las
medidas de dispersión.

15
Medidas de posición

Las medidas de posición son cifras que describen la ubicación de las distribuciones
de frecuencias con respecto al eje de coordenadas.

 Media aritmética

La media aritmética de un conjunto de valores observados de una variable X , es la


suma de todos los valores dividida por el número total de observaciones.

Si trabajamos con una muestra:

Veamos un ejemplo:

En un examen calificado del 0 al 10, 3 personas obtuvieron 5 de nota, 5 personas


obtuvieron 4 de nota, y 2 personas obtuvieron 3 de nota. Calcular la nota media:

La media poblacional se notará con la letra y la fórmula de cálculo será:

 Moda

La moda es el valor que más se repite. También podemos decir que la moda es el

valor con mayor frecuencia absoluta o el valor que ocurre con más frecuencia. La

moda se representa con las letras:

Puede no existir o haber más de uno.

Cuando trabajamos con variable discreta la moda es aquel valor de , al cual le

corresponde la mayor frecuencia.(fi ).


Tomando como referencia el ejemplo anterior y observando la siguiente tabla de
frecuencias:

16
3 2

4 5
5 3

La Moda será entonces 4

 Mediana

Dado un conjunto de n observaciones, llamaremos mediana a aquel valor de la variable


que divide a la distribución en dos partes iguales, o sea aquel valor de xj que deja el 50%
de las observaciones por encima y el 50% por debajo.

Supongamos tener los siguientes datos ordenados

 Si n es impar

4 - 5 - 7 - 10 - 11 - 13 - 15

x1 x2 x3 x4 x5 x6 x7

Mediana: = 10

 Si n es par

4 - 5 - 8 - 10 - 11 - 12

x1 x2 x3 x4 x5 x6

17
Teniendo en cuenta nuestro ejemplo:

5, 5, 5, 4, 4, 4, 4, 4, 3, 3.

4+4
n es par → → =4

 Cuartiles
Son valores de la variable que dividen a la distribución en cuatro partes iguales.

Primer cuartil (Q1) Es aquel valor de la variable que deja el 25% de los datos por debajo

y el 75% por encima.

Segundo cuartil: coincide con la mediana.

Tercer cuartil: Es el valor de la variable que deja el 75% por debajo y el 25% por encima.

Características de la media, la moda y la mediana.


a- La media aritmética (promedio) es, de todas las medidas de posición, la que más se
usa y es sensible a los valores extremos.
b- La mediana definida como el valor que tiene igual número de observaciones a cada
lado, refleja la tendencia central de la muestra que no está influida por los valores
extremos.
c- La moda es el valor de la variable con mayor frecuencia absoluta.
En distribuciones simétricas las tres medidas de posición son aproximadamente iguales,
por lo que en estos casos se recomienda el uso de la media aritmética o promedio por ser
considerado el mejor estimador de la media poblacional.

18
Medidas de dispersión

Un promedio no proporciona información alguna para juzgar su


representatividad porque oculta la distribución real de los datos de una
serie. Por lo tanto, es de poca utilidad si no se proporciona el grado de
variación alrededor de él. Si se halla que la dispersión, con relación al valor
central, es muy grande, es decir que los valores están ampliamente
esparcidos, el promedio es entonces de poca utilidad como valor típico ya
que no representa a la mayoría de los datos con mucha claridad. Sin
embargo, si la dispersión es muy pequeña, o sea si los datos están muy
próximos al centro, el promedio es una medida representativa de la serie.

En resumen: el grado de variación de una serie debe medirse y ofrecerse


para conocer cuan representativo de la distribución es el promedio.

Se estudiarán entonces las medidas de dispersión o variación que son


aquellas que miden la distribución de los datos alrededor de un valor
central.

 Rango

x x
R max mín

Es la diferencia entre los valores extremos de la serie. Como medida de


dispersión es muy rudimentaria, pues depende sólo de dos valores del
conjunto, sin dar un idea de cómo se hallan distribuidos realmente los datos.

 Variancia

Es el promedio de los desvíos respecto a la media aritmética, elevados al cuadrado

19
 Desvío estándar

El desvío estándar de un conjunto de datos es la raíz cuadrada de la

variancia. El desvío estándar estará expresado en las mismas


unidades que la variable.

El desvío estándar es la medida de dispersión que mide el grado de


variabilidad de los datos alrededor de la media aritmética.

Significado de la desviación estándar


Para dar un significado a la desviación estándar es necesario anticiparse a
ciertos conceptos posteriores. Para un conjunto de datos obtenidos por
muestreo de una población normal (simétrica), se demostrará más
adelante, que cuando la muestra es grande, el intervalo de ( ̅ 2 S ) incluye
cerca del 95% de las observaciones.

Una muestra de esta población generalmente tiene un histograma que se


asemeja a la forma de una campana.

20
 Rango intercuartil
Es la diferencia entre el tercer y el primer cuartil
RI= Q3 – Q1
Es la medida de variabilidad adecuada para acompañar a la mediana.

 Coeficiente de variación
Es una medida de dispersión relativa, que se expresa en porcentaje.
Se utiliza para comparar la dispersión que tienen dos distribuciones con distintas
medias aritméticas o que están expresadas en distintas unidades.
Es una medida de dispersión independiente de las unidades en que está expresada
la variable.

21
Asimetría de la Distribución

Coeficiente de asimetría de Pearson

Curtosis
Indica que tan puntuda o achatada se encuentra una distribución respecto a un
comportamiento normal (distribución normal).

 Si los datos están muy concentrados hacia la media, la distribución es leptocúrtica


(curtosis mayor a 0).
 Si los datos están muy dispersos, la distribución es platicúrtica (curtosis menor a
0).
 El comportamiento normal exige que la curtosis sea igual a 0 (distribución
mesocúrtica).

22
Gráfico de cajas
El gráfico de caja (“box-plot” en inglés) es una forma de presentación estadística
destinada, fundamentalmente, a resaltar aspectos de la distribución de las observaciones
en una o más series de datos cuantitativos. Reemplaza, en consecuencia, al histograma y
a la curva de distribución de frecuencias sobre los que tiene ventajas en cuanto a la
información que brinda y a la apreciación global que surge de la lectura
Este gráfico utiliza una sola escala: la correspondiente a la variable de los datos que se
presentan. Es decir, no utiliza escala de frecuencias. Por lo tanto, no corresponde
asociarlo a los que utilizan el sistema de coordenadas cartesianas.
Los elementos que los constituyen son:

 La caja: Es un rectángulo que abarca el recorrido (o rango, o intervalo)


intercuartílico (RIC) de la distribución; o sea, el tramo de la escala que va desde el
primer cuartil (Q1) al tercer cuartil (Q3). Esto incluye el 50 % de las observaciones
centrales.
 Mediana: Se dibuja mediante una línea (Q2) dentro de la caja y a la altura de la
escala que corresponde al valor de esa medida.
 Bigotes: Son líneas que salen a los costados de la caja y que sirven como referencia
para ubicar las observaciones que están por fuera del 50 % central de la
distribución.
Involucra al dato mínimo y al dato máximo.

Este gráfico brinda información sobre la forma general de la curva: simetría, curtosis
(curvas más “afinadas” o más “aplanadas”), el punto de la mediana, la distribución de las
observaciones a ambos lados de los valores centrales y la presencia (y el/los valor/es)
de valores atípicos.

23
Se insiste que este gráfico no refiere la frecuencia para cada valor; pero, sí, con los
elementos señalados se puede inferir cómo se distribuyen esas frecuencias a lo largo de
la escala de referencia.
Es importante tener en cuenta los datos atípicos leves para poder hacer un gráfico lo más
acertado, para ello basta calcular valores

Y tener en cuenta estos valores al armar el gráfico.

Ejemplo

Propuesto:
Dada la siguiente tabla de datos realizar el gráfico de cajas y bigotes simple y el gráfico de
cajas con datos atípicos.
Edades f F
13 4 4
14 6 10

24
15 7 17
16 8 25
17 13 38
18 7 45
19 4 49
22 1 50
50

Datos mínimos necesarios para armar el gráfico:






Recuerda: para calcular rápido el Q1, Q2, Q3 primero convine determinar la posición de cada
cuartil para luego determina su valor.

25

También podría gustarte