ESTADISTICA11
ESTADISTICA11
Padre Arturo
SEGUNDO PERIODO - GRADO: UNDÉCIMO
ÁREA: ASIGNATURA:
MATEMÁTICAS ESTADÍSTICA
ESTANDAR:
Uso comprensivamente algunas medidas de centralización, localización, dispersión y
correlación (percentiles, cuartiles, centralidad, distancia, rango, varianza, covarianza y
normalidad).
INDICADOR DE DESEMPEÑO:
Explico de manera coherente todas las propiedades de las medidas de tendencia de dispersión y
las aplico a la cotidianidad.
EJES TEMÁTICOS:
1. Medidas de dispersión
2. Cuartiles y diagramas de cajas
3. Medidas de Forma
Estadística
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
MARCO TÉORICO
1. MEDIDAS DE DISPERSIÓN
ESTADÍSTICA DESCRIPTIVA
La Estadística descriptiva es la rama de las matemáticas que comprende la recopilación, tabulación,
análisis e interpretación de datos cuantitativos y cualitativos, para tomar decisiones que se requieran
a fin de que el comportamiento de los datos se mantenga dentro de los parámetros de control
establecidos.
La Estadística descriptiva proporciona un criterio para lograr mejoras, debido a que sus técnicas se
pueden usar para describir y comprender la variabilidad. Por ejemplo, consideremos en una caldera
de vapor la presión del combustible alimentado y la eficiencia de la caldera, si utilizamos
instrumentos de medición con la resolución suficiente, encontraremos que existe variabilidad en esos
parámetros, y mediante el uso de técnicas estadísticas podemos realizar mejoras para reducir la
variación en rendimiento de la caldera.
Para poder obtener consecuencias y deducciones válidas de los datos de un estadístico, es muy útil
contar con información sobre los valores que se agrupan hacia el centro y sobre que tan distanciados
o dispersos estén unos respecto a otros. Comenzaremos por definir estas medidas:
Para comprender el concepto de varianza, supóngase que tenemos los datos siguientes de los cuales
queremos saber que tan dispersos están respecto a su media:
Si tomamos la suma de diferencias de cada valor respecto a su media y las sumamos se tiene:
Por lo que tomando diferencias simples no es posible determinar la dispersión de los datos.
4 + 1 + 0 + 1 + 4 = 10
Es una medida que nos ayuda a comprender la variabilidad de los datos, que tan distanciados están
de la media
2
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
s2 (xin x1)2
( xi x ) 2
Para el caso de una muestra s
n 1
• Rango (R): es la diferencia positiva entre el valor mayor y el valor menor de un conjunto de
datos. Por ejemplo para el conjunto de datos siguiente:
2.0,2.1,2.4,2.5,2.6,2.8,2.9,2.9,3.0,3.1,3.6,3.8,4.0,4.0
4. Se desea hacer un estudio estadístico de la temperatura del agua, para esto es necesario
tomar una muestra y calcular la media, mediana, media acotada al 15%, desviación estándar,
rango y coeficiente de variación. Se realizan 14 observaciones arrojando los siguientes
resultados en ºC: 2.11, 3.8, 4.0, 4.0, 3.1, 2.9, 2.5, 3.6, 2.0, 2.4, 2.8, 2.6, 2.9, 3.0.
5. Calcular la media, mediana, desviación estándar, media acotada al 5%, desviación estándar,
rango y coeficiente de variación.
3
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
Cada conjunto de datos ordenado tiene tres cuartiles que lo dividen en cuatro partes iguales. El
primer cuartil es ese valor debajo del cual clasifica el 25% de las observaciones y sobre el cual se
encuentra el 75% restante. El segundo cuartil divide a los datos a la mitad similar a la mediana.
Los deciles separan un conjunto de datos ordenado en 10 subconjuntos iguales y los percentiles en
100 partes, la ubicación de un percentil se encuentra en:
P
Lp (n 1) 100
Donde:
Lp es el sitio del percentil deseado en una serie ordenada n es
el número de observaciones
P es el percentil deseado
3 10 19 27 34 38 48 56 67 74 4
12 20 29 34 39 48 59 67 74 7
14 21 31 36 43 52 62 69 76 9
15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
O sea que el percentil 35 está al 85% del trayecto comprendido entre la observación 17 que es 29 y la
observación 18 que es 31 o sea L35 = 29 + (0.85)(31-29) = 30.7. Por tanto el 35% de las
observaciones están por debajo de 30.7 y el 65% restante por encima de 30.7.
De la misma forma los percentiles 25, 50 y 75 proporcionan la localización de los cuartiles Q1, Q2 y
Q3 respectivamente.
• Q1: es el número que representa al percentil 25 (hay 25% de los datos por debajo de
este).
• Q2 o Mediana: es el número que representa al percentil 50 (hay 50% de los datos por
debajo de este).
• Q3: es el número que representa al percentil 75 (hay 75% de los datos por debajo de
este).
• Rango o Recorrido intercuartílico: es la diferencia entre Q1 y Q3.
2, 5, 3, 6, 7, 4, 9
2, 5, 3, 4, 6, 7, 1, 9
4
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto
tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable
estudiada.
Sx2=
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos
interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de
n, el valor n-1.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda
fórmula es una estimación más precisa de la desviación estándar verdadera de la población y posee
las propiedades que necesitamos para realizar inferencias a la población.
Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud
como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la
distribución.
Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
5
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy
alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo
serán.
Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a
0.
Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será
detectado.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión
relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando
el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de
dos o más grupos. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya
media es de 69,6 kg. y su desviación típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y
195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué
distribución es más dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas
observamos que la desviación típica de la tensión arterial es mucho mayor; sin embargo, no podemos
comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los
coeficientes de variación:
CV de la variable peso =
CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre cuando los
valores de su media y mediana están próximos), se usan para describir esa variable su media y
desviación típica. En el caso de distribuciones asimétricas, la mediana y la amplitud son medidas más
adecuadas. En este caso, se suelen utilizar además los cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición. El percentil
es el valor de la variable que indica el porcentaje de una distribución que es igual o menor a esa cifra.
Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de sí al 80%
del total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de sí el
25%, 50% y el 75% del total de las puntuaciones y así tenemos por tanto el primer cuartil (Q1), el
segundo (Q2) y el tercer cuartil (Q3).
6
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
Resumen
a. Define la población.
b. Define la muestra.
15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13.
2. El número de estrellas de los hoteles de una ciudad viene dado por la siguiente serie:
3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 1,
3, 2, 2, 3, 3, 3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4,
Peso [50, 60) [60, 70) [70, 80) [80,90) [90, 100) [100, 110) [110, 120)
fi 8 10 16 14 10 5 2
a) Construir la tabla de frecuencias.
b) Encuentre los cuartiles
c) Encuentre los deciles: 4,5,7,9
d) Encuentre los percentiles: 23, 37, 60, 82
e) Halle el Varianza, Desviación típica y Coeficiente de variación.
f) Dibujar el histograma y el polígono de frecuencias.
7
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
4. El resultado de lanzar dos dados 120 veces viene dado por la tabla:
Sumas 2 3 4 5 6 7 8 9 10 11 12
Veces 3 8 9 11 20 19 16 13 11 6 4
2. DIAGRAMA DE CAJA
El diagrama de tallo y hoja y el histograma proporcionan una impresión visual general del conjunto de
datos, mientras que las cantidades numéricas tales como 𝑋𝑋̅ o S brindan información sobre una sola
característica de los datos. El diagrama de caja es una presentación visual que describe al mismo
tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión,
la simetría o asimetría y la identificación de observaciones atípicas.
El diagrama de caja representa los tres cuartiles, y los valores mínimo y máximo de los datos sobre
un rectángulo (caja), alineado horizontal o verticalmente.
Construcción:
1. El rectángulo delimita el rango intercuartílico con la arista izquierda (o inferior) ubicada en el
primer cuartil Q1, y la arista derecha (o superior) en el tercer cuartil Q3.
2. Se dibuja una línea a través del rectángulo en la posición que corresponde al segundo cuartil
(que es igual al percentil 50 o a la mediana), Q2 = Md.
3. De cualquiera de las aristas del rectángulo se extiende una línea, o bigote, que va hacia los
valores extremos (valor mínimo y valor máximo). Estas son observaciones que se encuentran
entre cero y 1.5 veces el rango intercuartílico a partir de las aristas del rectángulo.
4. Las observaciones que están entre 1.5 y 3 veces el rango intercuartílico a partir de las aristas
del rectángulo reciben el nombre de valores atípicos. Las observaciones que están más allá de
tres veces el rango intercuartílico a partir de las aristas del rectángulo se conocen como valores
atípicos extremos. En ocasiones se emplean diferentes símbolos (como círculos vacíos o
llenos), para identificar los dos tipos de valores atípicos.
A veces, los diagramas de caja reciben el nombre de diagramas de caja y bigotes. Nótese que el
rectángulo o caja representa el 50% de los datos que particularmente están ubicados en la zona
central de la distribución. La caja representa el cuerpo de la distribución y los bigotes sus colas.
La Figura 1 presenta esquemáticamente un diagrama de caja indicando sus partes. Del diagrama
se interpreta que la distribución de los datos es asimétrica por la derecha, ya que la longitud de los
rectángulos por debajo y por encima de la mediana así como los bigotes indican que los datos están
más agrupados en sus valores inferiores que en los superiores y además se observa que
𝑋𝑋̅ >Md. También destaca la existencia de dos valores atípicos en el extremo superior de los datos.
8
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un
colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
CALCULO DE CUARTILES
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20
resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que
ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media
aritmética de dicho valor y el siguiente:
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro
caso, como 3N / 4 = 15, resulta
Q2=(39 + 39) / 2 = 39
9
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades
comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más
jóvenes están más concentrados que el 25% de los mayores.
(i) 65%
(ii) 60%
2. Harika tira 3 dados y suma los puntajes respectivos. Ella registra dicha suma de puntajes para
50 tiradas. Los puntajes obtenidos en cada tirada se muestran abajo (recordar que cada
número corresponde a la suma de los puntajes de los tres dados, por tirada). Representar los
datos en un diagrama de caja y bigotes. Encontrar tanto el rango de todos los datos como el
rango intercuartil.
9,10,12,13,10,14,8,10,12,6,8,11,12,12,9,11,10,15,10,8,8,12,10,14,10,
9,7,5,11,15,8,9,17,12,12,13,7,14,6,17,11,15,10,13,9,7,12,13,10,12
ACTIVIDAD COMPLEMENTARIA N°3 FECHA DE ENTREGA: _________________
1. Los diagramas de caja y bigotes mostrados abajo representan los tiempos hechos por cada
alumno de una clase durante una carrera de 150 yardas con obstáculos. Los tiempos se han
separado según género, es decir, tanto para el grupo de muchachos como para el de
muchachas. Cada uno de dichos grupos cree que posee los mejores tiempos. Determinar el
resumen de cinco números para cada grupo. Proporcionar un argumento convincente para
cada grupo.
10
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
3. MEDIDAS DE FORMA
Proporcionan un valor numérico para saber hacia qué lado de la distribución hay mayor acumulación
de frecuencias y si la concentración central de frecuencias es mayor que en los extremos o viceversa
sin tener que graficar los datos.
Momento Respecto de la Media: El r-ésimo momento respecto a la media aritmética es:
El primer momento respecto a la media (r=1) siempre es igual a cero.
El segundo momento respecto a la media (r=2) es la varianza poblacional.
Sesgo: Es el grado de asimetría que tiene la distribución. La distribución puede ser:
Moda=Mediana=Media
Insesgada
Mediana
Media
11
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
- Con sesgo negativo o a la izquierda: Si la mayor acumulación está a la derecha y tiene una cola
larga a la izquierda.
Media
Coeficiente Momento de Sesgo (a3): se calcula dividiendo el tercer momento respecto a la media
entre la desviación estándar al cubo:
Curtosis: Mide qué tan puntiaguda es una distribución, con respecto a la Normal.
La distribución puede ser:
Mesocúrtica: solo la distribución Normal (es el término medio).
Leptocúrticas: Las distribuciones más puntiagudas que la Normal.
Platocúrticas: Las distribuciones menos puntiagudas que la Normal.
Coeficiente momento de curtosis (a4): se calcula dividiendo el cuarto momento respecto a la media
entre la varianza al cuadrado (o la desviación estándar a la cuarta).
Datos No Agrupados:
MEDIDAS DE CONCENTRACIÓN
12
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
Consideremos que la variable en cuestión es el salario. Una distribución muy concentrada indica que
pocos individuos reciben la mayor parte del total, mientras que poca concentración supone que todos
los individuos tienen un reparto igualitario.
Indice de Gini:
Curva de Lorenz:
Se grafican los valores de la proporción acumulada de individuos (p) y la proporción acumulada del
total de la variable (q).
Cuanto más se acerque la Curva de Lorenz a la diagonal, más igualitario será el reparto (Ig =
0). Cuanto más se acerque la Curva de Lorenz al triángulo inferior, más concentrada esta la
variable (Ig = 1).
q
El Índice de Gini calcula el área entre la diagonal y la Curva de Lorenz, como un porcentaje del área
del triángulo inferior de la gráfica (mide la desigualdad relativa).
La información que se presenta a continuación representa el salario de los 300 empleados de una
empresa y nos interesa saber la concentración de los datos.
Como podemos observar el resultado refleja que no hay mucha concentración de los datos, es decir,
los datos se encuentran bien distribuidos.
13
SEGUNDO PERIODO
COLEGIO CAMPESTRE PADRE ARTURO 11° ESTADÍSTICA
Xi 5 10 15 20 25
ni 3 7 5 3 2
2. Calcular todas las medidas de dispersión para los datos de la siguiente distribución
EVALUACION
• Desarrollo de las guías de trabajo
• Trabajos en clase y fuera de ella, con situaciones problemitas de contexto real
• Participación en clase
• Desarrollo del taller de aprendizaje
• Observación directa de los estudiantes en su desempeño en clase
• Simulaciones
• Quiz
BIBLIOGRAFIA:
• Norma Matemáticas Para Pensar/Grupo Editorial Norma 11°/2014
• Guía Del Docente/Glifos 11°/2013
• Hacia la Matemática/Un Enfoque Estructurado/ Yu Takeuchi”/Universidad Nacional
Estadística /Departamento De Matemáticas/Jesús Hernando Pérez/ Universidad Nacional
• Estadística Y Muestreo/Ciro Jiménez/Editorial Pearson/2015
WEBGRAFÍA
• https://www.ck12.org/section/Diagramas-de-Caja-y-Bigotes/
http://www.estadisticaparatodos.es/taller/graficas/cajas.html
14