Estadística 1 - Unidad III

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 31

UNIDAD III

 Medidas de tendencia central.


 Medidas de posición o Localización.
 Medidas de dispersión.
 Medidas de posición y dispersión para datos agrupados.
 Posición relativa (forma de la distribución).
 Diagramas de cajas.
 Resumen de 5 números.
Medidas de tendencia central.

Son medidas que tienden a localizar en qué punto se


encuentra la parte central de un conjunto ordenado de
datos de una variable cuantitativa.
Las medidas de tendencia central son los valores más
característicos de un conjunto de datos, que se ubican
generalmente en el centro de las distribuciones de
frecuencias.
Entre las mas utilizadas están la media, mediana y
moda.
Medidas de Posición o Localización.
MEDIA (media aritmética o valor promedio): Es
la medida de localización más importante. Si los
datos son datos de una muestra, la media se denota
x̄ ; si son datos de una población, la media se denota
con la letra griega μ.
Ejemplo: Los siguientes 50 datos constituyen una muestra del número en
horas entre la recepción de la queja y su solución.

1) Cuál es la variable de interés, de qué tipo es?


2) Cuál es la población y la muestra?
3) Cuál es la media? Interprete su valor.
Solución.
4) Número de horas entre las recepciones de las quejas y su solución.
5) Población: Todas las horas que se registran. Muestra: las 50 horas que se registran.
6)
𝑛
54+5+…+68 2152
´𝑥  =∑ 𝑥 𝑖= = =43,04
𝑖=1 50 50
Interpretación: los clientes esperaron en promedio 43,04 hs entre la llamada y la
solución se su problema
Mediana(Me). La mediana es otra medida de localización central. Es el valor de
la mitad en los datos ordenados de menor a mayor (en forma ascendente). Es
decir; deja tanto a la izquierda como a la derecha la mitad de los valores.
a) Si el número de observaciones es impar, la mediana es el valor de el medio.
b) Si el número de observaciones es par, la mediana es el promedio de las dos
observaciones de el medio

Ejemplo: supongamos que se tiene las edades de 11 jugadores de fútbol:


29,31,20,19,26,25,26,30,18,23,26. Cuál es la mediana?

Solución: primero ordenamos los valores de menor a mayor (también se pueden


ordenar de mayor a menor). En este caso la cantidad de observaciones es impar, por
tanto la mediana es:
18,19,20,23,25,26,26,26,29,30,31.

Me=26 años

si la cantidad de datos es par: 18,18,19,20,23,25,26,26,26,29,30,31


Me=(25+26)/2=25,5 años
Moda (Mo). Es el valor que se presenta con mayor frecuencia. Es decir; el valor
cuya frecuencia absoluta o relativa es mayor.
Ejemplo: retomemos los 12 datos anteriores. 18,18,19,20,23,25,26,26,26,29,30,31
Mo=26 años.

• PERCENTILES.
El percentil p es un valor tal que por lo menos p por ciento de las observaciones son
menores o iguales que este valor y por lo menos (100 - p) por ciento de las
observaciones son mayores o iguales que este valor.
Es una medida de posición no central. Los percentiles pi son los 99 puntos que
dividen una serie de datos ordenada en 100 partes iguales, es decir, que contienen
el mismo número de elementos cada una. El percentil 50 es la mediana.
Ejemplo: calcular los percentil 85 y 50 de los siguientes datos.

Solución:
Percentil 50.

¿Cómo interpretamos los percentiles?

• CUARTILES
Son los tres elementos de un conjunto de datos ordenados que dividen el conjunto
en cuatro partes iguales. Cada parte contiene el 25% de las observaciones

Características de los cuartiles


• El cuartil 1 (Q1) es el percentil 25 (P25).
• El cuartil 2 (Q2) es la mediana y el percentil 50 (P50).
• El cuartil 3 (Q3) es el percentil 75 (P75).

Ejemplo: calculemos los cuartiles para los datos de los sueldos


Q1 (p25) Q2 (mediana) Q3 (p75)

Q1 =(3450 +3480)/2 =3465


Q2 =(3490 +3520)/2= 3505
Q3 =(3550= 3650)/2 =3600

¿ Cómo se interpretan los cuartiles ?

EJERCICIO: Calcular los cuartiles para los siguientes datos. Interpretar


estos valores.
Ejercicios en clase. Del libro Estadística para la Administración y Economía,
realizar los ejercicios de las páginas 88 a 91.

MEDIDAS DE DISPERSIÓN (VARIABILIDAD)

Las medidas de dispersión o medidas de variabilidad muestran la variabilidad de


un conjunto de datos, indicando la mayor o menor concentración de datos respecto a
las medias de centralización.
• Rango (o recorrido). Es la medida de variabilidad más sencilla. Es la diferencia
entre valor máximo y el valor mínimo.

Rango=xmax-xmin

Ejemplo: retomando los datos de los sueldo mensuales iniciales. El rango es:
Rango=3925-3310=615.

Aunque el rango es la medida de variabilidad más fácil de calcular, rara vez se usa como
única medida. La razón es que el rango se basa sólo en dos observaciones y, por tanto,
los valores extremos tienen una gran influencia sobre él. Suponga que uno de los recién
egresados haya tenido $10 000 como sueldo inicial, entonces el rango será 10 000 3310
6690 en lugar de 615. Un valor así no sería muy descriptivo de la variabilidad de los
datos ya que 11 de los 12 sueldos iniciales se encuentran entre 3310 y 3730.

• Rango intercuartílico (RIC).

Esta medida no es afectada por los valores extremos, se calcula como:


RIC=Q3 -Q1. Es el rango en que se encuentra el 50% central de los datos.

RIC=Q3 -Q1 =3600-3465=135.


• Varianza (s2 )
Mide la dispersión de los datos de una muestra respecto a la media. La varianza es
una medida de variabilidad que utiliza todos los datos. La varianza está basada en
la diferencia entre el valor de cada observación (xi ) y la media. A la diferencia
entre cada valor xi y la media llama desviación respecto de la media.

Ejemplo: Retomando los datos de los sueldos iniciales de 12 recién egresados


de la carrera de administración. Se vio que la media muestral de los sueldos
mensuales iniciales era 3540. En la tabla se muestra el cálculo de la varianza
muestral (s2 = 27440.91).
• Desviación estándar (desviación típica) (s)
La desviación estándar se define como la raíz cuadrada positiva de la varianza.
Mide el promedio de las desviaciones de los datos respecto a la media en las
mismas unidades de los datos.

Ejemplo: retomando la varianza antes calculada (s 2 = 27440.91). Para obtener el


desvío estándar (desviación estándar), solo debemos sacar raíz cuadrada a la
varianza.
Coeficiente de variación (cv): Es una medida relativa de la variabilidad. El cv
suele usarse para comparar el grado de dispersión de dos o más conjuntos de
datos; incluso si tienen medidas diferentes. De dos conjuntos de datos, el más
homogéneo (menos disperso) es el que tiene menor coeficiente de variación.

  d esviaci ó n   est á ndar 𝑠


𝑐𝑣= ∗100 %= ∗100 %
𝑚𝑒𝑑𝑖𝑎 ´𝑥
Ejemplo: Una muestra de alumnos tiene una estatura media de 160 cm con una
desviación estándar de 16 cm. Estos mismos alumnos, tienen un peso medio de
70 kg con una desviación estándar de 14 kg. ¿Cuál de las 2 variables presenta
mayor variabilidad relativa?

Estatura (E) Peso (p)

14 kg

Por tanto, se puede decir que en esta muestra de alumnos el peso tiene
mayor variabilidad que la estatura.
Medidas de posición y dispersión para datos agrupados
𝑛 𝑛

  ∑
𝑖=1
𝑓𝑎 𝑖 ∗ 𝑥 𝑖   ∑ 𝑚𝑐𝑖 ∗ 𝑓𝑎𝑖
𝑖=1
𝒎𝒆𝒅𝒊𝒂 = 𝒎𝒆𝒅𝒊𝒂 =
𝑛 𝑛

 
Mediana(Me)

Límite inferior de la clase mediana


Es la frecuencia absoluta acumulada de la clase «anterior» a la
clase mediana
i Es la frecuencia de la clase mediana
i Es la amplitud de la clase mediana

 Moda(Mo)

Límite inferior de la clase modal


Es frecuencia absoluta de la clase modal
Es la frecuencia absoluta anterior de la clase modal
Es la frecuencia absoluta posterior de la clase modal
ai Es la amplitud de la clase mediana
   

Ejemplo. NRF/BIG proporciona los resultados de una investigación sobre las


cantidades que gastan en vacaciones los consumidores (USA Today, 20 de diciembre
de 2005). Los datos siguientes son las cantidades gastadas en vacaciones por los 25
consumidores de una muestra. Calcular las medidas de posición, la varianza y desvío.

Gastos mc fa fr FAA FRA %


0-250 125 3 0,12 3 0,12 12
250-500 375 5 0,20 8 0,32 20
500-750 625 7 0,28 15 0,60 28
750-1000 875 4 0,16 19 0,76 16
1000-1250 1125 3 0,12 22 0,88 12
1250-1500 1375 1 0,04 23 0,92 4
1500-1750 1625 0 0,00 23 0,92 0
1750-2000 1875 1 0,04 24 0,96 4
2000-2250 2125 1 0,04 25 1 4
Total 25 1 100
Solución:
Gastos mc fa FAA
0-250 125 3 3 375 396900 1190700
250-500 375 5 8 1875 144400 722000
500-750 625 7 15 4375 16900 118300
750-1000 875 4 19 3500 14400 57600
1000-1250 1125 3 22 3375 136900 410700
1250-1500 1375 1 23 1375 384400 384400
1500-1750 1625 0 23 0 756900 0
1750-2000 1875 1 24 1875 1254400 1254400
2000-2250 2125 1 25 2125 1876900 1876900
Total 25 18875 6015000

18875
´𝑥  = =755
25
  (7 −5) 2
𝑀𝑜=500+
( )
( 7 −5 )+(7 − 4)
∗ 250=500+
2+3( )
∗ 250=600

  Calculamos primero este valor debemos ubicarlo en las FAA para obtener
El intervalo para la mediana

  s=
Ejercicio. La distribución de edades del Censo Electoral de Residentes a 1 de enero
de 1999 para las comunidades autónomas de Aragón y Canarias, en tantos por ciento,
es la siguiente: para los siguientes datos calcular las medidas de posición, dispersión y
el cv. Interpretar los resultados.

Edades Aragón Canaria

16-18 3,55 4,35

18-30 21,56 29,99

30-50 31,63 35,21

50-70 28,14 21,97

70-90 15,12 8,48

a) Calcula la edad media para las dos comunidades. Compáralas. ¿Qué indican estos
resultados?
b) ¿En qué comunidad las edades son más dispersas?
Edades Mc fa FAA Media Var fa FAA Media Var
Aragón Aragón Aragón Aragón Canaria Canaria Canaria Canaria

16-18 17 355 355 6035 328293 435 435 7395 271440

18-30 24 2156 2511 51744 1181549 2999 3434 71976 969518

30-50 40 3163 5674 126520 173674 3521 6955 140840 13804

50-70 60 2814 8488 168840 446042 2197 9152 131820 713411

70-90 80 1512 10000 120960 1605907 848 10000 67840 1225801

Total 10000 474099 3735465 419871 3193974

Aragón canarias
474099 419871
´𝑥  = =47,41 ´𝑥  = =41,98
10000 10000

   
s= s=
Aragón
  (3163− 215 6) 1007
𝑀𝑜=30+
( ( 3163 −2156 )+(3163 −2814) )
∗20=30+
1356 (
∗ 20=44,85 )
  Calculamos primero este valor debemos ubicarlo en las FAA para obtener
El intervalo para la mediana

Canarias

  (3521 −2999) 261


𝑀𝑜=30+
( )
( 3521 −2999 ) +(3521− 219 7)
∗ 20=30+ ( )
923
∗ 20=35,65

  Calculamos primero este valor debemos ubicarlo en las FAA para obtener
El intervalo para la mediana

b)???
Cuartiles para datos agrupados

 
Límite inferior de la clase mediana
Es la frecuencia absoluta acumulada de la clase «anterior» a la
clase mediana
i Es la frecuencia de la clase mediana
i Es la amplitud de la clase mediana

mediana
Ejemplo. Cálculo de los cuartiles para Aragón

  Calculamos primero este valor debemos ubicarlo en las FAA para obtener
El intervalo para el primer cuartil. Intervalo (18-30)

29,94

Calculamos primero este valor debemos ubicarlo en las FAA para obtener
El intervalo para la mediana. Intervalo (30-50)

Calculamos primero este valor debemos ubicarlo en las FAA para obtener
El intervalo para el tercer cuartil. Intervalo (50-70)

CALCULAR LOS CUARTILES PARA CANARIAS


Posición relativa (forma de la distribución).

Asimetría (sesgo): Es la medida que indica la simetría de la distribución de


una variable respecto a la media. Los coeficientes de asimetría indican si hay el mismo
número de elementos a izquierda y derecha de la media.
Hay tres clases de asimetría.
Curtosis (apuntamiento): Este coeficiente indica la cantidad de datos que
hay cercanos a la media, de manera que a mayor grado de curtosis, más
apuntada será la forma de la curva.
Las curvas se clasifican en tres clases.
• Leptocúrtica: curtosis>0. Los datos están muy concentrado cerca de la
media, la forma de la curva es apuntada.
• Mesocrtica: curtosis=0. Distribución Normal.
• Platicúrtica: curtosis<0. Hay poca concentración de los datos
alrededor de la media. La forma de la curva es achatada
Ejemplo: Medido el número de errores en la prueba de coordinación visual
del test psicotécnico del carnet de conducir en una muestra aleatoria de diez
conductores con edades comprendidas entre los 20 y 30 años y en otra de
diez conductores con edades entre 60 y 70 años, se encuentra la siguiente
distribución de frecuencias:

a) ¿Cuál de los grupos comete mayor número de errores?


b) ¿Cuál de las distribuciones es más homogénea?
c) Comente el grado de asimetría y curtosis en cada una de las
distribuciones de la gráfica.
a) Como se aprecia, cometen un mayor número de errores los conductores
con edades comprendidas entre 60 y 70 años.
b) Es más homogénea la distribución de los conductores de 20-30 años.
Obsérvese que la mayoría de estos sujetos (el 70 por 100) solamente
cometen un error en la prueba, mientras que en la distribución de
conductores de 60-70 años por término medio se cometen cuatro
errores, pero hay varios sujetos (el 35 por 100) que cometen más de
cuatro errores.
c) La distribución de conductores de 20-30 años presenta asimetría
positiva y la de conductores con 60-70 años es simétrica.
Adicionalmente, la distribución de conductores de 20-30 años presenta
mayor apuntamiento o curtosis que la de conductores de 60-70 años,
que es mesocúrtica.
Diagrama de cajas (Box-plot)

es un gráfico utilizado para representar una variable cuantitativa.


El gráfico es una herramienta que permite visualizar, a través de
los cuartiles, cómo es la distribución, su grado de asimetría, los valores
extremos, la posición de la mediana, valores máximo y mínimo.
Los diagramas de caja son muy útiles para comparar una variable en
diferentes grupos.

Paso a seguir para la construcción del gráfico.


• Calcular los cuartiles.
• Calcular el rango intercuartílico. RIC=Q3 -Q1.
• Calcular límites inferior y superior, para determinar los valores
extremos.
LI= Q1 -1,5*RIC
LS=Q3 +1,5*RIC
• Mínimo y máximo.
Resumen de 5 números.
Se usa para resumir datos y construir el box-plot.
1. Mínimo
2. Máximo
3. Cuartil uno
4. Mediana
5. Cuartil 3

Ejemplo: Considere una muestra cuyos valores son 5, 15, 18, 10, 8, 12, 16,
10, 6. Dé el resumen de cinco números de estos datos. (asimetría=0,19,
curtosis=-1.32)
a) Haga el resumen de 5 números.
b) Construya el gráfico.
c) Interprete la asimetría y curtosis.

Solución.
d) Debemos ordenar los datos de menor a mayor
5, 6, 8, 10, 10, 12, 15, 16, 18
Mínimo 5
Máximo 18
Q1 8
Mediana 10
Q3 15

b) Para construir el gráfico debes construir los límites, para determinar


puntos Ve
extremos.
rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estud

RIC=15-8=7 Ve rsión Estudia19ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estud
LI=8-1.5*7= -2,5 18 18
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve
LS=15+1.5*7=25,5 17 Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estud
Ve rsión Estudia ntil Ve rsión
16
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve
Ve rsión Estudia ntil 15 Estudia ntil
Ve rsión 15 Ve rsión Estudia ntil
Ve rsión Estudia ntil Ve rsión Estud
Ve rsión Estudia
14ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve
Ve rsión Estudia ntil Ve rsión
13 Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estud
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve
12
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estud
10
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión10Estudia ntil Ve rsión Estudia ntil Ve
9
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estud
8
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión 8Estudia ntil Ve rsión Estudia ntil Ve
7
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estud
6
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve
5 Estudia ntil Ve rsión Estudia ntil5 Ve rsión Estudia ntil Ve rsión Estud
Ve rsión Estudia ntil Ve rsión
Ve rsión Estudia ntil
4 Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estud
Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve rsión Estudia ntil Ve
c) (asimetría=0,19, curtosis=-1.23)
asimetría: los datos presentan una asimetría positiva. Pero es muy
pequeña, en el diagrama se observa que los brazos son prácticamente
iguales. Los datos están acumulados por debajo de la media, hay mayor
concentración en valores inferiores.
Curtosis: los datos presentan una curva Platicúrtica. Hay poco
concentración de los datos alrededor de la media.

Ejercicio: página 107 libro Anderson.

También podría gustarte