Tema 5-Medidas de Variabilidad y Asimetría

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 25

FACULTAD DE CIENCIAS

EMPRESARIALES Y ECONÓMICAS

Medidas Estadísticas
de Variabilidad o Dispersión

ESTADÍSTICA GENERAL / ESTADISTICA I


Semestre 2024 – I
Variabilidad de los datos
Se tiene la distribución de los ingresos de los trabajadores de dos pequeñas
empresas
Empresa A Empresa B

Núm.Trabjadores Ingresos Ingresos


1 2000 500
500
El ingreso promedio de los
2 2000
trabajadores en ambas empresas
3 2100 1500
es la misma.
4 2100 1500
5 2050 6250

Ingreso Promedio 2050 2050

sin embargo la dispersion o


variabilidad de los ingresos en
dichas empresas es diferente.

Emp. A

Emp. B
MEDIDAS DE VARIABILIDAD O DE DISPERSION
Son aquellas que miden el grado de variabilidad de un conjunto de
datos con respecto a una medida de posición, con la que se
complementan para proporcionar una mejor interpretación de la
información. Existen dos tipos de medidas de dispersión:

a) Medidas de dispersión absoluta.


• Rango
• Rango Intercuartílico
• La Varianza y la Desviación Estándar

b) Medidas de dispersión relativa.


• Coeficiente de Variación
• Coeficiente de Asimetría
Medidas de dispersión absoluta

• Rango (R)
Rango o recorrido de la variable, es la diferencia entre el valor
máximo y el valor mínimo de los datos.
R = XMáximo – XMínimo

Proporciona una idea muy rápida de dispersión, pero es una


medida muy inestable.
• Rango Intercuartil (RIQ)
Mide la dispersión del 50% central de los datos, sin considerar el
25% inferior y superior de los mismos.
RIQ = Q3 - Q1 RIQ = P75 - P25
o
Medidas de dispersión absoluta

Amplitud o Rango
La diferencia ó distancia entre las observaciones
extremas
R = XMáx – XMín

 El rango es 100 – 40 = 60
 Es muy sensible a los valores extremos.

Rango intercuartílico
= 80 – 60 = 20
Es la distancia entre el primer y tercer cuartil. 25
%
25
% 5% 5%
2 2
 Rango intercuartílico =Q – Q =P – P
3 1 75 25
 Parecida al rango, pero eliminando el 25% de las
observaciones más extremas inferiores y superiores.
 No es afectada por los valores extremos.
 este indicador informa sobre de la dispersión que
hay en el 50% central de la distribución.
Medidas de dispersión absoluta

• Varianza S 2 = V (X)
Es el promedio de las desviaciones (distancias) cuadráticas de un
conjunto de datos de una variable, con respecto a su media aritmética.
Por dicha razón la varianza se expresa en unidades de medida al
cuadrado (soles2, mts.2, años2, etc.)
Varianza Poblacional

Varianza Muestral

a) Datos simples o no agrupados


𝒏 𝒏

∑ ( 𝑿𝒊− 𝑿
¯ ) 𝟐
∑ 𝑿𝟐 ¯𝟐
𝒊 −𝒏 𝑿
𝒔 𝟐 = 𝒊=𝟏 = 𝒊=𝟏
𝒏 −𝟏 𝒏 −𝟏
Medidas de dispersión absoluta
• Desviación estándar (S)
La desviación estándar es la raíz cuadrada de la varianza, y se
expresa en las mismas unidades de medida de los datos, por lo que
es mucho más fácil de interpretar.
La desviación estándar es una medida del grado de dispersión o
variación de los datos con respecto a su media.

: Desviación Estándar Poblacional

: Desviación Estándar Muestral


Ejemplo.
Se dispone de los datos acerca de las edades (en años) de una muestra de
8 clientes: 34, 37, 23, 34, 45, 56, 34, 22. Calcular la media , la varianza y la
desviación estándar.
Dato xi x i2 Primera forma:
8
x1 34 1,156
∑ ( 𝑥 ¿¿ 𝑖 − 𝑥)2 2 2
( 34 − 35.625) + …+( 22− 35.625)
2 𝑖 =1
x2 37 1,369 𝑠 = = ¿
𝑛 −1 8−1
x3 23 529 Primera forma:
8
x4 34 1,156
∑ 2
𝑥𝑖 −𝑛 𝑥
2

𝑖 =1
x5 45 2,025 𝑠2 = =11011 − 8 ¿ ¿
𝑛 −1
x6 56 3,136
De ambas expresiones se obtiene:
x7 34 1,156
𝟐 𝟐
𝒔 =𝟏𝟐𝟐 . 𝟓𝟓𝟑𝟔 𝒂 ñ 𝒐𝒔
x8 22 484
Suma 285 11,011 𝐬 =√ 122.5536 a ñ os 2=𝟏𝟏. 𝟎𝟕𝟎𝟒 𝐚 ñ 𝐨𝐬
8

∑ 𝑥𝑖 285
𝑥= 𝑖=1 = =35,625 𝑎 ñ 𝑜𝑠
𝑛 8
Medidas de dispersión absoluta
b) Datos en una tabla o agrupados

𝒌
𝑺 𝟐
=∑ ¿ ¿ ¿
𝒋 =𝟏

donde:

k : Numero de intervalos de clase en la tabla


Xj : Punto medio o marca de clase j

fj : Frecuencia simple de la clase j


Medidas de dispersión absoluta
Propiedades de la varianza:

 V(X) ≥ 0 . El valor de la varianza siempre es positivo.

 V(X) = V (k) = 0 ; si todas las observaciones son iguales, es decir


si Xi es una constante k, la varianza es cero.

 V(kX) = k2V(X) , k ≠ 0 ; si a cada observación se multiplica por una


constante, la varianza queda multiplicada por dicha constante al
cuadrado.

 V(kX ±c) = k2V(X) , c y k constantes con k ≠ 0

Si k = 1; V(kX ±c) = V(X)

 V( X ± Y ) = V(X) + V(Y), si X e Y son independientes. La varianza


de una suma o diferencia de dos variables es igual a la suma de las
varianzas de ambas variables.
Ejemplo
El siguiente cuadro representa los ingresos de 80 trabajadores de
una empresa. Calcular la varianza y la desviación estándar.
Sueldos fj Sueldos Xj fj Xj.fj Xj2.fj
90 130 15 90 130 110 15 1650 181500
130 170 22 130 170 150 22 3300 495000
170 210 24 170 210 190 24 4560 866400
210 250 15 210 250 230 15 3450 793500
250 290 4 250 290 270 4 1080 291600
Total 80 Total 80 14040 2628000

soles

2
2628000− 80∗ 175. 5 163980
2
𝑆= = =𝟐𝟎𝟕𝟓 .𝟔𝟗𝟔𝟐 𝒔𝒐𝒍𝒆𝒔𝟐
79 79
S=√ 2075.6962 𝑠𝑜𝑙𝑒𝑠2=𝟒𝟓 .𝟓𝟓𝟗𝟖 𝒔𝒐𝒍𝒆𝒔
Medidas de dispersión relativa
• Coeficiente de Variación (c.v)
Es una medida de dispersión relativa, representada por un índice o
numero abstracto (no tiene unidad de medida), que permite
comparar variabilidad de dos o más conjuntos de observaciones,
por lo que se usa como alternativa a la varianza. Esta medida se
expresa generalmente en porcentaje (%), y mientras menor es el
c.v de una variable, menor es la dispersión de los datos, es decir, es
más homogénea. Se define por:

𝒔
𝑪𝑽 ( 𝑿 )= . 𝟏𝟎𝟎 %
¯
| 𝑿|
Medidas de dispersión relativa

Escala de clasificación del Coeficiente de variación

Coeficiente de variación Grado de variabilidad

0% < CV < 5% Datos muy homogéneos

5 %≤ CV < 10% Datos homogéneos

10% ≤ CV < 15% Datos regularmente homogéneos

15% ≤ CV < 20% Datos regularmente heterogéneos

20% ≤ CV < 25% Datos heterogéneos

CV ≥ 25% Datos muy heterogéneos


Ejemplo
A continuación se presentan los ingresos promedios y las desviaciones
estándar de los sueldos de empleados y gerentes de la empresa ABC.

Medida Estadística Sueldo de los empleados Sueldo de los gerentes


Media 1850 9860
Desv
Desv. Est
Estandar 608
608 1150
1150

Coef Var 32.86% 11.66%

Lo que quiere decir, que en la empresa ABC, los sueldos de los gerentes
son mas homogéneos que los de los empleados, ya que su variación o
variabilidad es menor.
Ejemplo.
Las remuneraciones de los empleados de los hoteles LUX y ASTORIA que
pertenecen a la empresa hotelera HOTESA se presentan en las tablas de
frecuencia siguientes:
Hotel LUX Hotel ASTORIA
Número de Número de
Sueldo (soles) Sueldo (soles)
Empleados Empleados
[ 400 - 800 ) 60 [ 500 - 1000 ) 10
[ 800 - 1200 ) 35 [ 1000 - 1500 ) 30
[ 1200 - 1600 ) 5 [ 1500 - 2000 ) 10
Total 100 Total 50

a) Determine la varianza, desviación estándar y coeficiente de variación de las


remuneraciones de los empleados en cada uno de los hoteles de la
empresa HOTESA.
b) Si se acuerda aumentar las remuneraciones en el Hotel LUX en un 5% más
una gratificación de S/ 100, y en el Hotel ASTORIA, en 10%. Determine la
varianza, desviación estándar y coeficiente de variación de las
remuneraciones para cada hotel.
a) Determine la varianza, desviación estándar y coeficiente de variación de las
remuneraciones de los empleados en cada uno de los hoteles de la empresa
HOTESA.
Hotel LUX Hotel ASTORIA

Sueldo Número de Número de


Sueldo (soles)
(soles) Empleados Empleados
Xi fi Xi fi Xi 2fi Xi fi Xi fi Xi 2fi
[ 400 - 800 ) 600 60 36,000 21,600,000 [ 500 - 1000 ) 750 10 7,500 5,625,000
[ 800 - 1200 ) 1,000 35 35,000 35,000,000 [ 1000 - 1500 ) 1,250 30 37,500 46,875,000
[ 1200 - 1600 ) 1,400 5 7,000 9,800,000 [ 1500 - 2000 ) 1,750 10 17,500 30,625,000
Total 100 78,000 66,400,000 Total 50 62,500 83,125,000

2 66 400 000 −100 ( 780 2 ) 𝟐


𝑋 𝐿𝑈𝑋 =𝟕𝟖𝟎 𝒔𝒐𝒍𝒆𝒔 𝑆 𝐿𝑈𝑋 = =𝟓𝟔𝟏𝟔𝟏 . 𝟔𝟏𝟔𝟐 𝒔𝒐𝒍𝒆𝒔
100 − 1
𝑆 𝐿𝑈𝑋 =𝟐𝟑𝟔 .𝟗𝟖𝟒𝟒 𝒔𝒐𝒍𝒆𝒔

83 125 000 − 50 ( 125 0 2 )


𝑋 𝐴𝑆𝑇𝑂𝑅𝐼𝐴 =𝟏𝟐𝟓𝟎 𝒔𝒐𝒍𝒆𝒔 𝑆
2
𝐴𝑆𝑇𝑂𝑅𝐼𝐴 = =𝟏𝟎𝟐𝟎𝟒𝟎 . 𝟖𝟏𝟔𝟑 𝒔𝒐𝒍𝒆𝒔
𝟐
50 −1
𝑆 𝐴𝑆𝑇𝑂𝑅𝐼𝐴 =𝟑𝟏𝟗 .𝟒𝟑𝟖𝟑 𝒔𝒐𝒍𝒆𝒔
236.9844
𝐶𝑉 ( 𝑋 𝐿𝑈𝑋 )= ∗ 100 %=𝟑𝟎 . 𝟑𝟖 %
780 319.438 3
𝐶𝑉 ( 𝑋 𝐴𝑆𝑇𝑂𝑅𝐼𝐴 )= ∗100 %=𝟐𝟓 . 𝟓𝟔 %
1250
Luego, las remuneraciones de los trabajadores del Hotel Astoria son mas homogéneos que
las remuneraciones de los trabajadores del Hotel Lux.
b) Si se acuerda aumentar los sueldos en el Hotel LUX en un 5% más una
gratificación de S/ 100, y en el Hotel ASTORIA, en 10%. Determine el
coeficiente de variación de las remuneraciones para cada hotel.
𝑌 𝑖=1.05 𝑋𝑖+100 𝑌 𝑖=1.10 𝑋𝑖
𝑌 =𝑀 ( 𝑌 )=1.05 𝑀 ( 𝑋 ) +100 𝑌 =𝑀 ( 𝑌 )=1.10 𝑀 ( 𝑋 )
𝑌 𝐿𝑈𝑋 =1.05 ( 780 )+100=𝟗𝟏𝟗soles 𝑌 𝐴𝑆𝑇𝑂𝑅𝐼𝐴=1. 1 0 ( 125 0 )=𝟏𝟑𝟕𝟓 𝐬𝐨𝐥𝐞𝐬
2 2
𝑆 𝑌 =𝑉 ( 𝑌 ) =𝑉 ( 1.05 𝑋 +100 )=1.05 𝑉 ( 𝑋 ) 2 2
𝑆 𝑌 =𝑉 ( 𝑌 ) =𝑉 ( 1. 1 0 𝑋 )=1. 10 𝑉 ( 𝑋 )

¿ 1.05 2 ( 56161.6162 ) ¿ 1. 1 02 ( 102040.8173 )


𝟐
𝑆 2𝑌 (𝐿𝑈𝑋 ) =61918.18 19 𝒔𝒐𝒍𝒆𝒔 𝟐
2
𝑆 𝑌 ( 𝐴𝑆𝑇𝑂𝑅𝐼𝐴) =123469.3889 𝒔𝒐𝒍𝒆𝒔
𝑆 𝑌 (𝐿𝑈𝑋 ) = 248.8336 soles 𝑆 𝑌 ( 𝐴𝑆𝑇𝑂𝑅𝐼𝐴) = 351.3821 soles
2 48.8336 351.3821
𝐶𝑉 ( 𝑋 𝐿𝑈𝑋 )= ∗ 100 %=𝟐𝟕 . 𝟎𝟖 % 𝐶𝑉 ( 𝑋 𝐴𝑆𝑇𝑂𝑅𝐼𝐴 ) = ∗100 %=𝟐𝟓 . 𝟓𝟔 %
919 1375

Observación:
o La distribución de las remuneraciones de los trabajadores del Hotel Astoria son mas
homogéneos que la de los trabajadores del Hotel Lux (después del aumento) .
o En cuanto a la distribución de las remuneraciones del Hotel Lux, la homogeneidad después
del aumento es menor que antes de ello (las remuneraciones son más Justas); mientras que
en el caso del hotel Astoria, la distribución de las remuneraciones no sufrió variación alguna.
Medidas de Asimetría

Coeficiente de asimetría de Pearson


Mide el grado de oblicuidad de una distribución (deformación horizontal).
Es un valor que nos permite determinar que tan asimétrica es una
distribución y si esta asimetría es positiva o negativa. El cálculo de este
coeficiente se debe a Karl Pearson quien lo definió de la siguiente manera:

¯ − 𝑴 𝒐 𝟑( 𝑿
𝑿 ¯ − 𝑴 𝒆)
𝑪 𝑨= =
𝑺 𝑺
Observación:
i. Si ….. distribución simétrica
ii. Si ….. distribución asimétrica negativa
iii. Si ….. distribución asimétrica positiva
Medidas de Asimetría
• Distribución simétrica. Cuando su curva de frecuencia es simétrica
con respecto al centro de los datos, en este caso
X = Me = Mo.
Distribucion simetrica

9
8
7
6
Frequency

5
4
3
2
1
0

1 2 3 4 5 6 7
X

Nota: Para medir el valor del coeficiente de asimetría de una


distribución (de la que tenemos datos originales), utilizaremos el
software estadístico SPSS, cuyo cálculo lo hace en base al
planteado de Fisher.
Medidas de Asimetría
Distribución asimétrica positiva: Mo < Me < ¯
𝑋
Distribucion asimetrica positiva

8
Sesgo positivo
7

6
Frequency

1 2 3 4 5 6
X

Distribución asimétrica negativa: X < Me < Mo


Distribucion asimetrica negartiva

7
Sesgo negativo
6
Frequency

1 2 3 4 5 6
X
Diagrama de cajas
(Box Plot)

 Un diagrama de cajas es una herramienta gráfica que permite


analizar simultáneamente la variabilidad y la asimetría de los
datos de una muestra.

 Es muy útil también para comparar la variabilidad de dos o


más distribuciones, así como su nivel o promedio.

 También permite identificar los valores atípicos llamados


“Outliers” ó valores extremos.
Diagrama de cajas
(Box Plots)
Procedimiento de construcción
1. Trace horizontalmente (o verticalmente) una escala graduada adecuada.
2. Se traza un rectángulo con los extremos en el primer y tercer cuartil. Este
rectángulo contiene el 50% central de datos.
3. En la caja se traza una recta vertical ( u horizontal) en el lugar de la
mediana.
4. Se ubican los límites mediante el Rango Intercuartílico (RI=Q 3-Q1)
LI = Q1- 1.5(RI) y LS =Q3 + 1.5(RI).
Los datos que se encuentren fuera de estos límites son valores atípicos.
5. Se trazan dos lineas (bigotes) que parten de los extremos de la caja hasta
los valores mínimo y máximo dentro de los límites.
6. Por último se marcan con un asterisco (*) los valores atípicos localizados,
estos se conocen como “Outliers”.
Diagrama de cajas (Box Plots) Valor

2900
Atípico
EJEMPLO
2835

*
LS
Se tienen los salarios mensuales (en dólares) de 12
profesionales independientes.

2700
2210, 2255, 2350, 2380, 2380, 2390
2420, 2440, 2450, 2550, 2630, 2835 2630
Q3
Donde: Q1 = 2357.5 Q2 = 2405 (Mediana) Q3 = 2525

2500
RI =167.5 , LI = Q1 - 1.5(RI) = 2106.25

Mediana
LS = Q3 + 1.5(RI) = 2776.25

Q1

2300
2210

LI
2100
Ejemplo
El diagrama de caja muestra:
 La puntuación mediana es de
12,95.
* (23.0)  El rango intercuartílico esta entre
Q1 = 10,575 a Q3 = 17,24.
 Se muestra un valor atípico.
 El rango de los datos están entre
el valor Mínimo = 7,03 y el valor
atípico = 23.0.
 El hecho de que el área mas
grande de la caja esté por
encima de la Mediana indica que
los datos tienen un sesgo
ligeramente positivo. Esto es, la
cola derecha de la distribución es
más larga que la cola izquierda.
Ejemplo de comparación

También podría gustarte