Cap 3
Cap 3
En el capítulo anterior se han estudiado aquellos valores que representan la tendencia central o posición
predominante de los valores de la variable. Pero estas características, como la media aritmética o la mediana,
por ejemplo, son insuficientes Para describir convenientemente una serie de datos. Si Bien nos dicen mucho
sobre la distribución, de ningún modo nos dan una idea completa. Si, por ejemplo, fuera necesario comparar
dos distribuciones y solamente nos valiéramos del promedio, las conclusiones que se sacarían podrían ser
totalmente erróneas.
Dos distribuciones pueden tener la misma media aritmética y ser, sin embargo, muy distintas la una de la otra,
en su "dispersión". Los valores de una pueden variar muy poco con respecto a su media, mientras que los de la
otra pueden variar mucho. Así, aunque en dos países la "renta media" por habitante sea igual a U$S 4000, por
ejemplo, la distribución de los ingresos podría ser muy distinta, si en uno las rentas oscilan entre U$S 3500 y
U$S 4500 y en el otro, entre U$S 1000 y U$S 7000.
El promedio no nos dice nada sobre si los valores pequeños de una distribución son más numerosos que los
mayores, ni si las diferencias entre los distintos elementos varían o no regularmente, ni tampoco si son grandes
o por el contrario son de escasa significación
Aún más, dos distribuciones de datos pueden ser simétricas y tener las mismas medias, medianas y modas,
pero pueden diferenciarse marcadamente en la distribución de los valores individuales. Por ello la manera
coma un carácter varia cuantitativamente en un conjunto de individuos solo puede saberse mediante un
análisis numérico del conjunto, estudio que tiende a darnos una idea general de la "variabilidad"
En efecto, interesa conocer si las distintas medidas obtenidas difieren entre si macho o poco, si existe una
tendencia marcada a concentrarse alrededor de un valor medio o, por el contrario, si se esparcen a todo lo
largo de los valores hallados.
A los efectos prácticos de poder aclarar este concepto tan importante en un análisis estadístico se desarrolla el
siguiente ejemplo práctico:
Sean dos muestras pertenecientes a grupos de personas cuyas estaturas se han recopilado y que han dada
lugar a la conformación de las siguientes distribuciones de frecuencias:
Al construir el histograma puede observarse que en los gráficos existen diferencias en su comportamiento. Se
hace necesario complementar la información con otra medida que nos describa o nos diga, en relación con lo
mucho o poco que se encuentran concentrados o dispersos los elementos del conjunto alrededor de su
respectivo valor medio.
Por lo tanto, para caracterizar una distribución se precisa emplear, además de su valor medio, otro valor que
indique su "dispersión", esto es una descripción matemática de este grado de variabilidad, lo cual permite
darnos cuenta en que cantidad los datos difieren del valor promedio. Esta medida nos indicara, si se hallan muy
concentrados en el entorno de este valor central o se alejan bastante de él, y hasta que panto sus variaciones
son debidas al azar sin que exista una influencia especial que oriente o "fuerce" a la variabilidad en un sentido
determinado.
El estudio de la concentración o esparcimiento de los datos, que se ha venido enunciando, se conoce con el
nombre de "Medidas de dispersión" que pueden distinguirse en dos clases:
a) Medidas absolutas de dispersión, que son aquellas que vienen expresadas en unidades concretes como
kilogramos, centímetros, litros, etc.
Dentro de este grupo se define el Rango, la desviación estándar o típica y la desviación cuartilica.
b) Medidas relatives de dispersión, que son aquellas que vienen expresadas par números abstractos y
porcentajes. La más importante es el coeficiente de variación que tiene la ventaja de permitir la comparación
de la variabilidad de fenómenos de naturaleza muy distinta.
Rango Recorrido
Es la más sencilla de las medidas de dispersión y se define como la diferencia entre los dos valores extremos de
la variable, a sea el valor máximo menos la mínima del conjunto de números.
Cuando son pocos los valores que toma la variable, es de mucha utilidad y así en el Control de calidad de la
producción industrial, cuando el número de datos que utilice cada muestra es pequeño, es decir 4 o 5, resulta
la medida más conveniente,
Como su valor depende de dos datos solamente (máxima y mínima), no es posible tenor una idea de Ya
distribución de los datos entre esos extremos y para eso su use es considerablemente limitada, especialmente
cuando las muestras son grandes.
En símbolos se define el recorrido así:
Ejemplo: Las acciones de una determinada empresa durante la semana pasada sufrieron las siguientes
fluctuaciones: 100,50 — 98,50 — 93,4 — 89,90 — 91,30 (Pesos).
El recorrido es: R = 100, 50 — 89,90 = $ 10,60
Podemos decir, entonces que el valor de las acciones para la semana ha tenido una variación de $ 10,60.
Otra medida de dispersión viene dada por la desviado estándar, donde participa como elemento de referencia
la media aritmética. Cada uno de los datos de una distribución, en general; difiere o se desvía del valor
correspondiente a su promedio. Si un valor determinado es más grande que el promedio, tiene una desviación positive
y si es menor, la desviación es negative.
Si se obtienen las desviaciones de todos los valores de la variable, con respecto al promedio, la media
aritmética de la suma de estas desviaciones, nos dará una medida de dispersión. Pero si tenemos en cuenta la
propiedad fundamental de Ya media aritmética cualquier suma de desvíos se anularía y siempre tendríamos ∑Di =
0 lo cual no representaría ninguna medida de dispersión.
Para solucionar esta situación, entonces, se trabaja con valores cuadráticos y la ecuación de la desviación
estándar es:
Si una variable tiene repeticiones, esto es se presenta con frecuencias, entonces la ecuación es:
Datos agrupados
La desviación estándar, también llamada "desviación típica" es, entonces, igual a la raíz cuadrada del promedio
de las desviaciones cuadráticas de los datos.
Es la medida de dispersión mss. importante y se la representa con la letra "S" (primera letra de la palabra
"standard" en inglés). Su importancia se funda en que es la mss. segura estadísticamente y puede ser
considerada la estimación más exacta de la dispersión de los datos de un conjunto.
Ejemplo de cálculo: Supóngase que las notas obtenidas por un grupo de alumnos en una prueba han sido: 4 5 6
6 7 8 8. Si estos valores se tabulan los resultados pueden expresarse coma se muestra en la serie de la página
adjunta:
Que esta indicando el resultado obtenido con relación a la variable de la cual se obtuvo. El valor 1,41
representa la distancia o diferencia que hay, en promedio, entre calla uno de los valores de la variable, que en
el caso del ejemplo son 7 datos, y su media aritmética, que vale 6.
¿Que ocurre si nos encontramos frente a una distribución de frecuencias? Veamos el análisis comparativo de
las dos muestras dadas al inicio del capítulo:
Puede observarse que la desviación estándar del grupo "A" es mayor que en el grupo "B", esto es que la
distancia de los datos, en promedio, en relación a la media aritmética es más amplia, lo cual pude comprobarse
en los respectivos gráficos hechos en su oportunidad.
¿Que ocurre si se contabilizan los datos encerrados en el intervalo [ x ± S] para cada grupo? cual es el
porcentaje de los mismos?
La distribución "A" al ser mas abierta presenta un porcentaje menor dado que los dato tienden a situarse sobre
los extremos, en cambio en es distribución "B" el porcentaje aumenta porque la concentración se realiza sobre
la zona central. Este tipo de distribuciones (nos referimos at grupo "B") se suelen denominar normales o
también simétricas y se caracterizan por encerrar, aproximadamente, entre un 60 % a un 70 % de datos, en el
Interval media aritmética más 1 menos un desvió estándar.
Si el intervalo se amplía a [ x ± 2 S] el porcentaje de datos supera el 90 %. -
Desviación Cuartilica (D. C.)
La desviación cuartilica es una medida de position que permite establecer, posicionalmente el 50 % central de
un conjunto de datos ordenados.
Si se toma como parámetro la mediana, la desviacion cuartilica permite establecer la distancia existente desde
la mediana a dos valores llamados "Cuartiles".
Los cuartiles son aquellos que permiten dividir al conjunto en 4 partes o 4 cuartos siendo Q1 el primer cuartil
que deja un 25 % de dates a la izquierda y 75 % de dates a la derecha. Q3 es el tercer cuartil y se caracteriza por
dejar un 75 % de dates a partir del límite inferior y un 25 % a su derecha. El segundo cuartil (Q2) como )
coincide con la mediana no se utiliza. Por lo tanto la desviación cuartilica se define como:
El cálculo de los cuartiles se realiza en forma similar a la mediana, esto es, los pasos a dar son:
Ejemplo de cálculo:
Un fabricante de un nuevo complemento alimenticio para ganado destinado a producir carne, afirma que el 80
% de los animales alimentados a base de una dieta que incluye este complemento, debería tener un aumento
mensual de peso mayor a 10 kilogramos. Se ha tornado una muestra de animales comprobándose los
siguientes aumentos: 10 - 12 - 8 -12 - 10 - 9 -11 - 14 - 8 - 13 - 14 kilogramos.
Esto significa, con relación a la mediana, una diferencia de ± 2 Kg y en ese intervalo se encuentra,
aproximadamente, el 50 % central del conjunto.
Dispersión relativa
Todas las medidas de dispersión anteriormente definidas se expresan en unidades de la misma especie que la
variable. Si la variable es una longitud, por ejemplo, metros, la medida calculada es también una longitud
(metros).
Esto se convierte en un inconveniente serio al querer comparar la dispersión de dos a más series. Puede ocurrir
que dos variables de la misma especie se expresen en diferentes unidades, tal como puede ocurrir la comparar
los talles de un grupo de argentinos (expresado en centímetros) y los de un grupo de norteamericanos (que
vendrá expresado en pulgadas). 0 que, aun expresadas en la misma unidad, los "niveles medios" de las series
sean muy diferentes como podría ocurrir con los talles de niños de 6 a 7 arias y los talles de adultos.
Por otra parte, la significación de la magnitud de la medida de significación de la de los valores de la variable;
una desviación estándar de 15 centímetros en las medidas de la altura de varios edificios es mucho menos
significativa que esa misma desviación, en las alturas de varias personas.
Para obviar este tipo de inconvenientes, se calculan los "coeficientes de dispersión relativa", de los cuales el
más utilizado es el coeficiente de variación (C.V.) que se obtiene realizando el cociente entre una medida de
dispersión (desvió estándar) y un valor promedio (media aritmética), expresado en las mismas unidades. Su
fórmula es:
A este cociente se lo suele multiplicar par 100 para expresar el resultado en porcentajes.
La utilidad del coeficiente de variación se puede ilustrar con las siguientes cifras que muestran el "rendimiento
promedio" de arroz, (determinado al cosechar y pesar el producto de gran número de parcelas de tamaño
uniforme). La desviación típica y el coeficiente de variación para dos regiones han sido:
)
El cuadro indica la importancia del coeficiente de variación coma medida relativa de dispersión. Así, aunque la
desviación típica es mayor para la región "A", el coeficiente de variación es más pequeño que en la región "B".
Erróneamente se podría haber afirmado que Ia variabilidad de "A" es mayor que la de "B", pero en realidad no
es así porque porcentualmente se observa que sucede el resultado inverso.
Medidas de asimetría
A veces se desea medir la deformación en su estructura de una distribución. Para ello se suelen utilizar
coeficientes que indican si la misma es simétrica o asimétrica.
Cuando la simetría es perfecta se debe cumplir que
Cuando existe asimetría la curva se presenta con mayor cantidad de datos hacia un extremo u otro de la
distribución, dando lugar a dos tipos de asimetrías: negativas o a la izquierda de la media aritmética, y positivas
o a la derecha de la media aritmética.
El "coeficiente de asimetría" permite medir la magnitud de estos corrimientos y su valor se expresa mediante la
siguiente ecuación:
Ejemplo:
Sea la distribución de frecuencias del cambia de peso en los animales, correspondiente al cálculo de la
desviación cuartilica.
El valor de la media es de 10,92 kilogramos y el desvió estándar es de 2,36 Kg.
Si se calcula la moda por el método "crudo", la marca de clase del intervalo de mayor frecuencia es m 0 = 11 Kg.;
por lo tanto, el coeficiente de asimetría es:
b)
Xi Fi Xi * Fi (Xi - X)2 * Fi
2650 3 7950 50700
2700 2 5400 12800
2750 3 8250 2700
2800 2 5600 800
2875 2 5750 18050
2900 2 5800 28800
2950 1 2950 28900
Suma 15 41700 142750
c)