Probabilidad y Estadistica

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 30

PROBABILIDAD Y ESTADISTICA

Conceptos

La Estadística es la rama de las matemáticas que estudia los métodos de


recopilación, organización, descripción y análisis de datos, así como la
interpretación de la información, con el objetivo de tomar la decisión más eficaz ante
alguna situación de incertidumbre.

La Población es el conjunto de elementos (personas, animales, plantas u objetos)


que tienen ciertas características de interés para un estudio estadístico. Una
población debe definirse en términos de:

 Tipo de elementos que la constituyen.


 Lugar o espacio donde se encuentra.
 Período de tiempo en el que se desarrolla el estudio.

Se le llama tamaño de la población al número total de individuos que la componen


y en estas notas lo denotaremos por N.
Generalmente el costo, el tiempo y los recursos que se requieren para hacer un
estudio que abarque a toda una población, resultan muy elevados. Por ello, se suele
recurrir al uso de muestras.

Una Muestra es cualquier subconjunto de la población seleccionado para la


investigación. Una Muestra aleatoria es un subconjunto que ha sido seleccionado
mediante un método azaroso o aleatorio. Para que una muestra aleatoria sea útil
para una investigación, se requiere que sea representativa de la población, es decir,
que sus elementos recojan características esenciales de los elementos que
componen la población.

En estas notas, el tamaño de la muestra será denotado por n.

Variables estadísticas
Las características de interés en una población o una muestra se llaman variables.

Por ejemplo, son variables estadísticas:

El número de palabras que lees por minuto.

El número de habitantes en el hogar de cada estudiante.

Datos
Son los valores que toma una variable de estudio en cada individuo de la muestra
o de la población. En los ejemplos de variables mencionados en la parte anterior,
se pueden presentar los siguientes datos:

 26, 28, 32, 35, 25 minutos


 100, 105, 120, 110 palabras
 Medicina, Veterinaria, Sociología, Filosofía, Actuaría, etcétera
 2, 3, 4, 5, 6 personas

Recopilación de datos

Los datos estadísticos se obtienen por levantamiento o por experimentación.


El levantamiento de datos se puede llevar a cabo aplicando un cuestionario a través
de entrevistas personales, telefónicas o mediante la web, mecanismos que se
aplican cuando la población está formada por personas. También se puede recurrir
a la observación directa, por ejemplo, tomar los signos vitales de pacientes o medir
el tamaño promedio de las hojas de ciertas plantas.
En las situaciones descritas, el investigador registra o mide sistemáticamente,
características y comportamientos que se presentan en el entorno, sin modificar a
voluntad propia ninguno de los factores que intervienen en el proceso.
Si el levantamiento de información se aplica a todos los elementos de la población
de estudio, se habla de un censo.

La otra forma de recopilar datos es a través de estudios experimentales, es decir,


cuando el investigador modifica por lo menos una de las variables del fenómeno en
estudio. Por ejemplo, supongamos que se desea medir los efectos en la piel de los
rayos ultravioleta emitidos por el sol. Se toma una muestra de 100 individuos que
serán expuestos al sol durante 15 minutos, 50 individuos usarán un protector solar
y la otra mitad no. Éste es un experimento porque se ha decidido modificar la
variable uso de protector solar y se debe asignar aleatoriamente quiénes formarán
parte de cada grupo.
La variabilidad de los datos estadísticos se debe a la presencia del azar en los
fenómenos que se estudian o en la elección de la muestra.

Ramas de la estadística

Estadística descriptiva
Esta rama incluye un conjunto de técnicas para recopilar, ordenar, organizar,
resumir y presentar datos de manera que resalten sus características más
importantes, lo cual permite hacer observaciones y extraer conclusiones. Utiliza
tablas, gráficas y medidas estadísticas.

Aunque las técnicas de la estadística descriptiva son útiles para cualquier colección
de datos (de hecho, surgieron del tratamiento de información proveniente de
censos), en la actualidad estas técnicas se suelen usar para trabajar con
información proveniente de muestras.

Estadística Inferencial
Se trata de procedimientos que permiten obtener ciertas conclusiones acerca de
una población con base exclusivamente en la información proporcionada por una
muestra aleatoria representativa.
El azar interviene en la elección de la muestra por lo que debe ser tomado en cuenta
al hacer inferencias, y es aquí donde la Estadística se relaciona con la Probabilidad,
que es la rama de las matemáticas encargada de la toma de decisiones en
condiciones de incertidumbre.

TIPOS DE VARIABLES

Las variables estadísticas pueden clasificarse de acuerdo a los valores que toman,
en variables cuantitativas y variables cualitativas.
Variables cuantitativas o numéricas
Son aquellas variables que toman valores numéricos como resultado de un proceso
de conteo o medición. Por ejemplo:

 Peso de jóvenes mexicanos de 15 a 18 años de edad.


 Altura de los arbustos de cedro blanco que crecen en la CdMx.

Estas variables se subdividen en


 Cuantitativas discretas
Son resultado de un proceso de conteo. Usualmente toman valores enteros no
negativos. De los ejemplos mencionados antes, las variables de los incisos b y
c son discretas.
 Cuantitativas continuas
Son resultado de un proceso de medición. Toman valores en intervalos. De los
ejemplos mencionados antes, las variables de los incisos a y d son continuas.

Variables cualitativas o categóricas


Son las variables que toman como valores categorías o nombres que identifican
distintas cualidades o atributos de los elementos de la población o muestra. Por
ejemplo:

 Género de personas de una población.


 olor de ojos de estudiantes del plantel.

Estas variables se subdividen en

Cualitativas nominales

Son variables cuyos valores no tienen un orden natural. De los ejemplos de


variables cualitativas mencionados antes, las de los incisos a y b son nominales.

Cualitativas ordinales

Son variables cuyos valores sí tienen un orden natural. De los ejemplos anteriores,
las variables de los incisos c y d son ordinales.
TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

Una tabla de frecuencias es una tabla que muestra los valores que toma una
variable, junto con el número de veces que se observa cada uno de ellos en una
colección de datos. A este número se le llama frecuencia o frecuencia absoluta.

El objetivo de construir esta tabla es obtener una presentación sencilla, ordenada y


fácil de leer, que permita distinguir las características más evidentes de una
colección de datos y proporcionar elementos para su análisis.

Datos no agrupados en intervalos

Este tipo de tablas se usan cuando la variable de estudio es cualitativa o bien


cuantitativa discreta con pocos valores. La restricción de que los valores sean pocos
se debe a que una tabla con muchos renglones no es fácil de leer.

La tabla de frecuencias más sencilla es la formada por dos columnas, una donde se
escriben las categorías o valores de la variable y otra donde se escribe la frecuencia
con que aparece cada valor, como la tabla del ejemplo inicial de esta sección.

Ejemplo 1:

Las calificaciones de dos grupos de Estadística y Probabilidad I, se resumen en las


siguientes tablas.
Un problema para comparar el desempeño académico de estos dos grupos con
base en sus calificaciones, es que los grupos son de diferente tamaño. Por tanto,
se requiere calcular otra cantidad que tome en cuenta el tamaño de cada grupo, por
ejemplo, porcentajes.

Observa que el porcentaje de alumnos que no aprobaron, es similar en los dos


grupos.

Respecto a los estudiantes que obtuvieron calificaciones aprobatorias bajas (6 o 7)


el porcentaje en el grupo A es 18 + 16 = 34%, y en el grupo B es de 20 + 23.33 =
43%.

Por otro lado, considerando los estudiantes que obtuvieron calificaciones de 8, 9 o


10, en el grupo A el porcentaje es 26 + 14 + 10 = 50%, mientras que en el grupo B
el porcentaje es 23.33 + 10 + 6.67 = 40%.

Así que podemos decir que las calificaciones fueron mejores en el grupo A que en
el grupo B.

El cociente de la frecuencia entre el total de datos, se llama frecuencia relativa.

En el siguiente ejemplo identificaremos todas las frecuencias que se incluyen en


una tabla completa para facilitar el análisis de la información.
Ejemplo 2:

El número de hermanos que tienen los alumnos de un grupo del CCH Sur, se recoge
en la siguiente lista.

La frecuencia relativa es la frecuencia absoluta dividida entre la cantidad de datos.


Se representa con fri, y se calcula así: 𝑓𝑟𝑖=𝑓𝑖/𝑛 . Se puede escribir como fracción,
como decimal o como porcentaje
Para tener más elementos de análisis, se calculan las frecuencias acumuladas.
La frecuencia absoluta acumulada hasta un valor xi es la suma de las frecuencias
absolutas de todos los valores menores o iguales a xi, y se representa por Fai.
La frecuencia relativa acumulada hasta un valor xi es la suma de las frecuencias
relativas de todos los valores menores o iguales a xi, y se representa por Frai.
También se puede calcular dividiendo las frecuencias absolutas acumuladas entre
el total de datos.

Ahora, ya que tenemos la distribución de frecuencias, ¿qué información podemos


obtener acerca de las estaturas de los alumnos?
Interpretemos algunos valores de cada columna:
f3 Nueve estudiantes de 36, tienen 2 hermanos
fr3 El 25% de los estudiantes encuestados tienen 2 hermanos.

Fa3 Treinta y dos de 36 estudiantes tienen a lo más 2 hermanos


Fra3 El 75% de los estudiantes encuestados tienen 2 hermanos o menos.
Algunas observaciones sobre todos los datos de la tabla son:
 Las mayores frecuencias se concentran en 0, 1 y 2 hermanos, y las menores
frecuencias corresponden a 5 y 6 hermanos.
 Hay 7 encuestados que tienen 3 o 4 hermanos.
 El 50% de los estudiantes encuestados tienen uno o ningún hermano.
 La mayoría de los encuestados tienen 2 o menos hermanos.
 Sólo el 25% de los estudiantes encuestados tienen más de 2 hermanos.

Datos agrupados en intervalos


Es conveniente, e incluso necesario, agrupar datos en intervalos cuando:

 Se tiene una variable numérica discreta con una gran variedad de valores
distintos, o bien
 Se tiene una variable numérica continua.

Por lo general la distribución de frecuencias debe tener como mínimo 5 intervalos,


pero no más de 15, pues el objetivo es hacer una presentación resumida de la
información que sea sencilla y permita distinguir características importantes.

Vamos a ir desarrollando los conceptos necesarios para construir una tabla de datos
agrupados, usando un ejemplo. Consideremos los siguientes datos que
corresponden a la edad de 55 personas.

Si se quisiera hacer una tabla de frecuencias sin agrupar los datos, serían
necesarios 20 renglones diferentes, uno por cada valor de los datos. Es claro que
conviene agrupar los datos en intervalos para reducir esa cantidad.

Cantidad de intervalos o clases


El número de intervalos o clases depende de la cantidad de datos que se tengan.
Aunque no existe una regla única para determinar el número de intervalos,
universalmente aceptada, hay algunas reglas empíricas que resultan útiles en esta
decisión. En todos los casos, el número que se obtiene debe ser considerado como
una sugerencia de la cantidad de intervalos a ocupar, misma que puede modificarse
un poco si eso es útil para que los intervalos resulten sencillos y fáciles de leer.

Longitud o amplitud de los intervalos o clases

Todos los intervalos deben tener la misma longitud para que reflejen cuántos datos
caen en subintervalos del mismo tamaño. Sin embargo, es posible dejar abierto el
primero o el último de los intervalos, criterio que se usa con frecuencia en estudios
demográficos. Por ejemplo, se puede poner “80 y más” en una tabla sobre edades.

Para tener una referencia sobre la longitud de los intervalos, se requiere calcular el
rango de los datos, definido como la diferencia del mayor menos el menor de los
valores que toman.

Rango = dato máximo – dato mínimo

El rango se divide entre el número de intervalos para obtener la longitud sugerida


(c).

Características de los intervalos o clases

Los intervalos deben cumplir que:


a) Son de la misma longitud.

b) Cubren todo el rango de los datos.

c) No se traslapan o enciman, es decir, no hay datos que puedan contarse en dos


intervalos distintos.

Vamos a construir los intervalos del ejemplo considerando estas características.


Sumando 5 unidades a partir del dato mínimo, el inicio de los intervalos quedará así:

Pero aumentando 5 unidades a 46, llegamos a 51 y el dato máximo es 54.


Entonces, con 7 intervalos de amplitud 5 no alcanzamos a cubrir todos los datos.

Para resolver lo anterior, tenemos dos opciones:

• Tomar una amplitud de 6 unidades para cada intervalo (en lugar de 5).
Entonces, los 7 intervalos abarcarían un total de 42 unidades, por lo que sí se cubre
el rango que es de 38.

• Tomar 8 intervalos y no 7. En este caso quedarían 8 intervalos de amplitud


5, que da un total de 40, que también cubre el rango, que es de 38.

Vamos a adoptar la segunda de estas opciones ya que 40 es más cercano al


rango que 42. Así que construiremos 8 intervalos de amplitud 5.
Ahora debemos considerar que un intervalo termina donde inicia el siguiente
para no dejar huecos sin cubrir. Tenemos que el segundo intervalo comienza en 21,
por lo que el primer intervalo en nuestro caso será de 16 a 21, mientras que el
segundo intervalo será de 21 a 26, y así sucesivamente. Tendremos los siguientes
intervalos.

Pero estos intervalos no cumplen la característica c), porque los extremos como 21,
26, 31, etc quedan en dos intervalos. Entonces, si hay datos que tengan estos
valores, ¿dónde los contabilizamos?

Hay varias formas de resolver esto. Algunas de ellas son:

 Usar intervalos abiertos por un lado y cerrados por el otro. Donde se coloca
un corchete, indica que el intervalo incluye al extremo y se dice que es
cerrado por ese lado. Donde se coloca un paréntesis, indica que el intervalo
abarca números menores que el extremo, sin incluir a dicho extremo, y se
dice que es abierto por ese lado. Así, por ejemplo, el intervalo

[16,21)

indica que contamos desde el 16 y que no llegamos a contar el 21. Entonces, el 21


se contará únicamente en el siguiente intervalo, [21,26).
 Usar números decimales. Aunque los datos en este caso son enteros, para
indicar que el extremo derecho no se incluye en cada intervalo, podemos
escribir los intervalos así:

En ejemplos como el anterior en el que los datos toman valores enteros,


también se pueden tomar intervalos cuyo valor inicial sea una unidad mayor que el
valor final del intervalo anterior.
Construcción de la tabla

Una vez construidos los intervalos, las demás columnas de la tabla se trabajan igual
que en el caso de los datos no
agrupados en intervalos. La
frecuencia absoluta de un intervalo
es el número de datos que caen
dentro del intervalo.

En el ejemplo tenemos, los datos 16,


18, 18, 18 y 20 caen en el primer
intervalo, así que la frecuencia
absoluta de ese intervalo es 5. De
igual manera, se calculan las demás
frecuencias.
La frecuencia absoluta acumulada se construye sumando las frecuencias absolutas
hasta cada uno de los intervalos.
Y la frecuencia relativa acumulada se construye sumando las frecuencias relativas
o dividiendo la frecuencia absoluta acumulada entre la cantidad de datos.

Así obtenemos finalmente la distribución de frecuencias de los datos del ejemplo,


agrupándolos en intervalos:
Siempre debemos hacer un primer análisis de la información al terminar la
construcción de una tabla de frecuencias. En este caso se observa que:

 Las edades más frecuentes están entre los 20 y los 30 años, pues en este
rango se ubica más del 56% de los datos.
 Las edades menos frecuentes son las que se ubican entre los 45 y los 55
años, mismas que abarcan más o menos el 5% de los datos.
 De las 55 personas, hay 44 que tienen menos de 35 años, lo que representa
un 80% de los encuestados.
 Casi el 95% de los encuestados son menores de 45 años, lo que representa
a 52 personas.
 Solo el 9% son menores a 20 años, lo que corresponde a 5 personas.

REPRESENTACIÓN GRÁFICA
Además de la distribución de frecuencias, resulta conveniente construir alguna
representación gráfica de los datos. De esta manera, se tiene una imagen que
describe visualmente el comportamiento de los datos.

Toda gráfica debe tener un título descriptivo, el nombre de la variable que


representa, las unidades de la variable, preferentemente la fuente de la cual se
recaba la información y en su caso la escala utilizada.

La siguiente tabla muestra algunas recomendaciones para el uso de gráficas en


función al tipo de variable que se analiza:
Vamos a ver cada uno de los tipos de gráfica mencionados en la tabla anterior.

Gráfica Circular

Se conoce también como diagrama de pastel o de sectores. Ayuda a percibir la


importancia relativa de cada categoría respecto al total.

Para determinar el ángulo central de cada sector, se divide 360º de manera


proporcional a la frecuencia absoluta o relativa de cada valor (usando, por ejemplo,
una regla de tres).

En cada sector circular, se suele escribir la frecuencia relativa dada en porcentaje.

Las gráficas circulares se acompañan de una leyenda en la que se indica la


categoría que corresponde a cada uno de los sectores.

Gráfica de barras
En un sistema de ejes coordenados, se localizan en el eje horizontal los
valores de la variable y en el eje vertical, la frecuencia absoluta o relativa que
corresponde a cada valor. Con esa información, se construyen barras separadas,
una para cada valor.

Las barras son rectángulos cuya altura es la frecuencia de cada valor o


categoría y cuyo ancho es arbitrario, pero debe ser el mismo para todos los casos.
La separación de las barras es arbitraria, pero también debe ser la misma.
Las bases de los rectángulos deben estar centrados sobre los valores de la variable.

Este tipo de gráfica se usa en variables cualitativas o cuantitativas discretas


con pocos valores.

Gráfica de Puntos
En esta gráfica se identifica cada uno de los datos por un punto trazado sobre su
valor a lo largo de una recta numérica, de manera que se observa cada valor
individual. Si dos o más datos tienen el mismo valor se colocará un punto sobre otro
como se puede observar en la siguiente gráfica:
En estas gráficas se muestran la acumulación, variabilidad y la forma de la
distribución de los datos. También es útil para comparar dos muestras y aunque es
muy fácil de construirlo manualmente es recomendable usar un software cuando se
tienen muestras numerosas.

Estas gráficas se usan en cualquier colección de datos cuantitativos.

Gráfica de líneas

Se usa en series de tiempo, es decir, datos que varían en el tiempo, y en datos de


variables cuantitativas discretas con pocos valores.

Se trata de una poligonal formada por segmentos de recta que unen una colección
de vértices. Cada vértice tiene como abscisa el valor o la categoría y su ordenada
es la frecuencia o el dato en el tiempo.

Histograma
Se usa principalmente para datos agrupados en intervalos. Se trata de un gráfico
de barras en el que la barras se colocan pegadas, una junto a la otra, pues cada
intervalo termina donde empieza el siguiente. Las alturas de las barras pueden ser
las frecuencias absolutas o relativas.
El ancho de los rectángulos corresponde al tamaño de los intervalos. Las bases de
las barras se encuentran centradas en el punto medio del intervalo, al que
llamaremos marca de clase.

Polígono de Frecuencias
Es un gráfico de líneas que se cierra para formar un polígono trazando segmentos
de recta que lo unen con el eje horizontal.
Se usan sobre todo en datos que se pueden agrupar en intervalos. Los vértices
tienen como abscisas las marcas de clase o puntos medios de los intervalos, y como
ordenadas las frecuencias correspondientes.
Se debe cerrar sobre el eje horizontal en dos puntos que corresponden a las marcas
de clase de dos intervalos ficticios a los que se les asigna una frecuencia cero, uno
anterior al primer intervalo real y el otro posterior al último intervalo real.
Ojiva
Consiste en una gráfica de líneas en la que la altura de los vértices corresponde a
las frecuencias acumuladas. Por ello, la gráfica es ascendente. Siempre empieza
en el eje horizontal.
Se usa en datos de cualquier variable que tenga frecuencias acumuladas.
Para datos no agrupados en intervalos, se trazan los puntos que corresponden a
los valores de la variable cuantitativa y la frecuencia acumulada (relativa o absoluta),
a continuación, se unen los puntos mediante segmentos de recta, el extremo
derecho no se une con el eje horizontal.
Para datos agrupados en intervalos, los vértices tienen como abscisa a las marcas
de clase de cada intervalo.
MEDIDAS ESTADÍSTICAS
Además de ordenar los datos en tablas de frecuencias y de representarlos a través
de gráficas, la exploración de los datos se enriquece calculando medidas
estadísticas que nos permitan contestar preguntas como:

 Si ordenamos los datos de menor a mayor, ¿entre qué cantidades se


encuentra la mitad menor de los datos? ¿Y la mitad mayor?
 ¿Hay algún valor que se repite más en los datos?
 ¿Hay algún número en torno al cual se agrupe una buena cantidad de
los datos?
 En promedio, ¿qué tan lejos están los datos de ese número?
 ¿Qué tan lejos está el dato mayor del menor?

Estudiaremos aquí tres clases de medidas: las medidas de tendencia central,


las medidas de dispersión y las medidas de posición.

Medidas de tendencia central

Buscamos cantidades que sean representativas de la colección de datos en


el sentido de que todos los datos o la mayoría de ellos, se encuentren más o menos
cerca de esas cantidades. A veces esto no es fácil de lograr porque hay algunos
datos con valores notablemente diferentes a los demás, sea porque son mucho más
grandes o porque son mucho más chicos. A los valores de estos datos notablemente
diferentes, les llamaremos valores extremos.

Se les llaman medidas de tendencia central porque cuando no hay valores


extremos, las cantidades representativas suelen ubicarse por el centro de los datos.

Estudiaremos tres medidas de tendencia central: la media aritmética o


promedio, la mediana y la moda.
Media aritmética o promedio

La media aritmética solo puede calcularse cuando la variable es cuantitativa


y se obtiene sumando todos los datos y dividiendo el resultado entre la cantidad de
datos. Cuando los datos son elementos de una muestra, la media se representa por
𝑋, cuando los datos corresponden a toda la población se puede denotar por μ.

Ejemplo.
Las alturas en metros de 8 estudiantes elegidos al azar en un grupo son:
1.68, 1.65, 1.66, 1.70, 1.72, 1.73, 1.65 y 1.64. Entonces, la estatura media es

Ejemplo

En la siguiente tabla se muestran las calificaciones en Estadística y Probabilidad I


de una muestra de estudiantes del CCH-Sur que cursaron la asignatura en el
semestre 2019-1.

Para calcular la media de las calificaciones, es necesario recordar que lo que esta
tabla indica es que, de los 115 estudiantes de la muestra, 24 obtuvieron la
calificación 5, 18 estudiantes obtuvieron la calificación 6, 20 estudiantes obtuvieron
7 y así sucesivamente.
Por lo tanto,

Notación de sumatoria
El cálculo de la media aritmética, y el de otras medidas que veremos más adelante,
requiere sumas. Para dar una fórmula general conviene conocer una forma de
escribir brevemente una suma usando la letra griega sigma mayúscula, que
corresponde a la S de nuestro abecedario.
Por ejemplo:

Es decir, debajo de la sigma se pone el primer valor entero que toma la literal y
arriba el último valor entero que toma. Para desarrollar la sumatoria, en cada
sumando se sustituye la literal por uno de los valores enteros en el rango descrito.

Mediana

La mediana es un valor que se localiza en el centro de los datos ordenados (de


menor a mayor o de mayor a menor). Puede determinarse cuando los datos
corresponden a una variable cuantitativa y cuando se trata de una variable
cualitativa ordinal.

Se Identifica con las letras Mdn. Si los datos corresponden a una muestra, la
mediana se suele denotar por 𝑋̃.

Si la cantidad de datos es impar, la mediana es el dato que se encuentra en el


centro, una vez que los datos han sido ordenados. Si la cantidad es par, se
promedian los dos datos centrales, y la mediana no necesariamente es uno de los
datos.
Ejemplo 1:

Ejemplo 2:

Moda

La moda es el valor que más se repite en el conjunto de datos, es decir, es el dato


con mayor frecuencia. Se puede identificar con las letras Mo y se suele usar el
símbolo 𝑋̂ para la moda de una muestra.
Esta medida es aplicable en cualquier tipo de variable y es la única medida de
tendencia central posible cuando la variable es cualitativa nominal. Puede haber
una moda, varias modas y también puede no haber ninguna.
Medidas de dispersión

Estas medidas estadísticas indican qué tan cercanos o alejados están los valores
que toma la variable de estudio.

a) Rango
rango de una colección de datos es el resultado de restar el valor máximo menos el
mínimo, y es un indicador de qué tan alejados están los datos entre sí.
Analicemos la dispersión de las siguientes colecciones de datos a través del rango.

b) Varianza y Desviación estándar

Ahora buscamos una medida que indique qué tan lejos están los valores que toma
una variable de su media aritmética o promedio. En el siguiente dibujo, esas
distancias entre los valores y la media están representadas por las flechas sobre la
recta numérica.

las diferencias positivas se compensarían con las negativas y no obtendríamos una


medida de la cercanía o la lejanía respecto a la media.
Para evitar lo anterior, se puede promediar el valor absoluto de esas diferencias o
bien el cuadrado de las mismas, para que todas sean positivas. En estudios más
avanzados, el uso del valor absoluto complica cálculos y dificulta estrategias
sencillas. Por ello, optaremos por elevar al cuadrado las diferencias anteriores para
obtener la medida llamada Varianza.

Sin embargo, esto da lugar a un nuevo problema. Los valores que toma una variable
estadística tienen unidades. Por ejemplo, si la variable indica el diámetro de
taparroscas de plástico, sus valores están en mm. Pero al hacer los cálculos
anteriores, obtendríamos una medida dada en mm 2, lo que impide una adecuada
comparación de valores pues una es medida de longitud y la otra de área.

Para volver a las unidades originales de los valores de la variable estadística,


aplicamos raíz cuadrada y obtenemos una buena medida de la dispersión respecto
a la media, llamada Desviación Estándar (o Desviación Típica).
Ejemplo:
En un grupo de Estadística I del CCH Sur, se observó la estatura de 16 alumnos y
se obtuvieron los siguientes datos (ya ordenados):

También podría gustarte