Descargable Unidad1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

!

!
Unidad 1. Estadística Descriptiva
Contextualización
Objetivo específico Interpretar y representar el significado de los
principales conceptos de Estadística para así
incrementar la capacidad, crítica, respecto de las
posibilidades que la materia tiene para abordar y
resolver problemas que se plantean en los distintos
campos del saber.

Duración 20 horas
Prerrequisitos Ninguno
Recomendaciones para Es ideal que se trabaje constantemente en el entorno
el estudiante o de Excel, retomar la escritura de fórmulas y el uso de
metodología para los diferentes complementos en el campo
abordar el estudio del estadístico.
OVA (opcional)
!

!
Mapa conceptual de la unidad
!

!
!
Desarrollo de los contenidos
Duración: 20 horas

1. Conceptos básicos, tabulación y graficación en la estadística

Duración 6 horas

Cuando se habla de estadística, se asocia inmediatamente con una recolección de datos y cálculos
matemáticos que permite hacer una tabulación para, posteriormente, organizar e interpretar dichos
datos; aun así, el trasfondo que conlleva estos cálculos matemáticos y su interpretación va mucho
más allá de un modelo matemático o de una mera interpretación de los número. Su objetivo

principal es llevar a cabo una toma de decisiones que beneficie claramente el proceso que se está
analizando, este análisis no es estático sino dinámico, ya que sus condiciones son cambiantes,
más cuando se busca trabajar con datos recopilados a través del tiempo.

Por ejemplo, si usted necesita hacer un análisis, una captura de datos es una buena opción de
punto inicial, ya que le permite concentrar los datos y visualizarlos de una mejor manera, sin
embargo, esto no se realiza de manera aislada puesto que el hecho de recopilar los datos no brinda
inmediata facilidad para realizar un análisis.

Entonces en este punto usted debe plantearse ciertas preguntas para continuar con el proceso:
¿Qué tipo de análisis realizo? ¿Cuáles son las variables presentes? ¿Cómo utilizo las medidas de
tendencia central? ¿Cómo puedo analizar los gráficos y datos numéricos? Estas y otras respuestas
las podrá hallar conforme se adentra en los contenidos de esta temática tan útil.

1.1 Conceptos básicos de estadística

En la estadística es importante que se identifique el tipo de variable a analizar, la cual pueden


ser cuantitativa y/o cualitativa, del mismo modo debe tenerse en cuenta la cantidad de datos
presentes, los cuales pueden ser de una población completa o de una parte más pequeña que
la represente, esta última debe denominarse “muestra”. Veamos ahora, de manera más
detallada, cada uno de estos conceptos:

• Población: Es el conjunto que contiene todos los elementos que se desean estudiar y que
tienen características en común.

Ejemplo:
En el censo de una ciudad o un país, allí todos los elementos comparten una característica en común,
pertenecer al mismo territorio.

• Muestra: Es un subconjunto de la población a estudiar, contiene un número más pequeño de


elementos en comparación con la población, sin embargo, esta cantidad debe ser suficiente
para representar a toda la población, puesto que los datos allí encontrados deben lograr una
claridad tal que logren ser considerados como los de la población total (en cuestión de

representatividad). Así pues, la muestra elegida debe ser aleatoria y no sesgada. A


continuación, veremos un ejemplo que ilustra este concepto.

Ejemplo:
Si se desea hacer una encuesta sobre el nivel salarial en la ciudad de Medellín, se puede tomar una
muestra poblacional, es decir, no es necesario encuestar a toda la ciudad, sin embargo, no se pueden
elegir únicamente los elementos del barrio el poblado, se deben incluir todos los barrios y diferentes
estratos para lograr una visión amplia.

• Variable: Es el elemento que se desea analizar, la condición que lo denota es que este es
cambiante de individuo a individuo, ya sea dentro de una muestra o de una población. Tenga
en cuenta que la diferencia entre estas últimas es su tamaño.

El ejemplo a continuación muestra algunas variables.


Ejemplo:

Edad, género, nivel educativo, peso y estatura, entre otros, se consideran variables puesto que los valores
que se recolectan ‘varían’ de persona a persona.

a. Variable cuantitativa: Es la variable que, al momento de ser recolectada, refleja como


respuesta un dato numérico. Tal es el caso de la edad, la estatura y el salario. A su vez
dentro de esta categoría existe una subdivisión, pudiendo ser variables cuantitativas
discretas, las cuales exponen datos numéricos exactos o variables cuantitativas continuas,
las cuales pueden contienen número decimales.

Ejemplo:
Variables como estatura, peso y calificación. Estas pueden tomar
valores decimales.
Cuantitativa continua Estatura: 1,66 m; 1,74 m.
Peso: 36,4 Kg; 72,7 Kg.
Calificación: 3,2; 4,8.
Variables como edad y número de hijos. Estas toman valores enteros.
Cuantitativa discreta Edad: 22 años, 56 años.

Número de hijos: 0, 2, 3.

b. Variable Cualitativa: Por otro lado, podemos encontrar variables cualitativas, las cuales
como su nombre lo indica apuntan cualidades o características, tales como el género, nivel
educativo, color favorito, respuestas si/no, entre otros. Al igual que en el caso anterior puede
darse a lugar a una subdivisión como cualitativas ordenables y no ordenables, esto
dependen de exístela existencia de algún criterio lógico para su ordenamiento, sea de tipo
jerárquico, cronológico u otro.

En el siguiente ejemplo veremos cómo identificar si es una variable cualitativa ordenable o no


ordenable.
Ejemplo:
Si se habla del género no existe ningún orden lógico para establecer que los hombres van primero y
las mujeres después o viceversa, de igual forma sucede cuando tenemos variables como la
nacionalidad o método de pago. Mientras que, en variables como el nivel de estudio, lugar de llegada
en una competencia o calificaciones con letras, existen criterios que permiten darles algún tipo de
orden.
!
Las variables cualitativas también reciben el nombre de
categóricas. A su vez las variables cualitativas no ordenables
son llamadas nominales y las ordenables se conocen como
ordinales.

• Clasificación de Variables

En el siguiente esquema veremos con mayor claridad la clasificación de variables de acuerdo


a su tipo:

Ahora que usted tiene mayor claridad en cuanto a los tipos de variable podemos dar pie a la
temática de tabulación de los datos. Esta parte de la unidad es vital pues con la información
que aquí se obtenga posteriormente se podrán realizar las representaciones gráficas y el
análisis de datos numéricos.
Tenga en cuenta que para realizar la tabulación de los datos se realiza una tabla de frecuencias,
en la cual se muestra de una forma resumida todos los datos obtenido en la captura.

Ahora bien, detengámonos un momento a reflexionar ¿Cómo se realiza entonces una captura
de los datos?
La captura se realiza a través de diferentes herramientas como puede ser una encuesta o una
entrevista, cualquier forma que permita obtener los datos de la población que se quiere
analizar. Hoy en día es muy común hacer esta recolección vía online, a través de diferentes
páginas web como surveymonkey.com, formularios en google drive, e-encuesta.com, entre
otras. Sin embargo, el uso del papel continúa siendo importante.

En la elaboración de encuestas se deben realizar preguntas


claras, concisas y sobre todo pertinentes respecto a la
información que se quiere obtener.

En el siguiente ejemplo se muestran algunas preguntas que cumplen con los criterios
mencionados anteriormente.

Ejemplo:
Posibles preguntas que podrían hacer parte de una evaluación de servicio al cliente.

¿Ha participado del servicio que ofrecemos?
¿Cuántas veces ha usado el servicio?
¿Si tuviera que calificar el servicio con una palabra diría que es malo, regular o bueno?

Observa que son preguntas en su mayoría cortas y claras. Se sugiere que las respuestas no sean abiertas,
antes bien siempre brindar opciones de respuestas tales como si/no, bueno/malo o valores numéricos, es
decir, preguntas cerradas, esto facilitará la tabulación de los datos.

1.2 La tabulación en la estadística.

¿Cómo tabular? La tabulación puede hacerse tanto para datos agrupados como datos no
agrupados, es decir, puede hacerse tomando los datos de manera individual o agruparlos en
rangos de datos. Para la agrupación existen varias formas de hacerse: 𝑘 = 𝑛, regla de Sturges
𝑘 = 1 + 3,332 log 𝑛 o con el método empírico, bajo el cual el analista decide cuántos intervalos
realizar.
En la fórmula anterior k se refiere al número de intervalos y n a la cantidad total de datos.
Es importante entender que para agrupar los datos no basta solo con conocer el número de
intervalos, también se debe conocer su amplitud, pues esta indica qué tan grande es cada uno
de los intervalos:
𝑹𝒂𝒏𝒈𝒐
𝑨𝒎𝒑𝒍𝒊𝒕𝒖𝒅 = ; 𝑹𝒂𝒏𝒈𝒐 = 𝑫𝒂𝒕𝒐 𝒎𝒂𝒚𝒐𝒓 − 𝑫𝒂𝒕𝒐 𝒎𝒆𝒏𝒐𝒓
𝒌

Cuando se quieren realizar tablas de datos agrupados es


importante tener en cuenta que existe para cada intervalo un
valor que lo representa, denominado Marca de Clase.

𝑳í𝒎𝒊𝒕𝒆 𝑺𝒖𝒑𝒆𝒓𝒊𝒐𝒓 𝑰𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒐 + 𝑳í𝒎𝒊𝒕𝒆 𝒊𝒏𝒇𝒆𝒓𝒊𝒐𝒓 𝒊𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒐


𝒙𝒊 =
𝟐
Estructura de una tabla de frecuencias
Para realizar la tabla de frecuencias, sea en datos agrupado o no agrupados, se requiere, por
ahora, la información que verá en la tabla. Más adelante vamos a ver que en ciertos casos se
pueden utilizar mayor o menor cantidad de información, dependiendo de lo que se requiera
realizar.
Tenga en cuenta que se realizan tantas tablas de frecuencia como variables se quieran estudiar.
𝒙𝒊 𝒇𝒊 𝑭𝒊 𝒉𝒊 % Porcentaje ° Grados
frecuencia Frecuencia Frecuencia
absoluta acumulada relativa
Se ubican Indica la Sumatoria de Se toma cada Cada uno de los Cada uno de
los datos de cantidad de los datos en dato de la datos de la los valores de
forma veces que se cada una de frecuencia frecuencia relativa la frecuencia
individual o repite el dato las líneas, es absoluta y se se multiplica por relativa se
por individual o decir, se debe divide entre el 100. multiplica por
intervalos, la cantidad ir sumando número total Estos dos indican la 360.
de acuerdo de datos que los valores de de datos. fracción o Se usa cuando
a su criterio. hacen parte la frecuencia porcentaje que es necesario
del intervalo. absoluta. 𝑓N representa cada realizar un
ℎN =
La sumatoria El valor final 𝑛 dato o cada diagrama
de todos los de esta intervalo con circular.
valores debe columna respecto al total.
ser igual al debe ser igual
número de al número de
datos. datos.

A continuación, veremos un ejemplo en el que se ilustrará cómo se debe dar uso a esta tabla de
frecuencias tanto para el caso de datos agrupados como no agrupados.

Ejemplo:
La siguiente tabla de frecuencia, se realizó para recolectar los datos en una empresa referente a la cantidad
de pedidos a lo largo de un día. Esta captura de datos se realizó durante un mes y arrojó los siguientes
resultados:

1, 8, 0, 8, 0, 6, 10, 7, 0, 1, 5, 2, 7, 0, 6, 0, 7, 1, 0 ,2, 9, 2, 7, 2, 0, 9, 3, 7, 0, 3

Tabla datos no agrupados. Vemos que existen los números del 0 -10.

𝒙𝒊 𝒇𝒊 𝑭𝒊 𝒉𝒊 % ° Grados
frecuencia Frecuencia Frecuencia Porcentaje
absoluta acumulada relativa
0 8 8 0,27 27 97,2
1 3 11 0,1 10 36
2 4 15 0,13 13 46,8
3 2 17 0,07 7 25,2
4 0 17 0 0 0
5 1 18 0,03 3 10,8
6 2 20 0,07 7 25,2
7 5 25 0,16 16 57,6
8 2 27 0,07 7 25,2
9 2 29 0,07 7 25,2
10 1 30 0,03 3 10,8

Tabla datos agrupados. Podemos encontrar el número de intervalos así: 𝑘 = 𝑛 → 30 = 5,4 ≈ 5
Para la amplitud usamos la ecuación antes mencionada.

𝑹𝒂𝒏𝒈𝒐 𝟏𝟎 − 𝟎
𝑨𝒎𝒑𝒍𝒊𝒕𝒖𝒅 = = = 𝟐
𝒌 𝟓

𝑰𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒐𝒔 𝒙𝒊 𝒇𝒊 𝑭𝒊 𝒉𝒊 % ° Grados
Marca de frecuencia Frecuencia Frecuencia Porcentaje
clase absoluta acumulada relativa
𝟎−𝟐 1 11 11 0,37 37 133,2
𝟐−𝟒 3 6 17 0,2 20 72
𝟒−𝟔 5 1 18 0,03 3 10,8
𝟔−𝟖 7 7 25 0,23 23 82,8

𝟖 − 𝟏𝟎 9 5 30 0,17 17 61,2
Observa que en ambos casos el último valor de la frecuencia acumulada coincide con el número de datos,
además la sumatoria de la frecuencia relativa es igual a 1, del porcentaje es 100 y de los grados es 360.
!
Tenga en cuenta que para cada una de las variables analizadas
debe realizarse una tabla de frecuencias.

!

Recursos
Lecturas recomendada
Para complementar este tema lo invito a ver el siguiente video en el cual se
muestra cómo crear una tabla de frecuencias para datos agrupados y no
agrupados. Después de visualizar el video le sugiero intentar realizarlo por su
cuenta utilizando Excel.
Enlace Tabla de frecuencia datos agrupados y no agrupados en excel
!

1.3 Graficación

Una vez creada la tabla de frecuencias se pueden realizar representaciones gráficas, estas son
formas más amigables de observar los datos, también nos brindan una visión más completa de cómo
interactúan los datos.
Algunas de estas representaciones son el histograma, diagrama de barras, diagrama circular,
diagrama de Pareto, diagrama de dispersión, diagrama de caja y bigotes, entre otros.
Si bien las representaciones gráficas son importantes, existen otros tipos de
datos que permiten conocer con mayor exactitud qué es lo que realmente
ocurre a fondo con los datos. Es por ello que las interpretaciones realizadas a
través de los gráficos deben soportarse en datos más exactos, como es el caso
de las medidas de tendencia central y medidas de dispersión.

En los siguientes enlaces podrá observar diversos gráficos trate de descubrir
cuál es el dato central, si posee algún tipo de sesgo y cuáles son los valores más
relevantes, también busque si son datos con gran variabilidad o no.

Revisa los siguientes recursos y construye una tabla de frecuencias además de diferentes gráficos
usando Excel.

Recursos
Lecturas recomendada
En el siguiente enlace, podrás observar los tipos de gráficos recomendados,
dependiendo del tipo de variable que se esté trabajando.
Enlace Elección de un gráfico
!

Recursos
Lecturas recomendada
En el siguiente enlace, podrá observar cómo se construye los tipos de gráficos
recomendados, dependiendo del tipo de variable que se esté trabajando.! !
Enlace Gráficos estadísticos
!

Recursos
Lecturas recomendada
En el siguiente video, podrás observar las diferentes formas de construir los
tipos de gráficos que se utilizan para la representación de datos estadísticos,
dependiendo del tipo de variable que se esté trabajando.! !
Enlace Crear gráficos estadísticos en excel según el tipo de datos!
!
!
!
!
Para complementar el estudio de este tema, lo invito a que ingrese al libro de aprendizaje de esta
! unidad y realice la actividad propuesta.
!
!
!
!
!
!

2 Medidas de tendencia central para datos agrupados y no agrupados.

Duración: 4 horas

Considere que vs a realizar una presentación al grupo de trabajo que usted dirige. Para la facilidad
de comprensión de los asistentes realiza una gran cantidad de gráficos para mostrarles la
información de una manera más simple. Lastimosamente, en medio de la presentación su
computador sufre un daño y no tiene ningún tipo de respaldo de información ¡Aun así, el show
debe continuar! entonces usted se da cuenta que puede exponer toda la información necesaria y
relevante a través de las medidas de tendencia central y medidas de dispersión. Dichas medidas
son objetivas y brindan un resultado numérico más claro.

Estas medidas de tendencia central nos dan información de 3 datos importantes, media o
promedio, moda y mediana, que son representativos de un grupo y describe una generalidad de
la información obtenida. Veamos cada una de ellas:

• Media o promedio: Esta medida de por sí puede representar a todo el conjunto. Sin
embargo, el hecho de que lo represente no significa que todos los datos en el conjunto sean
iguales a la media.

Existen varios tipos de medias y cada una de ellas tiene una aplicación de acuerdo al contexto.
Las más usadas son la media aritmética y la media ponderada:

Media Aritmética Media Ponderada


Se usa en casos en los que todos los datos Se usa en los casos que los datos tienen un diferente
e intervalos tienen una misma importancia. peso o importancia, un claro ejemplo son las notas en
una universidad, donde cada una puede tener un valor
porcentual más grande o más pequeño que otro.
Para datos no agrupados

𝟏 𝒏 𝒏
𝒊\𝟏 𝒙𝒊 ∗ 𝒘𝒊
𝒙= 𝒙 𝒙𝒘 =
𝒏 𝒊\𝟏 𝒊 𝒏
𝒊\𝟏 𝒘𝒊
𝒙𝟏 + 𝒙𝟐 + 𝒙𝟑 + ⋯ +𝒙𝒏 𝒙𝟏 ∗ 𝒘𝟏 + 𝒙𝟐 ∗ 𝒘𝟐+ ⋯ + 𝒙𝒏 ∗ 𝒘𝒏
= =
𝒏 𝒘𝟏 + 𝒘𝟐 + ⋯ + 𝒘𝒏
Se lee como la sumatoria de todos los X hace referencia a cada dato, mientras que w es el
valores de los datos dividido entre la ponderador que indica el peso de cada valor. Se lee
cantidad total de datos. como la sumatoria de cada valor multiplicado por su
ponderador dividido entre la sumatorio de los

ponderadores. Un ejemplo de esto es la forma de


calcular el acumulado de una asignatura o de un
momento, donde X es el valor de la nota y los
ponderadores corresponden al porcentaje que cada
una toma.
Para datos agrupados
𝟏 𝒏
𝒙= 𝒙 ∗ 𝒇𝒊
𝒏 𝒊\𝟏 𝒊
𝒙𝟏 ∗ 𝒇𝟏 + 𝒙𝟐 ∗ 𝒇𝟐 … +𝒙𝒏 ∗ 𝒇𝒏
=
𝒏
Se lee como la sumatoria de cada marca
de clase multiplicada por su respectiva
frecuencia absoluta, dividida entre la
cantidad total de datos.
!
Libreta de notas
Lo invito a que investigue y profundice en la información acerca de la media geométrica,
armónica y cuadrática, para que finalmente realice un resumen de cada uno de estos
conceptos en su libreta de notas.

• Moda: Hace referencia al dato o intervalo que mayor frecuencia tiene, es decir, al igual que la
media indica el valor o los valores más representativos del grupo de datos. Cuando se busca
esta medida en datos no agrupados basta hacer una revisión visual a través de la tabla de
frecuencias y ubicar cuál es el dato con mayor frecuencia absoluta, mientras que para datos
agrupados debe aplicarse una ecuación de tal manera que se indique un valor específico que
se le atribuya a la moda y no solamente indicar el intervalo con mayor frecuencia.

Datos No Agrupados Datos Agrupados


Se observa en la tabla de Para encontrar el valor correspondiente a esta medida de tendencia central se
frecuencias a cuál valor debe aplicar la siguiente ecuación.
corresponde la mayor frecuencia 𝒇𝒊 − 𝒇𝒊c𝟏
absoluta. 𝒙 = 𝑳𝒊 + ∗𝒂
(𝒇𝒊 − 𝒇𝒊c𝟏 )+(𝒇𝒊 − 𝒇𝒊c𝟏 )
La distribución de los datos
puede ser unimodal, bimodal o
multimodal, dependiendo de la 𝐿N = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
cantidad de modas, es decir, 1, 2 𝑓N = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
o 3 en adelante, 𝑓Nct = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
respectivamente. 𝑓Nbt = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑠𝑖𝑔𝑢𝑖𝑒𝑛𝑡𝑒 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
Para que exista más de una
moda deben ser valores
𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
máximos iguales.
La clase modal es el intervalo con mayor frecuencia absoluta.

• Mediana: La mediana indica el punto central, dividiendo los datos en dos grupos iguales. La
mediana indica que desde ese valor hacia atrás está el mismo número de datos que hacia
adelante lo que permite que no se vea afectada por valores extremos y en ocasiones sea más
representativa que la media.

Veamos cómo se puede calcular la mediana para datos no agrupados y para datos agrupados.

Datos no agrupados Datos agrupados


Se puede calcular con los Para encontrar el valor correspondiente a esta medida de tendencia
siguientes pasos: central se debe aplicar la siguiente ecuación.
𝒏
1. Ordenar los datos de menor a 𝒙 = 𝑳𝒊 + 𝟐 − 𝑭𝒊c𝟏 ∗ 𝒂
mayor. 𝒇𝒊
𝒏b𝟏
2. Aplicar , dónde n es igual
𝟐 𝐿N = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
al número de datos. Este
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
número expresa la posición de
la mediana más no la mediana 𝑓N = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
en sí. 𝐹Nct
3. Contar la posición que indica = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
el valor anterior en los datos 𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
organizados de menor a
mayor. La clase mediana se encuentra así:
4. Dado el caso que la ecuación 1. Se aplica la ecuación 𝑛 2
arroje un valor decimal se debe 2. Se busca en la columna de frecuencia acumulada el primer valor
realizar un promedio entre los que lo pueda contener.
datos inmediatamente anterior 3. El intervalo correspondiente a dicho valor será la clase mediana.
y posterior a dicha posición.

Es de resaltar que, aunque las 3 medidas de tendencia central (media o promedio, moda y
mediana) son valores representativos, algunas de ellas en ocasiones son de mayor importancia
que las otras.
Por su parte la media es muy importante porque su uso es determinante al momento de calcular
las medidas de dispersión, sin embargo, su uso como medida representativa no es adecuado
cuando se encuentran datos extremos, es decir, muy grandes o muy pequeños; en estos casos
debe usarse la mediana que no es tan sensible a dichos valores extremos. Así pues con las
medidas de tendencia central se puede saber si es una distribución de datos simétrica o
asimétrica.

• Cuando la moda, media y mediana son iguales se dice que la distribución de datos es
simétrica, esto quiere decir que la cantidad de datos a la derecha e izquierda del punto
central son iguales. 𝒙 = 𝒙 = 𝒙.
• Cuando la media es menor que la mediana y esta a su vez es menor que la moda se tendrá
una distribución de datos sesgada a la derecha, lo que indica que hay mayor cantidad de
datos a la izquierda que a la derecha del punto central. 𝒙 ≤ 𝒙 ≤ 𝒙.
• Cuando ocurre lo contrario al caso anterior, es decir, cuando la media es mayor que la
mediana y esta a su vez es mayor que la moda se tendrá una distribución de datos sesgada
a la izquierda, lo que indica que hay mayor cantidad de datos a la derecha que a la izquierda
del punto central. 𝒙 ≥ 𝒙 ≥ 𝒙.

Recursos
Lecturas recomendada
Para complementar el tema lo invito a que realice el siguiente ejercicio de
medidas de tendencia central. Accediendo al enlace usted ingresará en la
plataforma educativa de educaplay.
Enlace Medidas de tendencia central
!
!

Recursos
Lecturas recomendada
Para complementar el tema lo invito a que realice el siguiente ejercicio de
medidas de dispersión. Accediendo al enlace usted ingresará en la plataforma
educativa de educaplay.
Enlace Medidas de tendencia central (datos no agrupados)
!
!
Recursos
Lecturas recomendada
Para complementar el tema lo invito a que realice el siguiente ejercicio de
datos agrupados. Accediendo al enlace usted ingresará en la plataforma
educativa de educaplay
Enlace Datos agrupados
!

3 Medidas de dispersión para datos agrupados y no agrupados

Duración: 5 horas

Cuando quiera saber qué tan confiables son los datos capturados y qué tan representativos son
los datos de una muestra o población, debe acudir entonces a las medidas de dispersión, las
cuales le permitirán encontrar la variabilidad de los datos. En este grupo aparece entonces el
rango, la varianza, desviación típica muestral y poblacional, además del coeficiente de variación.
Estos pueden calcularse para datos agrupados y también para datos no agrupados.

Veamos, de manera más detallada, las definiciones que corresponde a las diferentes medidas de
dispersión:

• Rango: Muestra la diferencia entre el dato superior e inferior. Para los casos de dato
agrupados y no agrupados se calcula de manera muy similar, la única diferencia es que en
los datos agrupados no se calcula directamente con los datos mayor y menor sino con el
límite superior del último intervalo, menos el límite inferior del primer intervalo. Esta medida
permite conocer la variabilidad de los datos, pero no permite conocer qué tan desviados se
encuentran con respecto a alguna medida representativa.

• Varianza: Le ayudará a encontrar la variabilidad de los datos expresados como la diferencia al


cuadrado con respecto al valor central (media). Al hacer análisis dimensional podrá notar que
las unidades de este valor se encuentran al cuadrado, razón por la cual realizar una
interpretación con esta información no es tan intuitiva.

Datos no agrupados Datos agrupados

𝒏 𝒏 𝟐
𝒊\𝟏𝒙𝒊 − 𝒙 𝟐 𝒊\𝟏𝒙𝒊 − 𝒙
𝝈𝟐 = 𝝈𝟐 =
𝒏−𝟏 𝒏−𝟏
Se lee como la sumatoria de la diferencia de cada uno Para datos agrupados la ecuación que se utiliza es la
de los datos con respecto a la media elevados al misma, lo único que usted debe cambiar es el cómo se
cuadrado y dividida entre la cantidad de datos aplica, no se puede dejar de lado que el valor xi en datos
disminuidos en 1. no agrupados representa cada uno de los datos, mientras
Esta varianza puede ser muestral o poblacional, que en datos agrupados representa la marca de clase,
dependiendo de si está analizando toda una población que es el valor representativo de cada intervalo.
o una parte representativa de la misma. La única Así mismo, la forma en la que se calcula la media debe
diferencia en el caso de que sea poblacional es que no ser la correspondiente para datos agrupados.
se divide por n-1 sino solamente por n, esto se debe a
que los datos empíricos han mostrado mejores ajustes
de esa manera.

• Desviación Típica: También se le llama desviación estándar y se calcula con base en la


varianza con la finalidad de brindar una explicación mucho más intuitiva y coherente a la
variabilidad o medida de dispersión de los datos, tenga en cuenta que las unidades en las que
se expresa la varianza están al cuadrado, mientras que las unidades de la deviación típica se
expresan de la misma forma en la que se encuentran los datos recolectados, basta entonces
sólo con aplicarle la raíz cuadrada al valor que se había encontrado en la varianza.

Este nuevo número le permite hacer interpretaciones más adecuadas ya que muestra la variación
de los datos alrededor de la media. Ahora usted puede escribir dicha variabilidad como un rango
o intervalo de variación.

• Coeficiente de variación: Le dará una medida porcentual en relación a la desviación típica, ya


que en ciertas ocasiones puede ser complejo llegar a comparar si el valor de la desviación típica
es muy grande o muy pequeño con respecto a la media. Es importante tomar en cuenta que
mientras más pequeña sea la desviación con respecto a la media los datos obtenidos arrojarán
interpretaciones mucho más confiables.

El coeficiente de variación le dará entonces una medida porcentual de dicha variabilidad.


Usualmente el analista, dependiendo de las características de la población/muestra que esté
analizando, define parámetros o estadísticos para saber si sus datos son confiables o no. Otra
utilidad de esta medida de dispersión es que permite hacer comparaciones de variabilidad con
diferente media, es decir, si usted tiene dos grupos de datos puedes conocer cuál de ellos tiene
una mayor variabilidad.

Ecuación Interpretación del C.V


𝝈 Sugerencia de límites de confiabilidad
𝑪. 𝑽 = ∗ 𝟏𝟎𝟎 C.V ≤ 7 La información es precisa.
𝒙
8 ≤ C.V ≤ 14. Precisión aceptable.
Esta ecuación aplica para el caso de datos agrupados 15 ≤ C.V ≤ 20 Precisión regular.
C.V ≥ 20 Indica una estimación poco precisa. No indica
y también para datos no agrupados.
que no pueda usarse para hacer interpretaciones sólo
que se debe tener en cuenta que es una tendencia y no
algo realmente representativo.


Recursos
Lecturas recomendada
Para reforzar este tema lo invito a mirar los siguientes videos donde podrá observar cómo
calcular las medidas de dispersión usando Excel para datos agrupados.
Enlace Media, varianza y desviación estándar para datos agrupados.

Recursos
Lecturas recomendada
Para reforzar este tema lo invito a mirar los siguientes videos donde podrá observar cómo
calcular las medidas de dispersión usando Excel para datos no agrupados.
Enlace Medidas de tendencia central y dispersión datos no agrupados en Excel.




Recursos
Lecturas recomendada
Para complementar el tema lo invito a que realices el siguiente ejercicio de
medidas de dispersión, para lo cual usted accederá a la plataforma educativa
de educaplay.
Enlace Actividad de aprendizaje: Medidas de Dispersión
!

!
! Para complementar el estudio de este tema, lo invito a que ingrese al libro de aprendizaje de esta
! unidad y realice la actividad propuesta.

!
!

4 Medidas de posición para datos agrupados y no agrupados

Duración: 5 horas

Al momento de calcular la mediana se busca encontrar el punto central de los datos, donde divide
al grupo en un 50% /50% de tal forma que se pueda observar un punto de equilibrio, el cual
permite analizar con respecto a la situación en cuestión. Hay casos en los cuales dependiendo
de la necesidad no es suficiente hallar la posición de la mediana, sino que se hace urgente
encontrar otros valores que representen por ejemplo el 25%, el 40%, 95% (pueden encontrarse
todos los porcentajes). Es aquí donde se acude a las medidas de posición, que nos permite
encontrar lo mencionado anteriormente y, a través del cálculo de algunos valores y una operación
matemática, tener también los valores atípicos del grupo de datos, es decir, aquellos valores que
son extremadamente grandes o extremadamente pequeños y que se dice que no son
congruentes con lo mostrado por el resto de datos.

La forma de calcular las medidas de posición se asemeja mucho al caso del cálculo de la mediana,
pero con unas pequeñas adaptaciones.

En el caso de la mediana se toma el valor n/2, lo cual indica que se quiere dividir los datos en dos
partes iguales; la modificación consiste entonces en indicar en cuántas partes más! " # ! $ % " & ' !
dividir los datos y de esa división cuántos se quieren tomar (Valor K). A continuación veremos
cómo funciona en cada caso.

• Cuartiles: Divide al grupo de datos en 4 partes iguales, pudiendo encontrar entonces el cuartil 1,
2, 3 y 4. Se representan con la letra Q, Así: 𝑸𝟏 , 𝑸𝟐 , 𝑸𝟑 , 𝑸𝟒

K representa el valor porcentual expresado en decimal. Si se sabe que los cuartiles dividen el grupo
de datos en 4 partes iguales, entonces cada uno de ellos tendrá un valor del 25%, entonces:

𝑸𝟏 → 𝟐𝟓% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟐𝟓
𝑸𝟐 → 𝟓𝟎% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟓
𝑸𝟑 → 𝟕𝟓% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟕𝟓
𝑸𝟒 → 𝟏𝟎𝟎% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟏

En la siguiente tabla se muestra la forma de calcular las medidas de posición cuando se trabaja
con datos agrupados o no agrupados.

Datos no agrupados Datos agrupados


Se puede calcular con los siguientes pasos: Para encontrar el valor correspondiente a esta
medida de tendencia central se debe aplicar la
1. Ordenar los datos de menor a mayor. siguiente ecuación.
2. Aplicar 𝒌 ∗ 𝒏, dónde n es igual al número de datos. 𝒌 ∗ 𝒏 − 𝑭𝒊c𝟏
Este número expresa la posición en la que se 𝒙 = 𝑳𝒊 + ∗𝒂
𝒇𝒊
encuentra el Cuartil más no el cuartil en sí.
3. Contar la posición que indica el valor anterior en los
datos organizados de menor a mayor. 𝐿N = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
4. Dado el caso que la ecuación arroje un valor 𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠
decimal se debe realizar una interpolación. 𝑓N = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
𝐹Nct = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎
𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
𝑸 = 𝒙𝒊 + 𝒅 ∗ (𝒙𝒊b𝟏 − 𝒙𝒊 )
La clase cuartil se encuentra así:
𝒙𝒊 𝒆𝒔 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒆𝒏𝒕𝒆𝒓𝒐
𝒅 𝒆𝒔 𝒆𝒍 𝒗𝒂𝒍𝒐𝒓 𝒅𝒆𝒄𝒊𝒎𝒂𝒍 1. Se aplica la ecuación 𝑘 ∗ 𝑛
Los valores que se encuentran dentro del paréntesis 2. Se busca en la columna de frecuencia acumulada
son los datos anterior y siguiente al punto medio. el primer valor que lo pueda contener.
3. El intervalo correspondiente a dicho valor será la
clase cuartil.
Si, por ejemplo, el valor del paso 2 es 3,6 entonces el
valor xi será el dato que se encuentra en la posición 3.
d es el valor decimal que es 0,6. Teniendo en cuenta
que la posición inicial es 3,6 entonces los valores
anteriores y siguientes serán los datos que se
encuentran en la posición 4 y la 3, respectivamente.

• Valores atípicos: Ahora que se tiene claridad en el cálculo de las medidas de posición, vamos a
calcular un valor que nos ayudará en la búsqueda de valores atípicos. No olvide que un valor
atípico es aquel que sale de lo normal y que no es congruente con el resto de los datos.

Aunque según su percepción verá que algún valor es o no es


atípico, debe soportarlo en el siguiente procedimiento
matemático para tener mayor seguridad.

Se debe buscar primero el valor IQR (Rango Intercuartil) que es un valor que representa el 50%
central, es decir, dónde se encuentra la mayor concentración de los datos y se calcula tomando el
valor Q3 menos el valor de Q1. Esto aplica para el caso tanto de datos agrupados como datos no
agrupados.

𝑰𝑸𝑹 = 𝑸𝟑 − 𝑸𝟏 !

A través del valor IQR se puede definir un límite superior y un límite inferior. Todos los valores que se
encuentren por encima del límite superior o por debajo del límite inferior, serán considerados como
atípicos.
𝑳𝒊 = 𝑸𝟏 − 𝟏. 𝟓 ∗ (𝑰𝑸𝑹)
𝑳𝒔 = 𝑸𝟑 + 𝟏. 𝟓 ∗ (𝑰𝑸𝑹)

Recuerde que a la hora de resolver esta ecuación primero debe


resolver la multiplicación antes de pasar a la suma o la resta.
Las operaciones matemáticas tienen una jerarquía para
resolver de la forma indicada.

Al principio de la unidad se expuso acerca de las representaciones gráficas, una de ellas es


conocida como Diagrama de Caja y Bigotes, en el cual se pueden visualizar más claramente algunas
medidas de posición y facilita la interpretación. Lo invito especialmente a que busque y profundice al
respecto.
• Deciles: Divide al grupo de datos en 10 partes iguales, pudiendo encontrar entonces el decil 1,
2, 3, 4, 5, 6, 7, 8, 9 y 10 Se representan con la letra D, Así: 𝑫𝟏 , 𝑫𝟐 , 𝑫𝟑 , … , 𝑫𝟏𝟎

K representa el valor porcentual expresado en decimal. Si se sabe que los deciles dividen el grupo
de datos en 10 partes iguales, entonces cada uno de ellos tendrá un valor del 10%, entonces:

𝑫𝟏 → 𝟏𝟎% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟏
𝑫𝟐 → 𝟐𝟎% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟐
𝑫𝟑 → 𝟑𝟎% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟑
𝑫𝟏𝟎 → 𝟏𝟎𝟎% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟏

Tanto para datos agrupados, como no agrupados, la forma de realizar su cálculo es exactamente
igual al de los cuartiles. Lo importante es tener siempre en cuenta el valor k para cada caso.

• Percentiles: Divide al grupo de datos en 100 partes iguales, pudiendo encontrar entonces el
percentil 1, 2, 3, 4, 5,…, 99 y 100 Se representan con la letra P, Así: 𝑃t , 𝑃„ , 𝑃… , … , 𝑃t††
!

( ! representa el valor porcentual expresado en decimal. Si se sabe que los percentiles dividen el
grupo de datos en 100 partes iguales, entonces cada uno de ellos tendrá un valor del 1%,
entonces:

𝑷𝟏 → 𝟏% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟎𝟏
𝑷𝟐𝟏 → 𝟐𝟏% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟐𝟏
𝑷𝟑𝟕 → 𝟑𝟕% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟑𝟕
𝑷𝟖𝟒 → 𝟖𝟒% 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒌 = 𝟎, 𝟖𝟒

Tanto para datos agrupados, como para no agrupados, la forma de realizar


su cálculo es exactamente igual al de los cuartiles. Lo importante es tener
siempre en cuenta el valor k para cada caso.

En los siguientes videos podrá ver cómo se hacen estos cálculos a través de Excel.

Recursos
Lecturas recomendada
Datos no agrupados. En este video la posición se calcula algo diferente, sin
embargo, no se preocupe cuando termine de verlo, pues la información es
correcta, solo que se ha acortado para hacerlo más fácil de ver.
Enlace Cuartiles deciles y percentiles para datos no agrupados
!
Recursos
Lecturas recomendada
Datos agrupados. En este video las clases las calculan un poco diferente.
Recuerde que lo que vio no está mal, sólo se acorta para brindarle facilidad.
Enlace Cuartiles deciles y percentiles para datos agrupados en excel

!
!
Para complementar el estudio de este tema, lo invito a que ingrese al libro de aprendizaje de esta
! unidad y realice las actividades propuestas.
!

Conceptos clave

Análisis, asimetría, clase, dispersión, estadístico, frecuencia, gráficas, medidas de posición,


parámetro, tabla, tendencia central, variabilidad, variable.

Lista de referencia

D. R. Anderson, D. J. Sweeney y T. A. Williams. (2008). Estadística para Administración y economía,


Décima ed., Cengage learning, p. 1091.

G. C. Canavos. (1998) Probabilidad y Estadística, Aplicaciones y métodos, Mexico : McGraw Hill, p.


668.

Khan Academy. Matemáticas. Estadística de bachillerato. Recuperado de:


https://es.khanacademy.org/math/probability (Octubre 2017).

Universidad de Extremadura, Departamento de Matemáticas, Elección de un Gráfico. Diagramas.


Recuperado de: http://matematicas.unex.es/~trujillo/Esc_adm_pub_juex/tutorial-
EstCalc/eleccion.html (Octubre 2017).

W. Mendenhall, R. J. Beaver y B. M. Beaver. (2006) Introducción a la probabilidad y estadística,


Decimo Tercera ed., Mexico DF: Cengage Learning, p. 780.

!
!

Créditos
Licencia de uso:

Este recurso es publicado bajo la licencia Creative
Commons 2.5 Colombia.

Es de uso libre, no comercial y no permite derivación
o modificación de sus contenidos.

Para su uso debe nombrarse a la Fundación
Universitaria María Cano y al autor.
Autor (a):
Andrés Felipe Ospina Molina.
Ingeniero Químico

Guion y Producción:
Fundación Universitaria María Cano
Centro de Educación Abierta y a Distancia Virtual
Noviembre de 2017 Colombia

También podría gustarte