Espa Ii Tema 3 Bloque 7
Espa Ii Tema 3 Bloque 7
Espa Ii Tema 3 Bloque 7
Según un estudio del año 2014 del Instituto Nacional de Estadística (INE) el 35,7% de las personas de 18 y más años tiene
sobrepeso y un 16,9% presenta obesidad. Un 2,9% de los españoles no desayuna nada.
En 2015 los hogares redujeron la compra de fruta fresca en un 3,7% pero la subida del precio medio que fue del 4,9% (Informe
Consumo Alimentario del Ministerio Agricultura, Alimentación y Medio Ambiente).
Ahora plantéate lo siguiente:
▸ ¿Has entendido la información?
▸ ¿Cómo sabe el INE y el Ministerio de Agricultura todo eso si no nos han preguntado? ¿A quiénes
preguntan?
▸ ¿Qué cuentas han hecho los del INE para saber toda esa información?
La Estadística es una parte de las Matemáticas que se ocupa de estudiar grandes cantidades de datos sobre
un tema concreto. A través de encuestas o por mediciones sistemáticas se obtienen los datos y haciendo
cuentas con ellos se pueden sacar conclusiones útiles sobre hábitos de alimentación saludable y muchos otros
temas, para intentar entender su significado y poder tomar decisiones en variados asuntos.
Basándose en los estudios estadísticos, los gobiernos diseñan sus planes de gestión del medio ambiente y de
otros asuntos; los partidos políticos planifican sus estrategias electorales; y las empresas sondean los posibles
mercados y la evolución de sus negocios para proyectar sus inversiones.
Para hacer un estudio estadístico hay que planificar el trabajo con los siguientes pasos:
▸ conocer los datos objetivos
▸ ordenarlos
▸ analizarlos
▸ sacar conclusiones.
1
número de individuos en bandadas de aves, capturas pesqueras, temperaturas y precipitaciones en un lugar,
etc. Cada medida es un dato.
Al conjunto final de respuestas o de medidas obtenidas (datos) le llamamos VARIABLE ESTADÍSTICA. Una
variable estadística es cada una de las propiedades o características de las que podemos sacar un conjunto de
datos.
Las variables estadísticas, dependiendo de los valores que pueden tomar, se clasifican según el siguiente
cuadro:
▸ Cuantitativas: La variable se expresa mediante valores numéricos. Pueden ser de dos tipos:
Discretas: Sólo toma valores enteros, sin decimales. Ejemplos:
- Electrodomésticos que hay en una casa
- Habitaciones que tienen una casa
- Número de habitantes de una zona
Continuas: La variable puede tomar todos los valores posibles de un intervalo o tramo, y tener decimales. Ejemplos:
- Altura de un grupo de personas
- Gasto mensual en hipoteca de las familias de una ciudad
- Peso de lo pollos que se venden en los mercados andaluces
▸ Cualitativas: Los valores no son números, sino cualidades o rasgos no medibles. Ejemplos:
- Color preferido de un grupo de gente
- Partido al que votarás en las próximas elecciones
- Problema relacionado con el medio ambiente que preocupa más a los andaluces
Las variables continuas y aquellas con muchas posibilidades debemos agruparlas en intervalos. Por ejemplo,
como son demasiadas las posibles respuestas si preguntamos el peso, agrupamos las respuestas en intervalos:
"entre 50 y 60 kilogramos", "más de 60 y hasta 70 kg", etc.
Vamos a practicar la estadística con un ejemplo: hemos leído que un 2,9% de los españoles no desayuna
nada. Sin embargo el desayuno es algo fundamental para nuestra salud.
Nosotros queremos estudiar el tiempo dedicado a desayunar, ya que nos indica si le damos importancia o no.
Es una variable estadística cuantitativa continua.
2
a. ¿Deberíamos tener cuidado con el número de individuos de la muestra?
Es muy importante. Si seleccionamos demasiados no tendremos ninguna ventaja, sería mejor tomar toda
la población. Y si son demasiado pocos, pueden no ser representativos de la población y los datos no
informen de lo que realmente ocurre.
b. ¿Influirán las características de los individuos de la muestra en las conclusiones finales?
Claro que sí, no es lo mismo preguntar hábitos de alimentación a deportistas que a diabéticos, por
ejemplo.
Por tanto, la selección de una muestra adecuada es fundamental si queremos que lo que estudiemos en ella
pueda extenderse a toda la población.
Si tuvieras que escoger una muestra de toda la población de Cádiz para averiguar qué tanto por ciento come
legumbres al menos dos veces por semana, con un margen de error del 5 %, ¿a cuántas personas diferentes le
preguntarías, teniendo en cuenta que en el año 2014 la población de Cádiz era de 121.739 habitantes? ¿a
5000 personas, a 1000, a 10000? Pues con 383 personas es suficiente, según una fórmula que se estudia en
Bachillerato. Eso sí, deben ser bien escogidas en todo el conjunto, no las 383 del mismo barrio.
¿Cómo elegir entonces la muestra? Esto es una de las partes más complejas de la estadística y hay teorías
matemáticas muy complicadas al respecto.
La elección de la muestra puede ser:
aleatoria: se eligen al azar;
intencional: el encuestador elige a los que quiere.
Los dos métodos plantean problemas, ya que:
una muestra elegida al azar puede no ser representativa del total de la población;
una muestra intencional puede llegar a ser subjetiva.
Una muestra es representativa cuando las conclusiones de su estudio son aplicables a toda la población.
4
Conviene añadir dos columnas más para facilitar los cálculos posteriores: productos de los valores por sus
frecuencias absolutas (xi · ni) y productos de los cuadrados de los valores por sus frecuencias absolutas
(xi2 · ni).
Debajo de las algunas columnas se suman los correspondientes valores. La suma de las frecuencias
absolutas es el número de datos, n; la de las frecuencias relativas tiene que dar 1; y las otras servirán para
facilitar los cálculos siguientes (media, varianza y desviación típica).
Nuestro ejemplo: Se ha preguntado a 10 vecinos el tiempo en minutos que dedican al desayuno (variable
cuantitativa discreta) y han respondido lo que sigue:
0, 0, 9, 0, 5, 5, 9, 5, 15, 0
Valores de los datos (xi) Frecuencia Frecuencia Frecuencia Frecuencia Productos de valores y Productos de los
acumulada acumulada frecuencias absolutas cuadrados de los valores
(min) absoluta (ni) relativa (fi)
absoluta (Ni) relativa (Fi) (xi · ni) (xi2 · ni)
0 4 4 0,4 0,4 0·4=0 02 · 4 = 0
5 3 7 0,3 0,7 5 · 3 = 15 52 · 3 = 75
9 2 9 0,2 0,9 9 · 2 = 18 9 · 2 = 162
2
Si la variable es continua o discreta, pero toma muchos valores, los datos se agrupan en intervalos.
Ejemplo 2: preguntando a nuestros vecinos su edad, la tabla de frecuencias podría ser:
Valores de los datos (Ii) Frecuencia Frecuencia Frecuencia Frecuencia Productos de valores y Productos de los
acumulada acumulada frecuencias absolutas cuadrados de los valores
(edad en años) absoluta (ni) absoluta (Ni)
relativa (fi) relativa (Fi) (xi · ni) (xi2 · ni)
15-24 10 10 0,2 0,2 19,5 · 10 = 195 19,52 · 10 = 3.802,5
25-34 15 25 0,3 0,5 29,5 · 15 = 442,5 29,52 · 15 = 13.053,75
35-44 10 35 0,2 0,7 39,5 · 10= 395 39,52 · 10 = 15.602,5
45-54 8 43 0,16 0,86 49,5 · 8 = 396 49,52 · 8 = 19.602
55-64 5 48 0,1 0,96 59,5 · 5 = 297,5 59,52 · 5 = 17.701,25
65-74 2 50 0,04 1 69,5 · 2 = 139 69,52 · 2 = 9.660,5
Totales: ni = 50 = n fi = 1 (xi · ni) = 1.865 (xi2 · ni) = 79.422,5
Los intervalos en los que se agrupan los valores de una variable se llaman intervalos de clase.
El valor representante de un intervalo de clase es la marca de clase y se toma como el valor medio del
intervalo (el dato que queda justo en medio del mismo). En el ejemplo de la edad de los vecinos, la marca del
intervalo [15-24] es 19,5 años. Si no lo ves claro, primero suma 15 + 24 = 39 y después divide 39 : 2 = 19,5.
Polígono de frecuencias: se unen los extremos de los rectángulos o las barras de los diagramas anteriores con
una línea poligonal.
Diagrama de sectores. Se usa para ver como se "reparte" la muestra o el total de la población estudiada entre
los distintos valores obtenidos.
En el nuestro ejemplo, el círculo completo representa la muestra
completa de los 10 vecinos (n), y cada sector la parte de ellos que
dedica 0, 5, 9 o 15 minutos al desayuno (xi).
▸ Repartimos los 360º del círculo completo entre el número de
datos (n): 360º/10 = 36º por vecino.
▸ Cada valor (xi) se representa con un sector (“quesito”) cuyo
ángulo es proporcional a su frecuencia (ni):
x1 = 0, n1 = 4 → 36º · 4 = 144º
x2 = 5, n2 = 3 → 36º · 3 = 108º
x3 = 9, n3 = 4 → 36º · 2 = 72º
x4 = 15, n4 = 4 → 36º · 1 = 36º
Los gráficos circulares presentan algunos inconvenientes, por lo que no siempre es aconsejable su uso.
Pictograma. En este caso representamos
cada valor (xi) con un dibujo alusivo cuyo
tamaño será proporcional a la frecuencia
absoluta (o relativa) del valor (ni o fi).
En nuestro ejemplo, podemos
representar cada valor con una taza, que
será más grande para las respuestas
más frecuentes y menor para las
respuestas menos frecuentes.
A la hora de hacer una representación gráfica, no hay que olvidar que su objetivo es facilitar la comprensión
de la información. Por eso hay que tener cuidado a la hora de elegir el tipo de gráfico y el diseño del mismo.
6
3.1. M edidas de centralización
Nos indican en torno a qué valor (centro) se reparten los datos. Por ejemplo, si queremos representar a todo
un barrio por el sueldo de sus habitantes, no podemos hacerlo ni por el más bajo ni por el más alto, es más
representativo el valor medio.
Media (se simboliza x ): Es la suma de todos los valores dividida por el número de datos. Sólo puede
calcularse a partir de variables cuantitativas. Aprovechamos la suma que hicimos en la 6ª columna de la
tabla de frecuencias:
x
x i ni
x 1 ·n 1 x 2 ·n 2 .....x n ·n n
, donde xi : los distintos valores de la variable; ni: las frecuencias
n n
absolutas de los datos xi; n: el número de datos. Si la variable está agrupada por intervalos, los valores x i
son las marcas de clase.
Moda (se simboliza Mo): Es el valor (xi) que más se repite, es decir, el dato de mayor frecuencia, pero no la
frecuencia. Puede haber más de un valor modal. Si la variable está agrupada por intervalos, es el tramo
que tiene mayor frecuencia.
Mediana (se simboliza Me): Es el valor (xi) que ocupa el lugar central de todos los datos (incluyendo las
repeticiones) cuando éstos están ordenados de menor a mayor. Si hay un número par de datos, es la
media de los dos valores centrales. Si la variable va por intervalos, se considera mediano el intervalo que
contiene el valor central. Podemos ver el número de orden de los valores por la frecuencia acumulada
absoluta (valor que tiene Ni = n/2) o acumulada relativa (valor que tiene Fi = 0,5).
Vamos a calcular las medidas de centralización de los dos ejemplos (podemos usar las sumas (xi · fi) de las tablas):
Ejemplo 1:
x
x i ni
0·4 5·3 9·2 15·1 48
4,8 minutos empleados en el desayuno
n 10 10
Moda: Mo = 0 minutos (la mayor frecuencia es 4, que corresponde al valor 0 minutos de desayuno).
Mediana: ordenamos los 10 datos: 0 - 0 - 0 - 0 - 5 - 5 - 5 - 9 - 9 - 15; tenemos que hacer la media aritmética entre el
dato que ocupa el 5º lugar y el que ocupa el 6º, y como los dos son 5, la mediana es: Me = 5 minutos
de desayuno.
Ejemplo 2:
x
x i ni
19,5·10 29,5·15 39,5·10 49,5·8 59,5·5 69,5·2 1865
37,3 años
n 50 50
Moda: Mo = entre 25 y 34 años, porque su frecuencia es la mayor (n2 = 15).
Mediana: ordenando los 50 datos, nuestra referencia son los datos 25º (25-34) y 26º (35-44) , al ser n= 50 un
número par, por lo que la mediana sería el valor medio entre sus marcas de clase: Me = (29,5+39,5)/2 =
34,5 años.
3.2. M edidas de d ispersión
¿Qué ocurriría en nuestro ejemplo del desayuno si añadimos un vecino nuevo que tardase dos horas en
7
Vienen a ser algo así como indicadores de cómo de agrupados están los datos en torno a la media. Si están
muy agrupados, los parámetros de dispersión tomarán valores pequeños. Pero si no lo están, si están muy
"dispersos" (hay mucha diferencia entre unos y otros), tomarán valores más grandes. Es decir, miden cómo de
homogéneo o “parejo” es el conjunto de datos, y por tanto, si la media da una información fiable.
Rango o recorrido (se simboliza R): Es la diferencia entre el mayor y el menor valor (xi) de la variable:
R = xn -x1
Varianza (se simboliza σ 2 o S2): Es la media aritmética de los cuadrados de las desviaciones. Desviación
es la diferencia entre el valor de un dato y la media. Aprovechamos la suma que hicimos en la 7ª columna
de la tabla de frecuencias:
σ2
x 2
i ni
x2
x 2
1
·n 1 x 22 ·n 2 ..... x 2n ·n n
x 2 , donde xi: los valores de la variable; ni: la
n n
frecuencia absoluta de cada valor; x : la media aritmética; n: el número de datos.
Si la variable es agrupada por intervalos, se toman como valores de xi las marcas de clase.
Desviación típica (se simboliza σ o S): Es la raíz cuadrada de la varianza, es decir: σ σ 2
Coeficiente de variación (se simboliza CV): Es el cociente entre la desviación típica y la media.
σ
CV 100 (se suele dar en tanto por ciento)
x
Vamos a calcular las medidas de dispersión de los dos ejemplos (usamos las sumas (xi2 · fi) de las tablas):
Ejemplo 1:
Rango = 15 - 0 = 15 minutos de variación.
Varianza: σ 2 x 2
i ni
x2
0 2 ·4 5 2 ·3 9 2 ·2 15 2 ·1
4,8 2
462
23,04 23,16
n 10 10
4,81
Desviación típica: σ 23,16 4,81 minutos; Coeficiente de variación: CV 100 100 %
4,8
Ejemplo 2:
Rango = 74 - 15 = 59 años de variación.
Varianza: σ 2 x 2
i ni
x2
79.422,5
37,3 2 197,16
n 50
Desviación típica: σ 197,16 14,04 años; Coeficiente de variación:
14,04
CV 100 37,64 %
37,3
4. Extracción de conclusiones
Hemos visto como se trabaja con los datos:
▸ Las tablas de frecuencias y los gráficos tienen por objetivo organizar y facilitar la visualización de los datos.
▸ La media aritmética indica un valor representativo de la variable, que resume la información de los datos
recogidos y se interpreta en la realidad concreta que estamos estudiando.
▸ La varianza y desviación típica nos dicen cómo están de agrupados los datos respecto de la media.
Permiten saber hasta qué punto la media aritmética da una buena información de la realidad estudiada.
8
▸ El coeficiente de variación, además de lo anterior, permite comparar la agrupación de los datos respecto
de la media en distribuciones que no se parezcan en nada, lo cual puede resultar interesante.
Pero no tiene sentido que nos pongamos a hacer tablas, cuentas y gráficos con los números simplemente
porque sí, se trata de dar respuesta a lo que queríamos saber extrayendo conclusiones que permitan diseñar
estrategias o medidas para mejorar los hábitos o características que estudiamos.
Por ejemplo:
Imaginemos que estudiamos la dieta de 8 personas y extraigamos conclusiones a partir de los datos. Hemos
estudiado dos variables: la cantidad de calorías ingeridas por persona y día y el % de grasas ingeridas.
Supongamos que, después de hacer todos los cálculos de nuestro estudio, estos son los resultados que
hemos obtenido:
▸ La media de calorías ingeridas por persona y día son 1800 kcal, con una moda de 1810 kcal y una
desviación típica de 50 kcal.
▸ El porcentaje medio de grasas que ingieren es un 40%, con una moda de 32% y una desviación típica de
17 (17%).
¿Qué consecuencias podríamos sacar de estos resultados?
Respecto a las calorías ingeridas, los valores de la media y la desviación típica nos dicen que la mayoría
ingiere entre 1750 (media – desviación típica) y 1850 kcal diarias (media + desviación típica), siendo el valor
más repetido 1810 kcal. Podemos interpretar que estas 8 personas tienen un consumo de calorías diarias
razonablemente sano (acercándose a bajo), siendo su comportamiento muy parecido (puesto que hay poca
variación entre las respuestas).
Respecto del % de grasas ingeridas, si bien no ingieren demasiadas calorías (como hemos visto antes) el
porcentaje medio de grasas en su alimentación es demasiado elevado.
Sin embargo, la desviación típica indica que las respuestas están entre 23% (media – desviación típica) y 57%
(media + desviación típica), lo que refleja que hay grandes diferencias entre unas personas y otras. Algunas
cuidan la cantidad de grasa en su dieta pero otras hacen un consumo peligroso para la salud.
Hay mucha disparidad en las respuestas:
▸ Unos comen un número adecuado de calorías y una cantidad saludable de grasa. Seguramente hacen
una dieta mediterránea, que es una de las mejores del mundo según los expertos…¡Y la tenemos tan
cerca!
▸ Otros no comen demasiadas calorías, pero de lo que comen un porcentaje demasiado elevado es grasa.
Pueden ser personas con poco tiempo para comer que abusan de la comida rápida, poco saludable.
Otro ejemplo:
Variable: Índice de masa corporal (IMC), que es un índice calculado
a partir de la talla y el peso de una persona, y nos sirve para evaluar Frecuencia Frecuencia
IMC
su estado nutricional según esta escala: absoluta relativa
7. ¿Y si la información no es fiable?
Constantemente estás recibiendo información en gráficos pero muchos están manipulados voluntariamente.
Fíjate en el siguiente caso extraído del periódico eldiario.es: en un programa de televisión se usó el gráfico de
la izquierda con la evolución del paro registrado en el año 2013. El eje estaba tan cortado que parecía que el
paro se había reducido a casi cero durante esos meses. En este caso puedes comprobar lo importantísimo que
es usar la escala adecuada en cada eje.
Sin embargo, los gráficos han evolucionado muchísimo con la tecnología y su utilidad es enorme.
10