Atributos
Atributos
Estadística de atributos29
En la construcción de una base o matriz de datos, el énfasis se pone en las unidades de registro,
también denominadas observaciones, casos de estudio o simplemente casos. A partir de ellas se
procede a identificar las propiedades o atributos que las caracterizan. Son estas propiedades o
atributos los que originan las variables.
Cuando interesa resumir y sistematizar la información contenida en una base de
datos emprendemos el camino inverso. Centramos la atención en las variables y realizamos
operaciones de conteo cuyo resultado primario es el número de veces que se repitió un
determinado valor de la variable o, equivalentemente, el número de casos que tienen el mismo
valor en una variable. Éste es el concepto estadístico de frecuencia absoluta, que en términos
generales se define como el número de veces que se repite un determinado valor de la
variable.
Ahora bien, sabemos que las variables se clasifican en métricas y no-métricas. La
diferencia esencial entre ambos tipos radica en las operaciones lógicas que válidamente se
pueden aplicar a unas y otras. Sobre las variables métricas (escalas de intervalo y de razón) se
pueden emplear todas las operaciones aritméticas, como por ejemplo, sumar, restar, multiplicar,
dividir, elevar a potencias, tomar logaritmos, extraer raíces, etc.
Claramente estas operaciones no son lícitas para las variables no métricas. Por
ejemplo, en el caso que la variable fuese nominal que emplean únicamente el nombre de los
números, no tendría sentido calcular el promedio de la variable religión (que implica a la suma y
la división) si hemos codificado con 1 a las personas que profesan la religión católica, con 2 a los
judíos, con 3 a quienes se adscriben a algunas de las iglesias protestantes y con 4 a las personas
que se declaran afro-umbadistas 5 a quienes pertenecen a otras religiones y 6 a quienes son
ateos o agnósticos.
Sabemos, por otra parte, que si la variable está medida en escala ordinal es porque se
ha decidido clasificar las unidades usando sólo dos de las propiedades de los números: el
nombre y el ordenamiento. Esto inhibe la posibilidad de aplicar algunas operaciones aritméticas
que suponen distancias entre categorías. Examinemos un poco más detenidamente esta
situación. Supongamos que nos interesa establecer una jerarquía social con cinco estratos
ordenados en clases: baja, media baja, media, media alta, y alta. Para codificar estas categorías
sería tan válido usar los números 1, 2, 3, 4, 5 como 10, 100, 1,000, 10,000 y 100,000; ya que: (i)
el nombre del número sirve para conocer inequívocamente la clase a que pertenece cada una de
las observaciones. En efecto, a una persona de la clase baja le corresponderá el código 1 en un
caso y el 10 en el otro, y a una de la clase media el 3 y el 1,000, respectivamente; y, (ii) los
códigos respetan la jerarquía en tanto 1 es menor que el 3 y 10 menor que 1,000, pero
claramente la distancia es diferente (2 y 990, respectivamente) y ésta no tiene relevancia alguna
porque la escala de medida es ordinal30.
29
La revisión y adaptación de esta sección estuvo a cargo de Tabaré Fernández y Adrián Silveira.
30
En el ejemplo hemos asociado el código menor a la clase baja y el código más alto a la clase alta, podríamos
haberlo hecho al revés, es decir, hacer corresponder a la clase baja el número más grande y no habría cambiado
nada; lo que importa es que el orden de los números guarde una correspondencia definida con los valores de las
variables. De acuerdo con esta idea, si la escala de medida es ordinal, entonces no sería válido dar el código 1 a
47 | E s t a d í s t i c a S o c i a l B á s i c a
La Estadística Básica se puede dividir en dos sub-ramas: una dedicada al tratamiento
estadístico de las variables no-métricas y otra dedicada a las variables métricas. Esta distinción
permite diferenciar con claridad los conceptos y medidas estadísticas que se emplean en ambas
ramas ya que la segunda hace uso pleno de todas las operaciones, mientras que en la primera
sólo se permite emplear el nombre o el orden de los números.
En los capítulos V y VI desarrollaremos las ideas centrales de la Estadística Descriptiva
para variables métricas; éste y el próximo los dedicaremos a los conceptos básicos Estadística
para variables no-métricas, también llamada “Estadística de atributos”. Este capítulo lo
dedicaremos a medidas univariadas de atributos entendiendo por tales aquellas que se calculan
para resumir la distribución de una única variable no métrica. En el capítulo IV introduciremos
el tema del análisis de asociación.
Comenzamos la exposición examinando los conceptos elementales de “proporción”,
“porcentaje” y “razón”. En las siguientes dos secciones se presentan las dos maneras de
representar la distribución de frecuencias de una variable no métrica: la tabla de frecuencias y
las gráficas. Por último se incluye un resumen que recapitula las principales ideas desarrolladas
a lo largo del capítulo.
En esta sección presentaremos primero conceptos matemáticos que permitirán entender las
nociones de proporción y porcentaje, y a continuación, presentaremos la idea de razón. Estas
ideas son fundamentales para el análisis de las variables no métricas en la medida en que
muchas veces sólo podemos contar la cantidad de casos pertenecientes a cada una de las
categorías de la variable.
Desde el punto de vista lógico la exposición de estos conceptos debiera iniciarse por el
concepto de razón para luego tratar las proporciones y porcentajes como casos particulares de
aquella. Sin embargo, se optó por iniciar este capítulo con el tratamiento de estas últimas
nociones porque suelen ser bastante más familiares en las ciencias sociales que las “razones” y
por lo tanto, son una puerta de entrada que facilita su comprensión y manejo. Comenzaremos la
exposición mostrando que estas nociones se pueden aplicar en una variedad de situaciones;
destacaremos aquellas en las que la información ya está tabulada.
El concepto “proporción” permite medir el tamaño que corresponde a una parte cualquiera en
relación al todo. Tal vez esta noción planteada en abstracto puede parecer escurridiza a la
comprensión, por lo que procederemos a dilucidarla por pasos hasta llegar a ejemplos que
permitan captarla en toda su extensión.
Pensemos en una situación en que un conjunto de observaciones se puede clasificar en
una serie de partes que satisfacen, a la vez, la condición de ser (i) mutuamente excluyentes y (ii)
exhaustivas, es decir, que cada caso sólo puede pertenecer a una y sólo una de las partes
(categorías o partes mutuamente excluyentes) y que no hay ninguna observación que quede
fuera de la clasificación (todas y cada una de las unidades que conforman la base de datos
la clase baja, el 5 a la clase media baja, el 4 a la clase media, el 2 a la media alta y el 3 a la alta. Sin embargo, no
habría ninguna dificultad en usar este sistema de códigos si la variable es nominal.
48 | E s t a d í s t i c a S o c i a l B á s i c a
encuentra acomodo en una parte). Por lo tanto la clasificación es tal que la suma de los casos
clasificados en cada categoría es igual al número total de observaciones.
La proporción para una categoría genérica k (nótese que es k minúscula) sobre un
total de casos n31, se define como:
𝑛𝑘
(III. 1) 𝑝𝑘 = 𝑘 = 1, 2,3 … . . 𝐾
𝑛
En la ecuación III.1 destacamos que el numerador presenta la frecuencia absoluta del
número de casos que clasifican en la k-ésima categoría, en tanto el numerador (N) representa el
total de casos considerados. Los porcentajes se definen como las proporciones multiplicadas
por 100. Esto quiere decir que el todo se considera igual a 100 y no igual a 1, como se hace en el
caso de las proporciones. De acuerdo con esta definición si simbolizamos el porcentaje con P (p
mayúscula) tenemos que:
𝑛𝑘
(III. 2) 𝑃𝑘 = ∗ 100 𝑘 = 1, 2,3 … . . 𝐾
𝑛
El propósito fundamental de esta operación consiste en facilitar la comprensión de los
resultados, cambiando la base de comparación de 1 a 100. Para ilustrar estas ideas tomemos
como ejemplo la distribución de la población de Uruguay según el sexo tal como lo registró el
Censo de 2011. La tabla III.1 tiene por fuente información publicada por el INE en 2013. Sólo
están las frecuencias absolutas, por lo que si deseamos hacer más elocuente la comunicación, un
camino simple es aplicar la ecuación III.1 y III.2 y así obtener las proporciones y porcentajes, de
varones y mujeres, respectivamente. Transformando así las cifras sabemos que las 1.708.481
mujeres son una proporción igual a 0,5199 en el total, o lo que es lo mismo, son el 51,99%.
TABLA III.1.
Distribución de la población de Uruguay según sexo. 2011
Frecuencia absoluta Proporción Porcentaje
Varones 1.577.725 0,4801 48.01%
Mujeres 1.708.481 0,5199 51.99%
Total 3.286.206 1,0000 100.00%
Fuente: Uruguay en Cifras, INE 2013, pág. 18. No se incluyen 108 censados que no reportaron información en
sexo.
31
Usaremos aquí el símbolo en minúscula. Es convención usar la N mayúscula en Muestreo para representar el
tamaño de la población y distinguirlo del tamaño de la muestra.
49 | E s t a d í s t i c a S o c i a l B á s i c a
ESQUEMA III.1.
Elementos básicos que definen una proporción en el caso de variables no-métrica
clasificada por renglones.
Categorías Frecuencias Proporciones Porcentajes
A1 n1 p1=n1/N P1=100*p1
A2 n2 p2=n2/N P2=100*p2
A3 n3 p3=n3/N P3=100*p3
…………. …………. ………….
Ak nk pk=nk/N Pk=100*pk
Total N 1 100
(III. 3. ) 𝑝1 + 𝑝2 + 𝑝3 + ⋯ . +𝑝𝑘 = 1
32
En este caso particular, el término “controlar” se refiere a la operación que tiene por objetivo eliminar el
efecto del tamaño o total sobre las frecuencias absolutas de las categorías.
50 | E s t a d í s t i c a S o c i a l B á s i c a
III.1.2. Razones
La razón, que designaremos R, se define como la relación entre dos números. Si y representa un
número y x otro, entonces la relación se define como:
𝑦
(III. 4. ) 𝑅=
𝑥
La definición de razón es tan amplia que puede dar origen a una gran variedad de
cálculos. En términos generales, debe considerarse que tanto los valores de “y” como los de “x”
pueden representar frecuencias de una variable (en cuyo caso suelen simbolizarse no con y o
con x sino con ”n” ) o totales de una variables (n); se pueden construir razones con variables
definidas sobre una misma unidad o sobre unidades distintas, también se puede calcular la
relación entre una misma variable desplegada en el espacio o en el tiempo, así como proponer
relaciones de segundo orden construidas sobre relaciones de relaciones y de ahí en adelante. No
es nuestra pretensión elaborar un tratamiento sistemático y exhaustivo sobre las posibles
“relaciones” que puedan ser útiles a la investigación social, sino limitarnos a exponer los tipos
de uso frecuente en nuestras disciplinas.
En el capítulo anterior vimos que una forma de generar nuevas variables era a través
de la construcción de razones aplicada por ejemplo, a variables que caracterizan un hogar. Si “y”
representaba el ingreso del hogar y “x” representaba el número de integrantes del hogar, la
razón entre ambos valores para una misma unidad, generaba una nueva variable: el ingreso per
cápita. Este primer tipo de razones sobre variables distintas en una misma unidad tiene su
aplicación más clara cuando trabajamos con colectivos, tales como hogares, municipios,
escuelas, departamentos, países. Formalmente:
𝑦𝑖
(III. 5. ) 𝑅1 =
𝑥𝑖
𝑛𝑗
(III. 6) 𝑅3 = 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑗 ≠ 𝑘
𝑛𝑘
51 | E s t a d í s t i c a S o c i a l B á s i c a
Veamos un ejemplo al respecto. La tabla III.2 presenta información sobre
matriculación en la Educación Media Básica (EMB) al año 2011 difundida por el INE en su
publicación “Uruguay en cifras 2013” a la que ya hiciéramos alusión anteriormente (INE, 2013).
Además de transcribir las frecuencias absolutas, computamos los porcentajes y también una
razón que toma como categoría de referencia a la EMB de tipo general y pública33. Se puede
apreciar que la razón de todas las demás categorías sobre aquella de referencia es menor a la
unidad, indicando que las frecuencias son menores en todos los casos, cuestión que ya quedaba
claro a partir de los porcentajes. Al multiplicar la razón por cien, operación que está en la última
columna de la tabla se tiene una idea más clara de su significado: se hace evidente que por cada
100 estudiantes que cursan la EMB general pública, hay 19 que hacen EMB general privada y 18
que lo hacen en la EMB técnica. En cambio, solo 2 alumnos hacen la modalidad rural por cada
100 que hacen la general.
TABLA III.2
Alumnos matriculados en los distintos sectores institucionales de la Educación Media
Básica (EMB) de Uruguay. 2011
Frecuencia Porcentajes Razón Razón por 100
EMB general pública 130.978 71.9% 1.00 100
EMB general privada 25.440 14.0% 0.19 19
EMB técnica 23.791 13.1% 0.18 18
EMB rural 1.966 1.1% 0.02 2
Total 182.175
Fuente: Tomado de la tabla de INE, 2013: pág. 29
Un caso especial del anterior tipo de razones involucra aquellas situaciones en que
todas las categorías son reducidas a dos clases: aquella de interés (en adelante A) y las demás
tomadas como complementarias (B). Puede ser el caso en que originalmente la variable fuera
dicotómica o que siendo pluricotómica, todas las demás se agrupan en una complementaria.
Cuando se toma el cociente de la frecuencia relativa de una categoría sobre la frecuencia relativa
sobre el complemento, su resultado se denomina momio. Si la frecuencia relativa de la categoría
de interés se denomina pA, y la frecuencia relativa del complemento B se denomina pB, entonces
el momio se define formalmente:
𝑛𝐴
𝑝𝐴 ( 𝑁 ) 𝑛𝐴 𝑁 𝑛𝐴
(III. 7) 𝑀𝑜𝑚𝑖𝑜 ∶ = 𝑛 = ∗ =
𝑝𝐵 ( 𝐵 ) 𝑁 𝑛𝐵 𝑛𝐵
𝑁
33
En su casi totalidad se trata de los liceos del Consejo de Educación Secundaria (CES). Sin embargo, existen
grupos y estudiantes que asisten a modalidades muy particulares también dependientes del CES que tienen otro
tipo de gestión: las Aulas Comunitarias, a cargo de organizaciones de la sociedad civil, los centros del Programa
Nacional de Educación y Trabajo (PNET), los cursos en las cárceles, etc.
52 | E s t a d í s t i c a S o c i a l B á s i c a
TABLA III.3.
Alumnos matriculados en la Universidad de la República (UDELAR) y en las
universidades e institutos universitarios privados correspondientes a las carreras de
grado (cortas y largas) de la Educación Superior Universitaria de Uruguay. 2010
Momio por
Frecuencia Porcentaje Momio
100
Universidad de la República, UDELAR (1) 81.777 81.9% 1,00 100
Universidades e institutitos universitarios privados (2) 18.122 18.1% 0,22 22
Total 99.896 100.0%
Fuente: Tomado de la tabla de INE, 2013: pág. 29. (1) los datos de UDELAR corresponden al Censo
Universitario de estudiantes del año 2007. (2) Se corresponde con: Universidad Católica del Uruguay,
Universidad ORT, Universidad de Montevideo, Universidad de la Empresa, Instituto Universitario Autónomo
del Sur, Instituto Universitario ACJ, Instituto Universitario CLAEH, Instituto Universitario Mariano Soler,
Instituto Universitario Metodista Crandon, Instituto Universitario BIOS, Instituto Universitario Francisco de
Asis e Instituto Universitario CEDIIAP.
Se puede apreciar que en este caso este caso particular que el momio es igual a 0,22
cuando se toma como categoría de referencia a los matriculados en la UDELAR. Aplicando la
misma transformación de multiplicar el momio por cien, se llega a que por cada 100 estudiantes
que asisten a la UDELAR hay 22 que lo hacen al sector privado. En el capítulo IV, sección 4,
volveremos a examinar esta noción y su utilidad para el análisis de asociación.
Un cuarto tipo de razones que nos interesa aquí refiere a cocientes construidos
sobre dos variables tomadas para las mismas unidades, teniendo la categoría de una de las
variables como referencia. Sean dos variables distintas, tal que “xk” representa aquella que se
define como variable y categoría de referencia, y por otro lado sea “yj”, categoría de otra variable
que se desea comparar, la relación se expresa formalmente:
𝑦𝑗
(III. 8. ) 𝑅4 =
𝑥𝑘
Este tipo de razones aplica, por ejemplo, a la comparación entre variables dicotómicas
que expresan la tenencia o carencia de ciertos activos. En el informe “Uruguay en cifras 2013” se
reporta información acerca de la tenencia de distintos bienes de confort en los hogares
uruguayos. La tabla III.4 reproduce esta información. Adviértase que esta tabla tiene algunas
diferencias importantes respecto de las anteriores que hemos visto. Para empezar, la unidad de
análisis aquí es el hogar y no el individuo. En segundo lugar, cada renglón de la tabla es un ítem
de confort distinto. Sin embargo, esto no debe confundir. Se trata de una tabla que presenta un
resumen estadístico univariado pero lo hace simultáneamente para un grupo de variables que
refieren a un mismo concepto: el equipamiento de confort del hogar34. En tercer lugar, se trata
de variables dicotómicas dado que sólo hay dos posibilidades lógicas: el hogar lo tiene o no tiene
el ítem de confort y el porcentaje está calculado sobre el total de hogares, de modo que el 97.5%
de los hogares tienen heladera y el 2.5% no tienen este bien. En cuarto lugar, la tabla sólo
reporta la frecuencia absoluta de todos los hogares que tienen este ítem. No está incluida la
información de quienes no tienen el ítem de confort, es decir, de la categoría complementaria en
34
De hecho en el capítulo II, sección 5, propusimos un índice sumatorio de equipamiento.
53 | E s t a d í s t i c a S o c i a l B á s i c a
esta variable. En quinto lugar, el porcentaje está computado sobre el total de hogares, un valor
que tampoco está incluido en la tabla, sino en el pie de página.
TABLA III.4
Tenencia de bienes de confort en los hogares uruguayos. 2012
Frecuencia
Variable de confort Porcentaje Razón Razón por 100
absoluta
Heladera 42.667 97.5% 1.22 122
TV color (cualquier tipo) 42.461 96.9% 1.21 121
Radio 39.820 90.9% 1.14 114
Calefón o termofón 35.031 75.4% 1.00 100
Lavarropa (común y programable) 32.475 74.1% 0.93 93
Teléfono 28.296 64.8% 0.81 81
Microcomputador (incluye laptops y plan
26.719 63.7% 0.76 76
Ceibal)
Conexión a TV por abonados 26.524 60.7% 0.76 76
Conexión a Internet (modem, ADSL, Vera) 20.278 48.4% 0.58 58
Automóvil o camioneta para uso privado del
15.444 36.5% 0.44 44
hogar
Motocicleta o ciclomotor 14.455 34.2% 0.41 41
Aire acondicionado 9.667 22.6% 0.28 28
Fuente: Tomado de la tabla de INE, 2013: pág. 26. El total de hogares sobre el que se computan los porcentajes
es de 43.839 y se corresponden con los encuestados en la ECH de 2012.
54 | E s t a d í s t i c a S o c i a l B á s i c a
𝑥𝑖,𝑡
(III. 9) 𝑅5 = 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑡
𝑥𝑖,0
MATRIZ III.1
Evolución de la pobreza de ingresos en personas. Uruguay 2006 al 2013.
Año Porcentaje Razón Número índice (base100=2006)
2006 32.5 1,00 100
2007 29.6 0.91 91
2008 24.2 0.74 74
2009 21,0 0.65 65
2010 18.5 0.57 57
2011 13.7 0.42 42
2012 12.4 0.38 38
2013 11.5 0.35 35
Fuente: INE, 2014: cuadro 7, pág. 29.
55 | E s t a d í s t i c a S o c i a l B á s i c a
III.2. Elaboración de una tabla de frecuencias
Una vez entendidos los instrumentos matemáticos básicos utilizables en el análisis de variables
no métricas, corresponde ahora ponerse en la situación de quien producirá la información a
partir de los datos disponibles directamente en la matriz.
Recordemos que una distribución de frecuencias es, en su definición más simple, la
agrupación de datos en las categorías de la variable, indicando el número de observaciones en
cada una de ellas. Su representación se realiza por medio de tablas de frecuencias y gráficas.
Comencemos por presentar las características de las tablas y en la siguiente sección
profundizaremos en las formas gráficas de mostrar la distribución de variables no-métrica.
La tabla de frecuencias es a la vez un instrumento complejo de la estadística y una
forma visual de presentar un resumen de la matriz de datos. Este resumen podrá estar
organizado indistintamente por filas o columnas.
Como veremos a continuación, son varios los elementos que integran una tabla de
distribución de frecuencia, sin embargo, su operación fundamental es la de contar el número de
casos que clasifican en cada una de las categorías de la variable no métrica de interés. Esto es, lo
que denominamos frecuencia absoluta.
En su aspecto más general, puede llegarse a confundir una tabla de frecuencias con
una matriz de datos; sin embargo, esta confusión debe ser disipada en forma razonada y clara,
recordando que una tabla es un resumen de una columna de la matriz, en el caso de las tablas
univariadas que veremos en esta sección el resumen involucra una sola variable de dicha matriz
de datos.
El “dibujo” de la tabla de frecuencias estándar requiere respetar ciertas convenciones
básicas como ser la ubicación de las categorías de la variable en los renglones, y los distintos
estadísticos en las columnas: frecuencias absolutas y frecuencias relativas. El último renglón de
la tabla se titula “total” e informa de la suma de las frecuencias absolutas y relativas.
Finalmente, también existen convenciones respecto del título y fuente de una tabla
que revisamos aquí.
III.2.1. Esquema general para una tabla con una variable nominal
Una tabla de frecuencias tiene por objetivo resumir la distribución de la variable tomada de una
matriz de datos. En todos los casos que trabajaremos aquí, el resumen aplicó sólo sobre una
columna de la matriz. Dado que además, las variables son no métricas, el resumen tendrá por
objeto informar sobre el “peso” que tiene cada categoría de la variable.
Para resumir se pueden usar uno o varios de los instrumentos estadísticos que hemos
presentado en la sección anterior. La elección de cuáles se usan dependen tanto de los objetivos
planteados en el análisis como también de la estrategia que se fija para comunicar los resultados
al público destinatario. En ocasiones basta con presentar un único estadístico, el porcentaje. En
otras, se requiere las frecuencias absolutas, porcentajes y algún tipo de razón.
Adoptaremos la convención de que una tabla estándar para una variable nominal
debiera tener por lo menos dos tipos de información: la frecuencia absoluta y la frecuencia
relativa (sea proporción o porcentaje). El esquema III.2 introduce la disposición en una tabla de
los distintos elementos que puede ser aplicada a una variable nominal.
Una tabla contiene, en su primera columna, a las categorías de la variable reportada,
una por cada renglón, a modo de listado. Nótese que al tratarse de una variable nominal, es
indistinto realizar algún ordenamiento de las categorías. A continuación del renglón que
56 | E s t a d í s t i c a S o c i a l B á s i c a
presenta la última categoría, se añade un renglón que se titulará “Total” y en el cual se incluirá
oportunamente la suma para cada columna de las frecuencias correspondientes.
En la segunda columna de la tabla presentaremos la frecuencia absoluta, que como
mencionamos anteriormente, corresponde al número de veces que se repite un determinado
valor de la categoría.
ESQUEMA. III.2.
Elementos básicos que definen una distribución de frecuencias de una
variable no métrica nominal.
Categorías de la variable Frecuencias absolutas Frecuencias relativas (porcentajes)
X1 n1 p1=n1/N
X2 n2 p2=n2/N
X3 n3 p3=n3/N
…………. …………. ………….
Xk nk pk=nk/N
Total N 1 (100)
La tercera columna muestra las frecuencias relativas, que como vimos es la proporción
de cada frecuencia absoluta en el total de las observaciones. También podrá expresarse como
porcentaje, es decir, la proporción multiplicada por 100. Como vimos en las páginas
precedentes, esta es una medida posiblemente más corriente e intuitiva y en términos de su
comunicación, más efectiva a la hora de expresar una noción de participación de una categoría
en el total.
En este apartado presentaremos las variaciones que requiere el esquema que diseñamos para la
construcción de una tabla de frecuencias para variables métricas nominales cuando elaboramos
dicha tabla para variables ordinales.
Tal como se ha indicado en el capítulo II, las variables ordinales permiten establecer
un orden entre categorías. Esta característica establece dos condicionantes a la hora de elaborar
una tabla de frecuencias: Po una parte, requiere que el ordenamiento de las categorías en la
tabla no sea arbitrario, y en segundo lugar, habilita la utilización de otra forma de frecuencia: la
frecuencia acumulada.
En el esquema III.3 se presenta los elementos fundamentales de una distribución de
frecuencias de una variable no métrica ordinal. La diferencia respecto a las variables nominales
radica en la incorporación de dos nuevas columnas, una para la frecuencia absoluta
acumulada y otra para la frecuencia relativa acumulada. Ordenadas las categorías, la
frecuencia acumulada indica la cantidad casos que pertenecen a esa categoría y a las anteriores.
Operativamente, el cálculo de la frecuencia acumulada implica ir sumando las frecuencias de
cada categoría con la de las categorías anteriores. No existen desde el punto de vista conceptual,
mayores diferencias en la frecuencia acumulada absoluta y relativa que las que discutimos en la
sección III.2. Las primeras, reflejan la acumulación de las frecuencias absolutas, mientras que las
segundas lo hacen para las frecuencias relativas.
57 | E s t a d í s t i c a S o c i a l B á s i c a
Nótese que el elemento que incorporan las frecuencias acumuladas es la noción de
suma de los casos hasta esa categoría. Es decir que su valor indica la cantidad casos
pertenecientes a las categorías iguales o menores a la categoría considerada. Por lo tanto, refleja
la acumulación desde la categoría inicial hasta esa inclusive.
Por definición, el valor de la frecuencia acumulada de la primera categoría es igual al
valor de la primera frecuencia simple (sin acumular). Mientras que el último valor de la
distribución de frecuencias acumuladas coincide con el número de observaciones/casos; esto es
porque considerando hasta la última categoría, se acumularon todos los casos. Análogamente, el
último valor de la distribución de frecuencias relativas acumuladas es uno (salvo error de
redondeo), y el de la frecuencia porcentual acumulada es 100.
ESQUEMA. III.3.
Elementos básicos que definen una distribución de frecuencias de una
variable no métrica ordinal.
Frecuencias Frecuencias Frecuencias
Categorías de la
Frecuencias absolutas relativas absolutas relativas
variable
(porcentajes) acumuladas acumuladas
X1 n1 p1=n1/N N1 P1
X2 n2 p2=n2/N N2 P2
X3 n3 p3=n3/N N3 P3
…………. …………. …………. …………. ………….
Xk nk pk=nk/N Nk = n Pk = 1
Total N 1 (100)
TABLA III.5.
Frecuencias absolutas de empresa según tres tipos de tamaños. Uruguay. 2012.
Frecuencias
Frecuencias Frecuencias Frecuencias
absolutas
absolutas Relativas relativas acumuladas
acumuladas
Micro 114.456 0,837 114.456 0,837
Pequeña 18.399 0,135 132.855 0,972
Mediana 3.836 0,028 136.691 1,000
Total 136.691 1,000
Fuente: Elaboración propia a partir de datos de la Encuesta Nacional de MIPYMES 2012, MIEM-DINAPYME.
35
Se considerará micro a la que cuente con hasta 4 empleados, pequeña de 5 a 19 empleados y mediana empresa
de 20 a 99 empleados.
58 | E s t a d í s t i c a S o c i a l B á s i c a
Como mencionamos, se requiere que las categorías sean presentadas en el orden que
conceptualmente fueron concebidas. Esto no implica que su ordenamiento sea necesariamente
ascendente o descendente, aunque deberán estar ordenadas con algún criterio.
Así, observamos que el 0,837 de las empresas son micro empresas, 0,135 son
pequeñas y el restante 0,028 son mediana empresas o 2,8%.
La incorporación de las dos nuevas columnas con las frecuencias acumuladas –
absolutas o relativas- permite destacar algunas características de la distribución que no son
directamente observables. Nótese que debido a que se trata una variable ordinal, podemos
afirmar que el 97,2% (0,972) de las empresas son micro o pequeñas. De esta manera estamos
representando la acumulación de la proporción de casos (empresas) que pertenecen a la
categoría de referencia y todas las anteriores.
De acuerdo a los criterios establecidos, en la última categoría las frecuencias
acumuladas alcanzan el valor del total de la distribución. Por tanto, en la categoría mediana la
frecuencia absoluta acumuladas es igual a 136.691, que lógicamente, es el total de empresas en
la distribución. El valor de la frecuencia relativa acumulada de la categoría mediana es igual a la
unidad.
36
Hay cierta información que puede o no estar en el titulo o fuente de una tabla. Por ejemplo, la Encuesta
Continua de Hogares (ECH), cuyas principales características fueron presentadas en la sección II.6 del Capítulo
59 | E s t a d í s t i c a S o c i a l B á s i c a
Hasta aquí aprendimos a construir tablas de frecuencia como representación de la
distribución. Las hemos definido como instrumentos que dispone la Estadística Básica en la
medida en que incorporan instrumentos simples fundados en el conteo y en el cómputo de
razones. Sin embargo, en muchas situaciones comunicacionales la presentación de la
información puede resultar más elocuente y sintética utilizando gráficas en lugar de tablas. A
este tema le dedicamos la siguiente sección.
II, realiza entrevistas y reporta información de hogares particulares extraídos del universo de hogares
particulares mayores a 5 mil habitantes hasta 2005 y desde el 2006 de todo el país urbano y rural. Puede resultar
trivial pero no lo es cuando se combina información de series largas sobre pobreza por ejemplo.
37
Ejemplo de ello, es el Excel de Microsoft Office, en el cual a partir de una tabla de frecuencias se puede con
los comandos insertar-gráfico seleccionar el gráfico pertinente.
38
Los principales gráficos utilizados para las variables métricas se desarrollarán en el Capítulo V.
39
También se los puede encontrar en la bibliografía como gráfico de torta, de pastel o circular.
60 | E s t a d í s t i c a S o c i a l B á s i c a
expresados en porcentaje. Está implícito, pese a que no presenta ninguna referencia al Total,
que la suma de las categorías (o porciones) comprenden la totalidad de la figura. La proporción
de la categoría “Mutualista” es evidentemente superior a la de todas las demás categorías. Aquí
radica una de las virtudes fundamentales de este tipo de representaciones. La gráfica es,
entonces, una combinación de información dada por el valor numérico de cada categoría y, al
mismo tiempo, la dimensión relativa de ese valor en el total.
Nótese finalmente, dos elementos a tener en cuenta en el diseño de la gráfica III.1. En
primer lugar, y pese a su simplicidad, su construcción requiere algún tipo de referencia (o
leyenda) que asista en la identificación de las áreas. En segundo término, es recomendable para
facilitar su lectura, que el número de categorías sea relativamente reducido: mientras mayor es
el número de categorías las bondades de las gráficas circulares tienden a desaparecer.
GRÁFICA III.1.
Atención en salud. En porcentajes. Total de población urbana. 2012.
7.2 2.5
30.7
Sin asistencia
MSP
59.6 Mutualista
Otro
40
En el caso de algunas variables métricas, aquellas con pocas categorías, estos recursos gráficos pueden
también ser adecuados, ya que satisfacen las condiciones y propiedades requeridas para este tipo de
representación.
61 | E s t a d í s t i c a S o c i a l B á s i c a
categorías, y por tanto, muchas barras en el gráfico. Además, recordemos que a la hora de
graficar una variable nominal, se emplea solamente la propiedad del nombre (de los números) y
dado que sus categorías no tienen un orden lógico, no es relevante cuál de las mismas se ubica
primero en el gráfico y cual segunda; lo que nos permite disponer las categorías en el orden más
conveniente para nuestros propósitos: alfabético o de acuerdo a la frecuencia.
GRÁFICA III.2.
Personas residentes en Uruguay según su condición de
actividad. En porcentajes. Uruguay 2011
20
18
16
14
12
10
8
6
4
2
0
inactivos, otra menor de 12 inactivos, sin dato desocupados desocupados
causas años jubilados o propiamente buscan
pensionistas dichos trabajo por
primera
Para el caso de la gráfica III.3 dado que estamos frente a una variable ordinal, en
virtud del carácter secuencial de la formación educativa, es necesario representar las categorías
con un ordenamiento conceptualmente fundado: aquí fue desde el nivel más bajo al más alto.
62 | E s t a d í s t i c a S o c i a l B á s i c a
GRÁFICA III.3.
Distribución de personas de 25 años o más según máximo nivel educativo alcanzado.
En valores absolutos. Uruguay. 2011.
800,000 714,248
600,000 517,797
391,069 378,416
400,000
200,000
26,191
0
Nunca asistió a un Primaria Ciclo Básico Bachillerato Terciaria
centro educativo
Fuente: Elaboración propia a partir de Censo 2011, INE. Nota: Se omiten 16.182 casos en que se desconoce o
no se logró relevar la información.
GRÁFICA III.4.
Población en viviendas particulares por tipo de viviendas. En porcentajes. Montevideo.
2011.
Casa 63.8%
Apartamento en edificio en altura con ascensor 14.9%
Apartamento en edificio en altura sin ascensor 11.1%
Apartamento en edificio de una planta 9.8%
Apartamento o cuarto en local o vivienda colectiva 0.3%
Local no construido para vivienda 0.1%
Otra particular 0.1%
Vivienda móvil (carpa, casa rodante, etc.) 0.002%
Dos son los principales aportes de esta variante de gráfica de barras. El primero
consiste en que al presentar las barras con esa disposición la gráfica tolera visualmente mayor
cantidad de las mismas. Frente a la necesidad de representar una variable con varias categorías
-en este ejemplo contamos con ocho categorías- esta opción gráfica para no presentar las
mismas limitaciones que la de barras verticales.
63 | E s t a d í s t i c a S o c i a l B á s i c a
En segundo lugar, la presentación de las barras de forma horizontal es
particularmente útil cuando se pretende ordenar las categorías se acuerdo a un criterio
escogido por el investigador, por ejemplo cantidad de casos en cada categoría, como son en el
ejemplo el ordenamiento de los tipos de vivienda. En este caso no existe un criterio intrínseco
propio a las categorías, como queda establecido por carácter nominal de la variable, el orden se
lo da el criterio arbitrario del investigador de acuerdo a sus fines. Habilitados por el carácter
nominal de la variable, para la elaboración de la gráfica III.4 hemos ordenado de forma
descendente las categorías en función de la frecuencia relativa.
Para finalizar algunas notas relativas a la presentación de las gráficas. Tanto el que
elabora las gráficas como el que las lee, debiera ser cuidadoso en que se lleguen a confusiones o
a interpretaciones erróneas. Veamos algunas sugerencias.
La escala utilizada para la frecuencia debe evitar conclusiones equivocadas. Esto
puede ocurrir, por ejemplo, en un gráfico de barras, cuando estas son muy pequeñas o muy
grandes en términos de las unidades que se utilizan para el eje de frecuencia o cuándo no se
comienza en 0. También puede llevar a dudas el hecho de que no quede bien identificado el
nombre de cada eje, o a quién se hace referencia.
En general, es recomendable que una gráfica respete las siguientes convenciones para
los títulos, subtítulos, ejes, leyendas, barras, escala, e indicaciones de la fuente de los datos:
i) Unidad de análisis (de quién estamos hablando), y ubicación espacial y temporal (por
ejemplo, “hogares del departamento de Maldonado, 2010”).
ii) La/s variable/s involucradas en el gráfico.
iii) La frecuencia absoluta, proporción o porcentaje que se gráfica.
iv) Escala del eje de la frecuencia (por ejemplo, si se trata de una frecuencia de unidades
expresada en centenas en lugar de unidades, o de una razón por mil).
v) El tamaño del ancho de las categorías y del espacio entre las barras debe ser
suficientemente amplio para garantizar la lectura.
III.4. Resumen
64 | E s t a d í s t i c a S o c i a l B á s i c a