0% encontró este documento útil (0 votos)
81 vistas46 páginas

Variables Estadisticas

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 46

1

Unidad 2. Análisis descriptivo de datos

Unidad 2

ANALISIS DESCRIPTIVO DE DATOS.

2.1 Introducción.

Casi todos los trabajos que se hacen en estadística comienzan con el proceso de
recolección de datos necesarios para formar con ellos un conjunto que se utilizará en el
estudio. Para propósitos generales, se adoptará la suposición conveniente de que esta
labor, con frecuencia tediosa, ya ha sido realizada y que los datos están disponibles.

Esta recolección de datos originales revela muy poco por sí sola. Es extremadamente
difícil determinar el verdadero significado de un grupo de número que simplemente se
han registrado en un papel. Nuestra labor es organizar y describir tales datos de manera
concisa y significativa. Para determinar su significancia, los datos se organizan de
manera que, con un simple vistazo, se pueda tener una idea de lo que pueden decirnos.

Por otro, los datos, al igual que los estudiantes, se congregan alrededor de sus puntos de
encuentro favoritos. Parece que los estudiantes acuden en masa a sitios tales como
partidos de fútbol, bares populares y otros sitios de reunión y en raras ocasiones hasta la
biblioteca. De igual forma, los números parecen disfrutar de la compañía de otros
números y están propensos a reunirse alrededor de un punto central denominado
medida de la tendencia central o, más comúnmente, media. Una medida de tendencia
central ubica e identifica el punto alrededor del cual se centran los datos.

Un conjunto grande de datos puede ser rápidamente descrito de manera sucinta con un
solo número. Si el profesor dice que el promedio de la clase en el último examen de
estadística fue de 17, esto significa algo. Si se dice que el promedio fue de 08, esto
indica algo totalmente diferente.

Además, las medidas de dispersión indican el punto hasta el cual las observaciones
individuales se esparcen alrededor de su punto central. Miden la dispersión o la
variabilidad de los datos y reflejan la tendencia de las observaciones individuales a
desviarse de dicho punto central.

En esta unidad se darán un conjunto de instrumentos que permitirán el análisis


descriptivo de un conjunto de datos. En primer lugar, entre las herramientas estadísticas
que resultan de particular utilidad para organizar los datos se incluyen:
Tablas de frecuencia que colocan todos los datos en clases específicas. Diversos
gráficos que pueden proporcionar una representación visual de los datos. Tablas de
contingencias, los cuales también permiten la presentación de un conjunto grande de
datos de manera concisa y discernible.

Una vez que se tienen los datos organizados mediante esa distribución hay que iniciar el
proceso de análisis de la variable. En este proceso de análisis de una variable hay que
definir ciertos instrumentos que nos permitan estudiar sus características más relevantes.
Entre las mismas cabe destacar las siguientes: medidas de posición (valor central o
promedios) y dispersión.

Dr. César Haro Díaz


2
Unidad 2. Análisis descriptivo de datos

2.2. Métodos de agrupación de datos. Variables Cuantitativas.

Después de obtener un conjunto de datos, es necesario presentarlos en forma tal, que


facilite su compresión y su posterior análisis y utilización. No servirá de nada que estas
medidas se presenten en un simple listado. Lo mejor será ordenarlos en tablas o cuadros
y luego representarlo en gráficos. Si se tienen pocos datos, y estos son valores discretos,
entonces conviene presentar una distribución de frecuencias sin intervalos; pero si se
tiene valores continuos o muchos valores discretos, conviene presentar una distribución
de frecuencia por intervalos

2.2.1. Distribución de frecuencias sin intervalos:

Ejemplo 2.1. Supóngase que ante la pregunta del número de hijos por familia (variable
X) una muestra de 20 hogares, marcó las siguientes respuestas:

2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.

Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1, 2,


3, 4 que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribución de frecuencias de
X se da en la tabla 2.1.

Tabla 2.1. Distribución de frecuencias del número de hijos por familia.


Número de Frecuencias Frecuencias Frecuencias
hijos Absolutas Relativas Porcentajes
Xi ni hi hi (%)
0 1 0.05 5
1 4 0.20 20
2 7 0.35 35
3 6 0.30 30
4 2 0.10 10
Total 20 1.00 100
Fuente. Datos obtenidos de los formularios de la encuesta.

Para elaborar la tabla de frecuencia 2.1 y el grafico 2.1 mediante el software SPSS,
debemos seguir la secuencia:

Analizar > Estadísticas descriptivas > Frecuencias > hacer Clic en: Mostrar tablas de
frecuencias > En gráficos… > Tipo de gráfico: Gráfico de barras > Continuar > Aceptar.

Gráfico.

La representación gráfica más común para este tipo distribución de frecuencias es el


diagrama de barras que consiste en trazar en cada valor distinto de la variable,
segmentos de líneas proporcionales a su frecuencia.

Dr. César Haro Díaz


3
Unidad 2. Análisis descriptivo de datos

Número de hijos por familia


8

Número de familias 4

0
0 1 2 3 4

Número de hijos

Figura 2.1. Diagrama de barras para los datos de la tabla 2.1.

2.2.2. Distribución de frecuencias por intervalos.

La distribución de frecuencia por intervalos o clases se usa cuando la variable


estadística es continúa o cuando el número de valores distintos de una variable discreta
es grande.

Elaboración de las tablas de frecuencias.

Para esclarecer la construcción de la tabla de frecuencias para datos agrupados en


intervalos de clase, desarrollaremos el ejemplo 2.2.

Ejemplo 2.2. Como Administrador residente de Pigs and People (P&P) Airlines, el
gerente general le pide recolectar y agrupar los datos sobre el número de pasajeros que
han decidido viajar con P&P. Tales datos correspondientes a los últimos 50 días (del 10
de Octubre al 30 de Noviembre de 2016) aparecen a continuación:

68 72 50 70 65 83 77 78 80 93 71 74 60 84 72 84 73 81
84 92 77 57 70 59 85 74 78 79 91 102 83 67 66 75 79 82
93 90 101 80 79 69 76 94 71 97 95 83 86 69.

Sin embargo, con estos datos en bruto, es improbable que el gerente pueda obtener
información útil y significativa respecto a las operaciones de vuelo. Los datos no están
organizados y es difícil llegar a una conclusión significativa simplemente revisando una
serie de números anotados en un papel. Es preciso agrupar y presentar los datos de
manera concisa y reveladora para facilitar el acceso a la información que contienen.
Utilice una distribución de frecuencia para organizar el conjunto de datos.

Solución.
1º. Debemos de determinar el rango ( R ) de variación de los datos que se define por:

R = Xmax - Xmin
En nuestro ejemplo, tenemos:

Dr. César Haro Díaz


4
Unidad 2. Análisis descriptivo de datos

Valor mínimo Xmin = 50


Valor máximo Xmáx = 102

Luego el rango es R= 102 – 50 = 52

2º. Tenemos que calcular ¿cuantas clases deben formarse?. Para eso se usa la fórmula de
Sturges:
K  1  3.322 log n
donde:
K = número de clases
n = número de elementos en la muestra (tamaño de la muestra).

Está formula es muy útil porque orienta al principiante. Sin embargo, es un poco
conservador y tiende a dar un número de clases un poco menor del que se utiliza en
la práctica.

En nuestro ejemplo: K = ? , n = 50

Aplicando la fórmula tenemos:


K  1  3.322 log 50  6.644

redondeando al entero inmediato mayor porque, como ya se indicó, la fórmula es


un poco conservadora, obtenemos:
K = 7.

Nota.- por razones extraídas de la práctica, se adoptan los siguientes límites para K.
5  K  15

3º. La idea es resumir los valores con el fin de percibir algunas características o
propiedades de los datos que no aparecen a simple vista. Para esto vamos a
clasificar los 50 vuelos en 7 clases, de acuerdo con la formula de Sturges.
La amplitud de cada intervalo de clase que representamos con la letra c, se obtiene
por medio de la formula:
R
c
K
52
c  7.42857
Aplicando los datos a la fórmula anterior, se tiene: 7
Redondeamos a 8.

Luego c = 8 y por tanto, el nuevo recorrido será:

R   c  K  8  7  56

4º. Teniendo en cuenta que este recorrido es mayor que el recorrido original,
buscaremos el exceso:

Exceso = 56 – 52 = 4 pasajeros

Dr. César Haro Díaz


5
Unidad 2. Análisis descriptivo de datos

Debemos repartir este exceso a los dos extremos del recorrido original, mitad a
cada lado, en este caso 2 a cada extremo. Sumamos el número 2 al valor máximo:
102 + 2 = 104 y restamos el número 2 al valor mínimo: 50 - 2 = 48.

A partir de este valor 48 agregamos sucesivamente la amplitud 8 y obtenemos los


puntos de división que determinan los 7 intervalos (ver figura 2.2).

48 56 64 72 80 88 96 104

Figura 2.2

Sin embargo una dificultad se presenta cuando algunos de los datos coincide con
cualquiera de los puntos de división: 56, 64, 72, 80, 88 y 96.

5º. Supongamos que un dato es 56 ¿dónde lo colocamos?- ¿en el primer intervalo cuyos
extremos son 48 y 56?- (ver Fig. 2.2) ó ¿en el segundo intervalo que tiene por
extremos 56 y 64?-

Para aclarar está ambigüedad adoptamos, el intervalo abierto por la izquierda que
no incluye al valor 48 (límite inferior del intervalo) y cerrado por la derecha que
incluye al valor 56 (límite superior del intervalo). Este tipo de intervalo se
representa matemáticamente por: ( Yi1  Yi , donde Yi1 representa el límite
inferior del intervalo y Yi representa el límite superior.

Así, en nuestro ejemplo el primer intervalo lo escribiremos como ( 48  56.


Por tanto los intervalos de clase quedan definidos como:
Intervalo
de clases (48 - 56] (56 - 64] (64 - 72] (72 - 80] (80 - 88] (88 - 96] (96 - 104]

Nota. También existen otros dos tipos de intervalos de clases, definidas como:
[ Yi1  Yi ) Intervalo semi-cerrado. Este intervalo es cerrado por la izquierda (incluye
al límite inferior del intervalo) y abierto por la derecha (no incluye al límite superior del
intervalo).
Yi1  Y  Intervalo cerrado. Este intervalo incluye a ambos límites del intervalo.

6º. Es conveniente que todos y cada uno de los datos que se hallen dentro de un mismo
intervalo, estén representados por un mismo valor. Este valor caracteriza a la clase
y por eso se llama marca de clase, se obtiene promediando los límites de cada
intervalo. Una fórmula para calcular la marca de clase de un intervalo es:
Y   Yi
Yi  i 1
2

7º. A continuación debemos realizar la clasificación y conteo de los datos (ver tabla
2.2), es decir, colocar cada uno de ellos dentro de su clase, todos representados por
un mismo signo: una tarja.
Tabla 2.2.

Dr. César Haro Díaz


6
Unidad 2. Análisis descriptivo de datos

Intervalo de clase Marca de clase Conteo Frecuencia


Yi ni
48 - 56 52
56 - 64 60
64 - 72 68
72 - 80 76
80 - 88 84
88 - 96 92
96 - 104 100

A continuación presentamos la tabla 2.3, conocida como tabla de distribución de


frecuencias absolutas.

Tabla 2.3. Distribución de frecuencias de 50 días de vuelos de la P&P Airlines,


según el número de pasajeros que han decidido viajar con P&P. Salida
del Aeropuerto de New York. Noviembre del 2016.
Intervalo de clase Marca de clase Frecuencia Frecuencia Frecuencia Frecuencia
( Y  Y
i 1 i  Yi ni relativa acumulada acumulada
48 - 56 52 1 0.02 1 0.02
56 - 64 60 3 0.06 4 0.08
64 - 72 68 12 0.24 16 0.32
72 - 80 76 14 0.28 30 0.60
80 - 88 84 10 0.20 40 0.80
88 - 96 92 7 0.14 47 0.94
96 - 104 100 3 0.06 50 1.00
Total 50 1.00

Fuente. Registro de salida de la P&P Airlines. Periodo del 10 de Octubre al 30 de


Noviembre de 2016.

Interpretación.
n2 = 3, significa que en 3 días de vuelos de la aerolínea P&P viajaron un número mayor
a 56 y menor o igual a 64 pasajeros.
N4 = 29, significa que 29 días de vuelos de P&P viajaron un número mayor a 48 y menor
o igual a 80 pasajeros, o también significa que durante 29 días de vuelos de la
aerolínea P&P viajaron un número menor o igual que 80 pasajeros.
h3 = 0.22, significa que el 22% de los días de vuelos de P&P viajaron un número mayor
de 64 y menor o igual a 72 pasajeros.
H5 = 0.78, significa que el 78% del total de días de vuelos de P&P, viajaron un número
mayor a 48 y menor o igual a 88 pasajeros, o también significa que el 78% del
total de días de vuelos de P&P viajaron un número de pasajeros menor o igual que
88.
N6 - N2 = 47 - 4 = 43 días de vuelos de P&P viajaron un número mayor que 64 y menor
o igual que 96 pasajeros.

Dr. César Haro Díaz


7
Unidad 2. Análisis descriptivo de datos

A partir de la tabla de frecuencias 2.3, por ejemplo, ahora se puede ver fácilmente que
en 14 de los 50 días, entre 72 y 80 pasajeros volaron en P&P. En ningún momento la
lista de pasajeros diarios excedió de 104. La aerolínea rara vez transportó menos 56
pasajeros. El gerente puede ahora detectar características que no eran evidentes en el
análisis de datos en bruto. Estas características son útiles para la toma de decisiones
inteligentes y bien informadas respecto a las operaciones de vuelo.

Ejercicio 1. Usando el software estadístico SPSS (Statistical Package for the Social
Sciences), primero crear la columna de datos, que llamaremos Número pasajeros.
Enseguida debemos Recodificar la variable Número de pasajeros, mediante la
secuencia:

Recodificar en distintas variables > Variable de entrada: Número pasajeros >


Variable de resultado: pasajeros > Cambiar

Hacer Clic en: En los valores antiguos y nuevos:

 Rango: 48 hasta: 56 > valor: 1 > añadir

Dr. César Haro Díaz


8
Unidad 2. Análisis descriptivo de datos

 Rango: 56 hasta: 64 > valor: 2 > añadir


 …………………………………………….
 Rango: 88 hasta: 96 > valor: 6 > añadir
 Rango: 96 hasta: 104 > valor: 7 > añadir

Luego Aceptar.

En la hoja de datos del SPSS, aparecerá en la columna denominada: pasajeros, los


datos recodificados.

Hacemos clic en la columna pasajero1 y aparece lo siguiente:

Hacemos clic en la columna valores y luego aparece el siguiente cuadro de dialogo:

Dr. César Haro Díaz


9
Unidad 2. Análisis descriptivo de datos

En la casilla valor, colocamos los valores de 1 hasta 7; y en etiqueta escribimos cada


intervalo (48 – 56], … , (96 – 104] respectivamente tal como se muestra en la siguiente
imagen.

Enseguida en vista de variables dar clic en la columna: Pasajeros1 y en la columna


Medida seleccionar: Ordinal.

Finalmente regresemos a la vista de datos y aplique la siguiente secuencia:

Analizar > Estadísticas descriptivas > Frecuencias > hacer Clic en: Mostrar tablas de
frecuencias > Aceptar.

pasajero1
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
(48 - 56] 1 2.0 2.0 2.0
(56 - 64] 3 6.0 6.0 8.0
(64 - 72] 12 24.0 24.0 32.0
(72 - 80] 14 28.0 28.0 60.0
Válidos (80 - 88] 10 20.0 20.0 80.0
(88 - 96] 7 14.0 14.0 94.0
(96 - 104] 3 6.0 6.0 100.0
Total 50 100.0 100.0

Gráfico de la distribución por intervalos.

Dr. César Haro Díaz


10
Unidad 2. Análisis descriptivo de datos

El gráfico más usado es el Histograma de frecuencias absolutas o relativas.

Histograma.
Es una representación gráfica de una distribución de frecuencias agrupadas en intervalos
de clase, mediante una serie de rectángulos contiguos que tienen:
- Sus bases sobre un eje horizontal y cuya longitud será igual al tamaño de los
intervalos de clase.
- Las alturas proporcionales a la frecuencia (absoluta o relativa).

Histograma de frecuencias del número de pasajeros de P&P


15
Número de dias de vuelos

12

0
48 56 64 72 80 88 96 104
Número de pasajeros

Figura 2.3. Histograma de la distribución del número de pasajeros por


día de vuelo de P&P.

Ejercicio 2. Mediante el SPSS, en vista de datos utilice la columna de pasajeros1


(variable recodificada) obtenida en el ejemplo ejercicio 1 y construya el grafico de
histograma de frecuencias para el ejercicio 2.2. Debe seguir la secuencia:

Analizar > Estadísticas descriptivas > Frecuencias > hacer Clic en: Gráficos > Tipo de
gráfico: Histogramas > continuar > Aceptar.

2.2.3. Distribución de frecuencias: Variable cualitativa

Consideremos el siguiente ejemplo:

Ejemplo 2.3. En una encuesta realizada sólo a 40 gerentes de empresas que fuman
cigarrillos frecuentemente, durante su participación en un fórum realizado en la cuidad
de Piura, arrojo los datos siguientes acerca de las marcas de cigarrillos que prefieren:

D, NO, NO, H, NE, D, NO, NE, NO, H, H, NO, NO, NE, H, D, H, D, H, NO. D, NO,
NO, H, D, NO, H, H, NO, NO, NO, H, H, D, NO, NO, H, D, NE, NO.

donde: D = Ducal, NO = Norton, H = Hamilton, NE = Nevada


Construir la distribución de frecuencias.

Dr. César Haro Díaz


11
Unidad 2. Análisis descriptivo de datos

Solución. La tabulación de estos datos, donde la variable cualitativa es X: Marca de


cigarrillo, se representa mediante la distribución de frecuencias de la tabla 2.4.

Tabla 2.4. Distribución de gerentes de empresas según la marca de cigarrillo que fuman
frecuentemente.
Número de Frecuencias Frecuencias
Marca de cigarrillo
Gerentes, ni relativas: hi Porcentajes: hi(%)
DUCAL 8 0.20 20
HAMILTON 12 0.30 30
NEVADA 4 0.10 10
NORTON 16 0.40 40
Total 40 1.00 100

Fuente. Datos obtenidos de la encuesta realizada.

Ejercicios. Para obtener la siguiente tabla de distribución que corresponde al ejemplo


2.6, mediante el Software SPSS 20 seguir la siguiente secuencia:
Analizar > Estadísticos descriptivos > Frecuencias: Marcar en mostrar Tablas
de frecuencias.

Marcas de cigarrillos que fuman con frecuencia 40 gerentes de empresas.


Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Ducal 8 20,0 20,0 20,0
Norton 16 40,0 40,0 60,0
Válidos Hamilton 12 30,0 30,0 90,0
Nevada 4 10,0 10,0 100,0
Total 40 100,0 100,0

Gráficos.

Los gráficos más comunes para la distribución de frecuencias de variable cualitativa son
el de diagrama de barras y el de sectores circulares.

 En un Diagrama de barras los datos de cada una de las modalidades (caracteres


cualitativos) se representa por un rectángulo vertical (u horizontal), cuya altura (o
largo) es proporcional a su frecuencia (absoluta o relativa). Los rectángulos o barras
se dibujan dejando un espacio entre ellos.

Ejemplo 2.4. Con el SPSS obtener el diagrama de barras para los datos del ejemplo
2.3, mediante la secuencia:

Dr. César Haro Díaz


12
Unidad 2. Análisis descriptivo de datos

Analizar > Estadísticos descriptivos > Frecuencias > Tipo de gráfico: escoger
gráficos de barras.

Figura 2.4. Diagrama de rectángulos para los datos de la tabla 2.4

 Diagrama de sectores.

En un gráfico circular, los datos de cada categoría se representan por un sector circular.
Es utilizado principalmente cuando se pretende comparar cada valor de la variable con
el total. Para construir se divide el circulo en sectores, cuyas áreas serán proporcionales
a los valores de la variable. Está división es obtenida a través de la regla de 3 simples.
Total  360o
Parte  xo

Ejemplo 2.5. Con la información del ejemplo 2.3, utilizando el programa SPSS,
construya el diagrama de sectores circulares. Seguir la secuencia:

Analizar > Datos Estadísticos descriptivos > Frecuencias > Tipo de gráfico: escoger
gráficos de sectores circulares

Dr. César Haro Díaz


13
Unidad 2. Análisis descriptivo de datos

Figura 2.5. Diagrama de sectores para los datos de la tabla 2.4.

2.3. Presentación de la información mediante tablas Estadísticas Bidimensionales.

Hasta ahora, en las secciones precedentes se ha tenido en cuenta un solo carácter de


cada individuo de las poblaciones, dando lugar, al observar sus diferentes modalidades,
a variables estadísticas unidimensionales. Pero, obviamente, de cada elemento de la
población pueden analizarse simultáneamente dos o más caracteres, obteniéndose de
cada observación, respectivamente, dos o más datos o números que expresan la
modalidad conjunta con que se manifiestan tales caracteres. La variabilidad conjunta de
dos caracteres de los individuos de una población origina una variable estadística
bidimensional; si son tres los caracteres analizados por individuo, la variable estadística
se denomina tridimensional, y pluridimensional cuando son más de tres los caracteres
recogidos simultáneamente de cada observación individual.

Así, por ejemplo, imaginemos que los elementos observados son las empresas. En ellas
se puede observar de forma conjunta los beneficios (X) y los costos de las mismas (Y) o
cualquier otro par de caracteres. Así podríamos pensar en los gastos en publicidad (X) y
sus beneficios (Y), o los costos y el número de empleados. El número de ejemplos que
podríamos dar es tan amplio que no merece la pena seguir mencionándolos.

Si, además de los ingresos netos y gastos totales al mes en el estudio de la economía de
una muestra de familias, obtenemos de cada familia el número de los miembros que la
componen (Z), cada observación es un valor de la variable estadística tridimensional (X,
Y, Z), etc. Por ser el caso más frecuente, en lo sucesivo nos referiremos exclusivamente
a las variables estadísticas bidimensionales o bivariados.

Aunque naturalmente las variables X e Y pueden estudiarse por separado, son


numerosos los casos prácticos en los que interesa considerarlas conjuntamente para
discernir acerca de su interrelación o interdependencia y determinar, en caso afirmativo,
el grado de asociación estadística entre ellas. Este conocimiento puede facilitar, por
ejemplo, el pronóstico fiable del valor medio de X correspondiente a un valor dado y de
Y, o recíprocamente.

Dr. César Haro Díaz


14
Unidad 2. Análisis descriptivo de datos

Cada una de las variables X e Y que constituyen la variable bidimensional (X, Y) se


denomina componente o variable marginal de ésta, y puede ser tanto una variable
cualitativa como una variable cuantitativa, ya sea discreta o continua.

La variable estadística bidimensional (X, Y) se puede clasificar según la naturaleza de


sus variables: cualitativos, cuantitativos discretos y cuantitativos continuos. Se obtienen
los tipos de distribuciones de dos caracteres siguientes:

1. Los dos caracteres cualitativos. Por ejemplo, nivel educacional y religión.

2. Uno cualitativo, otro cuantitativo. Estos pueden ser:


a. Uno cualitativo, otro cuantitativo discreto. Por ejemplo, nivel educacional
y número de hijos de las personas.
b. Uno cualitativo, otro cuantitativo continuo. Por ejemplo, estado civil y
edad de las personas.

3. Los dos cuantitativos. Estos pueden ser:


a. Los dos cuantitativos discretos. Por ejemplo, número de horas extras
trabajadas y número de accidentes de trabajo.
b. Uno discreto y el otro continuo. Por ejemplo, número de horas extras
trabajadas y edad de la personas.
c. Los dos continuos. Por ejemplo, estatura y peso de las personas.

Cuando son observadas más de dos características, hablamos de variable estadística n-


dimensionales, convirtiéndose entonces, el análisis en multivariante, situación que no
analizaremos.

La variable X, se presenta con r niveles (valores, intervalos o modalidades),


i = 1, 2,…, r, y la Y con c, j = 1, 2,…, c, siendo en cada una los niveles mutuamente
excluyentes (es decir, una observación no puede pertenecer a dos niveles distintos).

Los n elementos de una muestra se clasifican de acuerdo con la presencia simultánea


(conjunta) en él de los distintos niveles de X y Y, número que se designa por ni j,
denominándose frecuencia conjunta observada, disponiendo las frecuencias conjuntas
resultantes en una tabla de doble entrada denominada tabla de contingencia, como
aparece a continuación.

Tabla 2.5. Distribución Bidimensional de Frecuencias Absolutas.


Modalidades y1 y2 ... yj ... yq Totales horizontales

Dr. César Haro Díaz


15
Unidad 2. Análisis descriptivo de datos

o valores de Y
Modalidades
=
o valores de X
x1 n11 n12 ... n1j ... n1q n1.
x2 n21 n22 ... n2j ... n2q n2.
... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... niq ni.
... ... ... ... ... ... ...
xp np1 np2 ... npj ... npq np.
Totales verticales p q
p n.1 n.2 ... n.j ... n.q n    n ij  n
n
i 1
ij  n j i 1 j 1

donde:

nij = el número de veces que aparece repetido el par (xi, yj) y se llama frecuencia
absoluta del par (xi, yj) ,  i =1, 2, ..., p ; j =1, 2, ..., q.
q
n i    n ij
j 1 = suma total de las frecuencias absolutas nij según el índice j, y se llama
frecuencia marginal del valor xi.
p
n  j   n ij
i 1 = suma total de las frecuencias absolutas nij según el índice i, y se llama
frecuencia marginal del valor yj.
p q

 n ij n
i 1 j1 = suma de las frecuencias absolutas nij observadas es igual al número de
pares observados, n.

La frecuencia absoluta ni• es el número de observaciones que presentan la modalidad o


valor xi de la característica X, independiente de las modalidades o valores de la
característica Y. Análogamente, n•j es el número de observaciones que corresponden a la
modalidad o valor yi de la característica Y independiente de las modalidades o valores
de la variable X.

Ejemplo 2.6. Supongamos que queremos analizar el comportamiento conjunto de las


variables: grado de instrucción completo (X) y región de procedencia (Y) de los
empleados del ministerio de Agricultura en la ciudad de Lima, durante el año 2010.

Trabajado Grado de Dr. César


Región de Haro Díaz
r Nº instrucción procedencia
16
Unidad 2. Análisis descriptivo de datos

51 Secundari Sierra
Tabla 2.6 52 a Costa
53 Secundari Costa
Trabajado Grado de 54 Región de a Selva
r Nº instrucción55 procedencia
Secundari Selva
1 Superior 56 Costa a Costa
2 Primaria 57 Sierra
Secundari Costa
3 Primaria 58 Selva a Sierra
4 Secundari59 SelvaSuperior Sierra
5 a 60 SelvaSuperior Costa
6 Secundari61 CostaSuperior Selva
7 a 62 CostaSuperior Costa
8 Secundari63 Sierra
Secundari Sierra
9 a 64 Selva a Costa
10 Superior 65 Costa
Secundari Selva
11 Primaria 66 Sierra a Selva
12 Secundari67 Sierra
Secundari Costa
13 a 68 Costa a Selva
14 Secundari69 SelvaSuperior Selva
15 a 70 SelvaSuperior Sierra
16 Superior 71 Selva
Secundari Costa
17 Superior 72 Sierra a Costa
18 Primaria 73 Sierra
Secundari Costa
19 Secundari74 Selva a Costa
20 a 75 Costa
Secundari Selva
21 Secundari76 Selva a Sierra
22 a 77 Sierra
Secundari Sierra
23 Primaria 78 Costa a Sierra
24 Primaria 79 CostaPrimaria Costa
25 Primaria 80 Sierra
Superior Selva
26 Secundari81 SelvaSuperior Selva
27 a 82 Costa
Secundari Sierra
28 Secundari83 Selva a Costa
29 a 84 Sierra
Secundari Costa
30 Secundari85 Costa a Sierra
31 a 86 CostaSuperior Costa
32 Secundari87 SelvaSuperior Selva
33 a 88 SelvaSuperior Sierra
34 Superior 89 Costa
Secundari Costa
35 Superior 90 Costa a Costa
36 Superior 91 Sierra
Secundari Sierra
37 Superior 92 Sierra a Sierra
38 Secundari93 CostaPrimaria Selva
39 a 94 Selva
Secundari Selva
40 Secundari95 Costa a Costa
41 a 96 Sierra
Secundari Selva
42 Secundari97 Costa a Sierra
43 a 98 SelvaPrimaria Costa
44 Superior 99 SelvaSuperior Selva
45 Superior 100 CostaSuperior Sierra
46 Secundari Costa
Secundari
47 a Selva a
48 Secundari Sierra
secundaria
49 a CostaSuperior
50 Secundari costaSuperior
a Superior
Secundari Secundari
a a
Primaria Secundari
Superior a
Superior Primaria
Secundari Superior
a Superior
Secundari Superior
a Secundari
Secundari a
a Secundari
Superior a
Superior Primaria
Primaria Superior
Secundari Superior
a secundaria
Superior
Superior
Secundari
a

Dr. César Haro Díaz


17
Unidad 2. Análisis descriptivo de datos

Primaria
Superior

Se pide construir una tabla de distribución bidimensional.

Solución.

La tabla bidimensional con sus frecuencias absolutas se presenta en la tabla 2.7:

Cada elemento del cuerpo de la tabla representa la frecuencia observada de las


realizaciones simultáneas de X e Y. Así observamos que, 2 empleados con primaria
completa son de la costa, 20 empleados con secundaria completa son de la costa, etc.

Tabla 2.7. Distribución conjunta de las frecuencias de las variables, Grado de instrucción
(X) y Región de procedencia (Y).
Región de
Procedencia , Y
Grado de Costa Sierra Selva Total
Instrucción, X

Primaria Completa 2 7 6 15

Secundaria Completa 20 10 17 47

Superior 18 9 11 38

40 26 34 100
Total

Fuente. Datos hipotéticos

Nota. Con la aplicación del Software Estadístico SPSS v. 20, escogemos:


Analizar > Estadísticas Descriptivas > Tabla de Contingencia

se obtiene como salida (output) la siguiente tabla bidimensional:


Recuento
Región de Procedencia
Grado de Primaria 2 7 6 15
Instrucción Costa Sierra Selva Total
Secundaria 20 10 17 47
Superior 18 9 11 38
Total 40 26 34 100

Ejercicio. Mediante el software SPSS, determine en el ejemplo 2.6:


a) La tabla de distribución de frecuencias relativas.
b) La tabla de distribución de las proporciones de los datos con relación al total de
cada fila.

Ejemplo 2.7. Se supone que además de recolectar información sobre el número de


pasajeros de P&P, también se obtuvieron datos sobre las edades de los pasajeros y el

Dr. César Haro Díaz


18
Unidad 2. Análisis descriptivo de datos

número de vuelos en los que se registran cada año. Ambas variables pueden verse en
detalle mediante una tabla de contingencia que enumera el número de vuelos en la parte
superior (columna) y las edades debajo (filas), tal como se muestra en la tabla 2.8. Al
dividir la edad en cuatro categorías y los vuelos en tres categorías, se han creado 12
celadas en la tabla. Ahora se puede determinar si estas dos características están
relacionadas (como se verá en la prueba de independencia, unidad 4)

Tabla 2.8. Distribución conjunta de las frecuencias de las variables, Edad y


Número de vuelos por año de los pasajeros de P&P.

Número de vuelos por año


Edad
1-2 3-5 Mayor de 5 Total
Menor de 1 1 2 4
25
25 – 40 2 8 10 20
40 – 65 1 6 15 22
65 y más 1 2 1 4
Total 5 17 28 50

Fuente. Aerolínea P&P.

Se puede observar por ejemplo, en la última columna que el número más grande de
pasajeros, 15 o 30%, está en la categoría de edad comprendida entre los 40 y los 65 años
y vuelan más de cinco veces al año. El número más pequeño de pasajeros, tan sólo 4
personas, son menores de 25 años o tienen 65 años o más. Una mayoría, 28 personas,
toma de forma típica más de 5 vuelos cada año.

2.4. Medidas de tendencia central.

En la sección anterior estudiamos de qué manera los datos podrían ser presentados en
forma compacta, comprensible mediante tablas y gráficos. Sin embargo, con frecuencia
necesitamos resumir aún más para facilitar el análisis e interpretación de la información.
Cuando la variable en estudio es cuantitativa, el investigador puede estar interesado en
encontrar un solo valor, que pueda caracterizar más nítidamente la naturaleza de los
datos que se están midiendo.

Un valor que refleje la tendencia de los datos puede darse mediante las medidas de
tendencia central. Las medidas más importantes y muy usadas para identificar el centro
de un conjunto de datos, son: la media aritmética o media, la mediana, la moda y la
media geométrica.

2.4.1. La Media Aritmética.

a) Datos no agrupados.
Sea x1, x2,..., xn valores de la variable X. La media aritmética simple de X representada
por X es dado por:

Dr. César Haro Díaz


19
Unidad 2. Análisis descriptivo de datos

x i
X i 1

n donde n= es el tamaño de la muestra.


b) Datos agrupados.
Sean x1, x2,..., xk valores de la variable X ponderada por sus respectivas frecuencias
absolutas: n1, n2, ..., nk. La media aritmética de la variable X es dado por:
K k

 xi ni n   ni
X i 1 i 1

n , donde .

Ejemplo 2.8. Considerando la información contenida en la tabla 2.3, determinar el


número medio de pasajeros por día de vuelo en la aerolínea P&P.
Tabla 2.9. Distribución de frecuencias de 50 días de vuelo en la aerolínea P&P,
según el número de pasajeros.

( Yi1  Yi Yi ni Yini


48 - 56 52 1 52
56 - 64 60 3 180
64 - 72 68 11 748
72 - 80 76 14 1064
80 - 88 84 10 840
88 - 96 92 8 736
96 - 104 100 3 300
Total 50 3920

Luego la media aritmética de estos datos será:


7

y i ni
3920
Y i 1
  78.4
n 50 pasajeros por día

Desventajas de la media aritmética.


1. La media aritmética puede verse afectado por los valores extremos que no son
representativos del resto de las observaciones.
2. No se puede calcular la media aritmética en las distribuciones que tienen intervalos
de clase abierto en los extremos.

2.4.2. La Mediana.

La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma


ascendente o descendente en dos grupos de igual número de observaciones. La notación
~
que vamos a emplear será: X  Med(X)  mediana

Cálculo de la mediana

a) Datos no agrupados.

Dr. César Haro Díaz


20
Unidad 2. Análisis descriptivo de datos

Para calcular el valor de la mediana de los datos x1, x2, ...,xn se tendrá en cuenta el
siguiente procedimiento:

1) Se ordenan los datos en forma ascendente o descendente.


2) Si n es impar, el valor de la mediana es el valor del centro, es decir,
Me  X (n 1) / 2
n 1
donde 2 es la posición de la mediana.

3) si n es par, el valor de la mediana va a estar dado por:


X n 2  X n 21
Me 
2
Esto quiere decir, que el valor de la mediana se encuentra entre los valores cuya
posición son: n/2 y (n/2+1).

Ejemplo 2.9. Las siguientes cifras son los importes del consumo (en soles) de 13
personas en un restaurante:
13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30.
Determinar la mediana de estos importes.

Solución.

Ordenando la información en forma ascendente, tenemos:

13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.

Como el número de datos es impar (n = 13), se tiene que la posición de la mediana es:
n 1 ~
7 X  Med(x) 
2 , luego la mediana de los importes es: soles

Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe menor
o igual que 30 soles y el 50% restante de las personas tienen un importe mayor que 30
soles.

b) Datos agrupados.
En este caso el problema consiste en determinar un punto dentro del intervalo en que
está comprendida la mediana.

Procedimiento:
n
1º. Calcular la posición de orden 2 .
2º. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto
es, la clase para el cual se cumple:

Dr. César Haro Díaz


21
Unidad 2. Análisis descriptivo de datos

n
N j1   Nj
2 ,

Con lo cual la mediana estará en la clase que tiene como frecuencia acumulada Ni.
3º. Utilizar la formula:
n 
 2  N j1 
Me  Xj1  c· 
 N j  N j1 
 
donde:
X j1 = límite inferior de la clase que contiene a la mediana.
n = tamaño de la muestra.
c = amplitud de la clase que contiene a la mediana.
Nj = frecuencia acumulada de la clase que contiene a la mediana.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a la mediana.

Ejemplo 2.10. A partir de la distribución de frecuencia de los 50 días de vuelo de


aerolínea P&P, según el número de pasajeros (ver tabla 2.3), se pide determinar el
número mediano de pasajeros por día.

Solución.

( Yi1  Yi Yi ni Ni
48 - 56 52 1 1
56 - 64 60 3 4
64 - 72 68 11 15

72 - 80 76 14 29
80 - 88 84 10 39
88 - 96 92 8 47
96 - 104 100 3 50
Total 50

n 50
  25 vo
1º. 2 2 posición

2º. Se identifica la clase que contiene a la mediana por la frecuencia acumulada, esto es,
a través de la desigualdad: N 3  15  25  N 4  29
vo

En este caso, la clase que contiene a la mediana es el cuarto.

3º. Reemplazar los datos en la formula obtenemos:

 25  15 
Me  72  8    77.71
 29  15  Pasajeros.

Dr. César Haro Díaz


22
Unidad 2. Análisis descriptivo de datos

Interpretación. Este valor mediano significa, que el 50% de los días de vuelo viajaron
un número menor o igual que 78 pasajeros, en tanto que el otro 50% de los días viajaron
un número mayor que 78 pasajeros.

Ventajas de la mediana.
1. Algunas veces es un valor más representativo de un conjunto de datos que otros
promedios (por ejemplo, que la media aritmética), gracias a su independencia, a sus
valores extremos.
2. La mediana se puede calcular aun cuando los intervalos de clase de la distribución
de frecuencias son de límites abiertos.

2.4.3. La Moda.-
μ

La moda denotada por X  M 0 , es un valor de la variable que tiene la más alta


frecuencia, esto es, es el valor más frecuente en un conjunto de datos. La moda puede
no existe, incluso si existe puede no ser única.

Ejemplo 2.11. En un mes, 8 vendedores de artículos electrónicos vendieron los


siguientes números de aparatos: 8, 11, 5, 14, 8, 11, 16 y 11. Considerando a este mes
como a la población estadística que interesa, el número modal de unidades vendidas es:
μ
X  M 0  .......

Ejemplo 2.12. Los ingresos por ventas mensuales (miles de $) para 15 meses son:
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83.
La moda de estas observaciones es:
Mo  ....... kilos y Mo  ....... kilos

En este caso la distribución se llamará bimodal.

Cálculo de la Moda para datos agrupados.

Para datos agrupados en intervalos de clase, aplicaremos el siguiente procedimiento


para el cálculo de la moda.

1º. Se identifica la clase modal (la clase con mayor frecuencia).

2º. Se aplica la formula:


 1 
Mo  Xj1  c· 
 1   2 

donde:

Dr. César Haro Díaz


23
Unidad 2. Análisis descriptivo de datos

X j1 = límite inferior de la clase modal.

n Mo = frecuencia de la clase modal.

Δ 1  n Mo  n 1 (n1 = frecuencia de la clase inmediatamente anterior a la clase modal).

Δ 2  n Mo  n 2 (n2 = frecuencia de la clase inmediatamente posterior a la clase modal).

c = amplitud de la clase que contiene a la mediana.

Ejemplo 2.13. Determinar la moda para la siguiente distribución (tabla 2.3).

Solución.

1º. El intervalo de clase de mayor frecuencia absoluta (18) es el cuarto intervalo:


( 45  50
1  14  11  3
 2  14  10  4
c=8
2º. Aplicando la formula tenemos:

 3 
Mo  72  8    75.43
 3  4  pasajeros.

Este valor modal significa que: el número de pasajeros más frecuente por día, que viajan
con P&P es de 75; o también que en la mayoría de los días de vuelo viajan con
frecuencia un número de pasajeros igual a 75.

( Yi1  Yi Yi ni
48 - 56 52 1
56 - 64 60 3
64 - 72 68 11
72 - 80 76 14
80 - 88 84 10
88 - 96 92 8
96 - 104 100 3
Total 50

2.5. Medida de dispersión.

Todos los valores representativos discutidos en las secciones precedentes han sido una
especie de promedio o medida de posición. Sin embargo, el uso de un solo valor para
describir una distribución oculta muchos fenómenos importantes. Por ejemplo, dos

Dr. César Haro Díaz


24
Unidad 2. Análisis descriptivo de datos

grupos separados de datos pueden contener la misma media, pero un grupo puede estar
más disperso o esparcido alrededor del valor promedio que el otro.

Por lo que es necesario una medida de la dispersión, esparcimiento o variación para


ayudar más completamente la distribución. Mientras menor es la dispersión, más típico
es el valor de la media para toda la distribución.

Las medidas de dispersión que se utilizan con mayor frecuencia son: la varianza, la
desviación estándar y el coeficiente de variación.

2.5.1. La varianza.-
Definición 1. (Para datos no agrupados). La varianza de una muestra x1, x2, ..., xn de la
variable X, es dado por:
n

 (x i  x) 2
S2  i 1

n 1

Definición 2. (Para datos agrupados). La varianza de los valores una muestra y1, y2,
..., yk de Y con frecuencias absolutas n1, n2, ..., nk respectivamente, es dado por:
k

 (y i  y) 2  n i
V(Y)  S 2  i 1

n 1

Observaciones.

1. La varianza poblacional se define en términos de la media poblacional μ , esto es:


k

 (x i  μ) 2
σ2  i 1

N
donde N es el tamaño de la población.

2. Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza,


podemos usar las formulas:

  n  
2

  xi  
1 n 2
S 
2
 x i   i1n  
n  1  i 1
 
  para datos no agrupados.
y

Dr. César Haro Díaz


25
Unidad 2. Análisis descriptivo de datos

  k  
2

  xini  
1 k 2
S 
2
 x i n i   i 1  

n  1 i 1 n 
 
  para datos agrupados.

2.5.2. La desviación estándar.

Definición.- La desviación estándar o típica de los valores de la variable X se define


como la raíz cuadrada positiva de la varianza, y se denota por S  V(X) .
El valor numérico de S cuantifica el grado de dispersión de los valores de una variable
con respecto a su media. Mientras mayor es la dispersión de las observaciones, mayor
es la magnitud de sus desviaciones respecto a la media y por ende, más alto el valor
numérico de la desviación estándar.

Ejemplo 2.14. Determine la desviación estándar de la siguiente distribución de


frecuencias (ver tabla 2.3).

( Yi1  Yi Yi ni (y i  y) 2 (y i  y) 2 ni
48 - 56 52 1 696.96 696.96
56 - 64 60 3 338.56 1015.68
64 - 72 68 11 108.16 1189.76
72 - 80 76 14 5.76 80.64
80 - 88 84 10 31.36 313.6
88 - 96 92 8 184.96 1479.68
96 - 104 100 3 466.56 1399.68
Total 50 6176

Solución.
a) Aplicando la formula de la definición.

Se sabe que la media aritmética de esta distribución es:

y  78.4 pasajeros

Luego aplicando la formula de definición la varianza, tenemos:


k

 n (y i i  y) 2
6176
S2  i 1
  126.0408
n 1 49 pasajeros al cuadrado.

Por tanto la desviación estándar es: S = 11.2268 pasajeros.

b) Aplicando el método abreviado.

Luego tenemos:

Dr. César Haro Díaz


26
Unidad 2. Análisis descriptivo de datos

Yi ni
48 - 56 52 1 52 2704
56 - 64 60 3 180 10800
64 - 72 68 11 748 50864
72 - 80 76 14 1064 80864
80 - 88 84 10 840 70560
88 - 96 92 8 736 67712
96 - 104 100 3 300 30000
Total 50 3920 313504

  k  
2

   yi n i  
   1 313504  3920    126.0408
2
1 k 2  i1
S 
2
 i i
n  1  i1
y n 
n  49  50 

  
 

Por tanto la desviación estándar es: S = 11.2268 pasajeros.

2.6. Dimensiones e Indicadores

En la unidad 1 ( ver página 22, inciso 1.5.1.1) hemos visto que las variables según su
grado de complejidad no todas se pueden descomponer en más de un elemento
(dimensiones), este es el caso de las variables simples, las cuales se manifiestan
directamente a través de un indicador o unidad de medida.

No obstante, en las variables compuestas o complejas resulta diferente, ya que por su


naturaleza no pueden ser estudiadas como un todo, sino que deben ser descompuestas
en partes constitutivas o dimensiones.

Una dimensión es un elemento integrante de una variable compleja, que resulta de su


análisis o descomposición.

Ejemplo 2.15. Se desea evaluar el servicio que presenta el Hotel Paraíso, el cual tiene
una organización bastante amplia y compleja, por lo que se decide descomponer la
variable calidad de servicio en función de las principales áreas que prestan atención en
el mencionado hotel.

¿Cuál es la variable que se desea investigar? >>>> La calidad de servicio

Variable Dimensiones

- Calidad de servicio en la Recepción

Calidad de servicio - Calidad de servicio en las habitaciones

- Calidad de servicio en el restaurante

Dr. César Haro Díaz


27
Unidad 2. Análisis descriptivo de datos

Por otra parte, una vez que han sido establecidas las dimensiones de la variable, todavía
faltan los elementos o evidencias que muestren cómo se comporta dicha variable o
dimensión. Estos elementos son los indicadores, aquellos que representan un indicio,
señal o medida que permite estudiar o cuantificar una variable o sus dimensiones.

Dimensiones Indicadores
- Atención permanente: 24 horas.
Calidad del servicio en la - Tiempo que demora el huésped en registrase.
recepción. - Responsabilidad.
- Dominio de varios idiomas.
- Limpieza
Calidad de servicio en las - Equipamiento básico: TV, aire acondicionado.
habitaciones - Tiempo de respuesta a solicitudes.
- - Trato cortés y amable.
Calidad de servicio en el restaurante - Rapidez del servicio.
- Calidad de la comida. Niveles de medición de las
variables
2.7. El tránsito de la variable al ítem.

Cuando se construye un instrumento de medición, el proceso más lógico para hacerlo es


transitar de la variable a sus dimensiones o componentes, luego a los indicadores y
finalmente a los ítems o reactivos. En la siguiente tabla 2.10 podemos ver un ejemplo de
este tránsito.

Tabla 2.10. Ejemplo de desarrollo de ítems

Investigación sobre el clima organizacional


Variable Dimensión Indicadores ítems
 Mis compañeros de trabajo son mis
Moral Grado en que los miembros amigos
Clima de una organización o
organizacional departamento perciben 5. Totalmente de acuerdo.
que colaboran y cooperan 4. De acuerdo.
entre sí, se apoyan 3. ni de acuerdo ni en desacuerdo.
mutuamente y mantienen 2. En desacuerdo.
relaciones de amistad y 1. Totalmente en desacuerdo
compañerismo.
 En mi trabajo hay mucho compañerismo.
(Mismas opciones de respuesta que el
ítem anterior).
 Siempre que lo necesito mis compañeros
de trabajo me brindan apoyo.
(Mismas opciones de respuesta)
 En el departamento donde trabajo nos
mantenemos unidos.
(Mismas opciones de respuesta)
 La mayoría de las veces en mi
departamento compartimos la
información más que guardarla para
nosotros.
(Mismas opciones de respuesta)
 ¿Qué tanto apoyo le brindan sus

Dr. César Haro Díaz


28
Unidad 2. Análisis descriptivo de datos

compañeros cuando usted lo necesita?


5. Total.
4. Bastante.
3. Aceptablemente.
2. Poco
1. Ninguno

Autonomía Grado de libertad percibida  En esta empresa tengo libertad para tomar
para tomar decisiones y decisiones que tienen que ver con mi
realizar el trabajo. trabajo.
5. Totalmente de acuerdo.
4. De acuerdo.
3. ni de acuerdo ni en desacuerdo.
2. En desacuerdo.
1. Totalmente en desacuerdo

 Mi jefe me da libertad para tomar


decisiones que tienen que ver con mi
trabajo.
(Mismas opciones de respuesta que el
ítem anterior).

 En esta empresa todos tratamos de hacer


Atribución Grado de conciencia bien nuestro trabajo.
del compartida por (Mismas opciones de respuesta que el
desempeño desempeñarse con calidad ítem anterior).
en las tareas laborales,
sobre la base de la  En esta empresa todos queremos dar lo
cooperación. mejor de nosotros en el trabajo.
(Mismas opciones)

Nota.
1. Es importante que a las opciones de repuestas (las categorías) de cada ítem se les asignen valores
numérico o símbolo (codificación de los datos) que los represente.

2. Asimismo, es muy importante indicar el nivel de medición de cada ítem y, por ende, el de las
variables, porque es parte de la codificación y dependiendo de dicho nivel se selecciona uno u otro
tipo de análisis estadístico (por ejemplo, la prueba estadística para correlacionar dos variables de
intervalo es muy distinta de la prueba para correlacionar dos variables ordinales). Así, es necesario
hacer una relación de variables, ítems y niveles de medición.

2.8. La matriz de consistencia y la matriz de Operacionalización de variables.

 La matriz de consistencia.

Es la base o la estructura sobre el cual se va a construir el trabajo de investigación


científica. La matriz de consistencia permite registrar de modo integrado la información
correspondiente al problema, objetivo e hipótesis general, junto con las variables de
estudio con su correspondiente indicador.

La matriz de consistencia tiene 3 pasos principales:


1. El Problema.
2. Los objetivos.

Dr. César Haro Díaz


29
Unidad 2. Análisis descriptivo de datos

3. La hipótesis

1. El Problema es el título de investigación transformado a una oración interrogativa.


Por ejemplo tenemos el siguiente título de investigación:

EL COMERCIO ELECTRÓNICO Y SU INFLUENCIA EN LAS


EXPORTACIONES DE TEXTIL CARMELITA S.A.C DEL DISTRITO DE
VILLA EL SALVADOR EN EL AÑO 2017

El problema sería:
¿Cómo el comercio electrónico influye en las exportaciones de textil carmelita
S.A.C del distrito de villa el salvador en el año 2017?

El problema no es otra cosa que el título de la investigación transformado a una


oración interrogativa.
2. El objetivo es el propósito o meta de estudio (hacia donde se quiere llegar con la
investigación). Los objetivos se inician siempre con un verbo infinitivo.

Tenemos los siguientes verbos infinitivos:

Por lo tanto, el objetivo es: El problema en afirmativo + un verbo infinitivo

Para nuestro ejemplo, vamos a elegir el verbo infinitivo que va con el propósito del
estudio. En este caso el objetivo general sería:

Explicar cómo el comercio electrónico influye (contribuye) en las exportaciones


de textil carmelita S.A.C del distrito de villa el salvador en el año 2017.

3. La Hipótesis es la respuesta tentativa a tu problema de investigación. No es


cualquier respuesta tentativa al problema, es la mejor respuesta o solución
preliminar, lógica, pero aun no comprobada o verificada.

Para nuestro ejemplo, la hipotesis general podria ser:

El comercio electrónico influye positivamente en el crecimiento de las


exportaciones de textil carmelita S.A.C del distrito de villa el salvador en el año
2017.

Dr. César Haro Díaz


30
Unidad 2. Análisis descriptivo de datos

 La matriz de operacionalización de variables

Una de las etapas sensibles al diseñar un proyecto de investigación es el elaborar


el cuadro de operacionalización de variables. El contenido de un cuadro de
operacionalización de variables varía según las normas de presentación en cada
universidad, pero en la mayoría se considera como elementos: la o las variables de
estudio, la definición conceptual y operacional de cada variable; así como sus
respectivas dimensiones, indicadores y el tipo de variable según su escala de
medición.

El desafío de una investigación es a aprender a construir y administrar las ideas.

¿Cómo administrarlas y construirlas?

Esto es posible a través de la matriz de Operacionalización de variables

¿Qué es la Operacionalización de variables?

Es un proceso mediante el cual se transforma la variable de conceptos abstractos a


términos: concretos, observables y medibles. Es decir a su mínima expresión ya sea:

Esta matriz generalmente se representa en cuadro, tal como se aprecia a continuación:

Modelo de matriz de Operacionalización de variables

Dr. César Haro Díaz


31
Unidad 2. Análisis descriptivo de datos

Variable (s) Definición conceptual Definición operacional Dimensiones Indicadores

Consta de las siguientes etapas básicas:


En la primera columna se deberá señalar la variable de estudio o variables de estudio.
En la Segunda columna se deberá definir conceptualmente la variable. Esto consiste en
establecer el significado de la variable previa revisión bibliográfica. En la tercera
columna se deberá definir operacionalmente la variable, es decir se precisará como será
medida, observada y registrada la variable o variables. Aquí se debe señalar el
instrumento de recolección de datos que se va a emplear. En la cuarta columna se van a
definir las dimensiones, las cuales se desprenden de la definición conceptual de la
variable y finalmente en la quinta columna se deben señalar los indicadores que van a
permitir estudiar o cuantificar las dimensiones.

Deben recordar que los indicadores son base para elaborar los ítems de los instrumentos
de recolección de datos.

Veamos el siguiente ejemplo:

Definición
Variable (s) Definición operacional Dimensiones Indicadores
conceptual
Métodos Análisis
financiero
Son los métodos que Pronóstico
a través de los financiero
PLANIFICACIÓN presupuestos Presupuestos Ventas
operativos permite Será medida a través
FINANCIERA operativos Costo de
alcanzar los de la revisión y
servicio
objetivos propuestos análisis documental
Compras
por la organización. de información
económica Gastos
Siendo de gran administrativos
importancia para el financiera de la
empresa. Gastos de
funcionamiento y la ventas
supervivencia de la Gastos
misma. financieros
cobranzas
Objetivos Corto plazo
Largo plazo

Observe que las dimensiones se han desprendido de la definición conceptual de la


variable.

Dr. César Haro Díaz


32
Unidad 2. Análisis descriptivo de datos

Recuerde que estos indicadores nos van a servir de base para elaborar los instrumentos
de recolección de datos, los ítems de revisión, el análisis documental y la obtención de
la información económica financiera de la empresa.

Recuerde que la matriz de Operacionalización de variables, es la columna vertebral de


la investigación. Es muy importante pues una vez construido se tiene la base para
desarrollar el marco teórico del estudio donde se deberá fundamentar y redactar las
teorías de tus variables, de las dimensiones y sus indicadores.

Ejemplo 2.16. Presentamos a continuación un modelo de matriz de consistencia de la


investigación y una matriz de Operacionalización de variables

¿Cómo se relaciona la motivación laboral con el desempeño del personal asignado a los
Núcleos Distritales de Gestión Educativa de Morropón, 2019?

Anexo A: Matriz de consistencia de la investigación


PROBLEMA OBJETIVOS HIPÓTESIS VARIABLES DIMENSIONES TIPO /
DISEÑO
General: General: General: Enfoque
Cuantitativo.
Variable N° 1:
¿Cómo se relaciona Determinar la  Existe una relación
la motivación relación entre la significativa entre la Diseño:
Motivación
laboral con el motivación laboral motivación laboral y el  Dimensión No
desempeño del y el desempeño desempeño del laboral. experimental
intrínseca.
personal asignado a del personal personal asignado a los .
los Núcleos asignado a los Núcleos Distritales de  Dimensión
Distritales de Núcleos Distritales Gestión Educativa de extrínseca. Tipo:
Gestión Educativa de Gestión Morropón, Piura 2019. Correlaciona
de Morropón, Educativa de l
2019? Morropón de la Nula:
Región Piura en el  No existe una relación De corte
2019. significativa entre la transversal.
motivación laboral y el
desempeño del
personal asignado a los
Núcleos Distritales de
Variable N° 2:
Gestión Educativa
Local de Morropón,
Piura 2019. Desempeño  Dimensión
laboral. eficiencia.
Específicos: Específicos: Específicas:

OE.1.  Dimensión
PE.1. HE.1.
¿Cómo se relaciona Determinar la satisfacción
 Existe relación
la dimensión relación entre la significativa entre la
intrínseca con el dimensión Intrínseca dimensión Intrínseca y
desempeño laboral con el desempeño
el desempeño laboral
del personal laboral del personal
del personal.
asignado a los asignado a los
Núcleos Distritales

Dr. César Haro Díaz


33
Unidad 2. Análisis descriptivo de datos

Núcleos Distritales de Gestión


de Gestión Educativa de
Educativa de Morropón, 2019.
Morropón, 2019?
OE.2. HE.2.
PE.2. Determinar la  Existe relación
¿Cómo se relaciona relación entre la significativa entre la
la dimensión dimensión dimensión Extrínseca
extrínseca con el Extrínseca con el y el desempeño laboral
desempeño laboral desempeño laboral del personal.
del personal del personal
asignado a los asignado a los
Núcleos Distritales Núcleos Distritales
de Gestión de Gestión
Educativa de Educativa de
Morropón, 2019? Morropón, 2019.

Anexo B: Matriz de Operacionalización de variables

VARIABLES DIMENSIONE INDICADORES N° DE ESCALA POBLACIÓN /


S ITEMS MUESTRA

Intrínseca.  Estabilidad y
Variable N° 1: 5) Totalmente de Población:
beneficios del trabajo: 4
(4, 9, 11, 18). acuerdo. Constituida por los
4) De acuerdo.
Motivación 50 trabajadores
 Ambiente social de 3) Indiferente
laboral. trabajo.(clima social 5 2) En desacuerdo. asignados a los
del entorno laboral : 1) Totalmente en Núcleos de Gestión
(1, 2, 5, 21,22). desacuerdo.
Educativa Local del
 Promoción y ámbito de UGEL
reconocimientos: 5
(3, 7, 14, 16, 19) Morropón.
NIVELES:
Bajo ( )
Muestra:
Medio ( )
El 100 % de la
Alto ( ) población por ser una
Extrínseca
 Características de la cantidad mínima de
tarea: 4
(10, 12, 13,20). estudio siendo un
total de 50
 Autonomía e
independencia: trabajadores
(6, 15, 23). 3
asignados.

 Conocimientos y
habilidades que
involucra la tarea: 3
(8, 17,24)

Eficiencia 6 5) Siempre
 Uso de los Recursos:
laboral 4) Casi siempre

Dr. César Haro Díaz


34
Unidad 2. Análisis descriptivo de datos

Variable N° 2: (4, 5, 6, 13, 16,15). 3) A veces


6 2) Casi nunca
 Iniciativa
Desempeño Laboral.(7,8,9,10 ) y 1) Nunca
laboral. Capacidad de solución
de problemas. (17,18).

 Trabajo en equipo 5 NIVELES:


(Integración y
liderazgo: Malo ( )
(20, 22, 23, 24,29).
Regular ( )
5
 Monitoreo y Asistencia Bueno ( )
técnica a las II.EE.:
(1, 2, 3, 12,14).

 Compromiso 7
institucional:
(11,19, 21,25, 26, 27,28,)

Satisfacción  Satisfacción con su


laboral trabajo: 4
(30, 34, 35,39).

 Satisfacción con el
clima laboral: 4
(33, 43, 44,45).

 Satisfacción con las


remuneraciones y
viáticos: 4
(36, 37,40 41).

 Satisfacción con sus


metas y objetivo
profesionales y 4
familiares.
(31, 32,38,42)

Dr. César Haro Díaz


35
Unidad 2. Análisis descriptivo de datos

Ejemplo 2.17. MATRIZ DE CONSISTENCIA DE LA INVESTIGACIÓN

¿En qué medida el PDP se relaciona con el desempeño laboral de los servidores de
UGEL Morropón 2019?

ANEXO N° 01: MATRIZ DE CONSISTENCIA DE LA INVESTIGACIÓN

Título: El Plan de Desarrollo de Personas y el Desempeño Laboral de los Servidores Públicos de


UGEL Morropón, 2019

FORMULACIÓN
HIPÓTESIS OBJETIVOS VARIABLES E INDICADORES
DEL PROBLEMA
PROBLEMA HIPÓTESIS OBJETIVO Variable: PLAN DE DESARROLLO DE
GENERAL: GENERAL: GENERAL: PERSONAS
El PDP se relaciona Determinar en qué Escala de
Dimensiones Indicadores
significativamente medida el Plan de medición
¿En qué medida el con el desempeño Desarrollo de Diagnóstico de Matriz del
PDP se relaciona con laboral de los Personas – PDP se Necesidades de diagnóstico
el desempeño laboral servidores públicos relaciona con el Capacitación
de los servidores de de UGEL desempeño laboral (DNC)
UGEL Morropón Morropón, 2019. de los servidores (DNC)
2019? públicos de UGEL
HIPÓTESIS Morropón, 2019 Nivel de
ESPECÍFICAS: crecimiento
Desarrollo de
Nominal

El PDP se relaciona individual y


significativamente personas. desarrollo
con la calidad del organizacion
trabajo de los al.
servidores públicos Evaluación de  Nivel de
PROBLEMAS de UGEL
ESPECÍFICOS: Morropón, 2019. OBJETIVOS
acciones de Reacción
¿En qué medida el ESPECÍFICOS: capacitación  Nivel de
PDP se relaciona con El PDP se relaciona Determinar en qué Aprendizaje
el cumplimiento de significativamente medida el Plan de

Dr. César Haro Díaz


36
Unidad 2. Análisis descriptivo de datos

la calidad del trabajo con la iniciativa de Desarrollo de  Nivel de


de los servidores los servidores Personas – PDP se Aplicación
públicos de UGEL públicos de UGEL relaciona con la
Morropón, 2019? Morropón, 2019. calidad de trabajo
de los servidores
¿En qué medida el públicos de UGEL
PDP se relaciona con El PDP se relaciona Morropón, 2019.
la iniciativa de los significativamente Variable: DESEMPEÑO LABORAL
servidores de UGEL con las relaciones Determinar en qué Indicadore Escala de
Morropón, 2019? humanas de los medida el Plan de Dimensiones
s medición
servidores públicos Desarrollo de  Oportunidad
de UGEL Personas – PDP se  Pro
Morropón, 2019 relaciona con la Calidad de Actividad
¿En qué medida el iniciativa de los 
trabajo
PDP se relaciona con servidores públicos
las relaciones El PDP se relaciona de UGEL
Responsabil
humanas de los significativamente Morropón, 2019. idad
servidores de UGEL con el logro de 
Morropón, 2019? metas de los Determinar en qué
servidores públicos medida el Plan de Innovació
de UGEL Desarrollo de n
¿En qué medida el Morropón, 2019. Personas – PDP se 
PDP se relaciona con relaciona con las
el logro de metas de relaciones humanas Iniciativa Asequibil
los servidores de de los servidores idad al
UGEL Morropón, públicos de UGEL cambio
2019? Morropón, 2019. 

Determinar en qué Resolució

Ordinal
n de
medida el Plan de
conflictos
Desarrollo de
 Empatía
Personas – PDP se
 Buen
relaciona con el trato al
logro de metas de Relaciones usuario
los servidores humanas 
públicos de UGEL
Morropón, 2019. Orientaci
ón a los
usuarios

Planificac
ión
Logro de 
metas Cumplim
iento de
normas.
 Metas
alcanzadas

2.9. Baremacion.

Dr. César Haro Díaz


37
Unidad 2. Análisis descriptivo de datos

Baremar es construir un baremo; esto es, una escala de puntuaciones obtenidas con un
instrumento de medida que permite su interpretación, mediante la atribución a cada una
de ellas de un determinado valor.

Los baremos se determinan mediante percentiles, estableciendo niveles de desarrollo


para cada uno de los factores y el puntaje total de metacognición (capacidad de
autorregular los procesos de aprendizaje).

Procedimiento

1. Hallar los puntajes directos con respeto al total de cada uno de las variables y/o de
cada dimensión.
2. Determinar los percentiles los percentiles 20, 40, 60 y 80 en comparación al total de
datos.
3. Establecer los rangos para los niveles de desarrollo del total y para cada variable,
según lo siguiente (por ejemplo):

Menor o igual que el percentil 20 (muy bajo), entre los percentiles 21 y 40 (bajo),
entre los percentiles 41 y 60 (alto) y mayor que el percentil 80 (muy alto).

Nota 1. Algunos autores también aconsejan utilizar los percentiles 30 y 80 de los


puntajes directos obtenidos

Nota 2. Podemos construir determinar baremos a partir de tabla de frecuencias como


sigue:

Dr. César Haro Díaz


38
Unidad 2. Análisis descriptivo de datos

Ejemplo 2.18. Efectuar la Baremación para las variables del ejemplo 2.16.

Podemos utilizar el Software SPSS 20 para obtener la suma de los totales de ítems por
individuo, sus valores mínimo y máximo, y así como los valores de los percentiles P30 y
P80. Posteriormente realizar la baremacion para cada una de las variables y sus
dimensiones.

Ilustraremos a continuación la Baremación para la variable 1: Motivación Laboral.

Una vez ingresado los datos en el SPSS, debemos seguir la secuencia:

Transformar > Calcular variable:

Aparece el siguiente cuadro de dialogo:

En variable de destino, colocar el nombre de la nueva variable de destino que vamos


obtener y cuyos valores se van obtener mediante transformación.

En este caso, el nombre de la variable destino es: SUMA_ML

Dr. César Haro Díaz


39
Unidad 2. Análisis descriptivo de datos

A continuación en la casilla = Expresión matemática hay sumar las variables que tienen
relación con la variable MOTIVACION LABORAL

Damos clic en aceptar y aparece la nueva variable con el nombre SUMA_ML, cuyos
valores corresponden a la suma de las variables consideradas en la expresión
matemática.

Dr. César Haro Díaz


40
Unidad 2. Análisis descriptivo de datos

A continuación con la columna que contiene a los valores de la variable SUMA_ML,


vamos a utilizarlos para formar los rangos y de esta manera obtener los valores mínimo
y máximo, así como los valores de los percentiles P30 y P80.

Con el SPSS, seguimos la secuencia:

Análisis > Estadísticos descriptivos > Frecuencia

Luego, seleccionar en variable: SUMA_ ML

Dr. César Haro Díaz


41
Unidad 2. Análisis descriptivo de datos

Dar clic en estadísticos y aparece el siguiente cuadro:

Seleccionar en percentil: los percentiles 30 y 80, y en dispersión: los valores Mínimo y


Máximo.

Dr. César Haro Díaz


42
Unidad 2. Análisis descriptivo de datos

Dar clic en continuar:

Finalmente Clic en aceptar y resulta el siguiente resultado:

Estadísticos
SUMA_ML
N Válidos 50

Dr. César Haro Díaz


43
Unidad 2. Análisis descriptivo de datos

Perdidos 0
Mínimo 70
Máximo 117
30 80,00
Percentiles
80 93,80

Con esta información de la última tabla, podemos construir valores de los rangos y su
respectiva categoría para los totales obtenidos (en la variable SUMA_ ML) en las 24
preguntas.

Rango Categoría
s
70 - 80 Bajo
81 - 93 Medio
94 - Alto
117

Ahora, tomando en cuenta las categorías debemos designar valores a los rangos o
intervalos que contienen a los valores de la variable SUMA_ML, mediante el SPSS.
Debemos seguir la secuencia:

Transformar > Agrupación visual

Dr. César Haro Díaz


44
Unidad 2. Análisis descriptivo de datos

Se coloca el nuevo nombre de la variable, en este ejemplo: SUMA_MLCO.

Enseguida en la parte inferior se coloca como valor y etiqueta:

80 Bajo
93 Mediano
SUPERIOR Alto

Note que 80 es límite superior de la categoría cuya etiqueta es: Bajo, 93 es el límite
superior de la categoría cuya etiqueta es: Mediano. En la casilla valor Superior (el SPSS
asume por defecto que es el valor máximo, en este ejemplo 117) y se etiqueta como:
Alto.

Las especificaciones de agrupación van a crear una variable que aparece en la vista de
datos.

Dr. César Haro Díaz


45
Unidad 2. Análisis descriptivo de datos

Luego nos dirigimos a la vista de datos y hacemos clic en etiquetas de valor:

Resulta:

Ahora si mostrar los niveles de la variable MOTIVACION LABORAL, mediante tablas


de frecuencias y gráficos de barra, procedemos con el SPPS como sigue:

Analizar > Estadísticos descriptivos > Frecuencias > En variable: Colocar la


SUMA_MLCO > Tipo de gráfico: escoger gráficos de barras.

Distribución de frecuencias del personal asignado a la Ugel- Morropón, según


su nivel de Motivación Laboral. Piura 2019
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Válidos Bajo 16 32.0 32.0 32.0

Dr. César Haro Díaz


46
Unidad 2. Análisis descriptivo de datos

Medio 24 48.0 48.0 80.0


Alto 10 20.0 20.0 100.0
Total 50 100.0 100.0

Dr. César Haro Díaz

También podría gustarte