Teoría CP y LA
Teoría CP y LA
Teoría CP y LA
Introducción
Todo ciudadano está en continuo contacto con las estadísticas en todos los medios de comunicación. Es común
ver artículos como:
El índice de desocupación en nuestro país se redujo en el presente año a 9,8%
El 75% de los aspirantes a ingresar a la carrera de medicina en la universidad de La Plata salió aplazado
en el primer examen de ingresos
El coeficiente intelectual promedio de los estudiantes de 4to. Grado es de 102 puntos
Los sueldos mensuales de los empleados de una determinada firma se hallan entre $1.200 y $2.400
La proporción de enfermeras en un hospital público es de una cada 20 pacientes
Todo lector responsable debe poder comprender la información que se le ofrece para detectar mentiras y tomar
decisiones informadas.
En particular para los que han decidido estudiar una carrera, cualquiera sea esta, a menudo estarán en contacto
con artículos de investigación y por lo tanto deben poder comprender la información cuantitativa que se le
ofrece en los artículos que lee.
Como productor de investigaciones, en el futuro, debe poder utilizar las estadísticas en sus propias
investigaciones.
El significado de la estadística en el contexto de la investigación social se enfoca más en los métodos o
procedimientos utilizados por los investigadores para comprender e interpretar datos. Es parte integral del
proceso de investigación y en la mayoría de las tesis y disertaciones ocupa una posición central.
Definición de Estadística
La estadística es el conjunto de técnicas que se emplean para la recolección, organización, análisis e
interpretación de datos.
Para comprender mejor esta definición analicemos lo que significan algunos términos que intervienen en ella:
Técnicas: son reglas procedimentales, todas con una base matemática, que nos dan formas de realizar la
recolección, la organización, el análisis y la interpretación de los datos
Datos: son los hechos y números que se reúnen, analizan y resumen para su presentación e interpretación. Al
estar reunidos, los datos recopilados en determinado estudio se denomina conjuntos de datos para el estudio
Elementos: son las entidades acerca de las cuales se reúnen los datos. Pueden ser personas, empresas, escuelas,
animales, etc.
Variables: son las características de interés de los elementos. Por ejemplo puede interesarnos estudiar el número
de alumnos de las instituciones escolares, o las ventas promedio de un conjunto de empresas, etc.
Tomemos un ejemplo. En un grupo de jóvenes de ésta región de la provincia se realiza una encuesta en la cual
debían consignar la edad, el sexo, la puntuación obtenida en el test y asignatura preferida en la escuela. Los
datos son los siguientes:
Alumno Edad Sexo Puntuación Asignatura
Javier 16 Masculino 90 Matemática
Martina 17 Femenino 75 Biología
Lorena 17 Femenino 64 Economía
Facundo 18 Masculino 35 Biología
Francisco 16 Masculino 78 Psicología
Analía 15 Femenino 84 Lengua
Alejandra 17 Femenino 92 Contabilidad
Julián 17 Masculino 53 Contabilidad
Los elementos son cada uno de los alumnos: Javier, Martina, Lorena, etc. Las variables son: edad,
sexo, puntuación obtenida y asignatura preferida. Los datos son, por ejemplo, respecto de la variable
1
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
edad: 16, 17, 17, 18, etc., con respecto a la variable sexo: masculino y femenino, respecto a la variable
puntuación: 90, 75, 64, etc. y respecto de la variable asignatura: matemática, biología, economía, etc.
Datos cuantitativos y cualitativos
Los datos pueden clasificarse como cualitativos o cuantitativos. Los datos cualitativos son etiquetas o
nombres que se utilizan para identificar un atributo de cada elemento. Los datos cuantitativos son
valores numéricos que indican cuánto o cuántos.
Una variable cualitativa es la que tiene datos cualitativos y una variable cuantitativa contiene datos
cuantitativos.
El análisis estadístico apropiado para una variable particular depende de si la variable es cualitativa o
cuantitativa. Si la variable es cualitativa, el análisis estadístico es bastante limitado. Podemos resumir
los datos cualitativos al contar el número de observaciones en cada categoría cualitativa, o bien, al
calcular la proporción de observaciones en cada categoría. No obstante, aun cuando los datos
cualitativos pueden tener una clave o código numérico, las operaciones suma, resta, multiplicación y
división no proporcionan resultados significativos. En cambio, con las operaciones aritméticas se
pueden obtener resultados significativos para variables cuantitativas.
A su vez, la variable cuantitativa puede subclasificarse en discreta y continua dependiendo del tipo de
número que se recoge como dato. Si los números son enteros la variable es discreta y si admiten cifras
decimales (o sea son números reales) la variable es continua. Por ejemplo, si la variable es número de
hijos de una familia, los datos pueden ser 0, 1, 2, 3, etc. y por lo tanto es una variable discreta. Si, en
cambio, se trata de tabular el sueldo que cobra un grupo de empleados de una empresa la variable es
continua porque admite cifras decimales ya que las sumas de dinero pueden contabilizarse hasta los
centavos.
Escalas de medición
Los datos se reúnen mediante una de las siguientes escalas de medición: nominal, ordinal, intervalar y
de razón. La escala de medición permite determinar la cantidad de información que contienen los datos
e indica el resumen de los mismos y el análisis estadístico más apropiado.
Nominal: la escala de medición para una variable es nominal cuando los datos son etiquetas o nombres
que se emplean para identificar un atributo o elemento. Por ejemplo en la tabla anterior es una variable
nominal el sexo y la asignatura preferida.
Ordinal: la escala de medición para una variable es ordinal si los datos tienen las propiedades de datos
nominales y además el orden o rango de los datos es significativo. Por ejemplo cuando se toma en
cuenta una etiqueta sobre la opinión respecto de un servicio que lo califique como malo, regular o
bueno.
Intervalar: la escala de medición para una variable es intervalar si los datos tienen las propiedades de
datos ordinales y el intervalo entre observaciones se expresa en términos de una unidad fija de medida.
Estos datos siempre son numéricos. En el ejemplo anterior la puntuación obtenida en el test es medida
con esta escala pues los valores pueden ser clasificados según el desempeño desde el mejor al más
deficiente, por ejemplo. Además las diferencias entre las puntuaciones son importantes. En nuestro
ejemplo, Analía obtuvo 20 puntos más que Lorena (84 – 64). El cero en la variable intervalar es
convencional (el ejemplo más claro es la temperatura, cuyo 0 es definido de una manera particular para
cada escala)
De razón: la escala de medición para una variable es una escala de razón si los datos tienen todas las
propiedades de los datos de intervalo y además el cociente de dos cualquiera de los valores es
significativo. En nuestro ejemplo la variable edad corresponde a esta escala, pues si hablamos de edad,
2
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
una persona que tiene 40 años tiene el doble de edad que alguien que tiene 20 años (40/20). Un
requisito de esta escala es que debe contener un valor cero que indica que no existe nada para una
variable en el punto cero. Por ejemplo si la edad es 0 no tiene edad, si el precio es 0 no cuesta nada, es
gratis, el peso 0 significa que no tiene peso. El cero es real, tiene significado.
Las variables cualitativas pueden medirse en la escala nominal u ordinal según el caso, mientras que
las variables cuantitativas lo hacen en las escalas intervalar y de razón.
División de la Estadística
Estadística descriptiva: la estadística descriptiva comprende las técnicas que se emplean para
resumir y describir datos. Estos métodos pueden ser gráficos o implicar análisis computacional. En
ella se enfatizan los aspectos de presentar y describir los datos recogidos en la investigación. En la
estadística descriptiva, el investigador debe preocuparse por organizar y presentar los datos de una
forma comprensible y sobre todo honesta. La mayor parte de la información estadística que aparece
en los diarios, revistas, informes de compañías y demás publicaciones corresponden a este tipo de
estadística.
Estadística inferencial: la estadística inferencial comprende las técnicas con las que, con base
únicamente en una muestra sometida a observación, se toman decisiones sobre una población o
proceso estadístico. Dado que estas decisiones se toman en condiciones de incertidumbre, suponen
el uso de conceptos de probabilidad. Se origina en el Renacimiento con el desarrollo de la
probabilidad matemática, que a su vez se basa en el estudio de los juegos de azar. Se desarrolla
plenamente a partir de Karl Pearson (1857-1936) y Ronald Fisher (1890-1962) a principios del
siglo XX.
Está íntimamente relacionada con los conceptos de población, muestra, parámetro y estadísticos.
• Población: es el total de objetos bajo consideración. Es el grupo o conjunto sobre el cual el
investigador quiere hacer una inferencia. La mayor parte de las veces es muy grande y
algunas veces es hipotética. Si, por ejemplo, se quiere demostrar que la semejanza entre
personas afecta el nivel de atracción, la población de “personas semejantes” es hipotética
pues se hace imposible encontrar una población de personas semejantes en todos los
aspectos.
• Muestra: aunque el investigador se interesa, la mayor parte de las veces en la población,
muy pocas veces puede llegar a toda ella. Para hacer cualquier estudio se ve obligado a
seleccionar parte de la población. La muestra es la porción de la población seleccionada para
la investigación. La selección se hace porque generalmente el costo, el tiempo y los recursos
3
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
son limitados para hacer la investigación con toda la población. Partiendo de los resultados
del estudio con la muestra (si esta es verdaderamente representativa de la población), el
investigador puede hacer inferencias sobre la población.
• Parámetro: es la medida de una característica numérica de la población (media, mediana,
varianza, etc). Es un elemento descriptivo de la población.
• Estadísticos: es una medida que se utiliza para describir una característica numérica de la
muestra, a diferencia del parámetro que es de la población. La estadística inferencial sirve
para determinar cómo un estadístico y un parámetro se relacionan.
Fuentes de datos
Los datos pueden reunirse a partir de fuentes de información existentes o a través de encuestas o
estudios experimentales diseñados con el objetivo de obtener nuevos datos.
Datos publicados
Se pueden utilizar datos publicados previamente que el investigador no tiene que recoger. Estamos en
la época de la tecnología y la información. Las bibliotecas están equipadas con computadoras y a
través de éstas se pueden localizar bancos de datos que otras personas o instituciones han recogido y
almacenado. Estas fuentes de datos para las investigaciones pueden ser:
• Fuentes primarias: son las personas u organizaciones que recogen los datos directamente
• Fuentes secundarias: son las personas u organizaciones que han compilado los datos en tablas y
gráficas. Por lo general, tanto el gobierno como las universidades, son fuentes primarias y
secundarias.
Datos obtenidos de la experimentación
En la investigación, a menudo, se utilizan datos obtenidos a través de la experimentación. Esto ocurre
principalmente en las investigaciones de medicina y ciencias naturales. La investigación consiste en el
montaje de un experimento en que se controlan todas las variables que pueden influir en los resultados
y entonces se maneja la variable independiente y se observan los cambios en la variable dependiente.
Cuando esto ocurre se puede hablar de una relación de “causa y efecto”. La investigación es un
verdadero experimento.
En las ciencias sociales es más difícil puesto que se dificulta imponer controles sobre el medio social.
En el momento de la recolección de datos debe haber control sobre todas las variables que pueden
afectar variaciones en el experimento.
Datos obtenidos a través de cuestionarios
La forma más común de llevar a cabo una investigación en las ciencias sociales es utilizando datos
obtenidos a través de cuestionarios. En estos casos no se ejerce control sobre el comportamiento de las
personas. Sólo se hacen preguntas y se observan las dos variables, independiente y dependiente, al
mismo tiempo.
En los cuestionarios no se busca una relación de causa y efecto, sino de correlación entre dos variables.
Se busca determinar si la magnitud de una variable se relaciona con la magnitud de la otra. Por lo
general no se habla de variables independientes y dependientes, sino de predictores y criterios. El
cambio en el predictor no es la causa del cambio en el criterio aunque un cambio implique el otro.
Por ejemplo:
• Causa y efecto: vacuna y prevención de la enfermedad. La vacuna es la causa de que
enfermedad no tenga lugar.
4
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Ejercicios
1) Una empresa de viajes internacionales lleva a cabo una encuesta anual con el fin de determinar los
mejores lugares para hospedarse en diferentes ciudades del mundo. En la siguiente tabla se
encuentran organizados los datos de varios hoteles donde el precio de una habitación doble normal
durante la temporada alta va desde $ (precio más bajo) a $$$$ (precio más alto). La puntuación está
dada por la evaluación de usuarios anteriores de los diferentes servicios como restaurante,
ubicación, ambientes y áreas públicas. Las puntuaciones más altas corresponden a nivel de
satisfacción más alto.
Hotel País Precio N° habitaciones Puntuación
Graveteye Manor Inglaterra $$ 18 83,6
Villa D’Este Italia $$$$ 166 86,3
Hotel Prem Alemania $ 54 77,8
Palace Luzern Estados Unidos $$ 47 76,8
Hotel Sheraton Argentina $$$$ 87 80,9
Hotel Maratea Mare Brasil $$$ 56 73,7
Villa Gallici Francia $$ 22 90,6
a) ¿Cuántos elementos hay en este conjunto de datos?
b) ¿Cuántas variables hay en este conjunto de datos?
c) ¿Cuáles variables son cualitativas y cuáles cuantitativas?
d) ¿Qué tipo de escala de medición utilizaría para cada variable?
2) Una dependencia del estado de California clasifica las ocupaciones de los trabajadores como
profesional, de oficina y obrero. Los datos para ser registrados se marcan así, con un 1 los
profesionales, con un 2 los de oficina y con un 3 los obreros. ¿Qué tipo de variable es la ocupación
del trabajador? ¿Qué escala de medición se está usando para esta variable?
3) Dadas las siguientes variables indique si son cualitativas o cuantitativas y diga con qué escala se
mide: edad, sexo, lugar en la lista de alumnos de la clase, marca de automóvil, número de personas
que están a favor de la penalización del aborto, tamaño de una bebida (pequeña, mediana o grande),
método de pago (efectivo, débito, crédito)
4) En una encuesta de un periódico de nuestro país se preguntó a 2013 adultos “¿Qué tan satisfecho
está usted con la economía argentina en la actualidad?” Las categorías de las respuestas eran
Insatisfecho, Satisfecho y No estoy seguro. ¿Cuál fue el tamaño de la muestra? Los datos, ¿son
cualitativos o cuantitativos? De quienes respondieron, el 38% dijo no estar satisfecho con el estado
de la economía en nuestro país, ¿cuántas personas dieron esta respuesta? Si usted quisiera resumir
estas respuestas, ¿qué tendría más sentido, sacar promedio de las respuestas o utilizar porcentajes?
5) El área de mercadoctenia de su empresa ha propuesto una nueva bebida dietética que, dicen,
capturará una gran parte del mercado de adultos y jóvenes. ¿Qué datos quiere analizar antes de
decidirse a invertir cantidades importantes para introducir el nuevo producto en el mercado?
¿Cómo espera obtener los datos mencionados en la pregunta anterior?
5
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
6) En un estudio reciente acerca de las causas de muerte en hombres de 60 y más años de edad, una
muestra de 120 personas indicó que 48 murieron debido a enfermedades del corazón. Desarrolle
una medida estadística descriptiva que se pueda emplear como estimado del porcentaje de hombres
de 60 años o más que mueren de alguna enfermedad cardíaca. ¿Son cualitativos o cuantitativos los
datos sobre las causas de la muerte? Explique el papel de la inferencia estadística en este tipo de
investigación médica.
6
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Introducción
El objetivo de esta unidad es presentar varios procedimientos tabulares y gráficos que se usan con
frecuencia para resumir datos cuantitativos y cualitativos. Los resúmenes tabulares y gráficos de datos
pueden verse en informes anuales, artículos periodísticos y estudios de investigación. Todos estamos
familiarizados con este tipo de presentación y por lo tanto es importante comprender cómo se preparan
y saber cómo interpretarlos.
Comenzaremos con los métodos tabulares y gráficos de una sola variable.
Para formar una distribución de frecuencias con estos datos debemos contar la cantidad de veces que
aparece cada uno de los países. Como se trata de una variable cualitativa que se mide en escala
nominal, realizamos la tabla por orden alfabético, por ejemplo, ya que no existe una jerarquía en los
datos. Resulta entonces la siguiente tabla:
País de origen Frecuencia (f)
Argentina 19
Brasil 10
Colombia 8
Paraguay 7
Uruguay 6
TOTAL 50
Al ver la tabla podemos determinar que el país que más se repite es Argentina, que más de la mitad de
los alumnos proceden de Argentina y Brasil, que el país menos representado en la muestra es Uruguay.
frecuencia de la clase
frecuencia relativa : f r
n (N total de datos)
frecuencia porcentual : f % f r .100%
Vamos ahora a completar la tabla de frecuencias incorporando la frecuencia relativa y porcentual.
País de origen Frecuencia (f) fr f%
Argentina 19 0,38 38
Brasil 10 0,20 20
Colombia 8 0,16 16
Paraguay 7 0,14 14
Uruguay 6 0,12 12
TOTAL 50 1 100
Diagrama de columnas
10
9
9
8
7
Frecuencia absoluta (f)
7
6
5 5
5
4 Series1
3
2
2
1
0
8 a 10 11 a 13 14 a 16 17 a 19 20 a 22
Países de origen
8
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Diagrama de barras
20 a 22 7
Países de origen
17 a 19 5
14 a 16 9
11 a 13 2 Series1
8 a 10 5
0 2 4 6 8 10
Frecuencia absoluta (f)
Diagrama circular
18%
25%
8 a 10
7%
11 a 13
14 a 16
17 a 19
18%
20 a 22
32%
Ejercicios
1) Se realiza una encuesta y cada pregunta tiene tres alternativas de respuestas a las que llamamos A,
B y C. En una muestra de 120 respuestas, se obtuvieron 60 respuestas A, 24 respuestas B y 36 C.
Forme una distribución de frecuencias absoluta, relativa y porcentual. Realice un gráfico de barras.
2) En la siguiente tabla vemos una distribución de frecuencias relativas de una investigación donde a
las diferentes clases las llamamos A, B, C y D:
Clases Frec. Relativa (fr)
A 0,22
B 0,18
C 0,40
D
Total
a) ¿Cuál es la frecuencia relativa de la clase D?
b) Si el tamaño de la muestra es de 200, ¿cuál es la frecuencia absoluta (f) de la clase D?
c) Complete la distribución de frecuencias con la columna para la frecuencia absoluta (f) y la
porcentual (f%)
9
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
En primer lugar debemos determinar cuántos intervalos o clases vamos a utilizar. Esto puede ser
escogido al azar en base a lo que pensamos que puede ser necesario o suficiente o sino utilizando una
fórmula que permite determinar el mismo. Llamamos con “k” el número de intervalos.
k 1 3, 322.log(n)
la cifra entera que es el 5 se aproxima a 6. Si la primera cifra decimal fuera un número entre 0 y 4 se
deja la cifra entera en el valor que tiene.
Volviendo a los intervalos a formar, resulta que vamos a trabajar con 6 intervalos. Ahora debemos
determinar el ancho del intervalo al cual llamaremos con la letra “w”.
Rango
w
k
El rango de los datos es la diferencia entre el mayor y el menor dato. En este caso resulta:
Rango 25 8 17
w 2, 83
k 6 6
Esto significa que el ancho de cada intervalo debería ser de 2,83. Por lo general no se trabaja con cifras
decimales, pero a diferencia que el valor anterior, este se aproxima siempre hacia arriba. El motivo es
que si aproximamos para abajo va a ocurrir que algún dato quede fuera de los intervalos.
Por lo tanto vamos a trabajar con intervalos de ancho de 3 unidades.
Retomemos el valor del rango, el cual en este caso es de 17. Como nosotros vamos a trabajar con 6
intervalos de 3 unidades de ancho, cubriremos 18 unidades de rango (3.6). Por lo tanto como nos
sobran 1 unidad, puede quedar el primer o el último intervalo con alguna unidad de más. Comenzamos
el primer intervalo con 3 datos que son el 8, 9 y 10 por esa razón la llamamos “8 a 10”. Resultan así:
Tiempo (minutos) f
8 a 10 5
11 a 13 2
14 a 16 9
17 a 19 5
20 a 22 7
23 a 25 2
TOTAL 30
En la práctica los intervalos pueden escribirse como lo hicimos recién, lo cual es habitual cuando la
variable es discreta. Pero también se pueden escribir utilizando la notación exclusivamente matemática
que es, para la primer clase: 8 x 11 . Esto significa que el intervalo comienza con 8 porque dicho
valor está incluido y finaliza en el número anterior a 11, porque al utilizar el símbolo < significa menor
a 11, no está incluido dicho valor y por lo tanto termina en 10. Podemos escribir de 8 a 11 y la segunda
de 11 a 14, y así sucesivamente, pero tenemos que tener cuidado con el solapamiento de datos, o sea,
en este caso debe quedar claro que si hay un dato que indica un tiempo de 11 minutos va en el segundo
intervalo porque no está incluido en el primero.
Este tipo de notación es más común para variables continuas, donde se utilizan cifras decimales. Pero
es importante que lo tengas en cuenta desde ya esta diferencia pues va a ser utilizada en el cálculo de
medidas que haremos luego.
Volvamos a la distribución de frecuencias. En el caso de variables cuantitativas a las frecuencias ya
definidas les agregamos las frecuencias acumuladas, la acumulada absoluta (F), la acumulada relativa
(Fr) y la acumulada porcentual (F%). Estas se obtienen sumando clase a clase las frecuencias. En este
caso resultan:
Tiempo f fr f% F Fr F%
(minutos)
8 a 10 5 0,16 16 5 0,16 16
11 a 13 2 0,07 7 7 0,23 23
14 a 16 9 0,30 30 16 0,53 53
11
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
17 a 19 5 0,17 17 21 0,70 70
20 a 22 7 0,23 23 28 0,93 93
23 a 25 2 0,07 7 30 1 100
TOTAL 30 1 100
Las frecuencias acumuladas no tienen sentido en el caso de variables cualitativas pero si se pueden
interpretar correctamente en las numéricas. Por ejemplo, veamos qué significan las dos que han sido
resaltadas:
En la columna de la frecuencia acumulada absoluta está resaltado el valor 16, el cual se obtuvo
sumando los valores 5, 2 y 9 de la columna de la frecuencia absoluta (f). Decimos entonces que
hay 16 empleados que utilizaron entre 8 y 16 minutos en realizar el trabajo.
De igual manera, para interpretar el 93 que se encuentra resaltado en la columna de la
frecuencia porcentual acumulada diremos que el 93% de los empleados utilizaron tiempos entre
8 y 22 minutos para realizar el trabajo.
Gráficos
Los gráficos que se utilizan para variables cuantitativas son tres, dos de ellos que son el histograma y
el polígono de frecuencias emplean las frecuencias comunes (absoluta, relativa o porcentual) y el
tercero que es la ojiva emplea las frecuencias acumuladas, cualquiera de ellas.
El histograma es un gráfico de columnas pero a diferencia de éste las mismas van pegadas (no deben
ir separadas). En el eje horizontal van los intervalos y en el vertical la frecuencia que hayamos elegido:
Histograma
10 9
Cantidad de niños
8 7 8 a 10
6 5 5 11 a 13
4 14 a 16
2 2
2 17 a 19
20 a 22
0
1 23 a 25
Tiempo en minutos
El polígono de frecuencias se puede superponer sobre el mismo histograma o bien realizarlo aparte.
Consiste en un diagrama de líneas que une los puntos medios de cada una de las columnas con el punto
medio de un intervalo anterior y otro posterior a los utilizados. Veámoslo así:
12
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Histograma
10 9
Cantidad de niños
8 7 8 a 10
6 5 5 11 a 13
4 14 a 16
2 2
2 17 a 19
20 a 22
0
1 23 a 25
Tiempo en minutos
Respecto del polígono de frecuencias, habitualmente se trata de determinar la forma que tomaría el
mismo si pudiera “suavizarse” a través de una curva. Esta curva no la construimos, sólo la vamos a
tener en cuenta para poder calificar los datos de acuerdo a su simetría. Estos pueden ser de tres tipos,
acorde a la forma que podemos pensar tendría la curva de poder ser construida comparando con los
siguientes:
La ojiva es un diagrama de líneas también pero utiliza las frecuencias acumuladas. Vamos a hacer una
utilizando las frecuencias acumuladas porcentuales resulta:
13
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Respecto de la ojiva, esta puede utilizarse para aproximar ciertos valores que pueden interesarnos para
describir un grupo de datos. Los definiremos más tarde dándoles el nombre que corresponde a cada
uno, pero como ejemplo consideremos un par:
Ejercicios
1) El personal de un consultorio ha estudiado los tiempos de espera de pacientes que llegan
solicitando servicio de emergencia. Los siguientes datos fueron reunidos en un período de un mes,
con tiempos de espera en minutos de: 2, 5, 10, 12, 4, 4, 5, 17, 11, 8, 9, 8, 12, 21, 6, 8, 7, 13, 18, 3.
Organice los datos utilizando 4 intervalos. Realice una distribución de frecuencias absolutas,
relativas y porcentuales y las correspondientes acumuladas. Haga un histograma, un polígono de
frecuencias y una ojiva con cualquiera de las frecuencias. De acuerdo a la forma del polígono
14
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
clasifique la variable. ¿Qué porcentaje de los pacientes que necesitan servicio de emergencia tienen
tiempo de espera de 11 minutos o menos?
2) En Aerolíneas Argentinas se aceptan reservaciones telefónicas de vuelos. En la tabla siguiente se
muestran las duraciones de las llamadas, en minutos, para una muestra de 20 reservaciones
telefónicas.
2,1 4,8 5,5 10,4
3,3 3,5 4,8 5,8
5,3 5,5 2,8 3,6
5,9 6,6 7,8 10,5
7,5 6,0 4,5 4,8
Realice una distribución de frecuencias de la variable “duración de la llamada” utilizando 3
intervalos (utilice un tiempo entero como ancho de intervalo y como extremos de los mismos).
Realice un histograma y un polígono de frecuencias. ¿A qué tipo de forma y simetría corresponde?
Haga una ojiva con la frecuencia porcentual y estime el nivel de ansiedad que corresponde al 50%
de las llamadas. Interprete dicho valor.
3) En un informe presentado por un vendedor de una sucursal de una librería que se encuentra en un
shopping se informa el precio de los libros vendidos y la cantidad de libros de ese precio vendidos
por el mismo.
Precio del libro N° libros
(en pesos) vendidos
350 16
550 33
600 35
700 34
750 28
880 21
950 16
1200 9
1500 4
Realice una distribución de frecuencias de la variable “precio del libro” utilizando 3 intervalos.
Complete la misma con las frecuencias acumuladas. Haga un polígono de frecuencias y una ojiva
con las frecuencias porcentuales. Defina la variable en cuanto a su simetría y forma.
4) La oficina de censos de Estados Unidos publicó información diversa acerca de la población de ese
país. La siguiente información es la distribución de frecuencias porcentuales de la población de
Estados Unidos por edad desde el 1 de julio del año 2010:
Edad Frec. Porcentual
0 – 13 20,0
14 – 17 5,7
18 – 24 9,6
25 – 34 13,6
35 – 44 16,3
45 – 54 13,5
55 – 64 8,7
65 o más 12,6
TOTAL 100
¿Qué porcentaje de la población tiene 34 años o menos? ¿Qué porcentaje de la población tiene
entre 25 y 54 años inclusive? ¿Qué porcentaje de la población es mayor de 34 años? Si la población
total es de 275 millones, ¿cuántas personas son menores de 25 años? Suponga que usted cree que la
15
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
mitad de las personas en la clases 55 – 64 están retiradas y que aproximadamente todas las
personas de 65 años o más están retiradas, estime el número de personas retiradas de la población.
Otros gráficos
Veamos a continuación algunos otros gráficos o esquemas que se utilizan para variables cuantitativas.
1. Gráfico de puntos: es uno de los resúmenes gráficos más sencillo. En un eje horizontal se muestra
el intervalo de los valores que toman los datos. A continuación, el valor de cada dato se representa
con un punto colocado sobre el eje. Si hay más de una observación con el mismo valor se colocan
en dicho valor todos los puntos representativos uno encima del otro. Veamos un ejemplo en el cual
vamos a graficar en dos diagramas de puntos el ritmo cardíaco de dos grupos, uno de fumadores y
el otro de no fumadores.
Ritmo Fumador Género Ritmo Fumador Género
cardíaco (0:no, 1:si) (0: F, 1: M) cardíaco (0:no, 1:si) (0: F, 1: M)
82 0 0 80 1 0
68 0 0 90 1 0
78 0 0 78 1 0
80 0 0 74 1 0
62 0 0 70 1 0
60 0 0 74 1 0
62 0 0 84 1 0
76 0 0 72 1 0
74 0 0 92 1 0
74 0 0 80 1 0
68 0 1 94 1 1
68 0 1 80 1 1
64 0 1 78 1 1
76 0 1 88 1 1
88 0 1 60 1 1
70 0 1 86 1 1
78 0 1 90 1 1
80 0 1 89 1 1
74 0 1 68 1 1
82 0 1 72 1 1
60 70 80 90 100
60 70 80 90 100
2. Diagrama de tallos y hojas: Este diagrama en realidad es una técnica sencilla para poder resumir
con rapidez un grupo de datos numéricos que pueden encontrarse inicialmente desordenados. Los
16
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
valores numéricos que constituyen la muestra se dividen de la siguiente forma, la hoja es el valor
correspondiente a las unidades y la decena o decena y centena en caso de números de tres cifras
son los tallos. De esta manera se completa el diagrama. Observemos las puntuaciones obtenidas por
un grupo de 50 estudiantes que se encuentran en la siguiente tabla.
76 65 89 86 45 35 66 55 99 95
87 85 83 84 68 72 74 85 68 76
97 52 24 76 77 80 94 90 64 61
83 84 74 76 68 57 47 65 94 97
47 53 52 64 42 32 33 16 47 69
En primer lugar buscamos cuál es el menor (16) y cuál el mayor (99) entonces los tallos van a ir
desde 1 que es el del menor hasta 9 que es el del mayor. El resto es completar el cuadro como lo
hacemos a continuación:
Tallos Hojas
1 6
2 4
3 532
4 77275
5 27352
6 149556848
7 064762664
8 9334554076
9 4405977
A partir de este primer cuadro podemos, por ejemplo, ordenar de menor a mayor los datos
ordenando las hojas de cada renglón:
Tallos Hojas
1 6
2 4
3 235
4 25777
5 22357
6 144556889
7 024466667
8 033445567 9
9 0445779
Observe que los datos quedan ordenados en intervalos de amplitud 10. De manera que podríamos,
por ejemplo, realizar una distribución de frecuencias y un histograma correspondiente:
Calificación f
10 a 19 1 Histograma
20 a 29 1 12 10 10 a 19
30 a 39 3 10 9 9
N° de alumnos
40 a 49 5 8 7 20 a 29
50 a 59 5 6 5 5 30 a 39
60 a 69 9 4 3
40 a 49
70 a 79 9 2 1 1
80 a 89 10 50 a 59
0
90 a 99 7 1 60 a 69
TOTAL 50 Puntuaciones 70 a 79
17
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Si usted presta atención, la forma del histograma es la misma del diagrama de tallos y hojas si lo
rotáramos, lo cual hace que nosotros con el diagrama ya podemos ver la forma que va a tener el
histograma y por lo tanto adelantar la clasificación según la simetría o la forma.
3. Tablas de contingencia: Esta tabla se puede utilizar para resumir de manera simultánea los datos
para dos variables. Por ejemplo, en la siguiente podemos ver resumidos los datos de una encuesta
acerca de la marca deportiva preferida por un grupo de mujeres de acuerdo a la edad de las mismas
Adidas Nike Reebok Topper TOTAL
20 a 34 años 12 26 18 14 70
35 a 49 años 25 20 12 15 72
50 a 64 años 18 11 16 28 73
TOTAL 55 57 46 57 215
Con estas tablas uno puede responder preguntas como las siguientes:
a) ¿Qué porcentaje del total prefiere adidas?
b) ¿Qué porcentaje de las que prefieren Nike tienen entre 35 y 49 años?
c) ¿Qué porcentaje del total tienen más de 34 años?
d) ¿Qué porcentaje del total prefiere Adidas o Topper?
e) ¿Qué porcentaje de las mujeres entre 20 y 34 años prefiere Adidas?
Estos datos de la tabla pueden volcarse en una gráfica de barras o de columnas para dos variables.
Por ejemplo, el que corresponde a la variable “marca deportiva” es la siguiente:
Diagrama de barras
28
Topper 15
14
Marcas deportivas
16
Reebok 12
18
50 a 64 años
11
Nike 20 35 a 49 años
26
20 a 34 años
18
Adidas 25
12
0 10 20 30
Cantidad de mujeres
4. Diagrama de dispersión: este diagrama es una representación gráfica de la relación entre dos
variables cuantitativas. Para ilustrar el diagrama de dispersión consideremos un ejemplo: En la
siguiente tabla se encuentran tabuladas la vejez (en años desde su publicación) y la frecuencia de
uso (en número de consultas por año) de ocho libros.
Vejez (años ) 1 3 2 4 3 5 4 3
N° de Consultas (por año) 40 18 30 21 26 10 13 35
18
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
N° de consultas al año
35
30
25
20
15 N° de Consultas (por año)
10
5
0
0 2 4 6
Años desde su publicación
Podemos apreciar que a medida que los años de publicación aumentan el número de consultas por
año disminuye. Esto nos habla de una relación inversa entre las variables (crece una y disminuye la
otra).
Podemos pensar en este otro ejemplo: En un negocio de equipos de telefonía móvil se han utilizado
comerciales de televisión los fines de semana y se ha determinado el volumen de ventas en cientos
de dólares. Los datos son los siguientes:
N° de comerciales 2 5 1 3 4 1 5 3 4 2
Volumen de ventas 50 57 41 54 54 38 63 48 59 46
Volumen de ventas
70
60
Ventas en cientos de u$s
50
40
30
20
10
0
0 1 2 3 4 5 6
N° de comerciales
Entre estas variables la relación es positiva o directa, ya que al aumentar una de las variables
aumenta el valor de la otra también.
Ejercicios
1) En un grupo de 80 profesionales inscriptos en un curso de posgrado de “Metodología de
investigación en economía” 50 eran hombres. Del grupo de mujeres, 18 eran solteras, y de los
hombres, 22 son solteros. Realice con estos datos una tabla de contingencia y un diagrama de
19
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
barras de la variable “Género”. Responde: ¿Qué porcentaje de los profesionales inscriptos son
varones? ¿Qué porcentaje de las mujeres son casadas? ¿Qué porcentaje de los casados son varones?
2) Un grupo de 50 empresas fueron calificadas por un ente nacional de acuerdo a la consistencia entre
la calidad de su producto y el precio de los mismos. Los puntajes varían de 0 a 50, los obtenidos
fueron: 31, 24, 33, 42, 27, 22, 29, 25, 33, 38, 40, 28, 31, 30, 37, 29, 26, 35, 41, 37, 28, 22, 40, 29,
24, 43, 42, 37, 32, 20, 30, 34, 29, 26, 45, 21, 27, 30, 37, 38, 44, 43, 40, 29, 20, 38, 36, 32, 26, 40.
Ordénenlos utilizando un diagrama de tallo y hojas. Luego realice una distribución de frecuencias
organizando los datos en intervalos.
3) En la siguiente tabla se presentan datos relativos al número de semanas de experiencia en un
empleo que implica la conexión de componentes electrónicos en miniatura y al número de
componentes que fueron rechazados durante la semana siguiente en el caso de 12 trabajadores.
Realice un diagrama de dispersión y determine qué tipo de relación guardan las variables. Extraiga
conclusiones.
Semanas de experiencia 7 9 6 14 8 12 10 4 2 11 1 8
N° de rechazos 26 20 28 16 23 18 24 26 38 22 32 25
4) En la siguiente tabla se presentan los datos muestrales relativos al número de horas de estudio fuera
de clase durante un período de tres semanas de alumnos de un curso de estadística aplicada y sus
calificaciones en el examen final de ese período. Elabore un diagrama de dispersión para estos
datos y observe si hay relación directa o inversa. Extraiga conclusiones al respecto.
Horas de estudio 20 16 34 23 27 32 18 22
Calificación obtenida 64 61 84 70 88 92 72 77
5) En el mes de abril del año 2014 un periódico muy conocido realizó una encuesta a 1120 jóvenes de
14 a 24 años y 900 adultos de más de 25 años sobre su opinión respecto al nivel educativo en
nuestro país tanto del nivel primario como el secundario. Las respuestas se encuentran tabuladas de
la siguiente manera:
Primaria- Primaria- Secundaria- Secundaria- TOTAL
Baja Alta Baja Alta
Jóvenes 290 310 321 199 1120
Adultos 194 212 328 166 900
TOTAL 484 522 649 365 2020
Responda: ¿qué porcentaje de jóvenes piensa que el nivel de la primaria es alto? ¿Qué porcentaje
del total son adultos que piensan que el nivel de la secundaria es bajo? ¿Qué porcentaje de los que
piensan que el nivel de la primaria es bajo son adultos? ¿Qué porcentaje del total son adultos que
piensan que el nivel de la secundaria es alto?
20
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Unidad 3: Medidas
“El objetivo de la ciencia, y por lo tanto del conocimiento científico, es el desarrollo de explicaciones
de la realidad mediante una estrategia metodológica o método que permita verificar de forma fiable la
validez de la explicación postulada” (Ramos, Catena y Trujillo, 2004:25)
Medir es el proceso por el cual se asignan números o símbolos a atributos de entidades del mundo real
de tal forma que los describa de acuerdo con reglas que son previamente definidas.
Cuando en Estadística hablamos de medir estimamos la proporción entre la dimensión o suceso de un
objeto y una determinada unidad de medida. Constituye una importante parte de la medición la
determinación del error o estimación del error cometido.
Cuando medimos variables cuantitativas como número de personas, altura, peso, etc, es fácil de pensar
el concepto de medición porque lo tenemos íntimamente más asociado a los números.
Medir no es sólo concentrarnos en variables numéricas, ya que podemos “medir” variables cualitativas
pudiendo así describirlas, calculando un valor que represente los datos y nos arroje la información que
necesitamos.
Dentro de las medidas hablamos de dos grandes grupos: las de posición y las de dispersión.
Medidas de posición
Una medida de posición es un valor calculado de un grupo de datos que sirve para describir a éstos de
alguna manera. Lo común es que nos interese que este valor sea representativo de todos los valores del
grupo, motivo por el cual es el desear cierto tipo de promedio. En sentido estadístico, un promedio es
una medida de tendencia central de una serie de valores. En esta parte trataremos de los diversos
procedimientos estadísticos relativos a las medidas de posición en general. Comenzaremos viendo
dentro de las medidas de posición, las de tendencia central que, como su nombre lo indica, son
aquellas que localizan de diferentes formas un valor central en el conjunto de valores dados.
1. Media
La media aritmética es la medida de tendencia central más conocida. La mayor parte de la gente la
llama promedio. Se puede utilizar sólo con variables cuantitativas en las cuales las escalas de
medición utilizadas son la intervalar o de razón. Esto se debe a que en su cómputo es necesario usar
la suma y la división y estas operaciones sólo se pueden hacer con valores numéricos.
Cuando se trata de la media de una población se utiliza como símbolo una letra griega μ (“mu”) y
cuando es de una muestra se emplea el símbolo x
La media corresponde a la suma de todas las observaciones dividida por el número de
observaciones. Esto escrito en una fórmula es:
x
x i
n
Donde x i es cada uno de los valores y “n” es el número total de observaciones.
Consideremos que en el primer año de la facultad se inscriben 220 alumnos que son distribuidos en
cinco grupos. El primer grupo tiene 46 alumnos, el segundo 54, el tercero 42, el cuarto 46 y el
quinto 32. El número promedio de alumnos por curso es:
x
x i
46 54 42 46 32
44
n 5
Una característica distintiva de la media es que la suma de desviaciones respecto de ella es igual a
cero. O sea si restamos la media de cada valor del grupo de datos y lo sumamos esto va a dar cero.
21
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
x i
x 46 44 54 44 42 44 46 44 32 44 0
Por esta razón se dice que la media es el centro de gravedad de los datos.
Además observe que, si uno de los datos es muy diferente del resto, por este motivo antes
descripto, la media se correrá hacia el valor más alto y dejará de ser representativo del conjunto.
Por ejemplo, suponga que la distribución de alumnos en grupo se hace así: 82, 30, 36, 38 y 34, la
media es:
x
x i
82 30 36 38 34
44
n 5
En este caso la mayoría de los grupos tiene menos de 44 alumnos por lo tanto este valor no es
representativo de la realidad.
Media para datos agrupados
Si los datos se encuentran agrupados en intervalos, como ya hemos visto antes, se procede de
diferente manera, ya que al agrupar los datos en intervalos, los mismos se dejan de lado y se sigue
trabajando con la tabla de frecuencias.
En este caso para calcular la media utilizamos una fórmula en la cual interviene el punto medio de
cada intervalo como representativo de todos los datos de dicho intervalo.
Consideremos por ejemplo que se realizó una entrevista para determinar las edades de los
televidentes en una franja horaria de 18 a 20 horas y se agruparon los datos de 10 en 10.
Por ejemplo, en el segundo intervalo hay 80 datos lo que quiere decir que en la muestra hay 80
personas que tienen edades entre 20 y 29. Al tomar el punto medio de ellos (24,5) consideraremos
que los 80 datos de ese intervalo son todos iguales a 24,5 y de esta manera compensamos las
diferencias pues sabemos que habrá algunos menores y otros mayores que este.
Edad (años) f
20 a 29 35
30 a 39 80
40 a 49 183
50 a 59 124
60 a 69 69
70 a 79 37
80 a 89 6
TOTAL 534
La fórmula que se utiliza para calcular la media en caso de datos agrupados es:
x
(x m .f i )
donde x m es el punto medio del int ervalo
n
Completemos la tabla anterior con los datos necesarios para realizar el cálculo:
Edad (años) f xm x m .f i
20 a 29 35 24,5 857,5
30 a 39 80 34,5 2760
40 a 49 183 44,5 8143,5
50 a 59 124 54,5 6758
60 a 69 69 64,5 4450,5
70 a 79 37 74,5 2756,5
80 a 89 6 84,5 507
TOTAL 534 26233
La media es:
22
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
x
(x m .f i )
26233
49,12 49
n 534
Por lo tanto, la edad promedio de este grupo de televidentes en la franja horaria de 18 a 20 horas es
de 49 años.
2. Media ponderada
La media ponderada o promedio ponderado es una media aritmética en donde cada uno de los
valores se pondera de acuerdo con su importancia en el grupo en general. Las fórmulas de la media
ponderada poblacional y muestral son idénticas:
P x P
P.x
P
En esta fórmula, P es el factor de ponderación.
Por ejemplo, si en el último año fiscal el margen de utilidad de las cuatro líneas de productos de
una compañía fabricante de múltiples bienes fue, línea A, 4,2%; línea B, 5,5%; línea C, 7,4% y
línea D, 10,1%. Si nosotros hacemos el promedio de los márgenes de utilidad, resulta:
x 27, 2% 6,8%
4 4
Pero como se trata de cuatro productos distintos, las ventas de los mismos no son iguales, por lo
que este promedio no es correcto. Ahora hagámoslo ponderado por las ventas, como corresponde:
Línea de producto Margen de utilidad (x) Ventas (P) P.x
A 0,042 $ 30.000.000 $ 1.260.000
B 0,055 $ 20.000.000 $ 1.100.000
C 0,074 $ 5.000.000 $ 370.000
D 0,101 $ 3.000.000 $ 303.000
TOTAL $ 58.000.000 $ 3.033.000
P x P
P.x 3.033.000 0,052 5,2%
P 58.000.000
Que es el margen promedio de utilidad según las ventas de los distintos productos.
Si los datos están agrupados, deberá tenerse en cuenta el total del factor de ponderación por
intervalo y el valor de x será reemplazado por el punto medio del intervalo.
3. Mediana
La mediana se utiliza principalmente con variables ordinales y junto con la moda son las únicas dos
medidas de tendencia central que se puede usar con variables cualitativas.
La mediana se define como la puntuación que queda en el medio exacto de la distribución. En
términos visuales corresponde a la puntuación en el mero medio, después que todas las
puntuaciones han sido colocadas en orden (ascendente o descendente).
El método para determinar la mediana en el caso de variables numéricas depende de si el número
de observaciones es par o impar. Si hay un número impar de observaciones, la mediana
corresponde al valor que se encuentra en el medio. Pero si el número de observaciones es par,
entonces se toman los dos valores que se hallan en el medio de la distribución, se suman y se divide
entre dos. Cuando el número de observaciones es impar, la mediana corresponde a un valor de la
distribución. Cuando el número de observaciones es par, la mediana no es necesariamente un valor
de la distribución. Los empates cuentan como puntuaciones diferentes.
Por ejemplo:
23
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Donde:
Li: Es el límite exacto inferior del intervalo que contiene la mediana. Este límite es el exacto.
En caso de que los intervalos estén escritos de manera que el número en que termina un
intervalo es el mismo en el que comienza el siguiente, dicho valor es el límite inferior exacto.
Si fuera que el número donde termina el intervalo anterior no es el mismo donde comienza el
siguiente, por ejemplo un intervalo es de 20 a 29 y el próximo es de 30 a 39, el límite inferior
exacto de este último es 29,5 que es el promedio entre el valor en el que termina el anterior y el
que comienza este.
n : Es el número total de datos de la distribución
Fant : Es la frecuencia acumulada del intervalo anterior al que contiene la mediana
fi : es la frecuencia absoluta del intervalo que contiene la mediana
w: es el ancho del intervalo
Veamos el cálculo de la mediana en el ejemplo utilizado antes para la media:
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Para determinar el intervalo que contiene la mediana buscamos el intervalo que contiene el valor
central. Si hay 534 datos, el valor central ocupa la posición 267 (534/2). Mirando la columna de la
frecuencia acumulada podemos ver que en el primer conjunto hay 35 datos (del 1 al 35), en el
segundo intervalo llegamos al dato 115, o sea que hay 80 datos que son del 36 al 80, en el tercero
llegamos al dato 298 (del 80 al 298) por lo tanto el dato 267 se encuentra en el tercer intervalo.
Marcamos el intervalo porque de el dependen los valores que vamos a tomar en la fórmula.
24
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
0, 5.n Fant
Me Li .w
fi
0, 5.534 115
Me 39, 5 .10 39, 5 0, 83.10 47, 8
183
4. Moda
La moda es la medida de tendencia central más fácil de determinar. Corresponde a la categoría o
valor de la variable que más se repite. Se utiliza mayormente en variables cualitativas pues puede
ser calculada en cualquiera de ellas y es la única que se puede tomar en el caso de variables
cualitativas nominales.
Puede ocurrir que no haya moda o que haya más de una.
Ejemplos:
• Si los datos son 2, 3, 4, 4, 5, 8, 12 la moda es 4
• Si los datos son 2, 3, 3, 4, 5, 5, 12 hay dos modas, 3 y 5, se dice que es bimodal
• Si los datos son 2, 3, 5, 6, 8 y 9 no hay moda
• Si los datos son malo, malo, regular, bueno, bueno y bueno la moda es bueno
• Si los datos son: matemática, física, lengua, matemática y química la moda es matemática.
Datos agrupados
En este caso, al igual que los anteriores, se trabaja con una fórmula que es la siguiente:
ant
Mo Li .w
ant post
Donde
Li : límite exacto inf erior del int ervalo que contiene la mod a
ant : diferencia entre frecuencia del int ervalo y el anterior
post : diferencia entre frecuencia del int ervalo y el siguiente
w : ancho del int ervalo
Para seleccionar en la tabla de frecuencias cuál es el intervalo en el cual se encuentra la mediana,
simplemente y acorde a su definición señalamos el intervalo que tiene mayor frecuencia.
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Aplicamos la fórmula
ant 103
Mo Li .w 39, 5 .10 39, 5 0, 63.10 45, 8
ant post 103 59
25
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
No, lo hago
solo
25%
Realice un cuadro y complete una distribución de frecuencia con las absolutas, relativas y
porcentuales. ¿Cuál es la medida de tendencia central que puede calcular en este caso? ¿cuál es
su valor?
2) Los siguientes son las edades de un grupo de asistentes a una charla sobre economías
regionales: 25, 52, 45, 43, 34, 39, 63, 51, 29, 56. Calcule la media, la mediana y la moda. Diga
qué tipo de simetría tienen estos datos. Exprese el resultado obtenido.
3) En una muestra de 20 obreros de una compañía se obtuvieron los siguientes montos netos de
pago tras deducciones en una semana dada, redondeados al peso más cercano y dispuestos en
orden ascendente: 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2400, 2550, 2550, 2650, 2650,
2800, 2800, 2900, 3000, 3050, 3250, 3300, 3400. Calcule la media, mediana y moda de este
grupo de salarios.
4) Un experto en normas laborales observa, en una muestra, la cantidad de tiempo requerida para
la elaboración de 10 cartas comerciales en una oficina, con los siguientes resultados, enlistados
en orden ascendente de acuerdo con el minuto más cercano: 5, 5, 5, 7, 9, 14, 15, 15, 16, 18.
Determine la media, mediana y moda de este grupo de valores.
5) De acuerdo a la siguiente tabla, determine el porcentaje global de artículos defectuosos
ensamblados durante la semana muestreada según el turno correspondiente:
Turno Porcentaje de artículos Número de artículos en
defectuosos (x) miles (P)
1 1,1 210
2 1,5 120
3 2,3 50
26
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Rta.: 1,4%
6) Se realizó una investigación sobre un grupo de 50 hogares que alquilan una vivienda. Entre los
datos considerados fue el importe de dicho alquiler. Los resultados fueron los siguientes:
Complete el cuadro de frecuencias. Calcule la media, mediana y moda de los datos. Determine
la simetría de los datos sin graficar.
7) Supongamos que los precios al por menor de artículos seleccionados de los que componen el
grupo de productos que indica el IPC (índice de precios al consumidor) aumentaron sus precios
este mes como lo indica la tabla siguiente. Determine el cambio porcentual medio en precios al
por menor conforme a los gastos promedio por mes que se registraron en dichos productos en
una muestra de 100 hogares.
Artículo Incremento Gasto promedio al mes en el
porcentual producto (antes del aumento)
Carne 3,2 $ 300.000
Leche 1,8 $ 25.000
Ropa 8,2 $ 15.000
Nafta 5,1 $ 550.000
8) En la siguiente tabla se encuentran tabulados los días que se tardó en realizar una auditoría a
distintos tipos de empresas
27
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Q1 : primer cuartil
Q2 : segundo cuartil (coincide con la mediana)
Q3 : tercer cuartil
En caso de ser datos sueltos los cuartiles se pueden calcular encontrando cuál es la posición que
ocupan dentro de la lista de datos, obviamente ordenados de menor a mayor. Esto se puede hacer
de la siguiente forma:
n 1
Q1 : primer cuartil en la posición
4
2 n 1
Q2 : segundo cuartil en la posición
4
3 n 1
Q3 : tercer cuartil en la posición
4
Tenga en cuenta que si el resultado de la fórmula nos da un número entero nos indica exactamente
cuál es la posición del dato. En caso de que nos dé un número decimal con primer decimal 5, el
cuartil correspondiente se encuentra entre dos datos. Por ejemplo, si el primer cuartil nos da en la
posición 7,5 quiere decir que es el número que se encuentra entre el dato 7 y el dato 8. Dicho valor
se encuentra como promedio entre los dos.
Veamos un ejemplo. Consideremos que se tabularon las edades de un grupo de 12 estudiantes de
nivel medio y los resultados fueron: 12, 13, 15, 15, 15, 16, 17, 17, 17, 18, 18, 19. Calculamos los
cuartiles:
n 1 12 1
Q1 : primer cuartil en la posición 3, 25 3
4 4
2 n 1 2.(12 1)
Q2 : segundo cuartil en la posición 6, 5
4 4
3 n 1 3.(12 1)
Q3 : tercer cuartil en la posición 9, 75 10
4 4
Esto quiere decir que el primer cuartil es el dato que ocupa la tercera posición, el segundo cuartil
(coincide con la mediana) es el número que se encuentra en medio del sexto y séptimo dato y el
tercer cuartil es el dato que se encuentra en la décima posición. Por lo tanto se calcula así:
12 13 15 15 15 16 17 17 17 18 18 19
En caso que los datos estén agrupados se procede, al igual que la mediana, con una fórmula que es
la siguiente:
0, 25.k.n Fant
Q k Li .w
fi
Tomemos el mismo ejemplo que vimos en las medidas de tendencia central:
Edad (años) f F
20 a 29 35 35
28
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Para determinar en qué intervalo se encuentra el cuartil que buscamos lo que debemos calcular es
la primera parte de la fórmula que se encuentra entre corchetes, o sea : 0,25.k.n y ese número nos
dirá en forma aproximada qué ubicación tiene el dato que buscamos. Con este valor y utilizando, al
igual que hicimos para calcular la mediana, la frecuencia acumulada, determinamos el intervalo
que lo contiene. Por ejemplo, en este caso:
Primer cuartil: 0,25.1.534 = 133,5 o sea que se encuentra en el intervalo de 40 a 49 años
Tercer cuartil: 0,25.3.534 = 400,5 o sea que se encuentra en el intervalo de 50 a 59 años
Aplicamos la fórmula para calcularlos:
0, 25.534 115
Q1 39, 5 .10 39, 5 0,10.10 40, 5
183
0, 25.3.534 298
Q3 49, 5 .10 49, 5 0, 83.10 57, 8
124
Interpretamos estos valores de la siguiente forma: El 25% de los televidentes que miran programas
de TV en la franja horaria de 18 a 20 horas tiene 41 años o menos (aproximamos el valor 40,5 al
siguiente), mientras que el 75% de dichos televidentes tiene 58 años o menos.
2. Deciles: Estos valores, al igual que los anteriores, son medidas de posición. En este caso dividimos
al total de datos en 10 grupos iguales. Los deciles son llamados de la siguiente forma:
D1 : primer decil
D2 : segundo decil
..................
D9 : noveno decil
Estos valores pueden ser calculados para datos sueltos, calculando la posición que ocupa dicho
valor. En este caso, las fórmulas son las siguientes:
n 1
D1 : primer decil en la posición
10
2 n 1
D2 : segundo decil en la posición
10
...........
k n 1
D k : k ésimo decil en la posición
10
Si tomamos el mismo ejemplo que para los cuartiles, o sea las edades de un grupo de adolescentes
que concurre al nivel medio, cuyos valores son 12 13 15 15 15 16 17 17 17 18 18 19,
calculamos algunos deciles por ejemplo:
n 1 12 1
D1 : primer decil en la posición 1, 3 1
10 10
4 n 1 4.(12 1)
D 4 : cuarto decil en la posición 5, 2 5
10 10
8 n 1 8.(12 1)
D8 : octavo decil en la posición 10, 4 10
10 10
29
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
El 10% de los datos (primer decil) tiene edades de 12 años o menos ya que es el dato que se
encuentra en la primera posición. El 40% de los adolescentes tiene 15 años o menos (es el dato que
se encuentra en la quinta posición) Por último podemos afirmar que el 80% de los adolescentes
tiene edades de 18 años o menos pues es el dato que se encuentra en la décima posición.
Respecto a datos agrupados se trabaja con la fórmula:
0,10.k.n Fant
D k Li .w
fi
Tomemos el mismo ejemplo que vimos en las medidas de tendencia central:
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Para determinar en qué intervalo se encuentra el decil que buscamos lo que debemos calcular es la
primera parte de la fórmula que se encuentra entre corchetes, o sea : 0,10.k.n y ese número nos
dirá en forma aproximada qué ubicación tiene el dato que buscamos. Con este valor y utilizando, al
igual que hicimos para calcular la mediana, la frecuencia acumulada, determinamos el intervalo
que lo contiene. Por ejemplo, en este caso:
Primer decil: 0,10. 1. 534 = 53,4 o sea en el segundo intervalo
Cuarto decil: 0,10. 4 .534 = 213,6 o sea en el tercer intervalo
Noveno decil: 0,10. 9. 534 = 480,6 o sea en el quinto intervalo
Aplicamos las fórmulas y resultan los siguientes valores:
0, 10.1.534 35
D1 29, 5 .10 29, 5 0, 23.10 31, 8 32
80
0,10.4.534 115
D 4 39, 5 .10 39, 5 0, 54.10 44, 9 45
183
0,10.9.534 422
D9 59, 5 .10 59, 5 0, 85.10 67, 9 68
69
El 10% de los televidentes tienen edades de 32 años o menos, o sea de 20 a 32 años. El 40% de los
televidentes tienen edades de 20 a 45 años y el 90% de los televidentes edades de 20 a 68 años.
3. Percentiles y rango percentil.
El percentil es una puntuación o dato en el cual o por debajo del cual se encuentra un porcentaje
específico de la distribución. El percentil “n” es el dato por debajo del cual, incluyéndose, se
encuentra el n por ciento de la población.
Los percentiles se utilizan a menudo cuando se informan las puntuaciones en las pruebas
estandarizadas. Le permiten al examinado determinar qué porcentaje de la población de
examinados se encuentra por debajo de él. Consideremos las notas de un grupo de 180 estudiantes:
NOTA f F NOTA f F
55 1 1 80 11 92
56 1 2 81 7 99
57 0 2 82 3 102
58 0 2 83 6 108
30
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
59 0 2 84 7 115
60 1 3 85 7 122
61 1 4 86 12 134
62 0 4 87 14 148
63 2 6 88 6 154
64 3 9 89 2 156
65 1 10 90 3 159
66 2 12 91 2 161
67 4 16 92 1 162
68 5 21 93 3 165
69 4 25 94 5 170
70 3 28 95 4 174
71 4 32 96 2 176
72 5 37 97 0 176
73 5 42 98 1 177
74 4 46 99 2 179
75 4 50 100 1 180
76 7 57 TOTAL 180
77 9 66
78 7 73
79 8 81
Por ejemplo, si buscamos el percentil 20 buscamos el valor por debajo del cual se encuentra el 20%
de los datos. Podemos buscar su posición, con lo cual trabajamos con fórmulas parecidas a las de
los cuartiles y deciles pero de esta forma:
k(n 1)
xk
100
En este caso, para hallar el percentil 20 buscamos la posición del dato de la siguiente forma:
20(180 1)
x 20 36, 2 36
100
Para identificar el dato 36 nos fijamos en las frecuencias acumuladas, con lo cual determinamos
que es la nota 72. O sea que el 20% de los estudiantes obtuvo una nota inferior o igual a 72.
Como ejemplo calculemos un par de percentiles mas:
50(180 1)
P50 x 50 90, 5 entre el dato 90 y 91 o sea P50 80
100
80(180 1)
P80 x 80 144, 8 145 o sea P80 88
100
Por lo tanto el 50% de los alumnos obtuvo notas inferiores o iguales a 80 y el 80% de los alumnos
obtuvo notas iguales o inferiores a 88.
El rango percetil es la posición que ocupa un dato. El rango percentil de un valor dado se determina
hallando el por ciento de datos con valores iguales o inferiores al dato dado.
Por ejemplo el rango percentil de 65 que es el dato número 10 es:
180 100%
10 x%
10.100%
x 5, 6%
180
Por lo tanto el 5,6% de los datos es igual o inferior a 65.
31
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Si los datos son acumulados, la fórmula que se utiliza es similar a la que vimos para el caso de las
dos medidas anteriores:
0, 01.k.n Fant
Pk Li .w
fi
Por ejemplo, vamos a considerar nuevamente la distribución de datos correspondientes a las edades
de un grupo de televidentes que tomáramos en los dos casos anteriores y calculemos dos
percentiles como ejemplo:
Edad (años) f F
20 a 29 35 35
30 a 39 80 115
40 a 49 183 298
50 a 59 124 422
60 a 69 69 491
70 a 79 37 528
80 a 89 6 534
TOTAL 534
Vamos a calcular el percentil 35 y el percentil 82 por ejemplo. Para ubicar el intervalo en el cual se
encuentra cada uno hacemos el cálculo del primer sumando del numerador del corchete. O sea
0,01 . 35 . 534 = 186,9 buscamos el dato 187 que se encuentra en el tercer intervalo
0,01 . 82 . 534 = 437,9 buscamos el dato 438 que se encuentra en el quinto intervalo
0, 01.35.534 115
P35 39, 5 .10 39, 5 0, 39.10 43, 4 43
183
0, 01.82.534 422
P82 59, 5 .10 59, 5 0, 23.10 61, 8 62
69
Lo interpretamos diciendo que el 35% de los televidentes tiene edades inferiores o iguales a 43
años mientras que el 82% de los televidentes tiene edades inferiores o iguales a 62 años.
Para calcular el rango percentil de un dato en particular, la fórmula que aplicamos es la siguiente:
x Li
Fant w .f i
RPk .100%
n
Calculemos por ejemplo el rango percentil correspondiente a la edad de 52 años:
52 49, 5
298 10
.124
298 0, 25.124 298 31
RP52 .100% .100% .100% 61, 6%
534 534 534
Por lo tanto el 61,6% de los televidentes tiene edades iguales o inferiores a 52 años, o sea entre 20
y 52 años.
Ejercicios
1) Considere los ejercicios 2 al 6 de las medidas de tendencia central y calcule en cada uno de ellos
los cuartiles 1 y 3, los deciles 4, 6 y 9 y los percentiles 32 y 78. Interprete los valores hallados.
Calcule en el caso del ejercicio 5 el rango percentil del valor $ 6000 de alquiler.
32
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Medidas de dispersión
Este grupo de medidas nos da una idea en cuanto a lo disperso o no que se encuentran los datos entre
sí. Puede ocurrir que todos los datos sean relativamente cercanos entre si y por lo tanto al valor central,
como puede suceder también que se haya datos muy alejados respecto del valor central. Veremos el
rango o amplitud, el rango o amplitud intercuartil, la varianza y el desvío estándar.
1. Rango o amplitud
Esta medida se calcula sólo sobre variables numéricas. Es la medida de dispersión más fácil de
obtener y ya la hemos utilizado al construir intervalos. Es la diferencia entre el valor máximo y
mínimo.
Consideremos un grupo de 18 estudiantes que realizó una tarea que se puntúa de 1 a 10 y
obtuvieron las siguientes notas: 6, 2, 4, 4, 7, 3, 6, 7, 7, 5, 6, 5, 6, 5, 6, 1, 7, 3. Buscamos el mayor
dato que es 7 y el menor que es 1. Por lo tanto el rango es:
R=7–1=6
Esto quiere decir que la totalidad de datos se distribuye entre 6 unidades.
2. Rango o amplitud intercuartil
Es la diferencia entre el tercer y el primer cuartil. Si tomamos los datos anteriores debemos primero
ordenarlos de menor a mayor y buscar el primer y tercer cuartil.
1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7
Calculemos la posición que corresponde al primer y tercer cuartil.
1.(18 1)
x1 4, 75 5 Q1 4
4
3.(18 1)
x3 14, 25 14 Q3 6
4
Rango int ercuartil IQ 6 4 2
3. Varianza
La varianza de un grupo de observaciones indica la dispersión de esos valores alrededor de la
media. Siendo más precisos, la varianza es el promedio de los cuadrados de las diferencias entre
cada observación y la media. Si los datos son sueltos se calcula de la siguiente forma:
x
2
i x
2
n
Tomando el ejemplo anterior, primero calculamos la media de los valores sumándolos y
dividiéndolos por 18 que es la cantidad de datos y luego la varianza:
1 2 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 7
x 5
18
x
2
i x (1 5)2 (2 5)2 2.(3 5)2 2.( 4 5)2 3.(5 5)2 5.(6 5)2 4.(7 5)2
2 3,11
n 18
Observe que en el caso del 3, 4, 5, 6 y 7 se utilizó un factor multiplicando el paréntesis porque, por
ejemplo, el 5 se repite 3 veces y en lugar de escribir 3 veces el paréntesis se lo multiplica por 3.
La letra que indica la varianza “σ” se denomina sigma y se utiliza cuando los datos corresponden a
una población. Si se tratara de una muestra se usa la letra “s” y la fórmula cambia a la siguiente:
f . x x
2
i m
s2
n 1
33
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Para poder calcularla hay que completar la tabla de frecuencias como veremos siguiendo el mismo
ejemplo que hemos tomado correspondiente a las edades de los televidentes de una franja horaria
de 18 a 20 horas
Edad (años) f xm x x
m
x x
2
m
f x x
i
2
m.
20 a 29 35 24,5 -24,5 600,25 21008,75
30 a 39 80 34,5 -14,5 210,25 16820
40 a 49 183 44,5 -4,5 20,25 3705,75
50 a 59 124 54,5 5,5 30,25 3751
60 a 69 69 64,5 15,5 240,25 16577,25
70 a 79 37 74,5 25,5 650,25 24059,25
80 a 89 6 84,5 35,5 1260,25 7561,50
TOTAL 534 93483,50
f . x x
2
i m
93483, 50
s2 175, 39
n 1 533
4. Desvío estándar
El estadístico más ampliamente utilizada para describir la dispersión de una distribución es el
desvío estándar. El desvío es la raíz cuadrada positiva de la varianza. Por lo tanto es
aproximadamente el promedio de las diferencias entre las observaciones y la media.
En el caso anterior, si se trata de una población como la de notas, el desvío estándar es:
3,11 1, 76
Esto lo interpretamos diciendo que la distancia promedio de los datos de la población de notas a la
media que es 5, es de 1,76.
En el caso de los datos agrupados resulta:
175, 39 13, 24
O sea que la diferencia promedio de las edades de los televidentes de la muestra respecto de la
media de 49 años es 13,24.
Ejercicios
1) Considere los ejercicios 2 y 3 de las medidas de tendencia central y calcule en cada uno de ellos la
varianza y el desvío estándar. Interprete los valores hallados. Calcule el rango intercuartil.
2) Los resultados de un test de aptitud tomado a un grupo de 100 personas arrojó los siguientes datos:
Edad (años) f
0,5 a 5,5 7
5,5 a 10,5 12
10,5 a 15,5 21
15,5 a 20,5 32
20,5 a 25,5 28
TOTAL 100
Calcule la varianza y el desvío estándar. Interprete ambos valores. Calcule el rango intercuartil.
Diagrama de caja
34
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Es una gráfica que describe la distribución de un conjunto de datos en referencia a los valores de los
cuartiles como medidas de posición el valor del rango intercuartil como medida de referencia de la
variabilidad. Para su construcción veamos el siguiente indicativo y luego lo haremos con los ejemplos
que venimos siguiendo en la teoría de las medidas de variabilidad.
Me
1,5.IQ 1,5.IQ
IQ
3.IQ 3.IQ
Consideremos el caso de las notas. La mediana es 5,5 pues al ser 18 datos es el punto medio entre el
dato que ocupa la posición 9 y el que ocupa la posición 10 que son un 5 y un 6. Los cuartiles son 4 y
6. Al calcular la longitud de los brazos o sea la distancia de la caja a la barrera interna es 2 . 1,5 = 3 y
la distancia a la barrera externa es 3.2 = 6.
El diagrama de caja que verá a continuación está generado con el software estadístico SPSS que
siempre lo ubica en forma vertical:
35
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Como puede apreciar, en el diagrama los brazos van hasta la barrera interna. Cualquier dato que
quedara fuera de esos brazos habría que ver si están dentro de las barreras externas, sino serán
considerados anómalos.
Todos los datos de este ejercicio se encuentran dentro de las barreras internas.
36
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Respecto del tema de probabilidad vale aclarar que sólo daremos conceptos básicos necesarios para
abordar el tema que nos interesa de esta unidad.
La probabilidad está relacionada con un conjunto de experimentos denominados experimentos
aleatorios que son aquellos en los cuales no podemos predecir en forma exacta el resultado que vamos
a obtener pero si sabemos que el mismo estará dentro de un conjunto conocido. Por ejemplo, si tiramos
un dado no sabemos qué número nos va a salir, pero si sabemos que será un número del 1 al 6. Este es
un experimento aleatorio. El conjunto de resultados posibles se denomina espacio muestral y
habitualmente se lo denomina con la letra S. En este caso el espacio muestral es: S 1, 2, 3, 4, 5, 6 .
Todo subconjunto de este espacio muestral son denominados sucesos y se denominan con letras
mayúsculas como A, B, C, etc. Por ejemplo:
A: lanzamos un dado y obtenemos un número par
B: lanzamos un dado y obtenemos un número impar
C: lanzamos un dado y obtenemos un número menor que 5
Los conjuntos de resultados posibles de cada uno de ellos son:
A 2, 4, 6
B 1, 3, 5
C 1, 2, 3, 4
El concepto a priori de probabilidad dice que la probabilidad de que ocurra un suceso cualquiera es el
cociente entre el número de maneras diferentes en que puede ocurrir el suceso y el número total de
resultados posibles. Por ejemplo, en el caso del suceso A, el número de maneras diferentes en que
salga un número par en el dado es 3 (el 2, 4 o 6) y el número total de resultados posibles del dado es 6,
por lo tanto la probabilidad de que salga un número par en el dado es:
3
p 0, 5
6
Vale aclarar que la probabilidad siempre es un número positivo ya que tanto numerador como
denominador son cantidades de elementos en un conjunto y no pueden tomar valores negativos. Por
otro lado el numerador siempre es menor o a lo sumo igual que el denominador, por lo tanto es un
número entre 0 y 1.
De igual manera podemos calcular la probabilidad de los otros dos sucesos.
Veamos un ejemplo a través de una tabla de contingencia que vimos en la segunda unidad.
Primaria- Primaria- Secundaria- Secundaria- TOTAL
Baja Alta Baja Alta
Jóvenes 290 310 321 199 1120
Adultos 194 212 328 166 900
TOTAL 484 522 649 365 2020
Podemos calcular algunas probabilidades. Por ejemplo, si de este grupo de 2020 encuestados se elige
uno al azar:
a) ¿cuál es la probabilidad de que sea un joven?
b) ¿cuál es la probabilidad de que considere que el nivel de secundario es bajo?
c) ¿Cuál es la probabilidad de que sea un adulto que considera que el nivel de primaria es alto?
d) ¿Cuál es la probabilidad de que siendo un joven considere que la primaria tiene nivel bajo?
37
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
e) ¿Cuál es la probabilidad de que habiendo considerado que la secundaria tiene nivel alto sea un
adulto?
Distribuciones de probabilidad
Una distribución de probabilidad es una lista o tabla que incluye todos los posibles resultados de un
suceso y su probabilidad. Si la variable es discreta y finita esto se puede hacer sin problema. En
caso de que la variable sea continua (y toma todos los valores decimales entre dos valores dados) el
número de resultados posibles es infinito y por lo tanto no puede construirse esta tabla, sino que la
misma ya viene calculada y las que vamos a utilizar se encuentran al final del apunte como anexo.
Por ejemplo, si volvemos al caso del dado, la distribución de probabilidad es:
Resultado p
1 0,167
2 0,167
3 0,167
4 0,167
5 0,167
6 0,167
TOTAL 1
Consideremos por ejemplo el espacio muestral de tirar dos veces una moneda. Llamando C al
resultado cara y X al resultado ceca o cruz, el espacio muestral es: S CC,CX,XC,XX . La
distribución de probabilidad es:
Resultado p
CC 0,25
CX 0,25
XC 0,25
XX 0,25
38
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
TOTAL 1
Por ejemplo, se puede pedir la probabilidad de sacar una cara, en cuyo caso será la suma del
segundo y tercer caso o sea 0,5, o que no salga ninguna cruz, en cuyo caso es el primer caso, 0,25.
Modelos matemáticos
Estas distribuciones de probabilidad que estábamos viendo surgen de observaciones o de
fenómenos cuyas leyes se conocen bien como en el caso de los dados. Cuando el fenómeno se ha
observado cuidadosamente se puede crear un modelo matemático que lo describe. Esta es la
función más importante de las matemáticas, facilitar el estudio de la naturaleza con modelos que la
interpretan. Estos modelos o funciones cuando estudian la distribución de probabilidad se llaman
Funciones de distribuciones de probabilidad. Hay modelos para variables discretas y otros para
variables continuas. A nosotros nos interesa particularmente estudiar los modelos binomial y
Poisson para variables discretas y Normal para variables continuas.
1. Distribución binomial
Este modelo corresponde a los experimentos en los cuales las observaciones son independientes
unas de otras, cada resultado puede clasificarse como éxito o fracaso y además la probabilidad
de éxito no cambia de una a otra observación. Por ejemplo, es un experimento binomial arrojar
un dado y ver la probabilidad de que salga un 3 o un 5. En este caso la probabilidad de éxito es
2/6 y la de fracaso 4/6. Si volvemos a arrojar el dado las probabilidades de sacar 3 o 5 sigue
siendo la misma al igual que la de fracaso. Además el experimento de arrojar un dado no tiene
memoria, lo cual hace que sean independientes, o sea, si sale un 3 en una primera tirada,
cuando tiramos de nuevo puede volver a salir el 3, el dado no tiene memoria.
Las probabilidades en este caso responden a una fórmula que está relacionada con el binomio
de Newton, de allí su nombre de “binomial”. Consideremos un ejemplo para poder entender
cómo deducimos esta fórmula.
Supongamos que una moneda está “cargada” y tiene el doble de probabilidad de salir cara que
de salir ceca. Por este motivo, deducimos que las probabilidades de cada uno de los resultados
posibles es:
P(cara) P(cruz) 1
P(cara) 2.P(cruz)
1
2.P(cruz) P(cruz) 1 3P(cruz) 1 P(cruz) P(X)
3
1 2
P(cara) P(C) 2.
3 3
Si ahora tiramos tres veces la moneda y calculamos la probabilidad de obtener 2 caras en el
lanzamiento, resulta lo siguiente (razonando a partir de un diagrama de árbol)
39
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
C CCC
C
X CCX
C C CXC
X
X CXX
C XCC
C
X XCX
X C XXC
X
X XXX
Vemos en el diagrama que hay tres resultados en los cuales aparecen dos caras, que son CCX,
CXC y XCC. La probabilidad de cada uno de ellos se puede calcular así:
2 2 1 4
P(CCX) . .
3 3 3 27
2 1 2 4
P(CXC) . .
3 3 3 27
1 2 2 4
P(XCC) . .
3 3 3 27
De manera que la probabilidad de obtener dos caras es la suma de las tres halladas, o lo que es
lo mismo el producto de una de ellas por tres ya que son iguales.
4 4 4 12 4
P(2 caras)
27 27 27 27 9
4 12 4
P(2 caras) 3.
27 27 9
Si tenemos en cuenta que en el cálculo de las probabilidades siempre se repitió el mismo
resultado pues se multiplicó dos veces la probabilidad de cara (2/3) y una vez la de cruz (1/3), y
como el producto es conmutativo, sin importar el orden en que salieran las caras y la cruz,
siempre dio el mismo resultado, por lo tanto podemos hallar cada una de ellas como el producto
2 1
2 2 1 2 1
de . . . . Si llamamos p a la probabilidad de cara, considerando que lo que
3 3 3 3 3
buscamos son dos caras, y por eso le llamamos probabilidad de éxito, y llamamos q a la
probabilidad de cruz, llamada probabilidad de fracaso. En este caso resulta:
P(CCX) P(CXC) P(XCC) p2 .q1
Este resultado se repite tres veces porque lo que cambia es la posición de las caras, o sea en
cuál de los tres lanzamientos salen. Estas tres posiciones son el resultado de combinar entre 3
lanzamientos, dos caras. O sea que el número de veces que se obtiene un resultado con dos
3
caras está dado por C3,2 3
2
40
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
x
Y esta es la expresión de un término del desarrollo según el binomio de Newton de la potencia
q p
n
En los ejemplos que trabajamos con Binomial, la media está dada por µ = n.p y el desvío
estándar por n.p.q
En muchos de los ejercicios que realizaremos, para calcular estas probabilidades podemos
hacer uso de una tabla que se encuentra en uno de los anexos. Si no fuera posible su uso porque
los datos del ejercicio no se encuentran en la tabla, debemos usar la fórmula.
Veamos a continuación una página de la tabla para que veas qué datos necesitas conocer para
poder obtener la probabilidad que ya está calculada en la tabla:
Los elementos que intervienen son tres: n, x y p. Con la letra “n” se indica el número de veces
que se repite el experimento, con la letra “x” se indica el número de éxitos esperado en esa
cantidad de veces que se realizó el experimento y “p” es la probabilidad de éxito.
41
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Por ejemplo, supongamos que un vendedor de seguros conoce que la probabilidad de realizar
una venta cuando es recibido en un hogar es de 0,35. Si hoy visitará a 7 familias, ¿cuál es la
probabilidad de realizar 4 ventas?
Miremos en la tabla la columna correspondiente a la probabilidad 0,35, el valor de n es 7 y el
valor de x es 4. La probabilidad que buscamos es 0,1442.
Ejercicios
1) El 15% de los empleados varones de una empresa han solicitado una licencia prolongada
por más de 30 días por razones de salud. Si se elige un grupo de 10 hombres, ¿cuál es la
probabilidad de que ninguno haya solicitado una licencia por más de 30 días? ¿Cuál es la
probabilidad de que más de 3 hayan solicitado la licencia?
2) Por experiencia, se sabe que al realizar una encuesta en un barrio de ciudad y preguntar si la
familia considera necesario cambiar la iluminación del barrio, el 30% responde que sí. Si se
planifica visitar un barrio que tiene 20 viviendas, ¿cuál es la probabilidad de que ninguno
considere necesario cambiar el sistema de iluminación barrial ? ¿Cuál es la probabilidad de
que 5 piensen que es necesario cambiar la iluminación? ¿Cuál es la probabilidad de que 10
o más lo consideren?
2. Distribución de Poisson
Esta distribución se usa para estimar la probabilidad de que un suceso ocurra cierto número de
veces en un determinado espacio continuo (tiempo, superficie, volumen, etc), por ejemplo,
podría ser el número de clientes que ingresa a un negocio en una hora, o el número de árboles
por hectárea, etc. El modelo exige que la probabilidad de ocurrencia es igual en dos intervalos
cualesquiera de igual longitud y que sea independiente de la ocurrencia en otro intervalo.
En este caso para calcular el número de veces que ocurre el hecho discreto dentro del espacio
continuo, se procede calculando un promedio al que llamaremos µ.
Por ejemplo, si deseo saber cuánta gente ingresa a un cajero automático por hora, cuento que de
7 a 8 de la mañana ingresaron 6 personas, de 8 a 9 ingresaron 14 personas, de 9 a 10 ingresaron
18 personas, de 10 a 11 ingresaron 20 y de 11 a 12 ingresaron 7, tenemos que en el lapso de 5
horas que van desde las 7 a las 12 ingresó un total de 65 personas, por lo tanto, en promedio,
ingresaron 13 personas por hora
65
13
5
Luego, si queremos saber la probabilidad de que ingrese un número “x” de personas por hora,
recurrimos a la siguiente fórmula:
e . x
P(X x)
x!
En el caso anterior, por ejemplo, si deseamos saber la probabilidad de que ingresen 9 personas
al cajero en una hora hacemos:
e 13.139
P(X 9) 0,0661
9!
Cabe aclarar que, como µ es un promedio puede a su vez promediarse, o sea, por ejemplo el
número de personas que en promedio entran en 30 minutos será la mitad de 13 o sea 6,5.
Al igual que el caso anterior, existe una tabla que se encuentra como anexo al final.
Veamos una página de la tabla para ver cómo se maneja.
42
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Como puede ver en la tabla sólo hay dos datos, x y μ. El primer valor, “x” es el número de
éxitos esperado en la muestra y el segundo valor “μ” es el promedio de veces que ocurre por
unidad de continuo.
Por ejemplo, si el número promedio de personas que ingresa por hora en un cajero automático
es de 4,6, ¿cuál es la probabilidad de que en una hora determinada ingresen 7 personas? En este
caso μ = 4,6 y x = 7. Buscamos en la tabla el valor que corresponde es 0,0869. Interpretamos
este valor utilizando porcentajes por ejemplo diciendo que el 8,69% de las veces se espera que
en una hora ingresen 7 personas (o sea cada 100 horas se espera que en 8,69 ≈ 9 de ellas
ingresen 7 personas)
Todos los problemas que pueden resolverse con esta distribución, tienen media µ y desvío
estándar
Cabe aclarar que la distribución de Poisson se utiliza también para aproximar la distribución
binomial cuando el número de veces que se repite el proceso es muy grande y la probabilidad
de éxito muy pequeña y cercana a 0. Por ejemplo, si controlamos un grupo de 5000 pacientes
de un hospital entre los cuales sabemos que existe una probabilidad de 0,001 de que un paciente
presente una enfermedad autoinmune en particular. En este caso, si bien es binomial el
problema, lo trabajos con Poisson, sabiendo que la media o promedio es µ = 5000 . 0,001 = 5 y
de allí seguimos con la tabla o fórmula de Poisson.
Ejercicios
1) Si en una empresa envasadora de agua se ha determinado que en promedio 12 bidones por
día resultan con llenado insuficiente, ¿cuál es la probabilidad de que en un día cualquiera se
llenen de manera insuficiente 15 bidones? ¿Cuál es la probabilidad de que en medio día se
hayan llenado en forma insuficiente más de 10 bidones? ¿Cuál es la probabilidad de que en
una de las 12 horas de trabajo de la máquina envasadora, resulten 4 bidones con llenado
insuficiente?
43
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
3. Distribución normal
La distribución normal es el caso que veremos para variables continuas. En este caso la gran
diferencia que vamos a ver con las dos anteriores en las que se puede encontrar la probabilidad
de que la variable tome un valor determinado, es que en este caso la probabilidad de que tome
un valor específico es cero. Esto se debe a que el número total de resultados posibles es infinito
porque estamos contando los números decimales entre dos valores dados los cuales son
infinitos. Entonces la probabilidad de que la variable tome uno de esos valores sería el
resultado de dividir 1 por infinito que es un número muy grande por lo tanto el resultado tiende
a cero. Lo que hacemos es calcular las probabilidades de que la variable se encuentre en un
intervalo determinado.
La distribución normal es un modelo matemático que resuelva muchas situaciones de la vida
real. Sirve para aproximar la binomial en el caso de que se trata de un número muy grande de
experimentos y es la base de la inferencia estadística.
x
2
1
La función a la cual responde esta distribución está dada por: f (x) .e 2 2
. 2
La forma gráfica de la distribución normal es la de una campana conocida como campana de
Gauss. Es simétrica respecto de la media. Su forma depende de dos datos que se deben conocer
de la distribución, la media y el desvío estándar.
44
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Las probabilidades vienen dadas por áreas bajo la curva normal entre dos valores de la variable.
Supongamos que tenemos una distribución normal con media μ y queremos calcular la probabilidad
entre dos valores de la variable que llamaremos x1 y x 2 . La probabilidad viene dada por la
siguiente área:
Las áreas se encuentran tabuladas en una tabla que se encuentra también en el anexo pero cuyo uso
explicaremos enseguida. Observe la siguiente gráfica:
Acá podemos ver que el área a un desvío estándar a izquierda y derecha de la media es 68,26%, a
dos desvíos a cada lado de la media es de 95,44% y a tres desvíos a uno y otro lado es de 99,72%.
Como el área total bajo la curva es 1 (uno) ya que es el valor máximo que puede tomar la
probabilidad, estas áreas pueden ser escritas como 0,6826; 0,9544 y 0,9972.
Obviamente, para cada ejercicio de curva normal habría una curva diferente al cambiar el valor de
la media y del desvío. Por esa razón la tabla se hizo sobre una en particular que es la que tiene
media 0(cero) y desvío 1 (uno). Lo que debemos hacer es llevar o transformar cada ejercicio a este
caso particular que se llama normal estándar.
Veamos primero cómo es la tabla y cómo se la maneja. Luego veremos cómo hacemos esta
transformación.
Observe la tabla a continuación. En ella figuran valores que se denominan z (esto es para
identificar que se trata de una distribución normal estándar). En la primera columna de la izquierda
los valores de z van desde 0,0 a 3,0. En la primera fila horizontal encuentra valores que van desde
0,00 a 0,09. Estos son los segundos decimales. O sea que para un valor de z por ejemplo de 2,37
nosotros debemos buscar en la primera columna 2,3 y luego en la primera fila buscar .07 entonces
vemos donde confluyen ambos valores y ese es el valor del área o probabilidad. Vea como lo
señalamos en la tabla. El valor correspondiente es 0,4911. Ahora la pregunta es ¿qué área es esta?
45
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Observe la curva normal que se encuentra dibujada sobre la tabla y verá que el área sombreada es
la que está entre 0 y el valor de z hallado. Por lo tanto hemos encontrado el área entre 0 y 2,37.
Ahora veremos cómo hacemos para resolver un ejercicio en el cual la distribución normal no tenga
media 0 y desvío 1. En ese caso los valores de la variable se deben transformar a la normal estándar
y usar la tabla anteriormente vista. La fórmula de transformación es la siguiente:
x
z
Consideremos por ejemplo que se ha determinado que la media de la altura de las jóvenes de 18 a
20 años en un determinado lugar es 1,65 metros con un desvío estándar de 0,09 metros. Si
deseamos conocer la probabilidad de que una joven tenga una altura entre 1,65 metros y 1,80
metros debemos transformar este último valor a z. No es necesario transformar el 1,65 metros pues
como es la media corresponde al 0 de la estándar.
x 1, 80 1, 65
z 1, 67
0, 09
Buscamos este valor de z en la tabla y la misma nos da el valor de la probabilidad de que la altura
se encuentre entre 1,65 y 1,80 ya que 1,65 es la media.
P(1, 65 x 1, 80) P(0 z 1, 67) 0, 4525
Si la pregunta fuera, por ejemplo, ¿cuál es la probabilidad de que una joven tenga una altura
inferior a 1,60? debemos ver primero qué valor le corresponde de z a 1,60. Luego, como está
46
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
solicitando la probabilidad de que sea menor a 1,60 metros, entonces el área es la de la izquierda de
dicho valor de z, no la que nos da la tabla que es la que va entre 1,60 y 1,65 que es la media.
En primer lugar aclaremos que, como el área total bajo la curva es 1 (uno) el área de la mitad, o sea
la que va desde la media a la derecha o a la izquierda es 0,5 ya que la curva es simétrica.
Por otro lado, pensemos que al transformar los valores de x a la normal z, la cual tiene como media
el valor 0, por lo tanto, si los valores de x están a la izquierda de la media nos darán valores de z
negativos pues están a la izquierda de 0. Nuestra tabla no tiene valores negativos, esto es porque al
ser simétrica, el área entre 0 y 1,67 por ejemplo es la misma que hay entre -1,67 y 0.
Veamos cómo respondemos la pregunta anterior.
Primero hallamos el valor de z que corresponde a 1,60 metros.
x 1, 60 1, 65
z 0, 56
0, 09
Al buscar en la tabla el valor de z = 0,56 la tabla nos dará el área entre 0 y 0,56 que no es la que
buscamos. Pero como sabemos que el área de la mitad de la curva es 0,5 procedemos así:
P(x 1, 60) P(z 0, 56) 0, 5 0, 2123 0, 2877
Esta es la probabilidad de que la altura de la joven sea inferior a 1,60 metros.
Ejercicios
1) Calcule las siguientes probabilidades utilizando la tabla normal:
a) P(0 z 1, 38)
b) P( 2, 11 z 0)
c) P( 1, 17 z 2, 23)
d) P(z 1, 74)
e) P(z 2, 28)
f ) P(z 1, 45)
g) P(0, 76 z 2, 35)
2) Según una encuesta llevada a cabo por una revista especializada, el número de horas que los
jóvenes utilizan las redes sociales por día tiene una distribución normal con media de 3,5 horas y
desvío de 1,3 horas. ¿Cuál es la probabilidad de que un joven escogido al azar utilice las redes
sociales menos de 2 horas? ¿Cuál es la probabilidad de que la utilice entre 1 y 4,5 horas? Si se
considera peligroso para su relacionamiento social directo que permanezca más de 6,5 horas diarias
en las redes sociales, ¿qué porcentaje de los jóvenes están en esta franja de peligro?
3) El tiempo necesario para terminar un examen final en determinado curso se distribuye
normalmente con una media de 80 minutos y un desvío estándar de 10 minutos. ¿Cuál es la
probabilidad de terminar el examen en una hora o menos? ¿Cuál es la probabilidad de que el
alumno termine el examen entre 60 y 75 minutos? Suponga que en el grupo hay 70 alumnos y que
el tiempo de examen es de 90 minutos y luego las hojas son retiradas, ¿cuántos alumnos puede
estimar que no alcanzarán a terminar el examen?
Puntuaciones z
Las puntuaciones z que pueden obtenerse de un valor dentro de una distribución de observaciones nos
permite describir el lugar que ocupa dentro del conjunto.
47
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Supongamos que nos informan que alguien llamado Alan tomó 9 sesiones con la psicopedagoga de
una institución educativa. Suponga también que desconocíamos la cantidad de sesiones tomadas por
otros alumnos de la institución con la misma psicopedagoga. En este caso sería difícil decir si Alan
asistió a muchas o pocas sesiones en relación con otros alumnos. Sin embargo si sabemos que la media
es 6 y el desvío estándar es 2,57. Con estos datos queda claro que Alan asistió a una cantidad de
sesiones superior al promedio. También podemos ver que la cantidad de sesiones en las que Alan se
excedió del promedio (3 sesiones más) era un poco más alta que la cantidad de sesiones en que los
pacientes de la terapeuta generalmente varían respecto del promedio. Miremos la situación
gráficamente:
1σ 1σ 1σ 1σ
¿Qué es una puntuación z? Es la transformación de una observación que describe mejor el lugar que
esta observación ocupa en la distribución. Específicamente, una puntuación z indica a qué cantidad de
desvíos estándar por encima de la media (si da positivo) o por debajo de la media (si da negativo) se
encuentra el valor. El desvío estándar se transforma así en una especie de patrón, una unidad de
medida propiamente dicha. Si buscamos el valor de z que corresponde a las 9 sesiones a las que asistió
Alan nos da:
x 96
z 1,17
2, 57
Por lo tanto Alan está a 1,17 desvíos estándar por encima de la media. Si otra estudiante asistió a 6
sesiones su puntuación z es 0 por lo que coincide con la media. Si un alumno asiste a 1 sola sesión, nos
da una puntuación z de -1,95 o sea que está por debajo de la media el doble de veces de lo que varían
típicamente con respecto al promedio los asistentes a la psicopedagoga.
En la práctica, las puntuaciones z tienen muchos usos. También son parte importante de muchos de los
procedimientos estadísticos que veremos luego. Es importante familiarizarse con ellos.
Ejercicios
48
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
1) En una empresa el salario semanal tiene media es 3003 y el desvío estándar es de 200. a) Calcule
las puntuaciones z de las personas que presentaron registros de 3400, 3100 y 2600 e interprete; b)
Calcule los salarios semanales de aquellas personas cuyas puntuaciones z en la prueba fueron 2,4;
1,5 y -4,5. Interprete.
2) La puntuación de una persona en una prueba de aptitud verbal es de 81 y de 6,4 en la prueba de
aptitud numérica. En el caso de la prueba de aptitud verbal, la media para las personas en general
es 50 y el desvío estándar es 20. En el caso de la prueba de aptitud numérica, la media es en general
0 y el desvío 5. ¿Cuál es la mayor aptitud de esta persona, la verbal o la numérica? Explique su
respuesta a una persona que nunca asistió a un curso de estadística.
49
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Ya hemos mencionado que una población es el conjunto de todos los elementos de interés en un
estudio, mientras que una muestra es un subconjunto de la población.
La inferencia estadística tiene como propósito construir estimaciones y pruebas de hipótesis acerca de
las características de una población por medio de la información contenida en una muestra.
Es obvio que por diferentes razones, de acuerdo al tipo de población con el cual estemos trabajando, se
hace difícil y a veces imposible estudiar la población completa. Por este motivo trabajamos con una
parte de la misma. La muestra sólo nos da una estimación de los valores de la población, pero
aplicando métodos adecuados de muestreo, los resultados muestrales darán buenas estimaciones de las
características de la población.
Hay diferentes formas de tomar una muestra. Los tipos de muestras se clasifican en dos grandes
grupos, las probabilísticas y las no probabilísticas.
Las muestras probabilísticas son aquellas en las cuales los sujetos que forman parte de la muestra se
seleccionan con base en probabilidades conocidas. En cambio en las no probabilísticas no se utilizan
estos conceptos. El utilizar muestras probabilísticas nos favorecen a la hora de sacar conclusiones
posteriormente de los valores hallados, ya que podremos expresar esas conclusiones en virtud de las
probabilidades que ocurran.
Muestras probabilísticas
Muestra aleatoria simple: cada sujeto de la población tiene la misma oportunidad de selección que
cualquier otro sujeto. Esta selección al azar es semejante a la extracción de números en un sorteo.
Sin embargo, suele emplearse para este tipo de muestreo una tabla de números aleatorios o un
programa de cómputo generados de números aleatorios (random.org) para identificar los elementos
numerados de la población que serán seleccionados para la muestra. Supongamos que tengo un
grupo de 100 personas entre las cuales debo elegir 10 para la muestra. Con el programa random
obtuve los siguientes números aleatorios: 66, 06, 59, 94, 78, 70, 08, 37, 12 y 55. De esta manera,
habiéndole dado una numeración a las 100 personas quedaron escogidas las 10 de la muestra.
Muestra sistemática: es una muestra aleatoria cuyos elementos se seleccionan de la población a un
intervalo uniforme en una lista ordenada, como sería el caso de la elección de cada décima persona
de la lista, por ejemplo. Otro caso sería el de elegir una casa cada 3 de una cuadra por ejemplo para
visitar y hacer una encuesta.
50
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Distribución muestral
Se llama así a una distribución en la cual tomamos un gran número de muestras de una población y de
cada muestra evaluamos las características, por ejemplo la media. Por ejemplo, si consideramos una
población que está formada por los elementos 2, 3, 7, 8, 9 tomamos muestras de tamaño 3. En realidad
podemos tomar 10 muestras diferentes considerando como tal a dos muestras que tienen al menos un
elemento distinto.
En cada muestra vamos a calcular la media.
Muestra x
2, 3, 7 4
2, 3, 8 4,33
2, 3, 9 4,67
3, 7, 8 6
3, 7, 9 6,33
7, 8, 9 8
2, 7, 8 5,67
2, 7, 9 6
2, 8, 9 6,33
3, 8, 9 6,67
51
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Intervalos de confianza
Aquí trataremos otro tema importante para la estadística inferencial, el cual es la estimación de la
media de una población desconocida sobre la base de valores muestrales.
La mejor estimación de la media poblacional es la media muestral. Si nosotros tomamos una muestra,
supongamos de 64 alumnos de quinto grado que recibieron instrucciones especiales para realizar una
prueba de nivel académico y luego obtuvimos la media del puntaje obtenido por esos 64 alumnos y
52
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
resultó ser de 220, si afirmamos que la media de la población de todos los alumnos de quinto grado
que realizan una prueba de nivel académico luego de haber recibido una instrucción especial es de 220
puntos, estaríamos realizando una estimación puntual.
Los estimadores son los estadísticos o medidas que calculamos de la muestra y que utilizaremos para
estimar los parámetros o medidas de la población.
Supongamos que existe un parámetro poblacional θ cuyo valor queremos estimar, para lo cual
utilizaremos un estadístico muestral que llamamos, por ejemplo . Este estimador debe tener ciertas
características para poder ser útil en nuestro cálculo. El estimador debe ser:
Insesgado: Un estimador sea insesgado significa que su valor esperado o promedio debe
coincidir con el valor poblacional, o sea
Eficiente: Un estimador es eficiente cuando su desvío estándar es pequeño. Por lo general, si
hay que elegir entre varios estimadores para un mismo parámetro, el más eficiente es el que
tiene menor desvío estándar.
Consistente: Un estimador es consistente cuando es obtenido de una muestra lo suficientemente
grande.
En realidad, no podemos especificar con el solo dato de una muestra cuál es el valor del parámetro
poblacional. Por ese motivo la estimación la hacemos por medio de un intervalo y hablamos entonces
de intervalos de confianza. Se le da este nombre porque en dicho intervalo vamos a tomar en cuenta
qué probabilidad de que la media poblacional esté incluida dentro del mismo. Ese nivel de
probabilidad es el nivel de confianza con el cual estimamos. Habitualmente se trabaja con niveles de
confianza del 90%, 95% o 99%. (No olvide que en Estadística nunca podemos afirmar un resultado
con un 100% de certeza)
Los límites de confianza se basan en la distribución de medias. Lo que necesitamos saber es dónde
comienza y donde termina el 95%, por ejemplo, central de las medias en esa distribución.
Por lo general trabajamos con el puntaje z de los extremos del intervalo a determinar. Esto se puede
hacer si conocemos que la población es normal pues cualquier distribución de medias de dicha
población tiene también distribución normal. También se puede usar aún sin conocer si la población es
normal si el tamaño de muestra es mayor o igual que 30. Esto lo obtenemos a partir del siguiente
teorema:
Teorema del límite central
Al seleccionar muestras aleatorias simples de tamaño n de una población, la distribución muestral de la
media se puede aproximar por medio de una distribución normal cuando el tamaño de la muestra sea lo
suficientemente grande.
La práctica ha determinado que se considera suficientemente grande y por lo tanto distribuida
normalmente una distribución muestral donde el tamaño de la muestra sea igual o superior a 30. Si se
sabe en forma fehaciente que la población de la cual se obtuvo la muestra tiene distribución normal,
entonces podemos considerar que la distribución de media también es normal independientemente del
tamaño de la muestra.
En general, para estimar cualquier parámetro, el intervalo de confianza se obtiene de la siguiente
manera:
z.
e e
Dentro de ese intervalo, e; e se encuentra el valor poblacional θ con una probabilidad dada por
el nivel de confianza con el cual trabajamos (z).
54
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Para estimar el sueldo promedio en esa categoría de los empleados de toda la empresa vamos a utilizar
la fórmula vista, siendo n = 42, x 15400 y s = 2300. En cuanto al valor de z, este depende de la
confianza con la cual queramos trabajar. Lo habitual es utilizar 90%, 95% o 99% (recordemos que en
Estadística nunca existe un 100% de certeza. Esos valores se obtienen de la tabla de la distribución
normal estándar. Supongamos un 95%, la curva es:
El valor de z = 1,96 surge de la tabla, ya que al tomar un área de 0,95 central, entre el 0 y el z que
buscamos tenemos un área de 0,475. Buscamos en la tabla para ver qué valor de z corresponde a esa
área, el cual es 1,96. De igual forma se hace para un área de 0,90 central, en este caso se busca el área
0,45 y se encuentran dos valores a igual distancia del deseado 0,45. Por esa razón se hace un simple
promedio y trabajamos con un z de 1,645
0,4495 -- z = 1,64
0,4500 -- z = 1,645
0,4505 -- z = 1,65
De igual manera se trabaja para hallar el z correspondiente a una confianza de 99% y resulta ser z =
2,575.
Volviendo al ejercicio, calculamos:
s 2300
x z. 15400 1,96. 15400 695,6 14704, 40;16095,60
n 42
Concluimos que el sueldo promedio de todos los empleados de esa categoría de la empresa es un valor
que se encuentra entre $ 14704,40 y $ 16095,60 con un 95% de confianza.
Supongamos que se desea trabajar con un error menor, que no exceda los $ 500, entonces para no
perder confianza y mantener el 95%, deberemos aumentar el tamaño de la muestra. Calculamos:
2 2
s z.s 1,96.2300
e z. n n 81, 288
n e 500
Observe que, si se tomara un tamaño de muestra de 81 el error pasaría a ser levemente mayor a 500,
por lo que siempre estimamos este valor de n para arriba, considerando 82 elementos en la muestra y
en este caso el error será un poco menor a 500.
Distribución “t” para muestras pequeñas
Anteriormente vimos que cuando las muestras son grandes el teorema del límite central nos permite
considerar la normalidad de la distribución. Si tomamos muestras pequeñas, o sea de un tamaño menor
que 30, de una población que sabemos que es normal pero de la cual no conocemos el desvío estándar
poblacional usaremos esta otra distribución denominada “t de Student” o simplemente “t”.
Observe a continuación la tabla de esta distribución:
55
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Como puede ver, la distribución es también simétrica con media en 0 y el área bajo la curva en su
totalidad también da como resultado 1. A partir de n = 30 en adelante los valores que nos da la
distribución t coinciden con los de la normal. De forma que sólo la usaremos para este caso, cuando la
muestra es pequeña y no se conoce el desvío estándar de la población, sino que el mismo se estima a
partir del desvío estándar de la muestra.
En la tabla puede observar que hay dos elementos a tener en cuenta. En la primera fila se encuentran
las áreas de la cola superior que es además la que está sombreada en la tabla. Estos valores van desde
0,10 a 0,005 en forma decreciente. En la primer columna se encuentran los llamados grados de libertad
que no es otra cosa más que el tamaño de la muestra menos 1.
Ejemplo 1
Supongamos, como ejemplo, que en una muestra de tamaño 18 de una población conformada por
estudiantes universitarios se determinó el promedio de las notas obtenidas en Estadística y dio como
resultado una media de 76 con un desvío estándar (en la muestra) de 14. Deseamos, con estos datos
realizar una estimación del nivel de estrés del total de la población de estudiantes universitarios con
una confianza del 95%. Podemos ver que la muestra es pequeña y el desvío estándar que se conoce no
es el de la población sino el de la muestra. Corresponde en este caso utilizar la distribución “t”.
Si vamos a realizar un intervalo de confianza del 95% esto quiere decir que la suma de las dos colas
que queden a izquierda y derecha será del 5% restante. Por lo tanto, teniendo en cuenta la simetría,
cada cola cubre un área del 2,5% o sea 0,025.
56
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
De manera que para calcular los valores de t que corresponden a los puntos extremos del intervalo
observamos en la tabla la columna del 0,025 que es la cola derecha (también la izquierda) y para los
grados de libertad buscamos el valor 17 (18 – 1). Resulta que t = 2,110. Ahora vamos a proceder a
armar el intervalo de confianza igual que lo hicimos antes pero con la diferencia de que en vez de z
usamos t.
14
x z.x 76 2,110 .
76 7 69 ; 83
18
Concluimos que el promedio de notas de Estadística para todos los estudiantes de esa institución se
encuentra entre los valores 69 y 83 con un 95% de confianza.
Se pueden establecer también intervalos de confianza para estimar proporciones, diferencia de medias
y diferencia de proporciones. Las fórmulas de cada uno de ellos es:
p.q
Proporciones: p p z. p p p z.
n
12 2 2
Diferencia de medias: 1 2 x1 x 2 z.
n1 n 2
Este intervalo es válido para el caso de muestras grandes o muestras pequeñas donde se conozca el
desvío estándar de las poblaciones. En caso de que se deba usar la distribución t la fórmula cambia y se
deben considerar dos casos, que las dos poblaciones de las cuales no se conoce el desvío estándar
poblacional pero se puede calcular el muestral y suponer que los desvíos poblacionales son iguales, y
el caso en que esta suposición no pueda hacerse.
Si podemos suponer que 1 2 , entonces utilizamos los desvíos muestrales para estimar ese desvío
poblacional que es igual para los dos y llamaremos ̂ , el cual se calcula como:
ˆ
n1 1 .s12 n 2 1 .s2 2
n1 n 2 2
57
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
2
Y el intervalo de confianza resultaría como: 1 2 x1 x 2 t.ˆ
1
n1 n 2
Si no se puede considerar que los desvíos poblacionales son iguales, entonces en ese caso la fórmula
para el intervalo de confianza es:
s2 s 2
1 2 x1 x 2 z. 1 2 pero se debe estimar el número de grados de libertad con la
n1 n 2
fórmula:
2
s12 s2 2
n n
grados de libertad 1 2
2 2
1 s12 1 s2 2
n1 1 n1 n 2 1 n 2
. .
En este caso es muy probable que el número de grados de libertad nos dé un número decimal que
siempre se aproximará para abajo para que nos dé un mayor valor de t y por lo tanto el intervalo resulte
más amplio.
Diferencia de proporciones
pˆ .qˆ pˆ .qˆ
p1 p2 pˆ 1 pˆ 2 z. 1 1 2 2
n1 n2
Ejercicios
1) Supongamos que desea estimar el monto medio de ventas por establecimiento de venta al por
menor de un producto de consumo específico durante el último año. Determine el intervalo de
confianza del 95% dado el supuesto de que los montos de ventas siguen una distribución
normal siendo el desvío estándar de la población $ 200, la media de la muestra es $ 3425 y el
número total de establecimientos muestreados fue 25.
2) Una muestra de 50 empresas fue tomada de una industria en particular y en ella el número
promedio de empleados por empresa es de 420,4 con un desvío estándar muestral de 55,7.
Estime mediante un intervalo de confianza del 90% el número promedio de empleados en la
totalidad de industrias de esta misma rama.
3) Un analista de un departamento de personal selecciona aleatoriamente los expedientes de 16
empleados por hora y determina que el índice salarial medio por hora es de $ 172,50 con un
desvío estándar de $ 54,40. Se supone que los índices salariales de la compañía tienen una
distribución normal. Calcule un intervalo de 95% de confianza para el sueldo por hora de todos
los empleados de esa empresa.
4) El diámetro promedio de una muestra de 12 varillas cilíndricas incluidas en un embarque es de
2,35 milímetros con una desviación estándar de 0,05 milímetros. Se supone que la distribución
de los diámetros de la totalidad de varillas incluidas en el embarque es normal. Determine un
intervalo de confianza del 99% para el diámetro de las varillas incluidas en el embarque.
58
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
5) En una muestra aleatoria de 100 hogares de una gran zona metropolitana, el número de hogares
en el que al menos un adulto se halla desempleado actualmente y en busca de un empleo de
tiempo completo es de 12. Estime el porcentaje de hogares en la zona en los que al menos un
adulto está desempleado con un intervalo de confianza del 95%.
6) Un fabricante ha adquirido un lote de 2000 partes electrónicas pequeñas del inventario
excedente de una gran empresa. De una muestra de 50 de esas partes, cinco resultaron
defectuosas. Estime la proporción de la totalidad de las partes del embarque con defectos, con
un intervalo de confianza del 90%
7) Respecto de una muestra de 50 empresas tomada de cierta industria, el número promedio de
empleados por empresa es 420,4 con un desvío estándar de 55,7. En una segunda industria, el
número promedio de empleados de una muestra de 50 empresas es 392,5 con un desvío de
87,9. Estime la diferencia en el número promedio de empleados por empresa en las dos
industrias con un intervalo de confianza del 90%. Realice un segundo intervalo de confianza
del 95% y vea cuáles son las diferencias notables.
8) En una muestra de 22 empleados de una gran empresa, el salario medio por hora dio $ 192,30
con un desvío estándar de $ 34,50. En una segunda empresa, el salario medio de una muestra
de 26 empleados dio como resultado $ 184,10 con un desvío de $ 39,50. Suponiendo que
ambas poblaciones tienen igual desvío estándar, calcule un intervalo de confianza del 95% para
la diferencia entre los salarios promedio por hora de ambas empresas.
9) Si se tomaron dos productos de consumo masivo, llamémosle A y B, y se determinó en una
muestra de 16 negocios el promedio de ventas de A resulto ser de $ 3450 con un desvío de $
420 mientras que en 12 diferentes negocios el promedio de ventas de B fue de $ 4028 con un
desvío de $ 350. Encuentre un intervalo de confianza para la diferencia de ventas promedio de
ambos artículos en la totalidad de negocios en que se los venda, considerando que ambas
poblaciones tienen diferentes desvíos estándar.
10) Si se comparan las poblaciones urbana y rural de cierta ciudad se encontró que en la zona
urbana el 35% de la población son jóvenes menores de 18 años mientras que en la zona rural
sólo el 22% son menores de 18 años. Plantee un intervalo de confianza para la diferencia en
porcentaje de jóvenes menores de 18 años de ambas poblaciones. Utilice una confianza del
95%.
Pruebas de hipótesis
El propósito de la prueba de hipótesis es determinar si el valor supuesto (hipotético) de un parámetro
poblacional como la media por ejemplo, debe aceptarse como verosímil con base en evidencias
muestrales. Recuerda que ya se dijo que, en general, una media muestral diferirá en valor de la media
poblacional. Si el valor observado de un estadístico muestral, como la media, se acerca al valor del
parámetro poblacional supuesto, y sólo difiere de él en una cantidad que cabría esperar del muestreo
aleatorio, el valor hipotético no se rechaza, ahora, si el estadístico muestral difiere del supuesto
parámetro en una cantidad que no se puede atribuir al azar, la hipótesis se recháza por inverosímil.
Existen en realidad tres métodos para hacer esta prueba, el del valor crítico, el del valor P y el del
intervalo de confianza.
Los pasos básicos para hacer una prueba de hipótesis comienzan con el planteo de las hipótesis que se
pondrán a prueba. Siempre hay dos hipótesis, la nula que es el valor paramétrico hipotético y la
alternativa que es la contraria a la hipotética. Por ejemplo, si la hipótesis nula afirma que el número de
horas que dura un foco led de iluminación es de 1400 horas promedio, la alternativa dirá que el
número de horas promedio que dura un foco led es diferente a 1400 horas.
59
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Considerando que ponemos a prueba un parámetro θ, las hipótesis nula y alternativa puede ser
planteadas de tres maneras posibles:
Como puede observar, la hipótesis nula siempre contempla la posibilidad de igualdad, en cambio la
alternativa se limita a decir “distinto”, “menor” o “mayor”.
Por ejemplo, consideremos que un auditor desea probar el supuesto de que el valor medio de la
totalidad de las cuentas por cobrar de una empresa dada es de $ 260000 tomando una muestra de 36
cuentas a cobrar y calculando la media y desvío muestral. En este caso las hipótesis serían formuladas
como:
H o : 260000
H1 : 260000
Pero, si por ejemplo, él se hubiese planteado probar que el valor medio de la totalidad de cuentas por
cobrar de la empresa es de al menos $ 260000, las hipótesis hubiesen quedado planteadas de esta otra
forma:
H o : 260000
H1 : 260000
También podemos pensar en algún ejemplo con proporciones. Supongamos que una entidad
gubernamental asegura que el porcentaje de desempleo en la actualidad no supera el 8,3 %. En este
caso, si se desea poner a prueba dicha afirmación, las hipótesis resultarían así:
H o : p 0,083
H1 : p 0,083
En cualquiera de los casos, siempre que se pone una hipótesis a prueba, existen dos posibles resultados
o estados, que la hipótesis sea verdadera o falsa y también existen dos decisiones por parte del
investigador, aceptar o rechazar la hipótesis en cuestión. Esto podemos resumirlo en el siguiente
cuadro:
Estados posibles
Decisión posible
Hipótesis nula verdadera Hipótesis nula falsa
Aceptar la hipótesis nula Aceptación correcta Error tipo II
Rechazar la hipótesis
Error tipo I Rechazo correcto
nula
Como se puede ver hay dos posibilidades de equivocarse, el error tipo I de rechazar una hipótesis
verdadera el cual es predecible y a la probabilidad de que ocurra se le llama nivel de significancia, y el
error tipo II que no es tan fácil de predecir.
Prueba bilateral
Vamos a ver a continuación un problema resuelto de las tres maneras que mencionamos.
Problema: Un auditor desea probar el supuesto de que el valor medio de la totalidad de las cuentas por
cobrar de una empresa dada es de $ 260.000. Para esto tomó una muestra de 36 cuentas a cobrar y
calculó que la media es de $ 265.000 con un desvío estándar de $ 12.000. Se planteó trabajar con un
nivel de significancia del 5%.
60
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Región de
aceptación
Región de
rechazo
La región de rechazo tiene un área de 0,05 en total, dividida en dos colas iguales, cada una de
área 0,025. Como se trata de una distribución normal, pues estamos trabajando con una muestra
de más de 30 elementos, buscamos cuáles son los valores de z que limitan la región de rechazo
de la de aceptación, que obviamente, por ser las colas de 0,05 unidades de área, la región de
aceptación tiene un área de 0,95 y van a coincidir con los límites del intervalo de confianza de
95%, o sea -1,96 y 1,96. Estos son los llamados valores críticos.
Lo que resta es ver ahora cuál es el valor z que le corresponde a nuestro valor muestral para
determinar así si cae dentro de la región de rechazo o de la región de aceptación.
La fórmula para calcular el valor z de la muestra se obtiene aplicando la fórmula para calcular
los puntajes z que vimos en el momento de dar distribución normal, teniendo en cuenta que la
distribución en este caso es de la media:
x x
zm
x s
n
Una vez que calculemos el puntaje z de la muestra, la decisión la tomaremos de acuerdo a lo
que afirmamos antes como:
Si 1,96 z m 1,96 Acepto Hipótesis nula
Si z m 1,96
o Re chazo Hipótesis nula
Si z m 1,96
61
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
2. Método del valor P: En este caso, se procede calculando la probabilidad de que una muestra
haya dado un valor medio de $265000 siendo que la media es $260000. Si esta probabilidad es
muy grande, o sea de 0,05 o más, se considera no rechazar la hipótesis nula, ahora, si la
probabilidad de que una muestra nos de ese valor frente a un valor hipotético de $ 260000 es
muy pequeña (menor a 0,01) entonces corresponde rechazar la hipótesis nula.
Considerando el valor z correspondiente a la media muestral, tenemos:
x x 265.000 260.000 5000
zm 2,5
x s 12.000 2000
n 36
P(z 2,5) 0,5 0, 4938 0,0062
Esto corresponde a la probabilidad siguiente:
P = 0,0062
Pero como se trata de una prueba bilateral, debemos considerar la posibilidad de otra
probabilidad igual a la izquierda, por lo tanto nuestro valor P en este caso es:
P = 2.0,0062 = 0,0124
Para tomar una decisión, ya que no resultó ser menor a 0,01 que es el límite inferior, pensemos
que la probabilidad de que una muestra tenga una media distinta a la media hipotética de $
260000 es 0,0124, o sea tengo el 1,24% de posibilidad que ocurra, lo cual es bajo y por lo tanto
decido rechazarlo. Por lo general, en decisiones de este tipo, cualquier probabilidad por debajo
del 5% conduce a rechazos, excepto que se trate de situaciones muy extremas como por
ejemplo cuestiones donde el riesgo puede afectar la vida.
3. Método del intervalo de confianza: en este método se trabaja con las fórmulas del intervalo de
confianza planteando un intervalo de confianza por ejemplo en este caso del 95% (pues la
probabilidad de error estimada es del 5%) con el valor muestral y determinamos si el valor
hipotético cae o no dentro del intervalo, y de esa manera decidimos aceptar o rechazar.
En nuestro ejemplo es:
s 12000
x z. 265000 1,96. 265000 3920 261080;268920
n 36
62
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Claramente, el valor hipotético de $ 260000 queda fuera del intervalo y por lo tanto
corresponde rechazar la hipótesis nula.
Prueba unilateral
En este caso se puede trabajar con cualquiera de los dos primeros métodos y el razonamiento es
análogo, sólo que cambiarán los valores de z del método del valor crítico porque la región de rechazo
sólo se toma de uno de los lados y en el caso del valor P cuando se calcula la probabilidad no se debe
multiplicar por dos.
Problema: Un auditor quiere probar si el valor promedio de las cuentas por cobrar de una empresa son
de al menos $ 260000 tomando una muestra de 36 cuentas y resultando de la misma una media de $
257000 con un desvío de $ 12000. Trabajamos con un nivel de significancia del 5%.
Las hipótesis son:
H o : 260000
H1 : 260000
1. Método del valor crítico: En este caso, consideramos la gráfica de la distribución y la división
de zonas de rechazo y de aceptación es:
Región de
rechazo
La región de rechazo tiene un área de 0,05, por lo tanto en este caso debemos buscar en la tabla
normal cuál es el valor de z que deja un área de 0,45 entre él y la media, que es -1,645
(negativo por estar a la izquierda)
Ahora calculamos el valor z de la muestra y procedemos así:
Si z m 1,645 Acepto Hipótesis nula
Si z m 1,645 Re chazo Hipótesis nula
257000 260000
Resulta z m 1,5
12000
36
Con este valor corresponde no rechazar la hipótesis nula, por no tener evidencia estadística
suficiente.
2. Método del valor P: Procediendo igual que en el primer caso, calculamos la probabilidad de
que una muestra tenga una media de $ 257.000 o menos siendo que la media es $ 260.000 y si
esa probabilidad resulta menor que 0,05 rechazamos la hipótesis nula, sino la aceptamos.
63
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
257000 260000
zm 1,5
12000
36
P(z 1,5) 0,5 0, 4332 0,0668
Claramente mayor que 0,05 por lo tanto aceptamos la hipótesis nula.
Muestras pequeñas
La diferencia en el caso de trabajar con muestras pequeñas es que los valores críticos se tomarán de la
tabla t y no de la normal
Proporciones
Diferencia de medias
Los valores críticos de z o t según corresponda se calculan teniendo en cuenta las fórmulas siguientes:
x1 x 2 x1 x 2
Diferencia de medias: z m o bien t m
2
2
ˆ
1 1
1
2
n1 n2 n1 n 2
p̂ p o
Proporciones: z m
p o .q o
n
pˆ 1 pˆ 2
Diferencia de proporciones: z m
pˆ 1.qˆ 1 pˆ 2 .qˆ 2
n1 n2
Ejercicios
64
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
1) Una cadena de comida rápida construirá un nuevo establecimiento en una localidad propuesta
sólo si durante ciertas horas pasan por ella más de 200 automóviles por hora. En 20 horas
aleatoriamente muestreadas durante el horario estipulado, el número promedio de autos que
pasó por la localidad fue de 208,5 con un desvío de 30. Suponiendo que la población es normal,
¿qué recomendación daríamos respecto de construir o no un nuevo establecimiento? Trabaje
con un nivel de significancia del 5%
2) El fabricante de un nuevo auto compacto sostiene que éste promedia al menos 35 millas por
litro de nafta en una ruta normal. En 40 repeticiones de prueba, el auto promedió 34,5 millas
por litro con un desvío estándar de 2,3 litros. ¿Puede rechazarse la afirmación del fabricante
con una significancia del 5%?
3) Una despachadora automática de helado ligero ha sido programada para despachar 40 gramos
por ración. En una muestra de 10 raciones, el monto promedio de helado fue de 40,5 gramos
con un desvío de 0,10 gramos. Suponiendo que la distribución es normal y que si la máquina
no responde a lo previsto debe ser reprogramada, ¿hay evidencia suficiente para reprogramar la
máquina si se trabaja con un 5% de significancia?
4) En una muestra aleatoria de 35 alumnos de un curso la nota promedio en Matemática de dicha
muestra fue de 72 con un desvío estándar de 15 puntos. En otra muestra tomada de otro curso
de la misma materia, la media resultó ser de 77 puntos con un desvío de 10 puntos. ¿Hay
evidencia suficiente para afirmar que ambos grupos tienen diferente nota promedio? Trabaje
con un nivel de significancia del 1%
5) En una ciudad se tomaron dos muestras, una de 20 familias urbanas y otra de 15 familias
rurales y se calculó el número de hijos promedio en cada familia, resultando que las familias
urbanas tienen 2,1 hijos en promedio con un desvío estándar de 0,8 mientras que las familias
rurales tienen 3,4 hijos promedio con un desvío de 0,7. Trabajando con un nivel de
significancia del 5% y considerando que ambas poblaciones son normales con desvío estándar
poblacional iguales, ¿hay evidencia estadística suficiente para afirmar que el número promedio
de hijos por familia es mayor en el caso de las familias rurales?
6) Un consultor de ventas sostiene haber obtenido pedidos de al menos el 30% de los clientes
contactados. Supongamos que en una muestra de 100 clientes se reciben pedidos de 20 de ellos.
¿Puede rechazarse la afirmación del consultor con un nivel de significancia del 5%?
7) Un patrocinador de un programa de televisión esperaba que al menos el 40% de la audiencia lo
viera en cierta zona metropolitana. En una muestra de 120 hogares con televisor encendido se
determinó que 37 de ellos veían el programa especial. ¿Se puede rechazar la hipótesis del
patrocinador trabajando con un nivel de significancia del 5%?
8) Un fabricante evalúa dos tipos de equipo para la fabricación de un componente. Una muestra
aleatoria de 50 se recolecta de la primera marca de equipo y son encontrados 5 defectuosos.
Una muestra de 80 se recolecta de la segunda marca y 6 resultan defectuosos. El índice de
fabricación de ambas marcas es el mismo. Sin embargo dado que el costo de la primera marca
es menor el fabricante le concede el beneficio de la duda y formula la hipótesis de que la
proporción de defectuosos para esta primera marca es menor o igual. Pruebe la misma con una
significancia del 5%.
La prueba Ji cuadrada
La distribución 2 (chi o ji cuadrada) se utiliza para realizar dos tipos de prueba de hipótesis
fundamentales en la estadística inferencial. Una de ellas es la conocida como “bondad de ajuste” y
65
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
que tiene como objetivo determinar si los datos obtenidos muestralmente se distribuyen como uno
puede pensar, por ejemplo, para comprobar que una distribución es normal, o binomial, etc. La otra
aplicación es la “prueba de independencia” que se utiliza para determinar la dependencia o no de dos
variables cualitativas.
Al ser menor que el valor teórico, no tenemos evidencia estadística suficiente para contradecir al
distribuidor.
Los valores calculados de la estadística de prueba ji cuadrada se basan en conteos discretos, mientras
que la distribución ji cuadrada es una distribución continua. Cuando las frecuencias esperadas de las
celdas no son pequeñas, este hecho carece de importancia en términos del grado en el cual la
distribución de la estadística de prueba es aproximada por la distribución ji cuadrada. Una regla de uso
frecuente es que la frecuencia esperada de cada celda o categoría debe ser al menos 5. Las celdas que
no cumplen con este criterio deben combinarse de ser posible, con categorías adyacentes, a fin de
satisfacer este requisito. Luego de hecho esto se contabilizan la cantidad de categorías resultantes para
calcular los grados de libertad.
Veamos un ejemplo en el cual el número de valores paramétricos no sea 0 y haya que combinar celdas
para contabilizar categorías.
Ejemplo: Supongamos que se formula la hipótesis de que la distribución de descomposturas de
maquinaria por hora en una planta de ensamble sigue la distribución de Poisson pero no se da a
conocer la media de dicha distribución (si se diera a conocer m = 0). Entonces consideremos la
siguiente tabla donde se puede ver el número de descomposturas durante 40 horas muestreadas:
N° descomposturas (x) Frecuencias observadas (f o ) f o .x
0 0 0
1 6 6
2 8 16
3 11 33
4 7 28
5 4 20
6 3 18
7 1 7
fo 40 fo.x 128
67
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Siendo
Hipótesis nula H o : la distribución responde al mod elo de Poisson
Hipótesis alternativa H1 : la distribución no responde al mod elo de Poisson
Planteamos ahora la tabla con las frecuencias observadas y esperadas, haciendo además la
combinación de celdas cuando la frecuencia observada es menor que 5:
N° descomposturas Frecuencia observada Frecuencias esperadas fo fe
2
(x) fo fe fe
0 0 6
1,6 6,8 0,094
1 6 5,2
2 8 8,3 0,011
3 11 8,9 0,496
4 7 7,1 0,001
5 4 4,6
6 3 2,4
7 1 1,1 8,8
8 0,073
8 0 0,4
9 0 0,2
10 0 0,1
2 m 0,675
68
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Como podemos ver resultaron k = 5 categorías y m = 1 parámetro estimado (la media 3,2) por lo tanto,
el número de grados de libertad es gl = 5 – 1 – 1=3, por lo que 2 t obtenido de la tabla es 7,81
El 2 m 0,675 es claramente menor, por lo que no se rechaza la hipótesis nula y hay evidencia
suficiente para afirmar que la distribución de descomposturas responde a un modelo de Poisson.
Prueba de independencia
Las pruebas de independencia implican al menos dos variables categóricas y lo que se prueba es el
supuesto de que las variables son estadísticamente independientes (hipótesis nula). La independencia
supone que el conocimiento de la categoría en la que es clasificada una observación respecto de una
variable no tiene efecto sobre la probabilidad de que la otra variable se encuentre en una de varias
categorías.
Por ejemplo, en la tabla se encuentran la reacción de los estudiantes a la ampliación del programa
deportivo de una universidad de acuerdo con su grado, donde “división inferior” se refiere a los
alumnos en primero o segundo año de la carrera y “división superior” a los alumnos de tercero y cuarto
año. Pruebe la hipótesis nula de que el grado y la reacción son independientes con un nivel de
significancia del 5%.
El valor teórico 2 t se calcula en la tabla, haciendo gl = (r – 1).(k – 1), siendo r el número de
respuestas diferentes por renglón y k el número de respuestas diferentes por columna.
El 2 m se calcula igual que antes, aplicando la fórmula vista para bondad de ajuste, sólo que en este
f r .f k
caso la frecuencia esperada se estima como f e , siendo f r y f k los totales por fila y columna
n
respectivamente.
Veamos el ejemplo:
Grado
Reacción TOTAL
División inferior División superior
A favor 20 19 39
Neutral 5 14 19
En contra 10 17 27
TOTAL 35 50 85
f o fe 2
gl = (3 – 1).(2 – 1) = 2, por lo que t 5,99 . Calculamos el m
2 2
3,79 que al ser
fe
inferior que el teórico nos lleva a aceptar la hipótesis nula de independencia de las variables reacción y
grado.
69
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Volumen de ventas
70
60
Ventas en cientos de u$s
50
40
30
20
10
0
0 1 2 3 4 5 6
N° de comerciales
También vimos el ejemplo de la relación entre el número de consultas que reciben los libros de una
biblioteca y los años que transcurrieron desde su publicación:
40
30
20 N° de Consultas (por
10 año)
0
0 2 4 6
Años desde su publicación
Los estudios de correlación tratan de medir el grado de asociación que existe entre dos variables. Estos
estudios sobre la relación entre variables son muy comunes en las ciencias sociales.
Sin embargo, como hay diferentes escalas para medir las variables veremos que la medida o
coeficiente de correlación que se utilice va a depender directamente de las escalas de medición de las
variables.
La correlación no implica causalidad. Por ejemplo, existe una correlación alta entre la talla del zapato
y las destrezas de lectura pero es obvio que la talla del zapato no es la causa de las destrezas lectoras.
Existe una variable oculta que es el crecimiento de los niños que resulta ser una de las causas.
A menudo una tercera variable o una combinación de variables que no vemos puede ser la causa de la
correlación. Por lo tanto siempre es importante asegurarse de que al hablar sólo se menciona
70
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
asociación y relación, jamás causa y efecto o dependencia. Los términos que suelen utilizarse es el de
variable independiente para la causa y variable dependiente para el efecto. Muchas veces a los
investigadores no les agrada utilizar estos términos, y aun cuando no podamos determinar con certeza
cuál es la causa y cuál es el efecto, es posible utilizar el conocimiento sobre una variable para predecir
los valores correspondiente a la otra variable. Entonces se suele llamar a la independiente, o sea a la
que se utiliza para predecir los valores de la otra, variable predictora, mientras que la otra variable
puede llamarse dependiente o variable de criterio.
Cuando los valores altos de una variable coinciden con los altos de la otra, los bajos con los bajos y los
medianos con los medianos, decimos que hay una correlación positiva (como es el caso del volumen
de ventas y el número de comerciales). Como la gráfica se aproxima a una línea recta, la llamamos
correlación lineal.
A veces, la relación entre las variables no es positiva. Por el contrario, los valores altos coinciden con
los bajos y los bajos con los altos (como el segundo caso, la relación entre las consultas y los años
desde su publicación de los libros). A esto se lo denomina correlación negativa. Este ejemplo también
corresponde a una correlación lineal.
En algunos casos, la relación entre dos variables no sigue una línea recta positiva o negativa, sino un
patrón más complejo denominado correlación curvilínea. Por ejemplo, se sabe que hasta determinado
nivel, una mayor ansiedad fisiológica hace que uno se desempeñe mejor en cualquier tarea (como por
ejemplo una prueba matemática). A partir de ese nivel, una mayor ansiedad fisiológica hace que el
rendimiento empeore. Es decir, desde estar casi dormido a un nivel moderado de ansiedad, la
efectividad aumenta. Al superar ese nivel moderado, el aumento de la ansiedad puede acelerar
demasiado a un individuo, impidiéndole tener un buen rendimiento. Este patrón curvilíneo en
particular está representado en la siguiente figura:
Efectividad en el desempeño
0 1 2 3 4 5 6
Nivel de ansiedad
A través del método usual de cálculo de la correlación que veremos a continuación, obtenemos el
grado de correlación lineal. Si el verdadero patrón de asociación es curvilíneo, calcular la correlación
con el método usual podría dar como resultado muy poca correlación o una correlación nula. Por eso
es muy importante observar los diagramas de dispersión para descubrir estas relaciones más
interesantes antes de realizar correlaciones automáticamente con la fórmula que veremos a
continuación, ya que una línea no es la única relación posible.
El coeficiente de correlación toma valores que irán desde (-1) a 1 y podemos en forma aproximada
decir que corresponden a gráficos como los siguientes:
71
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
El grado de correlación indica en qué medida existe un patrón claro de alguna relación en particular
entre dos variables. Si la correlación es positiva los valores del coeficiente de correlación, también
denominado Coeficiente de Pearson nos dará valores entre 0 y 1. Si la correlación es negativa, los
valores del coeficiente de Pearson estarán entre (-1) y 0. Los casos ideales son cuando el coeficiente da
1 o (-1). En este caso todos los puntos del diagrama de dispersión se encuentran sobre la recta.
Mientras que si los puntos forman una nube en la cual no vemos correlación de ningún tipo, o por lo
menos no es lineal, la correlación nos dará cero (0).
Para calcular el valor del coeficiente, al cual se lo designa con la letra “r” existen más de una fórmula,
nosotros usaremos una que considero es más práctica y nos llevará, a pesar de que son muchos, a
realizar menos cálculos que con los otros.
Llamando con la letra x a los valores de la variable predictora y con y a los valores de la variable
dependiente, la formula resulta:
n. (x.y) x. y
r
n. x 2 x 2 . n y 2 y 2
El símbolo significa “sumatoria” o sea al decir x significa que debemos sumar todos los
valores de la x, o sea de la variable predictora.
Vamos a calcular el coeficiente de correlación de los dos ejemplos que tomamos.
Primero veamos la relación entre la nota obtenida en un examen diagnóstico de matemática en el
ingreso de una universidad (que será tomada como variable predictora) y la nota obtenida en la primer
72
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Por ejemplo, en el caso anterior donde r = 0,901, resulta r 2 0, 812 , que interpretamos diciendo que el
81,2% de la varianza de la nota obtenida en la primer asignatura del área matemática cursada en la
universidad se relaciona con la variación de la nota obtenida en el diagnóstico de matemática. O sea
que el 19% restante responde a otras causas no analizadas.
Ejercicios
1) Un analista toma una muestra aleatoria de 10 embarques recientes por camión realizados por una
compañía y registra la distancia en millas y el tiempo de entrega aproximado al medio día más
cercano a partir del momento en que el embarque estuvo listo para su carga. Elabore el diagrama de
dispersión. Calcule el coeficiente de Pearson y el de determinación e interprete en el contexto del
problema.
Embarque Distancia (x) en Tiempo de entrega
muestreado millas (y) en días
1 825 3,5
2 215 1
3 1070 4
4 550 2
5 480 1
6 920 3
7 1350 4,5
8 325 1,5
9 670 3
10 1215 5
2) Un especialista en educación se encuentra estudiando si existe relación entre el número de horas
que los alumnos dedican al estudio y la calificación obtenida. Encuesta a 8 alumnos escogidos al
azar y los resultados son los siguientes:
Alumno Horas de estudio Calificación
obtenida
1 20 64
2 16 61
3 34 84
4 23 70
5 27 88
6 32 92
7 18 72
8 22 77
Realice un diagrama de dispersión considerando las horas de estudio como variable predictora.
Calcule el coeficiente de correlación y el de dispersión e interprete ambos en el contexto del
problema.
3) En la tabla se presentan datos relativos al número de semanas de experiencia en un empleo que
implica la conexión de componentes electrónicos en miniatura y al número de componentes que
fueron rechazados durante la última semana en el caso de 12 trabajadores aleatoriamente
seleccionados.
Obrero Semanas de Número de
muestreado experiencia (x) rechazos (y)
1 7 26
2 9 20
3 6 28
74
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
4 14 16
5 8 23
6 12 18
7 10 24
8 4 26
9 2 38
10 11 22
11 1 32
12 8 25
Realice un diagrama de dispersión. Calcule el coeficiente de correlación y el de determinación e
interprete ambos valores en el contexto del problema.
Regresión
Anteriormente se determinó el nivel de correlación entre dos variables mediante el cálculo del
coeficiente de Pearson. Vimos que cuando la correlación era alta, se podía visualizar una recta que
pasaba entre los puntos. Si la correlación es 1 o (-1) todos los puntos coinciden con la recta.
A partir de ahora, a esa recta se la llamará línea de regresión de y en x y va a servir para predecir
los valores de una variable en términos de los valores de la otra. Esta predicción no es exacta, en
realidad se cometen errores los cuales se pueden determinar.
Esta recta se denomina habitualmente como y A Bx siendo A y B dos números que reciben el
nombre de ordenada al origen y pendiente respectivamente. Gráficamente la ordenada al origen es
el punto donde la recta, al ser graficada, intercepta al eje vertical. En tanto que la pendiente nos
dice en cuánto aumenta (o disminuye) el valor de la variable dependiente cuando la predictora
aumenta en una unidad.
Estos valores se calculan de la siguiente manera:
n . (x.y) x . y
B Ay B x
n . x2 x
2
Donde y es la media de los valores de y o sea la suma de todos los valores de la variable
dependiente dividido por la cantidad de valores. Análogamente x es la media de los valores de la
variable predictora.
Volvamos al caso que analizamos antes. Copiamos de nuevo la tabla que ya confeccionamos:
Nota de Nota de x.y x2 y2
diagnóstico asignatura
(x) (y)
32 41 1312 1024 100
38 24 912 1444 225
41 52 2132 1681 144
48 46 2208 2304 324
54 65 3510 2916 441
63 58 3654 3969 625
75 66 4950 5625 1089
77 79 6083 5929 1024
79 85 6715 6241 1444
82 70 5740 6724 1296
86 79 6794 7396 2209
90 85 7650 8100 2025
75
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Recta de Regresión
90
80
70
Nota de asignatura
60
50
40
30
20
10
0
0 20 40 60 80 100
Nota de diagnóstico
Vimos que la correlación es positiva y alta, por lo que podemos ver que los puntos están muy
cercas de la recta de regresión.
Respecto de la pendiente, en este caso nos dio 0,8, esto significa que por cada punto que aumenta la
nota diagnóstica (que es la variable predictora) la nota de la asignatura del área matemática en la
universidad crece en 0,8 puntos.
Esta recta podemos utilizarla para predecir valores de la variable dependiente pero siempre dentro
del intervalo en que fue estudiada. Observe que el primer dato de nota de diagnóstico es de 32
puntos y el mayor 90. Podemos predecir el nivel de dependencia para notas entre esos dos valores.
Por ejemplo, si queremos calcular la nota en la asignatura de la carrera para un alumno que se sacó
70 en el diagnóstico, reemplazamos en la fórmula de la recta la x por 70. Resulta:
y = 11,5 + 0,8 . x = 11,5 + 0,8 . 70 = 11,5 + 56 = 67,5
Por lo tanto un alumno que se saca un 70 en la evaluación diagnóstica puede esperar una nota de 68
aproximadamente en la primer asignatura del área matemática que curse en su carrera.
Ejercicios
76
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
Calcule las rectas de regresión para todos los ejercicios realizados en el apartado anterior
correspondientes al cálculo del coeficiente de correlación. Grafique la recta en el diagrama de
dispersión de cada uno de los ejercicios.
77
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
I(L)
p .q
n o
.100
p .q
o o
Índice de Paasche: a diferencia del Laspeyres, éste índice utiliza las cantidades del período
dado. La fórmula es:
I(P)
p .q
n n
.100
p .q
o n
Los índices tanto de Laspeyres como de Paasche para la elaboración de un índice agregado de precios
pueden describirse como adscritos al enfoque de la agregación ponderada de precios. Una alternativa
es el enfoque del promedio ponderado de precios, por el cual el índice simple de precios de cada
mercancía en lo individual se pondera con una cifra de valor p.q. Los valores usados pueden
78
UNIVERSIDAD ADVENTISTA DEL PLATA ESTADÍSTICA APLICADA
corresponder al año base po .q o o al año dado pn .q n . Habitualmente, los valores del año base se
emplean como ponderaciones, lo que resulta en la siguiente fórmula para el promedio ponderado de
relativos de precios:
p
p .q p
o o .100
n
o
Ip
po .qo
Algebraicamente este índice es equivalente al índice de Laspeyres, mientras que el uso de valores del
período dado como ponderaciones resultaría en un índice equivalente al índice de Paasche.
Ejercicios
1. En la siguiente tabla se encuentran los precios y cantidades de dos productos que llamamos A y
B correspondientes a los años 2015 y 2017.
Cantidad Precio unitario
Producto
2015 2017 2015 2017
A 1500 1800 7,50 7,75
B 200 100 630 1500
a) Calcule los precios relativos para cada artículo en el 2017 usando el 2015 como base
b) Estime un índice de precios ponderado, no agregado, para el 2017 usando el 2015 como base
c) Calcule un índice de precios agregado ponderado usando los métodos de Laspeyres y Paasche.
Interprete el resultado hallado
2. Un artículo cuyo precio relativo es 132 cuesta $ 10,75 en el año 2018, tomando como período
base el año 2001, ¿en qué porcentaje aumentó o disminuyó este artículo en los 17 años?
¿Cuánto costaba en el año 2001?
3. Un fabricante compra un componente idéntico a tres proveedores independientes que difieren
en el precio unitario y la cantidad ofrecida. Los datos correspondientes a los años 2016 y 2018
son los siguientes:
Precio unitario
Proveedor
Cantidad 2016 2016 2018
A 150 5,45 6,00
B 200 5,60 5,95
C 120 5,50 6,20
a) Calcule por separado los precios relativos de los componentes para cada proveedor.
Compare el incremento de los precios para los tres proveedores.
b) Obtenga un índice de precios agregado ponderado para el componente en el 2018
c) Calcule el índice de precios agregado no ponderado para el componente en 2018. ¿Cómo
interpreta este índice el fabricante?
79