Teoria Unidad 2 Estadistica Aplicada
Teoria Unidad 2 Estadistica Aplicada
Teoria Unidad 2 Estadistica Aplicada
Es común escuchar la frase “No creo en las estadísticas”, incluso entre profesionales cercanos a la
disciplina. Efectivamente las “estadísticas” como posible ayuda a la toma de decisiones dependen de
quién y como se hayan tomado los datos y de si las respuestas que dan los encuestados se ajustan a su
opinión real. “Dime cual quieres que sea el resultado y arreglo las estadísticas”
En este sentido los datos pueden ser susceptibles de creencia puesto que uno puede dudar de la
intención del encuestado.
El Método Estadístico, tal y como está concebido en la actualidad, forma parte del saber científico y es
aceptado lo mismo que lo es, por ejemplo, la Teoría de la Relatividad en Física; no es, por tanto, terreno
de las creencias y seguirá siendo aceptado como válido hasta que alguien proponga una nueva teoría
que lo modifique.
La Estadística se configura como la tecnología del método científico que proporciona instrumentos para
la toma de decisiones cuando estas se adoptan en ambientes de incertidumbre, siempre que esta
incertidumbre pueda ser cuantficada en términos de probabilidad.
El objeto de la Estadística Aplicada son los Métodos Estadísticos, los resultados y su aplicación en
otras disciplinas científicas; la obtención teórica de dichos métodos utiliza herramientas matemáticas
(Cálculo, Algebra o Geometría) o conceptos de Cálculo de Probabilidades.
El primer concepto importante es el de población, que es el conjunto de individuos sobre los que se
desea información. La población ha de estar perfectamente definida a la hora de comenzar el estudio.
De la población se extrae un subconjunto que se denomina muestra. La muestra ha de ser
representativa de la población, en el sentido de que debe tener una composición similar en cuanto a la
proporción de distintas características.
Por ejemplo, una muestra para un estudio de estaturas no incluirá solamente individuos bajos o altos, sino
individuos de ambas clases en proporciones similares a las de la población.
Sobre cada uno de los individuos medimos una o varias características que denominamos
variables. Así a cada población le corresponde una variable aleatoria que denotaremos con X.
En general, trataremos con poblaciones infinitas, entendiendo que en la práctica "población infinita"
significa lo mismo que "población muy grande" ya que conceptualmente la mayor parte de las poblaciones
no pueden ser consideradas infinitas.
La inferencia Estadística puede dividirse en dos apartados de acuerdo con el conocimiento sobre la
distribución en la población.
Inferencia Paramétrica:
Se conoce la forma de la distribución (Normal, Binomial, Poisson, etc .... ) pero se
desconocen sus parámetros. Se realizan inferencias sobre los parámetros desconocidos de la
distribución conocida.
Inferencia No Parámetrica:
Forma y parámetros desconocidos. Se realizan inferencias sobre características que no tienen
porque ser parámetros de una distribución conocida (Mediana, Estadísticos de Orden).
De acuerdo con la forma en que se estudian los parámetros o características desconocidas, la inferencia
puede dividirse en dos apartados:
Estimación:
Se intenta dar estimaciones de los parámetros desconocidos sin hacer hipótesis previas sobre posibles
valores de los mismos.
Estimación puntual: Un único valor para cada parámetro.
Estimación por intervalos: Intervalo de valores probables para el parámetro.
Contraste de Hipótesis:
Se realizan hipótesis sobre los parámetros desconocidos y se desarrolla un procedimiento para comprobar
la verosimilitud de la hipótesis planteada.
3.- MUESTREO
Los pasos a seguir para la recolección de una muestra son los siguientes:
- Definir la población en estudio especificando las unidades que la componen, el área geográfica
donde se realiza el estudio (si procede) y el periodo de tiempo en el que se realizará el mismo.
- Definir el marco: listado o descripción de los elementos que forman la población.
- Definir la unidad de muestreo: Ciudades, calles, hogares, individuos, etc ...
- Definir las variables a medir o las preguntas que se harán si se trata de una encuesta.
4
MUESTREO SISTEMATICO
- Se ordenan los individuos de la población y se numeran.
- Se divide la población en tantos grupos como individuos se quieren tener en
la muestra.
Se selecciona uno al azar en el primer grupo y se elige el que ocupa el mismo
lugar en todos los grupos.
-La ventaja principal es que es más sencillo y más barato que el muestreo
aleatorio simple, además, se comporta igual si no hay patrones o periodicidades en los datos.
-La aparición de patrones desconocidos puede llevar a importantes errores en la estimación de los
parámetros.
Este tipo de muestreo puede utilizarse, por ejemplo, en encuestas telefónicas programadas mediante
ordenador.
- Este tipo de muestreo se utiliza fundamentalmente para reducir los costos de toma de muestras al tomar
grupos de individuos completos.
MUESTREO ESTRATIFICADO
-Se divide la población en grupos homogéneos (estratos) de acuerdo con las
características a estudiar. Por ejemplo, en un estudio de las características
socioeconómicas de una ciudad los estratos pueden ser los barrios de la
misma, ya que los barrios suelen presentar características diferenciales.
-Se selecciona una muestra aleatoria de cada estrato tratando de que todos
los estratos de la población queden representados.
-Permite utilizar información a priori sobre la estructura de la población en
relación con las variables a estudiar.
-Obtiene representantes de todos los estratos de la población.
-Diferentes opciones de selección del tamaño de la muestra en los estratos:
-El mismo número en cada estrato.
-Proporcional. (La más común)
-Optima.
Todo lo que veremos a continuación está pensado para poblaciones infinitas (muy grandes) y con
muestreo aleatorio simple. El muestreo aleatorio simple garantiza una muestra representativa de la
población y la obtención de observaciones independientes.
Dada una población X, el proceso de muestreo consiste en obtener, al azar, un valor de la variable X, x 1;
El valor obtenido puede ser cualquiera de los de la población, luego los posibles valores para x 1 son todos
los de X, y por tanto x1 puede considerarse como una realización particular (observación) de una variable
aleatoria X1 con la misma distribución que X.
El proceso continúa hasta obtener una muestra de tamaño n, n observaciones x 1, x2, ... , xn de n variables
aleatorias X1, X2, ... , Xn independientes e idénticamente distribuidas.
Definición: Sea X una variable aleatoria con f.d.p F, y sean X 1, X2, ... , Xn , n variables aleatorias
independientes con la misma f.d.p F que X. Se dice que X 1, X2, ... , Xn , son una muestra aleatoria de
tamaño n de F o bien n observaciones independientes de X.
Hemos utilizado letras minúsculas, como en descriptiva, para denotar las observaciones particulares de
una muestra, y letras mayúsculas para denotar las variables aleatorias de las que se han tomado. A lo
largo de la exposición teórica ambas serán intercambiables y serán utilizadas indistintamente para
representar a las correspondientes variables aleatorias.
Otra forma de ver la muestra es como una variable aleatoria multivariante con función de densidad de
probabilidad es el producto de las funciones de densidad de cada una de las componentes (ya que son
independientes)
Definición: Un estadístico es una función de los valores muestrales que no depende de ningún
parámetro poblacional desconocido.
Un estadístico es también una variable aleatoria ya que es una función de variables aleatorias. Por
ejemplo la media muestral
Supongamos que disponemos de una población finita en la que disponemos de 4 individuos que
toman los valores {1, 2, 3, 4}.
- Supongamos que obtenemos una muestra sin reemplazamiento de tamaño 2.
- Las distintas posibilidades son
Es claro que la media muestral no es un valor fijo sino que puede considerarse también como una variable
aleatoria de la que tenemos una sola observación, la media de la muestra concreta seleccionada.
Dicha variable tendrá una distribución de probabilidad asociada. (En este caso una distribución discreta
que toma los valores 1.5, 2, 2.5, 3 y 3.5 con probabilidades 1/6, 1/6, 2/6, 1/6, 1/6, respectivamente.
- En la mayor parte de los casos supondremos que nuestra población tiene distribución
normal y que los estadísticos que vamos a utilizar son la media y la desviación típica (o la
desviación típica).
Sea X1, X2, ... , Xn , una muestra aleatoria de una población X en la que
E(X) = m Var(X)= s2
Entonces el valor esperado (media) y la varianza del estadístico "media muestral" son
7
La distribución muestral asociada a varianzas es un poco más compleja y su obtención supera los objetivos
del curso, de forma que nos limitaremos a exponerlas.
Sea X1, X2, ... , Xn , una muestra aleatoria simple de una población X º N(m, s 2), entonces la variable
aleatoria
- Lo que hemos visto hasta el momento parece bastante restrictivo ya que hemos supuesto, de
entrada, que la distribución en la población es normal, pero existen muchos casos en los que no
es posible suponer distribución Normal.
El siguiente resultado permite trabajar con la normal para la distribución muestral de medias
aunque la población no lo sea, y es conocido como Teorema Central del Límite.
Sea X1, X2, ... , Xn , una muestra aleatoria de una población X con una distribución de probabilidad no
especificada para la que la media es E(X) = m y la varianza Var(X)= s 2 finita. La media muestral tiene una
distribución con media m y varianza s2 /n que tiende a una distribución normal cuando n tiende a infinito.
La aproximación a la distribución normal es mejor para n grande ya que se trata de una aproximación y no
de una distribución exacta como en el caso de poblaciones normales. En Estadística consideramos n
grande cuando es mayor de 30.
8
Una consecuencia directa del teorema es que la suma de los valores muestrales sigue una distribución
normal de media nm y varianza ns2.
Supongamos ahora que disponemos de una población en la que se mide una variable X con distribución
de forma conocida y parámetros desconocidos, por ejemplo una normal con media y varianzas
desconocidas como en el caso práctico que planteábamos anteriormente.
De la población se extrae una muestra aleatoria simple de tamaño n, X 1, X2, ... , Xn. Se trata de calcular, a
partir de los valores muestrales, una función de los mismos que proporcione un valor = u(X2, ... , Xn) que
sustituya al parámetro desconocido de la población q, de forma que ambos sean lo más parecidos en algún
sentido. A tal valor obtenido de la muestra se le denomina estimador.
8.-METODOS DE ESTIMACION
Los valores muestrales X1, ... , Xn se supone que son variables aleatorias independientes y todas con
distribución N(m, s). La función de densidad conjunta será el producto de las funciones de densidad de
cada una de ellas.
Tomando logaritmos
Sea una muestra aleatoria simple, X1, X2, ...... , Xn de una población con distribución N(m , s).
Estimador de la media
-Estimador de la Varianza
-BINOMIAL
Si se toman muestras de poblaciones infinitas o se realiza un muestreo con reemplazamiento de una
población finita. Se realizan n pruebas y se contabiliza el número de éxitos en las n pruebas. El estimador
de la proporción de éxito es
Aproximando X mediante una distribución normal, la distribución muestral del estimador de la probabilidad
de éxito para muestras grandes es
-HIPERGEOMETRICA
Aproximando X mediante una distribución normal, la distribución muestral del estimador de la probabilidad
de éxito para muestras grandes es
10
INTRODUCCION
Dada una muestra aleatoria X1, X2, ... , Xn , de una población con función de densidad f(x; q) Un intervalo
de confianza, de extremos L1 y L2, para el parámetro q de la población es un par ordenado de funciones
reales de las n medidas de la muestra
construidas de forma que la probabilidad de que los extremos contengan al verdadero valor del parámetro
es un valor prefijado 1 - a. Al número 1 - a se le denomina “nivel de confianza”.
El nivel de confianza suele ser 0,95 (95%) ó 0,99 (99%). La interpretación práctica es sencilla, por
ejemplo si el nivel de confianza es del 95%, significa que en el 95% de las veces que repitieramos el
experimento, el intervalo de confianza calculado contendría al verdadero valor del parámetro y en el 5%
restante el intervalo no contendría el verdadero valor.
Una vez que el intervalo de confianza ha sido particularizado para una muestra concreta, el intervalo
obtenido contiene o no contiene al verdadero valor del parámetro, con probabilidad 1, por esa razón,
cuando ya tenemos un valor concreto hablamos de confianza y no de probabilidad. Confiamos en que el
intervalo que hemos calculado sea del 95% que contiene el verdadero valor.
Supongamos que disponemos de una población en la que tenemos una v.a. con distribución N(m , s) con
s conocida (de estudios previos, por ejemplo).
Obtenemos una muestra de tamaño n y deseamos estimar la media m de la población.
El estimador puntual de la misma es la media muestral cuya distribución muestral es conocida
la cantidad
Figura 1: Selección de los puntos críticos para el cáculo del intervalo de confianza.
11
en la práctica, de todos los posibles valores de tenemos uno sólo y por tanto un único intervalo de
todos los posibles para distintas muestras
La importancia del intervalo de confianza para la estimación está en el hecho de que el intervalo contiene
información sobre el estimador puntual (valor central del intervalo) y sobre el posible error en la estimación
a través de la dispersión y de la distribución muestral del estimador. Observese que el error en la
estimación está directamente relacionado con la distribución muestral del estimador y con la varianza
poblacional, e inversamente relacionado con el tamaño muestral.
El gráfico siguiente ilustra la interpretación del nivel de confianza para el intervalo de confianza para la
media de una distribución normal con varianza conocida. Para los distintos posibles valores de la media,
representados mediante su distribución muestral, obtenemos distintos intervalos de confianza. La mayor
parte incluye al verdadero valor del parámetro, pero el resto no. Concretamente el 95% lo incluye y el 5%
no, si el nivel de confianza es del 95%.
En la práctica disponemos de una única repetición del experimento, y por tanto de un único intervalo de
confianza, el señalado en negro en el gráfico, por ejemplo. Confiamos en que nuestro intervalo sea de la
mayoría que con tiene al verdadero valor objetivo aunque no tenemos la seguridad de que sea así, tenemos
concretamente un riesgo del 5% de equivocarnos.
12
Figura 2: Interpretación del nivel de conmfianza en el intervalo para la media de una distribición normal.
En la práctica hemos de tratar de que la longitud del intervalo de confianza sea lo más pequeña posible,
es decir, que el error en la estimación sea lo mas pequeño posible.
Esto puede conseguirse modificando las distintas cantidades que aparecen en la fórmula: el nivel de
confianza, a través del valor crítico, la variabilidad y el tamaño muestral. Estudiaremos cada una por
separado
-NIVEL DE CONFIANZA
La longitud del intervalo de confianza aumenta al aumentar el nivel de confianza ya que el valor crítico de
la distribución es mayor. Si consideramos un nivel de confianza del 100%, el intervalo de confianza será
que, evidentemente contiene al verdadero valor del parámetro pero no es de ninguna utilidad
en la práctica. Si disminuimos el nivel de confinza también disminuye la longitud, sin embargo conviene
mantenerlo en unos límites razonables que suelen ser del 95% o del 99% en la mayor partede las
aplicaciones.
-VARIANZA
La longitud del intervalo de confianza disminuye con la varianza, es decir, la estimación será más precisa
cuanto menor sea la variabilidad en la población, lo que significa que la población es más homogénea. En
la práctivca es posible obtener estimaciones más precisas, por ejemplo, restringiendo la población a
conjunts lo m,ás homogéneos posible.
-TAMAÑO MUESTRAL
La longitud del intervalo de confianza disminuye al aumentar el tamaño muestral, lo que significa que se
obtienen estimaciones más precisas cuanto mayor sea el tamaño muestral. Debido a consideraciones
prácticas de coste y tiempo, en general no es posible aumentar indefinidamente el tamaño muestral para
obtener estimaciones más precisas, es por ello que en la práctica se selecciona el tamaño muestral
necesario para obtener una determinada precisión, establecida a priori.
CALCULO DEL TAMAÑO MUESTRAL PARA ESTIMAR LA MEDIA DE UNA POBLACION CON UNA
DETERMINADA PRECISION
13
Supóngase que un investigador está interesado en estimar la media de una población normal de forma
que la diferencia existente entre la media muestral que obtenfdrá del experimento y la media poblacional
verdadera, esté por debajo de un error prefijado de antemano.
podemos escribir
Despejando n de la igualdad
Obsérvese que en el cálculo del tamaño muestral se han igualado el error fijado a priori con el error en la
estimación obtenido del intervalo de confianza y que este último incluye el nivel de confianza. En este
aprtado un nivel de confianzadel 95%, por ejemplo, implicaria que en el 95% de las veces que repitieramos
el experimento con el tamaño muestral calculado, obtendríamos un error por debajo del prefijado, mientras
que en el 5% restante obtendríamos un error superior.
La situación práctica más habitual es aquella en la que no se conoce la varianza de la población, que habrá
que estimar a partir de los datos muestrales. Utilizaremos la cuasi-varianza muestral como estimador por
sus buenas propiedades.
Teniendo en cuenta la distribución normal asociada a las medias y combinándola con la ji-cuadrado,
obtenemos una distribución t de Student:
14
Obsérvese la similitud con el intervalo calculado para la distribución normal, salvo en el valor crítico y en
que la varianza ha sido estimada a partir de la muestra.
Desde el punto de vista práctico esto implica que los valores críticos son un poco más grandes y, por tanto
el intervalo tiene mayor longitud, este es el precio que debemos pagar a cambio de no conocer la varianza
de la población.
Cuando el tamaño muestral es grande, la distribución t es muy similar a la normal, de forma que pueden
intercambiarse los valores críticos correspondientes. El intervalo de confianza para la media en muestras
grandes se puede escribir como