Estadistica - 2do Parcial
Estadistica - 2do Parcial
Estadistica - 2do Parcial
Introducción al Muestreo
Universo: conjunto de unidades de análisis con características comunes (N:
tamaño del universo).
Población: Cualquier variable particular que se estudia en el universo (N: tamaño
de la población)
CENSO: estudiar a TODA la población, es decir, se necesitan TODAS LA
VARIABLES DE LA POBLACIÓN
Muestra: Subconjunto de la población (n: tamaño de la muestra).
MUESTRA: estudiar a un subconjunto, UNA PARTE de la población
Inferencia estadística: brindar una afirmación sobre la población, pero a partir
de datos tomados de una muestra.
Los principales Problemáticas a la hora de hacer Censos:
Costos: si el tamaño de la población es demasiado grande en relación al
presupuesto disponible.
Metodológico: muchas veces medir la totalidad de la población puede
implicar la destrucción de la unidad de análisis, es decir, tiene un carácter
destructivo, o mismo los análisis de sangre, solo se pueden tomar a partir
de una muestra.
Tipos de Muestreo:
Muestreo Probabilístico: los valores que componen la muestra son
tomados al azar, independientemente del criterio, por ello se lo considera
un experimento aleatorio.
Dentro del muestreo probabilístico hay distintos métodos:
1. Muestreo simple al azar: se emplea cuando se tiene evidencia de
que la población con la que se trabaja es homogénea.
2. Muestreo estratificado: cuando se tiene evidencia de que una
población es heterogénea, se recomienda dividir a la misma en
estratos que si sean homogéneos para poder tomar las muestras de
cada uno de los estratos. Una vez que se obtienen los estratos, la
muestra que se puede tomar bajo los siguientes criterios: de
manera uniforme, es decir se toma la misma cantidad de cada uno;
o de manera proporcional, la cantidad de elementos que conforman
la muestra de cada uno dependerá del tamaño de los mismos
estratos.
3. Muestreo por conglomerados polietápicos: se utiliza cuando
los valores que conforman la población ya tiene algún tipo de
división o calificación.
4. Muestro sistemático: se emplea cuando hay evidencia de que es
importante el orden en que se presentan los valores de variable.
Muestreo Sin Norma ----> Las unidades de análisis que conforman la
muestra son elegidas, pero sin un criterio definido
Muestreo Intencional ----> Las unidades de análisis que conforman la
muestra son elegidas, pero con un criterio definido
El parámetro (Ө) es cualquier medida que resuma información poblacional. Por
lo tanto, siempre tienen un único valor.
En cambio, el estimador son las medidas que resumen información, calculadas
a partir de los datos de una muestra. Estos son variables aleatorias, porque sus
valores pueden variar en función de la muestra aleatoria que se toma. Solo es
así en caso de que el muestreo sea probabilístico.
Intervalos de confianza.
Es un método de estimación que permite el cálculo de los límites de un
conjunto cerrado y acotado de posibles valores del parámetro, con una
confianza de que dicho intervalo cubra el verdadero valor del
parámetro, a partir de una muestra ante la imposibilidad de censar.
Estimar es conocer con errores y se pueden cuantificar los mismos.
Una Estimación se puede ser:
Puntual: se da un valor único como respuesta.
Por intervalo: se dan dos valores como límites (inferior y superior) que
podrían cubrir el verdadero valor del parámetro.
Cuando se habla de calcular el intervalo no hay certeza de que este contenga el
verdadero valor de variable, por eso se habla de que es una PROBABILIDAD
P (Límite inferior ≤ θ ≤ Límite superior) = 1 - ε
1 – ε: Nivel de confianza.
Siendo la probabilidad de que el intervalo contenga al verdadero valor del
parámetro. Acostumbrándose a usar de confianza el valor 0.95 (en medicina y
alimentos se usa 0.99).
ε: Nivel de riesgo.
Siendo la probabilidad de que el intervalo no contenga el valor del parámetro. Al
ser el complemento del de la confianza, se acostumbra a que su valor sea 0.05.
En definitiva, no es el parámetro el que podría estar dentro de los límites, sino
que la estimación por intervalos busca determinar los límites que pudieran cubrir
al verdadero valor del parámetro.
A la hora de interpretar es correcto decir que “hay una confianza del 95% de que
el intervalo contiene el valor del parámetro” o “ de cada 100 intervalos
estimados, 95 contendrán el verdadero valor del parámetro”.
Siendo “a” el percentil (ε/2) de la distribución Chi cuadrado, mientras que “b” es
el percentil (1 - ε/2) de la misma distribución.
Como la varianza no tiene interpretación necesitamos el intervalo de confianza
para el desvío, para eso vamos a aplicar raíz cuadrada a los límites del
intervalo para la varianza, ya que sino no serviría y no se podría interpretar.
Prueba de hipótesis.
La prueba de hipótesis es una herramienta que nos permite determinar, en base
a un supuesto, si aquella afirmación en valida o no, a partir de los datos
obtenidos de una muestra y considerando que podemos cometer un error al
momento de tomar aquella decisión.
El curso de acción señala las alternativas que hacen a la afirmación valida o no.
En base a eso se plantean dos Hipótesis:
Nula: hace referencia a aquello que estamos probando, y en su expresión
lleva la igualdad y la desigualdad equivalente en cuanto a su curso de
acción.
Alternativa: es la que debería cumplirse si rechazamos la hipótesis nula.
Hay distintos tipos de pruebas dependiendo de donde se encuentre la región
critica, es decir, la zona donde se rechaza la hipótesis nula porque es
insostenible la hipótesis.
Prueba unilateral derecha: la hipótesis alternativa lleva el signo mayor.
Prueba unilateral izquierda: la hipótesis alternativa lleva el signo
menor.
Prueba bilateral: la hipótesis alternativa lleva el signo de desigualdad.
Siempre la región va a tener un valor de 0.05
En las pruebas de hipótesis se busca el P-valor, es la probabilidad de que, con
los datos de la muestra, al rechazar la hipótesis nula, estemos cometiendo un
error.
El p-valor depende del tipo de prueba que se este realizando y del estadístico de
prueba correspondiente a la distribución del estimador.
Si el p-valor ≤ 0.05 se rechaza la hipótesis nula, por ende, hay suficiente
evidencia muestral para tomar la hipótesis alternativa. Ahora si el p-valor
>0.05 no se rechaza la hipótesis nula, por lo tanto, se puede decir que no hay
suficiente evidencia muestral para concluir que la hipótesis alternativa es válida.
En otros palabras el P-valor es una probabilidad condicional, P ( cuán probable
es que haya un error si rechazo / evidencia de la muestra ) : 0.05
rechazo , 0.95 No rechazo.
En base a la Hip Nula que puede ser:
Verdadera ---> Rechazo (Error tipo 1, rechazando algo que es
verdadero)
No Rechazo (😀)
Falsa ----> Rechazo (😀)
No Rechazo (Error tipo 2, no rechazo algo que es falso)
Prueba de hipótesis par dos poblaciones.
Para comprar varianzas, se va a utilizar la comparación por cociente, estas son
pruebas de homocedasticidad, es decir se va a intentar identificar si dos
varianzas son iguales o no, y para ello se utiliza la distribución F de Snedecor.
Por ende, las pruebas son bilaterales:
Residuos.
El residuo es la cuantificación del impacto de esas otras variables que conforman
el error, es la diferencia entre lo observado y lo esperado.
Se utiliza para saber que tan eficiente es nuestra variable (medida de bondad
de ajuste , cuanto la predicción se ajusta a lo observado, cuanto el modelo
ayuda a predecir), si el porcentaje que explica X es muy bajo significa que no
estaría muy relacionadas las dos variables y habría que cambiar X. Dentro del
total de variación una parte es el R² y la otra es la RESIDUAL , es decir el error.
A mayor R², mas confiable se hace la predicción de la recta.
Cuando la relación de las variables es igual a 0, puede ser que sea porque no
tienen NADA que ver las variables o que de por sí no haya una relación lineal.
Interpretación de Excel (para el parcial) :