Estadistica - 2do Parcial

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 12

Estadística -2do Parcial

Introducción al Muestreo
Universo: conjunto de unidades de análisis con características comunes (N:
tamaño del universo).
Población: Cualquier variable particular que se estudia en el universo (N: tamaño
de la población)
CENSO: estudiar a TODA la población, es decir, se necesitan TODAS LA
VARIABLES DE LA POBLACIÓN
Muestra: Subconjunto de la población (n: tamaño de la muestra).
MUESTRA: estudiar a un subconjunto, UNA PARTE de la población
Inferencia estadística: brindar una afirmación sobre la población, pero a partir
de datos tomados de una muestra.
Los principales Problemáticas a la hora de hacer Censos:
 Costos: si el tamaño de la población es demasiado grande en relación al
presupuesto disponible.
 Metodológico: muchas veces medir la totalidad de la población puede
implicar la destrucción de la unidad de análisis, es decir, tiene un carácter
destructivo, o mismo los análisis de sangre, solo se pueden tomar a partir
de una muestra.
Tipos de Muestreo:
 Muestreo Probabilístico: los valores que componen la muestra son
tomados al azar, independientemente del criterio, por ello se lo considera
un experimento aleatorio.
Dentro del muestreo probabilístico hay distintos métodos:
1. Muestreo simple al azar: se emplea cuando se tiene evidencia de
que la población con la que se trabaja es homogénea.
2. Muestreo estratificado: cuando se tiene evidencia de que una
población es heterogénea, se recomienda dividir a la misma en
estratos que si sean homogéneos para poder tomar las muestras de
cada uno de los estratos. Una vez que se obtienen los estratos, la
muestra que se puede tomar bajo los siguientes criterios: de
manera uniforme, es decir se toma la misma cantidad de cada uno;
o de manera proporcional, la cantidad de elementos que conforman
la muestra de cada uno dependerá del tamaño de los mismos
estratos.
3. Muestreo por conglomerados polietápicos: se utiliza cuando
los valores que conforman la población ya tiene algún tipo de
división o calificación.
4. Muestro sistemático: se emplea cuando hay evidencia de que es
importante el orden en que se presentan los valores de variable.
 Muestreo Sin Norma ----> Las unidades de análisis que conforman la
muestra son elegidas, pero sin un criterio definido
 Muestreo Intencional ----> Las unidades de análisis que conforman la
muestra son elegidas, pero con un criterio definido
El parámetro (Ө) es cualquier medida que resuma información poblacional. Por
lo tanto, siempre tienen un único valor.
En cambio, el estimador son las medidas que resumen información, calculadas
a partir de los datos de una muestra. Estos son variables aleatorias, porque sus
valores pueden variar en función de la muestra aleatoria que se toma. Solo es
así en caso de que el muestreo sea probabilístico.

Esperanzas y Varianzas de los estimadores.


Distribuciones de los estimadores.
*

Intervalos de confianza.
Es un método de estimación que permite el cálculo de los límites de un
conjunto cerrado y acotado de posibles valores del parámetro, con una
confianza de que dicho intervalo cubra el verdadero valor del
parámetro, a partir de una muestra ante la imposibilidad de censar.
Estimar es conocer con errores y se pueden cuantificar los mismos.
Una Estimación se puede ser:
 Puntual: se da un valor único como respuesta.
 Por intervalo: se dan dos valores como límites (inferior y superior) que
podrían cubrir el verdadero valor del parámetro.
Cuando se habla de calcular el intervalo no hay certeza de que este contenga el
verdadero valor de variable, por eso se habla de que es una PROBABILIDAD
P (Límite inferior ≤ θ ≤ Límite superior) = 1 - ε

1 – ε: Nivel de confianza.
Siendo la probabilidad de que el intervalo contenga al verdadero valor del
parámetro. Acostumbrándose a usar de confianza el valor 0.95 (en medicina y
alimentos se usa 0.99).
ε: Nivel de riesgo.
Siendo la probabilidad de que el intervalo no contenga el valor del parámetro. Al
ser el complemento del de la confianza, se acostumbra a que su valor sea 0.05.
En definitiva, no es el parámetro el que podría estar dentro de los límites, sino
que la estimación por intervalos busca determinar los límites que pudieran cubrir
al verdadero valor del parámetro.

A la hora de interpretar es correcto decir que “hay una confianza del 95% de que
el intervalo contiene el valor del parámetro” o “ de cada 100 intervalos
estimados, 95 contendrán el verdadero valor del parámetro”.

Intervalos de Confianza para la Media Poblacional

Dependiendo de la distribución del estimador de la media muestral, será la


manera en que construiremos el intervalo de confianza. En efecto, tendremos
tres, maneras distintas de plantear el calculo del intervalo para la media.

A la estimación puntal se le resta para el límite inferior, o se le suma para el


límite superior, la multiplicación entre el factor de confianza y el desvío del
estimador.

El producto entre el valor del factor de confianza y el desvío del estimador, es el


Margen de Error. Ese error de muestreo es la máxima diferencia entre el
estimador y el parámetro.
Intervalos de Confianza para la Varianza
La estimación por intervalo para la varianza es:

Siendo “a” el percentil (ε/2) de la distribución Chi cuadrado, mientras que “b” es
el percentil (1 - ε/2) de la misma distribución.
Como la varianza no tiene interpretación necesitamos el intervalo de confianza
para el desvío, para eso vamos a aplicar raíz cuadrada a los límites del
intervalo para la varianza, ya que sino no serviría y no se podría interpretar.

Intervalos de Confianza para la Proporción


Se considera que su estimador (p) tiene distribución normal, por lo que
estaremos trabajando con un único caso, en donde la expresión del intervalo
será:

Algunos aspectos de los Intervalos de Confianza


 El intervalo para la media y la proporción son intervalos Aditivos, ya que
se suma o resta el valor del margen de error a la estimación puntual.
Mientras que el intervalo para la varianza o el desvío estándar es un
intervalo No Aditivo.
 Los intervalos de confianza aditivos trabajan con estimadores cuyas
distribuciones de probabilidad son simétricas, mientras que los no
aditivos emplean distribuciones asimétricas.
 El error de muestreo tiene una relación inversa con el tamaño de
muestra. Si el tamaño de muestra (n) se incrementa, éste comienza a
acercarse al tamaño del universo (N) haciendo que el margen de error sea
cada vez menor.
 El error de muestreo tiene una relación directa con el nivel de
confianza. Notaremos que el factor de confianza (quien vincula al error
con el nivel de confianza) se encuentra en el numerador de la fórmula,
dando cuenta de su relación directa. Mientras más alto sea el nivel de
confianza, mayor valor tendrá el factor de confianza (el percentil 1 - ε/2),
por lo que el error de muestreo se incrementará, y la amplitud del
intervalo (A = Ls - Li) se agrandará.
 El factor de confianza es el percentil de orden (1 - ε/2). El factor de
confianza nos viene a decir cuántos desvíos del estimador se suman y
restan a la estimación puntual para obtener la estimación por intervalo.
 La semidiferencia de los límites da como resultado el error de muestreo.
Por ello, si restamos el valor del limite inferior al valor del limite superior, y
luego lo dividimos por dos, obtendremos cuánto vale el margen de error
de dicha estimación:

Prueba de hipótesis.
La prueba de hipótesis es una herramienta que nos permite determinar, en base
a un supuesto, si aquella afirmación en valida o no, a partir de los datos
obtenidos de una muestra y considerando que podemos cometer un error al
momento de tomar aquella decisión.
El curso de acción señala las alternativas que hacen a la afirmación valida o no.
En base a eso se plantean dos Hipótesis:
 Nula: hace referencia a aquello que estamos probando, y en su expresión
lleva la igualdad y la desigualdad equivalente en cuanto a su curso de
acción.
 Alternativa: es la que debería cumplirse si rechazamos la hipótesis nula.
Hay distintos tipos de pruebas dependiendo de donde se encuentre la región
critica, es decir, la zona donde se rechaza la hipótesis nula porque es
insostenible la hipótesis.
 Prueba unilateral derecha: la hipótesis alternativa lleva el signo mayor.
 Prueba unilateral izquierda: la hipótesis alternativa lleva el signo
menor.
 Prueba bilateral: la hipótesis alternativa lleva el signo de desigualdad.
Siempre la región va a tener un valor de 0.05
En las pruebas de hipótesis se busca el P-valor, es la probabilidad de que, con
los datos de la muestra, al rechazar la hipótesis nula, estemos cometiendo un
error.
El p-valor depende del tipo de prueba que se este realizando y del estadístico de
prueba correspondiente a la distribución del estimador.
Si el p-valor ≤ 0.05 se rechaza la hipótesis nula, por ende, hay suficiente
evidencia muestral para tomar la hipótesis alternativa. Ahora si el p-valor
>0.05 no se rechaza la hipótesis nula, por lo tanto, se puede decir que no hay
suficiente evidencia muestral para concluir que la hipótesis alternativa es válida.
En otros palabras el P-valor es una probabilidad condicional, P ( cuán probable
es que haya un error si rechazo / evidencia de la muestra ) : 0.05
rechazo , 0.95 No rechazo.
En base a la Hip Nula que puede ser:
 Verdadera ---> Rechazo (Error tipo 1, rechazando algo que es
verdadero)
No Rechazo (😀)
 Falsa ----> Rechazo (😀)
No Rechazo (Error tipo 2, no rechazo algo que es falso)
Prueba de hipótesis par dos poblaciones.
Para comprar varianzas, se va a utilizar la comparación por cociente, estas son
pruebas de homocedasticidad, es decir se va a intentar identificar si dos
varianzas son iguales o no, y para ello se utiliza la distribución F de Snedecor.
Por ende, las pruebas son bilaterales:

Para los promedios y proporciones se utiliza la comparación por diferencia. La


comparación de medias o proporciones pueden ser unilaterales, y se pueden
expresar:

Cuando se intenta verificar si los promedios o las proporciones son iguales se


suelen llamar pruebas de significatividad, porque se intenta verificar si hay
diferencias significativas en las poblaciones a partir de cualquiera de los dos
parámetros.
Análisis de regresión.
Es un método estadístico que permite explicar el comportamiento de una
variable a partir del estudio de otra u otras variables, desarrollando con ello un
modelo matemático que explicite dicha relación.
Y = Variable Dependiente o Variable Explicada
X = Variable Independiente o Variable Explicativa

El modelo de regresión con una única variable x, estamos en presencia de un


modelo de regresión simple (MRS). En cambio, cuando el modelo presenta
dos o mas variables x, se trata de un modelo de regresión múltiple (MRM).
Cuanto más complejo el modelo, más inútil para predecir es.
Cuando la función de regresión tiene forma de “a.x +b”, la regresión es lineal.
Esto de debe a que es una recta.
A la hora de predecir, el promedio es el número que minimiza el error, ya que es
quien está más cercano a todos los datos. Pero lo que hace la recta de
regresión es pasar por el medio de los puntos que representan la relación de
las variables en un diagrama de dispersión, corrigiendo así la estimación del
promedio, y generado predicciones más precisas.

Residuos.
El residuo es la cuantificación del impacto de esas otras variables que conforman
el error, es la diferencia entre lo observado y lo esperado.

Un residuo es un desvío, por ende, su suma da 0. Es lo que te desvías de la


recta.
Coeficiente de determinación (R²).
Mide la proporción de la variación total de la variable dependiente que es
explicada por la regresión.
El R² está entre 0 y 1 ya que es un porcentaje y una cantidad relativa. Cuando es
igual a 1 toda la variación en y es explicada por x; cuando es igual a 0 las
variables no tienen relación.

Se utiliza para saber que tan eficiente es nuestra variable (medida de bondad
de ajuste , cuanto la predicción se ajusta a lo observado, cuanto el modelo
ayuda a predecir), si el porcentaje que explica X es muy bajo significa que no
estaría muy relacionadas las dos variables y habría que cambiar X. Dentro del
total de variación una parte es el R² y la otra es la RESIDUAL , es decir el error.
A mayor R², mas confiable se hace la predicción de la recta.

Residuo = Observado - Predicción (Modelo)


Semáforo de R2 que tan confiable es :

Varianza residual muestral.


También conocido como Error Típico, mide la variabilidad de los residuos (la
diferencia entre los valores de Y y los valores predichos por la recta), en general,
cuando mejor es el ajuste o predicción de la recta al conjunto de datos, menor es
el error típico.
Coeficiente de correlación.
mide el grado de asociación entre las variables, va del -1 al 1, Mientras más
cercano al 1 o al -1 sea su resultado, mayor será la asociación entre las
variables; y mientras más se acerque al 0, menor será la asociación entre las
variables.

Cuando la relación de las variables es igual a 0, puede ser que sea porque no
tienen NADA que ver las variables o que de por sí no haya una relación lineal.
Interpretación de Excel (para el parcial) :

Pasos para analizar un Modelo de Regresión en función a una base de datos en


Excel:
1. Calcular el Coeficiente de Correlación, para ver si las variables en cuestión
están relacionadas o no, sino es todo al pedo (detectar las variables).
2. Encontrar el Error Típico, para saber cuánto varía el valor residual de la
recta promedio.
Ui = Residuos
E(Ui) = 0, debido a que el residuo es un desvío la suma de los mismo es igual
a cero, al hacer la esperanza también daría cero, no existe coeficiente de
variación (CV) de la VRM. CV(Ui) = S(Ui) / E(Ui) = 0
R² Ajustado ------> Cuando hay Regresión Múltiple, o sea muchas variables que
explican
Coeficientes ----> Nos dicen como se plantea la recta de Regresión
Error Típico ----> Cuanta es la variabilidad de los coeficientes
Estadístico t y Probabilidad -----> son PRUEBAS DE SIGNIFICATIVIDAD de
los coeficientes, parecido al de hipótesis, P-Valor = Probabilidad (para probar Ho
y Hi), Estadístico t = EP (calcular p-valor). La prueba de significatividad analiza
los coeficientes del modelo para ver si son eficientes o no.
Ho = βj = 0 -----> Coeficientes NO Significativos (o sea que NO valen la pena
que estén)
Hi = βj ≠ 0 ------> Coeficientes Significativos (o sea que valen la pena que
estén)
Análisis de la Varianza -----> prueba de significatividad GLOBAL del modelo
COMPLETO, NO de los coeficientes y componentes por separado como antes.
Se evalúa calidad y significancia del modelo de regresión. Lo único que sirve es
saber el P-Valor para saber si Rechaza o No rechaza Ho.
Ho = Y- F(x) = 0 -----> Modelo NO Significativo
Hi = Y- F(x) ≠ 0 ------> Modelo Significativo

También podría gustarte