FundamentosEstadistica GES-4

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

Fundamentos de estadística

GES 4
A veces estaremos interesados en estimar el valor de algún aspecto de la población
(parámetro) desconocido (como la media μ, o la desviación estándar σ) a partir del estudio
de una muestra. A esto se le llama hacer inferencia estadística.

1) Estimación de un parámetre estadístico

- Estimación puntual: Suponemos que X es una variable aleatoria que mide alguna
propiedad de una población (por ejemplo, X podría representar la altura de los
estudiantes de la UOC). Para conocer con exactitud la media poblacional (μ) o la
desviación estándar poblacional (σ) tendríamos que medir a todos los individuos de
la población (eso es muy costoso en tiempo y en dinero). A pesar de ello, podemos
estimar esta μ y σ cogiendo una muestra de la población y calculando el parámetro
muestral asociado ( para la media μ, s para la desviación estándar σ, etc.). Este
tipo de estimación se conoce como estimación puntual del parámetro poblacional.

Hay dos propiedades que son francamente deseables en cualquier estimador


muestral: que no esté sesgado y que tenga poca variabilidad.

 Un estimador no está sesgado cuando la media de su distribución muestral


asociada coincide con la media de la población. Eso sucede, por ejemplo, con el
estimador , ya que:

 La variabilidad de un estimador está determinada por el cuadrado de su


desviación estándar. En el caso del estimador , su desviación estándar, también
llamado error estándar de μ, es:

Observad que cuanto mayor sea el tamaño de la muestra n, menor será la


variabilidad del estimador (y, por lo tanto, mejor será nuestra estimación).

2) Estimación por intervalo:

Estimar un parámetro poblacional mediante un estimador puede tener poco interés


práctico si se desconoce el grado de precisión de la estimación. El concepto intervalo de
confianza proporciona la respuesta a esta cuestión. La idea de la estimación por
intervalo es encontrar un número E tal que con "mucha seguridad" el verdadero valor del
parámetro (μ y σ) se encuentre en el intervalo. Este valor E es el que llamamos margen
de error.

Por ejemplo, en el caso de la media poblacional, el intervalo es de la forma:

Exemple

Supongamos una variable X de una población que sigue una distribución cualquiera
con media μ y desviación estándar σ.
 Por el TCL, sabemos que, para valores grandes de n, la media muestral
sigue una distribución aproximadamente normal con la media y
la desviación estándar siguientes:

 Por otra parte, el teorema de Chebyshev nos dice que, en una distribución
normal, aproximadamente un 95% de los datos están situados a una
distancia inferior a dos desviaciones estándar de la media.

De todo lo que hemos mencionado antes deducimos que:

El resultado anterior nos da un método para calcular (a partir de y de σ) un


intervalo real tal que la probabilidad de que la media de la población μ esté
contenida en el mismo es de 0,95.

Estos tipos de intervalos se llaman intervalos de confianza de un parámetro


poblacional. El nivel de confianza (1 – α) del intervalo es la probabilidad de que
éste contenga el parámetro poblacional. En el ejemplo anterior, el nivel de confianza
es del 95% (es decir que α = 0,05).

3) Intervalos de confianza (para la media aritmética)

A continuación veremos 3 supuestos de la estimación por intervalos:

- Estimación de μ con σ conocida: Dada una variable X (que sigue una distribución
cualquiera), con media μ (desconocida) y desviación estándar σ conocida, se trata de
encontrar un intervalo de confianza a nivel de confianza (1 – α) para la media
poblacional μ.

Si X se distribuye según una normal, el intervalo de confianza a nivel de confianza (1


– α) para la media poblacional μ viene determinado por:
donde z(α/2) es el valor que en una normal estándar deja a su derecha un área de
α/2 (o equivalentemente, deja a su izquierda un área de 1 – α/2). El error máximo
de estimación es la mitad de la longitud del intervalo, es decir:

Cuanto más elevado es el nivel de confianza (1 – α), más elevada será la amplitud
del intervalo (y, por lo tanto, mayor será el error máximo de estimación). Por otra
parte, hay una relación inversa entre el error máximo de estimación E y el tamaño
muestral n (si tomamos muestras mayores, el error máximo disminuye). Así, si
queremos aumentar el nivel de confianza sin incrementar la amplitud del intervalo
(cosa deseable), tendremos que tomar muestras mayores

- Estimación de μ con σ desconocida: Dada una variable X de una población (que


sigue una distribución cualquiera), con media μ y desviación estándar σ
desconocidas, se trata de encontrar un intervalo de confianza a un nivel de confianza
(1 – α) para μ.

Como desconocemos el valor de σ no podemos utilizar el método explicado en el


apartado anterior ("Estimación de μ con σ conocida"). En este caso, tendremos que
aproximar el valor de la desviación estándar poblacional σ por su estimación s
(desviación estándar muestral), y utilizar la distribución t de Student con n – 1
grados de libertad (siendo n el tamaño de la muestra escogida).

Si X se distribuye según una normal, el intervalo de confianza a un nivel de confianza


(1 – α) para la media poblacional μ viene dado por:

donde t(n–1,α/2) es el valor que, en una t de Student con n – 1 grados de libertad,


deja a su derecha un área de α/2. El error máximo de estimación es la mitad de la
longitud del intervalo:
4) Intervalos de confianza (para la proporción)

Suponemos que una variable X de una población se distribuye según una binomial con
una probabilidad de éxito p desconocida. Con el fin de estimar este parámetro p,
cogemos una muestra de tamaño n y definimos la probabilidad muestral de éxito p'
como:

p' = Nombre d'èxits observats / n

Notad que p es la probabilidad de éxito de la población y p' es la probabilidad de éxito


estimada con la muestra.

 Supuesto 1: La distribución de X es aproximadamente normal.

 Supuesto 2: Las n observaciones que constituyen la muestra han sido seleccionadas


de manera aleatoria e independiente de una población que no ha cambiado durante
el muestreo.

Bajo los dos supuestos anteriores, el intervalo de confianza, considerando un nivel de


confianza (1 – α), para la probabilidad de éxito poblacional p viene dado por:

donde z(α/2) es el valor que, en una normal estándar, deja a su derecha un área de α/2.
El error máximo de estimación es la mitad de la longitud del intervalo, es decir:

5) Contraste de hipótesis

Un contraste de hipótesis es un proceso estadístico que permite escoger una hipótesis


de trabajo de entre dos posibles y antagónicas. El contraste empieza con la formulación
de dos hipótesis sobre el valor de algún parámetro poblacional, las dos incompatibles
(si una es cierta, la otra necesariamente tiene que ser falsa). Se trata de establecer
como supuesto que una hipótesis, a la que llamaremos hipótesis nula H0, es cierta, y
trataremos de determinar hasta qué grado las observaciones registradas son coherentes
con H0. Sólo en caso de que haya indicios de incompatibilidad claros entre el supuesto
de que H0 sea cierta y los datos obtenidos empíricamente, descartaremos H0 como
hipótesis de trabajo y en su lugar tomaremos como cierta la hipótesis alternativa H1.

Ejemplos

Dos ejemplos de contrastes de hipótesis son:


(i) Contraste bilateral (≠).

H0: μ = 0
H1: μ ≠ 0

(ii)Contraste unilateral (>).

H0: s =2,5
H1: s > 2,5

El primer contraste (i) es un contraste bilateral en el que la hipótesis nula nos


dice que la media poblacional es 0, mientras que la hipótesis alternativa nos
dice que la media poblacional es diferente de 0. En cambio, el segundo
contraste (ii) es un contraste unilateral en el que la hipótesis nula nos dice
que la desviación estándar es 2,5, mientras que la hipótesis alternativa nos
dice que la desviación estándar toma un valor superior a 2,5.

En la tabla siguiente se representan las cuatro combinaciones posibles (en función de la


decisión que tomamos y de la certeza o no de la hipótesis nula) de todo contraste de
hipótesis:

Decisión tomada

No descartar Descartar
Decisión correcta de tipo A Error de tipo I
Hipótesis

Cierta (probabilidad 1 – α) (probabilidad α)


nula

Error de tipo II Decisión correcta de tipo B


Falsa (probabilidad β) (probabilidad 1 – β)

Tenemos una decisión correcta de tipo A cuando hemos optado por no descartar la
hipótesis nula y resulta que ésta es cierta. Por otra parte, una decisión correcta de
tipo B ocurre cuando decidimos descartar la hipótesis nula y resulta que ésta es falsa.
Hablamos de error de tipo I cuando hemos descartado la hipótesis nula y ésta es cierta
(error que se considera muy grave). Finalmente, ocurre un error de tipo II cuando
hemos optado por no descartar la hipótesis nula y resulta que ésta es falsa.

Dado que descartaremos o no la hipótesis nula a partir de muestras (es decir, no


dispondremos de información completa sobre la población), no será posible garantizar
que la decisión tomada sea la correcta. En cambio, sí que podremos controlar la
probabilidad de cometer un error. Denotaremos por α el nivel de significación o la
probabilidad de cometer un error de tipo I, y por β la probabilidad de cometer un error
de tipo II. Con el fin de controlar los dos errores, les asignaremos probabilidades
"pequeñas" (usualmente de 0,01 o 0,05). Llamaremos potencia del contraste a 1 – β, ya
que este número es la probabilidad de rechazar la hipótesis nula cuando es falsa. Es
fundamental hacer notar en este punto que α, β y el tamaño muestral n están
interrelacionados, de manera que si hacemos disminuir cualquiera de ellos, alguno de los
dos restantes tendrá que aumentar. Así, por ejemplo, si queremos tomar un α menor
tendremos que aceptar que aumente β, o bien incrementar el tamaño de la muestra n.

Llamaremos estadístico de contraste a una variable aleatoria calculada a partir de las


observaciones muestrales, que se utiliza conjuntamente con un criterio de decisión
(establecido a priori) para determinar si tenemos que descartar o no la hipótesis nula.
Definimos el p-valor como la probabilidad de que, suponiendo cierta H0, el estadístico
de contraste tome un valor al menos tan extremo como el que se obtiene a partir de las
observaciones muestrales, es decir, el p-valor es el área de la cola de la distribución (o
colas, si el test es bilateral) definida a partir del estadístico de contraste. Es decir, el p-
valor es la probabilidad de rechazar la hipótesis nula cuando es cierta. Así,

 si H1 contiene > , entonces p-valor = P(Z>EC)


 si H1 contiene < , entonces p-valor = P(Z<EC)
 si H1 contiene ≠ , entonces p-valor = P(Z<|EC| o Z>|EC|) = 2 · P(Z>|EC|)

Gráficamente sería de la manera siguiente:

El p-valor nos proporciona el grado de credibilidad de la hipótesis nula: si el valor de p es


"muy pequeño" (inferior a 0,001) significa que la hipótesis nula es del todo increíble
(sobre la base de las observaciones obtenidas) y, por lo tanto, la descartamos; si el valor
de p está entre 0,05 y 0,001, significa que hay fuertes evidencias en contra de la
hipótesis nula, y la rechazaremos o no según el valor que hayamos asignado (a priori) a
α. Finalmente, si el valor de p es "grande" (superior a 0,05), no tendremos suficientes
motivos para descartar la hipótesis nula y la tomaremos como cierta.

- Contrastos sobre μ con σ conocida: para hacer un contraste sobre la media


poblacional cuando la desviación estándar es conocida hay que seguir los pasos
siguientes:

Paso 1. Definir las hipótesis a contrastar. Dada una población X (que sigue
una distribución cualquiera), con media μ desconocida y desviación estándar
σ conocida, se trata de contrastar alguno de los tres tests siguientes:

En el caso que x se distribuya según una normal:

Paso 2. Cálculo del estadístico de contraste:


Paso 3. Aplicar el criterio de decisión. Descartaremos H0 si p-valor ≤ α
(normalmente α = 0,05). O equivalentemente, descartaremos H0 si EC > VC
(caso unilateral cola a la derecha), si EC < VC (caso unilateral cola a la
izquierda) o bien EC > VC o EC < –VC (caso bilateral).

- Contrastos sobre μ con σ desconocida: para hacer un contraste sobre la media


poblacional cuando la desviación estándar es desconocida, hay que seguir los pasos
siguientes:

Paso 1. Definir las hipótesis que se tienen que contrastar. Dada una
población X (que sigue una distribución cualquiera), con media μ desconocida
y desviación estándar σ desconocida, se trata de contrastar alguno de los tres
tests siguientes:

En el caso que x se distribuya según una normal:

Paso 2. Cálculo del estadístico de contraste:

Paso 3. Aplicar el criterio de decisión. Descartaremos H0 si p-valor ≤ α


(normalmente α = 0,05). O equivalentemente, descartaremos H0 si EC > VC
(caso unilateral cola a la derecha), si EC < VC (caso unilateral cola a la
izquierda) o bien EC > VC o EC < VC (caso bilateral).

- Contrastes sobre la proporción p: para hacer un contraste sobre la proporción de


éxito p en una binomial hay que seguir los pasos siguientes:

Paso 1. Definir las hipótesis que se tienen que contrastar. Supongamos que
una población X se distribuye según una binomial con probabilidad de éxito p
desconocida. Con el fin de estimar este parámetro, tomamos una muestra de
tamaño n y definimos la probabilidad muestral de éxito como:

p' = Número de éxitos observados / n

Se tratará de contrastar alguno de los tres tests siguientes:


En el caso que la distribución de X sea aproximadamente normal, y que las n
observaciones que constituyen la muestra hayan sido seleccionadas de
manera aleatòria y independente de una población que no ha cambiado
durante el muestreo, entonces:

Paso 2. Cálculo del estadístico de contraste:

Paso 3. Aplicar el criterio de decisión. Descartaremos H0 si p-valor ≤ α


(normalmente α = 0,05).
Intervalos de confianza y contrastes de hipótesis (1 población)

NP significa que tendremos que utilizar métodos no paramétricos (fuera del contenido del curso).

También podría gustarte