Tema 3.3 Estimacion

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 20

Repú blica Bolivariana de Venezuela

Ministerio del Poder Popular para la Educació n Universitaria

Universidad de las Ciencias de la Salud “Hugo Rafael Chá vez Frías”

Maturín- Estado- Monagas.

Segundo añ o (MIC).

 Asignatura: Informá tica medica 2.

Tema 3.3. Estimació n.

Orientador (a): Bachilleres:

Dra. Veró nica Marval. -Eliana Rivera.

-Wilmaris

-Oriana Herná ndez.

-Fabian Patriz.
INTRODUCCIÓN

La Estadística se divide en dos grandes ramas:

 Estadística Descriptiva: se ocupa de tomar los datos de un conjunto dado,


organizarlos en tablas o representaciones gráficas y del cálculo de unos números
que nos informen de manera global del conjunto estudiado.
 Estadística Inferencial: estudia cómo sacar conclusiones generales para toda la
población a partir del estudio de una muestra.

Existen dos formas de hacer Inferencia Estadística:

 La estimación de parámetros
 Las pruebas de hipótesis.

La Inferencia Estadística es la parte de los Métodos Estadísticos relacionados con los


problemas de orden práctico que tienen que ver con el hecho de tomar decisiones en
situaciones de incertidumbre. En el estudio de una técnica básica de la Inferencia
Estadística, en específico el método de la Estimación de amplio uso en el campo de la
biomedicina es la que abordaremos en esta actividad.
Concepto de estadígrafo o estadístico: es una medida numérica que se utiliza para
resumir o describir un conjunto de datos. Estos pueden ser valores centrales, como la
media o la mediana, o medidas de dispersión, como la desviación estándar o el rango
intercuartil.

Es la medida de una característica relativa a una muestra. La mayoría de los estadígrafos


se encuentran por medio de una fórmula.

Es importante tener en cuenta que los estadígrafos son solo una representación resumida
de los datos, y que diferentes estadígrafos pueden proporcionar información diferente
sobre el mismo conjunto de datos.

Parámetro: hace referencia a las medidas que se tienen en cuenta en una población.
Como sabemos una variable aleatoria en la población se distribuye con arreglo a cierta
función (Modelo teórico de distribución o ley de una variable aleatoria) que depende de
cierto número de valores.

 Parámetro es siempre una característica de la población (µ, σ, P, etc.), relacionada

con un estadígrafo (estadístico) ( X̄ , s, p, etc.).

La siguiente tabla nos muestra la relación entre algunos estadígrafos y los parámetros
poblacionales correspondientes.

Población Muestra

Definición Universo o Población es un La Muestra no es más que una


conjunto de elementos, objetos o parte cualquiera de la población,
unidades de análisis que al menos un conjunto cualquiera no vacío.
comparten una característica que
nos interesa conocer o estudiar.
Características Parámetros Estadígrafos

Símbolos Tamaño de la población: N Tamaño de la muestra: n

Media de la población: µ X̄
Media de la muestra:
Desviación estándar: σ
Desviación estándar: s

El poder utilizar estos estadígrafos y otros como estimadores de los parámetros


poblacionales tiene su sustento teórico en el concepto de distribución muestral de un
estadígrafo.

Distribución muestral: es la distribución de los valores posibles del estadístico en todas


las muestras posibles de un tamaño determinado tomadas de la misma población. La
distribución muestral depende del tamaño de la muestra y de la distribución de la
población.

La distribución muestral se utiliza para calcular intervalos de confianza y para evaluar la


precisión de las estimaciones del estadístico.

Distribución muestral de la media aritmética cuando la distribución de la variable


original es normal.

El estudio de determinadas características de una población se efectúa a través de


diversas muestras que pueden extraerse de ella.

Consideremos todas las posibles muestras de tamaño n de una variable aleatoria en una
población. Para cada muestra podemos calcular un estadígrafo (media, desviación
estándar, proporción, .etc.) que variará de una a otra.
Un ejemplo: supongamos que tenemos una población de niños menores de un año y
comenzamos a sacar muestras de tamaño 10 y calculamos el peso promedio de los niños

para cada muestra (Media muestral) ( X̄ ). Debemos aclarar que se trata de un muestreo
con reemplazo, o sea, cada vez que saco al azar una muestra de 10 niños y le calculo su
peso promedio, esos niños los devuelvo a la población antes de obtener las otras
muestras.

De tal suerte que tendremos un listado de pesos promedios, tantos como muestras
hayamos obtenido.

Esas medias podemos tratarlas como si fueran valores de una variable, podemos
ordenarlas, calcular su distribución de frecuencias absolutas y relativas, calcular la media
de esas medias y una medida de dispersión, digamos la desviación estándar.

Se ha comprobado que esa distribución de las medias muestrales X̄ cuando la


distribución de la variable original es normal va a tener tres propiedades que son:

 La media de la distribución de las medias muestrales es igual a la media de la


población.

 La desviación estándar de la distribución de las medias muestrales (conocida como


error estándar) es igual a la desviación estándar de la población dividida por la raíz
cuadrada del tamaño de la muestra.

 La distribución de las medias muestrales se aproxima a una distribución normal,


independientemente de la forma de la distribución de la población, siempre y
cuando el tamaño de la muestra sea lo suficientemente grande (generalmente se
considera que un tamaño de muestra mayor a 30 es suficiente).

De ahí la importancia tan grande que tiene la distribución normal en la estadística


inferencial, porque puede que no conozcamos cual es la distribución de nuestra población
en estudio o que incluso la población no se distribuya normal, si el tamaño de la muestra
es suficientemente grande, debido a esta propiedad que se conoce como teorema central
del límite, la muestra sigue la distribución normal.
Teorema central del límite: este teorema establece que, bajo ciertas condiciones, la
distribución de las medias muestrales se aproxima a una distribución normal con una
media igual a la media de la población y una desviación estándar igual a la desviación
estándar de la población dividida por la raíz cuadrada del tamaño de la muestra. Estas
condiciones incluyen:

 Las muestras sean aleatorias e independientes.

 El tamaño de la muestra sea lo suficientemente grande.

Este teorema es fundamental en la estadística inferencial, ya que permite hacer


inferencias sobre la población a partir de las muestras.

Valores de las medias muestrales X̄ .

Estimación de parámetros poblacionales.

Se denomina Estimación al conjunto de técnicas que permiten dar un valor aproximado


de un parámetro de una población a partir de los datos proporcionados por una muestra.

Estimación puntual: es tomar una muestra probabilística de tamaño n y basándonos en la


inspección de los elementos de la muestra, generalizar lo que deseamos decir acerca de la
propiedad de interés a toda la población. Para poder estudiar cierta propiedad o variable
aleatoria tal como la talla, el coeficiente inteligencia, el padecer o no de tuberculosis o
cualquier otra enfermedad, etc. Una estimación puntual puede ser útil para tomar
decisiones rápidas, pero no proporciona información sobre la precisión de la estimación.
Usualmente, si la variable aleatoria a estudiar es continua, una ley de distribución que
puede describir adecuadamente su comportamiento es la normal.
Es conocido que los parámetros que identifican la función de distribución normal son µ y
σ y que su expresión gráfica es una curva acampanada y simétrica; a cada par de valores
de los parámetros corresponderán curvas diferentes. Entonces, la estimación consiste en
seleccionar cuál de las infinitas curvas se ajusta mejor al comportamiento de los datos de
la muestra que estamos analizando.
Hay que encontrar funciones matemáticas en las que, al ser sustituidos los valores
muestrales (estadígrafos), se hallen cifras que estimen de forma satisfactoria el valor del
parámetro en cuestión.
Ejemplo:
Supongamos que estamos interesados en realizar un estudio para describir las
características del desarrollo físico en niñas venezolanas entre 8 y 8.9 años de edad, por
medio de la observación de algunas dimensiones antropométricas, la talla por ejemplo.
Una forma adecuada y útil de describir dichas características sería seleccionar
distribuciones de probabilidad teóricas tan cerca de las observadas como sea posible.
Asumamos con bastante seguridad que la variable X, talla, se distribuye en la población de
acuerdo con una ley de distribución normal cuyos parámetros µ y σ se suponen
desconocidos, lo expresado es común escribirlo en la notación habitual estadística como
sigue: X ~ N (µ, σ ).

Supongamos para continuar que se ha tomado una muestra de tamaño n = 90 (niñas) y

queremos estimar la talla media X̄ y la desviación estándar s. Denotemos por x 1, x2,..., x90
los valores correspondientes a la talla en centímetros de cada una de las 90 niñas de la
muestra, de estadística descriptiva conocemos que las fórmulas:

n n

∑ xi ∑ ( x i −x )
i=1
s=
x= i=1 y n−1
n
se utilizan para calcular la media y la varianza muestral. Estos son precisamente los

estimadores de los parámetros  y  ya que tanto x como s se obtienen a través de


funciones que dependen de las xi, es decir, dependen de la talla de cada una de las 90

niñas seleccionadas en la muestra. Si al realizar los cálculos apropiados se obtiene que x


= 126.9 cm y s = 2.48 cm, entonces esas cifras son las estimaciones de la media y la
desviación estándar poblacionales, o sea, de  y .
Notemos que la primera suposición que se hizo fue sobre el tipo de ley de distribución de
la variable aleatoria X talla en la población. Sin hacer esa suposición no hubiese sido
posible resolver el problema de estimación. Después se hizo la selección de la muestra y
se sustituyeron los valores en las fórmulas. Este es usualmente el procedimiento a seguir
para hacer una estimación.

Debe notarse que la utilidad práctica del estadígrafo, radica en que por medio de un

proceder de cálculo se obtiene un valor único. En este sentido, tanto la media X̄ como la
desviación estándar s constituyen valores puntuales. Constituye, en este esquema, un
aspecto esencial la selección de muestra, con la que, por sustitución de los valores
observados en la expresión del estimador, hallamos un valor numérico (una estimación)
que debe corresponder a un parámetro poblacional bajo estudio, descriptor de una
propiedad de interés.
Lo que tenemos son estimaciones puntuales.
Este hecho, unido a lo que conocemos acerca de la incertidumbre que se produce en el
proceso de selección de muestras aleatorias, deja en dudas la utilidad de la estimación
puntual, ya que continuamos sin ninguna información en relación con cuán cerca está el
valor encontrado del verdadero valor desconocido del parámetro poblacional. Es decir,
sabemos que va a existir una diferencia entre la cifra estimada y la verdadera, pero no
conocemos todavía si tal diferencia es admisible o no.

Estimación por intervalo de confianza: la estimación por intervalo de confianza puede


ser aplicada para estimar cualquier parámetro de interés.
Nos ocuparemos de la construcción de intervalos de confianza para la media  de una
variable aleatoria X con distribución normal y para la proporción P de una variable
aleatoria X con distribución binomial.
Cuando hablamos de estimar un parámetro poblacional por intervalo de confianza,
estamos pensando en que debemos encontrar un intervalo en donde se encuentre
acotado entre dos valores el parámetro poblacional (µ, P etc.). Los extremos del intervalo

se calcularán con los valores de los estadígrafos correspondientes ( X̄ , p, etc.).


Por supuesto, si el parámetro no se encuentra en ese intervalo estaremos cometiendo un
error y lo que deseamos es que dicho error ocurra raramente, es decir, con muy baja
frecuencia o probabilidad. Por otra parte, la longitud del intervalo es una medida de cuán
bien puede ser estimado el parámetro a través del intervalo, es decir, que habla de la
utilidad de nuestra afirmación.
Así, por una parte, queremos que el parámetro se encuentre con gran probabilidad en el
intervalo y, por otra, que la longitud del intervalo sea bastante pequeña.

Intervalo de confianza para  con σ conocida.


Vamos a aplicar las nociones anteriores para hallar un intervalo de confianza para 
cuando σ es conocida.
Aunque la suposición acerca del conocimiento de σ es difícil de alcanzar en los problemas
con que nos enfrentamos en la práctica, comenzaremos por este caso, que es el más
sencillo y después se introducirán situaciones más próximas a la realidad.
Ejemplo. Vamos a suponer que se extrae una muestra de tamaño 50(n = 50) de la
población de tallas de niñas de 7 años. (La variable talla se distribuye normalmente en la
población). Se conoce que σ= 5.53 cm. Los 50 valores de talla aparecen en la tabla que
sigue a continuación, considere adicionalmente que la muestra se obtuvo :
TABLA #1
131.5, 115.0, 125.5, 119.0, 123.0, 125.0, 124.5, 122.5, 118.0, 125.0
125.5, 119.0, 124.5, 118.0, 117.0, 128.0, 119.5, 124.5, 132.0, 122.5
120.5, 120.0, 126.0, 128.0, 120.5, 120.0, 119.0, 117.0, 129.5, 124.0
121.0, 119.0, 120.0, 128.0, 128.0, 118.5, 118.0, 124.0, 118.0, 118.5
131.0, 117.0, 118.0, 116.5, 121.0, 122.0, 124.0, 120.5, 114.5, 121.0

La media en este caso es = x 122.05 cm.


Aplicando una de las propiedades de la distribución normal:
P (µ –  < X < µ +  ) = 0.6827
(La probabilidad de que los valores de esta variable se encuentren en este intervalo es de
0.6827)

P (µ – 2 < X < µ + 2 ) = 0.9545


(La probabilidad de que los valores de esta variable se encuentren en este intervalo es de
0.9545)

P (µ – 3 < X < µ + 3 ) = 0.9973

(La probabilidad de que los valores de esta variable se encuentren en este intervalo es de
0.9773)

Los intervalos anteriores pueden observarse en el siguiente gráfico:


Los intervalos más usados en la práctica son:

µ – 1.96  < X < µ + 1.96  0.95 (95 %)


µ – 2.58  < X < µ + 2.58  0.99 (99 %)

Ahora bien, la distribución de las medias muestrales sigue una distribución normal con

media µ y desviación estándar , (Teorema del Límite Central), es decir, que el intervalo
para el 95 % es:

µ – 1.96 < X̄ < µ + 1.96

Podemos observar que en este intervalo se encuentra acotada la media muestral X̄ y lo


que queremos es un intervalo en que se encuentre acotada la media poblacional µ.

Con la doble desigualdad presente se pueden realizar dos transformaciones algebraicas


que conducen cada una de ellas a desigualdades equivalentes a la de partida, y por tanto
ambas con idéntico valor de probabilidad 0.95.
Son estas, las transformaciones siguientes:
σ σ
 Si en ( −1.96 √n < x <  +1.96 √n ), restamos  en todos los términos,
σ σ
esto conduce a (−1.96 √n < x   < 1.96 √n ). Si ahora dividimos todos
σ
los términos por el valor √n , se obtiene una de las transformaciones
anunciadas:
( x−μ )
σ
( –1.96 < √n < 1.96)
Para obtener la otra doble desigualdad, debemos dividir la inicial en dos, y realizar en
ambas por separado, los cambios algebraicos necesarios.
σ
 Para ello comencemos con, −1.96 √n < x , y en ella pasemos la expresión,
σ
−1.96 √n , del miembro izquierdo hacia el derecho, obteniéndose,  < x +
σ
1.96 √n .
σ
De modo semejante se puede proceder con, x <  +1.96 √n , para obtener
σ
que, x  1,96 √n <  . Combinando ahora ambas desigualdades, estas
permiten plantear que:
σ σ
( x −1.96 √n <  < x +1.96 √n )
( x−μ ) ( x−μ )
σ σ
Como ya se dijo, Pr ( –1.96 < √n < 1.96) = 0.95, donde el termino, √n ,
usualmente identificado por z, es la expresión aritmética necesaria para transformar una
variable aleatoria X con distribución N(, σ) en una variable aleatoria normal estándar, por
lo que 1.96 y –1.96 no son más que los valores entre los que se acumula el 95 % del área
bajo la curva normal estándar; dicho de otra forma, fuera de ese intervalo sólo está el 5 %
del área bajo la curva.
Como la curva normal es simétrica, ese 5 % quedará igualmente repartido hacia cada
extremo de la curva, hacia las llamadas colas; por debajo de –1.96 tendremos un 2.5 % y
por encima de 1,96 el otro 2.5 %. Sabemos, de estadística descriptiva, que los percentiles
son aquellos valores de la variable que se corresponden con valores dados de la
distribución de frecuencias acumuladas relativas, por lo tanto –1.96 es, en este caso, el
percentil 2.5 de la distribución normal estándar mientras que 1.96 es el percentil 97.5. Se
puede poner 0.95 = 1−α, de este modo, α= 0.05. En consecuencia, 1.96 = z 0..975 = z1−α/2 y –
1.96 = z0.025 = zα/2 = −z1−α/2 = z
Estos valores pueden sustituirse por z en cada uno de los intervalos teniendo en cuenta
que representan los valores de z para 1 – α / 2. El valor de z es 1.96 para la probabilidad
de 0.95 y 2.58 para la probabilidad de 0.99.

Entonces el intervalo queda así:

σ σ
Pr( x − z √n << x +z √n ) = 1−α
Que es exactamente lo que necesitábamos; una estimación para , que ya no es un valor
único, donde incorporamos finalmente, al utilizar la probabilidad, una medida de
confiabilidad o confianza. Este es el intervalo para la estimación de la media poblacional
(). Observe que la media poblacional () está entre dos límites, cuyos valores dependen

de la media muestral ( x ).

Si sustituimos los datos del ejemplo tendremos:


x = 122.05 σ = 5.53 n = 50

Pr(122.05 – 1.96 · 5.53 / √ 50 <  < 122.05 + 1.96 · 5.53 / √ 50 ) = 0.95


Pr(122.05 –1.96 · 0.782 <  < 122.05 +1.96 · 0.782) = 0.95
Pr(120.52 <  < 123.58) = 0.95
Es importante en este momento dar una interpretación correcta a este intervalo.
Hemos hallado un intervalo que podemos afirmar contiene a  con probabilidad 1−α=
0.95. La forma en que se ha construido el intervalo de confianza garantiza que si se toman
100 muestras de tamaño 50; 95 de ellas aproximadamente producirán intervalos que
contienen el valor real de  mientras que alrededor de 5 producirán intervalos que no lo
contienen. Ese es el tipo de afirmación que se hace cuando se habla de que tenemos un
95 % de confiabilidad o confianza de que el intervalo (120.52, 123.58) contenga el
verdadero valor del parámetro . En términos del ejemplo utilizado diremos que, basados
en una muestra aleatoria de tamaño 50 y conociendo que la desviación estándar
poblacional de la talla de niñas de 7 años es 5.53 cm se estima, con un 95 % de confianza,
que la media poblacional se encuentre en el intervalo de 120.5 cm a 123.6 cm.
Con la definición siguiente el resultado anterior se generaliza:
Sea X una variable aleatoria normal con media poblacional  desconocida y desviación
estándar σ conocida. Se llama intervalo de confianza para  con nivel de confiabilidad del
(1 - α ) a la expresión:

σ σ
(x –z √n , x +z √n )
donde:
z: percentil de orden 1−α/2 de la distribución normal estándar.

z = 1.96 para el 95 % de confianza y z = 2.58 para el 99 % de confianza.

x : valor observado de la media muestral, en una muestra de la variable X y


n: tamaño de muestra;
σ
Los valores x ± z √n son, respectivamente, los límites superior e inferior de confianza
del intervalo. El valor 1 − α se da de antemano; por supuesto, 0<1−α <1 y α
pequeño. Al percentil z de la distribución normal estándar se le denomina coeficiente de
confianza.
σ
Error estándar de la media = √n para desviación estándar (σ) conocida.

Intervalo de confianza para µ con σ desconocida.


Es el caso que más se encuentra en la práctica. Como en la construcción del intervalo de
confianza para µ siempre va a estar implicado el valor de σ, será necesario estimar este
último valor.
Como ya vimos s (desviación estándar de la muestra) es la raíz cuadrada de la varianza s 2
un estimador puntual de σ. Sin embargo, tenemos que responder a una nueva
interrogante, ¿seguirá siendo apropiado usar el percentil correspondiente a la distribución
normal estándar? Planteado en otra forma, vimos que la interpretación de 1.96 dependía

del conocimiento que teníamos acerca del estadígrafo ( x − µ ) / (σ/ √ n ) = Z, ¿qué sucede
con esta expresión cuando se sustituye σ por su estimador s?
Se conoce que en este caso Z ya no tiene una distribución normal con parámetros 0 y 1,

sino que ( x − µ ) / (s / √ n ) tiene ahora la distribución t de Student con n-1 grados de


libertad.
En la tabla de la distribución t se puede ver que cuando los grados de libertad son
mayores de 30, o lo que es lo mismo, para muestras de tamaño n > 31 los percentiles de la
distribución t y de la N(0,1) son muy parecidos, entonces, es común considerar intervalos
de confianza diferentes en el caso de σ desconocida en dependencia de si n > 30 ó n ¿ 30.
Primer caso (n > 30).
Sea X una variable aleatoria normal con parámetros desconocidos σ. Si n es lo
suficientemente grande, mayor que 30, el intervalo:

( x – z s/ √ n ; x + z s/ √ n )

donde s es el estimador de la desviación estándar poblacional, es el intervalo de


confianza para µ, con nivel de confiabilidad (1 )·100 %.

Error estándar de la media: s/ √ n cuando la desviación estándar (σ) es desconocida


Es decir que cuando tenemos una muestra de tamaño mayor que 30, lo único que
debemos hacer es utilizar la estimación de σ para construir el intervalo de confianza.
Calcular un intervalo de confianza del 95 % para la media de talla de niñas de 7 años, a
partir de los datos de la tabla 1, asumiendo varianza desconocida. Suponga que el cálculo
de la desviación estándar muestral fue s = 4.383 cm.
Solución:

Debemos calcular un intervalo de la forma: ( x – z s/ √ n ; x + z s/ √ n )

Conocemos que, x = 122.05cm y s = 4.383 cm, y además como el nivel de confianza = 1 


 = 0.95, entonces z = 1.96.
Calculemos ahora el valor de z s/ √ n . Sustituyendo los valores conocidos se tiene que:

Z s/ √ n = 1.96 · 4.383 / √ 200 = 1.215.

Ahora restando y sumando 1.215 al valor de x , obtenemos los límites del intervalo de
confianza. Estos son: (120.84, 123.27).

La afirmación que podemos hacer en este caso es la misma que para σ conocida: para un
nivel de confianza del 95 % la media poblacional de la talla de niñas cubanas de 7 años
fluctúa, aproximadamente, entre 120.8cm y 123.2cm,
Similarmente, si extrajéramos m muestras de tamaño 200 es de esperar que
aproximadamente 0.95 · m de ellas (es decir, el 95 % de m), produzcan intervalos de
confianza que contengan el valor de µ, mientras que aproximadamente el 0.05 · m no
producirán intervalos con tal propiedad.

Segundo caso (n ¿ 30).


Sea X una variable aleatoria normal con parámetro desconocido σ. Para n ¿ 30, el
intervalo:

( x – t n−1,1−α/2 s / √ n ), x + t n−1,1−α/2 s / √n )
donde:
t n−1,1−α/2 : percentil de orden 1−α/2 de la t de Student con n−1 grados de libertad y
s: estimador de σ,
es un intervalo de confianza para µ con nivel de confiabilidad (1  ) · 100 %.
Es decir que para todo caso en que, n, no sobrepase la cifra de 30, tendremos que utilizar
la tabla de la distribución t de Student para calcular los límites del intervalo de confianza.
Construya un intervalo del 95 % de confianza para la media poblacional de la talla de
niñas de 7 años, asumiendo que se seleccionó una muestra de tamaño 20, con una media
y varianza muestral de 121.93cm y 24.95 cm2, respectivamente.

Solución:
Los datos que tenemos son:

n = 20, x = 121.93cm, s2 = 24.95 cm2

Como n < 30 hay que usar la expresión ( x – t n−1,1−α/2 s / √ n ), x + t n−1,1−α/2 s / √ n ).

De acuerdo a la tabla de la distribución t con α = 0.05, pues el nivel de confianza deseado


es del 95 %, se tiene que t (20−1),(1−α/2) = t 19, 0.975 = 2.09;

Tenemos que como conocemos s2, entonces s = √ 24 . 95 = 4.995.

Sustituyendo los datos en la formula prevista, se tiene entonces que

121.93 – 2.09 · 4.995 / √ 20 < µ < 121.93 +2.09 · 4.995 / √ 20


121.93 – 2.33 < µ < 121.93 + 2.33
Luego (119.60, 124.26 ) es el intervalo de confianza buscado.
La interpretación es como siempre; tenemos un 95 % de confianza de que el valor de µ se
encuentre entre los límites aproximados de 119.6 cm y 124.3 cm.

Estimación por intervalo de confianza para P.


Como ya se sabe el estimador p (proporción o porcentaje muestral) del parámetro P
(proporción o porcentaje poblacional) de la distribución binomial es un estimador puntual

P y como tal, presenta las mismas deficiencias ya señaladas en el caso de x . Sería


entonces muy útil obtener estimaciones por intervalo de confianza para el parámetro P de
la binomial.
Asuma que la variable que nos interesa es “presentar estomatitis subprótesis” y que se
quiere hallar un intervalo de confianza del 95 % para la proporción en la población, P, de
enfermos de estomatitis subprótesis. Se realiza un pesquizaje en portadores de prótesis
estomatológicas de de una parroquia de la ciudad de Maracaibo, efectuándose para ello,
la selección de una muestra aleatoria de 50 portadores, encontrándose que, 25 padecían
de la citada enfermedad. Entonces el estimador puntual de P es P = 25/50 = 0.5.
Si asumimos que se cumple la aproximación de la distribución binomial a la normal
entonces la proporción de enfermos en la muestra se distribuye de acuerdo a una normal
con parámetro P; o de otra forma p ~ N(P, P(1−P)/n).

Estimación de la proporción poblacional (P)


Similarmente al caso de  , bajo las suposiciones anteriores, podemos plantear que:
Sea X una variable aleatoria binomial con parámetro desconocido P. Para n tal que se
cumpla la aproximación de la distribución binomial a la distribución normal, el intervalo

(p - z √ p(1− p)/n )
√ p(1− p)/n ≤ P ≤ p+z

Pero q = 1 – p entonces, sustituyendo en la fórmula anterior tenemos que:

(p - z √ pq/n ≤ P≤ p+z √ pq/n )


es un intervalo del (1- α)·100 % de confianza para P, donde:
p: = proporción de la muestra
q: = 1 – p
z: = Coeficiente de confianza
para el 95.0% de confianza z = 1.96 (o lo que es igual α=0.05 )
y para el 99.0% de confianza z = 2.58 (o lo que es igual α=0.01 )

Error estándar de la proporción: √ pq/n


Vamos a calcular el intervalo del 95 % de confianza para la proporción de enfermos de
estomatitis subprótesis en la población. Para poder aplicar la fórmula del intervalo de
confianza n * p debe ser ≥ 5 y n * q debe ser ≥ 5. Como n = 50, p = 0.5 y 1- p = q = 0.5
calculamos n * p = 50 * 0.5 = 25 ≥ 5 y n * q = 50 * 0.5 = 25 ≥ 5, lo que implica que es
válido usar la fórmula para obtener una estimación de P por intervalo de confianza. Si
hacemos las sustituciones de los datos del problema tendremos que, lo anterior se
traduce en,
(0.5 – 1.96 √ 0 .5∗0 .5 /50 < P < 0.5 + 1.96 √ 0 .5∗0 .5 /50 )

(0.5 – 1.96 · 0.07 < P < 0.5 + 1.96 · 0.07)

Como 1.96 · 0.07 = 0.14, los límites de confianza para P, o proporción de enfermos de
estomatitis subprótesis en la población, son (0.36, 0.64).

Como sabemos el error estándar de la proporción muestral es: √ p(1− p)/n . En este
ejemplo es: 0.07
Al igual que cuando construimos los diferentes intervalos de confianza para la media  de
una población normal, es de esperar que si se seleccionan un número suficientemente
grande de muestras de tamaño n, aproximadamente el (1−α)·100 % de las muestras
produzcan intervalos de confianza que contengan el verdadero valor del parámetro P.

Estimación del Porcentaje Poblacional ( P^ )


P^ : Porcentaje Poblacional

^p : Porcentaje de la Muestra
Como estudiamos en estadística descriptiva el porcentaje no es más que la proporción
multiplicada por 100.

Luego ^p = p * 100
^
La estimación puntual del porcentaje poblacional ( P ) se realiza a través del porcentaje de

la muestra ( ^p ).
Igualmente podemos obtener un intervalo de confianza para la estimación del porcentaje
^
poblacional ( P ).
El intervalo, que planteamos anteriormente, para la estimación de la proporción

poblacional, puede ser reescrito sustituyendo p por ^p y q por q^ ; y en lugar de hablar de


un intervalo de confianza para la proporción poblacional se hablará entonces del intervalo

de confianza para el porcentaje poblacional ( P ).


^
Calcule el intervalo de confianza del 95 % para el porcentaje poblacional de enfermos de
estomatitis subprótesis, con los datos del ejemplo anterior.
Solución:
Hay que verificar si, se cumple que n * p ≥ 5 y n * q ≥ 5;

50 * 0.5 = 25 ≥ 5 y 50 * 0.5 = 25 ≥ 5; luego es válido utilizar la expresión de


cálculo del intervalo de confianza:

( ^p -z √ ^p q^ /n ≤ P^ ≤ ^p +z √ ^p q^ /n)

El porcentaje muestral es igual a la proporción muestral multiplicada por 100:

^p = p * 100 = 0.5 * 100 = 50 %,

Como mencionamos con anterioridad q^ = 100 − ^p =50 %

50.0−1.96 √ 0 .5∗0 .5 /50 < P^ < 50.0 +1.96 √ 0 .5∗0 .5 /50


Limite inferior 50.0−13.9 = 36.1 Limite superior 50.0+13.9 = 63.9
La proporción poblacional de pacientes con estomatitis subprotesis se encuentra entre
36.1 % y 63.9 %.
Como era de esperar, el resultado es igual al de la proporción pero multiplicado por 100.

También podría gustarte