PyE2 Unidad2 ML
PyE2 Unidad2 ML
PyE2 Unidad2 ML
Teoría de Estimación
Campus Universitario
Índice
1. Teoría de Estimación .................................................................................................. 3
1.1. Introducción ................................................................................................................. 3
2. Estimación Puntual ..................................................................................................... 3
2.1. Población...................................................................................................................... 3
2.2. Propiedades de los Estimadores Puntuales ................................................................. 6
3. Estimación por Intervalo ............................................................................................. 6
3.1. Estimación por intervalo de la media a partir de muestras grandes .......................... 7
3.2. Estimación por intervalo de la proporción a partir de muestras grandes................. 15
3.3. Estimación por intervalo para la diferencia de medias de dos poblaciones, a partir
de muestras grandes............................................................................................................. 17
3.4. Estimación por intervalo para la diferencia de proporciones de dos poblaciones, a
partir de muestras grandes................................................................................................... 20
3.5. Intervalo de confianza para la varianza (muestras grandes) ..................................... 23
Bibliografía...................................................................................................................... 25
2 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
1. Teoría de Estimación
1.1. Introducción
Cuando queremos realizar una investigación cualquiera en una población determinada, de la
cual desconocemos sus parámetros, como la media de ingreso por vivienda de la zona
urbana, o la proporción de mujeres con empleo fijo, y la posibilidad de estudiar a toda la
población es muy costosa, requiere mucho tiempo, mucha mano de obra y muchos otros
inconvenientes, entonces tomar una muestra aleatoria de la población es un buen recurso.
De la muestra calculamos una media que será una medida aproximada del verdadero valor
de la media poblacional, así como podemos calcular también una medida aproximada de la
proporción de mujeres mencionada. Cada una de estas aproximaciones recibe el nombre de
Estimación.
La teoría de la inferencia estadística nos indica los procedimientos con los cuales podemos
trabajar con muestras y los datos así obtenidos generalizarlos a toda la población. En esta
temática, la teoría de la estimación nos proporciona fórmulas y propiedades para calcular
valores puntuales para el verdadero valor del parámetro, así como establecer intervalos de
valores posibles para estos parámetros.
2. Estimación Puntual
2.1. Población
No debemos esperar que un estadístico realice una estimación exacta del parámetro
poblacional, sino que en realidad esperamos que sea un valor que no se aleje mucho.
Siempre estaremos por lo tanto trabajando con un margen de error, error que debemos
controlar y recordar siempre, a la hora de sacar conclusiones y tomar decisiones.
3 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Ejemplo 2.1
Solución
Observemos que el valor puntual 3,245 es la media de los puntajes en matemática de los
veinte alumnos tomados en la muestra, este valor sin embargo es una aproximación del
promedio µ de todo el colegio. Por lo tanto, es una estimación puntual del parámetro
poblacional.
Destaquemos que con esto no decimos que el promedio de todo el colegio es 3,245 , sino
que esperamos que ese valor desconocido no se aleje mucho de la media muestral.
4 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
∑ (X )
n 2
∧ −X
con el estadístico S = i =1 i
n −1
Con los datos de la tabla y con la media calculada en a), tenemos que
∧
s=
(4,2 − 3,245)2 + (3,1 − 3,245)2 + ...... + (2,1 − 3,245)2 + (2,6 − 3,245)2
20 − 1
∧
s = 0,98 , aproximadamente 1
Esperamos que la desviación estándar del puntaje medio de todos los alumnos del colegio
sea aproximadamente 1 punto.
8
p= = 0,40
20
Este dato puntual nos indica que la proporción de alumnos fumadores de todo el colegio es
alrededor del 40%.
Media o Promedio µ n
X =
∑ i =1
xi
n
σ2
∑ (x )
2
Varianza ∧2
n
−x
= i =1 i
S
n −1
∑ (x )
Desviación Estándar σ n 2
∧
i =1
−x
S=
i
n −1
Proporción P número de éxitos
p=
n
5 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Supongamos que estimamos el gasto promedio en pasajes y otros gastos en los que incurren
los estudiantes de la Universidad Nacional de Asunción para acudir a las clases de sus
respectivas carreras. Para ello, se tomó una muestra de 50 estudiantes y la estimación puntual
fue de Gs.1.420.000 .
Pero también imaginemos que existen estudiantes que podrían gastar más o menos que este
valor y para los cuales este valor puntual no es muy adecuado. Es ahí donde evidenciamos la
6 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Para construir el intervalo de confianza (IC), como primer paso, seleccionamos un nivel de
confianza (NC), que es la probabilidad de que el intervalo contenga al verdadero valor del
parámetro. Imaginemos que este NC es del 95%.
Teniendo en cuenta el NC, como segundo paso, calculamos el error estándar de la medición
muestral y a partir de allí el error de la estimación; supongamos que ese error, para nuestro
ejemplo es de Gs. 420.000 .
Finalmente, como tercer paso calculamos los límites del intervalo de confianza:
Esto significa que con una confianza del 95%, la media del gasto de cada estudiante está
comprendida entre Gs.1.000.000 y Gs.1.840.000
Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html
σ
µ = x ± z.
n
7 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
σ
x difiere de µ en z. , por ello concluimos que el error de la estimación (E) es:
n
σ
E = z.
n
σ
Y como el cociente se conoce como error estándar de la media (EE), tenemos que el error
n
máximo de la estimación es:
E = z.EE
De esta última fórmula notemos que para calcular debemos conocer el tamaño “n” de la
muestra, la desviación estándar σ de la población y el valor de z.
Para calcular el valor de z establecemos un nivel de confianza y con ese dato buscamos en la
Tabla de la distribución z el valor correspondiente.
∧
Si σ es desconocido, pero la muestra es grande (n>30), utilizaremos s en lugar de σ.
Ejemplo 3.1.1
Se desea estimar la edad promedio de los empleados de una empresa multinacional que cuenta
con miles de empleados. Para la realización de la investigación se tomó una muestra de 250
empleados y se encontró que la edad promedio es de 30 años con una desviación estándar de
5,2 años.
Solución
σ ∧
a) El error estándar de la media muestral es EE = , utilizaremos s como σ puesto que
n
n>30
5,2
EE = , de donde obtenemos que EE = 0,3289
250
8 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html
Para determinar el valor de z debemos dividir entre dos este nivel de confianza y tendremos
que 0,95 ÷ 2 = 0,475.
Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html
9 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
E = 0,6446
LI = x − E LI = 30 − 0,6446 LI = 29,3554
LS = x + E LS = 30 + 0,6446 LS = 30,6446
Tenemos 95% de confianza de que la edad promedio de los empleados de la empresa esté
comprendida entre 29,3554 y 30,6446 años.
10 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Ejemplo 3.1.2
b) Realiza una estimación por un intervalo que tenga una probabilidad de 90% de incluir a la
media de la población.
Solución
Tomamos los datos referentes al número medio de clientes atendidos y obtenemos los
siguientes resultados:
Tamaño de la muestra n = 49
Media de la muestra x = 71
El problema nos pide que encontremos una estimación de intervalo con un nivel de
confianza del 90%. El tamaño de la muestra es mayor que 30, calculamos el error estándar
σ
de la media con la ecuación E.E =
n
8,4
E .E = E.E = 1,2
49
Como un nivel de confianza del 90% incluirá 45% del área que se encuentra a ambos lados
de la media de la distribución muestral, podemos buscar en la Tabla de la Distribución Z el
valor correspondiente a 0,45.
11 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
E = 1,974
LI = x − E LI = 71 − 1,974 LI = 69,026
LS = x + E LS = 71 + 1,974 LS = 72,974
Tenemos 90% de confianza de que la cantidad promedio de clientes atendidos por día está
comprendida entre 69 y 73, aproximadamente.
12 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html
Ejemplo 3.1.3
Solución
Tamaño de la muestra n = 50
σ N −n
Para estimar el error estándar utilizaremos la fórmula E.E = . , así:
n N −1
95.000 700 − 50
E .E = . E.E = 12.955,575
50 700 − 1
Luego consideramos el nivel de confianza del 99%, que incluirá 49,5% del área que se
encuentra a ambos lados de la media de la distribución de muestreo. Observamos la tabla
correspondiente a la distribución Z y buscamos el valor correspondiente a 0,495.
13 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Notamos que para 0,4975 el valor de z corresponde al promedio de 2,57 y 2,58 , por lo
tanto el valor que utilizaremos para determinar los límites del intervalo es
2,57 + 2,58
z= = 2,575
2
E = 33.361
Para un nivel de confianza del 99%, el ingreso promedio anual está comprendido entre
1.084.639 y 1.151.361 guaraníes.
14 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
E = z.EE
p(1 − p)
• EE = , si el muestreo es de una población infinita o finita con reposición
n
p(1 − p) N − n
• EE = . , si el muestreo es de una población finita y sin reposición
n N −1
Ejemplo 3.2.1
Solución
Seguidamente consideramos el nivel de confianza del 95%, que incluirá 47,5% del área que
se encuentra a ambos lados de la proporción media de la distribución de muestreo.
Observamos la tabla correspondiente a la distribución Z y buscamos el valor correspondiente
a 0,475. Ya hicimos este cálculo en el ejemplo 2 y vimos que z = 1,96 .
15 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
E = 0,098
Para un nivel de confianza del 95%, la proporción de votantes a favor de un candidato está
comprendida entre 0,452 y 0,648, o lo que es lo mismo entre 45,2% y 64,8% .
En general:
Ejemplo 3.2.2
Solución
EE = 0,039
Consideramos el nivel de confianza del 90%, que incluirá 45% del área que se encuentra a
ambos lados de la proporción media de la distribución de muestreo. Observamos la tabla
16 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
E = 0,064
Para un nivel de confianza del 90%, la proporción de cuantas que tienen una excelente
calificación, está comprendida entre 0,536 y 0,664 , es decir entre 53,6% y 66,4% .
En general:
E = z.EE
17 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
σ 12 σ 22
EE = + ,
n1 n2
Ejemplo 3.3.1
Dos maquinarias A y B, usadas para el corte de piezas de cartón, tienen que ser comparadas
para comprobar la calidad de la producción. Se extrae una muestra de 50 elementos por la
maquinaria A y 45 para la maquinaria B. También, se sabe que la varianza de los cortes es de
9 cm para el grupo A y 16 para el grupo B. Sabiendo que las medias maestrales obtenidas
son respectivamente iguales a 140 cm y 120 cm, hallar un intervalo de confianza al 95% para
la diferencia de las medias de las dos poblaciones.
Solución
Extraemos los datos del problema; n1 = 50 , n2 = 45 , las medias muestrales son x1 = 140 cm ,
x 2 = 120 cm y las varianzas poblaciones σ 1 = 9 y σ 2 = 16 .
2 2
Con los datos hallamos el estadístico diferencia de medias y luego el error estándar del
mismo:
X 1 − X 2 = 140 − 120 = 20
σ 12 σ 22 9 16
EE = + EE = +
n1 n2 50 45
EE = 0,7318
E = 1,4343
(
LI = X 1 − X 2 − E) LI = 20 − 1,4343 LI = 18,5657
LS = (X 1 − X )+ E
2 LS = 20 + 1,4343 LS = 21,4343
18 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Para un nivel de confianza del 95%, la diferencia entre las medias de las mediciones hechas
por las máquinas A y B, está comprendida entre 18,5657 cm y 21,4343 cm .
En general:
Ejemplo 3.3.2
Una compañía de taxis está tratando de decidir la compra de neumáticos de las marcas 1 ó 2
para sus vehículos. Para estimar la diferencia de las dos marcas se realiza un experimento
empleando 40 neumáticos de cada marca. Los neumáticos se hacen correr hasta su desgaste
total. Los resultados son:
Marca 1 Marca 2
x1 = 38.600 km x 2 = 35.400 km
∧ ∧
s 1 = 500 km s 2 = 800 km
Solución
19 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
(X 1 )
− X 2 − z.
σ 12
n1
+
σ 22
n2
( )
< µ 1 − µ 2 < X 1 − X 2 + z.
σ 12
n1
+
σ 22
n2
Fuente: http://docentes.educacion.navarra.es/msadaall/geogebra/figuras/normal5b.html
E = z.EE
20 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
p1 .(1 − p1 ) p 2 .(1 − p 2 )
EE = + ,
n1 n2
Ejemplo 3.4.1
Se comparan dos áreas de un país respecto a la proporción de adolescentes con caries. Una
de las regiones es netamente urbana y la otra es rural. En la muestra del área rural, 425 de
1.000 adolescentes tenían por lo menos una caries. En la muestra del área urbana, 376 de
1.000 jóvenes tenían por lo menos una caries. Construye un intervalo de confianza del 95%
para la diferencia de proporciones de adolescentes con caries de la zona rural y la zona
urbana.
Solución
La primera población hace referencia a los datos de la zona rural y la segunda población a los
datos de la zona urbana.
Extraemos los datos del problema; n1 = 1.000 , n2 = 1.000 , las proporciones muestrales de
425 376
adolescentes con caries son p1 = = 0,425 , p 2 = = 0,376
1.000 1.000
Con los datos hallamos el estadístico diferencia de proporciones y luego el error estándar
del mismo:
EE = 0,022
E = 0,043
21 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Para un nivel de confianza del 95%, la diferencia entre las proporciones de adolescentes con
caries de la zona rural y urbana, está comprendida entre 0,006 y 0,092 , o lo que es
equivalente, entre 0,6% y 9,2%.
En general:
Ejemplo 3.4.2
Solución
La primera población hace referencia a los datos del procedimiento actual y la población dos
al procedimiento nuevo.
75 80
Proporciones muestrales: p1 = = 0,075 y p 2 = = 0,032
1.000 2500
22 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Ejemplo 3.5.1
Solución
∧
El tamaño de la muestra es de n = 100 y de ella obtuvimos la varianza s 2 = 32.400 , para el
nivel de 99%, z = 2,575
2n 2n
32.400 32.400
32.400 − 2,575 2. < σ 2 < 32.400 + 2,575 2.
2 × 100 2 × 100
23 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Por lo tanto, para un nivel de confianza del 99%, desviación estándar de la resistencia media
a la ruptura de los cables fabricados está comprendida entre 177 y 183 kg.
24 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Bibliografía
LEVIN, R.; RUBIN, R. 2010. Estadística para administración y economía. 7ª Edición. México.
Pearson Educación.
WALPOLE, R.; MYERS, R.; MYERS, S.; YE, K. 2007. Probabilidad y Estadística para ingeniería y
ciencias. 8ª Edición. México. Pearson Educación. 816 p.
MIGALLÓN V. 2011. Distribución Normal con Geogebra (en línea). Consultado 8 agosto 2013.
Disponible en http://blogs.ua.es/violeta/2011/04/01/distribucion-normal-con-
geogebra/
SPIEGEL, M.; SCHILLER, J.; ALU, R. 2003. Probabilidad y Estadística. 2ª Edición. México.
McGraw-Hill. 416 p.
25 www.virtual.facen.una.py