Ertwy T RTG
Ertwy T RTG
Ertwy T RTG
Conceptos básicos
Myrna Manco Caycho
Universidad Tecnológica
Universidad Tecnológica de de Lima
Lima Sur –Sur – UNTELS
UNTELS 2021. 2021. 04RG-2021-UNTELS-VPA
Todos
Todoslos
losderechos reservados
derechos reservados 04RG-2021-UNTELS-VPA
Estadística Aplicada
Contenido
• I UNIDAD:
Distribuciones muestrales y estimaciones.
• II UNIDAD:
Prueba de hipótesis paramétrica.
• III UNIDAD:
Introducción a los diseños experimentales y
correlación.
• IV UNIDAD:
Series de tiempo y Regresión lineal múltiple.
Bibliografía virtual
LOGRO DE CLASE
Al finalizar la sesión, el
estudiante reconoce la
importancia de la inferencia
estadística.
pnorm(400,600,100)
pnorm(-2)
0.02275013
Inferencia estadística
Población
“… Conjunto de todas las observaciones (resultados) posibles que
puede tomar una variable aleatoria X. Según ésta definición, la
distribución de la población es la distribución de la variable
aleatoria X … la población será discreta o continua según sea X”
(*), luego diremos que conocemos una población si conocemos la
distribución F(X) de la variable aleatoria X o las funciones de
cuantía o densidad f(x) de la v.a. X y también conocemos los
parámetros poblacionales correspondientes.
(*)Tomado de Rufino Moya/ Gregorio Saravia “Probabilidades e Inferencia Estadística”)
Los depósitos en Nuevo Banco (X) durante el mes de marzo último está
normalmente distribuidos con media S/. 5000 y σ=800 soles. Si se
selecciona una muestra aleatoria (m.a.) de 20 depósitos referentes al mes
de marzo, calcular:
a) ¿Cuál es la probabilidad de que el quinto
depósito sea de a lo más S/. 6500?
b) ¿Cuál es la probabilidad de que la suma
total de los 20 depósitos exceda a S/.
90000?
c) Suponga que un depósito que sobrepase los
7000 ingresa a un sorteo, ¿cuál es la
probabilidad de que ningún depósito, en el
grupo de los 20, ingrese al sorteo?
Los depósitos en Nuevo Banco (X) durante el mes de marzo último está
normalmente distribuidos con media S/. 5000 y σ=800 soles. Si se
selecciona una muestra aleatoria (m.a.) de 20 depósitos referentes al mes
de marzo, calcular:
a) ¿Cuál es la probabilidad de que el quinto
depósito sea de a lo más S/. 6500?
Los depósitos en Nuevo Banco (X) durante el mes de marzo último está
normalmente distribuidos con media S/. 5000 y σ=800 soles. Si se
selecciona una muestra aleatoria (m.a.) de 20 depósitos referentes al mes
de marzo, calcular:
a) ¿?
b) ¿Cuál es la probabilidad de que la suma total de los 20 depósitos
exceda a S/. 90000?
Los depósitos en Nuevo Banco (X) durante el mes de marzo último está
normalmente distribuidos con media S/. 5000 y σ=800 soles. Si se
selecciona una muestra aleatoria (m.a.) de 20 depósitos referentes al mes
de marzo, calcular:
Universidad Tecnológica
Universidad Tecnológica de de Lima
Lima Sur –Sur – UNTELS
UNTELS 2021. 2021. 04RG-2021-UNTELS-VPA
04RG-2021-UNTELS-VPA
Todos
Todoslos
losderechos reservados
derechos reservados
Facultad de Ingeniería y Gestión
Escuela de Ingeniería de Sistemas
2. Teoremas fundamentales
Myrna Manco Caycho
[email protected]
Universidad Tecnológica
Universidad Tecnológica de de Lima
Lima Sur –Sur – UNTELS
UNTELS 2021. 2021. 04RG-2021-UNTELS-VPA
Todos
Todoslos
losderechos reservados
derechos reservados 04RG-2021-UNTELS-VPA
¿Cuáles son los ¿Qué son las
teoremas distribuciones
fundamentales de muestrales?
la inferencia
estadística?
E[ ] =
2
Var( )= n Error estándar de la media muestral =
n
Entonces x N ,
n
Como consecuencia de este resultado,
x−
z= N (0,1)
n
2 N −n
E[ ] = y Var( ) =
n N −1
N −n
x N ,
Entonces n N − 1
𝜋(1 − 𝜋)
E[𝑝]ҧ = 𝜋 ; Var[𝑝]ҧ =
𝑛
R. 0.95450
Administración
Ingeniería de Empresas
Electrónica
Ing. De
Sistemas
Ing. Ambiental
Mesa Electoral
Grupo 2A
MesaGrupo
Electoral 4
3B
3
Heterogéneos en su interior; diferentes entre sí en propiedades
y tamaño. Ejm: bloques de viviendas, los municipios, etc.
Universidad Tecnológica de Lima Sur – UNTELS 2021. 04RG-2021-UNTELS-VPA
32
Todos los derechos reservados
Muestreo por etapas
2
𝑍(1−𝛼) 𝜎
2
a. Población infinita y varianza conocida: 𝑛=
𝐸0
𝑁𝑍(1−𝛼) 2 𝜎 2
b. Población finita de tamaño N: 2
𝑛=
𝐸0 𝑁 − 1 + 𝑍(1−𝛼) 2 𝜎 2
2
2
Donde:
σ: Desviación estándar de la población
Eo: máximo error de estimación
N: Tamaño de la población
𝑍(1−𝛼) cuantil asociado a la seguridad o confianza deseada (1-)100%
2
library(samplingbook)
sample.size.mean(e = 3, S = 15, level = 0.95)
library(samplingbook)
sample.size.mean(e = 1, S = 6, N=1000, level = 0.98)
2
a. Población infinita o muestreo con 𝑍(1−𝛼)
2
reposición: 𝑛 = 𝑝. (1 − 𝑝)
𝐸
Donde:
p: proporción esperada
E: máximo error de estimación
N: Tamaño de la población
𝑍(1−𝛼) cuantil asociado a la seguridad o confianza deseada (1-)100%
2
library(samplingbook)
sample.size.prop(e = 0.05, P = 0.20, level = 0.97)
library(samplingbook)
sample.size.prop(e = 0.02, P = 0.50, level = 0.94)
3. Estimación puntual e
interválica
Universidad Tecnológica
Universidad Tecnológica de de Lima
Lima Sur –Sur – UNTELS
UNTELS 2021. 2021. 04RG-2021-UNTELS-VPA
Todos
Todoslos
losderechos reservados
derechos reservados 04RG-2021-UNTELS-VPA
2
Tomado de:
Felipe & Zuluaga
https://repository.javeriana.edu.c
o/bitstream/handle/10554/7386/t
esis419.pdf?sequence=1
• Myrna Manco C.
µ: Promedio
Población de Interés: X σ: Desviación 160
Histograma de la Poblacion
Estimación
estándar
140
120
interválica
100
Frecuencia
80
60
40
20
0
-4 -2 0 2 4
Clases
ഥ−μ
𝑿
Z= ~N(0,1)
σ/ n
Muestreo Distribución
Histogramamuestral de
de la Muestra
16
14
(𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒏 ) 12
Frecuencia
10
8
σ 𝑿𝒊 Estimador
6
ഥ=
𝑿
4
2
𝒏
Tamaño de la muestra: n 0
-4 -2 0 2 4
Clases
Error de estimación:
Tamaño de muestra
Población infinita:
Inicio 2
𝑍(1−𝛼)𝜎
2
CASO 1 𝑛=
𝐸0
Si
¿La varianza
poblacional σ2
𝜎 𝜎
𝑋−𝑍 1−𝛼ൗ2 ; 𝑋+𝑍 1−𝛼ൗ2
es conocida? 𝑛 𝑛
𝑁𝑍(1−𝛼) 2 𝜎 2
2
CASO 2 𝑛=
𝐸0 𝑁 − 1 + 𝑍(1−𝛼) 2 𝜎 2
2
2
𝑆 𝑆
𝑋−𝑡 𝑛−1;1−𝛼ൗ2 ; 𝑋+𝑡 𝑛−1;1−𝛼ൗ2
𝑛 𝑛
Fin
Una máquina de empaquetar bolsas de café está regulada para embalar bolsas cuyos
pesos se distribuyen normalmente con media 500 gramos. Supongamos que la máquina
está desregulada y deseamos conocer el verdadero promedio µ. Una m.a. de 35
paquetes produce un media de 485 gramos y una desviación estándar de 10 gramos.
Hallar el intervalo de confianza de 95% para la verdadera media poblacional.
𝑆 𝑆
𝑋−𝑡 𝑛−1;1−𝛼ൗ2 ; 𝑋+𝑡 𝑛−1;1−𝛼ൗ2
𝑛 𝑛
=3.43512
El verdadero peso promedio de las bolsas de café se encuentra entre 481.6 y 488.4 gramos, con un
nivel de confianza de 95%
Universidad Tecnológica de Lima Sur – UNTELS 2021. 04RG-2021-UNTELS-VPA
Todos los derechos reservados
Se desea estimar la velocidad media en una calle con un límite teórico de 50km por
hora. Con un radar oculto, se observa que la velocidad media de una muestra de 25
coches fue de 58km/hora. Si la desviación típica (estándar) de la velocidad en esta
calle es de 6km/hora, calcular un intervalo de 90% de confianza para la verdadera
velocidad media.
𝜎 𝜎
𝑋−𝑍 1−𝛼ൗ2 ; 𝑋+𝑍 1−𝛼ൗ2
𝑛 𝑛
Las tiendas Pelican, una división de National Clothing, es una cadena de tiendas de
ropa para mujer que tiene sucursales por todo Estados Unidos. Hace poco la tienda
realizó una promoción en la que envió cupones de descuento a todos los clientes de
otras tiendas de National Clothing. Los datos obtenidos en una muestra aleatoria de
100 pagos con tarjeta de crédito en las tiendas Pelican durante la promoción se
presentan en el archivo titulado Pelican1 (Archivo adjunto). El modo de pago
Propietary card se refiere a pagos realizados usando una tarjeta de crédito de
National Clothing. A los clientes que hicieron compras usando un cupón de
descuento se les denomina aquí promocionales y a quienes hicieron sus compras
sin emplear cupón de descuento se les denomina regulares. Como a los clientes de
las tiendas Pelican no se les enviaron cupones promocionales, los directivos
consideran que las ventas hechas a quienes presentaron un cupón de descuento
son ventas que de otro modo no se hubieran hecho. Es claro que Pelican espera
que los clientes promocionales continúen comprando con ellos. La variable
Artículos: El número total de artículos comprados, Ventas netas: Cantidad total
cargada a la tarjeta de crédito Los directivos de Pelican desean emplear estos datos
muestrales para tener información acerca de sus clientes y para evaluar la
promoción utilizando los cupones de descuento.
library(openxlsx)
Pelican <- read.xlsx("C:/Users/Usuario/Desktop/Pelican1.xlsx")
head(Pelican)
attach(Pelican)
data: Venta_neta
z = 207.4, n = 100.00000, Std. Dev. = 3.74166,
Std. Dev. of the sample mean = 0.37417, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
76.86715 78.33385
sample estimates:
mean of Venta_neta
77.6005
library(TeachingDemos)
t.test(Edad, conf.level = 0.91)
data: Edad
t = 34.773, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
91 percent confidence interval:
40.95881 45.20119
sample estimates:
mean of x
43.08
Universidad Tecnológica
Universidad Tecnológica de de Lima
Lima Sur –Sur – UNTELS
UNTELS 2021. 2021. 04RG-2021-UNTELS-VPA
Todos
Todoslos
losderechos reservados
derechos reservados 04RG-2021-UNTELS-VPA
Aplicación del teorema central del límite a la distribución
Bernoulli
E 𝑝 =𝜋 𝜋(1 − 𝜋) 𝜋(1 − 𝜋)
𝑉𝑎𝑟 𝑝 = 𝜎𝑝 =
𝑛 𝑛
𝑝−𝜋
𝑧= ≈ 𝑁(0,1)
𝜋(1 − 𝜋)
𝑛
p:proporción
𝑝 1−𝑝 𝑝 (1 − 𝑝) muestral
𝜋 ∈ 𝑝−𝑍 1−𝛼ൗ2 ;𝑝 + 𝑍 1−𝛼ൗ2
𝑛 𝑛
Tamaño de muestra
2
a. Población infinita o muestreo con 𝑍(1−𝛼) Nota: Si no se conoce el valor de p, usar
2 p=0.5 en la fórmula anterior.
reposición: 𝑛 = 𝑝. (1 − 𝑝)
𝐸
𝑍2 𝛼 𝑝 1−𝑝 𝑁
b. Población finita de tamaño N y el muestreo es sin reposición: 1−2
𝑛=
𝑁−1 𝐸2 + 𝑍2 𝛼 𝑝 1 − 𝑝
1− 2
𝑝 1−𝑝
𝑝∓𝑍 1−𝛼ൗ2
𝑛
p=823/1000 = 0.823
n=1000
E0<-qnorm(0.975)*sqrt(p*(1-p)/n)
#Límite inferior
p-E0
#Límite superior
p+E0
#Usando función
library(binom)
binom.confint(823, n=1000, conf.level=0.95,
methods="asymptotic")
𝑝 1−𝑝
𝑝∓𝑍 1−𝛼ൗ2
𝑛
library(openxlsx)
Pelican <-
read.xlsx("C:/Users/Usuario/Desktop/Pelican1.xlsx")
head(Pelican)
attach(Pelican)
table(Sexo)
table(Sexo, Modo_pago)
addmargins(table(Sexo, Modo_pago))
Inicio
¿Las varianzas
poblacionales
son iguales?
Fin
22
(
X 1 − X 2 z ) 12
+
2 n1 n2
1
(
X 1 − X 2 t ( ,n + n − 2 )S P ) 1
+
n1 n2
2 1 2
(n1 − 1)S1 2
+ (n 2 − 1)S 2
2
Sp = Estimador de la
2
varianza
n1 + n 2 − 2
2 n1 n2
+
v= 2
n 1 n 2
2
S12 S22
Siendo “v” grados de libertad
n n
(redondeado) 1 + 2
n1 − 1 n2 − 1
Universidad Tecnológica de Lima Sur – UNTELS 2021. 04RG-2021-UNTELS-VPA
Todos los derechos reservados
Intervalo de Confianza para diferencia de medias
(1 − 2 )
CASO IV: Poblaciones relacionadas n<30
Supuesto: Poblaciones Normales
𝑆𝐷
𝐷±𝑡 𝛼ൗ ,𝑛−1
2 𝑛
n1 + n 2 − 2
1.338276
Se desea saber si hay diferencia significativa entre el rendimiento en las ventas del
personal que recibe capacitación en marketing digital y aquellos a los que no se les
imparte. Se tomó una muestra aleatoria de 60 vendedores adiestrados obteniéndose
un índice de rendimiento promedio de 7,35. Por otra parte, se seleccionaron 80
vendedores no capacitados resultando con un índice de rendimiento promedio de
6,85. De registros anteriores se sabe que la desviación estándar de aquellos que
reciben la capacitación es 1,2 y de aquellos que no lo reciben es de 1,5. Realice la
estimación correspondiente con un nivel de confianza de 96% y concluya en términos
del problema.
Poblaciones independientes? Si
22
Se conocen las varianzas poblacionales? Si ( )
X 1 − X 2 z
12
+
2 n1 n2
CASO I
library(BSDA)
zsum.test(mean.x = 7.35, sigma.x = 1.2, n.x = 60, mean.y = 6.85, sigma.y = 1.5, n.y = 80,
conf.level = 0.96)
22
(
X 1 − X 2 z ) 12
+
2 n1 n2
Empresa 1: 1.52, 2.65, 1.32, 1.73, 1.91, 0.80, 0.96, 1.53, 2.79
Empresa 2: 2.20, 1.56, 1.72, 1.34, 0.87, 1.98, 2.13
Poblaciones independientes? Si
Las varianzas poblacionales se conocen? No
Las varianzas poblacionales son iguales? Si
1
( )
X 1 − X 2 t ( ,n + n − 2 )S P
1
+
n1 n2
2 1 2
Empresa 1: 1.52, 2.65, 1.32, 1.73, 1.91, 0.80, 0.96, 1.53, 2.79
Empresa 2: 2.20, 1.56, 1.72, 1.34, 0.87, 1.98, 2.13
S2
( )
2 2
S1
X 1 − X 2 t ( ,v ) +
2 n1 n2
Rendimientos en t/ha
Localidad Con control sin control
1 4.0 2.4
2 5.2 1.7
3 5.7 2.7
4 4.2 2.5
𝑆𝐷 5 4.8 2.2
𝐷±𝑡 𝛼ൗ ,𝑛−1 6 3.9 2.3
2 𝑛 7 4.1 2.5
8 3.0 1.7
9 4.6 2.1
10 6.8 4.9
1.6 3.5 3.0 1.7 2.6 1.6 1.6 1.3 2.5 1.9
Paired t-test
Apellidos y Nombres:…………………………………………………………..….………………..
1. (1p) Si X ~ Chi-cuadrado con 12 grados de libertad, hallar la P(X> 16) escriba su respuesta redondeando a
cuatro decimales. Use el punto como separador decimal.
2. (2p) En el archivo Pelican, obtenga el intervalo de confianza del 98% para la edad media de los clientes
mujeres, si se sabe que la varianza poblacional para la edad es 5 años 2. El límite superior es: (Redondee a
4 decimales)
library(openxlsx)
Pelican <- read.xlsx("C:/Users/Usuario/Desktop/Pelican1.xlsx")
head(Pelican)
attach(Pelican)
library(TeachingDemos)
z.test(Edad[Sexo=="Femenino"], stdev = sqrt(5), conf.level = 0.98)
Respuesta: 43.7437
3. (2p) Un ingeniero desea estimar al 98% de confianza, la temperatura media de fusión de cierto material de
fierro. Para ello toma una muestra aleatoria de este material y se obtiene como temperatura de fusión los
siguientes resultados (en °C): 1060, 1260, 1380, 1200 y 1145. Escriba el máximo error de estimación.
data: fusion
t = 22.408, df = 4, p-value = 2.348e-05
alternative hypothesis: true mean is not equal to 0
98 percent confidence interval:
1006.838 1411.162
sample estimates:
mean of x
1209
Eo = 1411.162-1209 = 202.162
4. (2p) Se ha encontrado que 25 de 250 smartphones producidos por la empresa A son defectuosos,
suponiendo que el muestreo es aleatorio, determine una estimación interválica al 90% para la proporción de
smartphones defectuosos. El límite superior es:
library(binom)
binom.confint(25, n=250, conf.level=0.90, methods="asymptotic")
Respuesta: 0.131
5. (2p) El dueño de un restaurante ha instalado una máquina dispensadora de bebidas. La máquina está
diseñada para servir 530 ml de líquido en el vaso. El dueño sospecha que la máquina podría estar sirviendo
líquido en exceso en los vasos y por lo tanto deberá llamar a un técnico. Se decide tomar una muestra
aleatoria de 30 vasos servidos por esta máquina. El error tipo I es:
a) Decidir erróneamente que la proporción del líquido servido es menor que 530 ml
b) Decidir erróneamente que la proporción del líquido servido es mayor que 530 ml
c) Decidir erróneamente que el contenido promedio del líquido servido es menor que 530 ml
d) Decidir erróneamente que el contenido promedio del líquido servido es mayor que 530 ml
e) Decidir erróneamente que el contenido promedio del líquido servido es igual a 530 ml
Ho: μ = 530
H1: μ > 530
Decidir erróneamente que el contenido promedio del líquido servido es mayor que 530 ml (D)
Ranking de universidades
Se comparan los números promedios de referencias de los artículos publicados por dos universidades
para elaborar un ranking. Se sabe que la distribución de las referencias en ambas universidades es
normal. Al seleccionar una muestra aleatoria de cada grupo se obtuvieron los siguientes resultados:
Unilateral derecha
Unilateral izquierda
Bilateral
Respuesta: Bilateral
A<-c(71,19,31,26,65,74,60,60,25,45,7,45,28,44)
B<-c(29,12,13,21,57,43,36,48,38,67)
var.test(A, B, ratio = 1, alternative = "two.sided")
data: A and B
F = 1.3188, num df = 13, denom df = 9, p-value = 0.6899
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3442728 4.3678087
sample estimates:
ratio of variances
1.31877
10. (1p) Un evaluador sugiere que la universidad A está en mejor posición. ¿Está usted de acuerdo?
Utilice α= 0.03. Considerando a la Universidad A como población 1 y a la Universidad B como población
2, para esta sospecha, la hipótesis estadística es:
Hipótesis:
Ho: μ (UnivA) = μ (UnivB)
H1: μ (UnivA) > μ (UnivB)
11. (1p) Para esta segunda hipótesis mencione los grados de libertad del estadístico de prueba
Valor p = 0.220
Decisión: No rechazar Ho
Conclusión: No hay suficiente evidencia muestral para afirmar que la universidad A está en una mejor posición, por
lo tanto, ambas universidades tienen la misma calidad en el indicador promedio de referencias de las
publicaciones, con un nivel de significancia α= 0.03