Clases Teóricas - EstadísticaIndustrial PDF
Clases Teóricas - EstadísticaIndustrial PDF
Clases Teóricas - EstadísticaIndustrial PDF
PRUEBA DE HIPOTESIS
H 0 : p 0.5
p 0.5 , ,
H1 :
Ing William León V
9
EJEMPLO
• ¿Debo tomar Aspirina o Migranol para el dolor de cabeza?
Laboratorios Bayer me dice que tome Aspirina
• Existe teoría (antigua) de que lo mejor es Aspirina
• Laboratorios Migra me dice que tome Migranol
• Existe teoría (nueva) de que lo mejor es Migranol
Solución:
Traducir a lenguaje estadístico: 20,000
Establecer su opuesto: 𝜇 ≠ 20,000
Seleccionar la Hipótesis alternativa 𝐻1 : 𝜇 ≠ 20,000
Seleccionar la hipótesis nula H 0 : 20,000
Solución:
a=0.05
Reg. Crit. Reg. Crit.
No rechazo H0
Bilateral
H1: 40
Unilateral Unilateral
H0: = 40
No se rechaza
H0: = 40
a
X 43
Ing William León V 25
SIGNIFICACIÓN: p
Es la probabilidad que tendría una
región crítica que comenzase
P a exactamente en el valor del
estadístico obtenido de la muestra.
Es la probabilidad de tener una
P a muestra que discrepe aún más que
la nuestra de H0.
X 43
Es la probabilidad de que por puro
No se rechaza azar obtengamos una muestra
H0: =40 “más extraña” que la obtenida.
p es conocido después de realizar el
experimento aleatorio
La verificación es no significativa
cuando p>a
Ing William León V 26
SIGNIFICACIÓN : p
La verificación es
estadísticamente
a P significativa
cuando p < α
a P Es decir, si el
X 50 resultado
P experimental
Se rechaza H0: =40
discrepa más de “lo
Se acepta H1: >40 tolerado” a priori.
•Sobre α •Sobre p
•Es un número pequeño, preelegido al • Es conocido tras realizar el
diseñar el experimento experimento
Inocente Culpable
VEREDICTO Inocente
OK Error
Menos grave
Culpable Error OK
Muy grave
REALIDAD
CONCLUSIÓN H0 cierta H0 Falsa
No Rechazo H0 Correcto Error de tipo II
El tratamiento no tiene El tratamiento si tiene efecto
efecto y así se decide. pero no lo percibimos.
Probabilidad β
z
Ing William León V
CINCO PASOS PARA PROBAR UNA HIPOTESIS PARA LA
MEDIA
1. Definir la Hipótesis estadística H0 y Ha
Ho: μ= 16
Ing William León V
42
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
1. Definir la Hipótesis estadística H0 y Ha
H0 : = 60,000 Km
H1 : 60,000 Km
n = 48 llantas
σ = 5,000 Km
Se utilizará la distribución Z
El Error Estándar de la media mide con cuánta precisión la media de la muestra estima la media
de la población y se utiliza para crear intervalos de confianza para la media de la población. Los
valores del Error Estándar de la Media más bajos indican con mayor precisión las estimaciones
de la media de la población
Ing William León V
Solución:
Datos: = 3 minutos.
σ= 1minuto.
n = 50 clientes.
a = 0.05
x = 2.75 minutos.
Ho : = 3
El tiempo promedio de espera es de 3 minutos.
H1 : 3
El tiempo promedio de espera es menor de 3 minutos.
n = 50 clientes
σ = 1 minuto
Entonces
Se utilizará la distribución Z
En el siguiente paso vamos a obtener el valor de “Z” y para ello vamos a apoyarnos
en la gráfica siguiente:
1 1
X
x x x 0.1414
n 50 7.07
Ing William León V
Ejemplo 2.-
Gráficamente se representa así:
Como se puede observar 1.77 está localizado más hacia la izquierda del límite de
confianza 1.64.
Se puede concluir que el tiempo medio de espera de clientes por atender en este
establecimiento es menor de 3 minutos.
PRUEBA DE HIPÓTESIS
DE 2 MEDIAS
POBLACIONALES
µ1 y µ2
• Donde
• H0 = Hipótesis nula
• H1 = Hipótesis alternativa.
• μ1= media de la población 1
• μ2= media de la población 2
P. H. para la diferencia de medias, con varianzas
poblacionales conocidas
• El procedimiento para probar es calcular la estadística de
prueba Z0 mediante la siguiente fórmula:
Donde:
X1 X 2 𝜇1 = media de la muestra 1
Z0 𝜇1 = media de la muestra 2
21 22
n1 n2 𝜎1 2 = varianza de la población 1
𝜎2 2 = varianza de la población 2
𝑛1 = tamaño de la muestra 1
𝑛2 = tamaño de la muestra 2
P. H. para la diferencia de medias, con varianzas
poblacionales conocidas
𝜇1 = media de la muestra 1
𝜇1 = media de la muestra 2
𝑆1 2 = varianza de la muestra 1
𝑆2 2 = varianza de la muestra 2
𝑛1 = tamaño de la muestra 1
𝑛2 = tamaño de la muestra 2
EJEMPLO 1
PASO 01
1.- Establecer las hipótesis
• 𝐻0: 𝜇1 − 𝜇2 = 0, o que 𝐻0: 𝜇1 = 𝜇2
• 𝐻0: 𝜇1 − 𝜇2 ≠ 0, o que 𝐻0: 𝜇1 ≠ 𝜇2
Z1=-1.96 0 Z2=1.96
α=0.5
𝜎2 10000
𝜎2𝑥 = = = 1581.14
𝑛2 40
𝜎= 𝜎1𝑥 2 + 𝜎2𝑥 2 = 2556.04 2 + 1581.14 2 = 3005.53
𝑋1 − 𝑋2 280000 − 270000
𝑍= = = 3.33
𝜎 3005.55
PASO 01
1.- Establecer las hipótesis
• 𝐻0: 𝜇1 = 𝜇2 o 𝜇1 − 𝜇2 = 0
• 𝐻1: 𝜇1 > 𝜇2 o 𝜇1 − 𝜇2 > 0
REGION DE NO
RECHAZO α=0.01
0 Z2=2.33
α=0.5
𝑋1 − 𝑋2 280000 − 270000
𝑍= = = 3.33
𝜎 3005.55
0.05
PRUEBA DE HIPOTESIS
PARA PROPORCIONES
Ing. William León Velásquez
CONTENIDO
PRUEBA DE HIPÓTESIS PARA
UNA PROPORCION
PRUEBA DE HIPÓTESIS PARA
DOS PROPORCIONES
PRUEBA PARA UNA
PROPORCIÓN
3
PRUEBA PARA UNA PROPORCIÓN
4
PRUEBA PARA UNA PROPORCIÓN
• Se probará que la hipótesis nula es:
p = p0
donde
• p es el parámetro de la distribución
binomial.
• po es el valor poblacional
5
PRUEBA PARA UNA PROPORCIÓN
𝑥
𝑝=
𝑛
300
𝑝=
600
7
PRUEBA PARA UNA PROPORCIÓN
p p0 , p p0 ,..o.. p p0
8
PRUEBA PARA UNA PROPORCIÓN
• Un valor Zc calculado a partir de la
muestra se compara con un valor critico
de Z dados en las tablas.
• Zc se obtiene así:
p p
Zc
p.q
n
x np
O también se puede Zc
utilizar: npq
9
EJEMPLOS PARA PROBAR UNA
PROPORCIÓN
Ejemplos:
• Un político esta interesado en
conocer si ha habido un aumento en
la proporción (porcentaje) de votantes
que lo favorecen en las próximas
elecciones;
• Un productor de cereales puede
querer conocer si ha ocurrido o no una
baja en la proporción de clientes que
prefieren su marca de cereal;
• El procedimiento
para probar una
proporción en
una población
normal es casi
igual al usado
para las medias.
11
MÉTODOS PARA PROBAR UNA
PROPORCIÓN
Para probar
una
proporción
12
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
Paso 1
Ho : p = po
H1 : p > po ó
p < po ó
p ≠ po
13
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
αó
Z α/2
14
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Paso 3
• Indicar el valor de Zc en el diagrama de la
región de rechazo (Paso 2).
Zc
15
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Paso 4 Calcular el valor zc para la
proporción muestral usando la
fórmula
𝑝 − 𝑝0
𝑥 𝑧𝑐
𝑝=
𝑛
𝜎𝑝
p0 (1 p0 )
p
n
16
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Paso 5
• Si el valor Zc cae dentro de la región de rechazo
(sombreada), entonces se rechaza Ho.
Si cae fuera de la región sombreada, entonces no se
rechaza la Ho.
17
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Ejemplo :
• Se desea probar si a habido una variación en la
proporción de 0.4 de mujeres en las carreras de
ingeniería.
• En el ultimo examen de admisión realizado se
selecciona una muestra de 200 ingresantes y se
obtiene una proporción de mujeres de 0.45.
• Utilice un nivel de
significancia del
0.01
𝑝 = 0.45, n = 200, y
α= 0.01.
18
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Solución:
Paso 1
• H0 : p = 0.4
La proporción de mujeres en las carreras de
ingeniería es de 0.4
• H1 : p ≠ 0.4
La proporción de mujeres en las carreras de
ingeniería es diferente de 0.4
19
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Paso 2
• Usando α= .01,
• como es de dos colas α/2= 0.005
Entonces Z= -2.575
20
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
Paso 2
• Usando α= .01,
• Z= -2.575 y como es de colas el otro Z=
2.575
• Entonces el diagrama de la región de
rechazo es:
005
. .005
-2.575 2.575
21
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
Paso 3
• Calculando el valor z para la
proporción muestral
𝑝 = 0.45, po=0.4
0.4(1 0.4)
p 0.0346
200
• obtenemos:
0.45 0.4
• Z= 1.45
0.0346
22
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
Paso 4
• Dibujando z = 1.45 en el diagrama de la región de
rechazo (Paso 2) obtenemos:
1.45
.005 .005
-2.575 2.575
23
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
Paso 5
• Como el valor z está fuera de la región de rechazo
(sombreada),
• Por lo tanto no se rechaza Ho.
• Conclusión:
• La proporción de mujeres en las carreras de
ingeniería no es diferente de 0.4.
24
B. MÉTODO DEL VALOR P (MÉTODO 2)
25
B. MÉTODO DEL VALOR P (MÉTODO 2)
• Paso 2
• Calcular el valor de Zc para la proporción
muestral usando la fórmula:
•
𝑝 − 𝑝0
𝑧𝑐
𝜎𝑝
• donde
𝑥 p0 (1 p0 )
𝑝= p
𝑛 n
26
B. MÉTODO DEL VALOR P (MÉTODO 2)
• Paso 3
• Utilizando la hipótesis alternativa dibujar la región bajo
la curva z que representa los valores extremos y con
el valor de Zc. Ir a la tabla y encontrar el valor de p
p o p/2
Zc
27
B. MÉTODO DEL VALOR P (MÉTODO 2)
• Paso 4
• El valor p = al área de la cola sombreada (s)
en el Paso 3.
28
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 5
• Si el valor p< α, entonces se rechaza H0
• Si el valor p >= α, entonces no se rechaza H0.
29
B. MÉTODO DEL VALOR P (MÉTODO 2)
Ejemplo :
• Se desea probar si a habido una variación en la proporción
de 0.4 de mujeres en las carreras de ingeniería.
• Se selecciona una muestra de 200 ingresantes y se obtiene
una proporción de mujeres de 0.45.
• Utilice un nivel de significancia del 0.01
𝑝 = 0.45,
n = 200, y
α= 0.01.
30
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 1
• Formulación de la hipótesis
H0 : p = 0.4
La proporción de mujeres en las carreras de
ingeniería es de 0.4
H1 : p ≠ 0.4
La proporción de mujeres en las carreras de
ingeniería no es de 0.4
• Asuma que
• 𝑝 = 0.45,
• n = 200, y
α = 0.01.
31
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 2
o Calculo del valor z de 𝑝
0.4(1 0.4)
p 0.0346
o Se obtiene 200
0.45 0.4
Z= 1.45
0.0346
32
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 3
• El valor P= para una de las áreas.
• Z= 1.45
• =1.4 +0.05 =1.45
33
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 3
• La región bajo la curva z que contiene los
valores extremos de es 0.0735 en ambos
lados de la curva
P/2 P/2
0.0735 0.0735
34
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 4
• El valor p de una de las áreas es 0.0735 (p/2)
• Por lo tanto el valor total de los dos extremos para
poder comparar con el α es sumando las dos
regiones del Paso 3
p= 2(el área a la izquierda de 1.45)
p= 2(0.0735)
p= 0.147
35
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 5
• Como alfa es 0.01
• Y sabemos que si el valor p >= α, entonces no se
rechaza H0
• Se tiene que 0.147 >=0.01 por lo tanto no se
rechaza la Ho
Conclusión:
La proporción de mujeres en las
carrera de ingeniería no es
diferente de 0.4.
36
EJEMPLO 1:
• Se afirma que, de todas los trabajadores que se contratan en
una empresa por lo menos el 30 % proviene del cono sur.
• Si una muestra de 600
contrataciones tomada al azar
de los registros de la oficina
de Recursos Humanos revela
que de las personas
contratadas 153 fueron del
cono sur.
• Se desea verificar tal
afirmación con un nivel de
significancia del 1%
37
EJEMPLO 1:
SOLUCIÓN:
• Para calcular la proporción p lo primero que se ha
de hacer es determinar la proporción muestral.
x 153 153
n 600,.. p 0.255,..
600
• Se probará la hipótesis nula p = 0.30 contra la
hipótesis alternativa p < 30 con un α=0.01
p 0.30,... q 0.70,..
38
EJEMPLO 1:
1.- Hipótesis:
H 0 : p 0.30 Ho: El porcentaje de trabajadores que
proviene del cono sur es del 30%
39
EJEMPLO 1:
2.- Cálculo del valor critico
con un nivel de significancia del 1 %
para una prueba de una cola se tiene α=0.01.
Z 2.33, 40
EJEMPLO 1:
41
EJEMPLO 1:
3.- Cálculo del estadístico de prueba
Aplicando formula se tiene:
•
42
EJEMPLO 1:
4.- Conclusión:
• Como Zc es menor que Z , se rechaza Ho
Zc
con un nivel de significancia de 0.01.
-2.41
Z c 2.41 2.33
Esto se observa en la grafica donde Zc cae fuera
del área de no rechazo .001 AREA DE
• El porcentaje de trabajadores NO
RECHAZO
que proviene del cono sur es
menor del 30% -2.33
• Por lo tanto, la afirmación de
que, de todas los trabajadores
que se contratan en una
empresa por lo menos el 30 %
proviene del cono sur, es falsa. 43
EJEMPLO 2:
• Se sabe que el 10 % de los fumadores prefieren la
marca de cigarrillo Malboro. Después de una campaña
publicitaria del cigarrillo Malboro, se entrevistaron a
200 fumadores para determinar la eficiencia de la
campaña publicitaria.
• El resultado de la muestra realizada detecto un total de
26 personas que fumaban Malboro.
• ¿Pueden considerarse que
esos datos presentan
evidencia suficiente para
indicar que hubo un aumento
en la aceptación del cigarrillo
Malboro. Utilice un nivel de
significancia del 5 %.
44
EJEMPLO 2:
• SOLUCIÓN:
• Se calcula la proporción muestral n 200.....x 26
p 0.10,.. p 26 0.13,..
• Para resolver el problema se plantea 200
una hipótesis alternativa unilateral por
la derecha.
• En la grafica se representara un 5 %
por la derecha .
• Para calcular el error estándar de la
proporción
p 0.10,..
q 0.90....
45
EJEMPLO 2:
1.- Hipótesis:
Ho: El porcentaje de fumadores que
H 0 : p 0.10 prefieren la marca de cigarrillo
Malboro es del 10%
46
EJEMPLO 2:
2.-Cálculo del z critico
Por tabla se sabe que al 5 % por la derecha es decir un α=0.05
Z 1,645
47
EJEMPLO 2:
Z Z
c
es decir,
Z c 1,645
48
EJEMPLO 2:
3.-Calculo el Z de los datos
Aplicando formula se tiene:
p p 0.13 0.10
Zc
p.q 0.1x0.9
n 200
0.03 0.03
Z c 1.41
0.00045 0.02127
49
EJEMPLO 2:
4.- Conclusión:
• Como Z c es menor que Z , es decir, Z c 1.41 1.96
• no se rechaza la Ho con un nivel de significancia de
0.05.
• Esto se podrá observar en una grafica en donde Z c 1.41
50
EJEMPLO 3:
• Un fabricante de semiconductores produce controladores
que se emplean en el sistema eléctrico de vehículos.
• El cliente requiere que la proporción de controladores
defectuosos no sea mayor de 0.05, y que el fabricante
demuestre estas características del proceso de
fabricación con este nivel de calidad, con un nivel de
significancia del 5 %.
• El fabricante de semiconductores
toma una muestra aleatoria de
200 dispositivos y encuentra
que 4 de ellos son
defectuosos.
• ¿El fabricante puede demostrar
al cliente la calidad exigida?
51
Obtener sus conclusiones.
EJEMPLO 3:
SOLUCIÓN: n 200
• Calcular la proporción muestral
x 4,
p 4 200 0.02,.
• Para resolver el problema hay que plantear una hipótesis
alternativa unilateral de una cola por la izquierda
• Es decir, p< 0.05
• Para calcular el error estándar de la proporción:
p 0.05,
q 0.95,
52
EJEMPLO 3:
1.- Hipótesis:
Ho: La proporción de controladores
H 0 : p 0.05 defectuosos es 0.05
53
EJEMPLO 3:
2.-Cálculo del Z crítico
Por tabla se sabe que al 5 % por la cola izquierda es decir un σ=0.05
Z 1,645
54
EJEMPLO 3:
• Regla de decisión o Región crítica:
• Se rechaza la Hipótesis nula si
Z c Z
• Es decir, Z c 1,645
55
EJEMPLO 3:
3.- Calculo el Z de los datos
Aplicando formula se tiene:
•
p p 0.02 0.05
Zc
p.q 0.05 x0.95
n 200
0.03 0.03
Z c 1.95
0.0002375 0.0154
56
EJEMPLO 3:
4.- Conclusión:
• Como Z c es menor que Z , es decir, Z c 1.95 1.645
• , se rechaza Ho con un nivel de significancia de 0.05.
• Esto se podrá observar en una
grafica en donde Z c caerá -1.91
dentro del área de rechazo
• .005
• Por lo tanto La proporción de
controladores defectuosos es -1.645
menor a 0.05
• es decir
• El fabricante puede demostrar
al cliente la calidad exigida
57
EJEMPLO 4:
• Se ha afirmado que por lo menos el 60 % de los
estudiantes de primero y segundo semestre de una
Universidad prefieren estudiar a partir de las dos de la
madrugada.
• Si 4 de una muestra de 14 estudiantes de primero y
segundo semestre tomadas al azar, afirman que
estudian a partir de las dos de la madrugada,
• Pruebe con un nivel
de significancia del 5 %
si es cierta la
afirmación.
58
EJEMPLO 4:
SOLUCIÓN:
• Se calcula la proporción muestral
.n 14,..x 4
4
• 𝑝 = = 0.285
14
• Como 𝑝 < 𝑝
• La hipótesis nula será p=0.60 contra la hipótesis
alternativa p menor que 0.60
Para calcular el error estándar
de la proporción:
p 0.60,..q 0.40,.
59
EJEMPLO 4:
1.- Hipótesis: H 0 : p 0.60
H1 : p 0.60
Ho: El porcentaje de los estudiantes de primero y
segundo semestre de una Universidad que prefieren
estudiar a partir de las dos de la madrugada es del
60%
H1: El porcentaje de los estudiantes
de primero y segundo semestre
de una Universidad que prefieren
estudiar a partir de las dos de la
madrugada es menor del 60%
60
EJEMPLO 3:
2.-Cálculo del Z crítico
Por tabla se sabe que al 5 % por la cola izquierda es decir un α=0.05
Z 1,645
61
EJEMPLO 4:
Regla de decisión
• Región crítica:
• Se rechaza la Hipótesis nula si
Z c Z
• ,es decir, . Z c 1,645
• se rechaza la Ho
62
EJEMPLO 4:
3.- Calcular el Z de los datos:
• Aplicando formula se tiene:
x np 4 14(0.60)
Z
npq 14(0.60)(0.40)
4 8.40 4.4
2.40
3.36 1,833
63
EJEMPLO 4:
4.-Conclusión:
• Como Z es menor que Z , es decir, Z 2.40 1,645
c c
• Se rechaza Ho y se acepta H1 con un nivel de
significancia de 0.05.
Z c 2.40
Esto se puede observar en una grafica
en donde Z c cae fuera del área de no
rechazo, por lo tanto, se acepta la Ha
.005
• Se concluye que la proporción
de estudiantes del primero y -1.645
segundo semestre que
prefieren estudiar a partir de
las dos de la madrugada es
menor del 60 %.
64
PRUEBA DE HIPOTESIS
PARA DOS PROPORCIONES
65
COMPARANDO DOS
PROPORCIONES
• En ciertos casos se esta interesado en comparar la
proporción de “éxito” en dos poblaciones
independientes.
• La proporción de semillas que germinan siendo
tratadas o no con un funguicida.
• El porcentaje de hombres y de mujeres que votan a
determinado candidato.
66
COMPARANDO DOS
PROPORCIONES
•Para efectuar esta comparación se requiere
67
COMPARANDO DOS
PROPORCIONES
• Comparamos las dos proporciones haciendo
inferencia sobre p1-p2, la diferencia entre las
dos proporciones poblacionales.
•Si las dos proporciones poblacionales son
iguales, entonces p1-p2 = 0.
•El mejor estimador de p1-p2 es la diferencia
entre las dos proporciones muestrales,
𝑥1 𝑥2
𝑝1 − 𝑝2 = −
𝑛1 𝑛2
68
DIFERENCIAS ENTRE PROPORCIONES
• Muestras Grandes 0 por Ho
• Aleatorias
• Independientes ( P1 – P2 )
H0: P1 = P2
H1: P1 P2
Proporción ponderada
69
.
EJEMPLO 1
La administración de una gran tienda cree, sobre la base de una
investigación, que el porcentaje de hombres que visitan sus tiendas 9
a más veces al mes (clientes frecuentes) es mayor que el porcentaje
de mujeres que hacen lo mismo.
Para probar esta información se toma una muestra de clientes
hombres y se identifica a 45 que visitan 9 a mas veces la tienda al
mes y representan un 58% del total, luego se toma una muestra de
mujeres y se encuentra que 71 so las clientes mas frecuentes y
representan el 42 % del total
Utilice un nivel de
significación de 0.05
Con los datos
proporcionados probar esta
hipótesis
70
.
EJEMPLO 1
𝑛𝐻 = 45 𝑛𝑀 = 71 Especifica el nivel de
significación de
𝑝𝐻 = 0.58 𝑝𝑀 = 0.42
71
EJEMPLO 1
1. Se formula las hipótesis:
Las especificaciones requeridas y el procedimiento
para probar esta hipótesis es la siguiente:
Las hipótesis nula y alternativa son las siguientes:
Z 1,645
73
73
EJEMPLO 1
4. Calculo del estadístico de la prueba:
𝑛𝐻 𝑝𝐻 + 𝑛𝑀 𝑝𝑀
𝑃= 74
𝑛𝐻 + 𝑛𝑀
𝑝𝐻 = proporción muestral de hombres (H)
𝑝𝑀 = proporción muestral de mujeres (M)
nH = tamaño de muestra hombres
nM = tamaño de muestra mujeres
Reemplazando se obtiene:
45(0.58)+71(0.42)
𝑃= =0.48
45+71
74
EJEMPLO 1
3. Calculo del estadístico de la prueba:
b. Se estima el error estándar de la diferencia de las
dos proporciones:
1 1
𝑆𝑝ℎ−𝑚 = 𝑃(1 − 𝑃) +
𝑛𝐻 𝑛𝑀
1 1
𝑆𝑝ℎ−𝑚 = 0.48(1 − 0.48) + =0.1
45 71
EJEMPLO 1
4. Calculo del estadístico de la prueba:
c. Calculamos el Z de la muestra
76
0.58−0.42 −(0)
Z= =1.6
0.1
76
EJEMPLO 1
5.- La hipótesis nula no se
rechaza, porque el valor de la 1.6
Z calculada (1.60) es menor Zc
que el valor crítico Z. (1.64)
.005
Conclusión: 1.64
La administración no puede concluir con un nivel de
significancia del nivel de 0.05, que la proporción de
hombres que visita 9 a más veces a la gran tienda es
mayor que la proporción de mujeres que hacen lo
mismo.
77
EJEMPLO 02
• Se considera cierto cambio en un proceso de fabricación de
partes de componentes. Se toman muestras del
procedimiento existente y del nuevo, para determinar si
éste tiene como resultado una mejoría.
• Si se encuentra que 75 de 1500
artículos del procedimiento
actual son defectuosos y 80 de
2000 artículos del
procedimiento nuevo también
lo son.
• Encuentre un intervalo de
confianza de 95% para la
diferencia real en la fracción de
defectuosos entre el proceso
actual y el nuevo. 78
EJEMPLO 02
Solución:
• Sean P1 y P2 las proporciones reales de
defectuosos para los procesos actual y nuevo,
respectivamente.
• De aquí,
• 𝑝1 =75/1500 = 0.05 y
• 𝑝2 = 80/2000 = 0.04
79
EJEMPLO 02
1.- Formulación de la hipótesis:
Ho: Pa – Pn = 0
Ho: La proporción de defectuosos del proceso
existentes es igual al nuevo proceso
H1: Pa – Pn >0
80
EJEMPLO 02
2. Obtención del valor crítico:
• Con el uso de la tabla encontramos que z para un nivel
de confianza del 95% (alfa=0.05)
Z 1,645
81
81
EJEMPLO 02
3.- Cálculo de los valores del intervalo
𝑝1 𝑞1 𝑝2 𝑞2
𝑃1 − 𝑃2 = (𝑝1 −𝑝2 ) + 𝑧 + =
𝑛1 𝑛2
(0.05)(0.95) (0.04)(0.96)
𝑃1 − 𝑃2 = 0.05 − 0.04 + 1.645 + =
1500 2000
p1-p2<0.0217
82
EJEMPLO 02
4.- Conclusión:
Como el intervalo contiene el valor de cero, no se
rechaza la hipótesis nula
Es decir
La proporción de defectuosos del proceso existentes no
es mayor al nuevo proceso con un nivel de significancia
del 5%
Por lo tanto
no hay razón para creer que el nuevo
procedimiento producirá una disminución
significativa en la proporción de artículos
defectuosos comparado con el método existente.
83
FIN
[email protected]
ESTADISTICA
INDUSTRIAL
TEMA 03
3
Ing William León Velásquez
Distribución t de Student
X 𝑋−𝜇
z 𝑡=
𝑆
n 𝑛
Ing William León Velásquez 6
Distribución t de Student
• De forma similar como en la distribución muestral
de medias cuando n > 30, en donde se usa la
distribución normal, se encontrará la distribución
de los valores t de student para aquellos casos
para cuando n < 30.
gl= df= n –1
P H MEDIA
MUESTAS MUETRAS
GRANDES PEQUEÑAS
DIST RIB. T
1 MUESTRA 2 MUESTRAS
STUDENT
PRUEBA DE
HIPOTESIS PARA UNA
MUESTRA PEQUEÑA
16
Ing William León Velásquez
PRUEBA DE HIPÓTESIS PARA UNA
MUESTRA PEQUEÑA. INTRODUCCIÓN
• En sesiones anteriores se
utilizo la distribución z,
siempre y cuando los
tamaños de las muestras
fueran mayores o iguales a
30 ó en muestras más
pequeñas si se conocen la
desviación estándar de la
población.
𝑋−𝜇
𝑡=
𝑆
𝑛
• Que se distribuye como una t de Student con
n-1 grados de libertad.
• Paso 1
• Se Definir el valor supuesto que se desea
probar: PROBLEMAS UTILIZANDO LA
– La Hipótesis Nula (H0) y
DISTRIBUCIÓN t
– La hipótesis alternativa (H1).
Paso 2:
Seleccionar el nivel de significación α y los grados de
libertad n-1.
Luego buscar el valor de tc utilizando estos datos:
• Paso 3
Calcular el estadístico t aplicando la fórmula
𝑋−𝜇
𝑡=
𝑆
𝑛
• t=-0.3
• Paso 4
Formular la regla de decisión y concluir
tomando y justificando la decisión:
rechazar o no rechazar la Hipótesis Nula
(H0 )
Zona de
no
5% rechazo
95%
-1,71 t = - 0,3
Ing William León Velásquez 27
No se rechaza la H0
PRUEBA DE HIPÓTESIS PARA UNA MUESTRA PEQUEÑA:
Ejemplo 02
• Un ingeniero químico afirma que el rendimiento medio de
cierto proceso en lotes es 500 gramos por milímetro de
materia prima.
• Para verificar esta afirmación el fabricante
toma una muestra de 25 lotes cada mes.
• ¿A Qué conclusión se llegará con un nivel
de confianza del 90%; si la muestra
extraída tiene una media de 518 gramos
por milímetro y una desviación estándar
de 40 gramos?
• Suponer que la distribución de
rendimientos es aproximadamente
Ing William León Velásquez 28
PRUEBA DE HIPÓTESIS PARA UNA MUESTRA PEQUEÑA:
Ejemplo 02
Solución:
1. Formulación de las hipótesis
• Ho: µ=500
• H1: µ ≠ 500
El rendimiento medio de cierto proceso en lotes es
DIFERENTE de 500 gramos por milímetro de materia
prima.
• De la hipótesis alternativa
observamos que se trata de una
prueba de dos colas
es decir el rendimiento
medio de cierto proceso en
lotes es diferente de 500 gramos por milímetro
de materia prima
Por lo tanto el fabricante concluye que no es cierta la afirmación
del ingeniero con un alfa de 0.10.
MUESTAS MUETRAS
GRANDES PEQUEÑAS
DIST RIB. T
1 MUESTRA 2 MUESTRAS
STUDENT
VARIANZAS VARIANZAS
IGUALES DIFERENTES
PRUEBAS DE HIPÓTESIS DE
DOS MUESTRAS:
MUESTRAS DEPENDIENTES
35
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES
• El procedimiento consiste
en buscar pares de unidades
experimentales con
características similares y
asignar aleatoriamente cada
unidad del par a cada uno
de los dos tratamientos en
estudio.
Ejemplo de aplicación:
• Se desea probar dos tipos
de alimentos en dos grupos
de terneros para ello se
forman pares de la misma
raza, edad, sexo, etc. y
después de un periodo, ver
si existe diferencia
significativa o no, entre los
promedios de ganancia de
peso de ambos grupos.
Ing William León Velásquez 38
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES
Ejemplo de aplicación:
• Se desea estudiar en dos
lotes de plantas del mismo
tipo, la aplicación de dos
tipos de herbicidas, y
comprobar si existen
diferencias en la resistencia
de ciertas plagas entre los
lotes de plantas).
2.- Se obtiene tT
Con el α y como se establece una hipótesis de
un único parámetro poblacional (se podría
pensar en una sola muestra) ,
Y con el número de grados de libertad (n - 1)
Se obtiene el t n-1,0.05
𝑑−𝐷
𝑡𝑐 =
𝑆𝑑
𝑛
Donde :
𝑑𝑖 𝑑𝑖 − 𝑑
2
𝑑= 𝑆𝑑 =
𝑛𝑖 𝑛−1
Antes 73 77 68 62 72 80 76 64 70 72
Después 68 72 64 60 71 77 74 60 64 68
Ing William León Velásquez 43
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 01 MUESTRAS DEPENDIENTES
• Usar α= 0.05 para calcular si los ejercicios
aeróbicos reducen el ritmo cardiaco durante el
reposo.
• Calcular
• Por la región crítica y
• Por el valor de P.
SOLUCIÓN
• α= 0.05
• GL: N-1 =10-1=9
Voluntario 1 2 3 4 5 6 7 8 9 10
Antes 73 77 68 62 72 80 76 64 70 72
Después 68 72 64 60 71 77 74 60 64 68
Diferencia 5 5 4 2 1 3 2 4 6 4
𝑑−𝐷 3.6−0
𝑡𝑐 =
𝑆𝑑 = 1.58 =7.20
𝑛 10
• Ho : D = 0
• H1 : D≠ 0
• el nivel de glucosa sérica con las dietas de alta fibra es diferentes
al nivel obtenido con la dieta de baja fibra
• ttab=3.169
BF 9.3 8.7 6.3 12.7 6.7 7.3 15.4 5.6 11.9 5.1 17.3
Dife- 0.1 8.9 2.6 4.2 3.7 4.5 -0.3 1.5 7.7 3.1 5.9
rencia
𝑑−𝐷 3.81−0
𝑡𝑐 =
𝑆𝑑 = 2.90 =4.35
𝑛 11
58
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES.
• Meta: Prueba de Hipótesis o formar un intervalo de
confianza para la diferencia entre la media de las dos
poblaciones.
• Se probará la
σ1 y σ2 igualdad de
desconocidos varianza
Se asumen • Se usará Sp para
iguales estimar σ
desconocidas
σ1 y σ2 • Se probará la
desconocidos igualdad de varianza
• Se usará S1 y S2
No se asumen para estimar σ1 y σ2
iguales desconocidas
Ing William León Velásquez 63
PRUEBAS DE HIPÓTESIS DE DOS
MUESTRAS:
MUESTRAS INDEPENDIENTES
Se asume Varianzas iguales
64
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
• Se asume:
• Las muestras son aleatorias e independientes
• Las Poblaciones son normalmente distribuidas o el
tamaño muestral de ambas muestra es por lo menos
30
• Varianzas poblacionales son asumidas iguales y
desconocidas
La varianza ponderada es: El estadístico de prueba es:
4.-Decisión y Conclusión:
Rechazar H0 con α = 0.05
Hay evidencia de una diferencia entre medias.
Ing William León Velásquez 69
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 1: Con Intervalo de confianza para μ1 - μ2
Como se rechaza la H0,
Establecer un 95% de intervalo de confianza de tal
manera que μA ≠μB? 𝑿𝟏 − 𝑿𝟐 =3.27 - 2.53=0.74
95% I.C. para μA - μB Tα/2 =2.0154
Error t m=0.3628
Estadísticos de grupo
Ho: μ1 - μ2=0
H1: μ1 - μ2≠0
78
Ing William León Velásquez
Se denomina así en
honor a Sir Ronald
Fisher, uno de los
fundadores de la
ciencia estadística
moderna.
•Es continua
Esto significa que puede
tomar una cantidad
infinita de valores entre 0
y más infinito
•Es asintótica
Conforme los valores de
X aumentan, la curva de
la distribución F se
aproxima al eje X, pero
nunca lo toca. Es la
misma característica que
describe una distribución
normal.
Un miembro específico
de la familia queda
determinado por dos
parámetros: los grados
de libertad en el
numerador y los grados
de libertad en el
denominador.
Ing William León Velásquez 85
La distribución F. Uso 1
86
Ing William León Velásquez
La distribución F. Uso 2
89
Ing William León Velásquez
La distribución F. Procedimiento para realizar la
prueba
4.- Conclusión
Tabla F
con α=0.05
n1=6
n2=7
F=3.866
Ruta 2
FT=3.866
F=4.23
La decisión es rechazar la hipótesis nula,
debido a que el valor F calculado es mayor que el
valor crítico
99
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Se debe verificar si se asume que son iguales
Varianzas
Poblacionales
desconocidas
Se asume Se asume
Varianzas Varianzas
iguales diferentes
Prueba de hipótesis sobre la diferencia de
medias. Muestras independientes, Varianzas
desconocidas pero se asume iguales
Ho: µ1 = µ2
Ho: µ1 ≠ µ2
Para probar Ho se debe calcular el estadístico t y compararlo
con el tC
𝑥1 − 𝑥2 − 𝜇1 − 𝜇2
𝑡= tc(𝑛1 + 𝑛2 − 2)
1 1
𝑆𝑝 +
𝑛1 𝑛2
𝑛1 − 1 𝑆 21 + 𝑛2 − 1 𝑆 2 2
𝑆2𝑝 =
𝑛1 + 𝑛2 − 2
101
Ing William León Velásquez
Prueba de hipótesis sobre la diferencia de
medias. Muestras independientes, Varianzas
desconocidas pero se asume diferentes
Ho: µ1 = µ2
Ho: µ1 ≠ µ2
Para probar Ho se debe calcular el estadístico t y compararlo
con el tC
𝑥1 − 𝑥2 − 𝜇1 − 𝜇2
𝑡= tc(glp)
𝑆21 𝑆22
+
𝑛1 𝑛2 2
𝑆 21 𝑆 2 2
𝑛1 + 𝑛2
𝑔𝑙𝑝 =
2 2
𝑆 21 𝑆22
𝑛1 𝑛2
+
𝑛1 − 1 𝑛2 − 1
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
• La cantidad de impurezas presente en un lote de sustancia química
utilizada como materia prima es determinante para evaluar la
calidad
• Un fabricante que usa dos líneas de producción 1 y 2, hizo un ligero
ajuste a la línea 2 con la esperanza de reducir tanto la variabilidad
como la cantidad promedio de impurezas en la sustancia química.
Muestras aleatorias en cada línea arrojaron las
siguientes mediciones
Línea n Promedio Varianza
1 16 3.2 1.04
2 16 3.0 0.51
¿Los datos aportan suficiente evidencia
para concluir que la variabilidad de
impurezas del proceso es menor para la
línea 2? Ing William León Velásquez 103
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
• Solución:
2.40
2. 04
Con un nivel de significancia de 0.05, no se rechaza Ho, por
lo tanto se puede concluir que la variabilidad de las dos 106
líneas son iguales Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
Fase 2: Prueba de Hip. Para muestras independientes.
Para probar la disminución de El estadístico de prueba teniendo en
impurezas se utiliza la cuenta que mediante la prueba F, se
siguiente prueba de hipótesis: concluyó que se asumen varianzas
iguales es:
108
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
Paso 3: Cálculo de t de los datos:
=0.9
5
Ing. William león Velásquez
EJEMPLO DIDACTICO
Walter
Observe que las poblaciones en la gráfica de la
Kike
izquierda siguen la distribución normal y la
Willy variación en cada población es la misma. Sin
embargo, las medias no son iguales.
Servicio al cliente
9
Ing. William león Velásquez
La prueba ANOVA
X G 58
Ing. William león Velásquez 12
EJEMPLO DIDACTICO
15
Ing. William león Velásquez
EJEMPLO DIDACTICO
• En el ejemplo, la variación debida a los tratamientos es la suma de las diferencias
al cuadrado entre la media de cada empleado y la media global.
16
Ing. William león Velásquez
EJEMPLO DIDACTICO
tratamientos es:
17
Ing. William león Velásquez
La prueba ANOVA
•La otra fuente de variación se le conoce como componente aleatoria o
componente de error.
Las medias de
cada empleado
Walter es 56
Willy es 70
Kike es 48
= +
𝑀𝑆𝐴
𝐹=
𝑀𝑆𝐸𝑟𝑟𝑜𝑟
Ing. William león Velásquez 21
La prueba ANOVA
𝑀𝑆𝐴 S 2T m 1
𝐹=
𝑀𝑆𝐸𝑟𝑟𝑜𝑟
F 2 m-1
S E nm
𝑀𝑆𝐴 S 2T m 1
𝐹= F 2 Entre grupos
Como esta razón es muy distinta a 1, se concluye que las medias de los
tratamientos no son iguales.
X Y
Media general
Efecto del tratamiento en el
Y= factor analizado
Error aleatorio
Y : cantidad producida
d) Criterio de decisión
Se rechaza la Ho debido a que el valor del Fcalculado es 9.118 y es mayor al
valor del Fcrítico de 3.10.
Se concluye de que hay diferencia en el número promedio de infracciones
entre los distritos citados
12 14 18 12
10 12 12 14
14 10 16 16
12 10
Al nivel de significancia de 0,05; existe alguna diferencia entre las cuatro
empresas, en el número medio de meses antes de recibir un aumento de sueldo?
Ing. William león Velásquez 42
Ejemplo 2
a) Formulación de las hipótesis
Ho:μ1 = μ2 = μ3 = μ4
H1: Al menos una de las μi es diferente
SStotal X
2
X
2
X
2
SST
2
T c n
c n
Como el valor Fcrítico 3.71 es mayor que el valor Fcalculado de 2.360 no se rechaza
la Ho, y se concluye que no existe alguna diferencia entre las cuatro empresas, en el
número medio de meses antes de recibir un aumento de sueldo
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen
resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?
Se calcula los totales y los cuadrados de los totales divididos por el numero de
observaciones
2940
n
SStotal X
2
X
2
SC(total) = 2984 - 2940 = 44
n
X
2
S m 1 2T
F 2 F = 13,4/ 1,43 = 9,37
S E nm
Ing. William león Velásquez 51
Ejemplo 3
𝑋 2
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 = 𝑋2 − SC(total) = 988 – 820 = 168
𝑛
𝑇 2𝑗 𝑋 2
𝑆𝑆𝑇 = −
𝑛𝑗 𝑁 SC(entre) = 902 – 820 = 82
Conclusión
Como el F calculado es mayor que el Fcritico se rechaza
la hipótesis nula y se concluye que los cuatro
procedimientos de presentación producen diferencias
significativas.
Media general
Error aleatorio
Ing. William león Velásquez 60
Diseño de Bloques aleatorios
Media general
Error aleatorio
Ho : 1 2 3 ......... a
Ha : A lg unas. ' s.son.diferentes
Para el factor de bloqueo – en columnas
b
SCBl a( X
j 1
j X) 2
gl.SCBl b 1
CMBl SCBl /( b 1)
MCTr
Fc
MCE
Ftabla FALFA , g l. S CTr, g l. S CE
MCBl
Fc
MCE
Ftabla FALFA , g l. S CBl, g l. S CE
Regla: No rechazar si la F de la muestra es menor que la F de tabla para una cierta alfa
Distribución F
Ftabla
Alfa
Zona de no rechazo
Urbano Rural
Hombre Mujer Hombre Mujer
C p
a a 4 1 3 4
n l
t d a 9 4 7 4
i e b
d r
9 5 7 4
a a 10 6 7 8
d s
Gl Iter =1
Gl SCE= 12
F= 4 .75
FC
92
2
529
16
Ing. William león Velásquez 81
Ejemplo 1
•Cálculo de la Suma Total de Cuadrados
SCTotal = X 2 - FC
= ( 278 + 78 + 156 + 112) - 529 = 95
= 624 - 529 = 95
Hombre Mujer
FUENTE SC GL MC F
TRATAMIENTO 1 1.0 1 1 0.2
TRATAMIENTO 2 25.0 1 25 5
POR GRUPOS 35
INTERACCION 9.0 1 9 1.8
ERROR 60 12 5
TOTAL 95 15
Ho: Los contenidos de ácido ascórbico por tiempo de congelamiento son iguales
Ha: Los contenidos de ácido ascórbico por tiempo de congelamiento son diferentes
• Ho: Los contenidos de ácido ascórbico son iguales debido a la interacción de las dos variables.
Ha: Los contenidos de ácido ascórbico son diferentes debido a la interacción de las dos
variables.
Gl T1 =2
a b n Gl SCE= 27
3 3 36 F=3.35
3.35
gl T1 a-1 2 Gl T2 =2
gl T2 b-1 2 Gl SCE= 27
(a-1)(b-1) 4 F= 3.35
gl Iter
gl Tot n-1 35 3.35
gl SCE glTot-gl T1 -gl T2 - gl Iter 27 Gl Iter =4
Gl SCE= 27
F=2.73
2.73
Ing. William león Velásquez 93
Ejemplo 02
• Elaborar la tabla ANOVA
n
0 3 7
𝑥
𝑥 1724.1
X 2
(1724.1) 2 2972520.81
( X )
2972520.81
2
FC
FC
= ---------------- = 82570.0225
n
36
SCTotales X 2 FC
SCTotales= 83102.01 - 82570 = 531.9875
Ing. William león Velásquez 96
Ejemplo 02
• 3- Cálculos de los tratamientos
SCT1
2
X
FC
n
SCT1=
X 2
n FC 82797.23 82570.02
SCT1= 82797.23 - 82570.02 = 227.212 97
Ejemplo 02
• 3- Cálculos de los tratamientos SCT2
2
X
FC
n
X 2
n 82602.77
SCT =
Ing. William león
2 Velásquez 82602.77 - 82570.02 = 32.752
Ejemplo 02
SGG
X
2
FC
n X n=4
0 3 7
X 2
203.1
2
41249.61 RICA 203.1 194.6 179.5
10312.4 BUENA 202 179.2 178.4
n 4 4 BARATA 209.9 192.8 184.6
FUENTE SC GL MC F
TRATAMIENTO 1 227.21 2 113.606 12.0429
MARCA DE GASOLINA
I II III
A 18 21 20
AUTOMOVILES B 24 26 27
C 30 29 34
D 22 25 24
E 20 23 24
Con un α= 0.05 ¿Existirá alguna diferencia entre los rendimientos medios en
miles por galón de los tres tipos de gasolina?
Ing. William león Velásquez 105
Ejemplo 03
• Utilice un nivel de significancia de .05 para probar la hipótesis de que:
• Los consumos de gasolina por marca de automóvil son diferentes
• Los consumos de gasolina por marca de gasolina son diferentes
I II III ∑X ∑X2 n
A 18 21 20 59 1165 3
B 24 26 27 77 1981 3
C 30 29 34 93 2897 3
D 22 25 24 71 1685 3
E 20 23 24 67 1505 3
∑X 114 124 129 367 ∑∑X
∑X2 2684 3112 3437 9233 ∑∑X2
n 5 5 5 15 ∑∑n
FC
Factor de corrección
n
(367)2
FC = ----------- = 8979.267
15
Suma total de
cuadrados
n
Suma de cuadrados del
tratamiento 1
SST1 = (114)2 (124)2 (129)2
--------- + --------- + --------- - 8979.26667 = 23.3333
5 5 5
•Conclusión
FCRITICO FDATOS Conclusión
FT1= 4.459 7 Se rechaza la Ho
• Ejemplo 1.-
• Se realiza un estudio de la talla, medida
en cm. y el peso, medido en kg. de un
grupo de 10 personas,
• Los valores obtenidos figuran en la tabla
inferior:
Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
55 58 58 61 67 62 66 74 79 83
(kgs)
Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs) 55 58 58 61 67 62 66 74 79 83
TALLA
Ing. William Jaime León Velásquez 8
DIAGRAMAS DE DISPERSIÓN O NUBES DE
PUNTOS
• Se puede ver en el primera figura que correspondía al diagrama de talla -
peso que la serie de puntos presenta una tendencia "ascendente" . Se dice
en este caso que existen entre las dos variables una "dependencia directa"
.
• En caso en que no se pueda observar una tendencia clara estaríamos ante una
dependencia muy débil que no se puede observar mediante la nube de puntos
Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs) 55 58 58 61 67 62 66 74 79 83
Paso 1:
La suma de todos los productos de los valores de x (talla) por los de y (peso) sería:
∑ xi yi
Paso 2:
Definir n como el numero de eventos en este caso es n=10
Y con el resultado anterior se divide entre n
Paso 3:
A este valor se debe restar el producto de las medias de ambas variables:
Media de x (talla): 172.6
Media de y (peso): 66.3
−1 ≤ 𝑟𝑥𝑦 ≤ +1
rxy = 0
9 12
25 8 rxy = 0.88 10
7
20 8
6
15 5 6
4
rxy = 1
10 4
3
2 2
5
1
0
0 0 0 2 4 6 8 10 12
0 2 4 6 8 10
0 2 4 6 8 10 12
0
0 2 4 6 8 10 12
-5
rxy = -1
rxy = -0.88
-10
-15 rxy = 0
-20 Ing. William león Velásquez
21
EL COEFICIENTE DE CORRELACIÓN DE PEARSON
Calificación Ventas
Vendedor x2 xy y2
(x) (y)
José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
María 10 11 100 110 121
total 30 40 210 274 370
𝐧 𝐱𝐲 − 𝐱 𝐲
𝐫=
𝐧 𝐱𝟐 − 𝐱 𝟐 𝐧 𝐲𝟐 − 𝐲 𝟐
𝟓(𝟐𝟕𝟒) − (𝟑𝟎)(𝟒𝟎)
𝐫=
(𝟓) 𝟐𝟏𝟎 − (𝟑𝟎)𝟐 𝟓 𝟑𝟕𝟎 − (𝟒𝟎)𝟐
r=0.88
Ing. William león Velásquez 26
EJEMPLO 1
Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
55 58 58 61 67 62 66 74 79 83
(kgs)
Sxy = 55.32
Sx = 50.71
r = 55.32 / (50.71 * 752.81)
Sy = 752.81
r =0.0014
En el ejemplo,
el coeficiente de determinación (r2) es de 0.77, encontrado por
(0.88)2.
Y se calcula:
𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚
𝐫𝟐 =
𝐯𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐭𝐨𝐭𝐚𝐥
Ing. William león Velásquez 32
EL COEFICIENTE DE NO DETERMINACIÓN
El coeficiente de no determinación es la proporción de la variación
total en Y que no esta explicada por la variación en X.
Formulación de la hipótesis
𝒓 − 𝒖𝒓
𝒕= 𝒏−𝟐
𝟏 − 𝒓𝟐 𝒕=𝒓
𝒏−𝟐
𝟏 − 𝒓𝟐
TABLA t
𝐧 𝐱𝐲 − 𝐱 𝐲
𝐫=
𝐧 𝐱𝟐 − 𝐱 𝟐 𝐧 𝐲𝟐 − 𝐲 𝟐
𝐗−𝐗 𝐘−𝐘
𝐫=
(𝐧 − 𝟏)𝐒𝐗 𝐒𝐘
Ing. William león Velásquez 41
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Estadístico de prueba:
Valores críticos: Utilice la tabla
Con un nivel de significancia y tamaño n
Φ =n-2=3 tc = 2.35336
Entonces tc = 2.35336
46
PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE
CORRELACIÓN
La fórmula para calcular t(el estadístico de prueba) es:
.
𝒏−𝟐
𝒕=𝒓
𝟏 − 𝒓𝟐
Entonces:
𝒏−𝟐 𝟓−𝟐
𝒕=𝒓 𝟐
= (𝟎. 𝟖𝟖) 𝟐
= 𝟑. 𝟐𝟏
𝟏−𝒓 𝟏 − 𝟎. 𝟖𝟖
47
PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE
DE CORRELACIÓN
Se localizan en la gráfica los valores críticos y el valor del
estadístico de prueba.
48
PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE
DE CORRELACIÓN
49
EJEMPLO 3
Una gran empresa de ventas de artículos
electrónicos, quiere verificar si existe
relación entre las llamadas que realiza el
vendedor con las ventas de
computadoras que realiza.
Con tal motivo selecciona a 10 de sus
vendedores de manera aleatoria y se
registra su cantidad de llamadas y las
computadoras vendidas
llamadas x 20 40 20 30 10 10 20 20 20 30
ventas y 30 60 40 60 30 40 40 50 30 70
50
EJEMPLO 3
Se traza una recta vertical con los valores de datos en la media
de los valores X y una recta horizontal en la media de los valores Y.
52
EJEMPLO 3
Con los datos obtenidos calculamos r
𝐗−𝐗 𝐘−𝐘
𝐫=
(𝐧 − 𝟏)𝐒𝐗 𝐒𝐘
900
𝐫= r=0.759
9 9.1893658𝑥14.3372
¿Cómo se interpreta una correlación de 0.759?
Es positiva, por lo que se observa una relación directa entre el número de
llamadas de ventas y el número de computadoras vendidas
Esto confirma el razonamiento basado en el diagrama de dispersión.
El valor de 0.759 está muy cercano a 1.00, y por lo tanto se concluye que la
asociación es fuerte.
53
EJEMPLO 3
¿Recuerde que la gerente de ventas de la empresa determinó que la
correlación entre el número de llamadas de ventas y el número de
copiadoras vendidas era 0.759, lo que indicaba una asociación fuerte
entre ambas variables.
54
Ejemplo 3
PRUEBA DE HIPÓTESIS DE CORRELACIÓN
Formulación de la hipótesis
• Ejemplo 1: Se desea estudiar la relación que existe entre el ancho X (en mm.) y la
longitud Y (en mm.) de la concha de abanico de las costas.
• Se observan los datos:
• El modelo de regresión en este caso establece una expresión para E(Yi ), el valor
esperado de Y cuando el valor prefijado de X es xi .
• Si todos los xi están a la misma distancia entre sí se trata de un diseño fijo
equiespaciado.
• El tratamiento estadístico de ambos diseños es parecido, aunque la notación sea
diferente. A menudo, por simplicidad, utilizaremos la notación del diseño fijo
aunque el diseño del experimento sea aleatorio.
Ing. William león Velásquez 66
EL MODELO DE REGRESION LINEAL SIMPLE
• Diseño fijo: Diseño aleatorio:
• Yi = β0 + β1 xi + Ui (Y/X = xi ) = β0 + β1 xi + Ui
• donde β0 y β1 son respectivamente la ordenada en el origen y la pendiente de
la recta de regresión. Ui es un termino de perturbación o error experimental.
Interpretación de los parámetros de la regresión:
• β0 representa el valor medio de la respuesta Y cuando la variable explicativa X
vale 0.
• β1 representa la variación que experimenta en media la respuesta Y cuando la
variable explicativa X aumenta en una unidad.
Donde
Yi es la i esima observación de la variable aleatoria dependiente Y.
Xi es la i esima observación de la variable fija dependiente X
βo es el intercepto y es una constante (parámetro)
β1 es llamado la pendiente y es una constante (parámetro)
ε es la componente aleatoria error
Ejemplo 1
Se realizó un experimento el efecto de
incremento de la temperatura en la
efectividad de un antibiótico. Se
almacenaron tres porciones de una onza
del antibiótico durante el mismo lapso a
cada una de las siguientes temperaturas:
30º 50º 70º 90º.
Promedio
obtenido 16 12 13 8 12 13 10 9 14
Sueldo
actual 3100 2500 2500 1900 2200 2800 1600 2200 2600
Ing. William león Velásquez
77
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
De acuerdo al gráfico de
2500
dispersión se puede asumir
Sueldo actual
2000
que existe una relación
1500
y
Lineal (y)
lineal y se requiere la línea
1000
recta que mejor se ajuste a
los datos experimentales
500
0
0 2 4 6 8 10 12 14 16 18
Promedio obtenido
Donde
yi es el valor observado en este caso la sueldo actual para un valor de promedio
obtenido xi,
bo corresponde al intercepto de con la línea de regresión y
b1 representa el valor medio de sueldo actual para un valor determinado de promedio
obtenido llamada pendiente de la línea de regresión o coeficiente de regresión,
xi es el valor de los promedios obtenidos, que se asume, es medida sin error. Y
El método de mínimos cuadrado trata de buscar cual es la recta que más se acerca a los
puntos; es decir busca la recta que haga que la distancia entre el valor real y el valor
obtenido por la recta ajustada sea la más pequeña y así, la suma de todas estas
distancias simbolizadas como:
7877.778
𝑏1 = = 154.8035
50.889
𝑌= 537.336 + 154.8035 X
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
𝑌= 537.336 + 154.8035 X
Temperatura (x) 45 50 55 56 60 67 70 78
pH (y) 6,5 6,5 6,4 6,4 6,4 6,3 6,3 6,3
6. 9
6. 8
6. 7
6. 6
6. 5
6. 4
6. 3
PH
6. 2
0 20 40 60 80
Temperatura
EJERCICIO
Sol: Para encontrar la recta de regresión tenemos que calcular los
coeficientes:
104,5 678
a (0,0080111251) 6,53125 0,3394714278
16 16
a 6,8707
Por lo tanto la recta de regresión es:
Y′ = a + bX
n(ΣXY) – (ΣX)(ΣY)
b=
n(ΣX²) – (ΣX)²
ΣY ΣX
a= – b
n n
Ing. William león Velásquez 6
EJEMPLO 1
b= = 5 ( 210 ) – ( 30 )²
= 1.133
n(ΣX²) – (ΣX)²
ΣY ΣY 40 30
a= ─b = - 1.133 = 1.202
n n 5 5
𝑌2 − 𝑎 𝑌 − 𝑏 𝑋𝑌
𝑆𝑦𝑥 =
𝑛−2
Ing. William león Velásquez 13
EJEMPLO
En el caso de las calificaciones y ventas semanales de 5
vendedores de Ventas S.A.
Calculo del error estándar de estimación
Calificaciones y ventas semanales de 5 vendedores de Ventas S.A.
Calificaci Ventas
Vendedor X2 XY Y2
ón ( X ) (Y)
José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
Maria 10 11 100 110 121
total 30 40 210 274 370
1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ′ ± 𝑡 𝑆𝑦𝑥 + 2
𝑛 ( 𝑋)
𝑋2 −
𝑛
•Donde:
Y’ es la predicción del valor de Y ′
1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ± 𝑡 𝑆𝑦𝑥 +
𝑛 2 ( 𝑋)2
para un valor dado de X 𝑋 − 𝑛
X es el valor dado de X
𝑋 es la media de los valores de X
n es el número de observaciones
Sxy es el error estándar de estimación
t es el valor de t, para α / 2, y Φ = n - 2
1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ′ ± 𝑡 𝑆𝑦𝑥 + 2
𝑛 ( 𝑋)
𝑋2 −
𝑛
μy = 8 ± 2.782
P (5.217 ≤ μy ≤ 10.782) = 0.95
1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ′ ± 𝑡 𝑆𝑦𝑥 1+ + 2
𝑛 ( 𝑋)
𝑋2 −
𝑛
1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ′ ± 𝑡 𝑆𝑦𝑥 1+ + 2
𝑛 ( 𝑋)
𝑋2 −
𝑛
Este intervalo es muy grande, para hacerlo mas pequeño se puede reducir
el nivel de confianza de 0.95 a 0.90, o mejor, incrementar el tamaño de la
muestra.
Ing. William león Velásquez 23
EJEMPLO
Donde:
yi es el valor observado en este caso la densidad óptica para un valor de concentración X,
βo corresponde al intercepto de Y con la línea de regresión y
β1 representa el valor medio de la densidad óptica para un valor determinado de concentración
llamada pendiente de la línea de regresión o coeficiente de regresión,
Xi es el valor de la concentración, que se asume, es medida sin error y
εij es la variable aleatoria del error
Ing. William león Velásquez 28
ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
Para poder utilizar este modelo , se asume que las variables error cumplen
los siguientes supuestos:
• Son normales con media cero
• Son independientes
• Tienen igual varianza σ2 .
Estos supuesto deben cumplirse para que el análisis de los datos sea
válido.
Y = 1.193 + 3.938 X
Ing. William león Velásquez 32
EJEMPLO 3
• Una empresa que se dedica a la
venta de pizas a domicilio desea
determinar si existe una relación
entre los gastos de publicidad y
las ventas semanales
• La tabla muestra la información
de las ultimas ocho semanas
Gastos en
Publicidad 0 100 250 350 450 500 600 700
ventas
semanales 120 350 500 550 550 650 800 1100
800
600
las ventas semanales de pizas
400
Por lo tanto el modelo poblacional que se
200
0
propone es un modelo lineal:
0 100 200 300 400 500 600 700 800
Gastos de publicidad
𝜎2𝑒 2 𝜎𝑒 2
𝑉 𝛽0 = +𝑋 𝑛 2 Desv estándar 𝛽0 = 𝑉 𝛽0
𝑛 𝑋
𝑖=1 𝑖 − 𝑋
𝜎𝑒 2
𝑉 𝛽1 = 𝑛 2 Desv estándar 𝛽1 = 𝑉 𝛽1
𝑖=1 𝑋𝑖 −𝑋
𝛽1 𝜖 0.7879.3, 1.51324
Ing. William león Velásquez 41
EJEMPLO
• Una gran empresa desea realizar cambios en su politica de empleos , para
ello se desea predecir el ausentismo laboral Y (en horas al año) a partir del
salario X (en euros semanales).
X 150 200 175 160 210 895
Y 300 406 442 330 422 1900
Calculando para obtener las sumatorias
X Y XY x2
150 300 45000 22500
200 406 81200 40000
175 442 77350 30625
160 330 52800 25600
210 422 88620 44100
Sumas 895 1900 344970 162825
EJEMPLO
• Realizando los cálculos de la tabla y reemplazando en la fórmula:
EJEMPLO
• Para calcular el coeficiente a
EJEMPLO
• Calculando el Y estimado y el error
X Y y' E
150 300 326.06 -26.06
200 406 419.06 -13.06
175 442 372.56 69.44
160 330 344.66 -14.66
210 422 437.66 -15.66
Sumas 895 1900 0
𝐸=0
EJEMPLO
• Gráficamente se obtiene
Contraste sobre β
• Objetivo: Comprobar si hay relación lineal, y de que tipo es esta,
entre X e Y.
1. Hipótesis Bilateral:
• H0: β = 0 (no hay relación lineal, son linealmente independientes)
• H1: β ≠ 0 (hay relación lineal)
• Unilateral derecho:
• H0: β =0 (no hay relación lineal)
• H1: β > 0 (hay relación lineal positiva)
• Unilateral izquierdo:
• H0: β = 0 (no hay relación lineal)
• H1: β < 0 (hay relación lineal negativa)
2. Supuestos
•Independencia
•Normalidad
•Homocedasticidad
Contraste sobre β
3. Estadístico de contraste
27/04/2015 52
ANÁLISIS DE LOS RESIDUALES
27/04/2015 53
ANÁLISIS DE LOS RESIDUALES
27/04/2015 54
ANÁLISIS DE LOS RESIDUALES
27/04/2015 55
ANÁLISIS DE LOS RESIDUALES
Es decir:
No significa que los supuestos se
cumplan;
27/04/2015 56
RESIDUALES EN LA REGRESIÓN
Definición
(Y - Yˆ )
RESIDUALES EN LA REGRESIÓN
35
30
25
20
^
15 (Y – Y)
10
0
10 12 14 16 18 20 22
PROPIEDADES DE LOS RESIDUALES
•Σ Ri = 0
•Ri ~ N (0,σ2)
27/04/2015 63
NORMALIDAD DE LOS RESIDUALES
HISTOGRAMA DE FRECUENCIAS
RELATIVAS.
27/04/2015 64
NORMALIDAD DE LOS RESIDUALES
27/04/2015 65
EJEMPLO:
Percentil Densidad Óptica
6,25 4
18,75 9
31,25 18
43,75 20
56,25 35
68,75 41
81,25 47
93,75 60
27/04/2015 66
EJEMPLO:
27/04/2015 68
EJEMPLO:
Análisis de los residuales
X Y 𝑌
Concentración Densidad óptica Pron Densidad Residual Resi Est
1 4 5.1309 -1.1309 -0.909195353
2 9 9.0687 -0.0687 -0.055288499
4 18 16.9443 1.0557 0.848621185
5 20 20.8821 -0.8821 -0.709184032
8 35 32.6955 2.3045 1.85253653
10 41 40.5711 0.4289 0.344734143
12 47 48.4467 -1.4467 -1.163068244
15 60 60.2601 -0.2601 -0.209155729
234 0.0006
27/04/2015 70
INDEPENDENCIA DE LOS
ERRORES
Para los datos del ejemplo, el
gráfico de la derecha se
muestra lo siguiente.
No se observa un patrón
característico, por lo tanto,
parece indicar que los
residuos se encuentran
independientes o
aleatoriamente distribuidos. Gráfico de residuales vs orden para la densidad óptica
27/04/2015 71
PRUEBA DE DURBIN-WATSON
27/04/2015 72
PRUEBA DE DURBIN-WATSON
27/04/2015 73
CÁLCULO E INTERPRETACIÓN DEL
ESTADÍSTICO DE DURBIN-WATSON
27/04/2015
74
CÁLCULO E INTERPRETACIÓN DEL
ESTADÍSTICO DE DURBIN-WATSON
Puesto que d es aproximadamente igual a 2(1 − r), donde r es la autocorrelación de la muestra
de los residuos d = 2 indica que no hay autocorrelación.
El valor de d siempre está entre -1 y 1,5.
27/04/2015
75
PRUEBA DE DURBIN-WATSON
27/04/2015 76
PRUEBA DE DURBIN-WATSON
4. La distribución de d es simétrica
alrededor de 2.
27/04/2015 77
PRUEBA DE DURBIN-WATSON
27/04/2015 78
EJEMPLO
• Se ha estimado por MCO un modelo lineal entre las variable y y
x, utilizando 10 observaciones.
• La serie de residuos MCO obtenidas es:
t 1 2 3 4 5 6 7 8 9 10
Ut -0.76 -0.57 -0.24 -0.16 0.24 0.66 0.89 0.53 0.15 -0.74
27/04/2015 79
EJEMPLO
Se pide:
1. Obtener una estimación consistente de la función de auto correlación
muestral de los residuos.
2. Obtener el valor exacto del estadístico de Durbin-Watson, y resuelva el
contraste correspondiente.
3. De los resultados anteriores identifique, razonando la respuesta, que
error se ha cometido en la especificación del modelo.
27/04/2015 80
EJEMPLO
•Solución
1. La estimación consistente de cada uno de los elementos que integran la
función de autocorrelación muestral de los residuos viene dada por la
siguiente expresión:
27/04/2015 81
EJEMPLO
27/04/2015 82
EJEMPLO
A partir de esta información y
reemplazando los valores en la
fórmula se obtiene:
27/04/2015 83
EJEMPLO
2. El valor exacto del estadístico de Durbin-Watson viene dado
por:
27/04/2015 85
FIN
[email protected]
ANALISIS DE REGRESIÓN
MULTIPLE
Ing. William León Velásquez
[email protected]
INTRODUCCIÓN
La ecuación incluye un componente aleatorio (los residuos ε) que recoge todo lo que las
variables independientes no son capaces de explicar
DATOS PARA REGRESIÓN MÚLTIPLE
y 0 1 x1 2 x2 p x p
• esto quiere decir que se puede estimar la media de la variable respuesta
a través de la estimación de los parámetros de regresión.
• Si esta ecuación se ajusta a la realidad entonces tenemos una forma de
describir cómo la media de la variable respuesta y varía con las variables
explicatorias .
x1 , x2 ,, x p
Ing. William león Velásquez
ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE.
• En regresión lineal simple se usa el método de mínimos cuadrados para
obtener estimadores del intercepto y de la pendiente.
• En regresión lineal múltiple el principio es el mismo, pero se necesita
estimar más parámetros.
b0 , b1 ,, b p
• Se llamará 0 , 1 ,, p a los estimadores de los parámetros
(𝑦𝑖 − 𝑦𝑖 )2
ˆ e 2
(𝑦𝑖 − 𝑦𝑖 )2
s y2 x 2 i
n p 1
=
𝑛−𝑝−1
• El gráfico para los datos del ejemplo esta dado en la siguiente figura.
• Sólo los modelos de regresión múltiple con dos variables independientes
pueden ser graficados.
Y= X β + ε
• con
Y= X β + ε
• donde
• Y es el vector de observaciones
• X es una matriz de n x p niveles de la variable regresora
• β es un vector p x 1 de coeficientes de regresión
• ε es el vector aleatorio error de orden p x 1 .
• Es importante recordar que p=k+1 ecuaciones. Para obtener la
solución es conveniente utilizar notación matricial.
Ing. William león Velásquez
METODO DELOSMÍNIMOS CUADRADOS
v. independiente 1 v.
independiente 2 v.
independiente 3 ….. ecuación de
analista
regresión
SELECCIÓN DE LAS VARIABLES DE REGRESIÓN
PRIMER PASO: se elimina aquella variable que, además de cumplir los criterios
de salida, posee el coeficiente de regresión más bajo en valor absoluto
MÉTODOS DE SELECCIÓN DE VARIABLES
3 Pasos sucesivos
3 Pasos sucesivos
Comienza al igual que el método hacia delante, seleccionando en el primer paso la
variable independiente que además de superar los criterios de entrada más altos
correlaciona con la variable dependiente
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:
3 Pasos sucesivos
Notas:
• Se va a dejar al software el cálculo del error estándar de bj
• Se tendrá entonces una prueba de hipótesis asociado a cada
variable explicatoria en el modelo.
• Se puede realizar hipótesis de una cola, donde H1: βj < 0 o H1:
βj >0 , pero lo usual es hacer una prueba bilateral.
Ing. William león Velásquez
INTERVALO DE CONFIANZA PARA βj
n-p-1 SC Re s ( y i yˆ i ) 2 SC Re s
Residuo i 1 n p 1
n
n-1 SCT y y
2
i
Total i 1
Estadístico F
• La razón entre el cuadrado medio del modelo y el residuo
𝑀𝐶𝑀𝑜𝑑
𝐹=
𝑀𝐶𝑅𝑒𝑠
permite estimar si la relación entre las variables explicatorias y la respuesta
es significativa.
• La hipótesis que prueba el test F es:
H 0 : 1 2 p 0
H 1 : al menos un j no es cero
Ing. William león Velásquez
TABLA DE ANOVA PARA REGRESIÓN
MÚLTIPLE
• La hipótesis nula dice que ninguna de las variables explicatorias son
predictores de la variable respuesta.
• La hipótesis alternativa dice que al menos una de las variables
explicatorias está linealmente relacionada con la respuesta.
• Como en regresión simple, valores grandes de F nos dan evidencia en
contra de hipótesis nula.
• Cuando H0 es verdadera, el estadístico F tiene distribución F de Fisher
con (p, n-p-1) grados de libertad.
• Los grados de libertad están asociados a los grados de libertad del
modelo y del residuo en la tabla ANOVA.
y y
2
SCTotal i
Ing. William león Velásquez
COEFICIENTE DE DETERMINACIÓN (R2)
R 2
SCM od
( yˆ y ) 2
y y
2
SCTotal i
n 1
R 12
a
n ( p 1)
1 R 2
• Solución 1 (a):
• La recta de regresión es:
• Estrés= −126,505+0,176Tamaño−1,563Años+1,575Salario+1,629Edad
• Interpretación de los coeficientes de regresión:
• Intercepto=-126,505 Si el tamaño de la empresa, el número de años, el salario y la
edad fueran cero, es decir, si todas las variables explicativas fueran cero, el puntaje
de estrés del ejecutivo sería menos 126,505
Ing. William león Velásquez
COMO SE INTERPRETA LOS RESULTADOS
• Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la empresa, el estrés del
ejecutivo aumenta en 0,176 unidades.
• Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo disminuye en 1,563
puntos.
• Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés del ejecutivo
aumenta en 1,575 puntos.
• Pendiente de
Ing. William leónla edad: por cada año de edad, el estrés del ejecutivo aumenta en 1,629 puntos.
Velásquez
COMO SE INTERPRETA LOS RESULTADOS
• Solución 1 (b):
• El coeficiente de determinación que se usa en regresión lineal múltiple es el
R2 ajustado, que en este caso es de 0,779.
• Este coeficiente nos indica que las variables usadas en el modelo explican en
un 77,9% la variabilidad total del estrés.
Ing. William león Velásquez
COMO SE INTERPRETA LOS RESULTADOS
• Solución 1 (c):
• Los test t de los coeficientes de regresión sirven para probar la hipótesis:
• Ho:βj = 0
• H1: βj ≠ 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4).
Ing. William león Velásquez
COMO SE INTERPRETA LOS RESULTADOS
• Al examinar los valores p correspondientes a cada uno de los tests nos damos cuenta que
casi todas las pendientes son significativas (distintas de cero), salvo la de la variable Años
en posición actual, cuyo valor p es 0,455, por lo tanto aceptamos la hipótesis nula, y
concluimos que la pendiente es igual a cero.
• Por lo tanto este no sería un modelo adecuado para describir el estrés de los ejecutivos,
deberíamos ajustar otro modelo sin la variable "Años en posición actual".
• Solución 1 (d):
• Los supuestos que debe cumplir el modelo son:
1) Linealidad: La relación entre la variable respuesta y las explicativas debe ser
lineal
2) Nocolinealidad: las variables explicativas no deben estar correlacionadas entre
sí
3) Normalidad de los residuos
4) Homocedasticidad de los residuos (varianza constante).
• Solución 1 (e):
• El estimador de la desviación estándar poblacional es 24,031 o la raíz de la media cuadrática
residual: raíz de 577,493= 24,03
• Este es un estimador de la variabilidad del estrés considerando las variables explicativas del
modelo, y lo podemos contrastar con el estimador de la variabilidad del estrés de 51,164 que es la
desviación estándar del estrés sin tomar en cuenta estas variables.
96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94
Ing. William león Velásquez 3.0 2.5
EJEMPLO 2:
Planteando matricialmente los datos
1 5.0 1.5
96
90 1 2.0 2.0
95
b 0 1 4.0 1.5
b
X 1 2.5 2.5
92
y
95
1
1 3.0 3.3
94
94
b 2
3 x1 1 3.5 2.3
1 2.5 4.2
94
8 x1
1 3.0 2.5
( X X ) X y
1
( X X ) 1
X y
Ing. William león Velásquez
EJEMPLO 2:
Finalmente la ecuación es:
ˆ 83.2301 2.2902 X 1 1.3010 X 2
y
Coefi cientesa
Coef icientes
Coef icientes no est andarizad Interv alo de conf ianza para
est andarizados os B al 95%
Lí mite
Modelo B Error t íp. Beta t Sig. Lí mite inf erior superior
1 (Constante) 83. 230 1. 574 52. 882 .000 79. 184 87. 276
Anunc ios en TV (en
2. 290 .304 1. 153 7. 532 .001 1. 509 3. 072
miles de dólares)
Anunc ios en periódicos
1. 301 .321 .621 4. 057 .010 .477 2. 125
(en miles de dólares)
a. Variable dependiente: Ingres os Brutos semanales (en miles de dólares)
S y. X X
y b y b X y b X y
2
0 1 1 2 2
1 2
n3
Modelo R R c uadrado
R c uadrado
corregida
Error t íp. de la
est imac ión
r 0.959
1 .959a .919 .887 .64259
a. Variables predict oras: (Cons tant
r 0.959
e), Anuncios en periódicos
r 2 0.919
(en m iles de dólares), Anuncios en TV (en miles de dólares)
r 2 0.919
Interpretación: Aproximadamente el 91.9% de los cambios
producidos en los ingresos brutos semanales son explicados por los
cambios producidos en los gastos de publicidad (en televisión y
periódicos)
Ing. William león Velásquez
EJEMPLO 2:
COEFICIENTE DE DETERMINACION CORREGIDO
SCE
R2Y.12...p= ----------- Coeficiente de
SCTO Determinación
Múltiple
R2Corr.= 1- ((1- R2Y.12.. k ) ---------- n-1
n-k-1
Representa la porción de la
Necesario cuando se variación en Y que se puede
comparan 2 o + modelos de explicar por Xi
regresión que predicen Y, pero
con diferente Nº de Xi
Ingres os
Brut os Anunc ios en
sem anales Anunc ios en periódicos
(en m iles de TV (en m iles (en m iles de
dólares) de dólares) dólares)
Correlac ión de Pears on Ingres os Brutos
sem anales (en 1. 000 .808 -. 021
m iles de dólares)
Anunc ios en TV (en
.808 1. 000 -. 556
m iles de dólares)
Anunc ios en periódicos
-. 021 -. 556 1. 000
(en m iles de dólares)
Sig. (unilat eral) Ingres os Brutos
sem anales (en . .008 .481
m iles de dólares)
Anunc ios en TV (en
.008 . .076
m iles de dólares)
Anunc ios en periódicos
.481 .076 .
(en m iles de dólares)
N Ingres os Brutos
sem anales (en 8 8 8
m iles de dólares)
Anunc ios en TV (en
8 8 8
m iles de dólares)
Anunc ios en periódicos
8 8 8
(en m iles de dólares)
Ing. William león Velásquez
EJEMPLO 2: ANOVA
H 0 : 1 2 3 ... k 0
H1 : Por lo menos un i 0
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrát ica F Sig.
1 Regresión 23. 435 2 11. 718 28. 378 .002a
Res idual 2. 065 5 .413
Tot al 25. 500 7
a. Variables predict oras : (Const ante), Anuncios en periódicos (en miles de dólares),
Anunc ios en TV (en m iles de dólares)
b. Variable dependiente: Ingresos Brut os s emanales (en miles de dólares)
En este caso p = 0.002 < 0.05, por lo que se rechaza Ho, lo que
ratifica la relación entre las variables.
Ing. William león Velásquez
EJEMPLO 3
Coeficientesa
Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 3.140 2.529 1.241 .303
Contabilidad Basica .054 .309 .088 .175 .872
Doctrina Cont able .189 .189 .248 .999 .391
Macroeconom ia .501 .390 .739 1.284 .289
a. Variable dependient e: Metodos Cuantitativ os
12.018 = 0.934
12.857
r = ……; Interprete
Ing. William león Velásquez
EJEMPLO 3
Trabajando con el ejemplo del curso de Gestión de
Proyectos, veremos que aplicando SPSS, nos saldría como
resultado:
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 12.018 3 4.006 14.314 .028a
Residual .840 3 .280
Total 12.857 6
a. Variables predictoras: (Constante), Macroeconomia, Doctrina Contable,
Contabilidad Basica
b. Variable dependient e: Metodos Cuantitativ os
• Tabla resumen
• Una de las hipótesis del modelo de regresión lineal múltiple establece que no
existe relación lineal exacta entre los regresores, o, en otras palabras, establece
que no existe multicolinealidad perfecta en el modelo.
• Esta hipótesis es necesaria para el cálculo del vector de estimadores mínimo
cuadráticos, ya que en caso contrario la matriz X'X será no singular
Análisis de residuos
• Definimos como residuo del i-esimo caso a:
• Los residuos son variables aleatorias que siguen (¿?) una distribución normal.
Los residuos tienen unidades de medida y, por tanto no se puede determinar
si es grande o pequeño a simple vista.
• Se puede observar que hay un caso que tiene un residuo anormal, pues su
valorIngtipificado es 3.49.
William León Velásquez 29
Diagnostico y validación de un modelo
de regresión lineal múltiple
• Por tanto,
INTRODUCCIÓN
PRUEBA DE BODAD DE AJUSTE
PRUEBA DE INDEPENDENCIA
PRUEBA DE HOMOGENIDAD
INTRODUCCIÓN
OBJETIVO
Los datos categóricos son variables que mide en una escala en un número
limitado de grupos. Por ejemplo, una encuesta donde se recoge información
sobre variables como sexo, estado civil y afiliación política. También a la
variable categórica se le llama cualitativa 3
INTRODUCCIÓN
ESTRUCTURA
4
INTRODUCCIÓN
Muchos estudios resultan en datos que son categóricos o cualitativos antes que
cuantitativos y que admiten más de dos resultados posibles:
• Nuevos Obreros clasificados según evolución (mejora, sin cambios, empeora)
• Trabajadores clasificados según su desempeño (regulares, buenos, excelentes)
• Votantes clasificados según intención de voto
5
EJEMPLO: grupos sanguíneos
6
EL EXPERIMENTO MULTINOMIAL
7
EL EXPERIMENTO BINOMIAL
8
PRUEBAS DE BONDAD DE AJUSTE
9
EJEMPLO: grupos sanguíneos
61 15 6 118
• ¿Cómo se resuelve?
• Se contrastan frecuencias observadas FOi en la muestra con las frecuencias
que se esperaría observar FEi si las proporciones no cambiasen (es decir si Ho
fuera verdadera) 11
¿La distribución difiere?
• Se calculan las frecuencias esperadas: Ei npi
Grupo A Grupo B Grupo AB Grupo 0 TOTAL
FEi
• ¿Las diferencias son lo suficientemente grandes como para afirmar que las
preferencias en la población han cambiado? ( = 0.05)
12
ESTADÍSTICO CHI-CUADRADO
• Para cuantificar las diferencias en un único número se utiliza el estadístico
2
FOi FEi 2
muestral
FEi
• Cuando Ho es verdadera, las diferencias entre FOi y FEi serán pequeñas, pero
cuando Ho es falsa, serán grandes
• Para determinar si la discrepancia entre FO y FE es lo suficientemente grande,
se utiliza la distribución chi-cuadrado con cierta cantidad de grados de libertad
• Sin embargo este estadístico tiene una distribución que se aproxima a la chi-
cuadrado
13
GRADOS DE LIBERTAD
• Varían según la aplicación
• Se comienza con el número de categorías o celdas k
• Se le resta un GL por cada restricción sobre las probabilidades (siempre se
perderá un GL ya que p1 + p2 + … +pk = 1)
• Se pierde un GL por cada parámetro que se debe estimar para calcular FEi
• Es decir
GL= k-m-1
( = 0.05)
χ2 = 7.8147
χ2 = 7.8147
15
DATOS MUESTRALES
Grupo A Grupo B Grupo AB Grupo 0 TOTAL
FEi 70 20 12 98 200
muestral
2
FOi FEi 2
FEi
16
EN EL EJEMPLO:
fo fe (fo-fe)2 (fo-fe)2/fe
61 70 81 1.15714286
15 20 25 1.25
6 12 36 3
118 98 400 4.08163265
200 200 9.48877551
muestral
2
FOi FEi 2
FEi
χ2 muestral = 9.488
χ2 muestral = 9.488
17
COMENTARIOS
Conclusión:
χ2 muestral > χ2
• Se rechaza la Ho
• Por lo tanto la distribución de los grupos sanguíneos en el distrito de San Martin
de Porres difiere de toda la ciudad de Lima
18
EN EL EJEMPLO:
Conclusión:
• Para que las conclusiones sean válidas:
• La muestra debe ser aleatoria y su tamaño n debe ser 50
• Las observaciones deben ser independientes
• Las FEi deben ser > 0. Y se admite solo un 20% de casillas con FEi < 5. Si esto no se
cumple, puede solucionarse agrupando categorías.
• La distribución del estadístico es aproximada, pero si el tamaño de la muestra es
grande (FE > 10) la aproximación es muy buena
19
COMENTARIOS
• A diferencia de las pruebas anteriores, la Ho indica que existe buen ajuste a un
modelo o a ciertas proporciones supuestas:
20
OTRAS APLICACIONES
• Las pruebas de bondad de ajuste pueden utilizarse para
determinar si una variable ajusta a una determinada distribución
de probabilidades, como por ejemplo:
• Normal
• Binomial
• Poisson
• En estos casos se deben estimar algunos parámetros a partir de la
muestra:
• Normal: el promedio y el desvío estándar
• Binomial: la probabilidad de éxito p
• Poisson: la cantidad esperada de eventos en un continuo
21
PRUEBA DE BONDAD DE AJUSTE
Por ejemplo:
Probar la hipótesis de que la población tiene comportamiento normal, Poisson,
exponencial etc.
22
LA PRUEBA DE BONDAD DE AJUSTE
Se utiliza para la comparación de la
distribución de una muestra con alguna
distribución teórica que se supone describe a
la población de la cual se extrajo.
23
LA PRUEBA DE BONDAD DE AJUSTE
24
LA PRUEBA DE BONDAD DE AJUSTE
• La fórmula que da el estadístico es la siguiente:
k f f ei
2
2 oi
i 1 f ei
27
Datos
28
El estadístico de prueba
k f f ei
2
2 oi
i 1 f ei
fOi = Valor observado en la i-ésimo dato.
fei = Valor esperado en la i-ésimo dato.
K = Categorías o celdas.
29
Definir el nivel de significancia y la zona de
rechazo
30
CALCULO DEL ESTADÍSTICO DE PRUEBA
0 138 119,8
1 53 63
2 ó más 9 17,2
Total 200 200
32
Al aplicar la formula se tiene:
Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de
significancia de 0.05.
Conclusión
Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.
33
El procedimiento general para realizar
la prueba es:
34
El procedimiento general para
realizar la prueba es:
3.- La estadística de prueba donde:
Ei = npi
Oi = observado
p = número de parámetros estimados a partir de
la muestra
K = número de categorías o clases
pi = probabilidad
(Oi Ei )
k 2
2
i 1 Ei
35
El procedimiento general para
realizar la prueba es:
4.- Determinar la región crítica:
rechazar Ho si:
caso contrario no se rechaza
2
calc 2
1 , k p 1
36
Ejemplo 2:
Un distribuidor de equipos electrónicos a
subdividido su región en cuatro zonas.
A un posible comprador de los equipos se le
asegura que las ventas de los equipos están
distribuidos de manera aproximadamente igual en
las cuatro zonas.
Se extrae una muestra de los archivos de la empresa
de 40 ventas realizadas el año pasado y encuentra
que el numero de ventas por zona son: 6, 12, 14, 8
respectivamente.
Realice la prueba de bondad de ajuste.
37
Ejemplo 2:
Ch² observado=
38
Ejemplo 2:
Zonas
A B C D
Frecuencia
observada (fo) 6 12 14 8 40
Frecuencia esperada
(fe) 10 10 10 10 40
Ch² 1.6 0.4 1.6 0.4 4
39
Ejemplo 2:
La decisión:
40
Ejemplo 3:
Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se
observó el número de caras de cada serie. El número de series en los que se
presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.
Ajustar una distribución binomial a los datos con un = 0.05.
Número de series
Número de caras (frecuencia observada)
0 38
144
1
2 342
3 287
4 164
5 25
Total 1000
41
Ejemplo 3:
Solución:
H0; Los datos se ajustan a una distribución
binomial.
42
Ejemplo 3:
Como μ = 5p
Entonces:
p=2.47/5 =0.492
44
Ejemplo 3:
Por lo tanto .
45
Ejemplo 3:
Al seguir esta fórmula se calcula la probabilidad de obtener
caras, según el valor de la variable aleatoria.
La probabilidad multiplicada por 1000 nos dará el valor
esperado. Se resumen los resultados en la tabla siguiente:
47
Ejemplo 3:
Regla de decisión:
Si X2R <=9.49 no se rechaza Ho.
Si X2R >9.49 se rechaza Ho.
Cálculos:
48
Ejemplo 3:
Justificación y decisión:
49
Ejemplo 4:
Se tiene los pesos de 253 peses y se desea saber si sus pesos tienen un
comportamiento normal. Los datos se han organizado en una tabla de frecuencia
Límites Frecuencias
Clase Inferior Punto Medio Superior Absolutas Relativas
1 2 57 112 0 0.0
2 112 167 222 3 1.2
3 222 277 332 4 1.6
4 332 387 442 10 4.0
5 442 497 552 18 7.1
6 552 607 662 29 11.5
7 662 717 772 37 14.6
8 772 827 882 54 21.3
9 882 937 992 44 17.4
10 992 1047 1102 26 10.3
11 1102 1157 1212 16 6.3
12 1212 1267 1322 7 2.8
13 1322 1377 1432 3 1.2
14 1432 1487 1542 2 0.8
15 1542 1597 1652 0 0.0
50
Sumas 253 100
Ejemplo 4:
Alfa = 0.05
Alfa = 0.05
55
Ejemplo 4:
X2=22.36
Justificación y decisión:
• INDEPENDENCIA
• Experimento multinomial con clasificación con 2 criterios (2 factores).
Los datos se pueden resumir en una tabla de 2 vías (dimensiones).
• (Ejemplo número de animales enfermos por condición corporal).
57
TABLAS DE CONTINGENCIA
HOMOGENEIDAD
Se extraen Muestras Independientes de varias poblaciones y se
prueban para ver si son homogéneas con respecto a algún criterio de
clasificación. (Ejemplo prevalencia de enfermos por región)
Un conjunto de Totales Marginales Son Fijos mientras que los otros
marginales son Aleatorios.
58
PRUEBA DE INDEPENDENCIA,
59
Prueba de Independencia
Ejemplo:
¿El tipo de refresco preferido por un consumidor es independiente de su
grupo etáreo?
¿El estado nutricional esta asociado con el desempeño académico?
¿determinar si la región geográfica es independiente del tipo de
inversión financiera?
60
Prueba de Independencia
61
Tabla de contingencia
Los datos de variables cualitativa o categóricas representan
atributos o categorías y se organizan en tablas llamadas tablas
de contingencia o tablas de clasificación cruzada.
Una Tabla de contingencia con r filas y c columnas tiene la siguiente
forma:
62
Tabla de contingencia
Donde:
Oi j : es el número de sujetos que tienen las características Ai y Bj a la vez.
Formulación de hipótesis:
64
Pruebas de Independencia
El estadístico Ji-Cuadrado esta dado por:
r c (O ij E ij ) 2
2 E ij
i 1 j1
donde
Oij : es la frecuencia observada de la celda que está en la fila i,
columna j,
Eij
Ri * C j
es la frecuencia esperada de la celda (i, j).
n
65
Pruebas de independencia
La frecuencia esperada es aquella que debe ocurrir para que la hipótesis nula
sea aceptada.
66
HOMOGENEIDAD
Se extraen Muestras Independientes de varias poblaciones y
se prueban para ver si son homogéneas con respecto a algún
criterio de clasificación.
Un conjunto de Totales Marginales Son Fijos mientras que
los otros marginales son Aleatorios.
67
EJEMPLO
68
EJEMPLO
Total Columna Para dicha celda x Total Fila Para dicha celda
Fe
Suma Total
69
EJEMPLO
SI NO
F
50 25
M 40 45
70
EJEMPLO
SI NO
F
50 25 75
M 40 45 85
SUMA DE FILAS
FRECUENCIAS DE
VALORES OBSERVADOS
90 70 160
SI NO
90 75 F 70 75
42.1875 32.8125
160 160
90 85 M 70 85
47.8125 37.1875
160 160
calc
2
f0 fe
2
fe
f 0 : Frecuencia del valor observado.
f e : Frecuencia del valor esperado.
73
EJEMPLO
F 50 25 F 42.1875 32.8125
M
40 45 M 47.8125 37.1875
calc
2
f0 fe
2
fe
calc
2
50 42.1875
2
25 32.8125
2
40 47.8125
2
45 37.1875
2
GRADO DE LIBERTAD v
• Para calcular el grado de libertad (v) se realiza:
75
EJEMPLO
SI NO
F
50 25
M 40 45
v 2 1 2 1
v 11 1
76
EJEMPLO
NIVEL DE SIGNIFICANCIA
77
EJEMPLO
Una conductora supone que el uso de cinturón de seguridad, en los
conductores, está relacionado con el género. Los datos se muestran en la
tabla inferior. La conductora realiza la prueba de su conjetura usando chi-
cuadrado con un nivel de significancia del 1%.
USO DE CINTURÓN DE SEGURIDAD
GÉNERO SÍ NO
FEMENINO 50 25
MASCULINO 40 45
78
EJEMPLO
• Ejemplo:
p 1 0.01 0.99
79
TABLA PARA VALORES DE CHI-CUADRADO CRÍTICO
80
EJEMPLO
81
COMPARACIÓN ENTRE LOS VALORES DEL CHI-
CUADRADO CALCULADO Y EL CRÍTICO
Ejemplo:
calc
2
Valor crítico
6.2248 6.635
83
EJEMPLO 2 :
SOLUCIÓN
Ho: El sexo y la edad de los clientes son independientes.
Ha : El sexo y la edad son dependientes.
84
EJEMPLO 2 :
Solución: Tabla de frecuencias esperadas
Sexo
Edad Hombre Mujer Total
Menos de 25 77 33 110
Mas de 25 63 27 90
140 60 200
85
EJEMPLO 2 :
Tabla de los Ch² individuales
Hombre Mujer
Menor de 25
3.75 8.76
Mayor de 25
4.59 10.70
27.80
Ch2 observado
86
EJEMPLO 2 :
87
EJEMPLO 3 :
Se tiene interés en estudiar la fiabilidad de
cierto componente informático con relación
al distribuidor que nos lo suministra. Para
realizar esto, se toma una muestra de 100
componentes de cada uno de los 3
distribuidores que nos sirven el producto
comprobando el número de defectuosos en
cada lote.
La siguiente tabla muestra el número de defectuosos en para cada uno de los
distribuidores.
88
EJEMPLO 3 :
SOLUCIÓN:
Debemos realizar un contraste de homogeneidad para concluir si entre
los distribuidores existen diferencias de fiabilidad referente al mismo
componente.
89
EJEMPLO 3 :
Se calcula las frecuencias esperadas
90
EJEMPLO 3 :
El estadístico del contraste será:
91
EJEMPLO 3 :
Este valor del estadístico Ji-cuadrado (8.96) es mayor que el valor para el
nivel de significación del 5% y GL:2, (5.99) por lo tanto debemos concluir
que no existe homogeneidad y por lo tanto que hay diferencias entre los
tres distribuidores.
92
Ejemplo 4:
Se toma una muestra aleatoria de 2200
familias y se les clasifica en una tabla de
doble entrada según su nivel de ingresos
(alto, medio o bajo) y el tipo de colegio a
la que envían sus hijos.
La siguiente tabla muestra los resultados
obtenidos:
TIPO DE COLEGIO TOTAL
INGRESOS PRIVADO PÚBLICO
Alto 506 494 1000
Medio 438 162 600
Bajo 215 385 600
TOTAL 1159 1041 2200
¿A un nivel de significancia del 1% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes? 93
Ejemplo 4:
94
Ejemplo 4:
Solución:
Las hipótesis a plantearse son las siguientes:
Ho: No hay relación entre el ingreso y el tipo de colegio
H1: Si hay relación entre el ingreso y el tipo de colegio.
Tabla de contingencia Tipo_Col * Clase_soc
Clase_soc
1.00 2.00 3.00 Total
Tipo_Col 1.00 Recuento 506 438 215 1159
Frecuencia esperada 526.8 316.1 316.1 1159.0
2.00 Recuento 494 162 385 1041
Frecuencia esperada 473.2 283.9 283.9 1041.0
Total Recuento 1000 600 600 2200
Frecuencia esperada 1000.0 600.0 600.0 2200.0
95
Ejemplo 4:
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral )
Chi-cuadrado de P earson 169.429 a 2 .000
Corrección por cont inuidad
Razón de verosimili tudes 174.511 2 .000
Asociación lineal por lineal 16.917 1 .000
N de casos váli dos 2200
a. 0 casi llas (.0%) ti enen una frecuencia esperada inferi or a 5. L a
frecuencia mínima esperada es 283.91.
96
Ejemplo 5
El uso de bebida ordenado con alimentos en
un restaurante ¿es independiente de la edad
del consumidor? Se toma una muestra
aleatoria de 309 clientes del restaurante de
donde resulta el siguiente cuadro de valores
observados. Utilice alfa = 0.01 para
determinar si las dos variedades son
independientes.º
o
( f f e ) 2
98
Ejemplo 5
Bebida
Caf é/Té Ref resco Leche Total
Edad 21-34 Recuent o 26 95 18 139
Frecuencia esperada 43.8 71.2 24.0 139.0
35-45 Recuent o 41 40 20 101
Frecuencia esperada 31.8 51.7 17.5 101.0
>=55 Recuent o 24 13 12 49
Frecuencia esperada 15.4 25.1 8.5 49.0
Total Recuent o 91 148 50 289
Frecuencia esperada 91.0 148.0 50.0 289.0
99
Ejemplo 5
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 34.438a 4 .000
Razón de v erosimilitudes 35.441 4 .000
Asociación lineal por
3.745 1 .053
lineal
N de casos v álidos 289
a. 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mí nima esperada es 8.48.
100
Ejemplo 5
Decisión
101
Ejemplo 6
Con el fin de probar la efectividad de una vacuna
contra cierta enfermedad, se realizo un
experimento observando a 200 personas, 110 de
ellas vacunadas y las otras 90 sin vacunar.
Presentan los datos evidencia suficiente como
para indicar que la proporción de personas
vacunadas que contrajeron la enfermedad no es
la misma que la proporción de personas que no
se vacunaron y que contrajeron la enfermedad
Los resultados obtenidos se muestran en el
siguiente cuadro.
Datos
Contrajeron Enf. No contrajeron la enf.
Vacunados 9 101
No vacunados 4 86
102
Ejemplo 6
103
Ejemplo 6
Resultados
Enf erm
Contrajo No contrajo Total
Vacunados Si Recuento 9 101 110
Frecuencia esperada 7.2 102.9 110.0
No Recuento 4 86 90
Frecuencia esperada 5.9 84.2 90.0
Total Recuento 13 187 200
Frecuencia esperada 13.0 187.0 200.0
104
Ejemplo 6
Resultados
Pruebas de chi-cu adrado
105
Ejemplo 6
Decisión
106
FIN
[email protected]
UNMSM ESTADISTICA
FII INDUSTRIAL
TEMA 11
METODOS NO PARAMETRICOS
PARTE I
Ejemplo:
• El 70% de los empresarios leen El Comercio.
• Esta afirmación se basa en un estudio y análisis
donde la muestra debe tener ciertos requerimientos,
en especial cuando estas son cuantitativas.
INTRODUCCIÓN
• Las pruebas no
paramétricas son
pruebas
estadísticas que
no hacen
suposiciones sobre
la naturaleza
(medidas de
centralización,
dispersión, etc) de
los datos de la
población.
LA ESTADÍSTICA NO PARAMÉTRICA
Por lo general:
Las pruebas paramétricas
son mas poderosas que
las pruebas no
paramétricas y deben
usarse siempre que sea
posible.
LA ESTADÍSTICA NO PARAMÉTRICA
• Es importante observar:
• Que aunque las pruebas no paramétricas no
hacen suposiciones sobre la distribución de la
población que se muestrea, muchas veces se
apoyan en distribuciones muestrales como la
normal o la ji cuadrada.
LA ESTADÍSTICA NO PARAMÉTRICA
NO PARAMETRICOS
1.- Ignoran cierta cantidad de información.
2.- A menudo no son tan eficientes o claras como las
pruebas paramétricas. Cuando se hacen pruebas
no paramétricas perdemos agudeza en la
estimación de intervalos, pero ganamos la
posibilidad de usar menos información y calcular
con mayor rapidez.
Conversión de valores paramétricos a rangos no paramétricos.
Valor paramétrico 113.45 189.42 76.50 13.33 101.79
Valor no paramétricos 4 5 2 1 3
15
PRUEBAS DEL
SIGNO
Ho : Me = Meo H1 : Me ≠ Meo
tenemos
a) Cuando:
• T(número de diferencias positivas) >T(-) (número
de diferencias negativas) , entonces el "p-valor" se
calcula por :
Donde:
c: número de diferencias positivas.
n: número de datos menos la cantidad de datos iguales al
valor Me asumido.
25
tenemos
b) Cuando:
T(número de diferencias positivas) <>T(-) (número de
diferencias negativas) , entonces el "p-valor" se calcula
por :
Donde:
c: número de diferencias positivas.
n: número de datos menos la cantidad de datos iguales al
valor Me asumido.
Ejemplo 01:
xi xi
tabla se muestran
los resultados 1 2158.70 11 2165.20
obtenidos al probar
2 1678.15 12 2399.55
3 2316.00 13 1779.80
20 motores 4 2061.30 14 2336.75
seleccionados al 5 2207.50 15 1765.30
azar. 6 1708.30 16 2053.50
7 1784.70 17 2414.40
8 2575.10 18 2200.50
9 2357.90 19 2654.20
10 2256.70 20 1753.70
Ejemplo 01:
• Solución:
• La hipótesis planteada será
Ho : Me = 2000 psi
H1 : Me ≠ 2000 psi
Ejemplo 01:
Se coloca los
signos con
respecto a la
mediana.
Se observa
que el
estadístico
de prueba
r+ = 14.
Ejemplo 01:
Regla de decisión:
• Si el valor de p correspondiente a r+=14 es
menor o igual que α=0.05 se rechaza H0.
Cálculos:
• Puesto que r+=14 es mayor que n/2 =>
20/2=10,
• El valor de p se calcula de
Con Minitab
P( x>=14) = 1 - P (x<=13)
x P( X <= x )
13 0.942341
1 - 0.942341 = 0.057659
2 * 0.057659 = 0.115318
32
x P( X <= x )
13 0.942341
1 - 0.9423 = 0.0577
2 * 0.0577 = 0.1154
Ejemplo 01:
Conclusión:
• Como p=0.1153 no es menor
= 0.05,
• No es posible rechazar la
hipótesis nula de que la
mediana de la resistencia al
esfuerzo constante es 2000
psi.
Para muestra grande (n>=20).
Aproximación normal:
• Cuando p=0.5, la distribución
binomial esta bien aproximada
por la distribución normal
cuando n es al menos 10.
• Por tanto, dado que la media de
la distribución binomial es np y
la varianza es npq, la
distribución de R+ es
aproximadamente normal con
media 0.5n y varianza 0.25n,
cada vez que n es
moderadamente grande.
Para muestra grande (n>=20).
Aproximación normal:
• Las reglas de decisión se
establecerán como cualquier
ensayo en una distribución
muestral en donde se utiliza la
distribución normal.
• Para resolver el problema
anterior:
Ho : µo = 2000 psi
H1 : µo ≠ 2000 psi
Para muestra grande (n>=20).
Aproximación normal:
• Como la muestra es mayor que 10 se utilizará la
aproximación normal
Para muestra grande (n>=20).
Aproximación normal:
• Regla de Decisión:
• Si –1.96 ≤ ZR ≤ 1.96
No se rechaza Ho
• Cálculos:
Para muestra grande (n>=20).
Aproximación normal:
• Decisión y Conclusión:
• Como 1.789 esta entre –1.96 y
1.96, no se rechaza H0 y
• Se concluye con un α=0.05 que la
mediana es de 2000 psi.
40
Aplicando la fórmula:
Z= (2*10 – 13)/ √13 = 1.941
48
X = 59
Aplicando la fórmula:
•Z = (2 * 59 - 85) / √85 = 3.58
52
Prueba de Wilcoxon
DEFINICIÓN
PRUEBA DE WILCOXON
PRUEBA DE WILCOXON
PRUEBA DE WILCOXON
PRUEBA DE WILCOXON
Se utiliza cuando:
Trabaja con datos de tipo ordinal.
Establece diferencias de
magnitudes
(+ y -).
60
Prueba de Wilcoxon
•Dirección.
Prueba de Wilcoxon
Dos muestras pareadas.
• Establece las diferencias .
• Con muestras grandes (> 25)
se intenta lograr la
distribución normal (se utiliza
la prueba Z).
62
Pasos:
1. Arreglar las observaciones
pareadas y obtener las
diferencias de cada pareja.
2. Arreglar las diferencias en
función de rangos como
valores absolutos, sin
importar el signo, pero de
manera que los rangos
conserven el signo
correspondiente a la
diferencia.
63
Pasos:
3. Obtener la sumatoria de los rangos
cuyo signo es el menos frecuente, por
ejemplo: si el signo es +, se
considerará para efectuar sumatorias;
sin embargo, la sumatoria mencionada
finalmente pierde el signo.
4. Si se trata de muestras pequeñas,
comparar el valor obtenido con los
valores críticos de la tabla de
Wilcoxon.
64
Pasos:
5. Distribuir las muestras mayores
que 25 bajo la curva normal y, por
tanto, calcular el valor Z, en
referencia al cual se debe consultar
la probabilidad de diferir con
respecto al promedio en la tabla de
probabilidades asociadas.
6. Decidir si se acepta o rechaza la
hipótesis.
65
EJEMPLO 1
Planteamiento de la hipótesis.
• Hipótesis nula (Ho). No existe diferencia significativa
entre el grado de hiperactividad en obesos cuando están
en un programa de dieta y sin el programa de dieta, esto
es debido al azar.
EJEMPLO 1
• Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05,
se rechaza Ho y se acepta Ha.
• Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, no se
rechaza Ho y se rechaza Ha.
68
EJEMPLO 1
• Aplicación de la prueba estadística.
Se obtienen las diferencias observadas en los incrementos de
hiperactividad en obesos, estando en un programa de dieta o no.
• Estos valores podrán tener signos positivos y negativos, los cuales
quedarían abolidos al ordenarse los rangos y éstos los adoptan.
*
***
*
S+: 39.5
** S-: 15.5
***
**
** Se elije el menor
**
* Existen dos 1 sin considerar el signo por lo tanto: (1+2)/2=1.5 Sumatoria
** Existen cuatro 2 por lo tanto: (3+4+5+6)/4=4.5
***Existen dos 3 por lo tanto: (7+8)/2=7.5 de W = 15.5
Existen dos4 por lo tanto (9+10)= 9.5
69
EJEMPLO 1
• El valor T de la prueba de Wilcoxon obtenido se compara
con los valores críticos de la tabla T en pruebas de rangos
señalados de pares iguales de Wilcoxon.
• tc = 15.5
• Si tc <= tt se rechaza Ho
70
EJEMPLO 1
• Decisión.
𝑊− 𝑋𝑇
Z𝑇 = 𝜎𝑇
• Donde:
ZT = valor Z de la T de Wilcoxon.
W = valor estadístico de Wilcoxon.
T = promedio de la T de Wilcoxon.
• Donde:
N = tamaño de la muestra
74
EJEMPLO 2
• Planteamiento de la hipótesis.
• Hipótesis nula (Ho). No habrá diferencia en el
nivel de C.I. de los jóvenes universitarios
estando en 1er semestre y cuando estén en 6to
semestre.
• Hipótesis alterna (Ha). El nivel de C.I. de los
jóvenes universitarios estando en 1er semestre
es menor al que adquieren al estar en 6to
semestre.
77
EJEMPLO 2
• Nivel de significación.
Para todo valor de probabilidad igual o
menor que 0.05, se rechaza Ho y se acepta
Ha.
• Zona de rechazo.
Para todo valor de probabilidad mayor que
0.05, no se rechaza Ho y se rechaza Ha.
78
EJEMPLO 2
• Aplicación de la
prueba
estadística.
Efectuar las
diferencias entre
los datos sobre le
C.I. antes y
después, elaborar
los rangos de las
diferencias y
hacer la
sumatoria de los
rangos de signo
de menor
frecuencia.
79
EJEMPLO 2
• La sumatoria del valor W de Wilcoxon es igual a 201.5 y,
como se especificó en los pasos, éste se debe transformar en
valor de Z, para conocer la probabilidad de que aquella sea o
no significativa. Para ello debemos calcular primero el
promedio y la desviación estándar de la T de Wilcoxon.
80
EJEMPLO 2
𝑊− 𝑋𝑇
Z𝑇 = 𝜎𝑇
81
EJEMPLO 2
• El valor ZT calculado se
localiza entre los valores Z de
la distribución normal de la
tabla de probabilidades
asociadas en valores
extremos como los de 2 en la
distribución normal.
• En la intersección de la
hilera donde se encuentra el
0.6 y la columna 0.03, se
puede observar la cifra
0.2643, la cual indica la
probabilidad de que la
magnitud de ZT difiera de T.
82
EJEMPLO 2
Decisión.
La probabilidad de 0.2644 es mayor que 0.05,
por lo cual no se rechaza la Ho y se rechaza Ha.
Interpretación.
No existe diferencia estadísticamente
significativa entre el C.I. en jóvenes estando en
1er semestre y cuando están en 6to semestre.
EJEMPLO 03
Las puntuaciones
correspondientes a 15 obreros
en destreza de manejo de un
equipo, antes y después de
realizar una capacitación son
las siguientes :
Antes :
5,6,6,8,7,5,4,3,7,5,6,6,3,5,5
Después :
6,6,7,9,6,4,6,3,8,8,4,7,2,7,8
EJEMPLO 03
Las hipótesis en la prueba de wilcoxon se pueden
enunciar de la manera siguiente:
PASOS
Se asigna el signo menos a las diferencias negativas y el signo más a las diferencias
positivas. El signo (-), en este caso, significa que la puntuación ha aumentado, puesto
que al restar ANTES-DESPUÉS las puntuaciones que han aumentado tienen
diferencia negativa. El signo en esta prueba es un símbolo diferenciador y debe
tenerse cuidado con su interpretación
EJEMPLO 03
W+ = 23.5
W = 67.5
.
Una vez ordenados los datos, se suman los rangos de las diferencias
positivas, W+, y negativas, W-, y se elige el menor de los dos. Los
casos en los que la diferencia es cero se ignoran.
EJEMPLO 03
• W+ = 23,5 y los
negativos W- = 67,5.
• Como valor W se
considera el menor, es
decir, 23,5.
• n = 15
• El punto crítico para una
significación de ( 0,05)
es 25,
EJEMPLO 03
EJEMPLO 04
EJEMPLO 04
•X: 69 70 75 79 83 86 88
89 90 93 96 97 98 99
EJEMPLO 04
SOLUCION:
1) Hipótesis
• H0: Me = 80 La población no
incrementa su promedio de
desajuste.
EJEMPLO 04
2.- Supuestos:
• La muestra es aleatoria
• La variable es continua y
• El nivel de medida es de
intervalo.
96
EJEMPLO 04
3.-Cálculos
Aunque la muestra es pequeña
se va ha utilizar los dos
estadísticos:
a) Averigüemos Di = X – 80 y
ordenemos las | Di |:
EJEMPLO 04
Pun 70 75 79 83 86 88
Dif -11 -10 -5 -1 3 6 8
Ord 9 7.5 3 1 2 4 5
Pun 89 90 93 96 97 98 99
Dif 9 10 13 16 17 18 19
Ord 6 7.5 10 11 12 13 14
EJEMPLO 04
3.-Cálculos
b) Hallamos z
𝑊− 𝑋𝑇
Z𝑇 = 𝜎𝑇
EJEMPLO 04
Puesto que
• α = 0,05:
• W14,0,05 = 21 > 20,5,
• por lo que rechazamos H0.
EJEMPLO 04
4.-Desición y conclusión
EJEMPLO 05
EJEMPLO 05
a) Establecer las hipótesis de interés
• Como no se tiene ninguna información anterior sobre
cuál de los dos tipos de avisos son los preferidos, se
planteara una hipótesis bilateral y saber si hay o no
diferencias entre ellos.
EJEMPLO 05
a) Establezca las hipótesis de interés
• Ho: mediana del tiempo de atención que prestan los
adolescentes a avisos sobre comida es igual a la mediana
de los avisos de bebidas
• H1: mediana del tiempo de atención que prestan los
adolescentes a avisos sobre comida es distinta a la
mediana de los avisos de bebidas
104
EJEMPLO 05
b) Cálculos del estadístico W de Wilcoxon
• Para probar la hipótesis de interés usamos el test de
Wilcoxon para muestras independientes es decir el "Test
de suma de rangos de Wilcoxon".
• Primero ordenamos los datos, sin importar el grupo:
105
EJEMPLO 05
b) Cálculos del estadístico W de Wilcoxon
𝑁1 (𝑁+1)
• El estadístico W de Wilcoxon, será la µw =
2
suma menor de los rangos en este caso
19 que corresponde a la suma de los
rangos de las bebidas.
• Es test estadístico aproximado Z se σW = 𝑁1 𝑁2 (𝑁+1)
12
construye a partir de W, la media y la
desviación estándar:
106
EJEMPLO 05
b) Cálculos del estadístico W de Wilcoxon
• El resultado es igual al de la tabla ya que en
este caso no hay empates y no es necesario
hacer corrección.
• La sig. asintótica (bilateral ) es el valor p
bilateral aproximado 0,045 y sale de las
tablas de la distribución normal.
• .Como 0.045 < 0.05 se rechazaría Ho
• Pero la aproximación Normal funciona
bien si el tamaño de la muestra es grande,
pero en general los métodos no
paramétricos son usados para tamaños
muestrales pequeños.
107
EJEMPLO 05
c) Informe su análisis y conclusión
• Para validar la hipótesis en (a) usamos
el test de suma de rangos de Wilcoxon
(test para muestras independientes).
• Para resolver el test nos basamos en la
distribución exacta del estadístico
W=19, y el de la tabla Wilcoxon W11,
0.05 nos da 10
• Este valor estadístico W es mayor que
el W tabla, por lo tanto no se rechaza
Ho y concluimos que no tenemos
suficiente evidencia para decir que hay
diferencias significativas en la atención
de avisos publicitarios.
FIN
[email protected]
UNMSM ESTADISTICA
FII INDUSTRIAL
TEMA 12
METODOS NO PARAMETRICOS
PARTE II
Prueba de Mann-Whitney
• La prueba U de Mann-Whitney
(también llamada de Mann-Whitney-
Wilcoxon, prueba de suma de
rangos Wilcoxon, o prueba de
Wilcoxon-Mann-Whitney) es una
prueba no paramétrica aplicada a
dos muestras independientes.
• Es, la versión no paramétrica de la
prueba t de Student.
4
Prueba de Mann-Whitney
• Fue propuesto inicialmente en 1945
por Frank Wilcoxon para muestras de
igual tamaños y extendido a
muestras de tamaño arbitrario
como en otros sentidos por
Henry B. Mann y D. R. Whitney
en 1947.
• Consiste en ordenar las (n1+ n 2 )
observaciones de acuerdo con su
magnitud y contar el número de
observaciones de la muestra A, por
ejemplo, que preceden a cada
observación de la B, así resulta el Henry B. Mann y D. R. Whitney
estadístico U que es la suma de estas
enumeraciones.
5
Prueba de Mann-Whitney
Muestras pequeñas (n1 y n2 20)
U R i1 Hay tablas para este
(U es la suma de los rangos caso de muestras
asignados a la muestra 1) pequeñas;
Muestras grandes
Si la muestra es
= relativamente grande,
se puede efectuar la
aproximación a la
distribución normal
La hipótesis nula es que no existe
diferencias entre los dos grupos
6
Prueba de Mann-Whitney
Paso 2:
Prueba de Mann-Whitney
Paso 3:
Calcular los valores de U1 y U2, de modo que se
elija el más pequeño para comparar con los
valores críticos de U Mann-Whitney de la tabla
de probabilidades asociadas con valores
pequeños como los de U en la prueba de Mann-
Whitney.
Prueba de Mann-Whitney
Paso 4:
Decidir si no se rechaza o se rechaza la
hipótesis nula.
10
Prueba de Mann-Whitney
muestras pequeñas
La fórmula es la siguiente:
Prueba de Mann-Whitney
EJEMPLO 1
Prueba de Mann-Whitney
Los datos resultantes se muestran a continuación.
Edad 40-44 Edad 16-20
140 130
135 166
150 128
140 126
144 140
154 136
160 132
144 128
136 124
148
¿Tuvieron diferencias significativas las frecuencias de pulso
12
de ambos grupos?
13 1
Ejemplo
Prueba de Mann-Whitney
Formulación de las hipótesis:
Prueba de Mann-Whitney
Ordenando los datos y asignándoles el (rango) de su posición relativa se tiene
:
∑R1y ∑R2
Se promedia suma de
las rangos
posiciones
para el caso ∑R1
de que sean
iguales
∑R2
15 1
Ejemplo
Prueba de Mann-Whitney
Como n1 = 10 y n2 = 9 => 10+9= 19<=20 Muestra pequeña
Ub = 90 + 45 - 55.5 = 79.5
Prueba de Mann-Whitney
Cálculo del valor crítico de Uo
Con un alfa = 0.05
n1=10 y n2= 9
De la tabla de Mann-Whitney
Calculando Uo
Uo= n1(n1+n2+1)/2 - TL
- Uo= 10(10+9+1)/2 - 76= 24
17 1
Ejemplo
Prueba de Mann-Whitney
Para alfa = 0.05 el valor de Uo = 24
Si Ua < Uo se rechaza la Ho
Como Ua < 24 14.5 < 24
se rechaza la Hipótesis Ho de que las medianas
son iguales.
Prueba de Mann-Whitney
muestras grandes
La fórmula es la siguiente:
=
U1 y U2 = valores estadísticos de U Mann-Whitney
EJEMPLO 2
• De una universidad se ha seleccionado dos muestra de 10
estudiantes de dos facultades diferentes y se quiere saber
si las edades de ambos grupos son iguales
• Se conoce la sumatoria de los dos rangos
• Ua = 14.5 Ub = 79.5
Ho: Las distribuciones de frecuencias
relativas poblaciones de las edades
de las A y B son iguales
Ha: Las distribuciones de frecuencias
relativas poblacionales de las edades
no son iguales
20
Ua = 14.5 Ub = 79.5
=
Con Ua y Ub se tiene:
EJEMPLO 03
- 72 = 83
La suma de rangos de la segunda muestra o estadístico ∑B es 138.
- 138 = 17
27
Prueba de Mann-Whitney
Ejemplo 3
Uo= n1(n1+n2+1)/2 - TL
Uo= 10(10+10+1)/2 - 79= 26
28
Si Ua < Uo se rechaza la Ho
EJEMPLO 04
• Los adultos obesos que acuden a un
centro de control de peso de una gran
ciudad, son sometidos a uno de dos
tratamientos para reducir de peso: plan
de alimentación dirigido y plan de
alimentación dirigido combinado con un
plan de actividad física.
• Determinar si el peso perdido a los 6
meses después de iniciado el tratamiento
de reducción de peso, difiere
significativamente entre los dos tipos de
tratamientos.
30
Planteamiento de la hipótesis:
Ho: El peso perdido a los 6 meses no es
significativamente diferente entre los obesos que
llevan a cabo un plan de alimentación dirigido y
aquellos que siguen un plan de alimentación
combinado con un plan de actividad física.
HA: El peso perdido a los 6 meses es significativamente
diferente entre los obesos que llevan a cabo un plan
de alimentación dirigido y aquellos que siguen un
plan de alimentación combinado con un plan de
actividad física.
• Donde:
U1 y U2 = valores estadísticos de U Mann-Whitney.
n1 = tamaño de la muestra del grupo 1.
n2 = tamaño de la muestra del grupo 2.
∑R1 = sumatoria de los rangos del grupo 1.
∑R2 = sumatoria de los rangos del grupo 2.
34
Valor de probabilidad:
• 0.047 (unilateral) x 2 = 0.09
Decisión
• Como valor de la probabilidad (0.09) > 0.05, no se
rechaza la H0.
• Se evidencia que el peso perdido a los 6 meses no es
significativamente diferente entre los obesos que siguen
sólo un plan de alimentación dirigido y los que siguen el
plan de alimentación combinado con un plan de
actividad física, con un nivel de significancia de 0.05
36
PRUEBA de
Kruskal-Wallis
OBJETIVO /
Esta prueba permite decidir si puede aceptarse la
hipótesis de que “r” muestras independientes
proceden de la misma población o de poblaciones
idénticas con la misma mediana. William Kruskal – Wilson Wallis
37
PLANTEAMIENTO DE HIPÓTESIS
Velásquez
H0: Las poblaciones de las que proceden las tres “r” muestras
son idénticas (idéntica mediana)
Ho : Me1=Me2= …..=Mei
/
H1: Hay al menos dos poblaciones distintas (medianas
diferentes)*
ESTADÍSTICO DE PRUEBA
Donde:
N=total de datos de las muestras.
Ri=sumatoria de rangos de cada
muestra.
ni=número de datos de cada muestra
Regla de decisión
40
PROCEDIMIENTO
Velásquez
1. Planteamiento de hipótesis.
2. Se ordenan las “n” observaciones de
menor a mayor, y se les asignan rangos
desde 1 hasta “n”.
/
3. Se obtiene la suma de los rangos
correspondientes a los elementos de cada
muestra “Ri” y se halla el rango
promedio.
4. Calcular estadístico de prueba.
5. Buscar H en la Tabla de Chi cuadrado.
6. Conclusiones.
41
EJEMPLO 1
Una empresa manufacturera desea
contratar personal para su equipo
gerencial.
Realiza una convocatoria y se
presentan 20 postulantes, se realizan
/
las evaluaciones y se dispone de los
resultados de las calificaciones de
desempeño identificando que
provienen de 3 escuelas diferentes,
que se va ha considerar como
muestras independientes para saber si
existe alguna diferencia en la
preparación de sus estudiantes.
42
EJEMPLO 1
Velásquez
PLANTEAMIENTO DE HIPÓTESIS
Velásquez
Se Ubicar los
ordenan rangos
las “n” asignados de
observacio /
acuerdo a la
nes clasificación
original
(escuelas)
45
SUMA DE RANGOS
Velásquez
/
46
H=2.853
47
2,0.05=5.991
2 2
r-1,α=
49
CONCLUSIONES
Velásquez
Regla de decisión
EJEMPLO 2
En tres empresas se esta determinando el
grado (%) de propensión al ahorro de sus
trabajadores. Para verificar si la disposición
al ahorro es similar en dichas empresas, se
obtiene una muestra en cada una de las
empresas, cuyos resultados son los
siguientes:
Empresa 1 Empresa 2 Empresa 2
0.251 0.140 0.112
0.326 0.204 0.306
Propensión
0.146 0.318 0.241
al ahorro
0.093 0.109
0.172
51
PLANTEAMIENTO DE HIPÓTESIS
ORDEN DE DATOS
Ing. William león
Velásquez
SUMA DE RANGOS
Ing. William león
Velásquez
Empresa
54
CONCLUSIONES
CONCLUSIONES
Ejemplo 3
• Se ha registrado el tamaño de los centros
acogidos a tres programas de experimentación,
que cuentan con la participación de 4, 3 y 4
centros respectivamente.
• Si el número de unidades de cada uno de estos
centros es el que se muestran a continuación,
¿podemos afirmar que el tamaño no marca
diferencias entre los centros implicados en los
tres programas? (α = 0.05)
58
PLANTEAMIENTO DE HIPÓTESIS
ORDEN DE DATOS
20 19 16 21 24 22 28 23 15 18 26
A A A A B B B C C C C
5 4 2 6 9 7 11 8 1 3 10
60
SUMA DE RANGOS
CONCLUSION
3.66 5.991
Ejemplo 4
• Un investigador estudia el efecto benéfico
de cuatro sustancias anticonvulsionantes
(a1, a2, a3 y a4), para proteger contra la
muerte producida por un convulsionante, la
cual se manifiesta después de una crisis
• El investigador elige al azar a 24 ratones de
la misma edad y peso y les inyecta
anticonvulsionante previamente al
suministro del convulsionante
• A partir de este momento, inicia la cuenta en
tiempo, hasta que mueren los ratones;
además mide las observaciones en horas
de tiempo transcurrido.
65
ANALISIS
• Elección de la prueba estadística.
Las mediciones se realizan en horas, por lo
que la variable puede ser continua y, en
consecuencia, una escala de intervalo; sin
embargo, algunos ratones no murieron y el
tiempo está calificado nominalmente como
infinito.
• Este obstáculo impide concederle la
calificación de escala de intervalo, por lo cual
se elige una escala de tipo ordinal.
66
Planteamiento de la hipótesis
• .
• Hipótesis nula (Ho). Las diferencias observadas
en los cuatro grupos de fármacos
anticonvulsionantes, para evitar la muerte
producida por el convulsionante, se deben al
azar.
• Hipótesis alterna (Ha). La protección de la
muerte por drogas anticonvulsionante contra el
fármaco convulsionante, se muestra diferente
entre los cuatro grupos, y hay mejor protección
por unos de ellos.
67
Ejemplo 4
Aplicación de la prueba
estadística.
De acuerdo con los pasos,
se inicia con el
ordenamiento de todas las
observaciones a partir del
valor más pequeño hasta el
mayor y la detección de las
ligas o empates.
Ejemplo 4
Una vez efectuado el ordenamiento en rangos de las
observaciones, se hacen las sumatorias de los rangos.
Para facilitar esta tarea, elabórese una tabla en la que
sustituyan los datos.
Sustitución por rangos. Observaciones de la primera
tabla.
a1 a2 a3 a4
70
Ejemplo 4
• Se calcula el valor de ajuste por empates con la
siguiente fórmula
71
Ejemplo 4
Ejemplo 4
Calculamos los grados de libertad.
gl = K grupos - 1 = 4 - 1 = 3
El estadístico H calculado de 15.4, se
compara con los valores críticos de χ 2.
En seguida se busca en esa hilera la cifra
de grados de libertad (3) hasta el nivel de
significancia de 0.05 y se observa el valor
7.82, hasta los críticos 11.34 y 16.27,
donde se encuentra el calculado. Esto
quiere decir que la probabilidad de que
exista una diferencia se halla a una
probabilidad de error entre 0.01 y 0.001.
73
Ejemplo 4
Decisión.
Como el valor estadístico H tiene una probabilidad
menor que 0.01 y éste es menor que el nivel de
significancia, se acepta Ha y se rechaza Ho.
Interpretación.
Entre las drogas anticonvulsionantes, existe diferencia
significativa en cuanto a la protección de muerte a los
ratones cuando se les inyecta el fármaco
74
Ejemplo 5
• Se quiere estudiar si el pH de cuatro
lagunas situadas sobre sustratos
diferentes. Para ello se obtuvieron 8
muestras de agua procedentes de
cada una de las lagunas, midiéndose
el pH en cada una de ellas.
• Los datos de pH se ordenaron de
forma ascendente para cada laguna.
(Una muestra de agua de la laguna nº
3 se perdió, de forma que n3=7; pero
el test no requiere igualdad en el
número de datos de cada grupo). Los
rangos se muestran entre paréntesis.
75
Ejemplo 5
Ejemplo 5
Laguna1 laguna 2 Laguna3 Laguna4
7.68 (1) 7.71 (6*) 7.74 (13.5*) 7.71 (6*)
7.69 (2) 7.73 (10*) 7.75 (16) 7.71 (6*)
7.70 (3.5*) 7.74 (13.5*) 7.77 (18) 7.74 (13.5*)
7.70 (3.5*) 7.74 (13.5*) 7.78 (20*) 7.79 (22)
7.72 (8) 7.78 (20*) 7.80 (23.5*) 7.81 (26*)
7.73 (10*) 7.78 (20*) 7.81 (26*) 7.85 (29)
7.73 (10*) 7.80 (23.5*) 7.84 (28) 7.87 (30)
7.76 (17) 7.81 (26*) 7.91 (31)
n1=8 n2=8 n3=7 n4=8
R1=55 R2=132.5 R3=145 R4=163.5
* Rangos ligados
77
Ejemplo 5
78
Ejemplo 5
TEMA 13
SERIE DE TIEMPO
INTRODUCCIÓN
Ing. William león
Velásquez
INTRODUCCIÓN
Ing. William león
Velásquez
OBJETIVOS
Velásquez
SERIES DE TIEMPO
• Por serie de tiempo se refiere a los datos
estadísticos que se recopilan, observan o
registran en intervalos de tiempo regulares
(diario, semanal, semestral, anual, entre otros).
• El término serie de tiempo se
aplica por ejemplo a datos
registrados en forma
periódica que muestran, las
ventas anuales totales de
almacenes, el valor trimestral
total de contratos de
construcción otorgados, el
valor trimestral del PBI.
7
SERIES DE TIEMPO
Velásquez
SERIES DE TIEMPO
Velásquez
SERIE DE TIEMPO
• El método clásico identifica cuatro influencias o
componentes:
• Tendencia (T)
• Fluctuaciones cíclicas (C)
• Variaciones estacionales (E)
• Variaciones irregulares (I)
10
COMPONENTES DE UNA
Velásquez
SERIE DE TIEMPO
• Existe una relación multiplicativa que dan forma
al modelo clásico de series de tiempo,
• Para cualquier período designado en la serie de
tiempo, el valor de la variable está determinado
por los cuatro componentes en la siguiente
forma:
Y=TxCxExI
11
COMPONENTES DE UNA
Ing. William león
Velásquez
SERIE DE TIEMPO
• Las características son las siguientes:
SERIE DE TIEMPO
• Las características son las siguientes:
Nombre y forma Ejemplos Otros datos Técnica a
utilizar
FLUCTUACIONES Empleo -Se mide en años Valores cíclicos
CICLICAS (C) La -Ascenso y descanso relativos
Movimientos producción en periodos mayores
ascendentes y El precio de de un año
descendentes recurrentes las acciones -Periodos de
respecto a la tendencia prosperidad seguidos
con una duración de de recesión,
varios años depresión y luego
recuperación
13
COMPONENTES DE UNA
Ing. William león
Velásquez
SERIE DE TIEMPO
• Las características son las siguientes:
Nombre y forma Ejemplos Otros datos Técnica a
utilizar
VARIACIONES Ventas altas -Solo se aprecian si Promedios móviles
ESTACIONALES (E) en navidad y se tiene datos
Movimientos bajas trimestrales o
ascendentes y después. mensuales.
descendentes respecto de Consumos -Patrones de cambio
la tendencia que se relacionados dentro de un mismo
consuman dentro de un con las año. Tales patrones
año y se repiten estaciones del se repiten cada año
anualmente. Se año
identifican mas en
periodos trimestrales
14
SERIE DE TIEMPO
• Las características son las siguientes:
Nombre y forma Ejemplos Otros datos Técnica a
utilizar
VARIACIONES Guerras -No se pueden No existe técnica
IRREGULARES (I) Huelgas predecir, ni medir.
Variaciones erráticas Desastres
respecto de la tendencia naturales
que no pueden atribuirse
a influencias cíclicas o
estacionales
15
ANÁLISIS DE TENDENCIA
Velásquez
ANÁLISIS DE TENDENCIA
Velásquez
ANÁLISIS DE TENDENCIA
Velásquez
ANÁLISIS DE TENDENCIA
Ing. William león
Velásquez
Solución
a) Con los datos que se tienen se obtiene la
siguiente gráfica:
22
Solución
b) Para determinar los coeficientes de la
ecuación se debe construir una tabla con
los datos necesarios:
23
Solución
• Se sustituyen los valores en las fórmulas
respectivas:
24
Solución
• Calculado los coeficientes, se tiene la
siguiente Ecuación de Tendencia:
y = 6.1 + 1.3t
• La interpretación será:
• Las ventas se expresan en millones de
pesos, el origen o año 0, es 2003 y t
aumenta una unidad por año.
• El valor 1.3 indica que las ventas
aumentan a razón de 1.3 millones de
pesos por año. El valor 6.1 es el de las
ventas estimadas cuando t = 0.
• Es decir, el monto de las ventas
estimadas para el año 2003 es igual a
6.1 millones de pesos.
25
Solución
Velásquez
Solución
d)Los dos años siguientes son 2008 y 2009, que en
términos de los cálculos que estamos haciendo
son 6 y 7, respectivamente.
Sustituyendo en la Ecuación de Tendencia, se
obtienen los pronósticos requeridos, es decir:
y = 6.1 + 1.3t = 6.1+ 1.3(6) = 13.9
y = 6.1 + 1.3t = 6.1+ 1.3(7) = 15.2
28
Solución
Ing. William león
Velásquez
Variación cíclica:
• Con frecuencia las series de tiempo presentan
secuencias alternas de puntos abajo y arriba de la
línea de tendencia que duran más de un año, esta
variación se mantiene después de que se han
eliminado las variaciones o tendencias estacional e
irregular.
30
variaciones cíclicas
• Para los datos del ejemplo anterior:
• a) estima sus ciclos relativos
• b) construye su gráfica de ciclos
• c) interpreta los resultados
34
Ejemplo
Velásquez
Ejemplo
Velásquez
Ejemplo
Ing. William león
Velásquez
Ejemplo
Ing. William león
Velásquez
Ejemplo
Ing. William león
Velásquez
39
Estacionales
• Variación estacional: El componente de la
serie de tiempo que representa la variabilidad en
los datos debida a influencias de las estaciones,
se llama componente estacional.
• Esta variación corresponde a los movimientos de
la serie que recurren año tras año en los mismos
meses (o en los mismos trimestres) del año poco
más o menos con la misma intensidad.
40
Análisis de Variaciones
Ing. William león
Velásquez
Estacionales
• De este modo, las ventas de automóviles, ropa,
consumo de juguetes, entre otros, pueden ser
ejemplos de ello.
• Es evidente entonces, que estos
comportamientos solamente pueden ser
apreciados cuando se trata de datos mensuales o
trimestrales, ya que en datos anuales o
semestrales queda ocultos.
41
Estacionales
• Observe la gráfica sobre la Producción de
Autos en México de forma semestre y su
relación con las ventas
se observa que en
los meses de Julio
de los primeros 5 se
observa como el
punto más bajo en
cuanto a producción
que va aumentado
hasta tener su
máximo en los
periodos
Decembrinos.
42
Estacionales
Este análisis es muy importante porque
permite, por ejemplo:
• Programar los suministros de
materias primas para cubrir la
demanda estacional variable.
43
Ejemplo
Velásquez
Ejemplo
Ing. William león
Velásquez
Entonces:
• Cada mes es diferente uno del otro, este análisis
trata de identificar un número índice estacional
asociada a cada mes (o trimestre del año) o, en
otras palabras, un conjunto de índices mensuales
que consiste en 12 índices que son
representativos de los datos para un período de
12 meses o, cuatro índices si se trata de
trimestres.
• Cada uno de estos índices es un porcentaje, con
un promedio anual del 100%, es decir, el índice
mensual indica el nivel de ventas o de
producción, según se trate, en relación con el
promedio anual del 100%
45
Ejemplo
Ing. William león
Velásquez
De esta forma:
• Un índice estacional del 94% para el
mes de marzo, indica que las ventas
en ese mes están, por lo general, 6%
abajo del promedio anual
• Un índice mensual del 108.2% para
el mes de diciembre, indica que las
ventas de ese mes se espera que
estén 8.2% arriba del promedio
anual
46
variaciones estacionales
• Los datos siguientes representan las ventas
trimestrales en millones de pesos de la
empresa de confección, especializada en la
venta de ropa infantil ubicada en la zona
centro de una gran ciudad :
48
variaciones estacionales
a) Construir gráfica de la serie de tiempo e
interpretar los datos
b) Obtener los índices estacionales trimestrales
c) Interpretar los resultados
d) Calcular el valor con ajuste estacional de las
ventas trimestrales. Construir gráfica e
Interpretar los resultados
e) Obtener la ecuación de tendencia e
interpretar el resultado
f) Pronosticar las ventas para los cuatro
trimestres del próximo año
49
Procedimiento:
a) Como puede apreciarse, en cada año, las ventas
del cuarto trimestre son las más altas y las del
segundo las más bajas. También puede apreciarse
un incremento en las ventas de un año a otro.
50
Procedimiento:
Ing. William león
Velásquez
Procedimiento:
Ing. William león
Velásquez
• Columna (3).
• Promedio móvil de
cuatro trimestres,
• Dividir los totales
anteriores entre 4 y
colocar el resultado
frente a su
correspondiente.
• Por ejemplo:
34/4 = 8.500
33.8/4=8.450
, etcétera.
52
Procedimiento:
Ing. William león
Velásquez
• Columna (4).
• Promedio móvil centrado,
• Se centran los promedios
móviles, es decir, se suman los
dos promedios móviles y se
dividen entre 2, el resultado de
esto se centra entre los dos
valores sumados quedando
centrado con el trimestre
correspondiente,
• Ejemplo:
• (8.500 + 8450)/2 = 8.475 que
queda centrado con el trimestre
3 del año 2002, el segundo sería
(8.450 + 8.450)/2 = 8.450 que
queda centrado con el trimestre
cuatro del año 2002.
53
Procedimiento:
Velásquez
• Columna (5).
• Valor estacional
específico.-
• Se calcula dividiendo las
ventas originales
(columna 1) entre el
promedio móvil
centrado (columna 4),
• Ejemplo:
10.0/8.475 = 1.180,
el segundo es 12.7/8.450 =
1.503, etcétera.
54
Procedimiento:
Ing. William león
Velásquez
Procedimiento:
• Obtener el índice estacional multiplicando la
media obtenida por el factor de corrección o
ajuste que se calcula con la fórmula que
aparece al pie del cuadro siguiente:
56
Procedimiento:
c) Estos índices calculados implican que:
• Para el trimestre 1, cuyo índice es 76.466 significa que
las ventas en este trimestre estarán (100 – 76.466 = )
23.534% por abajo del promedio típico,
• Para el trimestre 2, cuyo índice es 57.300 significa que
las ventas en este trimestre estarán (100 – 57.300 =)
42.700% por abajo del promedio típico
• Para el trimestre 3, cuyo índice es 113.601 significa que
las ventas en este trimestre estarán (113.601 – 100 =)
13.601% por arriba del promedio típico
• Para el trimestre 4, cuyo índice es 152.633 significa que
las ventas en este trimestre estarán (152.633 – 100 =)
52.633% por arriba del promedio típico
57
Procedimiento:
Velásquez
• En resumen:
• Como puede apreciarse el período
con mayor actividad en las ventas es
el cuarto trimestre mientras que
para el primer y segundo trimestre
del año tal actividad baja
drásticamente.
58
Procedimiento:
Velásquez
Procedimiento:
Velásquez
Procedimiento:
Velásquez
Procedimiento:
Ing. William león
Velásquez
y = 8.1791 + 0.0880x
62
Procedimiento:
Velásquez
Procedimiento:
Velásquez
Procedimiento:
Velásquez
Procedimiento:
Ing. William león
Velásquez