La Prueba ANOVA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 22

Diplomado en Estadı́stica: Modulo III

Regresión Logı́stica y La Prueba ANOVA en SPSS y Excel

Leandro Galo

Universidad Nacional Autónoma de Honduras


Maestrı́a en Matemática

25 de noviembre del 2023


Indice

Regresión Logı́stica
Indice

Regresión Logı́stica

Análisis de Varianza (ANOVA)


Regresión Logı́stica

El enfoque más popular para modelar respuestas binarias es la técni-


ca llamada regresión logı́stica, la cual se emplea mucho en las cien-
cias biológicas, en la investigación biomédica y en la ingenierı́a. De
hecho, se observa que incluso en las ciencias sociales abundan las
respuestas binarias. La distribución básica para la respuesta es la de
Bernoulli o la binomial.
La primera se encuentra en estudios observacionales donde no hay
corridas repetidas en cada nivel de regresor; mientras que la segunda
será el caso en que se utilice un diseño experimental. Por ejemplo, en
un ensayo clı́nico en el cual se evalúa un fármaco nuevo, el objetivo
podrı́a ser el de determinar la dosis del medicamento que es eficaz.
Ası́, en el experimento se utilizarán ciertas dosis y para cada una de
ellas se emplearán a varios sujetos, un caso al que se le denomina
caso agrupado.
En el caso de las respuestas binarias la respuesta media es una pro-
babilidad.
Denotemos por Y a dicha variable, entonces nuestro problema con-
siste en determinar la correlación que existe entre la variable di-
cotómica Y con respecto a una variable de escala X , es decir, que
queremos especificar la probabilidad de que Y = 1 a partir de la
interacción con la variable X .
Para lo anterior utilizamos el famoso modelo de David Cox desarro-
llado en 1958 y dado por:

eβ0 +β1 x 1
π1 := Pr[Y = 1] = β +β x
= −(β
(1)
1+e 0 1 1 + e 0 +β1 x)
De lo anterior obtenemos que

eβ0 +β1 x 1
Pr[Y = 0] := 1 − Pr[Y = 1] = 1 − β +β x
= (2)
1+e 0 1 1 + eβ0 +β1 x
Además de (1) obtenemos que
 
π1
W = ln = β0 + β1 x (3)
1 − π1
Lo anterior esta relacionado con la función sigmoide (Sigmoid fun-
ction) que es de la forma

1
a :=
1 + e−z
y cuya forma gráfica es la siguiente
Ejemplo

Un estudio quiere establecer un modelo que permita calcular la pro-


babilidad de obtener una matrı́cula de honor al final del semestre
en función de la nota promedio que se ha obtenido en las clases
de matemáticas. La variable matrı́cula está codificada como 0 si no
se tiene matricula y 1 si se tiene, los datos aparecen en el archivo
Matriculados.xlsx.
Determinar un modelo logı́stico para obtener la probabilidad de que
tenga o no matricula de honor.
El modelo de regresión logı́stica se puede generalizar, es decir po-
demos ver la dependencia de Y son respecto a k variables indepen-
dientes X1 , X2 , . . . , Xk y obtener entonces ası́:

eβ0 +β1 x1 +···+βk xk 1


π1 := Pr[Y = 1] = β +β x +···+β x
= −(β +β
1+e 0 1 1 k k 1+e 0 1 x1 +···+βk xk )

(4)
De lo anterior obtenemos que
1
Pr[Y = 0] := 1 − Pr[Y = 1] = (5)
1+ eβ0 +β1 x1 +···+βk xk
Además de (1) obtenemos que
 
π1
W = ln = β0 + β1 x1 + · · · + βk xk (6)
1 − π1
ejemplo 2

A fin de establecer el contexto, considere los datos de la tabla 15.7.


Sea Y=1, si la calificación final de un estudiante en un curso inter-
medio de microeconomı́a fue A, y Y=0 si esa calificación final fue
B o C. Spector y Mazzeo utilizaron el GPA (promedio de puntos
de calificación), TUCE y PSI (Sistema de Enseñanza Personalizada)
de Estados Unidos como predictores de la calificación. Deduzca el
modelo logı́stico para este caso.
Análisis de Varianza (ANOVA)

Usualmente cuando se estudia estadı́stica inferencial se comienza


con estimaciones y pruebas de hipótesis relacionadas con un sólo
parámetro de una población o comparando a dos poblaciones res-
pecto a un parámetro especifico. Lo anterior nos permite seleccionar
una muestra o muestras apropiadas de la población ó poblaciones
en estudio. Sin embargo, ¿qué sucede si queremos comparar a más
de dos poblaciones? ¿Qué procedimiento podrı́amos seguir?

Un primer problema que se presenta es cuando queremos comparar


las medias poblacionales µ1 , µ2 , . . . , µk de k poblaciones
diferentes e independientes entre si, con k > 2.
En el problema de k > 2 muestras se supone que hay k muestras
provenientes de k poblaciones que se distribuyen normal. Un
procedimiento muy común que se utiliza cuando se prueban medias
de la población se denomina análisis de varianza, o ANOVA. En
dicho problema se plantean las siguientes hipótesis

H o : µ1 = µ2 = · · · = µk
(7)
HA : µi ̸= µj , para algún i, j ∈ {1, 2, . . . , k}
En otras palabras:

Ho : Todas las medias poblacionales son iguales.


HA : Al menos dos de las medias poblacionales no son iguales.
Para comprobar (7) debemos construir a un estadı́stico de prueba
de la siguiente manera:
i) Para cada población i, seleccionamos una muestra aleatoria de
tamaño ni , es decir,

x11 x21 x31 ... xk1


x12 x22 x32 ... xk2
.. (8)
.
x1n1 x2n2 x3n3 ... xknk

ii) Sea n = n1 + n2 + · · · + nk , definamos a la gran media como:


Pk Pni
i=1 j=1 xij
x̄¯ :=
n
iii) Si vemos a (8) como una matriz donde en cada columna se
especifica a los elementos de la muestra i, podemos encontramos a
lo que llamamos varianza entre columnas de la siguiente manera:

Σki=1 ni (x̄i − x̄¯)2


σ̂b2 := (9)
k −1
Pni
j=1 xij
donde x̄i = .
ni

iv) Podemos calcular también la conocida varianza dentro de


columnas dada por
 
2 k ni − 1
σ̂w := Σi=1 Si2 (10)
n−k

donde Si2 es la varianza de la muestra muestra i.


v) Estadı́stico de Prueba:

varianza entre columnas σ̂ 2


Fp := = 2b (11)
varianza dentro columnas σ̂w

donde los datos se distribuyen F .

Usualmente para utilizar la distribución F se utilizan grados de


libertad del numerador (gl1 = k − 1) y grados de libertad del
denominador (gl2 = n − k), con un nivel de significancia α dado.
A continuación mostramos la región de rechazo y aceptación de Ho :
Se puede realizar gráficos de caja y bigote para cada muestra en un
mismo plano para ver su variabilidad como muestra la figura:
A la prueba ANOVA también se le llama prueba de un factor, ya
que podemos analizar una variable cuantitativa a la que llamamos
variable dependiente con respecto a una variable categórica a la cual
llamamos factor.
Por ejemplo:
▶ Podemos analizar los goles por equipos durante todo el
campeonato de una liga determinada, en cuyo caso la variable
factor serán los equipos y la variable dependiente el número
de goles anotados en cada jornada.
Ejemplo 1

La oficina de contabilidad del gobierno(OCG) de Estados Unidos


está interesada en ver si las oficinas de tamaño parecido gastan can-
tidades similares en personal y equipo.(Las oficinas que gastan más
tendrán una auditorı́a especial). Se examinaron los gastos especiales
de tres oficinas: una de ellas en el Departamento de Agricultura,
otra en el Departamento de Estado y la última en el Departamento
de Interior. Los datos se presentan en la siguiente tabla:

Gastos mensuales(en miles de dólares) durante algunos meses


Agricultura 10 8 11 9 12
Estado 15 9 8 10 13 13
Interior 8 16 12
Al nivel de significancia de 0.01, ¿existen diferencias en los gastos
de las distintas oficinas?
Ejemplo 2

Una compañı́a de investigación diseñó tres sistemas diferentes para


limpiar manchas de aceite, mostrando los resultados a continuación
de cada sistema de limpieza en horas por metro cuadrado:

Resultados medidos por área (en metros cuadrados) que se limpia


en una hora
Sistema A 55 60 63 56 59 55
Sistema B 57 53 64 49 62
Sistema C 66 52 61 57
Al nivel de significancia de 0.05. ¿Tienen la misma efectividad los
tres métodos?
Ejemplo 3

Suponga que usted es dueño de un restaurante mexicano y que ofrez-


ca una salsa especial que acompaña las enchiladas. Usted cuenta con
clientes regulares que vienen todos los dı́as. La mayorı́a de sus clien-
tes son estudiantes, obreros o unos empleados de oficina. Algunos
de ellos casi siempre piden la salsa especial, pero usted tiene la im-
presión de que a los estudiantes y a los obreros les gusta más esta
salsa que a los empleados. Basándose en 10 dı́as representativos para
cada grupo en la Data1Anova, ¿existe en este caso alguna relación
significativa?
Ejercicio

Con los datos de la encuesta sobre transporte, Enctrans.sav:


▶ Realizar los gráficos de caja y bigotes de la variable tiempo
con respecto al transporte utilizado.
▶ Razonar si puede aceptarse que el tipo de transporte utilizado,
Trans, influye sobre la variable tiempo.
▶ Realizar los gráficos de caja y bigotes de la variable tiempo de
espera con respecto al transporte utilizado.
▶ ¿Existen diferencias significativas en los tiempos de espera
según el transporte que se utiliza? Cómo interpreta los
resultados?
▶ ¿Existen diferencias significativas en los costes según si vive o
no en Barcelona? Cómo interpreta los resultados?

También podría gustarte