Modelo linear generalizado

Em estatística, o modelo linear generalizado (MLG) é uma generalização flexível da regressão linear ordinária que permite variáveis de resposta que têm modelos de distribuição de erro diferentes de uma distribuição normal. O MLG generaliza a regressão linear permitindo que o modelo linear seja relacionado à variável de resposta por meio de uma função de ligação e permitindo que a magnitude da variância de cada medição seja uma função de seu valor previsto.

Modelos lineares generalizados foram formulados por John Nelder e Robert Wedderburn como forma de unificar vários outros modelos estatísticos, incluindo a regressão linear, a regressão logística e a regressão de Poisson.^[1] Eles propuseram um método de mínimos quadrados reponderados iterativamente para estimativa de máxima verossimilhança dos parâmetros do modelo. A estimativa de verossimilhança máxima continua popular e é o método padrão em muitos pacotes de computação estatística. Outras abordagens foram desenvolvidas, incluindo abordagens bayesianas e ajustes de mínimos quadrados a respostas de variância estabilizada.

Intuição

A regressão linear ordinária prevê o valor esperado de uma determinada quantidade desconhecida (a variável de resposta, uma variável aleatória) como uma combinação linear de um conjunto de valores observados (preditores). Isso implica que uma mudança constante em um preditor leva a uma mudança constante na variável de resposta (ou seja, um modelo de resposta linear). Isso é apropriado quando a variável de resposta pode variar, em uma boa aproximação, indefinidamente em qualquer direção, ou mais geralmente para qualquer quantidade que varia apenas por uma quantidade relativamente pequena em comparação com a variação nas variáveis preditivas, por exemplo, alturas humanas.

No entanto, essas suposições são inadequadas para alguns tipos de variáveis de resposta. Por exemplo, nos casos em que se espera que a variável de resposta seja sempre positiva e variando em um intervalo amplo, variações constantes na entrada levam a variações geométricas (ou seja, exponenciais) em vez de constantes, na saída. Por exemplo, suponha que um modelo de previsão linear aprenda com alguns dados (talvez principalmente extraídos de grandes praias) que uma diminuição de 10 graus na temperatura levaria a uma redução de 1000 pessoas visitando a praia. É improvável que esse modelo se generalize bem para praias de tamanhos diferentes. Mais especificamente, o problema é que se você usar o modelo para prever o novo número de pessoas presentes com uma queda de temperatura de 10 para uma praia que recebe regularmente 50 banhistas, você preveria um valor impossível de -950 pessoas presentes. Logicamente, um modelo mais realista poderia prever uma taxa de variação constante para a quantidade de pessoas presentes na praia (por exemplo, um aumento de 10 graus leva a uma duplicação da frequência à praia e uma queda de 10 graus leva a uma redução pela metade). Esse modelo é denominado modelo de resposta exponencial (ou modelo log-linear, uma vez que se prevê que o logaritmo da resposta varie linearmente).

Da mesma forma, um modelo que prevê uma probabilidade de fazer uma escolha sim/não (uma variável de Bernoulli) é ainda menos adequado como um modelo de resposta linear, uma vez que as probabilidades são limitadas em ambas as extremidades (devem estar entre 0 e 1). Imagine, por exemplo, um modelo que prevê a probabilidade de uma determinada pessoa ir à praia em função da temperatura. Um modelo razoável pode prever, por exemplo, que uma mudança em 10 graus torna uma pessoa duas vezes mais ou menos propensa a ir à praia. Mas o que "duas vezes mais provável" significa em termos de probabilidade? Não pode significar literalmente dobrar o valor da probabilidade (por exemplo, 50% torna-se 100%, 75% torna-se 150%, etc.). Em vez disso, são as chances que estão dobrando: das chances de 2:1/ para as chances de 4:1, para as chances de 8:1, etc. Esse modelo é um modelo de chances logarítmicas ou logístico.

Os modelos lineares generalizados cobrem todas essas situações, permitindo que as variáveis de resposta tenham distribuições arbitrárias (em vez de simplesmente distribuições normais) e que uma função arbitrária da variável de resposta (a função de ligação) varie linearmente com os preditores (em vez de assumir que o a própria resposta deve variar linearmente). Por exemplo, o caso acima do número previsto de frequentadores da praia normalmente seria modelado com uma distribuição de Poisson e uma ligação logarítmica, enquanto o caso da probabilidade prevista de frequência à praia seria normalmente modelado com uma distribuição de Bernoulli (ou distribuição binomial, dependendo exatamente de como o problema é formulado) e uma função de ligação de chances logarítmicas (ou logit).

Visão geral

Em um modelo linear generalizado (MLG), assume-se que cada resultado Y das variáveis dependentes é gerado a partir de uma distribuição particular em uma família exponencial, uma grande classe de distribuições de probabilidade que inclui as distribuições normal, binomial, Poisson e gama, entre outras. A média, μ, da distribuição depende das variáveis independentes, X, por meio de:

\operatorname {E} (\mathbf {Y} |\mathbf {X} )={\boldsymbol {\mu }}=g^{-1}(\mathbf {X} {\boldsymbol {\beta }})

em que E(Y|X) é o valor esperado de Y condicional em X; Xβ é o preditor linear, uma combinação linear de parâmetros desconhecidos β; g é a função de ligação.

Neste quadro, a variância é normalmente uma função, V, da média:

\operatorname {Var} (\mathbf {Y} |\mathbf {X} )=\operatorname {V} ({\boldsymbol {\mu }})=\operatorname {V} (g^{-1}(\mathbf {X} {\boldsymbol {\beta }})).

É conveniente se V seguir de uma família exponencial de distribuições, mas pode ser simplesmente que a variância seja uma função do valor previsto.

Os parâmetros desconhecidos, β, são normalmente estimados com máxima verossimilhança, máxima quase-verossimilhança ou técnicas bayesianas.

Componentes do modelo

O MLG consiste de três elementos:^[2]

Uma família exponencial de distribuições de probabilidade.
Um preditor linear $\eta =X\beta$
Uma função de ligação $g$ tal que $E(Y\mid X)=\mu =g^{-1}(\eta )$

Distribuição de probabilidade

Uma família exponencial superdispersa de distribuições é uma generalização de uma família exponencial e o modelo de dispersão exponencial de distribuições e inclui as famílias de distribuições de probabilidade, parametrizadas por ${\boldsymbol {\theta }}$ e $\tau$ , cujas funções de densidade f (ou função massa de probabilidade, no caso de uma distribuição discreta) podem ser expressas na forma

f_{Y}(\mathbf {y} \mid {\boldsymbol {\theta }},\tau )=h(\mathbf {y} ,\tau )\exp \left({\frac {\mathbf {b} ({\boldsymbol {\theta }})^{\rm {T}}\mathbf {T} (\mathbf {y} )-A({\boldsymbol {\theta }})}{d(\tau )}}\right).\,\!

O parâmetro de dispersão, $\tau$ , normalmente é conhecido e geralmente está relacionado à variância da distribuição. As funções $h(\mathbf {y} ,\tau )$ , $\mathbf {b} ({\boldsymbol {\theta }})$ , $\mathbf {T} (\mathbf {y} )$ , $A({\boldsymbol {\theta }})$ , e $d(\tau )$ são conhecidas. Muitas distribuições comuns estão nesta família, incluindo a normal, exponencial, gama, de Poisson, de Bernoulli e (para um número fixo de tentativas) binomial, multinomial e binomial negativa.

Para escalares $\mathbf {y}$ e ${\boldsymbol {\theta }}$ (denotados $y$ e $\theta$ neste caso), isso se reduz a

f_{Y}(y\mid \theta ,\tau )=h(y,\tau )\exp \left({\frac {b(\theta )T(y)-A(\theta )}{d(\tau )}}\right).\,\!

${\boldsymbol {\theta }}$ está relacionado à média da distribuição. E se $\mathbf {b} ({\boldsymbol {\theta }})$ é a função identidade, então considera-se que a distribuição está em sua forma canônica (ou forma natural). Observe que qualquer distribuição pode ser convertida para a forma canônica reescrevendo ${\boldsymbol {\theta }}$ como ${\boldsymbol {\theta }}'$ e então aplicando a transformação ${\boldsymbol {\theta }}=\mathbf {b} ({\boldsymbol {\theta }}')$ . Sempre é possível converter $A({\boldsymbol {\theta }})$ em termos da nova parametrização, mesmo que $\mathbf {b} ({\boldsymbol {\theta }}')$ não seja uma função de um para um; veja comentários na página sobre famílias exponenciais. Se, além disso, $\mathbf {T} (\mathbf {y} )$ é a identidade e $\tau$ é conhecido então ${\boldsymbol {\theta }}$ é chamado de parâmetro canônico (ou parâmetro natural) e está relacionado à média por meio de

{\boldsymbol {\mu }}=\operatorname {E} (\mathbf {y} )=\nabla A({\boldsymbol {\theta }}).\,\!

Para escalares $\mathbf {y}$ e ${\boldsymbol {\theta }}$ , isso se reduz a

\mu =\operatorname {E} (y)=A'(\theta ).

Nesse cenário, pode-se mostrar que a variância da distribuição é^[3]

\operatorname {Var} (\mathbf {y} )=\nabla ^{2}A({\boldsymbol {\theta }})d(\tau ).\,\!

Para escalares $\mathbf {y}$ e ${\boldsymbol {\theta }}$ , isso se reduz a

\operatorname {Var} (y)=A''(\theta )d(\tau ).\,\!

Preditor linear

O preditor linear é a quantidade que incorpora as informações sobre as variáveis independentes no modelo. O símbolo η (a legra grega "eta") denota um preditor linear. Ele está relacionado ao valor esperado dos dados por meio da função de ligação.

O valor de η é expresso como combinação linear (por isso, o nome "linear") de parâmetros desconhecidos β. Os coeficientes da combinação linear são representados como a matriz das variáveis independentes X. Assim, η pode ser expresso como

\eta =\mathbf {X} {\boldsymbol {\beta }}.\,

Função de ligação

A função de ligação fornece o relacionamento entre o preditor linear e a média da função de distribuição. Existem muitas funções de ligação comumente usadas e sua escolha é baseada em várias considerações. Sempre há uma função de ligação canônica bem definida que é derivada da exponencial da função densidade da resposta. No entanto, em alguns casos, faz sentido tentar combinar o domínio da função de ligação com a imagem da média da função de distribuição ou usar uma função de ligação não canônica para fins algorítmicos, por exemplo, regressão probit bayesiana.

Ao usar uma função de distribuição com um parâmetro canônico $\theta$ , a função de ligação canônica é a função que expressa $\theta$ em termos de $\mu$ , ou seja, $\theta =b(\mu )$ . Para as distribuições mais comuns, a média $\mu$ é um dos parâmetros na forma padrão da função densidade da distribuição, e então $b(\mu )$ é a função definida acima que leva a função densidade à sua forma canônica. Ao usar a função de ligação canônica, $b(\mu )=\theta =\mathbf {X} {\boldsymbol {\beta }}$ , o que permite que $\mathbf {X} ^{\rm {T}}\mathbf {Y}$ seja uma estatística suficiente para ${\boldsymbol {\beta }}$ .

A seguir está uma tabela de várias distribuições de família exponencial de uso comum e os dados para os quais elas são normalmente usadas, junto com as funções de ligação canônicas e suas inversas (às vezes chamadas de função média, como feito aqui).

Distribuições comuns com usos típicos e funções de ligação canônicas
Distribuição	Suporte da distribuição	Usos típicos	Nome da ligação	Função de ligação, $\mathbf {X} {\boldsymbol {\beta }}=g(\mu )\,\!$	Função média
Normal	real: $(-\infty ,+\infty )$	Dados de resposta linear	Identidade	$\mathbf {X} {\boldsymbol {\beta }}=\mu \,\!$	$\mu =\mathbf {X} {\boldsymbol {\beta }}\,\!$
Exponencial	real: $(0,+\infty )$	Dados de resposta exponencial, parâmetros de escala	Oposta da inversa	$\mathbf {X} {\boldsymbol {\beta }}=-\mu ^{-1}\,\!$	$\mu =-(\mathbf {X} {\boldsymbol {\beta }})^{-1}\,\!$
Gama	real: $(0,+\infty )$	Dados de resposta exponencial, parâmetros de escala	Oposta da inversa	$\mathbf {X} {\boldsymbol {\beta }}=-\mu ^{-1}\,\!$	$\mu =-(\mathbf {X} {\boldsymbol {\beta }})^{-1}\,\!$
Gaussiana inversa	real: $(0,+\infty )$		Quadrado da inversa	$\mathbf {X} {\boldsymbol {\beta }}=\mu ^{-2}\,\!$	$\mu =(\mathbf {X} {\boldsymbol {\beta }})^{-1/2}\,\!$
Poisson	inteiros: $0,1,2,\ldots$	contagem de ocorrências em quantidade fixa de tempo/espaço	Log	$\mathbf {X} {\boldsymbol {\beta }}=\ln(\mu )\,\!$	$\mu =\exp(\mathbf {X} {\boldsymbol {\beta }})\,\!$
Bernoulli	inteiros: $\{0,1\}$	resultado de ocorrência única sim/não	Logit	$\mathbf {X} {\boldsymbol {\beta }}=\ln \left({\frac {\mu }{1-\mu }}\right)\,\!$	$\mu ={\frac {\exp(\mathbf {X} {\boldsymbol {\beta }})}{1+\exp(\mathbf {X} {\boldsymbol {\beta }})}}={\frac {1}{1+\exp(-\mathbf {X} {\boldsymbol {\beta }})}}\,\!$
Binomial	inteiros: $0,1,\ldots ,N$	contagem do número de ocorrências "sim" de N ocorrências sim/não		$\mathbf {X} {\boldsymbol {\beta }}=\ln \left({\frac {\mu }{n-\mu }}\right)\,\!$
Categórico	inteiros: $[0,K)$	resultado da ocorrência única de K-way		$\mathbf {X} {\boldsymbol {\beta }}=\ln \left({\frac {\mu }{1-\mu }}\right)\,\!$
Categórico	Vetor K de inteiros: $[0,1]$ , onde exatamente um elemento no vetor tem o valor 1	resultado da ocorrência única de K-way
Multinomial	K -vetor de inteiros: $[0,N]$	contagem de ocorrências de diferentes tipos (1. . K ) de N ocorrências totais de K -way

No caso das distribuições exponencial e gama, o domínio da função de ligação canônica não é o mesmo que o intervalo permitido da média. Em particular, o preditor linear pode ser positivo, o que daria uma média negativa impossível. Ao maximizar a probabilidade, devem ser tomadas precauções para evitar isso. Uma alternativa é usar uma função de ligação não canônica.

No caso das distribuições de Bernoulli, binomial, categórica e multinomial, o suporte das distribuições não é do mesmo tipo de dados do parâmetro que está sendo predito. Em todos esses casos, o parâmetro previsto é uma ou mais probabilidades, ou seja, números reais no intervalo $[0,1]$ . O modelo resultante é conhecido como regressão logística (ou regressão logística multinomial no caso em que estão sendo previstos valores K-way em vez de binários).

Para as distribuições Bernoulli e binomial, o parâmetro é uma probabilidade única, indicando a probabilidade de ocorrência de um único evento. A distribuição Bernoulli ainda satisfaz a condição básica do modelo linear generalizado em que, embora um único resultado seja sempre 0 ou 1, o valor esperado será uma probabilidade com valor real, ou seja, a probabilidade de ocorrência de um "sim" (ou 1) como resultado. Da mesma forma, em uma distribuição binomial, o valor esperado é Np, ou seja, a proporção esperada de resultados "sim" será a probabilidade a ser prevista.

Para distribuições categóricas e multinomiais, o parâmetro a ser previsto é um vetor de K probabilidades, com a restrição adicional de que todas as probabilidades devem somar 1. Cada probabilidade indica a probabilidade de ocorrência de um dos K valores possíveis. Para a distribuição multinomial, e para a forma vetorial da distribuição categórica, os valores esperados dos elementos do vetor podem ser relacionados às probabilidades previstas de forma semelhante às distribuições binomial e de Bernoulli.

Ajuste

Máxima verossimilhança

As estimativas de máxima verossimilhança podem ser encontradas usando um algoritmo de mínimos quadrados reponderado iterativamente ou um método de Newton com atualizações da forma:

{\boldsymbol {\beta }}^{(t+1)}={\boldsymbol {\beta }}^{(t)}+{\mathcal {J}}^{-1}({\boldsymbol {\beta }}^{(t)})u({\boldsymbol {\beta }}^{(t)}),

em que ${\mathcal {J}}({\boldsymbol {\beta }}^{(t)})$ é a matriz de informação observada (a oposta da matriz Hessiana) e $u({\boldsymbol {\beta }}^{(t)})$ é a função de pontuação; ou um método de pontuação de Fisher:

{\boldsymbol {\beta }}^{(t+1)}={\boldsymbol {\beta }}^{(t)}+{\mathcal {I}}^{-1}({\boldsymbol {\beta }}^{(t)})u({\boldsymbol {\beta }}^{(t)}),

em que ${\mathcal {I}}({\boldsymbol {\beta }}^{(t)})$ é a matriz de informações de Fisher. Observe que, se a função de ligação canônica for usada, elas serão iguais.^[4]

Métodos bayesianos

Em geral, a distribuição posteriori não pode ser encontrada na forma fechada e, portanto, deve ser aproximada, geralmente usando aproximações de Laplace ou algum tipo de método Monte Carlo de cadeia de Markov como a amostragem de Gibbs.

Exemplos

Modelos lineares gerais

Um possível ponto de confusão tem a ver com a distinção entre modelos lineares generalizados e modelos lineares gerais, dois modelos estatísticos amplos. O cocriador John Nelder expressou pesar sobre esta terminologia.^[5]

O modelo linear geral pode ser visto como um caso especial do modelo linear generalizado tendo a identidade como ligação e respostas normalmente distribuídas. Como a maioria dos resultados de interesse é obtida apenas para o modelo linear geral, o modelo linear geral passou por um desenvolvimento histórico um pouco mais longo. Os resultados para o modelo linear generalizado com uma ligação que não seja a identidade são assintóticos (tendendo a funcionar bem com grandes amostras).

Regressão linear

Um exemplo simples e muito importante de um modelo linear generalizado (também um exemplo de um modelo linear geral) é a regressão linear. Na regressão linear, o uso do estimador de mínimos quadrados é justificado pelo teorema de Gauss-Markov, que não assume que a distribuição seja normal.

Do ponto de vista dos modelos lineares generalizados, entretanto, é útil supor que a função de distribuição é a distribuição normal com variância constante que e a função de ligação é a identidade, que é a ligação canônica se a variância for conhecida.

Para a distribuição normal, o modelo linear generalizado possui uma expressão de forma fechada para as estimativas de máxima verossimilhança, o que é conveniente. A maioria dos outros MLGs carece de estimativas de forma fechada.

Dados binários

Quando os dados de resposta, Y, são binários (assumindo apenas os valores 0 e 1), geralmente se escolhe como função de distribuição a distribuição de Bernoulli e a interpretação de μ_i é então a probabilidade, p, de Y_i assumir o valor 1.

Existem várias funções de ligação populares para funções binomiais.

Função de ligação Logit

A função de ligação mais comum é a ligação logit canônica:

g(p)=\ln \left({p \over 1-p}\right).

MLGs com esta configuração são modelos de regressão logística (ou modelos logit).

Função de ligação probit como escolha popular da função de distribuição cumulativa inversa

Alternativamente, a inversa de qualquer função de distribuição cumulativa contínua (FDC) pode ser usada como ligação, uma vez que o intervalo da FDC é $[0,1]$ , o intervalo da média binomial. A FDC normal $\Phi$ é uma escolha popular e produz o modelo probit. Sua ligação é

g(p)=\Phi ^{-1}(p).\,\!

A razão para o uso do modelo probit é que um escalamento constante da variável de entrada para uma FDC normal (que pode ser absorvida através do escalamento equivalente de todos os parâmetros) produz uma função que é praticamente idêntica à função logit, mas os modelos probit são mais tratáveis em algumas situações do que os modelos logit. (Em uma configuração bayesiana em que distribuições anteriores normalmente distribuídas são colocadas nos parâmetros, a relação entre as anteriores normais e a função de ligação FDC normal significa que um modelo probit pode ser calculado usando a amostragem de Gibbs, enquanto um modelo logit geralmente não pode.)

Log-log complementar (cloglog)

A função complementar log-log também pode ser usada:

g(p)=\log(-\log(1-p)).

Esta função de ligação é assimétrica e frequentemente produzirá resultados diferentes das funções de ligação logit e probit.^[6] O modelo de cloglog corresponde a aplicações onde se observam zero eventos (por exemplo, defeitos) ou um ou mais, onde se assume que o número de eventos segue a distribuição de Poisson.^[7] A suposição de Poisson significa que

\Pr(0)=\exp(-\mu ),

em que μ é um número positivo denotando o número esperado de eventos. Se p representa a proporção de observações com pelo menos um evento, seu complemento

(1-p)=\Pr(0)=\exp(-\mu ),

e então

(-\log(1-p))=\mu .

Um modelo linear requer que a variável de resposta assuma valores ao longo de toda a reta real. Uma vez que μ deve ser positivo, pode-se forçar que isso ocorra tomando o logaritmo e deixando que log(μ) seja um modelo linear. Isso produz a transformação "cloglog"

\log(-\log(1-p))=\log(\mu ).

Ligação identidade

A ligação identidade g(p) = p também é usada algumas vezes para dados binomiais para produzir um modelo de probabilidade linear. No entanto, a ligação identidade pode prever "probabilidades" sem sentido menores que zero ou maiores que um. Isso pode ser evitado usando uma transformação como cloglog, probit ou logit (ou qualquer função de distribuição cumulativa inversa). Um mérito primário da ligação identidade é que ela pode ser estimada usando matemática linear - e outras funções de ligação padrão são aproximadamente lineares correspondendo à ligação identidade próximo a p = 0,5.

Função de variância

A função de variância para dados "quasibinomial" é:

\operatorname {Var} (Y_{i})=\tau \mu _{i}(1-\mu _{i})\,\!

em que o parâmetro de dispersão τ é exatamente 1 para a distribuição binomial. De fato, a verossimilhança binomial padrão omite τ. Quando está presente, o modelo é denominado "quase-binomial" e a probabilidade modificada é denominada quase-probabilidade, uma vez que geralmente não é a probabilidade correspondente a qualquer família real de distribuições de probabilidade. Se τ exceder 1, diz-se que o modelo exibe superdispersão.

Regressão multinomial

O caso binomial pode ser facilmente estendido para permitir uma resposta que tenha distribuição multinomial (também, um Modelo Linear Generalizado para contagens, com um total restrito). Geralmente, isso é feito de duas maneiras:

Resposta ordenada

Se a variável de resposta for ordinal, pode-se ajustar uma função de modelo da forma:

g(\mu _{m})=\eta _{m}=\beta _{0}+X_{1}\beta _{1}+\cdots +X_{p}\beta _{p}+\gamma _{2}+\cdots +\gamma _{m}=\eta _{1}+\gamma _{2}+\cdots +\gamma _{m}{\text{ where }}\mu _{m}=\operatorname {P} (Y\leq m).\,

para m > 2. Ligações diferentes g levam a modelos de regressão ordinal, como modelos de chances proporcionais ou modelos probit ordenados.

Resposta não ordenada

Se a variável de resposta é uma medida nominal, ou os dados não satisfazem as premissas de um modelo ordenado, pode-se ajustar um modelo da seguinte forma:

g(\mu _{m})=\eta _{m}=\beta _{m,0}+X_{1}\beta _{m,1}+\cdots +X_{p}\beta _{m,p}{\text{ where }}\mu _{m}=\mathrm {P} (Y=m\mid Y\in \{1,m\}).\,

para m > 2. Ligações g diferentes conduzem a modelos logit multinomial ou probit multinomial. Eles são mais gerais do que os modelos de resposta ordenada e são estimados mais parâmetros.

Dados de contagem

Outro exemplo de modelos lineares generalizados inclui a regressão de Poisson, que modela os dados de contagem usando a distribuição de Poisson. A ligação é normalmente o logaritmo, a ligação canônica.

A função de variância é proporcional à média

\operatorname {var} (Y_{i})=\tau \mu _{i},\,

em que o parâmetro de dispersão τ é tipicamente fixado em exatamente um. Quando não é, o modelo de quase-verossimilhança resultante é frequentemente descrito como Poisson com superdispersão ou quase-Poisson.

Extensões

Dados correlacionados ou agrupados

O MLG padrão assume que as observações não estão correlacionadas. Foram desenvolvidas extensões para permitir a correlação entre as observações, como ocorre por exemplo em estudos longitudinais e projetos agrupados:

As equações de estimação generalizadas (EEG) permitem a correlação entre observações sem o uso de um modelo de probabilidade explícito para a origem das correlações, portanto, não há probabilidade explícita. São adequados quando os efeitos aleatórios e suas variâncias não são de interesse inerente, pois permitem a correlação sem explicar sua origem. O foco está em estimar a resposta média sobre a população (efeitos de "média da população") em vez dos parâmetros de regressão que permitiriam a previsão do efeito da alteração de um ou mais componentes de X em um determinado indivíduo. As EEG são geralmente usadas em conjunto com os erros padrão de Huber-White.^[8]^[9]
Os modelos lineares mistos generalizados (MLMG) são uma extensão dos MLG que inclui efeitos aleatórios no preditor linear, fornecendo um modelo de probabilidade explícito que explica a origem das correlações. As estimativas de parâmetro "específicas do sujeito" resultantes são adequadas quando o foco está na estimativa do efeito da alteração de um ou mais componentes de X em um determinado indivíduo. Os MLMG também são chamados de modelos multinível e modelos mistos. Em geral, ajustar MLMG é computacionalmente mais complexo e intensivo do que ajustar EEG.

Modelos aditivos generalizados

Os modelos aditivos generalizados (MAGs) são outra extensão dos MLGs em que o preditor linear η não se restringe a ser linear nas covariáveis X, mas é a soma das funções de suavização aplicadas aos x_i:

\eta =\beta _{0}+f_{1}(x_{1})+f_{2}(x_{2})+\cdots \,\!

As funções de suavização f_i são estimadas a partir dos dados. Em geral, isso requer um grande número de pontos de dados e é computacionalmente intensivo.^[10]^[11]

Ver também

Comparação de modelos lineares gerais e generalizados
Modelo fracionário
Modelo de array linear generalizado
GLIM (software)
Quase-variância
Família exponencial natural
Distribuições Tweedie
Funções de variância
Modelo linear generalizado vetorial (MLGV)

Referências

Citações

↑ Nelder, John; Wedderburn, Robert (1972). «Generalized Linear Models». Blackwell Publishing. Journal of the Royal Statistical Society. Series A (General). 135: 370–384. JSTOR 2344614. doi:10.2307/2344614
↑ «6.1 - Introduction to Generalized Linear Models | STAT 504». newonlinecourses.science.psu.edu. Consultado em 18 de março de 2019
↑ McCullagh & Nelder 1989, Chapter 2.
↑ McCullagh & Nelder 1989, p. 43.
↑ Senn, Stephen (2003). «A conversation with John Nelder». Statistical Science. 18: 118–131. doi:10.1214/ss/1056397489. I suspect we should have found some more fancy name for it that would have stuck and not been confused with the general linear model, although general and generalized are not quite the same. I can see why it might have been better to have thought of something else.
↑ «Complementary Log-log Model» (PDF)
↑ «Which Link Function — Logit, Probit, or Cloglog?». Bayesium Analytics (em inglês). 14 de agosto de 2015. Consultado em 17 de março de 2019
↑ Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). «Models for Longitudinal Data: A Generalized Estimating Equation Approach». International Biometric Society. Biometrics. 44: 1049–1060. JSTOR 2531734. PMID 3233245. doi:10.2307/2531734
↑ Hardin, James; Hilbe, Joseph (2003). Generalized Estimating Equations. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3
↑ Hastie & Tibshirani 1990.
↑ Wood 2006.

Bibliografia

Hastie, T. J.; Tibshirani, R. J. (1990). Generalized Additive Models. [S.l.]: Chapman & Hall/CRC. ISBN 978-0-412-34390-2
Madsen, Henrik; Thyregod, Poul (2011). Introduction to General and Generalized Linear Models. [S.l.]: Chapman & Hall/CRCC. ISBN 978-1-4200-9155-7
McCullagh, Peter; Nelder, John (1989). Generalized Linear Models 2nd ed. Boca Raton, FL: Chapman and Hall/CRC. ISBN 0-412-31760-5
Wood, Simon (2006). Generalized Additive Models: An Introduction with R. [S.l.]: Chapman & Hall/CRC. ISBN 1-58488-474-6

Leitura complementar

Dunn, P.K.; Smyth, G.K. (2018). Generalized Linear Models With Examples in R. [S.l.]: New York: Springer. ISBN 978-1-4419-0118-7. doi:10.1007/978-1-4419-0118-7
Dobson, A.J.; Barnett, A.G. (2008). Introduction to Generalized Linear Models 3rd ed. [S.l.]: Boca Raton, FL: Chapman and Hall/CRC. ISBN 978-1-58488-165-0
Hardin, James; Hilbe, Joseph (2007). Generalized Linear Models and Extensions 2nd ed. [S.l.]: College Station: Stata Press. ISBN 978-1-59718-014-6

Ligações externas

Media relacionados com Modelo linear generalizado no Wikimedia Commons

[1] Nelder, John; Wedderburn, Robert (1972). «Generalized Linear Models». Blackwell Publishing. Journal of the Royal Statistical Society. Series A (General). 135: 370–384. JSTOR 2344614. doi:10.2307/2344614

[2] «6.1 - Introduction to Generalized Linear Models | STAT 504». newonlinecourses.science.psu.edu. Consultado em 18 de março de 2019

[3] McCullagh & Nelder 1989, Chapter 2.

[FOOTNOTEMcCullaghNelder198943-4] McCullagh & Nelder 1989, p. 43.

[5] Senn, Stephen (2003). «A conversation with John Nelder». Statistical Science. 18: 118–131. doi:10.1214/ss/1056397489. I suspect we should have found some more fancy name for it that would have stuck and not been confused with the general linear model, although general and generalized are not quite the same. I can see why it might have been better to have thought of something else.

[6] «Complementary Log-log Model» (PDF)

[7] «Which Link Function — Logit, Probit, or Cloglog?». Bayesium Analytics (em inglês). 14 de agosto de 2015. Consultado em 17 de março de 2019

[8] Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). «Models for Longitudinal Data: A Generalized Estimating Equation Approach». International Biometric Society. Biometrics. 44: 1049–1060. JSTOR 2531734. PMID 3233245. doi:10.2307/2531734

[9] Hardin, James; Hilbe, Joseph (2003). Generalized Estimating Equations. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3

[FOOTNOTEHastieTibshirani1990-10] Hastie & Tibshirani 1990.

[FOOTNOTEWood2006-11] Wood 2006.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]