Twierdzenie Gaussa-Markowa – twierdzenie statystyki mówiące, że estymator najmniejszych kwadratów jest (o ile jest on stosowalny) najlepszym (tj. mającym najmniejszą wariancję) estymatorem spośród liniowych, nieobciążonych estymatorów liniowego modelu regresji[1].
Niech dany będzie model regresji liniowej, zapisany w notacji macierzowej:
tj.
gdzie są współczynnikami modelu, są zmiennymi objaśniającymi natomiast są zmiennymi losowymi błędu (nazywanymi czasami szumem). W przypadku modelu regresji ze stałą, wprowadza się dodatkowy współczynnik oraz odpowiadającą mu kolumnę jedynek: dla wszelkich
Założenia twierdzenia Gaussa-Markowa:
- dla wszelkich
- szumy są parami nieskorelowane:
Liniowy estymator jest po prostu kombinacją liniową
w której współczynniki nie zależą od ale mogą zależeć od Z definicji, estymator jest nieobciążony, gdy
Niech
będzie kombinacją liniową współczynników. Wówczas błąd średniokwadratowy odpowiadający takiemu oszacowaniu wynosi
Z uwagi na to, że rozważane tu estymatory są nieobciążone, błąd średniokwadratowy jest równy wariancji rzeczonej kombinacji liniowej. Najlepszym nieobciążonym estymatorem (ang. BLUE) jest wektor o parametrach którego błąd średniokwadratowy jest najmniejszy spośród wszystkich wektorów będących kombinacjami liniowymi parametrów. Równoważnie, macierz
jest nieujemnie określona dla każdego liniowego, nieobciążonego estymatora (zob. uwagi o dowodzie). Estymator najmniejszych kwadratów (ang. OLS) to funkcja
zależna od oraz (gdzie oznacza transpozycję macierzy ). Funkcja ta minimalizuje sumę kwadratów błędów przypadkowych, tj.
Twierdzenie Gaussa-Markowa orzeka, że
- estymator średniokwadraowy (OLS) jest najlepszym nieobciążonym liniowym estymatorem (BLUE)[2].
Niech będzie dowolnym liniowym etymatorem gdzie a jest niezerową macierzą. Zakładając nieobciążoność, najlepszy estymator nieobciążony to estymator o minimalnej wariancji. By zakończyć dowód należy wykazać, że wariancja nie jest mniejsza od wariancji tj. estymatora najmniejszych kwadratów.
Oznacza to, że estymator jest nieobciążony wtedy i tylko wtedy, gdy W tym wypadku:
Macierz DD' jest nieujemnie określona, dominuje zatem poprzez macierz nieujemnie określoną[3] (zob. uwagi o dowodzie).
Powyższy dowód opiera się na równoważności warunku
z tym, że najlepszym (tj. mającym minimalną wariancję) estymatorem jest Zależność taka istotnie zachodzi. Niech będzie dowolnym liniowym, nieobciążonym estymatorem Wówczas
W tym wypadku, równość zachodzi wtedy i tylko wtedy, gdy Zachodzi wówczas
Oznacza to, że równość zachodzi wtedy i tylko wtedy, gdy
co implikuje jedyność estymatora najmniejszych kwadratów (OLS) jako estymatora BLUE[4].
- N.H. Bingham, J.M. Fry, Regression: Linear Models in Statistics, Springer Undergraduate Mathematics Series, 2010.
- A. Sen, M. Srivastava, Regression Analysis Theory, Methods, and Applications, Springer-Verlag, New York, 1990.