Стандардна девијација

Кумулативна вероватноћа нормалне дистрибуције са очекиваном вредношћу 0 и стандардном девијацијом 1

Стандардна девијација је у статистици апсолутна мера дисперзије у основном скупу. Она говори, колико у просеку елементи скупа одступају од аритметичке средине скупа. Означава се грчким словом сигма, σ.^[1] Ниска стандардна девијација указује на то да вредности имају тенденцију да буду близу средње вредности (која се назива и очекиваном вредношћу) скупа, док висока стандардна девијација указује да су вредности распоређене у ширем опсегу.

Стандардна девијација може бити скраћено записана као СД, а најчешће је представљена у математичким текстовима и једначинама малим грчким словом сигма σ, за стандардну девијацију популације, или латиничним словом s, за стандардну девијацију узорка.

Стандардна девијација случајне променљиве, узорка, статистичке популације, скупа података или расподеле вероватноће је квадратни корен њене варијансе. Она је алгебарски једноставнија, иако у пракси мање робустна, од просечног апсолутног одступања.^[2]^[3] Корисна особина стандардне девијације је да је, за разлику од варијансе, изражена у истој јединици као и подаци.

Формула за израчунавање стандардне девијације је: $\sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}$ ;

где је:
N - број елемената у скупу
μ - аритметичка средина скупа
$x_{i}$ - i-ти члан скупа (i =1,2,...,N)

Стандардна девијација у узорку нам говори колико у просеку елементи узорка одступају од аритметичке средине узорка. Израчунава се по формули:

\sigma ={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}

;

где је:
n - број елемената у узорку
${\overline {x}}$ (икс-бар) - аритметичка средина узорка

$x_{i}$ - i-ти члан узорка (i =1,2,...,n)

Правила за нормално расподељене податке

У пракси, често се претпоставља да су подаци из приближно нормално расподељене популације. Ако је та претпоставка оправдана, онда се око 68% вредности налази у интервалу од плус-минус једне стандардне девијације од аритметичке средине, око 95% вредности се налази у интервалу од плус-минус две стандардне девијације, а око 99,7% се налази унутар плус-минус 3 стандардне девијације. Ово је познато као Правило 68-95-99,7, или емпиријско правило.

Интервали поверења су следећи:

σ	68,26894921371%
2σ	95,44997361036%
3σ	99,73002039367%
4σ	99,99366575163%
5σ	99,99994266969%
6σ	99,99999980268%
7σ	99,99999999974%

За нормалну расподелу, две тачке на кривој које су удаљене једну стандардну девијацију од криве су такође и превојне тачке.

Основни примери

Популациона стандардна девијација оцена осморо ученика

Претпоставимо да је целокупна популација од интереса осам ученика у одређеном одељењу. За коначан скуп бројева, стандардна девијација популације се налази узимањем квадратног корена просека квадрата одступања вредности одузетих од њихове просечне вредности. Оцене одељења од осам ученика (тј. статистичке популације) су следећих осам вредности:

2,\ 4,\ 4,\ 4,\ 5,\ 5,\ 7,\ 9.

Ових осам тачака података имају средњу вредност (просек) од 5:

\mu ={\frac {2+4+4+4+5+5+7+9}{8}}={\frac {40}{8}}=5.

Прво се израчуна одступања сваке тачке података од средње вредности и квадрирају се резултати:

{\begin{array}{lll}(2-5)^{2}=(-3)^{2}=9&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(7-5)^{2}=2^{2}=4\\(4-5)^{2}=(-1)^{2}=1&&(9-5)^{2}=4^{2}=16.\\\end{array}}

Варијанса је средња вредност ових вредности:

\sigma ^{2}={\frac {9+1+1+1+0+0+4+16}{8}}={\frac {32}{8}}=4.

а стандардна девијација популације је једнака квадратном корену варијансе:

\sigma ={\sqrt {4}}=2.

Ова формула важи само ако осам вредности са којима је започето чине комплетну популацију. Ако су вредности уместо тога биле случајни узорак извучен из неке велике родитељске популације (на пример, било је 8 ученика насумично и независно изабраних из класе од 2 милиона), онда се дели са 7 (што је n − 1) уместо са 8 (што је n) у имениоцу последње формуле, а резултат је ${\textstyle s={\sqrt {32/7}}\approx 2.1.}$ У том случају, резултат оригиналне формуле би био називан стандардна девијација узорка и означава са s уместо са $\sigma .$ Дељење са n − 1 уместо са n даје непристрасну процену варијансе веће родитељске популације. Ово је познато као Беселова корекција.^[4]^[5] Грубо речено, разлог за то је да се формула за варијансу узорка ослања на израчунавање разлика запажања од средње вредности узорка, а сама средња вредност узорка је конструисана да буде што је могуће ближа запажањима, тако да би само дељење са n потценило варијабилност.

Стандардна девијација просечне висине за одрасле мушкарце

Ако је популација од интереса приближно нормално распоређена, стандардна девијација даје информације о пропорцији запажања изнад или испод одређених вредности. На пример, просечна висина одраслих мушкараца у Сједињеним Државама је око 70 инча (177,8 cm), са стандардном девијацијом од око 3 инча (7,62 cm). То значи да већина мушкараца (око 68%, под претпоставком нормалне дистрибуције) има висину унутар 3 инча (7,62 cm) од средње вредности (67–73 инча (170,18–185,42 cm)) – једна стандардна девијација – и скоро сви мушкарци (око 95%) има висину унутар 6 инча (15,24 cm) од средње вредности (64–76 инча (162,56–193,04 cm)) – две стандардне девијације. Ако је стандардна девијација нула, онда би сви мушкарци били високи тачно 70 инча (177,8 cm). Ако би стандардна девијација била 20 инча (50,8 cm), онда би мушкарци имали много варијабилнију висину, са типичним распоном од око 50–90 инча (127–228,6 cm). Три стандардне девијације чине 99,7% популације узорка која се проучава, под претпоставком да је дистрибуција нормална или у облику звона (погледајте правило 68-95-99,7 или емпиријско правило за више информација).

Дефиниција популационих вредности

Нека је μ очекивана вредност (просек) случајне променљиве X са густином f(x): $\mu \equiv \operatorname {E} [X]=\int _{-\infty }^{+\infty }xf(x)\,dx$

Стандардна девијација σ од X је дефинисана као $\sigma \equiv {\sqrt {\operatorname {E} \left[(X-\mu )^{2}\right]}}={\sqrt {\int _{-\infty }^{+\infty }(x-\mu )^{2}f(x)\,dx}},$ што се може показати једнаким са ${\textstyle {\sqrt {\operatorname {E} \left[X^{2}\right]-(\operatorname {E} [X])^{2}}}.}$

Користећи речи, стандардна девијација је квадратни корен варијансе од X.

Стандардна девијација дистрибуције вероватноће је иста као и случајна променљива која има ту дистрибуцију.

Немају све случајне променљиве стандардну девијацију. Ако дистрибуција има велике репове који иду до бесконачности, могуће је да стандардна девијација не постоји, јер интеграл можда неће конвергирати. Нормална дистрибуција има репове који иду у бесконачност, али њена средња вредност и стандардна девијација постоје, јер се репови довољно брзо смањују. Парето расподела са параметром $\alpha \in (1,2]$ има средњу вредност, али не и стандардну девијацију (слободно говорећи, стандардна девијација је бесконачна). Кошијева расподела нема средњу вредност, ни стандардну девијацију.

Дискретна случајна променљива

У случају када X поприма случајне вредности из коначног скупа података x₁, x₂, …, x_N, при чему свака вредност има исту вероватноћу, стандардна девијација је

$\sigma ={\sqrt {{\frac {1}{N}}\left[(x_{1}-\mu )^{2}+(x_{2}-\mu )^{2}+\cdots +(x_{N}-\mu )^{2}\right]}},{\text{ where }}\mu ={\frac {1}{N}}(x_{1}+\cdots +x_{N}),$

или, користећи запис сумирања,

$\sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}},{\text{ where }}\mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}.$

Ако, уместо да имају једнаке вероватноће, вредности имају различите вероватноће, нека x₁ има вероватноћу p₁, x₂ има вероватноћу p₂, …, x_N има вероватноћу p_N. У овом случају, стандардна девијација ће бити

$\sigma ={\sqrt {\sum _{i=1}^{N}p_{i}(x_{i}-\mu )^{2}}},{\text{ where }}\mu =\sum _{i=1}^{N}p_{i}x_{i}.$

Континуирана случајна променљива

Стандардна девијација континуиране случајне променљиве X реалне вредности са функцијом густине вероватноће p(x) је $\sigma ={\sqrt {\int _{\mathbf {X} }(x-\mu )^{2}\,p(x)\,dx}},{\text{ where }}\mu =\int _{\mathbf {X} }x\,p(x)\,dx,$

и где су интеграли дефинитивни у односу на x у распону преко скупа могућих вредности случајне променљиве X.

У случају параметарске породице дистрибуција, стандардна девијација се може изразити у смислу параметара. На пример, у случају лог-нормалне дистрибуције са параметрима μ и σ², стандардна девијација је

${\sqrt {\left(e^{\sigma ^{2}}-1\right)e^{2\mu +\sigma ^{2}}}}.$

Види још

Референце

^ Bland, J.M.; Altman, D.G. (1996). „Statistics notes: measurement error”. BMJ. 312 (7047): 1654. PMC 2351401 . PMID 8664723. doi:10.1136/bmj.312.7047.1654.
^ Gauss, Carl Friedrich (1816). „Bestimmung der Genauigkeit der Beobachtungen”. Zeitschrift für Astronomie und Verwandte Wissenschaften. 1: 187—197.
^ Walker, Helen (1931). Studies in the History of the Statistical Method. Baltimore, MD: Williams & Wilkins Co. стр. 24—25.
^ Weisstein, Eric W. „Bessel's Correction”. MathWorld.
^ „Standard Deviation Formulas”. www.mathsisfun.com. Приступљено 21. 8. 2020.

Литература

Edwards, A.W.F (2002). Pascal's arithmetical triangle: the story of a mathematical idea (2nd изд.). JHU Press. ISBN 0-8018-6946-3.
Huygens, Christiaan (1657). De ratiociniis in ludo aleæ (English translation, published in 1714).
Blitzstein, Joe; Hwang, Jessica (2014). Introduction to Probability. CRC Press. ISBN 9781466575592.
Fristedt, Bert; Gray, Lawrence (1996). A modern approach to probability theory. Boston: Birkhäuser. ISBN 3-7643-3807-5.
Kallenberg, Olav (1986). Random Measures (4th изд.). Berlin: Akademie Verlag. ISBN 0-12-394960-2. MR 0854102.
Kallenberg, Olav (2001). Foundations of Modern Probability (2nd изд.). Berlin: Springer Verlag. ISBN 0-387-95313-2.
Papoulis, Athanasios (1965). Probability, Random Variables, and Stochastic Processes (9th изд.). Tokyo: McGraw–Hill. ISBN 0-07-119981-0.
Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd изд.). New York: Freeman. ISBN 978-0-7167-4773-4. Архивирано из оригинала 2005-02-09. г.
„Random Variables”. www.stat.yale.edu. Приступљено 2020-08-21.
Dekking, Frederik Michel; Kraaikamp, Cornelis; Lopuhaä, Hendrik Paul; Meester, Ludolf Erwin (2005). „A Modern Introduction to Probability and Statistics”. Springer Texts in Statistics (на језику: енглески). ISBN 978-1-85233-896-1. ISSN 1431-875X. doi:10.1007/1-84628-168-7.
L. Castañeda; V. Arunachalam; S. Dharmaraja (2012). Introduction to Probability and Stochastic Processes with Applications. Wiley. стр. 67. ISBN 9781118344941.
Bertsekas, Dimitri P. (2002). Introduction to Probability. Tsitsiklis, John N., Τσιτσικλής, Γιάννης Ν. Belmont, Mass.: Athena Scientific. ISBN 188652940X. OCLC 51441829.

Спољашње везе

Hazewinkel Michiel, ур. (2001). „Quadratic deviation”. Encyclopaedia of Mathematics. Springer. ISBN 978-1556080104.
"Standard Deviation Calculator"
Lawler, Greg. „Notes on Probability” (PDF). University of Chicago. Архивирано из оригинала (PDF) 25. 10. 2021. г. Приступљено 24. 10. 2021.

[StatNotes-1] Bland, J.M.; Altman, D.G. (1996). „Statistics notes: measurement error”. BMJ. 312 (7047): 1654. PMC 2351401 . PMID 8664723. doi:10.1136/bmj.312.7047.1654.

[2] Gauss, Carl Friedrich (1816). „Bestimmung der Genauigkeit der Beobachtungen”. Zeitschrift für Astronomie und Verwandte Wissenschaften. 1: 187—197.

[3] Walker, Helen (1931). Studies in the History of the Statistical Method. Baltimore, MD: Williams & Wilkins Co. стр. 24—25.

[4] Weisstein, Eric W. „Bessel's Correction”. MathWorld.

[5] „Standard Deviation Formulas”. www.mathsisfun.com. Приступљено 21. 8. 2020.

[1]

[2]

[3]

[4]

[5]