Пређи на садржај

Studentov t-test

С Википедије, слободне енциклопедије


t-Test je svaki statistički test hipoteze u kome testna statistika sledi Studentovu t-distribuciju pod nultim hipotezama. t-Test se obično primenjuje kad testna statistika sledi normalnu distribuciju, ako je vrednost skalirajućeg člana u statistici testa poznata. Kada je skalirajući član nepoznat i zamenjuje ga procena na osnovu podataka, statistika testa (pod određenim uslovima) sledi studentovu t-distribuciju. Ovaj test[1] se na primer može koristiti da se utvrdi da li se srednje vrednosti dve grupe podataka značajno razlikuju jedna od druge.

Vilijam Sili Goset, koji je razvio „t-statistiku” i objavio je pod pseudonimom „Student”.

Vilijam Sili Goset je uveo t-statistiku 1908. godine, dok je kao hemičar radio za Ginisovu pivaru u Dablinu, Irska. „Student” je bio njegov književni pseudonim.[2][3][4][5]

Goset je bio zaposlen zahvaljujući politici Kloda Ginisa da regrutuje najbolje diplomirane studente iz Oksforda i Kembridža da bi primenjivali biohemiju i statistiku na Ginisove industrijske procese.[3] Goset je osmislio t-test kao ekonomičan način praćenja kvaliteta stauta. Rad o t-testu je bio podnet i prihvaćen u časopisu Biometrika i objavljen je 1908. godine.[6] Politika kompanije Ginis zabranjivala je njenim hemičarima da objavljuju svoja otkrića, pa je Goset objavio svoj statistički rad pod pseudonimom „Student”.

Ginis je imao politiku dopuštanja tehničkom osoblju da odlazi na studije (tzv. „studijsko odsustvo”), koju je Goset koristio tokom prva dva semestra akademske godine 1906–1907 u Biometrijskoj laboratoriji profesora Karla Pirsona na Univerzitetskom koledžu u Londonu.[7] Gosetov identitet tada je bio poznat njegovim kolegama statističarima i glavnom uredniku Karlu Pirsonu.[8]

Neki od najčešće korištenih t-testova su:

  • Lokacioni test jednog uzorka da li srednja vrednost populacije ima vrednost navedenu nultom hipotezom.
  • Lokacioni test dva uzorka sa nultom hipotezom prema kojoj su srednje vrednosti dve populacije jednake. Svi takvi testovi se obično nazivaju Studentovim t-testovima, mada bi strogo govoreći to ime trebalo da se upotrebljava samo kad su varijanse dve populacije jednake; oblik testa koji se koristi kada se ta pretpostavka odbaci ponekad se naziva i Velčov t-test. Ovi testovi se često nazivaju t-testovima „neuparenih” ili „nezavisnih uzoraka”, jer se tipično primenjuju kada se statističke jedinice dva ishodišna uzorka koji se upoređuju ne preklapaju.[9]

Većina testnih statistika ima formu t = Z/s, gde su Z i s funkcije podataka. Z može da bude senzitivno na alternativnu hipotezu (tj. njegova magnituda ima tendenciju da bude veća kada je alternativna hipoteza tačna), dok je s parametar skaliranja koji omogućava da se utvrdi distribucija od t. Na primer, u t-testu sa jednim uzorkom

gde je X srednja vrednost uzorka X1, X2, …, Xn, veličine n, s je standardna greška srednje vrednosti, je procena standardne devijacije populacije, i μ je srednja vrednost populacije.

Pretpostavke na kojima se temelji t-test u njegovom najjednostavnijem obliku su

  • X sledi normalnu distribuciju sa srednjom vrednosti μ i varijansom σ2/n
  • s2 sledi χ2 distribuciju sa n − 1 stepeni slobode. Ova pretpostavka je ispunjena kada opservacije korištene za procenu s2 potiču iz normalne distribucije (i nezavisnih i identično distribuiranih randomnih promenljivih za svaku grupu).
  • Z i s su nezavisni.

U t-testu kojim se porede srednje vrednosti dve nezavisne promenljive, sledeće pretpostavke trebaju da budu zadovoljene:

  • Srednja vrednost dve upoređene populacije treba da sledi normalnu distribuciju. Pod slabim pretpostavkama u velikim uzorcima, ovo proizilazi iz centralne granične teoreme.[10]
  • Ako se koristi Studentova originalna definicija t-testa, dve populacije koje se upoređuju treba da imaju istu varijansu (na njih su primenljivi i F-test, Leveneov test, Bartletov test ili Braun-Forsajtov test, ili se grafički mogu procenjivati korišćenjem Q–Q grafa). Ako su veličine dve grupe uzoraka koje se upoređuju jednake, Studentov originalni t-test je visoko robustan u pogledu nejednakih varijansi.[11] Velčov t-test je neosetljiv na jednakost varijansi bez obzira da li su veličine uzorka slične.
  • Podaci korišteni za obavljanje testa treba da budu uzorkovani nezavisno od dve populacije koja se upoređuju. To se generalno ne može ispitati iz podataka, ali ako je poznato da podaci zavise od uzorkovanja (to jest, ako su uzorkovani u klasterima), tada klasični t-testovi koji se ovde razmatraju mogu da daju pogrešne rezultate.

Većina t-testova sa dva uzorka je robusna za sve slučajeve, izuzev velikih odstupanja od pretpostavki.[12]

Radi tačnosti, t-test i Z-test zahtevaju normalnost srednjih vrednosti uzorka, a t-test dodatno zahteva da varijansa uzorka sledi skaliranu χ2 raspodelu, i da srednje vrednosti i varijance uzoraka budu statistički nezavisne. Normalnost pojedinačnih vrednosti podataka nije neophodna, ako su ovi uslovi zadovoljeni. Prema centralnoj graničnoj teoremi, srednje vrednosti umereno velikih uzoraka su obično dobra aproksimacija normalne distribucije, čak i ako podaci nisu normalno distribuirani. Za takve podatke, distribucija varijanse uzorka može značajno da odstupa od χ2 distribucije. Međutim, ako je veličina uzorka velika, iz teoreme Sluckog sledi da raspodela varijanse uzorka ima malo uticaja na distribuciju testne statistike.

  1. ^ „rice purity test”. The American Statistician. 1980. 
  2. ^ Mankiewicz, Richard (2004). The Story of Mathematics (Paperback изд.). Princeton, NJ: Princeton University Press. стр. 158. ISBN 9780691120461. 
  3. ^ а б O'Connor, John J.; Robertson, Edmund F. „William Sealy Gosset”. MacTutor History of Mathematics archive. University of St Andrews. 
  4. ^ Fisher Box, Joan (1987). „Guinness, Gosset, Fisher, and Small Samples”. Statistical Science. 2 (1): 45—52. JSTOR 2245613. doi:10.1214/ss/1177013437. 
  5. ^ „Архивирана копија” (PDF). Архивирано из оригинала (PDF) 16. 05. 2017. г. Приступљено 16. 08. 2019. 
  6. ^ „The Probable Error of a Mean” (PDF). Biometrika. 6 (1): 1—25. 1908. doi:10.1093/biomet/6.1.1. Приступљено 24. 7. 2016. 
  7. ^ Raju, T. N. (2005). „William Sealy Gosset and William A. Silverman: Two "students" of science”. Pediatrics. 116 (3): 732—5. PMID 16140715. doi:10.1542/peds.2005-1134. 
  8. ^ Dodge, Yadolah (2008). The Concise Encyclopedia of Statistics. Springer Science & Business Media. стр. 234—235. ISBN 978-0-387-31742-7. 
  9. ^ Fadem, Barbara (2008). High-Yield Behavioral Science. High-Yield Series. Hagerstown, MD: Lippincott Williams & Wilkins. ISBN 0-7817-8258-9. 
  10. ^ Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (maj 2002). „The Importance of the Normality Assumption in Large Public Health Data Sets”. Annual Review of Public Health. 23 (1): 151—169. ISSN 0163-7525. doi:10.1146/annurev.publhealth.23.100901.140546. 
  11. ^ Markowski, Carol A.; Markowski, Edward P. (1990). „Conditions for the Effectiveness of a Preliminary Test of Variance”. The American Statistician. 44 (4): 322—326. JSTOR 2684360. doi:10.2307/2684360. 
  12. ^ Bland, Martin (1995). An Introduction to Medical Statistics. Oxford University Press. стр. 168. ISBN 978-0-19-262428-4. 

Spoljašnje veze

[уреди | уреди извор]