Factor de Bayes
El factor de Bayes és una relació de dos models estadístics competidors representats per la seva evidència, i s'utilitza per quantificar el suport d'un model sobre l'altre.[1] Els models en preguntes poden tenir un conjunt comú de paràmetres, com ara una hipòtesi nul·la i una alternativa, però això no és necessari; per exemple, també podria ser un model no lineal en comparació amb la seva aproximació lineal. El factor Bayes es pot considerar un anàleg bayesià de la prova de la proporció de versemblança, tot i que utilitza la probabilitat marginal (integrada) més que la probabilitat maximitzada. Com a tal, ambdues quantitats només coincideixen sota hipòtesis simples (per exemple, dos valors de paràmetres específics).[2] A més, a diferència de les proves de significació de la hipòtesi nul·la, els factors de Bayes donen suport a l'avaluació de l'evidència a favor d'una hipòtesi nul·la, en lloc de permetre que només es rebutgi o no es rebutgi el nul.[3]
Encara que conceptualment senzill, el càlcul del factor Bayes pot ser un repte depenent de la complexitat del model i de les hipòtesis.[4] Com que les expressions de forma tancada de la probabilitat marginal generalment no estan disponibles, s'han suggerit aproximacions numèriques basades en mostres MCMC.[5] Per a certs casos especials, es poden derivar expressions algebraiques simplificades; per exemple, la relació de densitat de Savage-Dickey en el cas d'una hipòtesi precisa (restringida per la igualtat) contra una alternativa sense restriccions.[6][7] Una altra aproximació, derivada aplicant l'aproximació de Laplace a les probabilitats integrades, es coneix com el criteri d'informació bayesià (BIC); [8] en grans conjunts de dades, el factor Bayes s'aproximarà al BIC a mesura que la influència dels priors disminueixi. En conjunts de dades petits, els priors solen importar i no han de ser impropis ja que el factor de Bayes no estarà definit si cap de les dues integrals de la seva relació no és finita.
Definició
[modifica]El factor de Bayes és la relació de dues probabilitats marginals; és a dir, les probabilitats de dos models estadístics integrats sobre les probabilitats prèvies dels seus paràmetres.[9]
La probabilitat posterior d'un model M, les dades D es donen pel teorema de Bayes:
El terme clau depenent de les dades representa la probabilitat que algunes dades es produeixin sota el supòsit del model M; avaluar-lo correctament és la clau per a la comparació de models bayesians.
Donat un problema de selecció de models en el qual es vol triar entre dos models a partir de les dades observades D, la plausibilitat dels dos models diferents M 1 i M 2, parametritzats per vectors de paràmetres del model i , s'avalua pel factor de Bayes K donat per
Quan els dos models tenen la mateixa probabilitat prèvia, de manera que , el factor de Bayes és igual a la relació de les probabilitats posteriors de M 1 i M 2. Si en comptes de la integral del factor de Bayes, s'utilitza la probabilitat corresponent a l'estimació de màxima versemblança del paràmetre per a cada model estadístic, aleshores la prova es converteix en una prova clàssica de relació de versemblança. A diferència d'una prova de relació de versemblança, aquesta comparació de models bayesià no depèn de cap conjunt únic de paràmetres, ja que s'integra sobre tots els paràmetres de cada model (respecte als respectius priors). Un avantatge de l'ús de factors Bayes és que automàticament, i de manera molt natural, inclou una penalització per incloure massa estructura del model.[10] Així protegeix contra el sobreajustament. Per als models on una versió explícita de la probabilitat no està disponible o és massa costosa per avaluar-se numèricament, el càlcul bayesià aproximat es pot utilitzar per a la selecció de models en un marc bayesià,[11] amb l'advertència que les estimacions bayesianes aproximades dels factors de Bayes sovint estan esbiaixades..[12]
Altres enfocaments són:
- tractar la comparació de models com un problema de decisió, calculant el valor o el cost esperat de cada elecció de model;
- per utilitzar la longitud mínima del missatge (MML).
- utilitzar la longitud mínima de descripció (MDL).
Referències
[modifica]- ↑ Morey, Richard D.; Romeijn, Jan-Willem; Rouder, Jeffrey N. Journal of Mathematical Psychology, 72, 2016, pàg. 6–18. DOI: 10.1016/j.jmp.2015.11.001 [Consulta: free].
- ↑ Lesaffre, Emmanuel. «Bayesian hypothesis testing». A: Bayesian Biostatistics (en anglès). Somerset: John Wiley & Sons, 2012, p. 72–78. DOI 10.1002/9781119942412.ch3. ISBN 978-0-470-01823-1.
- ↑ Ly, Alexander; Stefan, Angelika; van Doorn, Johnny; Dablander, Fabian; 1 Computational Brain & Behavior, 3, 2, 2020, pàg. 153–161. DOI: 10.1007/s42113-019-00070-x [Consulta: lliure].
- ↑ Llorente, Fernando; Martino, Luca; Delgado, David; Lopez-Santiago, Javier; 1 SIAM Review, to appear, 2023, pàg. 3–58. arXiv: 2005.08334. DOI: 10.1137/20M1310849.
- ↑ Congdon, Peter. «Estimating model probabilities or marginal likelihoods in practice». A: Applied Bayesian Modelling (en anglès). 2a edició. Wiley, 2014, p. 38–40. ISBN 978-1-119-95151-3.
- ↑ Koop, Gary. «Model Comparison: The Savage–Dickey Density Ratio». A: Bayesian Econometrics (en anglès). Somerset: John Wiley & Sons, 2003, p. 69–71. ISBN 0-470-84567-8.
- ↑ Wagenmakers, Eric-Jan; Lodewyckx, Tom; Kuriyal, Himanshu; Grasman, Raoul Cognitive Psychology, 60, 3, 2010, pàg. 158–189. DOI: 10.1016/j.cogpsych.2009.12.001. PMID: 20064637.
- ↑ Ibrahim, Joseph G. «Model Comparison». A: Bayesian Survival Analysis (en anglès). Nova York: Springer, 2001, p. 246–254 (Springer Series in Statistics). DOI 10.1007/978-1-4757-3447-8_6. ISBN 0-387-95277-2.
- ↑ Gill, Jeff. «Bayesian Hypothesis Testing and the Bayes Factor». A: Bayesian Methods : A Social and Behavioral Sciences Approach (en anglès). Chapman & Hall, 2002, p. 199–237. ISBN 1-58488-288-3.
- ↑ Robert E. Kass; Adrian E. Raftery Journal of the American Statistical Association, 90, 1995, pàg. 791. DOI: 10.2307/2291091. JSTOR: 2291091.
- ↑ Toni, T.; Stumpf, M.P.H. Bioinformatics, 26, 1, 2009, pàg. 104–10. arXiv: 0911.1705. DOI: 10.1093/bioinformatics/btp619. PMC: 2796821. PMID: 19880371.
- ↑ Robert, C.P.; J. Cornuet; J. Marin; N.S. Pillai Proceedings of the National Academy of Sciences, 108, 37, 2011, pàg. 15112–15117. Bibcode: 2011PNAS..10815112R. DOI: 10.1073/pnas.1102900108. PMC: 3174657. PMID: 21876135 [Consulta: free].