Criteri d'informació bayesià
En estadística, el criteri d'informació bayesià (BIC) o criteri d'informació de Schwarz (també SIC, SBC, SBIC) és un criteri per a la selecció de models entre un conjunt finit de models; En general, es prefereixen models amb un BIC més baix. Es basa, en part, en la funció de versemblança i està estretament relacionat amb el criteri d'informació d'Akaike (AIC).[1]
Quan s'ajusten models, és possible augmentar la màxima probabilitat afegint paràmetres, però fer-ho pot provocar un sobreajustament. Tant BIC com AIC intenten resoldre aquest problema introduint un terme de penalització per al nombre de paràmetres del model; el termini de penalització és més gran en BIC que en AIC per a mides de mostres superiors a 7.[2]
El BIC va ser desenvolupat per Gideon E. Schwarz i publicat en un article de 1978, on va donar un argument bayesià per adoptar-lo.
Definició
[modifica]El BIC es defineix formalment com [3]
on
- = el valor maximitzat de la funció de versemblança del model , és a dir , on són els valors dels paràmetres que maximitzen la funció de versemblança;
- = les dades observades;
- = el nombre de punts de dades a , el nombre d'observacions, o equivalentment, la mida de la mostra;
- = el nombre de paràmetres estimats pel model. Per exemple, en la regressió lineal múltiple, els paràmetres estimats són la intercepció, el paràmetres de pendent, i la variància constant dels errors; així, .
Ús
[modifica]En triar entre diversos models, generalment es prefereixen els amb valors BIC més baixos. El BIC és una funció creixent de la variància de l'error σe2 i una funció creixent de k. És a dir, la variació inexplicada de la variable dependent i el nombre de variables explicatives augmenten el valor de BIC. Tanmateix, un BIC més baix no indica necessàriament que un model sigui millor que un altre. Com que implica aproximacions, el BIC és només una heurística. En particular, les diferències en BIC mai s'han de tractar com a factors Bayes transformats.
És important tenir en compte que el BIC només es pot utilitzar per comparar models estimats quan els valors numèrics de la variable dependent són idèntics per a tots els models que es comparen. Els models que s'estan comparant no necessiten ser imbricats, a diferència del cas quan es comparen models mitjançant una prova F o una prova de relació de versemblança.[4]
Propietats
[modifica]- El BIC penalitza generalment els paràmetres lliures amb més força que el criteri d'informació d'Akaike, tot i que depèn de la mida de n i de la magnitud relativa de n i k.
- És independent del prior.
- Pot mesurar l'eficiència del model parametritzat en termes de predicció de les dades.
- Penalitza la complexitat del model on la complexitat es refereix al nombre de paràmetres del model.
- És aproximadament igual al criteri de longitud mínima de descripció però amb signe negatiu.
- Es pot utilitzar per triar el nombre de clústers segons la complexitat intrínseca present en un conjunt de dades particular.
- Està estretament relacionat amb altres criteris de probabilitat penalitzats com el criteri d'informació de la desviació i el criteri d'informació d'Akaike.
Referències
[modifica]- ↑ «Bayesian Information Criterion - an overview | ScienceDirect Topics» (en anglès). [Consulta: 11 febrer 2024].
- ↑ «Bayesian Information Criterion (BIC) / Schwarz Criterion» (en anglès). [Consulta: 11 febrer 2024].
- ↑ Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn «Còpia arxivada». Statistica Neerlandica, 66, 3, 2012, pàg. 217–236. Arxivat de l'original el 2020-07-26. DOI: 10.1111/j.1467-9574.2012.00530.x [Consulta: 11 febrer 2024].
- ↑ Clyde, Merlise; Çetinkaya-Rundel, Mine; Rundel, Colin; Banks, David; Chai, Christine. Chapter 7 Bayesian Model Choice | An Introduction to Bayesian Thinking.