Longitud mínima del missatge

La longitud mínima del missatge (MML) és un mètode bayesià teòric de la informació per a la comparació i selecció de models estadístics.^[1] Proporciona una reafirmació formal de la teoria de la informació de la navalla d'Occam: fins i tot quan els models són iguals en la seva mesura de precisió d'ajust a les dades observades, és més probable que la que generi l' explicació més concisa de les dades sigui correcta (on l' explicació consisteix en la declaració del model, seguida de la codificació sense pèrdues de les dades utilitzant el model indicat). L'MML va ser inventat per Chris Wallace, apareixent per primera vegada al document seminal "Una mesura d'informació per a la classificació".^[2] L'MML no es pretén només com una construcció teòrica, sinó com una tècnica que es pot implementar a la pràctica.^[3] Es diferencia del concepte relacionat de la complexitat de Kolmogorov perquè no requereix l'ús d'un llenguatge complet de Turing per modelar dades.^[4]

Definició[modifica]

A Mathematical Theory of Communication (1948) de Shannon afirma que en un codi òptim, la longitud del missatge (en binari) d'un esdeveniment $E$ , $\operatorname {length} (E)$ , on $E$ té probabilitat $P(E)$ , ve donada per $\operatorname {length} (E)=-\log _{2}(P(E))$ .

El teorema de Bayes estableix que la probabilitat d'una hipòtesi (variable). $H$ donada una prova fixa $E$ és proporcional a $P(E|H)P(H)$ , que, segons la definició de probabilitat condicional, és igual a $P(H\land E)$ . Volem el model (hipòtesi) amb la probabilitat posterior més alta. Suposem que codifiquem un missatge que representa (descriu) conjuntament el model i les dades. Des de $\operatorname {length} (H\land E)=-\log _{2}(P(H\land E))$ , el model més probable tindrà el missatge més breu. El missatge es divideix en dues parts: $-\log _{2}(P(H\land E))=-\log _{2}(P(H))+-\log _{2}(P(E|H))$ . La primera part codifica el propi model. La segona part conté informació (per exemple, valors de paràmetres, o condicions inicials, etc.) que, quan es processa pel model, produeix les dades observades.

MML intercanvia de manera natural i precisa la complexitat del model per la bondat d'ajust. Un model més complicat triga més a establir-se (una primera part més llarga), però probablement s'ajusta millor a les dades (segona part més curta). Per tant, una mètrica MML no triarà un model complicat tret que aquest model es pagui per si mateix.

Característiques clau de MML[modifica]

MML es pot utilitzar per comparar models de diferents estructures. Per exemple, la seva primera aplicació va ser trobar models de barreja amb el nombre òptim de classes. Afegir classes addicionals a un model de barreja sempre permetrà ajustar les dades amb una major precisió, però d'acord amb MML això s'ha de ponderar amb els bits addicionals necessaris per codificar els paràmetres que defineixen aquestes classes.
MML és un mètode de comparació de models bayesians. Dóna a cada model una puntuació.
MML és invariant a escala i estadísticament invariant. A diferència de molts mètodes de selecció bayesians, a MML no li importa si canvieu de mesurar la longitud al volum o de les coordenades cartesianes a les coordenades polars.
MML és estadísticament consistent. Per a problemes com el problema de Neyman-Scott (1948) o l'anàlisi factorial on la quantitat de dades per paràmetre està limitada més amunt, MML pot estimar tots els paràmetres amb consistència estadística.
MML té en compte la precisió de la mesura. Utilitza la informació de Fisher (a l'aproximació de Wallace-Freeman 1987, o altres hipervolums en altres aproximacions) per discretitzar de manera òptima els paràmetres continus. Per tant, el posterior és sempre una probabilitat, no una densitat de probabilitat.
MML s'utilitza des de 1968. S'han desenvolupat esquemes de codificació MML per a diverses distribucions i molts tipus d'aprenentatge automàtic, incloent classificació no supervisada, arbres de decisió i gràfics, seqüències d'ADN, xarxes bayesianes, xarxes neuronals (només d'una capa fins ara), compressió d'imatges, segmentació d'imatges i funcions, etc.

Referències[modifica]

↑ Wallace, C. S. (Christopher S.), -2004.. Statistical and inductive inference by minimum message length (en anglès). Nova York: Springer, 2005. ISBN 9780387237954. OCLC 62889003.
↑ Wallace, C. S.; Boulton, D. M. (en anglès) The Computer Journal, 11, 2, 01-08-1968, pàg. 185–194. DOI: 10.1093/comjnl/11.2.185. ISSN: 0010-4620 [Consulta: lliure].
↑ Allison, Lloyd.. Coding Ockham's Razor. (en anglès). Springer, 2019. ISBN 978-3030094881. OCLC 1083131091.
↑ Wallace, C. S.; Dowe, D. L. (en anglès) The Computer Journal, 42, 4, 01-01-1999, pàg. 270–283. DOI: 10.1093/comjnl/42.4.270. ISSN: 0010-4620.

[1] Wallace, C. S. (Christopher S.), -2004.. Statistical and inductive inference by minimum message length (en anglès). Nova York: Springer, 2005. ISBN 9780387237954. OCLC 62889003.

[2] Wallace, C. S.; Boulton, D. M. (en anglès) The Computer Journal, 11, 2, 01-08-1968, pàg. 185–194. DOI: 10.1093/comjnl/11.2.185. ISSN: 0010-4620 [Consulta: lliure].

[3] Allison, Lloyd.. Coding Ockham's Razor. (en anglès). Springer, 2019. ISBN 978-3030094881. OCLC 1083131091.

[:02-4] Wallace, C. S.; Dowe, D. L. (en anglès) The Computer Journal, 42, 4, 01-01-1999, pàg. 270–283. DOI: 10.1093/comjnl/42.4.270. ISSN: 0010-4620.

[1]

[2]

[3]

[4]