Principi de màxima entropia

De la Viquipèdia, l'enciclopèdia lliure

El principi d'entropia màxima estableix que la distribució de probabilitat que millor representa l'estat actual del coneixement sobre un sistema és la que té més entropia, en el context de dades anteriors indicades amb precisió (com ara una proposició que expressa informació comprovable).

Una altra manera d'afirmar-ho: agafeu dades anteriors o informació provable sobre una funció de distribució de probabilitat. Considereu el conjunt de totes les distribucions de probabilitat de prova que codificarien les dades anteriors. Segons aquest principi, la distribució amb entropia d'informació màxima és la millor opció.

Història[modifica]

El principi va ser exposat per primera vegada per ET Jaynes en dos articles el 1957 [1][2] on va posar èmfasi en una correspondència natural entre la mecànica estadística i la teoria de la informació. En particular, Jaynes va oferir una nova i molt general justificació per què funciona el mètode Gibbsian de la mecànica estadística. Va argumentar que l'entropia de la mecànica estadística i l'entropia de la informació de la teoria de la informació són bàsicament la mateixa cosa. En conseqüència, la mecànica estadística hauria de ser vista com una aplicació particular d'una eina general d' inferència lògica i teoria de la informació.

Visió general[modifica]

En la majoria dels casos pràctics, les dades prèvies declarades o la informació comprovable ve donada per un conjunt de magnituds conservades (valors mitjans d'algunes funcions de moment), associades a la distribució de probabilitat en qüestió. Aquesta és la manera com s'utilitza més sovint el principi d'entropia màxima en termodinàmica estadística. Una altra possibilitat és prescriure algunes simetries de la distribució de probabilitat. L'equivalència entre les quantitats conservades i els grups de simetria corresponents implica una equivalència similar per a aquestes dues maneres d'especificar la informació comprovable en el mètode d'entropia màxima.

El principi d'entropia màxima també és necessari per garantir la singularitat i la coherència de les assignacions de probabilitat obtingudes per diferents mètodes, la mecànica estadística i la inferència lògica en particular.

El principi d'entropia màxima fa explícita la nostra llibertat d'utilitzar diferents formes de dades prèvies. Com a cas especial, es pot adoptar una densitat de probabilitat prèvia uniforme (principi d'indiferència de Laplace, de vegades anomenat principi de raó insuficient). Així, el principi d'entropia màxima no és només una forma alternativa de veure els mètodes habituals d'inferència de l'estadística clàssica, sinó que representa una generalització conceptual significativa d'aquests mètodes.

Tanmateix, aquestes afirmacions no impliquen que els sistemes termodinàmics no hagin de demostrar-se com a ergòdics per justificar el tractament com a conjunt estadístic.

En llenguatge ordinari, es pot dir que el principi de màxima entropia expressa una reivindicació de modèstia epistèmica o de màxima ignorància. La distribució seleccionada és la que menys pretén estar informada més enllà de les dades prèvies indicades, és a dir, la que admet més desconeixement més enllà de les dades prèvies indicades.

Informació comprovable[modifica]

El principi de màxima entropia és útil explícitament només quan s'aplica a la informació comprovable. La informació comprovable és una afirmació sobre una distribució de probabilitat la veritat o la falsedat de la qual està ben definida. Per exemple, les declaracions

l'expectativa de la variable és 2,87

i

(on i són probabilitats d'esdeveniments) són enunciats d'informació comprovable.

Donada la informació comprovable, el procediment d'entropia màxima consisteix a buscar la distribució de probabilitat que maximitzi l'entropia de la informació, subjecta a les restriccions de la informació. Aquest problema d'optimització restringida normalment es resol mitjançant el mètode dels multiplicadors de Lagrange.[3]

La maximització de l'entropia sense informació comprovable respecta la "restricció" universal que la suma de les probabilitats és una. Sota aquesta restricció, la distribució de probabilitat discreta d'entropia màxima és la distribució uniforme,

Aplicacions[modifica]

El principi de màxima entropia s'aplica habitualment de dues maneres als problemes inferencials:

Probabilitats a priori[modifica]

El principi de màxima entropia s'utilitza sovint per obtenir distribucions de probabilitat prèvies per a la inferència bayesiana. Jaynes va ser un ferm defensor d'aquest enfocament, afirmant que la distribució màxima d'entropia representava la distribució menys informativa.[4] Una gran quantitat de literatura es dedica ara a l'obtenció de priors d'entropia màxima i enllaços amb la codificació de canals.[5][6][7][8]

Probabilitats a posteriori[modifica]

La màxima entropia és una regla d'actualització suficient per al probabilisme radical. La cinemàtica de probabilitats de Richard Jeffrey és un cas especial d'inferència d'entropia màxima. Tanmateix, l'entropia màxima no és una generalització de totes aquestes regles d'actualització suficients.[9]

Models d'entropia màxima[modifica]

Alternativament, sovint s'invoca el principi per a l'especificació del model: en aquest cas, s'assumeix que les dades observades són la informació comprovable. Aquests models s'utilitzen àmpliament en el processament del llenguatge natural. Un exemple d'aquest model és la regressió logística, que correspon al classificador d'entropia màxima per a observacions independents.

Estimació de la densitat de probabilitat[modifica]

Una de les principals aplicacions del principi d'entropia màxima és l' estimació de la densitat discreta i contínua.[10][11] De manera similar al suport dels estimadors de màquines vectorials, el principi d'entropia màxima pot requerir la solució d'un problema de programació quadràtica i, per tant, proporcionar un model de barreja dispersa com a estimador de densitat òptim. Un avantatge important del mètode és la seva capacitat per incorporar informació prèvia en l'estimació de la densitat.[12]

Referències[modifica]

  1. Jaynes, E. T. Physical Review, 106, 4, 1957, pàg. 620–630. Bibcode: 1957PhRv..106..620J. DOI: 10.1103/PhysRev.106.620.
  2. Jaynes, E. T. Physical Review, 108, 2, 1957, pàg. 171–190. Bibcode: 1957PhRv..108..171J. DOI: 10.1103/PhysRev.108.171.
  3. Sivia, Devinderjit. Data Analysis: A Bayesian Tutorial (en anglès). OUP Oxford, 2006-06-02. ISBN 978-0-19-154670-9. 
  4. Jaynes, E. T. (PDF or PostScript) IEEE Transactions on Systems Science and Cybernetics, 4, 3, 1968, pàg. 227–241. DOI: 10.1109/TSSC.1968.300117.
  5. Clarke, B. Journal of Econometrics, 138, 2, 2006, pàg. 405–429. DOI: 10.1016/j.jeconom.2006.05.003.
  6. Soofi, E.S. Journal of the American Statistical Association, 95, 452, 2000, pàg. 1349–1353. DOI: 10.2307/2669786. JSTOR: 2669786.
  7. Bousquet, N. Statistical Papers, 51, 3, 2008, pàg. 613–628. DOI: 10.1007/s00362-008-0149-9.
  8. Palmieri, Francesco A. N.; Ciuonzo, Domenico Information Fusion, 14, 2, 01-04-2013, pàg. 186–198. DOI: 10.1016/j.inffus.2012.01.012.
  9. Skyrms, B Theory and Decision, 22, 3, 1987, pàg. 225–46. DOI: 10.1007/BF00134086.
  10. Botev, Z. I.; Kroese, D. P. Methodology and Computing in Applied Probability, 10, 3, 2008, pàg. 435. DOI: 10.1007/s11009-007-9057-z.
  11. Botev, Z. I.; Kroese, D. P. Methodology and Computing in Applied Probability, 13, 1, 2011, pàg. 1–27. DOI: 10.1007/s11009-009-9133-7.
  12. Kesavan, H. K.. «Maximum Entropy and Minimum Cross-Entropy Principles». A: Fougère. Maximum Entropy and Bayesian Methods (en anglès), 1990, p. 419–432. DOI 10.1007/978-94-009-0683-9_29. ISBN 978-94-010-6792-8.