Perplexitat
En teoria de la informació, la perplexitat és una mesura d'incertesa en el valor d'una mostra d'una distribució de probabilitat discreta. Com més gran sigui la perplexitat, menys probable és que un observador pugui endevinar el valor que s'extreurà de la distribució. La perplexitat va ser introduïda originalment el 1977 en el context del reconeixement de la parla per Frederick Jelinek, Robert Leroy Mercer, Lalit R. Bahl i James K. Baker.[1]
Perplexitat d'una distribució de probabilitat
[modifica]La perplexitat PP d'una distribució de probabilitat discreta p és un concepte àmpliament utilitzat en teoria de la informació, aprenentatge automàtic i modelització estadística. Es defineix com[2]
on H ( p ) és l'entropia (en bits) de la distribució, i x recorre els esdeveniments. La base del logaritme no ha de ser 2: la perplexitat és independent de la base, sempre que l'entropia i l'exponenciació utilitzin la mateixa base. En alguns contextos, aquesta mesura també es coneix com a diversitat (d'ordre 1 veritable).
La perplexitat d'una variable aleatòria X es pot definir com la perplexitat de la distribució sobre els seus possibles valors x. Es pot considerar com una mesura d'incertesa o "sorpresa" relacionada amb els resultats.
Per a una distribució de probabilitat p on exactament k resultats tenen una probabilitat d' 1/k i tots els altres resultats tenen una probabilitat de zero, la perplexitat d'aquesta distribució és simplement k. Això és degut al fet que la distribució modela un dau de k cares just, amb cadascun dels k resultats igualment probables. En aquest context, la perplexitat k indica que hi ha tanta incertesa com la que hi hauria en llançar un dau de k cares just. Fins i tot si una variable aleatòria té més de k resultats possibles, la perplexitat encara serà k si la distribució és uniforme sobre k resultats i zero per a la resta. Per tant, una variable aleatòria amb una perplexitat de k es pot descriure com a " k -maneres perplexa", és a dir, que té el mateix nivell d'incertesa que un dau de k cares just.
La perplexitat s'utilitza de vegades com a mesura de la dificultat d'un problema de predicció. Tanmateix, generalment no és una representació directa de la probabilitat rellevant. Per exemple, si teniu dues opcions, una amb probabilitat de 0,9, les vostres possibilitats d'encertar utilitzant l'estratègia òptima són del 90 per cent. Tot i això, la perplexitat és de 2 −0,9 log² 0,9 - 0,1 log² 0,1 = 1,38. La inversa de la perplexitat, 1/1,38 = 0,72, no correspon a la probabilitat de 0,9.
La perplexitat és l'exponenciació de l'entropia, una quantitat més comuna. L'entropia mesura el nombre esperat o "mitjà" de bits necessaris per codificar el resultat de la variable aleatòria utilitzant un codi de longitud variable òptim. També es pot considerar com el guany d'informació esperat en aprendre el resultat de la variable aleatòria, proporcionant informació sobre la incertesa i la complexitat de la distribució de probabilitat subjacent.[3]
Perplexitat d'un model de probabilitat
[modifica]Es pot proposar un model d'una distribució de probabilitat desconeguda p, basat en una mostra d'entrenament que s'ha extret de p. Donat un model de probabilitat proposat q, es pot avaluar q preguntant-se com de bé prediu una mostra de prova separada x1, x2 ,... , x N també extret de p. La perplexitat del model q es defineix com
on és habitualment 2. Els millors models q de la distribució desconeguda p tendiran a assignar probabilitats q ( x i ) més altes als esdeveniments de prova. Per tant, tenen menys perplexitat perquè es sorprenen menys per la mostra de prova. Això equival a dir que els models millors tenen més probabilitats per a les dades de prova, la qual cosa porta a un valor de perplexitat més baix.
L'exponent anterior es pot considerar com el nombre mitjà de bits necessaris per representar un esdeveniment de prova x i si s'utilitza un codi òptim basat en q. Els models de baixa perplexitat fan una millor feina de compressió de la mostra de prova, requerint pocs bits per element de prova de mitjana perquè q ( x i ) tendeix a ser alt.
L'exponent també es pot interpretar com una entropia creuada:
on denota la distribució empírica de la mostra de prova (és a dir, si x apareixia n vegades a la mostra de prova de mida N ).
Segons la definició de la divergència de KL, també és igual a , que és . En conseqüència, la perplexitat es minimitza quan .[4]
Perplexitat per fitxa
[modifica]En el processament del llenguatge natural (PLN), un corpus és una col·lecció estructurada de textos o documents, i un model de llenguatge és una distribució de probabilitat sobre textos o documents sencers. En conseqüència, en PNL, la mesura més utilitzada és la perplexitat per símbol (paraula o, més freqüentment, subparaula), definida com: on són els documents del corpus i és el nombre de tokens del corpus. Això normalitza la perplexitat per la longitud del text, permetent comparacions més significatives entre diferents textos o models en lloc de documents.
Suposem que el text mitjà x i del corpus té una probabilitat de segons el model lingüístic. Això donaria una perplexitat del model de 2190 per frase. No obstant això, en PNL, és més comú normalitzar per la longitud d'un text. Per tant, si la mostra de prova té una longitud de 1.000 tokens i es pot codificar utilitzant 7,95 bits per token, es podria informar d'una perplexitat del model de 27,95 = 247 per token. En altres paraules, el model és tan confús amb les dades de prova com si hagués d'escollir uniformement i independentment entre 247 possibilitats per a cada token.
Hi ha dues mètriques d'avaluació estàndard per als models lingüístics: la perplexitat o la taxa d'error de paraules (WER). La més simple d'aquestes mesures, WER, és simplement el percentatge de paraules E (supressions, insercions, substitucions) reconegudes erròniament respecte al nombre total de paraules N, en una tasca de reconeixement de veu, és a dir, La segona mètrica, la perplexitat (per token), és una mesura teòrica de la informació que avalua la similitud del model proposat m amb la distribució original p. Es pot calcular com la inversa de la probabilitat mitjana (geomètrica) del conjunt de prova T.
on N és el nombre de fitxes del conjunt de prova T. Aquesta equació es pot veure com l'entropia creuada exponencial, on l'entropia creuada H ( p; m ) s'aproxima com
Avenços recents en la modelització del llenguatge
[modifica]Des del 2007, han sorgit avenços significatius en la modelització del llenguatge, especialment amb l'aparició de tècniques d'aprenentatge profund. La perplexitat per token, una mesura que quantifica el poder predictiu d'un model de llenguatge, ha continuat sent central per avaluar models com els models de transformadors dominants com el BERT de Google, el GPT-4 d'OpenAI i altres models de llenguatge gran (LLM).
Aquesta mesura es va emprar per comparar diferents models en el mateix conjunt de dades i guiar l'optimització dels hiperparàmetres, tot i que s'ha trobat que és sensible a factors com ara les característiques lingüístiques i la longitud de les frases.
Malgrat el seu paper fonamental en el desenvolupament de models lingüístics, la perplexitat ha mostrat limitacions, sobretot com a predictor inadequat del rendiment del reconeixement de la parla, el sobreajustament i la generalització,[5][6] cosa que planteja preguntes sobre els beneficis d'optimitzar cegament només la perplexitat.[7]
Corpus marró
[modifica]La perplexitat més baixa que s'havia publicat al Brown Corpus (1 milió de paraules d'anglès americà de diversos temes i gèneres) fins al 1992 és, de fet, d'unes 247 per paraula/token, cosa que correspon a una entropia creuada de log²⁻²⁻¹ = 7,95 bits per paraula o 1,75 bits per lletra[8] utilitzant un model de trigrama. Tot i que aquesta xifra representava l'estat de la tècnica (SOTA) en aquell moment, els avenços en tècniques com l'aprenentatge profund han comportat millores significatives en la perplexitat en altres punts de referència, com ara el punt de referència d'un milió de paraules.
En el context del Brown Corpus, simplement endevinar que la següent paraula és "the" (la/els/les) aconseguirà una precisió del 7%, en contrast amb l'1/247 = 0,4% que es podria esperar d'un ús ingenu de la perplexitat. Aquesta diferència subratlla la importància del model estadístic utilitzat i la naturalesa matisada de la perplexitat com a mesura de predictivitat. La conjectura es basa en estadístiques d'unigrames, no en les estadístiques de trigrames que van donar la perplexitat de 247, i la utilització d'estadístiques de trigrames refinaria encara més la predicció.
Referències
[modifica]- ↑ Jelinek, F.; Mercer, R. L.; Bahl, L. R.; Baker, J. K. The Journal of the Acoustical Society of America, 62, S1, 1977, p. S63. Bibcode: 1977ASAJ...62Q..63J. DOI: 10.1121/1.2016299. ISSN: 0001-4966 [Consulta: free].
- ↑ «Perplexity: a more intuitive measure of uncertainty than entropy» (en anglès), 08-10-2021. [Consulta: 17 maig 2025].
- ↑ «Two minutes NLP — Perplexity explained with simple probabilities» (en anglès). [Consulta: 17 maig 2025].
- ↑ «What is perplexity?» (en anglès). [Consulta: 17 maig 2025].
- ↑ Klakow, Dietrich; Peters, Jochen Speech Communication, 38, 1–2, 2002, p. 19–28. DOI: 10.1016/S0167-6393(01)00041-3. ISSN: 0167-6393.
- ↑ Chen, Stanley F; Beeferman, Douglas; Rosenfeld, Roni Carnegie Mellon University, 2018. DOI: 10.1184/R1/6605324.v1.
- ↑ «Perplexity in knowledge work» (en anglès). [Consulta: 17 maig 2025].
- ↑ Brown, Peter F.; etal Computational Linguistics, 18, 1, 3-1992 [Consulta: 7 febrer 2007].