METEOR (mètrica)

De la Viquipèdia, l'enciclopèdia lliure
Exemple d'alineació (a).

METEOR (mètrica per a l'avaluació de la traducció amb l'ordre explícit) és una mètrica per a l'avaluació de la sortida de la traducció automàtica. La mètrica es basa en la mitjana harmònica de la precisió de l'unigrama i el record, amb una ponderació del record superior a la precisió. També té diverses característiques que no es troben en altres mètriques, com ara la concordança de derivació i sinonímia, juntament amb la concordança de paraules exactes estàndard. La mètrica es va dissenyar per solucionar alguns dels problemes que es troben a la mètrica BLEU més popular i també produir una bona correlació amb el judici humà a nivell de frase o segment. Això difereix de la mètrica BLEU en què BLEU busca correlació a nivell de corpus.[1]

Exemple d'alineació (b).

S'han presentat resultats que donen una correlació de fins a 0,964 amb el judici humà a nivell de corpus, en comparació amb l'assoliment de BLEU de 0,817 en el mateix conjunt de dades. A nivell de sentència, la màxima correlació amb el judici humà aconseguit va ser de 0,403.[2]

Algoritme[modifica]

Igual que amb BLEU, la unitat bàsica d'avaluació és l'oració, l'algoritme crea primer un alineament entre dues frases, la cadena de traducció candidata i la cadena de traducció de referència. L'alineació és un conjunt de mapes entre unigrames. Un mapeig es pot pensar com una línia entre un unigrama en una cadena i un unigrama en una altra cadena. Les restriccions són les següents; cada unigrama de la traducció del candidat s'ha de mapar a zero o un unigrama a la referència. Els mapes es seleccionen per produir una alineació tal com s'ha definit anteriorment. Si hi ha dues alineacions amb el mateix nombre de mapes, l'alineació es tria amb menys creus, és a dir, amb menys interseccions de dues mapes. De les dues alineacions mostrades, l'alineació (a) seria seleccionada en aquest punt. Les etapes s'executen de manera consecutiva i cada etapa només afegeix a l'alineació aquells unigrames que no s'han igualat en etapes anteriors. Un cop calculada l'alineació final, la puntuació es calcula de la següent manera: La precisió d'unigrama P es calcula com: [2]

On m és el nombre d'unigrames de la traducció candidata que també es troben a la traducció de referència, i és el nombre d'unigrames a la traducció del candidat. El record d'unigram R es calcula com:

On m és com a dalt, i és el nombre d'unigrames en la traducció de referència. La precisió i el record es combinen utilitzant la mitjana harmònica de la manera següent, amb el record ponderat 9 vegades més que la precisió:

Les mesures que s'han introduït fins ara només tenen en compte la congruència respecte a paraules individuals, però no respecte a segments més grans que apareixen tant a la frase de referència com a la candidata. Per tenir-ho en compte, s'utilitzen coincidències de n -gram més llargues per calcular una penalització p per l'alineació. Com més mapes hi hagi que no siguin adjacents a la referència i la frase candidata, més gran serà la sanció.[2]

Referències[modifica]

  1. «[https://www.cs.cmu.edu/~alavie/METEOR/pdf/Banerjee-Lavie-2005-METEOR.pdf METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments]» (en anglès). https://www.cs.cmu.edu.+[Consulta: 1r octubre 2023].
  2. 2,0 2,1 2,2 «METEOR | Text generation evaluation | Main NLP tasks | NLP | Data science | Computer science» (en anglès). [Consulta: 1r octubre 2023].