Desambiguació lèxica

De Viquipèdia
Dreceres ràpides: navegació, cerca

La desambiguació lèxica, anomenada en anglès part-of-speech tagging, consisteix a obtindre la categoria gramatical de cadascuna de les paraules que formen un text, eliminant l'ambigüitat que puguen tindre determinades paraules (al poder pertànyer a més d'una categoria gramatical). A l'hora d'assignar una categoria gramatical a una paraula podem fer-ho bansant-nos únicament en eixa paraula, o utilitzant informació del context (depenent del mètode, emprarem la informació de les paraules veïnes o de tota la frase, paràgraf o text).

Introducció[modifica | modifica el codi]

En diverses tasques del processament del llenguatge natural, com per exemple la traducció automàtica, aquesta desambiguació és necessària perquè moltes paraules poden estar, a priori, en diverses categories gramaticals. Com a exemple, casa pot ser un substantiu (habitatge) o també la primera o tercera persona del singular del present d'indicatiu del verb casar. Per tant, substantiu o verb.

És per això que no és suficient amb tindre una correspondència entre les paraules i la seva categoria gramatical, ja que per resoldre les ambigüitats lèxiques categorials que es presenten en un text es necessita l'estudi del context d'eixes paraules.

Mètodes de desambiguació lèxica[modifica | modifica el codi]

Com en la majoria d'ocasions en el PLN, existeixen dues aproximacions per resoldre el problema de l'ambigüitat categorial lèxica: una basada en regles i una altra basada en corpus (anotats o no), que utilitzen sistemes d'aprenentatge automàtic.

Basats en corpus[modifica | modifica el codi]

Aquest tipus de mètodes necessiten dades per aprendre i generar així un model. S'utilitzen diversos algorismes per aconseguir-ho, però el més utilitzat és el Model ocult de Markov (MOM, o HMM per les seves sigles en anglès - Hidden Markov Model).

Models ocults de Markov[modifica | modifica el codi]

Per entrenar el model, es necessiten corpus marcats amb les categories de cadascuna de les paraules.

Aquesta tècnica ens permet obtenir la seqüència d'etiquetats lèxics més probables a partir d'una frase d'entrada. Els HMM tenen la propietat de què la transició a partir d'un estat només depèn d'eixe estat: el passat o la història no intervé per a res. Tot i això, existeixen modificacions a l'algorisme que permeten tindre en compte una determinada longitud de la història (dos, tres o fins i tot més paraules).

Model de finestra lliscant[modifica | modifica el codi]

Existeixen altres aproximacions, que no necessiten de corpus anotat prèviament, com el model de finestra lliscant[1]

Referències[modifica | modifica el codi]

  1. Unsupervised training of a finite-state sliding-window part-of-speech tagger, Enrique Sanchez-Villamil, Mikel L. Forcada i Rafael C. Carrasco

Vegeu també[modifica | modifica el codi]