Desambiguació lèxica

La desambiguació lèxica, anomenada en anglès part-of-speech tagging, consisteix a obtindre la categoria gramatical de cadascuna de les paraules que formen un text, eliminant l'ambigüitat que puguen tindre determinades paraules (al poder pertànyer a més d'una categoria gramatical). A l'hora d'assignar una categoria gramatical a una paraula podem fer-ho bansant-nos únicament en eixa paraula, o utilitzant informació del context (depenent del mètode, emprarem la informació de les paraules veïnes o de tota la frase, paràgraf o text).

Introducció[modifica]

En diverses tasques del processament del llenguatge natural, com per exemple la traducció automàtica, aquesta desambiguació és necessària perquè moltes paraules poden estar, a priori, en diverses categories gramaticals. Com a exemple, casa pot ser un substantiu (habitatge) o també la primera o tercera persona del singular del present d'indicatiu del verb casar. Per tant, substantiu o verb.

És per això que no és suficient amb tindre una correspondència entre les paraules i la seva categoria gramatical, ja que per resoldre les ambigüitats lèxiques categorials que es presenten en un text es necessita l'estudi del context d'eixes paraules.

Mètodes de desambiguació lèxica[modifica]

Com en la majoria d'ocasions en el PLN, existeixen dues aproximacions per resoldre el problema de l'ambigüitat categorial lèxica: una basada en regles i una altra basada en corpus (anotats o no), que utilitzen sistemes d'aprenentatge automàtic.

Basats en corpus[modifica]

Aquest tipus de mètodes necessiten dades per aprendre i generar així un model. S'utilitzen diversos algorismes per aconseguir-ho, però el més utilitzat és el Model ocult de Markov (MOM, o HMM per les seves sigles en anglès - Hidden Markov Model).

Models ocults de Markov[modifica]

Per entrenar el model, es necessiten corpus marcats amb les categories de cadascuna de les paraules.

Aquesta tècnica ens permet obtenir la seqüència d'etiquetats lèxics més probables a partir d'una frase d'entrada. Els HMM tenen la propietat de què la transició a partir d'un estat només depèn d'eixe estat: el passat o la història no intervé per a res. Tot i això, existeixen modificacions a l'algorisme que permeten tindre en compte una determinada longitud de la història (dos, tres o fins i tot més paraules).

Model de finestra lliscant[modifica]

Existeixen altres aproximacions, que no necessiten corpus anotat prèviament, com el model de finestra lliscant.^[1]

Referències[modifica]

↑ Sanchez-Villamil, Enrique; Forcada, Mikel L.; C. Carrasco, Rafael «Unsupervised Training of a Finite-State Sliding-Window Part-of-Speech Tagger». Lecture Notes in Computer Science, 3230, 2004, pàg. 454-463. DOI: 10.1007/978-3-540-30228-5_40.

Vegeu també[modifica]

[1] Sanchez-Villamil, Enrique; Forcada, Mikel L.; C. Carrasco, Rafael «Unsupervised Training of a Finite-State Sliding-Window Part-of-Speech Tagger». Lecture Notes in Computer Science, 3230, 2004, pàg. 454-463. DOI: 10.1007/978-3-540-30228-5_40.

[1]