Processament de llenguatge natural

De Viquipèdia
Dreceres ràpides: navegació, cerca

El Processament del llenguatge natural (PLN o NLP del seu nom en anglés, Natural Language Processing) és la disciplina informàtica que s'encarrega de tractar computacionalment les llengües naturals, o llenguatges humans.

El PLN va néixer a finals de la dècada dels 40, però els intents de fer traducció automàtica entre anglès i rus (per part els Estats Units, degut a la Guerra Freda) no van tindre èxit, ja que s'utilitzaven models lingüístics molt simples, i la potència dels ordinadors era molt escassa. Durant les dècades dels seixanta i setanta, amb objectius més humils, s'aconseguiren importants avenços en la implementació d'interfícies d'accés a dades en llenguatge natural. Ja a partir dels anys vuitanta, gràcies a la potència en augment dels ordinadors, així com en l'adopció de teories lingüístiques més complexes, s'estan aconseguint resultats importants en diverses àrees, com pot ser la traducció automàtica.

Principals aplicacions del PLN[modifica | modifica el codi]

Les principals aplicacions o àrees de treball del PLN en l'actualitat són les següents:

Tasques del PLN[modifica | modifica el codi]

Generalment, el PLN tracta les següents tasques per tal d'aconseguir els seus objectius:

  • Anàlisi lèxica
    • Categories gramaticals i sentits de les paraules
  • Anàlisi morfològica
    • Gènere, nombre, persona, sufixos, prefixos, etc.
  • Anàlisi sintàctica
    • Ordre de les paraules, funcions de les paraules dins les oracions, connexió entre oracions, etc.
  • Interpretació semàntica
    • Forma lògica, independent del context i de l'idioma.

Aquestes són les tasques genèriques que aborda el PLN, encara que la majoria de les aplicacions llistades anteriorment se centren en algunes d'elles i no les tracten totes amb profunditat.

L'ambigüitat, el problema del PLN[modifica | modifica el codi]

Els llenguatges humans són tots ambigus. Aquesta ambigüitat, que els humans sabem tractar i resoldre de forma inconscient la majoria de vegades, es presenta de distintes maneres.

  • A nivell lèxic, ja que una paraula pot tenir distints significats. Trobem dins d'aquesta ambigüitat la lèxica pura, que es dona en casos de polisèmia (una paraula amb més d'un significat) i, segons alguns autors, l'ambigüitat lèxica categorial (homonímies - paraules distintes que s'escriuen igual).
  • A nivell referencial, la resolució d'anàfores, que implica determinar a quina entitat de les que s'han anomenat prèviament en el discurs es referència mitjançant pronoms, oracions subordinades, etc. Alguns autors consideren aquest tipus d'ambigüitat una ambigüitat lèxica, mentre que altres la consideren una classe d'ambigüitat diferenciada, a un nivell superior.
  • A nivell estructural, quan una mateixa frase pot tindre dos arbres d'anàlisi sintàctica diferents. Alguns autors inclouen en aquesta classe (o almenys com a ambigüitat mixta lèxica-estructural) les homonímies.
  • A nivell pragmàtic, ja que moltes vegades una frase no vol dir allò que sembla estar dient. Metàfores, ironies, etc. afecten la interpretació del discurs.

Per poder treballar amb llenguatges naturals, el PLN ha de resoldre totes aquestes ambigüitats, recorrent moltes vegades a una representació interna que elimini aquesta ambigüitat.

Vegeu també[modifica | modifica el codi]