Vés al contingut

Lematització

De la Viquipèdia, l'enciclopèdia lliure

La lematització és l'acció i efecte de lematitzar, procés pel qual en un recull lexicogràfic totes les realitzacions en què es pot presentar una mateixa paraula resten associades al seu lema o forma canònica, que esdevindrà única entrada i síntesi referencial per a totes les formes possibles d'aquest mot.

El lema

[modifica]

La forma canònica o lema[1] és una de totes les formes que pot adoptar una paraula en la seva realització, amb la particularitat que ha estat escollida convencionalment per representar-la en el seu conjunt amb usos metalingüístics. Les variants d'un mateix mot es poden deure tant a fenòmens de flexió morfosintàctica com a canvis ortogràfics i, en menor mesura, semàntics. Així, per exemple, en el cas de les llengües romàniques com el català en què les categories morfològiques del substantiu, adjectiu, pronom i verb poden desenvolupar diverses formes segons la seva particular flexió, la forma no marcada que és la corresponent al masculí singular esdevé lema dels substantius, adjectius i pronoms, mentre que l'infinitiu esdevé lema de tota la conjugació verbal.[2] En el cas de llengües declinables com el llatí o el grec en què les formes nominals també presenten flexió de cas, el lema correspon a la forma declinada en cas nominatiu, masculí i singular (per bé que en les llengües clàssiques, l'enunciat però no el lema d'aquests mots també té en compte el cas genitiu singular per tal de discernir el paradigma de declinació que segueixen).[3]

Finalitat de la lematització

[modifica]

A diferència dels diccionaris basats en dades "generades ad hoc pel mateix lexicògraf" [4] en què l'autor ja realitza aquesta operació de bell antuvi, la lematització es fa imprescindible a l'hora d'elaborar obres lexicogràfiques basades en corpus textuals (és a dir, fonts extretes de la pràctica real), la nomenclatura de les quals no pretengui contenir totes les realitzacions documentades de cada paraula, sinó només les seves formes de referència metalingüística. En diccionaris lematitzats, les entrades es corresponen al lema i no pas a cada forma d'un mateix mot present al corpus textual que li ha servit de font.

La lematització en obres lexicogràfiques

[modifica]

La majoria d'obres lexicogràfiques es presenten amb una nomenclatura lematitzada. Amb tot, també hi ha ocasions en què el sentit específic d'una obra lexicogràfica especialitzada aconsellaria de no lematitzar-la, o bé de conservar-ne la capacitat de cerca individualitzada per a cada realització, tot i haver estat lematitzada. La concurrència d'aquests dos factors permetrà cerques avançades, com per exemple saber la freqüència d'ús d'una determinada forma flexional associada a un mateix lema.[5] Aquest és el cas dels diccionaris de freqüències[6] que detallen cada distinta realització documentada d'un mateix mot (com el Corpus Textual Informatitzat de la Llengua Catalana), dels diccionaris de flexió (com el Lèxic Obert Flexionat del Català), o bé dels diccionaris inversos, indicats tant per a l'estudi de les terminacions i sufixos com per aparellar mots segons la seva rima, atès que les entrades hi apareixen escrites començant per la darrera lletra i seguint aquesta successió (com el Diccionari Invers de la Llengua Catalana, basat en la nomenclatura del DIEC2). Si bé des de la lexicografia teòrica s'ha demanat repetidament que els criteris per lematitzar siguin el més uniformes possible per tal que els diccionaris guanyin en coherència interna i això faciliti als usuaris la seva cerca,[7] amb tot la vasta tipologia dels projectes lexicogràfics fa que la problemàtica i els reptes a què han de fer front els processos de lematització es diversifiqui enormement.[8][9]

Processos de lematització

[modifica]

La tasca de lematització comprèn la identificació i classificació tant de les variants morfològiques com de les ortogràfiques (i més rarament, de les semàntiques) d'un mateix mot aparegut en un corpus textual, per tal d'associar-les després a la seva forma representativa i convencional -o lema-, que és la que tindrà entrada pròpia i formarà part de l'estructura d'accés del diccionari. Amb la intenció de tractar separadament realitzacions homògrafes de dos mots diferents (com, per exemple, 'dit' com a substantiu i 'dit' com a 3a persona del singular del present d'indicatiu, o bé participi masculí singular, del verb 'dir'), caldrà efectuar una "desambiguació morfosintàctica",[4] així com vincular realitzacions ortogràficament dispars d'un mateix mot flexionat (com, per exemple, 'oca' i 'oques'). En corpus textuals d'una extensió considerable el recurs a la informàtica hi és fonamental, i la indexació lèxica i l'etiquetatge morfosintàctic són unes de les labors més habituals de què s'ocupa la lingüística computacional:"[10] A partir de tècniques basades en el processament del llenguatge natural, s'han desenvolupat sistemes per a l'etiquetatge automatitzat dels textos d'un corpus": d'una banda, els etiquetadors basats en regles, i de l'altra els etiquetadors estatístics.[11]

Bibliografia

[modifica]

Referències

[modifica]
  1. Radford, Andrew et alii (2000): Introducción a la lingüística. Sevilla, Ediciones Akal (p.327)
  2. Mascaró, Joan (2008): "Morfologia: aspectes generals". A: Joan Solà (coord): Gramàtica del català contemporani. Volum 1 Introducció. Fonètica i fonologia. Morfologia. Barcelona, Empúries (pp.467ss.)
  3. Valentí Fiol, Eduard (1995): Gramàtica llatina. Barcelona, Curial (pp.13ss)
  4. 4,0 4,1 Rafel i Fontalans, Joaquim (2005): Lexicografia. Editorial UOC (p.30)
  5. Puig Montada, Anna (2007). "Analisi de resultats extrets del diccionari de freqüències de l'Institut d'Estudis Catalans". A: Actes del tretzè Col·loqui Internacional de Llengua i Literatura Catalanes. Barcelona, Publicacions de l'Abadia de Montserrat (p.349)
  6. Rafel i Fontalans, Joaquim (1996): "Introducció". A: Joaquim Fontalans (dir.): Diccionari de freqüències. 1 Llengua no literària. Barcelona, Institud d'Estudis Catalans (pp.VII-VIII, XXVII).
  7. García Palacios, Joaquín (2002): “El artículo lexicográfico en el diccionario de especialidad”. A: I.Ahumada (ed.) Diccionarios y lenguas de especialidad. Jaén, Universitat de Jaén (pp.21-47)
  8. Gelpí, Cristina (2003): "El estado actual de la lexicografía: los nuevos diccionarios". A: A.M.Medina Guerra (coord.): Los orígenes del pluralismo jurídico. Barcelona: Ariel Lingüística (pp.307-328)
  9. Antolí Martínez, Jordi M. (2011): "Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA". A: Ítaca. Revista de Filologia (núm.2, pp.253-269)
  10. Martí Antonín, M.Antònia (2001): Lexicografia computacional. Anàlisi morfològica i lexicogràfica. Barcelona, FUOC
  11. Martí Antonín, M.Antònia (2001, coord.): Les tecnologies del llenguatge. Barcelona, FUOC (pp.46-47)