Corpus lingüístic

De Viquipèdia
Dreceres ràpides: navegació, cerca

Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades.[1] En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua».[2]

Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a l'estudi d'una llengua. Val a dir que, paral·lelament al desenvolupament de les tecnologies de la informació, els corpus electrònics han esdevingut una eina fonamental per a l'obtenció d'aquestes dades, atesa la quantitat d'informació que es pot processar amb un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 milions d'ocurrències de mots. Els corpus de referència contenen un gran volum de dades lingüístiques que permeten obtenir dades representatives per analitzar qualsevol aspecte d'una llengua.

En català, destaca el Corpus Textual Informatitzat de la Llengua Catalana (CTILC) desenvolupat per l'Institut d'Estudis Catalans, amb més de 52 milions de mots i consultable en línia des del 2005. Es tracta d'un corpus diacrònic (les mostres són textos escrits entre 1833 i 1988) a partir del qual s'està desenvolupant el Diccionari Descriptiu de la Llengua Catalana.[1] Per a l'anglès Cobuild n'és un altre exemple.[3]

La subdisciplina de la lingüística que estudia la llengua a través d'aquestes mostres es diu «lingüística de corpus». Aquest tipus d'aproximació xoca amb l'enfocament generativista chomskià que tendeix a estudiar la llengua en partir de la premissa que els humans tenen un coneixement innat de la llengua, la gramàtica universal, i que el repertori d'aquests coneixements és infinit. Chomsky proposa prendre com a mostra un parlant ideal amb competència lingüística en la llengua objecte d'estudi.

Aquesta subdisciplina, donat el volum de dades que utilitza, normalment s'associa amb la lingüística computacional, segons aquesta última s'apropa a les aplicacions de Processament de llenguatge natural.

Aquesta disciplina es va iniciar el 1967 quan Henry Kucera i Nelson Francis van publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglès nord-americà d'aproximadament un milió d'ocurrències de paraules, seleccionades d'una àmplia varietat de fonts.

Aplicacions del corpus lingüístic[modifica | modifica el codi]

La utilització del corpus lingüístic des d'un punt de vista de processament informàtic, permet crear diferents productes lingüístics, com ara l'elaboració de gramàtiques o de diccionaris de tots tipus: explicatius, etimològics o històrics.

Però no sols serveix per a l'elaboració de diccionaris o gramàtiques, sinó que també té gran utilitat a l'hora de fer estudis dialectològics. Altres usos de corpus lingüístic es relacionen amb les anàlisis de textos o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.[4]

Eines informàtiques de processament de corpus lingüístics[modifica | modifica el codi]

Programa AntConc processant la informació des d'un corpus

El programa AntConc és una eina de programari lliure que funciona amb Windows i Linux. Disposa d'una interfície bastant intuïtiva que en facilita l'ús.[cal citació] Entre les seues funcions inclou:

  • Llista de paraules: el programa mostra totes les paraules dels arxius de corpus carregats ordenades segons el criteri triat: freqüència, alfabètic, alfabètic invers...
  • Concordances: visualitza paraules al context al qual apareixen, és a dir, amb les paraules que l'envolten. Es pot seleccionar i ordenar alfabèticament els resultats per la dreta o per l'esquerra.
  • Concordances gràfiques: és una ampliació de la funció anterior. Mostra en un gràfic horitzontal els segments de cada arxiu on apareix la paraula que hem buscat.
  • Clústers i n-grames: permet buscar agrupaments de paraules als corpus. Es pot determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú amb una paraula X.
  • Col·locacions: permet conéixer quina és la freqüència d'aparició de determinades paraules amb altres.
  • Keyword list: (Llista de mots-clau) permet conéixer la representativitat de les paraules d'un corpus respecte d'un altre.

Enllaços externs[modifica | modifica el codi]

Vegeu també[modifica | modifica el codi]

Referències[modifica | modifica el codi]

  1. 1,0 1,1 «corpus». L'Enciclopèdia.cat. Barcelona: Grup Enciclopèdia Catalana.
  2. «corpus.2». Gran Diccionari de la Llengua Catalana. Barcelona: Grup Enciclopèdia Catalana.
  3. Joaquim Rafel i Fontanals, Joan Soler i Bou, El processament del corpus I: la lingüística empírica. Universitat Oberta de Catalunya, Barcelona, 2010
  4. Martí Antonin, María Antonia; Alonso Martín, Juan Alberto. Les tecnologies del llenguatge. Editorial UOC, 2001. ISBN 9788484292661 [Consulta: 8 desembre 2010].