Vés al contingut

Usuari:Adaban

De la Viquipèdia, l'enciclopèdia lliure

CUCWeb

[modifica]

El Corpus lingüístic és una col·lecció de textos preparats per a l’anàlisi lingüística. Actualment tots els corpus estan disponibles en suport electrònic.

La llengua catalana disposa de dos corpus importants, que són complementaris l’un amb l’altre: - El més representatiu de la llengua estàndard és el CTILC o Corpus Textual Informatitzat de la Llengua Catalana (creat per l’Institut d’Estudis Catalans), amb uns 52 milions de paraules extretes de textos literaris i acadèmics - El més gran (però també més sorollós), que mostra la llengua viva i el seu ús en multimèdia, és el CUCWeb o Corpus d'Ús del Català a la Web, format per 208 milions de paraules (125.000 documents), extretes de la Web. Aquest és un projecte finançat parcialment per la UPF i la Cátedra Telefonica de Produccion Multimedia, que ha habilitat una interfície per a consultes a http://www.catedratelefonica.upf.es/.

El CUCWeb permet a professionals de la llengua catalana fer estudis lingüístics i sociolingüístics, de manera que poden analitzar com s’utilitzen les paraules, quines expressions es fan servir i de quina manera s’estructuren. Inclou dues interfícies: una cerca freqüències d’ús de les paraules i l’altra pot cercar exemples de paraules de manera aïllada o bé de paraules en cadena amb determinades construccions. Les dues interfícies estan dissenyades de manera flexible, per ser utilitzades per tothom, sense necessitat de coneixements específics previs.


Enllaços:
[modifica]

Grups de treball GT-86. La llengua catalana a la Societat del Coneixement: http://www.cibersociedad.net/congres2004/grups/fitxacom_publica2.php?grup=86&id=472&idioma=ca

III Jornades sobre el català a les noves tecnologies: http://mutis.upf.es/glicom/Papers/gboleda/cucwebDEF.pdf

G. Boledai, S. Botti, B. Pobleteii, C. Castilloii, M.E. Fuenmayorii, T. Badiai, V. Lópezii iGLiCom, Departament de Traducció i Filología, iiDepartament de Tecnologia i Cátedra Telefónica de Producción Multimedia, Universitat Pompeu Fabra: http://www.chato.cl/papers/boleda04_cucweb_corpus_catalan_web.pdf