Traducció automàtica

De Viquipèdia
Dreceres ràpides: navegació, cerca

La traducció automàtica (TA) és la traducció d'un text informatitzat (o text en suport informàtic) en la llengua de partida o llengua origen a la llengua d'arribada o llengua meta mitjançant un sistema informàtic compost d'un ordinador i d'un Programa d'ordinador especialitzat.

A nivell bàsic, la TA es limita a substituir les paraules pel seu equivalent en el llenguatge original. Utilitzant tècniques estadístiques basades en corpus (bitext format per l'original i la seva traducció), el resultat pot ser més elaborat, i permet la millor manipulació de les diferents tipologies lingüístiques, el reconeixement de frases, igual que la detecció d'anomalies.

També es pot configurar alguns programaris de traducció per àmbit o professió (per exemple àmbit meteorològic). Aquesta tècnica és especialment efectiva per a àmbits on s'utilitza llenguatge formal i fórmules lingüístiques.

Es pot millorar el resultat final amb la intervenció humana: per exemple, alguns sistemes permeten millor qualitat de sortida quan l'usuari identifica les paraules del text que són noms. La traducció amb sistemes informàtics és de gran ajuda per als traductors humans, però no els substitueix, ja que no pot produir resultats de la mateixa qualitat.

Darrerament han pres força les tècniques estadístiques basades en aproximacions interactives-predictives, on l'ordinador dona suggerències al traductor humà sobre les possibles traduccions. I accepta o modifica segons el seu criteri.

La traducció avui en dia és el principal coll d'ampolla de la societat de la informació i la seva mecanització suposa una gran avenç enfront de l'allau d'informació i la necessitat de comunicació interlingüística.

El primer desenvolupament informàtic per a la traducció de que es té constància és del 1946 amb el famós ordinador ENIAC. Entre els investigadors pioners cal destacar Warren Weaver, de la Fundació Rockefeller. El qual va donar a conèixer públicament la disciplina anticipant possibles mètodes científics per abordar-los: ús de tècniques criptogràfiques, l'aplicació del teorema de Shannon i la utilitat de l'estadística, així com la possibilitat d'aprofitar la lògica subjacent al llenguatge humà i les seves aparents propietats universals.

Actualment s'obtenen alts nivells de qualitat per a la traducció entre llengües romàniques (català, occità, aragonès, sard, castellà, francès, portuguès, etc.). Això no obstant, els resultats empitjoren com més allunyades tipològicament siguin les llengües entre elles, com és el cas de la traducció entre el català i l'anglès o l'alemany.

Tipus de traducció automàtica[modifica | modifica el codi]

Si disposem de suficient informació, les traduccions automàtiques poden funcionar bastant bé, permetent que persones amb una llengua materna determinada siguin capaces de fer-se una idea del que ha escrit una altra persona en el seu idioma. El problema està a obtenir la informació adequada per a cadascun dels mètodes de traducció.

Segons la seva aproximació, els sistemes de traducció automàtica es poden classificar en dos grans grups: els basats en regles lingüístiques per una part i els que utilitzen analogies amb un corpus textuals per l'altre.

Traducció automàtica basada en regles[modifica | modifica el codi]

Esquema que mostra la relació entre els diferents paradigmes de traducció automàtica basada en regles.

La traducció automàtica basada en regles consisteix a realitzar transformacions a partir de l'original, substituint les paraules per el seu equivalent més apropiat.

En general, en una primera fase s'analitzarà el text, normalment creant una representació simbòlica interna. Depenent de l'abstracció d'aquesta representació també podem trobar diferents graus: des de directes, que bàsicament fan traduccions paraula per paraula, fins a interlingua (llenguatge intermedi), que utilitza una representació intermèdia completa.

Transferència[modifica | modifica el codi]

En la traducció per transferència, l'anàlisi de l'original juga un paper més important, i dóna pas a una representació interna que és la que s'utilitza com a enllaç per a traduir entre idiomes diferents.

Llenguatge intermedi (Interlingua)[modifica | modifica el codi]

La traducció automàtica a partir d'un llenguatge intermedi és un cas particular de la traducció automàtica basada en regles. El llenguatge original és transformat en un llenguatge intermedi, l'estructura del qual és independent a la del llenguatge original i a la del llenguatge final. El text final s'obté a partir de la representació del text en el llenguatge intermedi.

Traducció automàtica basada en corpus[modifica | modifica el codi]

La traducció automàtica a partir d'analogies amb un corpus lingüístic es basa en l'anàlisi de mostres reals amb les seves respectives traduccions. Entre els mecanismes que utilitzen corpus s'inclouen els mètodes estadístics i els basats en exemples.

Estadística[modifica | modifica el codi]

L'objectiu de la traducció automàtica és generar traduccions a partir de mètodes estadístics basats en corpus de textos bilingües, com per exemple les actes del parlament europeu, que estan traduïdes en tots els idiomes oficials de la Unió Europea. Si l'existència d'aquest corpus fos major, es podrien aconseguir resultats excel·lents al traduir textos d'àmbits similars.

El primer programa de traducció automàtica estadística va ser Candide, desenvolupat per IBM. Avui en dia Google utilitza SYSTRAN, però està treballant en un mètode de traducció estadística per a les seves futures traduccions automàtiques. Recentment han millorat les seves capacitats traductores afegint 200 bilions de paraules de les Nacions Unides que permeten entrenar el sistema.

Tot i l'exactitud de les traduccions, tant estadístic com altres, s'ha incrementat amb els anys, la gran quantitat de possibilitats que té una paraula de ser traduïda d'un idioma a un altre relega la traducció automàtica a un mètode que tan sols permet transmetre la idea essencial.

Basada en exemples[modifica | modifica el codi]

La traducció automàtica basada en exemples, es caracteritza per l'ús d'un corpus lingüístic com a principal font de coneixement a temps real. És essencialment una traducció per analogia i pot ser interpretada com una implementació del raonament per casos base utilitzat en l'aprenentatge automàtic, que consisteix en la resolució d'un problema basant-se en la solució de problemes similars.

Traducció automàtica basada en el context[modifica | modifica el codi]

La traducció automàtica basada en el context utilitza tècniques fonamentades en trobar la millor traducció per una paraula fixant-se en la resta de paraules que la rodejant. Bàsicament aquest mètode es basa a tractar el text en unitats d'entre 4 i 8 paraules, de manera que es tradueix cadascuna d'elles per la seva traducció a l'idioma de destí i s'eliminen les traduccions que hagin generat una frase sense sentit. Llavors es mou la finestra una posició (paraula), retraduint la majoria d'elles de nou i tornant a filtrar, deixant només les frases coherents. I finalment es concatenen els resultats de les finestres de manera que s'aconsegueixi una única traducció del text. De les possibles opcions de traducció es tria la que apareix més vegades en el corpus.

És per tant un mètode basat en idees bastant simple que ofereix molt bons resultats en comparació amb altres mètodes. Com a avantatge també afegeix la facilitat d'afegir noves llengües. Ja que només es necessita:

  • Un bon diccionari, que pot ser qualsevol versió comercial adaptada mitjançant regles gramaticals per tenir els verbs conjugats i els noms/adjectius amb les seves variacions de nombre i gènere.
  • Un corpus en la llengua destí, que es pot treure fàcilment per exemple d'Internet. Sense la necessitat de traduir cap part, com en els mètodes estadístics.

Vegeu també[modifica | modifica el codi]

Enllaços externs[modifica | modifica el codi]