Tema de Viquipèdia:La taverna/Tecnicismes

Traduir articles amb el traductor de Softcatalà

15
Forat Negre (discussiócontribucions)

Com bé sabreu, la pàgina de traducció d'articles inclou una llista de traductors disponibles, entre ells el traductor de Google (que des de fa poc també utilitza dades de Meta, podeu veure'n la discussió aquí) i Apertium, entre d'altres. Tot i això, no permet la inclusió d'altres traductors, com el de Softcatalà.

Per això, he creat un codi d'usuari que permet traduir els articles amb el traductor neuronal de Softcatalà. En trobareu tota la informació aquí.

De moment està en fase de proves, i té algunes limitacions. La principal és que a diferència dels altres traductors disponibles, aquest retorna el resultat en text pla i el format s'ha de tornar a afegir manualment. També és possible que hi hagi algun altre problema, si algun programador hi vol fer un cop d'ull, li estaré molt agraït.

El codi és lliure d'ús i qui vulgui pot utilitzar-lo i proposar-ne modificacions.

També vull donar les gràcies a en @Wecoc per donar-me un cop de mà amb l'Ajax, entre altres coses.

Espero que us sigui d'utilitat!

Amadalvarez (discussiócontribucions)

Ens podries explicar una mica més per què "no permet la inclusió d'altres traductors"?. Fa poc es va afegir Elia.eus que, a més de comptar amb la traducció a/de euskera, també incorpora català.

No dic que sigui ni millor ni pitjor, ni sé en base a que està fet. Només m'ha cridat l'atenció el fet que hi hagués una limitació.

Gràcies per la proposta que fas i per la feina que comporta.

Forat Negre (discussiócontribucions)

Em referia a que no pots personalitzar tu mateix quins hi vols.

Si en un futur inclouen Softcatalà a la llista de manera oficial evidentment millor, però ho veig complicat, per això per ara he creat aquest codi i així almenys tenim l'opció. De fet, de moment no han inclòs el DeepL tot i ser sol·licitat des de fa temps, i no sé fins a quin punt està continuat el manteniment d'altres servidors com Apertium; la deriva actual fa pensar que només es volen centrar en l'ús d'eines GAFAM.

Fa temps es va crear una sol·licitud a Phabricator per incloure Softcatalà a la llista, la podeu veure aquí: T284905

També podeu veure informació sobre els MTServer actuals i els requeriments per incloure'n més aquí.

QuimGil (discussiócontribucions)

@Forat Negre moltes gràcies per la feinada.


Et recomano que comentis la creació d'aquest projecte a T284905. És una prova objectiva i mesurable de l'interès que hi ha en aquesta comunitat per a millorar el support de traduccions al català utilitzant l'API de Softcatalà. També és una bona indicació de que hi ha gent interessada en testejar el support a aquesta API.


Si l'API de Softcatalà és la millor opció disponible per al català, llavors la millor solució és que aquesta sigui l'API suportada pel Content Translator, no?

Pginer-WMF (discussiócontribucions)

Hola!

En primer lloc, moltes gràcies @Forat Negre, per línterés en l'eina de traducció i l'esforç per ampliar les seues capacitats.

Des de l'equip que treballa desenvolupant l'eina de traducció, rebem solicituts d'integrar diferents servis de traducció, i ens és de gran ajuda entendre que aporta cadascún d'aquestos per a definir les prioritats. Per example, recentment hem treballat en la integració de NLLB-200 ja que donava suport a molts idiomes que no tenien cap servei de traducció automàtica.

Si considereu que el servei de Softcatalà és de major qualitat que altres opcions, aquesta informació ens és molt útil i podem considerar una integració més directa (que permetrà aplicar estils, enllaços i altres elements que es perden en la ocnversió a text plà).

A banda de desenvolupar un client per usar el servei hem d'avaluar els termes d'ús de l'API de softcatalà i altres aspectes per a la integració. Estudiarem aquest cas en més detall, però mentre no dubteu a comentat la vostra experiència amb el servei de softcatalà.

Moltes gràcies!

Forat Negre (discussiócontribucions)

@QuimGil Hi estic d'acord, procuraré fer-hi menció.

@Pginer-WMF Gràcies per mostrar-hi interès.

Vull deixar clar que en cap cas he volgut tombar cap iniciativa prèvia d'integrar Softcatalà com a client oficial, i de fet, crec que el codi pot servir no només per indicar l'interès d'utilitzar-lo per part dels editors, sinó també com a referència per veure el funcionament de l'API a l'hora de fer-ne la integració oficial.

El que he pogut observar és que està basat en el ja integrat Apertium en molts aspectes, i això en facilita molt la integració. Els language-names són exactament els mateixos, i les funcions internes de funcionament com translateText també haurien de ser pràcticament idèntiques.

La gran diferència amb Apertium, i el motiu pel qual en el cas del català ens suposaria un gran avantatge tenir Softcatalà a la llista, és el fet de tractar-se d'un traductor neuronal nostrat amb models propis, i per tant molt més fidel en les traduccions específiques entre català i altres llengües (sense deixar els altres casos enrere), cosa que sovint és molt deficient en altres traductors.

Pallares (discussiócontribucions)

Disculpa la meva ignorància, però no acabo de veure com afegir el codi. Gràcies per la feina, a veure si puc deixar Google tr.

Forat Negre (discussiócontribucions)

Hi ha dues maneres de fer-ho, pots incrustar el codi en una pàgina d'usuari [recomanat] o bé carregar-lo externament amb Tampermonkey (una extensió de Firefox/Chrome gratuïta que permet carregar codis externs a pàgines concretes). La primera opció és la normal, mentre que la segona pot servir per fer proves sense haver de fer canvis en pàgines d'usuari.

Incrustació del codi

A Preferències - Aparença hi ha un apartat que diu "CSS/JSON/JavaScript compartit per a totes les aparences" amb un enllaç Javascript personalitzat. En clicar-lo, es crea una pàgina d'usuari "common.js". Llavors has de copiar allà el codi de dues línies descrit a l'apartat Incrustació del codi.

Nota: Normalment també es podria fer al javascript específic per la pell utilitzata "skin.js" (com ara "vector-2022.js"), però no funciona perquè la pàgina de traducció fa servir una pell personalitzada. Per altra banda, també es pot afegir a "global.js", tot i que no ho he comprovat.

Versió externa

Si no tens Tampermonkey activat, primer hauràs d'obtenir l'extensió per Chrome o Firefox. Un cop fet sortirà un botó (un requadre amb ulls) a l'extrem superior dret del navegador. En clicar-lo hi surt l'opció "Create a new script", i un cop a dins hi has de copiar primer la capçalera descrita a l'apartat versió externa i després el codi sencer a sota.

Nota: Es pot fer el mateix amb Greasemonkey o altres extensions molt similars, tot i que llavors segurament la capçalera s'haurà d'adaptar.

Pallares (discussiócontribucions)

Ja ho he instal·lat i funciona. De moment dues pegues importants: text pla (no hi ha enllaços interns, ja ho deies) i sense referències.

Forat Negre (discussiócontribucions)

Us informo que hem pujat la nova versió (1.2). Entre en @Wecoc i jo hem aconseguit que la traducció ja inclogui el format de text principal (negreta, enllaços i referències).

Encara hi ha algunes coses a corregir i és possible que encara sorgeixi algun error, però el codi ja és funcional! Gràcies per la vostra paciència. Si teniu suggerències de millora, feu-nos-ho saber.

Etiqueto els usuaris que hi han mostrat interès: @Amadalvarez @Pallares

Xavier Dengra (discussiócontribucions)

Això és fantàstic, @Forat Negre i @Wecoc! L'enhorabona! Ara només cal que l'integrin formalment i ens donin resposta al tiquet abandonat des de fa més d'un any a Phabricator…

Pallares (discussiócontribucions)

Magnífic! Ho probo el cap de setmana.

Pallares (discussiócontribucions)

Ei! Prou bé. Ho he provat també de it-->ca i de pt-->ca. Aplaudiments. Hi ha detallets. M'ho miro bé i us passo llista.

Pallares (discussiócontribucions)

@Forat Negre:, @Wecoc: Més comentaris sobre el traductor "embegut" de softcatalà. En general, les traduccions són bastant bones. No arriben al nivell del Google. En ambdós casos, cal revisar i rellegir. Específicament:

  1. no funciona de es-->ca. Personalment empreocupa poc, no ho faig servir
  1. de fr-->ca

Els paràgrafs que comencen o contenen "{{modèle:date..", "{{modèle:colonnes...","{{modèle:citation" ...", {{debut de colonne...", {{référence nécessaire...", ""{{fichier:..." no són traduïts o ho són parcialment. Dir que en alguns casos, Google també ho resol amb errors. Tampoc paràgrafs amb dates o segles (pe. {{s2-XIX|XX...). Google també ho fa malament. Un text que conté la paraula "sœur " el desmanega.

  1. de en-->ca

Els paràgrafs que contenen "{{lang-", "{{convert...", "", {{citation...", "{{quotation",....; que comencen per "*" no són traduïts o ho fa amb errors. No reconeix "õ", "á"...


No sé si són d'aquest tipus els comentaris que espereu Sinó, ja direu. Sobre el tema de la traducció de textos propiament, ja ho seguiré mirant. De moment, no he vist una cosa que em molesta bastant del google: quan no sap traduir, m'entatxona la paraula en castellà.

Forat Negre (discussiócontribucions)

Gràcies pels comentaris. El castellà està a la llista així que hauria de funcionar com els altres, però potser el codi d'idioma és incorrecte. Ho revisaré aquest vespre.

Malauradament, les plantilles de Viquipèdia no les fa del tot bé, però aquest problema és general d'aquest sistema de traduccions. Això passa per la manera com funcionen les plantilles, que pot canviar molt entre idiomes. Es podria corregir vigilant dins del text les plantilles més típiques "cas per cas" però crec que això va més enllà de l'abast d'aquest codi, i segurament valdria més la pena comentar-ho a un Phabricator a part. En el pitjor dels casos, l'única opció és fer la traducció sense les plantilles i després incloure-les manualment en una edició normal de l'article, ja fora de la pàgina de traduccions.

He detectat alguns problemes quan el paràgraf és d'un tipus diferent al convencional, per exemple quan intentes traduir la descripció d'una imatge, així que aquests pròxims dies segurament penjaré una actualització.

Resposta a «Traduir articles amb el traductor de Softcatalà»