Viquipèdia:Generació d'articles amb intel·ligència artificial

Fent-ne 5 cèntims: Les noves eines d'intel·ligència artificial i disponibles en català, com ara ChatGPT, tenen ja la capacitat de generar textos d'articles indistingibles d'una redacció humana. Tanmateix, el seu ús només és acceptable com a suport de redacció, atès que no proporcionen fonts fiables citades al cos del text: sense referències externes, fiables i publicades, aquest contingut no és fiable i probablement acabarà esborrat. Sigui com sigui, si empreu una xarxa neuronal automàtica, especifiqueu-la sempre al resum d'edició com a bona pràctica.

Això és un assaig, una pàgina que conté les recomanacions o opinions d'un o més col·laboradors de la Viquipèdia. Podeu seguir-les o no, segons el vostre criteri.

Drecera: VP:IA

L'apogeu de les xarxes neuronals de generació de text automàtic han suscitat cada cop més qüestions cap als viquipedistes i dins de la mateixa comunitat. La publicació de moltes d'aquestes eines d'intel·ligència artificial, sobretot des de mitjan 2022 amb el llançament de ChatGPT, ha obert el debat sobre si són vàlides per editar la Viquipèdia i fins a quin punt la seva precisió o validesa són legítimes. Algunes preguntes que sovintegen aquest àmbit són les següents:

Reemplaçaran aquestes tecnologies els viquipedistes tal com els coneixem avui?
Hi haurà nous articles sense intervenció humana?
Quin és el límit vàlid i legítim a l'hora de fer servir aquestes eines per millorar un article o per crear-lo directament des de zero?
Com podrem distingir en el futur el contingut escrit humanament d'aquell que s'hagi generat via intel·ligència artificial?

És crític tenir en compte que el nivell dialèctic d'aquests productes tecnològics és molt notable. Si partim de la noció, per una banda, que la Viquipèdia és un projecte obert a tothom i hi participen usuaris de tota condició acadèmica, nivell educatiu, edat i suficiència lingüística; i per l'altra, que els textos generats artificialment són en domini públic, és pràcticament impossible d'atribuir un fragment de text concret a la redacció humana o al d'un model d'intel·ligència neuronal.

Així i tot, les qüestions anteriors generen una gran diversitat d'opinió, de divergència, de plantejament i de predicció del paradigma digital. I no només a la Viquipèdia en català, sinó en moltes altres versions de l'enciclopèdia lliure i també en el món acadèmic i en els mitjans especialitzats. Aquesta pàgina, escrita íntegrament per viquipedistes (humans), no té com a objectiu aprofundir en reflexions sociotecnològiques, sinó que pretén explicar de manera crítica quins són els factors que poden orientar l'ús d'aquests nous models i quines polítiques de la Viquipèdia en limiten el seu abast i per què.

Limitació bibliogràfica i usos indeguts[modifica]

Contingut no permès[modifica]

No podeu demanar a les xarxes neuronals que escriguin contingut original i trobin fonts, ja que encara no saben prou bé què és correcte i què és incorrecte. A més a més, la majoria no són funcionals ni aptes per a la recerca bibliogràfica i priorització de referències. Això, de per si, ja fa que aquest tipus de contingut posi en dubte tres de les polítiques més bàsiques de la Viquipèdia:

No compleix Viquipèdia:Citau les fonts: els continguts de l'enciclopèdia lliure necessiten estar subjectes a referències bibliogràfiques i això, els textos generats per IA, no ho fan ni encara, ni prou bé.
No compleix Viquipèdia:Verificabilitat: un projecte com la Viquipèdia no pretén mostrar una determinada veritat, sinó oferir informació rigorosa que sigui verificable en fonts externes, solvents i publicades (Viquipèdia:Fonts fiables).
No compleix Viquipèdia:Admissibilitat: hi ha biografies o conceptes —històrics, d'actualitat o d'un nínxol temàtic— que les intel·ligències artificials poden arribar tractar com a part del seu anàlisi de les dades d'internet. Tanmateix, un nou concepte a la Viquipèdia ha de complir uns requisits d'admissibilitat (llindar d'importància) que venen únicament determinats per la cobertura que les fonts fiables n'hagin fet abans. Tot i que un text generat automàticament pugui fer semblar que aquella persona o element són prou importants per ser a la Viquipèdia, sense cap font adjunta això no és suficient.

Per tant, l'ús indiscriminat, l'abocament de resultats intactes o el parafrasejat de tot un bloc de contingut creat per un generador de text d'intel·ligència artificial no és compatible amb la qualitat, la precisió, el rigor bibliogràfic o el contrast de les dades que requereix la Viquipèdia. La seva utilització en aquests termes no és permesa per la comunitat en català i són continguts susceptibles a ser esborrats com a part de Viquipèdia:No feu continguts inèdits.

Problemes bibliogràfics[modifica]

Si us decidiu de demanar fonts a ChatGPT o d'altres xarxes neuronals, feu-ho amb molta cura. El seu model neuronal probablement us respondrà amb citacions molt persuasives pel que fa a l'aspecte i estructura, però generalment no són gens vàlides. De vegades, la IA us vincularà un autor real però amb un article fictici. O, per altra banda, us llistarà un títol de llibre que podria semblar autèntic, però no ho és. Fins i tot hi ha casos en els quals tant l'autor com el títol són totalment inventats. D'altra banda, sí que és cert que hi ha autors i obres històrics de gran renom, de manera que si consulteu sobre Joanot Martorell, us hauria de citar sense cap problema Tirant lo Blanc (per bé que són els temes que la Viquipèdia ja cobreix prou bé).

Un altre dilema és el de l'autoreferenciació que aporten diversos programes d'intel·ligència artificial com ara Perplexity. Són sistemes que afirmen respondre a preguntes complexes amb l'aportació de fonts bibliogràfiques. Però allò que fan principalment és proveir d'una resposta molt superficial que cita la mateixa Viquipèdia i d'altres blogs no fiables, inexistents, que no tenen res a veure amb el concepte o que diverses versions lingüístiques de la Viquipèdia ja tenen a la seva llista negra per la seva mala qualitat o fiabilitat. És també el cas deL xat de Bing, que cita els comptes de Twitter, LinkedIN o els blogs personals de moltes de les biografies que se li demanen, que no són fonts fiables. No feu servir cap mena d'IA que mostri la Viquipèdia com la seva referència més immediata, atès que la Viquipèdia no és cap font per si mateixa.

Sobre infraccions de drets d'autor[modifica]

Heu de tenir en compte que els models neuronals poden replicar contingut literal no lliure i, per tant, produir violacions dels drets d'autor a diverses de les vostres consultes. No només això, sinó que en alguns resums pot arribar a generar textos derivats massa similars a les obres originals i per tant caure en vulneracions de parafrasejat similar, que no estan permeses per la Viquipèdia. Les bases de dades que s'han utilitzat per entrenar diferents IAs són sovint privatives i amb alguns algoritmes hermètics, que no permeten de conèixer completament la seva compatibilitat amb les llicències CC BY-SA i GNU que utilitzem en els textos de la Viquipèdia.

L'estat dels drets d'autor del text generat per xarxes neuronals no està definit per estatut, per la qual cosa és difícil fer reclamacions segures, però existeix un precedent per a l'art generat per ordinador i altres obres creades per no-humans. L'Oficina de Drets d'Autor dels EUA, on s'allotgen els servidors dels projectes Wikimedia, explicita que:[1]

L'Oficina no registrarà les obres produïdes per la naturalesa, els animals o les plantes. De la mateixa manera, l'Oficina no pot registrar una obra suposadament creada per éssers divins o sobrenaturals, tot i que l'Oficina pot registrar una obra on la sol·licitud o el dipòsit copia(ies) afirmen que l'obra es va inspirar en un esperit diví. [...] L'Oficina tampoc registrarà les obres produïdes per una màquina o un procés merament mecànic que funcioni a l'atzar o automàticament sense cap aportació creativa o intervenció d'un autor humà.

En qualsevol cas, no existeixen forts precedents legals respecte a la circumstància específica de llicenciar produccions d'IA amb les opcions que ofereixen les llicències Creative Commons o la GNU. A Wikimedia Commons, la plantilla i la categoria de drets d'autor de «PD-algorithm» afirma que totes les obres generades algorítmicament resten en domini públic: «Aquest fitxer és de domini públic perquè, com a treball d'un algoritme d'ordinador o intel·ligència artificial, no té cap autoria humana a la qual se li puguin conferir els drets d'autor».

El que és més evident és que IAs com Bard o ChatGPT poden infringir textualment els drets de propietat intel·lectual amb preguntes com ara «Quina és la lletra de Milionària, de na Rosalia?» Respondrà amb les estrofes literals d'una cançó amb drets d'autor inequívocs, atès que aquesta és la petició específica que un humà li ha demanat que fes. Com és una acció que una persona és capaç d'escriure en un article de Viquipèdia sense cap mena d'ajuda artificial, sol·licitar contingut protegit per drets d'autor a una IA i convertir-lo en article constitueix una violació clara de la propietat intel·lectual i un ús no permès de les IAs.

Però, encara que aquests exemples siguin prou evidents, pot ser que en la pràctica no ho siguin tant. És una bona pràctica que, en aquells casos que produïu una gran quantitat de text, us assegureu de comprovar que no hi ha parafrasejats similars ni infraccions fil per randa; seleccioneu fragments a l'atzar del text final i enganxeu-los al vostre cercador habitual d'internet per constatar que no hi ha duplicacions.

Usos potencials[modifica]

Malgrat les limitacions d'aquestes xarxes neuronals per a escriure articles directament, això no vol dir que s'hagin de refusar com a complement addicional. Eines com ChatGPT tenen prou capacitat per a fer d'assessores d'escriptura i de redacció. Abans de res, però, com a viquipedistes sou responsables d'assegurar-vos que l'ús de xarxes neuronals no serà perjudicial per als objectius de coneixement de la Viquipèdia, ans al contrari. Per tant, és una bona pràctica que escriviu al resum de la modificació si cap part del text afegit o millorat ha estat una contribució d'IA. Això pot ajudar la resta d'usuaris a prendre accions per validar encara més aquell contingut, examinar-lo a fons o esborrar-lo si no és verificable.

Millora de la redacció, del to enciclopèdic o del format wiki[modifica]

És a dir, els hi podeu demanar esbossos, proposar-los com millorar segons quins paràgrafs que puguin semblar-vos enrevessats o, fins i tot, demanar-los crítiques sobre la qualitat del text. Un exemple és QuillBot AI, amb diversos mètodes de correcció (formalismes, simplificador, estàndard, etc). No obstant això, heu de ser conscients que la informació que us proporcionen pot ser poc fiable i, fins i tot, totalment errònia. Fixeu-vos-hi bé i empreu el sentit comú quan trieu si voleu incorporar o no el suggeriment de la xarxa neuronal —especialment pel que fa a suggeriments de canvis del contingut.

Podeu utilitzar aquestes xarxes per a esborranys de traduccions o per a la millora del to enciclopèdic; pot ser interessant si considereu que el vostre text és o bé massa informal per a una enciclopèdia o massa tècnic per a un lector generalista. Això és favorable perquè, especialment ChatGPT, està entrenat per conèixer les polítiques de la Viquipèdia i us pot orientar una mica per polir segons quins redactats. Però cal que tingueu en compte, novament, que podrien no detectar correctament els errors gramaticals o mantenir la informació clau intacta. Editeu amb cura i reviseu convenientment les respostes: mantingueu l'esperit crític.

Fins i tot si teniu l'opció d'incrustar-hi textos sencers, podeu demanar a les diferents IA que us suggereixin quins altres apartats l'article podria ometre. Això us pot permetre agafar idees sobre quines noves seccions, continguts o biaixos poden ser interessants per a tenir un artilcle més concret. També podeu provar de demanar que us corregeixi algun error del format wiki com ara taules o gràfics inserits amb l'editor de codi: ChatGPT és capaç de programar en llenguatges habituals, de manera que us pot trobar fàcilment si heu inserit malament alguna negreta o si us heu deixat algun paràmetre del codi que us generi errors a l'hora de desar edicions.

Condensació i fragmentació cap a articles principals[modifica]

Les IA poden ser una bona opció quan us trobeu articles molt llargs i densos i voleu evitar-hi redundàncies o duplicacions amb altres articles. Per exemple, hi ha entrades especialment desenvolupades que s'entrellacen amb subarticles o entrades satèl·lit que ja parlen amb profunditat de tres o quatre paràgrafs concrets. Són casos com els de períodes històrics (dels quals n'hi ha articles sobre les batalles i esdeveniments més rellevants), sobre regnes (dels quals hi ha biografies sobre els seus líders més destacats) o d'estats i territoris (dels quals n'hi trobareu subentrades de la història, economia, biodiversitat, etc.). En aquestes entrades tan llargues, podeu veure si les xarxes neuronals us simplifiquen les subseccions de l'article matriu de manera que en redueixi o sintetitzi millor l'extensió i la pugueu compensar afegint-hi una redirecció amb la plantilla {{article principal}}. Facilitarà l'agilitat de lectura i mantindrà el que és més rellevant; qui vulgui més profunditat podrà cercar-la al subarticle corresponent.

Contramesures[modifica]

Una de les preocupacions principals sobre l'ús d'aquests models lingüístics és si, com a humans, podem o no detectar si un text és original o si està escrit per mitjà d'una IA. Tanmateix, sembla que hi ha altres xarxes neuronals que són capaces de fer aquesta anàlisi de distinció. L'eina Hugging Face, fins i tot amb paràgrafs molt editats, era capaç de distingir a les primeries del 2023 els continguts d'intel·ligència artificial i reals amb una confiança d'allò més alta (99,99%). Si sospiteu d'algun contingut a la Viquipèdia que podria ser generat automàticament, podeu introduir-hi el text i valorar-ho. Recordeu d'eliminar-hi el text corresponent als nombres de les referències ([1], [2], [nota 3], etc.).

Aquesta mena de contramesures poden ser molt útils pel nostre propi sistema d'IA a la Viquipèdia, ORES, que s'encarrega de predir si una edició pot tenir mala fe o ser vandàlica. Nogensmenys, la rapidesa d'aprenentatge i de desenvolupament d'aquestes xarxes neuronals d'identificació i contrast humà vs. bot podrien quedar obsoletes aviat.