Tema de Usuari Discussió:Xavier Dengra

Robot de recompte del concurs

9 comentaris • 22:06, 19 des 2020 fa 3 anys

9

Bon dia Xavier,

Ja m'ho va semblar durant el concurs i ara he volgut donar-li una repassada i puc confirmar que el bot fa malament el recompte de paraules. Perquè puguis veure-ho fàcilment, només que us poseu sobre els resultats de Kimia Alizadeh, Jasmin Akter o amb una mica més de feina a Shelly-Ann Fraser-Pryce (estan les 3 a la meva llista d'articles fets) ja veureu que no quadra el resultat que dóna amb el nombre de paraules que compta. Suposo que el bot no és cosa teva, però com no conec la majoria del 'grup de joves' t'ho escric a tu i ja els hi faràs saber. És un error mínim que no alterarà els resultats (i si ho fa, m'és igual) però sempre va bé polir-los perquè no tinguin errades per futures utilitzacions.

Sempre m'agrada repassar les feines dels bots 'comptables' i ja he avisat d'anteriors errors en altres projectes, no voldria que ningú se sentís dolgut, ans al contrari, cal felicitar-vos, ja que la feinada que fan els bots és molt bona (havia hagut de fer el recompte a mà de més d'un concurs!), i aquesta forma de valorar les col·laboracions tenint en compte llargada, referències i demès ítem em sembla genial.

Fins aviat!

Respon 09:52, 18 des 2020 fa 3 anys

Xavier Dengra (discussiócontribucions)

Eps bon dia @Beusson,

Ostres, doncs gràcies per comentar-ho. Havíem agafat i millorat el millor bot de recompte existent en tot l'entorn Wikimedia. Faig ping a en @Townie i també a en @Cesc97 perquè ho puguin parlar entre ells i mirar si poden revisar-ho o arreglar-ho. Jo de bots vaig força perdut i prefereixo encarregar-me de l'accessibilitat i la interfície de les pàgines :D

Fas bé de comprovar a mà els resultats! Millor això que no haver de comptar milers de punts a mà com s'havia fet en el passat. Quan s'hagi comprovat, farem públics els resultats, els guanyadors i el sorteig.

Una abraçada virtual!

Respon 16:01, 18 des 2020 fa 3 anys

Townie (discussiócontribucions)

@Joutbis: Aquest cap de setmana m'ho miro! El codi és reciclat d'altres viquipèdies, així que segons com també els ho haurem de comentar. Gràcies per avisar!

Respon 17:09, 18 des 2020 fa 3 anys

Joutbis (discussiócontribucions)

La veritat és que no m'havia mirat els budells de com puntuava el bot. Però vist el que dieu, m'he estat mirant què passa i he agafat l'exemple de Kimia Alizadeh. Algunes coses són decisions de disseny de l'autor del codi, que no em semblen malament. Per exemple, tot el que sigui dins d'una taula, no puntua per paraules (només per bytes); les referències, tampoc (però puntuen per bytes i per referència); els peus d'imatge, tampoc (puntuen per bytes i per imatge). Això explica algunes de les coses que passen. També dona idees per "enredar" el bot, però són fàcilment detectables, i serien motiu de desqualificació instantània. No ha passat res d'això, aquí.

La cosa estranya que he trobat, i suposo que és la que menciona en Beusson és aquesta diferència, que són 1.500 bytes, tots ells de referències, i malgrat tot, se li assignen 162 paraules. A veure, que per a aquest concurs no vindrà pas d'aquí, perquè són 3.2 punts, i hi ha coixí. Però val la pena entendre què està passant, fem l'exercici.

A les utilitats del bot hi ha un accés per comptar les paraules d'un article, i així podem mirar què està passant. Si comptes el nombre de paraules de la revisió problemàtica, clicant aquí, surten 590 paraules. Si mires l'anterior, en compta 428. Per tant, 162. Què ha passat aquí? Doncs sembla que la clau és que ha esborrat un [16] que apareixia a la versió anterior, i tot el que venia al darrere no es comptava. El Beusson ho ha esborrat, i s'ha endut totes les paraules posteriors.

Si m'ho pregunteu a mi, penalitzar els que fan copy, Google translate, i paste és una bona obra, i per mi ja es pot quedar així. De totes maneres, he localitzat el tros de codi que fa aquest càlcul, i miraré d'arreglar-lo. El que no sé és si es podrà recalcular tot suposant que ho arregli, i no crec que variïn les posicions.

Sí que voldria confirmar que l'anomalia que he detectat jo és la mateixa que diu en Beusson, no fos cas que encara n'hi hagi alguna altra de més grossa que no hagi vist. Per cert, felicitats, campió!

Respon 00:53, 19 des 2020 fa 3 anys

Beusson (discussiócontribucions)

Gràcies a tots. Jo només ho comento per millorar-lo encara més i per evitar futurs conflictes. Com deia abans, heu fet una gran feina, això són els serrells que sempre hi ha en les primeres versions (ja voldria jo entendre de codi com vosaltres!).

@Joutbis Ho he mirat, i en tots els casos hi ha alguna edició on esborrava octets. Estava rumiant com fer-ho (sense entendre de codi!), la solució fàcil és que el bot resti quan es treuen octets, però al mateix temps, hi ha moltes edicions 'negatives' que milloren l'article, i això no acabo de veure com valorar-ho, ja que no veig just treure punts per una edició de millora de l'article (per exemple retirar una referència obsoleta o no vàlida, un tros de text mal traduït...). Almenys hem localitzat ON és el problema, ara falta saber arreglar-ho, i aquí ja no hi puc fer res.

Molt agraït a tots!

Respon 11:20, 19 des 2020 fa 3 anys

Joutbis (discussiócontribucions)

Aquí l'has clavada. Aquesta crítica sempre es pot fer a tot sistema que puntuï de forma quantitativa i no qualitativa. Però són limitacions que hem d'assumir per força, i creure en la bona fe i "fair play" dels participants. De moment, crec que l'experiència ha estat bona.

A veure si trobo el problema concret d'aquest article, avui m'hi posaré.

Respon 11:29, 19 des 2020 fa 3 anys

Joutbis (discussiócontribucions)

Bé, ja tinc identificat el problema. Hi ha un lloc on intenta esborrar els enllaços externs, amb format [https://foo.bar enllaç]. Passa que ho fa amb una expressió regular innecessàriament complicada, i acaba carregant-se més coses del compte. En concret, el que acaba esborrant és "qualsevol cosa entre dos claudàtors (que el primer sigui simple) i tingui algun espai en blanc entremig". Per exemple, a l'article de Kimia Alizadeh, hi ha una frase que diu "amb les quals [els governants iranians] juguen des de fa anys". Doncs el bot no compta com a paraules "els governants iranians" perquè estan dins d'un claudàtor simple. Si només fos això, rai.

Quan es troba "[16]", com que no hi ha cap espai, el busca més endavant del claudàtor, i va tirant endavant fins el següent que troba. Com que ni tan sols hi ha cap enllaç intern que el pugui aturar, com podria haver estat [[Iran]], arriba fins al final, als claudàtors de les categories, i ho liquida tot. Això, fins que arriba el Beusson, esborra el [16], i el bot torna a comptar bé, de manera que s'enduu ell la diferència.

Es pot arreglar fàcilment perquè només esborri realment els enllaços externs, d'això em veig amb cor. Ho comunicaré també a l'autor, per si ho vol arreglar a la seva versió. Ara, recalcular el concurs aquest de les dones BBC, no ho veig viable ara que ja ha acabat. La veritat, tenint en compte que:

un cas força patològic com aquest, que s'ha endut 162 paraules que no eren seves, només l'ha beneficiat en 3.2 punts
les regles eren les mateixes per tothom.
l'acció que ha beneficiat el Beusson era bona de per si. De fet, si poguéssim donar punts extra per substituir referències falses per referències veritables, estaria bé.

Jo donaria els resultats per bons, i el següent concurs ja el comencem bé. Moltes gràcies a en Beusson per detectar el problema. Pensa que aquest bot el fan servir en viquis escandinaves i a la basca des de fa un munt d'anys!

Respon 15:20, 19 des 2020 fa 3 anys

Beusson (discussiócontribucions)

Gràcies per la feina. Em sorprèn que ningú l'hagi vist abans, només mirant els resums que penja el bot, ja es veu que alguna cosa no compta bé. Em temo que vol dir que molts donen per bo els que els hi diuen, sense contrastar-ho, que hi farem!

Respon 20:24, 19 des 2020 fa 3 anys

Joutbis (discussiócontribucions)

Si mires la pàgina del bot original, ara mateix està gestionant un concurs a la viquipèdia en noruec, tres en finlandès, i un en basc. I porten anys fent-ho. Ja tinc escrit un correu a l'autor, li explico el problema i una possible solució (un cop identificat què passa, arreglar-ho és molt fàcil). No sé si em farà cas, però almenys al nostre proper concurs ja estarà arreglat.

Respon 22:06, 19 des 2020 fa 3 anys

Resposta a «Robot de recompte del concurs»