Tema de Viquipèdia:La taverna/Propostes

Articles amb imatges repetides

39
Resum per Paucabot

Es crea una pàgina on es llisten els articles susceptibles de tenir imatges repetides: Usuari:PereBot/imatges repetides. Tema del 2021 que es reactiva el 2023

Paucabot (discussiócontribucions)

A causa de la importació d'imatges de Wikidata a través de les infotaules, tenim articles amb imatges repetides: la que qualcú ha posat manualment i la que s'ha importat automàticament des de Wikidata. Necessitarem l'ajuda de tota la comunitat per anar arreglant això a poc a poc.

En Pere prlpz ha fet una primera llista d'uns 1000 articles que s'haurien de revisar. Anau en compte que hi pot haver falsos positius:

  • Imatges que no estiguin a Imatge (P18)
  • Imatges que no siguin la primera imatge de Imatge (P18)
  • Imatges que no s'importen perquè l'article no té cap infotaula.

Gràcies per la vostra col·laboració.

Pere prlpz (discussiócontribucions)

Hi afegeixo que hi ha algunes causes més de falsos positius, i que quan la imatge repetida té una llegenda pot valdre la pena considerar la possibilitat de copiar i adaptar la llegenda de la imatge esborrada com a llegenda de la imatge a Wikidata per que surti a la infotaula.

Xavier Dengra (discussiócontribucions)

Hi invertiré una estona per fer-ne algunes desenes. Un cop les corregim, ratllem manualment l'entrada a la llista generada pel bot, o s'anirà actualitzant sola? Bona feina!

Yuanga (discussiócontribucions)

Acabo de revisar uns 10 articles i cap d'aquests tenia imatge repetida. Els eliminem o el ratllem?

Pere prlpz (discussiócontribucions)

Com vulgueu, però:

  • Mentre el bot està treballant (per exemple, ara mateix), esborra les actualitzacions. Quan el bot no treballa, les edicions manuals es queden.
  • Crec que esborrar o ratllar articles de la llista que esborrar les imatges duplicades. Aleshores, anar actualitzant a mà la llista em sembla una pèrdua de temps (jo no ho faig). Val més esborrar la secció sencera quan comenci a no ser útil.
  • Puc actualitzar la llista quan vulgueu.

Per actualitzar la llista i evitar falsos positius, estic afegint al final de la pàgina una llista amb biografies, i si es fa servir tinc previst afegir-hi altres llistes sectorials. Això hauria de servir per evitar articles sense infotaula. A més, algunes millores que he fet al codi haurien d'evitar part dels falsos positius que sortien. On seguirà havent-n'hi és als articles amb més d'una imatge a Wikidata, però aquests estan marcats per qui se'ls vulgui saltar.

Yuanga (discussiócontribucions)

Si el bot va actualitzant la llista no cal anar ratllant doncs, genial.

Pere prlpz (discussiócontribucions)

Compteu que les seccions de més avall estaran més actualitzades que les de més amunt. Al final de cada llista hi ha la data.

Pere prlpz (discussiócontribucions)

Ja teniu al final de la llista uns centenars (i creixent) de biografies i de llocs. A més de ser més actualitzats aquests haurien de tenir menys falsos positius perquè n'hi ha d'haver pocs que no tinguin infotaula.

Yuanga (discussiócontribucions)

He trobat un fals positiu a la biografia de Roque Barcia Martí. Potser perquè el fitxer "Roque Barcia.jpg" termina de la mateixa manera que una de les imatges de l'article "Diccionario general etimológico de la lengua española de Roque Barcia.jpg"?

Edito: m'he trobat ja uns quants articles que coincideixen amb aquest patró.

Pere prlpz (discussiócontribucions)

Sí, em sembla que a Puig-reig passa, o passava, el mateix. Com que passa molt poc (espero), crec que val més no tocar-ho per evitar que eliminant alguns falsos positius se'ns escapin molts positius autèntics. En aquest cas estic pensant en els de les galeries d'imatges.

O sigui, la idea és que les llistes siguin eines útils per trobar imatges repetides, no que siguin prou precises com per que l'objectiu sigui buidar-les del tot.

Yuanga (discussiócontribucions)

Estic d'acord, però uns quants usuaris entrarem als mateixos articles en va si no els podem excloure de la llista.

Pere prlpz (discussiócontribucions)

Això és un problema si són molts, però diria que no si n'hi ha un grapadet en una llista de centenars. En qualsevol cas, si els usuaris de la llista trobeu que són massa miro de canviar-ho.

Aquests falsos positius són un problema?

Pere prlpz (discussiócontribucions)

Ho he canviat i a les llistes que surtin a partir d'ara ja no hi hauria d'haver aquesta mena de falsos positius.

Pere prlpz (discussiócontribucions)
Pere prlpz (discussiócontribucions)

He trobat com actualitzar més ràpid la pàgina i hi he deixat unes llistes genèriques i unes altres de molt específiques. Aviseu-me si s'han de tornar a actualitzar o si voleu alguna llista específica.

Yuanga (discussiócontribucions)

Gràcies per les millores. Crec que actualitzar la llista un cop al dia aniria prou bé :)

Yuanga (discussiócontribucions)

I ja posats, es podria fer una llista amb els articles que els viquipedistes considerem com "exclosos" i que el bot no els afegeixi en futures actualitzacions? Seria una manera més clara de "fer net".

Pere prlpz (discussiócontribucions)

Poder-se fer, es deu poder fer, tot i que deu portar molta més feina mantenir la llista i suprimir-la de les llistes que l'estalvi de feina que suposa. Ara bé, també podeu esborrar o ratllar de les llistes al que vulgueu.

L'actualització és sota demanda. Si tinc l'ordinador engegat, l'actualitzo quan em digueu. Ara bé, compteu que tot i haver multiplicat per 50 la velocitat, l'actualització segueix portant unes hores.

Pere prlpz (discussiócontribucions)

He estat pensant com es podria fer per excloure articles o imatges d'una manera pràctica, sobretot que fos pràctica pels usuaris, perquè una llista em sembla que no ho és. Potser una bona manera seria amb un comentari darrera la imatge, de l'estil de <!-- Imatge repetida intencionadament --> o una cosa així, que s'hauria de posar sempre igual per que el bot el reconegués.

Yuanga (discussiócontribucions)

Desconec com fa la cerca aquest bot en concret però continuo pensant que una «llista negra» és el més pràctic per a tots: el bot cerca imatges duplicades i l'article es troba a «la llista» no l'inclou al llistat definitiu. Això si creieu que cal excloure els falsos positius d'alguna manera :)

Pere prlpz (discussiócontribucions)

Si vols fes la llista i miraré què hi puc fer. Si hi ha gent que la fa servir, cap problema. Ara bé, ara mateix, el proper cop que em posi a treure imatges repetides crec que no em dedicaré temps a afegir articles a la llista negra perquè n'hi ha tants centenars per arreglar que m'és més eficient anar canviant d'article.


L'altre problema és el manteniment de la llista negra, que no reflecteix els canvis a l'article.

Pere prlpz (discussiócontribucions)

I el que fa el bot és:

  • Baixar amb una query la llista d'articles amb Imatge (P18) a Wikidata i el nom de la imatge. Normalment restringeix la llista a elements amb alguna altra propietat donada, per fer llistes temàtiques.
  • Llegir l'article i comprovar si al Wikitext hi surt el nom de la imatge.

A més, intenta excloure els articles que tinguin una imatge localment a la infotaula, i compta quantes imatges té l'element a Wikidata per marcar-ho si n'hi ha més d'una.

El codi és a https://github.com/pere-prlpz/viquipedia/blob/master/imatgesrepe.py per si algú hi vol tafanejar o vol fer-lo servir.

Paucabot (discussiócontribucions)

Diria que he acabat amb els éssers vius.

Pere prlpz (discussiócontribucions)

Buscant d'una altra manera i sense fer cas dels que tenen més d'una imatge a Wikidata, el bot encara n'ha trobat algun. La majoria dels que veig són articles sense taxocaixa que segurament n'haurien de dur.

Paucabot (discussiócontribucions)

Jo diria que els que no duen la infotaula com els cultivars de roses o els tàxons parafilètics, els l'hem llevada expressament.

Pere prlpz (discussiócontribucions)

Queda algú amb ganes de seguir eliminant imatges repetides? Necessiteu que actualitzi alguna llista? Teniu preferències per alguna llista concreta?

De moment, la darrera versió de la majoria de llistes és a Usuari:PereBot/imatges repetides/arxiu 1.

Paputx (discussiócontribucions)

Jo aniré fent amb la calma. Si veig que m'ho acabo t'aviso

Xavier Dengra (discussiócontribucions)

He acabat tots els de municipis i comarques catalanes. D'espècies, hi ha molts falsos positius i alguns en què el fet d'aparèixer dos cops aporta valor divulgatiu (galeria amb totes les fases de creixement i/o diferenciació de mascle i femella).

@Pere prlpz si pots fer ping recordatori de tant en tant, t'ho agraïré. És una feina que m'agrada fer però a reguitzells. Amb avisos periòdics en puc fer 20-30 seguits, però si no me n'oblido hehe

Pere prlpz (discussiócontribucions)

A bon sant encomaneu l'ànima si voleu que us ho recordi jo, que de vegades tinc memòria de peix. Mes aviat us diria que em féssiu ping quan vulgueu que actualitzi alguna llista.

De moment, a Usuari:PereBot/imatges repetides he actualitzat la llista general fins on s'ha penjat el bot. Té molts falsos positius perquè inclou molts articles que no tenen infotaula, però pot ser útil per anar mirant els articles que facin més pinta de no ser falsos positius o els que ens semblin més interessants.

Pere prlpz (discussiócontribucions)

@Xavier Dengra Fa dos anys volies un recordatori de tant en tant. Acabo d'actualitzar la llista.

Xavier Dengra (discussiócontribucions)

Gràcies! Ahir en vaig arreglar una dotzena més i em vaig afegir la llista a la meva pàgina d'usuari per anar buidant-la més sovint. El que sí aniria bé és que a mesura que es van esmenant articles, desapareguin automàticament de la llista (si no és massa feinada de codi). Un cop per setmana o quinzenalment ja va bé. Si no, tampoc passa res però simplement per no solapar-nos o jo mateix entre tongades. Salut!

Pere prlpz (discussiócontribucions)

En una llista de 9000 articles m'agradaria que coincidir al mateix article fos un problema perquè si estem agafant articles de la llista a l'atzar, que la probabilitat de coincidir no fos menyspreable voldria dir que estaríem arreglant centenars d'articles.

La llista la puc actualitzar quan vulgueu, i també puc fer llistes temàtiques que tenen l'avantatge que si agafem un tema on els articles tinguin tots infotaula hi haurà pocs falsos positius.

Demaneu quan us sembli.

Xavier Dengra (discussiócontribucions)

Temàtica no cal, si és esborrar una foto tant és. Era perquè començava numèricament sempre. Però sí que és cert que amb 9.000 per davant tampoc cal filar prim. Provaré de mirar-m’ho més sovint en estones mortes.

Pere prlpz (discussiócontribucions)

Com que és probable que l'ordre, tot i arbitrari, sigui més o menys consistent, si comences sempre pel mateix lloc al cap de poc aquell lloc només hi haurà falsos positius.

Paucabot (discussiócontribucions)

Pere, seria molt difícil eliminar els articles que no tenguessin infotaula?

Pere prlpz (discussiócontribucions)

Sí i no.

Caldria la llista de totes les infotaules que xuclen fotos de Imatge (P18) (que no són totes) amb totes les maneres que estan posades als articles, incloent totes les redireccions que es facin servir. O sigui, com que puc ignorar les majúscules i minúscules, caldria una cosa com igp|indret|edifici|taxocaixa| etc. i podria fer que el bot se saltés els articles que no en tinguessin cap de la llista.

Una alternativa més ràpida seria anar a l'inrevés, a treure llistes amb només els articles amb una infotaula concreta, però per això ja tinc un altre sistema que és demanar articles que a Wikidata tinguin una propietat determinada. Per exemple, amb Coordenades (P625) agafa de cop edificis, indrets, divisions administratives i batalles, tots els quals haurien de tenir infotaula. El mateix es pot fer amb la propietat de nom científic o la de taxon superior per treure els éssers vius, o la de sexe per treure les persones.

Pere prlpz (discussiócontribucions)

Al final de la pàgina hi teniu una mostra d'uns centenars d'articles sobre coses que tenen coordenades. N'he mirat uns quants i pràcticament no hi trobo falsos positius.

Pere prlpz (discussiócontribucions)

N'hi he afegit uns quants centenars més de biografies, també sense gaires falsos positius.

Ho he provat també amb éssers vius i aquests ja estan gairebé tots llestos (pràcticament només hi surten els que tenen més d'una imatge a Wikidata).

Paucabot (discussiócontribucions)

Les infotaules que xuclen imatges de WD són les que hi ha aquí. No hi ha, però, els sinònims.