Tema de Viquipèdia:La taverna/Propostes

Pere prlpz (discussiócontribucions)

Tenim categories de biografies per universitat (per a estudiants i per a professors), però en tenim moltes menys de les que podríem tenir i estan menys plenes del que haurien d'estar. Per exemple, ahir categoritzant els articles del projecte de les 100 dones de la BBC vaig trobar que faltava crear la categoria:Alumnes de la Universitat Johns Hopkins tot i que d'acord amb Wikidata tenim gairebé un centenar d'articles per posar-hi.

Tot i que aquestes categories es podrien omplir amb bot (a partir de les dades de Wikidata), també es podrien posar aquestes categories amb una plantilla, fins i tot sense lua, perquè la plantilla només cal que comprovi una llista de valors de la propietat Formació (P69) i hi apliqui la categoria corresponent (que pot tenir la plantilla o pot treure també de Wikidata, si volem complicar el codi). De fet, si no volem anar posant plantilles expressament, fins i tot ho podria fer la infotaula o la plantilla autoritat.

Fins ara gairebé no posem categories automàticament. Valdria la pena en aquest cas? O amb passar un robot de tant en tant en tindríem prou?

KajenCAT (discussiócontribucions)

Succeix el mateix en altres casos com polítics d'X país i encara més en categories racials, étniques o religioses com ara els Paixtus o Mujahidins però estic segur que hi ha grups on es podrien incorporar desenes o centenars d'articles.

Pere prlpz (discussiócontribucions)

Sí, però aquests els veig difícils d'automatitzar amb una plantilla perquè tenen subcategories i a més no tots tenen dades a Wikidata. La immensa majoria de categories d'estudiants per universitat no tenen subcategories de manera que posar-les amb una plantilla seria relativament senzill.

Ara, és veritat que categories per omplir n'hi ha moltes més i de tota mena i no donem a l'abast per mantenir totes les que tenim. Hi ha eines que hi ajuden, però cal molta feina manual. Suposo que si poguéssim ajuntar el PetScan i el Cat-a-lot faríem més via.

Paucabot (discussiócontribucions)

D'acord en implementar aquestes categories a través de la infotaula i WD, com ja feim amb les persones vives. D'acord en tot el que sigui automatitzar categories, que ens estalviaria molta feina i la faria molt millor que una persona (o un grup).

Pere prlpz (discussiócontribucions)

A mi se m'ocorreria com fer-ho amb una plantilla, amb un if per cada universitat que miri si hi ha la propietat a Wikidata i posi la categoria corresponent. Ara bé, entenc que posar això a la infotaula és un nyap i que hi deu haver maneres més elegants de fer-ho, possiblement amb lua.

@Amadalvarez, @Vriullop, com ho veieu? Es pot posar les categories d'estudiants i professors per universitat amb la infotaula? O val més que ho fem amb una plantilla a banda?

Amadalvarez (discussiócontribucions)

Categoritzar mitjançant la infotaula a partir d'una dada WD que ja recuperem per mostrar-la, no em sembla mala idea, sempre que la categoria es pugui construir de forma directa, tipus "estudiant de <label de WD>". Si cal passar per un switch que les assigni en funció de la seva Qid, no m'agrada perquè comporta manteniment.

Pel que fa als professors em planteja un dubte. Sabem quan algú ha tingut com a contractador un universitat, però no sabem per a fer què. Potser estava com investigador o com documentalista i mai ha estat professor.

El que proposo pot generar categories noves que, si són correctes ens facilitarà la creació. Però també pot generar falsos positius si algú canvia el label.

D'altra banda, un automatisme, se saltarà la regla de 5 articles mínims.

Pere prlpz (discussiócontribucions)

Es podria fer que fos tipus "estudiant de <label de WD>" si la plantilla comprova si la categoria existeix abans de posar-la, però no sé si això és més eficient que tenir una mena de switch, amb una llista de Qid i una llista de categories, mantinguda a mà (o amb bot, a partir de les categories existents).

Amadalvarez (discussiócontribucions)

Comprovar si la categoria existeix és car (@Vriullop, dixit) i s'executaria cada cop que s'editi l'article o es refresqui WD.

El switch és molt eficient, però té la servitud del manteniment i, veient el cas que ha iniciat aquest fil (Universitat Johns Hopkins), sembla que la gràcia de l'automatisme està en preveure/descobrir allò que no tenim ja detectat i categoritzat.

Podríem fer un bot que faci el que estem proposant per la infotaula: si ha estudiat en una universitat i no té la categoria "estudiant de <label de WD>", li hi posem.

No cal que siguin un online rigorós. Ho podem passar cada mes. Segur que millor que ara ho tindrem.

Pere prlpz (discussiócontribucions)

D'acord. Reprenc la idea de posar les categories d'alumnes amb bot i poso la feina a la cua.

De tota manera, la intenció, més que trobar de quines universitats tenim 5 estudiants (que això es deu poder fer amb una query) és omplir les categories que ja tenim. Per això la llista de categories i Qids es pot mantenir a mà, que és relativament poca feina tot i que possiblement un bot les pot trobar més o menys sol.

Amadalvarez (discussiócontribucions)

Vols dir que, amb l'acció de la infotaula, podríem complementar els nous casos que apareguin a universitats controlades per la llista entre dos bots ?

Pere prlpz (discussiócontribucions)

No ben bé.

Volia dir que hi hauria una plantilla o un mòdul amb un switch de l'estil:

  • Si Q... categoria:Estudiants de la Universitat Johns Hopkins
  • Si Q... categoria:Estudiants de la Sorbona

I així una línia per cada universitat de la que existeixi la categoria. El que podria fer el bot és actualitzar aquesta plantilla afegint-hi línies per les categories que es creesin, o fins i tot podria crear les categories quan trobés els 5 articles per posar-hi.

Ara bé, la part de crear les categories i actualitzar el switch és la que porta menys feina i també es podria fer a mà, i si la fem amb bot tampoc hi ha tanta diferència entre que el bot actualitzi la plantilla o que directament posi la categoria als articles.

Amadalvarez (discussiócontribucions)

Entenc. Però quan jo deia de fer un bot era per posar les categories directament als articles. D'aquesta forma els recursos es paguen 1 cop, mentre que la categorització via infotaula es paga cada cop. El cas de "persones vives" té el valor que no t'has de preocupar quan mori que ja canviarà de categoria. Però els estudiants d'universitat, mai perden la categoria.

Pere prlpz (discussiócontribucions)

Si no m'he equivocat (que també podria ser) tenim 8651 biografies que haurien de ser en alguna categoria d'estudiants que ja existeix (o en més d'una) però que no hi són. Els grups més importants són els 1076 de la UB, els 815 de la Complutense i els 680 de Harvard. Entre els no universitaris destaquen els 392 del Conservatorie de París. En total hauran de ser 9354 edicions.

I això sense comptar els centres educatius que no tenen categoria creada.

Pere prlpz (discussiócontribucions)

Engegat el bot, de moment només a estones per poder-lo vigilar millor.

Pels centres educatius que encara no tenen categoria, si algú en vol crear alguna, per que el bot l'acabi omplint només cal:

Una manera de trobar les categories que tenim i les que ens falta es aquí:

# articles i categories d'estudiants i universitats
SELECT DISTINCT ?persona ?personaLabel ?uni ?uniLabel ?article ?cat ?categoria
WHERE {
  ?persona wdt:P69 ?uni.
  ?article schema:about ?persona.
  ?article schema:isPartOf <https://ca.wikipedia.org/>.
  OPTIONAL {
    ?uni wdt:P3876 ?cat.
    ?categoria schema:about ?cat.
    ?categoria schema:isPartOf <https://ca.wikipedia.org/>.
  }
SERVICE wikibase:label {
bd:serviceParam wikibase:language "[AUTO_LANGUAGE],ca,en,es" . } 
}

Prova-ho !

Pere prlpz (discussiócontribucions)

El sistema aquest de posar categories amb bot a partir de Wikidata pot funcionar i es podria generalitzar a alguns casos més que els centres educatius. Ara bé, a mi em genera una inquietud perquè quan ho combinem amb omplir Wikidata a partir de les categories, cosa que també fem, acabem amb la mateixa informació en dos llocs que s'alimenten mútuament, i això facilita les coses a l'hora de posar la informació però les complica molt a l'hora de treure-la, perquè s'ha de treure de tot arreu a la vegada. Correm el risc que ens passi el que ens passava amb els interviquis abans de Wikidata, que treure els interviquis erronis era com voler eradicar la mala herba, perquè només que quedés un interviqui dolent en una viquipèdia els bots el tornaven a propagar a totes les altres. La gràcia de Wikidata és que la informació està centralitzada en un lloc, i em temo que amb això estem anant en el camí contrari.

Per això crec que a la llarga seria bo trobar una manera d'omplir aquesta mena de categories amb una plantilla.

Amadalvarez (discussiócontribucions)

Aquesta reflexió em transporta a la viquitrobada de Girona on vàrem dir !algun dia no tindrem categories a VP, sinó un sistema de consultes que et donaran el mateix resultat a partir de WD".

Creus que aquest dia està proper ?

L'altre dia hi havia un banner d'un survey per demanar estris nous a phabricator. Potser aquest podria ser un d'ells.

Pere prlpz (discussiócontribucions)

Aquest dia ja ha arribat si ho volem muntar (entengueu volem = consens + fer feina). Com a mínim, Wikidata i les categories estan al mateix nivell.

Gran part de les categories són relativament equivalents a una consulta a Wikidata. Aleshores, a la pàgina de moltes categories podríem enllaçar:

  • Una consulta o una llista automàtica amb els articles que haurien de ser a la categoria i les seves subcategories.
  • Una consulta o una llista automàtica amb els items de Wikidata que haurien de ser a la categoria i les seves subcategories.

La primera serveix per trobar articles (ve a ser una versió automàtica de la categoria), la segona per trobar elements de la realitat, que sol ser el que busquen els lectors.

Per exemple, a la categoria:Masies del Vallès Oriental hi podria haver els enllaços a la consulta amb els 450 articles de masies de la comarca que tenim i a la consulta amb les més de 2000 masies de la comarca que hi ha a Wikidata, i que deu ser una bona aproximació a les que existeixen. (Disclaimer: aquests dos esborranys de consulta s'haurien de millorar).

Això ens permetria superar algunes de les limitacions de les categories:

  • Poder consultar sencer el contingut d'una categoria encara que estigui dividida (tot i que per això també serveix el PetScan que ja està més o menys enllaçat).
  • Que la inclusió d'una categoria en una altra pot significar coses diferents, algunes de les quals no són un subconjunt, de manera que fins i tot amb PetScan consultant una categoria i les seves subcategories surten coses que no són el que diu el nom de la categoria. A Wikidata això no passa (i a la viquipèdia en alemany tampoc sol passar, però aquest és un altre tema).
  • Podríem incloure criteris de classificació addicionals (amb més consultes). Per exemple, en categories de biografies podríem incloure el sexe o la data de naixement o de mort.

Jo he posat l'exemple amb dues consultes però segurament hi ha maneres de fer això mateix que són més amigables per al lector, amb llistes automàtiques, ja sigui amb la llista en una pàgina a banda (a categoria:Fars de Catalunya hi ha una cosa així, i les categories de monuments amb les seves llistes paral·leles en serien un exemple magnífic fet a mà), enllaçant la llista de manera més visible si cal, o ja sigui amb la llista en un desplegable dins de la pàgina de la categoria. Naturalment, per això cal que ens puguem fiar del ListeriaBot, que fa unes setmanes que no va gaire fi.

Ara bé, el final de la utilitat de les categories pot venir quan algú faci una interfície fàcil d'usar que permeti combinar criteris diferents fent servir Wikidata i trobar articles. L'editor de querys pot ser un pas en aquest sentit però encara no és pels lectors. I això podria ser una cosa a demanar al Phabricator.

Pere prlpz (discussiócontribucions)

@Amadalvarez Com a continuació de la mateixa resposta, m'estic trobant que les categories actuals tenen un problema greu, comparat amb Wikidata: estan a mig omplir. En gran part de les categories que puc omplir des de Wikidata, hi poso més articles que els que ja hi ha, i això que Wikidata tampoc deu ser complert del tot. Aleshores, un motiu de més per buscar una alternativa a les categories és que tampoc estan servint pel que haurien de servir, que és trobar tots els articles d'un tema perquè n'hi sol faltar la meitat o més.

I això amb tota la feinada que s'ha fet per omplir i mantenir les categories.

Amadalvarez (discussiócontribucions)

T'entenc. De fet, penso que només he fet servir les categories per motius de manteniment. Com a lector de VO crec que no m'han interessat mai, que no vol dir que no siguin interessants. Ara bé, crec que el seu futur és esdevenir una query. Tenim un repte pendent. Bona nit

Amadalvarez (discussiócontribucions)

sembla una proposta suggerent.

Tot i el ris de les llistes de Listeriabot, tenen l'avantatge que s'executen en diferit i, per tan, les consultes dels lectors són ràpides, mentre que les queries suposaran un temps de resposta superior a l'actual i es valorarà negativament (si més no al començament) .

Pere prlpz (discussiócontribucions)

A mi també m'agrada més la idea de les llistes, tot i que són una mica menys flexibles.

Pere prlpz (discussiócontribucions)

Explico una mica com està anant el tema de les categories d'estudiants per universitat amb bot:

  • El bot omple les categories que tenim a partir de Wikidata. Cal que l'element de la persona tingui Formació (P69) apuntant al centre educatiu i el centre educatiu tingui Categoria per les persones que estudiaren en aquesta institució (P3876) apuntant a la categoria, i que tant el nostre article de la persona com la nostra categoria estiguin enllaçats a Wikidata.
  • Vaig començar omplint les categories que ja teníem i després creant manualment les categories (amb ajuda de la @ReginaManresa) però ara he començat a crear-les automàticament amb bot. De moment estan creades i plenes les categories de més de 100 articles (i baixant). Si creés totes les categories possibles amb més de 5 articles en sortirien més d'un miler.
  • Crec que a Wikidata les dades són força completes pels articles amb molts interviquis però molt menys per les biografies d'interès més local. Per exemple, tenim articles d'uns 500 arquitectes catalans, però més les tres quartes parts no tenen Formació (P69) a Wikidata, i m'imagino que amb els altres oficis deu passar una cosa semblant.
  • La categoria:Alumnes per centre educatiu comença a créixer molt. Segurament li aniria bé una divisió i se n'hauria de millorar la indexació.
  • Les categories d'alguns centres educatius també estan quedant molt grans (més de 500 articles, i alguna més de 1000).
  • Explico com funciona el bot per si algú vol subdividir categories:
    • El bot mira els centres educatius que diu a Wikidata i comprova si l'article és a la categoria corresponent de la Viquipèdia o una de les seves categories.
    • Si a la Viquipèdia hi ha una categoria més concreta que el que diu a Wikidata (per exemple, alumnes de dret de la UB a la Viquipèdia i alumnes de la UB a Wikidata), el bot no fa res.
    • Si a la Viquipèdia hi ha una categoria més genèrica que el que diu a Wikidata, el bot no la troba i posa la categoria concreta deixant la genèrica redundant.
    • Si algú vol categoritzar articles, pot fer els canvis directament a les categories o a Wikidata o als dos llocs. Podria ser que el més eficient per moure molts articles a la vegada sigui editar les categories i després passar la informació a Wikidata amb PetScan.

Hi afegeixo que quan acabi amb els centres educatius, la intenció és provar de fer una cosa semblant amb les categories per origen (a partir del lloc de naixement). La diferència és que a priori no crec que allà creï categories automàticament.

Amadalvarez (discussiócontribucions)
Pere prlpz (discussiócontribucions)

Vaig fent però està quedant tot plegat una mica anglocèntric perquè la cobertura de la formació a Wikidata no és uniforme. Resulta que dels estatunidencs que tenim més de la meitat tenen Formació (P69), però dels catalans i malloquins en tenen entre el 10 i el 15%. Diuen que nord enllà la gent és neta i noble, culta, rica, lliure, desvetllada i feliç, i potser per això estan més formats, però em sembla que si algú vol anar posant Formació (P69) a la gent del nostre entorn o classificant-los per centre educatiu té feina per fer.

Pere prlpz (discussiócontribucions)

Vaig fent. Entenc que ningú té objeccions a seguir fent centenars de categories d'alumnes amb cinc o sis articles cada una. De moment vaig per més de 800 categories amb uns 10 estudiants o més cada una. Arribar als 6 estudiants per categoria són unes 600 categories més.

Pere prlpz (discussiócontribucions)

De moment ja està. Han sortit més de 1000 categories i només en queda un centenar residual (a Usuari:PereBot/centres educatius) que necessitarien una acció manual per crear-se (perquè no existeix la categoria a Wikidata, perquè s'ha de desambiguar el nom o perquè el bot no en sap trobar el gènere gramatical).

Ara bé, després d'unes desenes de milers d'edicions, segueixo tenint la impressió que el que fet és una cosa d'aquelles primitives que fèiem abans de poder accedir a Wikidata i que això estaria millor essent automàtic.

Pere prlpz (discussiócontribucions)

He començat a fer el mateix amb les categories per origen que ja existeixen. El bot afegeix la categoria per origen que correspongui al lloc de naixement segons Wikidata si no és que a l'article ja hi ha la mateixa categoria o una de més concreta. O sigui, el bot no afegeix categories redundants però pot ser que després de passar el bot alguna de les que ja hi era esdevingui redundant. Si no hi ha una categoria que correspongui exactament al lloc de naixement que diu a Wikidata, el bot no fa res (o sigui, no tira amunt a buscar-ne una de més general).

Entre els primers casos estan sortint articles que no havíem acabat de categoritzar (que és el que s'esperava) però també articles amb un lloc de naixement a Wikidata i un altre a l'article, com ara Elionor d'Habsburg, i errors dels dos llocs.

Deixo l'enllaç a Especial:Contribucions/PereBot per si algú vol tafanejar, revisar o aprofitar per posar categories encara més concretes que les que ha posat el bot.

KajenCAT (discussiócontribucions)

Segurament demà ho miraré a veure si us puc donar un cop de mà (o qualque altre cosa que creieu que us pugui ajudar, podeu comptar amb mi)

Pere prlpz (discussiócontribucions)

Si et ve de gust, pots mirar els articles que surten a les contribucions recents del bot. Potser que en algun hi hagi:

  • Categories redundants amb les que ha posat el bot (per exemple, si el bot posa la categoria de persones de Bratislava a algú que tenia la categoria d'eslovacs i aquesta ha esdevingut redundant).
  • Categories que ara es poden afegir més fàcilment. Per exemple, si el bot posa la categoria de persones de Praga a algú que ja era a la categoria d'esportistes txecs, el podem moure a esportistes de Praga.
  • Categories que es podrien crear. Per exemple, ahir el bot va omplir la categoria de persones de Praga i podria ser que ara hi hagi cinc futbolistes per crear la categoria de futbolistes de Praga.
  • Errors que val la pena detectar, ja siguin errors del bot (espero que no gaires), errors de Wikidata o errors de les categories que ja existien. De vegades hi ha diferències entre el que diu l'article i el que diu Wikidata i estaria bé aclarir on va néixer la persona.

Pel que fa als centres educatius, a Usuari:PereBot/centres educatius hi ha categories que el bot no ha pogut crear perquè no existia a Wikidata o perquè no ha sabut confegir el nom de la categoria a partir del label del centre educatiu. En el primer cas es pot crear la categoria a mà i ja l'ompliré amb bot. En el segon es pot traduir (si cal) l'etiqueta del centre.

La intenció és fer una llista semblant amb els llocs de naixement, amb la diferència que no crec que es pugui crear les categories amb bot. Si algú vol començar a crear categories per origen puc mirar d'avançar la llista dels llocs d'on tenim cinc habitants però no en tenim encara la categoria.

KajenCAT (discussiócontribucions)

Em centraré més a les categories de persones en funció del seu origen. Hi ha alguna forma de saber si hi ha articles catalans amb dues categories com ara "Jugadors d'escacs txecs" i "Esportistes de Praga"? Així també facilitaria de veure categories redundants com dius tu com Persones de Bratislava i Eslovacs. I si no, aniré mirant les contribucions del teu bot però és molt probable que se'm passi per alt.

Respecte el segon punt, m'imagino que la única manera, si lo que he dit anteriorment no es pot, és anant mirant al Petscan amb categories angleses, txeques o de la Viquipèdia que sigui?

Respecte el tercer punt, et refereixes que si creo una subcategoria enllaçada a WD amb 5, el teu bot el pot detectar i incloure la resta en funció del WD?

Respecte Si algú vol començar a crear categories per origen puc mirar d'avançar la llista dels llocs d'on tenim cinc habitants però no en tenim encara la categoria, m'hi apunto també!

KajenCAT (discussiócontribucions)

També hi hauria una altre qüestió; les categories Persones de X lloc farem en funció del lloc de naixement (que m'imagino que es pot controlar amb lloc de naixement (P19)) o seguirem el criteri d'enwiki i també inclouem tota aquella persona que hagi viscut en un temps considerable en altres llocs?

Pere prlpz (discussiócontribucions)

Per intersecció de categories, la millor eina que conec és el https://petscan.wmflabs.org/ . Crec que n'hi ha alguna més però no les he provat. La llàstima és que no té una connexió amb el Cat-a-lot i un cop trobats els articles s'han de moure d'un en un amb Hot-cat. Ara bé, en alguns casos com els esportistes de Praga, pot ser més pràctic anar obrint els articles que ha mogut el bot, veure què és cada un, i obrir les subcategories amb Hot-cat a veure si n'hi ha alguna d'adient.

Interseccions massives es poden fer amb bot, però porta feina i en general no val la pena si no és per moure molts articles de cop. A més, el programa que tenia per fer-ho està desactualitzat.

Si crees una categoria de persones del lloc X, i a Wikidata l'enllaces des de l'item del lloc X amb Categoria de persones relacionades (P1792) o Categoria per a les persones nascudes aquí (P1464), el bot hi afegirà els articles que trobi que tinguin Lloc de naixement (P19) a X, sigui un o siguin cinc-cents. Això si tot va bé, i compte que em temo que el bot té feina per setmanes.

Una llista o una consulta dels llocs que ja sabem que n'hi ha cinc pot ser útil per no tenir sorpreses creant una categoria i que després es quedi buida. Miraré què hi puc fer. Una llista con la de centres educatius (que té la mateixa intenció) és una de les maneres de fer-ho.

KajenCAT (discussiócontribucions)

Sisi, però em referia sense tenir en compte les altres viquipèdies que, en l'exemple que havia ficat jo, no existeix la categoria "Jugadors d'escacs de Praga". Llavors la meva idea seria una eina que detectés quins articles tenen dues categories que t'interessen. No sé si m'he explicat prou bé.

Llavors, amb aquesta edicció és suficient perquè el bot pugui incloure els articles restants a la categoria Esportistes de Tula (Rússia) que acabo de crear, oi?

Pere prlpz (discussiócontribucions)

Copiar categories entre viquipèdies jo ho havia fet fa temps amb bot i no era especialment efectiu. A https://admin.toolforge.org/tools hi ha l'enllaç a una eina CrossCats que hauria de fer el mateix però que no funciona, i no sé si té substitut. De tota manera, el que abans intentava fer a partir d'altres viquipèdies és el que ara es pot fer a partir de Wikidata (per exemple, buscar esportistes de Tula).

Sobre l'edició, el bot no omple categories de l'estil de la d'esportistes de Tula, sinó de l'estil de Categoria:Persones de Tula (Rússia) i el que permet que el bot la trobi és que a Tula (Q2770) la propietat Categoria de persones relacionades (P1792) té el valor Categoria:Persones de Tula (Rússia) (Q6041071), que és l'element de la categoria.

Pere prlpz (discussiócontribucions)

Per cert:

# esportistes de Tula
SELECT DISTINCT ?persona ?esport ?personaLabel ?esportLabel ?article
WHERE {
  ?persona wdt:P19 wd:Q2770.
  ?persona wdt:P641 ?esport.
  ?article schema:about ?persona.
  ?article schema:isPartOf <https://ca.wikipedia.org/>.
SERVICE wikibase:label {
bd:serviceParam wikibase:language "ca" .
}
}

Prova-ho !

Em sembla que si volem fins i tot podem crear la categoria de ciclistes de Tula.

KajenCAT (discussiócontribucions)

Perfecte, ja entenc com funciona. Gràcies pel query, que també em servirà per complementar amb PetScan per si s'escapa algun article.

He revisat tots els que ha fet el teu bot ahir, excepte els de Praga, i no sembla haver cap problema

KajenCAT (discussiócontribucions)

Després de revisar tots els d'ahir i tots els d'avui fins 18:32,i constato que realment és necessària una revisió ja que he trobat desenes de categories redundants i, en menor mesura, dades errònies de WD (fins i tot, he trobat un article amb tres llocs de naixement diferent) i algun cas que es podria categoritzar encara més concret com aquest.

També dir que si hi ha algú que ho està revisant, podriem dividir-nos per no repetir els articles.

Salutacions!

Pere prlpz (discussiócontribucions)

No crec que sigui una prioritat revisar-los urgentment, perquè després de posar-hi la categoria els articles estan millor que abans. En tot cas, la categoria fa visible que podrien estar encara millor.

  • Si hi ha algun error a Wikidata, aquest error ja surt a la infotaula. Que surti a la categoria el fa més visible però no pitjor.
  • El mateix si l'error és que l'article tenia una categoria per origen incorrecta.
  • Si alguna categoria de les que hi havia passa a ser redundant, s'ha de treure, però tampoc és una cosa urgent.
  • Si algun article podria estar a una categoria encara més concreta, s'hi haurà de posar, però tampoc és una cosa urgent. Fins ahir estava a una categoria menys concreta que ara.

Sí que seria important repassar les edicions si el bot estigués fent edicions incorrectes, però diria que això no és el cas.

O sigui, si ens posem a categoritzar, aquests articles són un bon lloc per començar perquè segur que no cal estressar-nos ni prioritzar-ho. A més, fins i tot engegant el bot a estones el nombre d'edicions que farà serà impossible de repassar exhaustivament a mà. Al final totes les categories es revisaran dins del procés normal d'anar categoritzant a mà.

També pot ser que alguna d'aquestes coses (categories redundants i categories més concretes) es puguin fer amb bot, però serà només per alguns casos.

KajenCAT (discussiócontribucions)

Estic totalment d'acord amb tu Pere, no pretenia dir que fos urgent ni molt menys sinó simplement constatar lo que he vist després de revisar ràpidament uns centenars d'articles, o sigui, dels errors que he vist fins ara no són atruïbles al bot sinó un error humà a WD o simplement la redundància. Salut!

Pere prlpz (discussiócontribucions)

Jo el que més m'he trobat són llocs de naixement diferents aquí i a Viquidata, de vegades tots dos sense referències. Són articles que ja deien una cosa a la introducció i una altra a la infotaula.

I si estem d'acord que no cal revisar urgentment (o sigui, que el pas del bot no empitjora l'article) el segueixo engegant fins que acabi amb totes les categories que pugui posar. Passaran dies, suposo.

KajenCAT (discussiócontribucions)

Perfecte, aniré revisant aleatòriament i fent categories de llocs on crec que hi pot haver més articles amb l'ajuda de Petscan.

Pere prlpz (discussiócontribucions)

Em sembla que he pogut resoldre una mica el tema de les categories redundants , si més no on les categories redundants estiguin enllaçades a Wikidata a una entitat territorial administrativa superior (cosa que no passa sempre; per exemple, crec que no passa amb algunes comarques).

Pere prlpz (discussiócontribucions)

Una de les discrepàncies amb Wikidata que estan aflorant són els casos en que una entitat administrativa i la seva capital duen el mateix nom (per exemple, les províncies espanyoles o italianes) i en un lloc surt com a lloc de naixement la capital i en l'altre la divisió administrativa. Especialment m'ho trobo en llocs en que s'està anomenant la divisió administrativa amb el nom de la capital, sense la part genèrica ("província de" o el que sigui) de manera que la diferència és invisible fins que es mira l'enllaç o la categoria i sospito que en algun pas per algun lloc algú va copiar l'una per l'altra, i ara costa saber quin lloc de naixement és el bo.

KajenCAT (discussiócontribucions)

Seria possible que es degui perque algú va escriure WD el mateix nom de la provincia que la capital i llavors és bastant normal que els editors catalans que hagin ficat el lloc de naixement s'hagin confòs. De fet, m'ho vaig trobar ahir que una infotaula deia que havia nascut a Saragossa quan en realitat només se sabia que era en algun lloc de la província de Saragossa. Vaig anar a WD i vaig veure que realment es referia a la província, sent els únics que no afegim "Província de" o "(província)". Vaig canviar la majoria de WD de províncies espanyoles per evitar futures confusions però segurament m'he deixat algunes.

Pere prlpz (discussiócontribucions)

Que el label de la província es digui igual que el label de la capital no és problema. De fet, a Wikidata els noms no s'han de desambiguar. La desambiguació a Wikidata ve per la descripció, que per això és important que hi sigui. Pel bot encara és menys problema perquè no es mira el label.

Cada cas pot ser un món i caldria veure com s'ha pujat cada personatge. No crec que el problema habitual sigui d'un editor català escrivint "Saragossa" a Wikidata sense fixar-se si la descripció diu ciutat, província o vaixell, tot i que també deu haver passat. Per mi que el problema més freqüent deuen ser les pujades automàtiques mal fetes, que d'aquestes a Wikidata n'hi ha moltes. Per exemple, pel que estic veient darrerament em temo que algú devia pujar automàticament una categoria d'antics romans com a nascuts a Roma sense vigilar si havien nascut en altres llocs de l'imperi.

Pere prlpz (discussiócontribucions)

Un altre exemple: El 2016 un bot va posar lloc de naixement Salamanca (Q15695) (la ciutat de Salamanca) a Agustín Sánchez Vidal (Q399446), posant com a referència la Viquipèdia en alemany. Ara bé, durant tot el 2016 l'article en alemany donava com a lloc de naixement "Provinz Salamanca", que lliga amb el que diu la Viquipèdia en castellà i la nostra que va néixer a Cilleros de la Bastida (tot sense referències).

I això ho hem tingut malament a la infotaula des que va començar a xuclar dades de Wikidata.

Pere prlpz (discussiócontribucions)

Més coses: Les categories per origen que tenim però que a Wikidata no estan enllaçades des del lloc corresponent. Una mostra amb els importants: comarques catalanes i valencianes (que és on està més greu el tema), províncies italianes, estats sobirans i algunes coses més d'altres llocs.

# Categories de nascuts o relacionats amb comarques, estats, comunitats, províncies, etc.
# Només agafa una selecció de llocs que se suposa que majoritàriament hem de tenir.
SELECT DISTINCT ?tipus ?tipusLabel ?lloc ?llocLabel ?cat ?categoria
WHERE {
    VALUES ?tipus {wd:Q937876 wd:Q766277 wd:Q15089 wd:Q6465 wd:Q5107 wd:Q3624078 wd:Q10742 wd:Q35657 wd:Q1221156}
    ?lloc wdt:P31 ?tipus.
  OPTIONAL {
    ?lloc wdt:P1464|wdt:P1792 ?cat.
  OPTIONAL {
    ?categoria schema:about ?cat.
    ?categoria schema:isPartOf <https://ca.wikipedia.org/>.
  }
  }
SERVICE wikibase:label {
bd:serviceParam wikibase:language "[AUTO_LANGUAGE],ca,en,es" . } 
}
ORDER BY ?tipusLabel ?llocLabel

Prova-ho !

Aquí hi ha diferents casos:

  • Manca l'element de la categoria (columna cat): Si a la Viquipèdita tenim la categoria, s'hauria d'enllaçar des de l'element del lloc amb Categoria de persones relacionades (P1792). És el cas de la majoria de comarques.
  • A la columna cat hi ha un element però no apareix a la columna categoria la categoria que en tenim a la Viquipèdia. Vol dir que falta posar-li interviquis a la nostra categoria. Normalment caldrà fusionar-ne l'element amb el que surt a Wikidata. Compte que molts llocs surten dos cops (seguits) a la consulta, perquè altres viquipèdies tenen una categoria amb Categoria de persones relacionades (P1792) i una altra amb Categoria per a les persones nascudes aquí (P1464) i nosaltres només en tenim una, que s'ha d'enllaçar a una de les dues.
  • No en tenim la categoria. Si és en aquesta llista, segurament es podria crear però tampoc està garantit.

Arreglant això, a més d'endreçar Wikidata, resoldríem a la manca d'interviquis (presents i futurs) d'alguna categoria i faríem més fàcil trobar categories redundants (per exemple, pel meu bot).

KajenCAT (discussiócontribucions)

He mirat tot d'aquest query; comarques catalanes i valencianes, CCAA, departaments francesos, províncies italianes i països. Principalment, hi ha algunes coses que no he sapigut solucionar; la majoria perquè no tinc ni idea com ho hauriem de fer; la CCAA basca, els continents i Bòsnia i Hercegovina i també el cas deTurquia que vec que està tot correcte però tot i així no surt la categoria catalana a la query.

No en tots he pogut crear categoria, o bé perquè eren entitats desaparegudes o bé no complien el requisit de 5.

Pere prlpz (discussiócontribucions)

Perfecte. De fet, el principal objectiu de la consulta era enllaçar els casos com les comarques, que sabem que tenim però que no estan enllaçats.

La categorització dels temes bascos l'hem de discutir i resoldre algun dia. El punt a decidir és com anomenem a les categories de la comunitat autònoma basca i com anomenem a les categories d'Euskal Herria. Ara tendim a anomenar-ho tot País Basc i posar-ho al mateix sac.

KajenCAT (discussiócontribucions)
Pere prlpz (discussiócontribucions)

Perdó, no és 1972, és Categoria de persones relacionades (P1792).

I Categoría:Naixitos d'o Barcelonés (Q43396723) i Categoria:Persones del Barcelonès (Q8727241) no són el mateix, perquè moltes viquipèdies separen les persones relacionades amb un lloc de les persones nascudes en aquell lloc. Aquí ho simplifiquem amb una sola categoria de significat una mica ambigu, que és el que hem fet sempre i el que ens convé més. Potser hauríem de parlar un dia de quin dels dos elements convé més a les nostres categories quan existeixen els dos (així de memòria, tenim unes 2000 categories posades com persones relacionades i unes 700 com a nascuts), però a la pràctica l'important és que estigui enllaçada a una de les dues. Suposo que històricament el que hem fet ha estat posar inteviquis a la primera que apareixia o la primera que trobàvem.

Pere prlpz (discussiócontribucions)

I sobre el que cal fer amb les comarques, una mostra seria . A més, estaria bé posar les propietats recíproques a l'element de la categoria (això eliminaria els avisos i seria bo per Wikidata, tot i que el bot no ho fa servir).

KajenCAT (discussiócontribucions)

Ja m'estranyava haha. Després, aniré ficant amb les catalanes que surten a l'últim query que has passat, doncs.

Pere prlpz (discussiócontribucions)

Curiositats de Wikidata:

  • El dotzè valor més freqüent de Lloc de naixement (P19) a tot Wikidata és Barcelona (Q1492) amb 10527 persones, aproximadament un 40% del més freqüent que és París (Q90) amb 26072.
  • Abans de celebrar aquesta gesta en proporció a la nostra població, cal veure el cas d'Abaltzisketa (Q1598962), amb 5408 elements de persones nascudes per un poble de 333 habitants. Sembla que han pujat a Wikidata el registre parroquial dels darrers 500 anys.
Pere prlpz (discussiócontribucions)

I la llista de categories creades i per crear sembla que finalment no cal fer-la perquè es pot treure amb consultes:

# Categories per origen de llocs d'Espanya i nombre d'articles
SELECT DISTINCT ?lloc ?llocLabel ?cat ?categoria  (COUNT(?persona) AS ?totpers)
    WHERE {
      ?persona wdt:P19 ?lloc.
      ?lloc wdt:P17 wd:Q29.
    ?art schema:about ?persona.
    ?art schema:isPartOf <https://ca.wikipedia.org/>.
  OPTIONAL {
    ?lloc wdt:P1464|wdt:P1792 ?cat.
  OPTIONAL {
    ?categoria schema:about ?cat.
    ?categoria schema:isPartOf <https://ca.wikipedia.org/>.
  }
    }
SERVICE wikibase:label {
bd:serviceParam wikibase:language "[AUTO_LANGUAGE],ca,en,es" . } 
      }
GROUP BY ?lloc ?cat ?llocLabel ?categoria
ORDER BY DESC(?totpers) ?llocLabel

Prova-ho !

Hi deu haver-hi unes quantes categories per crear però primer n'hi ha unes quantes per enllaçar.

Pere prlpz (discussiócontribucions)

Una versió més manejable de la mateixa consulta:

# Categories per origen de llocs d'Espanya i nombre d'articles
SELECT DISTINCT ?lloc ?llocLabel ?cat ?categoria ?catnat ?categorianat (COUNT(?persona) AS ?totpers)
    WHERE {
      ?persona wdt:P19 ?lloc.
      ?lloc wdt:P17 wd:Q29.
    ?art schema:about ?persona.
    ?art schema:isPartOf <https://ca.wikipedia.org/>.
  OPTIONAL {
    ?lloc wdt:P1464 ?catnat.
  OPTIONAL {
    ?categorianat schema:about ?catnat.
    ?categorianat schema:isPartOf <https://ca.wikipedia.org/>.
  }
    }
  OPTIONAL {
    ?lloc wdt:P1792 ?cat.
  OPTIONAL {
    ?categoria schema:about ?cat.
    ?categoria schema:isPartOf <https://ca.wikipedia.org/>.
  }
    }
SERVICE wikibase:label {
bd:serviceParam wikibase:language "[AUTO_LANGUAGE],ca,en,es" . } 
      }
GROUP BY ?lloc ?cat ?llocLabel ?categoria ?catnat ?categorianat
ORDER BY DESC(?totpers) ?llocLabel

Prova-ho !

KajenCAT (discussiócontribucions)

Sembla haver una duplicació amb persones de Moianès i no sembla ser per tema de nascuts vs relacionats; Q25030691 i Q20883302

Pere prlpz (discussiócontribucions)

Sí, només cal fusionar. Passa sovint, que els interviquis s'han agrupat en conjunts disjunts. Els àzeris es van enllaçar només amb els anglesos i nosaltres només amb els bascos.

Per cert, per aquests casos va bé la pestanya merge a Wikidata. No sé si ara surt per defecte, però abans era un gadget que s'havia d'activar a les preferències.

Pere prlpz (discussiócontribucions)

Acabat, de moment. Comento les coses que el bot NO ha fet, per qui vulgui continuar a mà:

  • Categoritzar per origen els articles les persones que figuren a Wikidta com a nascudes en un lloc del que no tenim una categoria. Per exemple, si algú sortís a Wikidata com a nascut a Bujaraloz el bot no l'hauria categoritzat a :categoria:persones de Bujaraloz que no existeix, però tampoc en cap altra categoria d'aragonesos.
  • Crear categories noves. Tot i això, diria que al nostre àmbit tots els llocs amb unes 10 persones o més ja tenen categoria i està enllaçada.
  • Moure persones a les subcategories per activitat o altres criteris. Per exemple, categories com :categoria:Barcelonins, :categoria:Valencians de la ciutat de València o :categoria:Novaiorquesos tenen uns quants centenars d'articles directament i segur que la major part podrien anar en categories més concretes.

Aprofito per recordar que si trobeu alguna categoria errònia, a més d'arreglar la categoria cal arreglar el que diu Wikidata per evitar que el bot la torni a posar. Normalent fent això també s'arregla la infotaula.

Pot ser que algunes coses de les que el bot no ha fet es pugin automatitzar en el futur, però dubto molt que pugui ser de manera gaire exhaustiva.

KajenCAT (discussiócontribucions)

Diria que quasi ja estàn totes les categories creades i enllaçades correctament en tots els municipis de l'estat espanyol que tinguèssim 8 articles de persones nascudes o més (faltarien només tres, crec). Aquests dies també he anat fent categories de ciutats de països de tot el món sense seguir cap criteri en concret sempre quan fossin almenys 5 utilitzant el mateix query però canviant de país. De moment, ja en porto 25 països revisats.

Perdona per la meva ignorància ja que desconec absolutament com funcionen els bots, però no existeix la possibilitat d'agafar, per exemple, P101 (Ocupació) que tingui "escriptor" i amb el lloc de naixement "X" i, per tant, pugui ficar els articles que faltin a "Escriptors de X" (suposant que la categoria ja estiguès creada)?

Pere prlpz (discussiócontribucions)

Bona feina. Fa una estona he engegat el bot, abans de veure el teu missatge, i ara m'he endut la sorpresa de totes les categories que estan sortint.

Fer un bot per intersecar categories o per combinar categories a partir de Wikidata suposo que és possible, tot i que porta feina i no sé com seria d'efectiu. Hi ha un parell de problemes:

  • Que les categories com "escriptors de X" no estan enllaçades a Wikidata ni a l'element X ni a l'element escriptor, a diferència de les categories "persones de X" i "escriptors" que sí que ho haurien d'estar. Trobar el nom de la categoria no és trivial per un programa. Només cal veure que en el cas molt més fàcil de les universitats no vaig aconseguir confegir tots els noms de les categories amb bot.
  • Que caldria comprovar que es pot identificar la categoria per activitat a partir de Wikidata, quan a Wikidata hi deu haver centenars o milers d'ocupacions i probablement enteses de manera poc consistent. Amb una cosa més simple com els origen ja només estic agafant els que tinguin una correspondència exacta (veure l'exemple de Bujaraloz de fa dos dies) i tot i així ens estem empassant una colla d'errors de Wikidata (ara a les categories però des d'abans també a les infotaules). Amb les ocupacions seria pitjor.

O sigui, es pot provar i potser estalviaria part de la feina manual, tot i que hi tinc una fe limitada i no sé si és la tasca més prioritària ara mateix. De fet, estic intentant estalviar la màxima feina manual amb la mínima feina de programar bots i em sembla que tinc alguns objectius més fàcils.

Pere prlpz (discussiócontribucions)

Per cert, quan creïs la categoria no és necessari que l'omplis. Una categoria no es pot quedar buida o amb menys de cinc articles indefinidament, però per uns dies no passa res.

KajenCAT (discussiócontribucions)

Gràcies i això no hauria sigut possible sense tu! Entenc Pere, potser es podria mirar en altres viquipèdies com la italiana, àrab o euskera que he vist que també utilitzen bots a l'hora de categoritzar. No sé si existeix una espècie de fòrum on diferents editors de diferents Viquipèdies expliquen la seva experiència en aquest àmbit i els resultats.Aquests dies aniré fent categories de persones de diferents països de tot el món.

Respecte l'últim missatge, ho sé Pere, però ho faig perquè un administrador em van esborrar una categoria que tenia buida en només un dia (ni tan sols previ avís ni res)

Pere prlpz (discussiócontribucions)

Si un administrador va esborrar la categoria en comptes de posar-hi {{5ac}} o una cosa semblant és que es devia pensar que era una categoria abandonada. O això o que anava molt embalat, que també passa. Si cal, avisem els administradors que no llegeixin la Taverna. Alternativament, s'hi podria posar {{categoria per omplir}}, però la gràcia del bot és estalviar feina i no afegir la feina de posar i treure etiquetes. Demanar als administradors que restaurin la categoria pot ser una manera de matar dos pardals d'un tret: recuperar-la i que se n'adonin que no està abandonada.

Jo aquests vaig estar uns dies creant categories i omplint-les, de vegades amb dies entremig, i no vaig veure que me'n desaparegués cap.

Pere prlpz (discussiócontribucions)
Pere prlpz (discussiócontribucions)
Pere prlpz (discussiócontribucions)

Si no m'he equivocat, els premis dels que tenim articles de personatges premiats però no en tenim una categoria o no està enllaçada a Wikidata, són els que surten a Usuari:PereBot/premis. Deixo l'enllaç per si a algú n'hi fa gràcia algun i vol crear la categoria i enllaçar-la a Wikidata.

Pere prlpz (discussiócontribucions)

M'estic trobant amb un problema amb les categories de premis, aquí i a Wikidata: Quan els premis es donen per obres artístiques (principalment pel·lícules i llibres) no està clar si a la categoria de premiats hi ha d'anar l'obra o l'artista. El criteri que estic adoptant és de moment treure les obres de les categories que siguin subcategories d'una categoria de persones (per exemple, escriptors o actors per premi) i treure els artistes quan la categoria sigui subcategoria d'una categoria d'obres, cosa que passa menys, i pel futur deixar de posar aquestes categories amb bot fins que s'aclareixi.

De totes maneres, crec que hauríem d'aclarir millor quines categories són per persones i quines per obres, i en alguns premis potser caldria tenir les dues categories (autors i novel·les guanyadors del premi Ramon Llull, actrius i pel·licules guanyadores de l'Oscar a la millor actriu, etc.).

Per si a algú li interessa, el fil equivalent a Wikidata és a d:Wikidata:Project_chat#Awards:_winner_works_and_winner_artists_categories.

Resposta a «Categories per universitat»