Tema de Viquipèdia:La taverna/Ajuda

Treure dades de WD i fer canvis per lots a les Categories

32
Cataleirxs (discussiócontribucions)

Hola a tothom. Voldria aprendre com fer servir wikidata per treure dades que em servissin per reendreçar algunes de les categories que empro més sovint. On puc trobar manuals o tutorials que em serveixin per aquesta fi?

Un cas pràctic: vull treure una llista de WD de totes les instàncies:éssers humans, ciutadania:Brasil i ocupació:polític. A més, que inclogui en una columna els enllaços a ca.wiki i l'estat de naixement (no la localitat ni el país).

Gràcies.

Amadalvarez (discussiócontribucions)

@Cataleirxs. El resultat pot tenir alguns errors a l'estat. El concepte "estat" (entès com a subdivisió, no com a sobirania) no existeix, sinó que és un dels nivells de la Localitzat a l'entitat territorial administrativa (P131). He assumit que l'estat era la primera P131 que està per sobre del Lloc de naixement (P19), però no sempre té perquè ser així.

Aquí tens la llista

#title: Llista de biografies a cawiki de polítics brasilers  
SELECT ?item ?itemLabel ?sitelink ?lloc ?llocLabel ?estatLabel WHERE {
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  ?item wdt:P31 wd:Q5;
    wdt:P106 wd:Q82955.
  ?item wdt:P27 wd:Q155.
  OPTIONAL { ?item wdt:P19 ?lloc.
            ?lloc wdt:P131 ?estat .
           }
  ?sitelink schema:about ?item. ?sitelink schema:inLanguage "ca".
}
LIMIT 500

Prova-ho !


Aquí tens els totals per estat:

#title: Nombre de biografies a cawiki de polítics brasilers x estat. 
SELECT DISTINCT ?estat ?estatLabel ?count 
WHERE
{
  {
    SELECT ?estat (COUNT(DISTINCT ?item) AS ?count) WHERE {
         hint:Query hint:optimizer "None" .
    ?item wdt:P106 wd:Q82955.
    ?item wdt:P27 wd:Q155.
  OPTIONAL { ?item wdt:P19 ?lloc.
            ?lloc wdt:P131 ?estat .
           }
  ?sitelink schema:about ?item. ?sitelink schema:inLanguage "ca".
  } 
        GROUP BY ?estat
}
  SERVICE wikibase:label { bd:serviceParam wikibase:language "ca,en"  }
}
ORDER BY DESC(?count) ASC(?estatLabel)

Prova-ho !

Salut !

Pere prlpz (discussiócontribucions)

Per evitar l'error que deies de les divisions administratives que no són estats, es pot comprovar que l'estat sigui una Unitat Federativa de Brasil (Q485258).

#title: Llista de biografies a cawiki de polítics brasilers  
SELECT ?item ?itemLabel ?sitelink ?lloc ?llocLabel ?estatLabel WHERE {
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  ?item wdt:P31 wd:Q5;
    wdt:P106 wd:Q82955.
  ?item wdt:P27 wd:Q155.
  OPTIONAL { ?item wdt:P19 ?lloc.
            ?lloc wdt:P131* ?estat.
            ?estat wdt:P31 wd:Q485258.
           }
  ?sitelink schema:about ?item. ?sitelink schema:inLanguage "ca".
}

Prova-ho !

#title: Nombre de biografies a cawiki de polítics brasilers x estat. 
SELECT DISTINCT ?estat ?estatLabel ?count 
WHERE
{
  {
    SELECT ?estat (COUNT(DISTINCT ?item) AS ?count) WHERE {
         hint:Query hint:optimizer "None" .
    ?item wdt:P106 wd:Q82955.
    ?item wdt:P27 wd:Q155.
  OPTIONAL { ?item wdt:P19 ?lloc.
            ?lloc wdt:P131* ?estat.
            ?estat wdt:P31 wd:Q485258.
           }
  ?sitelink schema:about ?item. ?sitelink schema:inLanguage "ca".
  } 
        GROUP BY ?estat
}
  SERVICE wikibase:label { bd:serviceParam wikibase:language "ca,en"  }
}
ORDER BY DESC(?count) ASC(?estatLabel)

Prova-ho !

De fet, el fals negatiu que a mi em preocupa són les possibles subclasses de polític.

Amadalvarez (discussiócontribucions)

Per començar, a SPARQL#Vegeu_també trobaràs un tutorial bàsic i fàcil.

Suposo que estàs familiaritzat amb el concepte dels "triples" (en anglès) o "ternes" com s'ha traduït en algun lloc. En aquest tutorial s'explica molt bé, però per qui prefereixi imatges millor que text, us recomano SPARQL in 11 minutes. El que explica el vídeo està al tutorial, però al tutorial hi ha més instruccions que en aquest vídeo.

De moment,...

Pere prlpz (discussiócontribucions)

Si ho vols fer a mà, és com diu l'Amador. Si només vols categoritzar, si els articles estan en una subcategoria de polític i en una subcategoria de persones de l'estat que sigui, un bot els pot posar a la categoria de polítics de l'estat o una subcategoria.

Cataleirxs (discussiócontribucions)

@Pere prlpz però el bot necessita que aquesta categoria d'intersecció (polítics de l'estat X) ja existeixi, oi? És per això que necessito la info, per saber quantes subcategories he de crear

Pere prlpz (discussiócontribucions)

Sí, aquest bot no crea categories.

Cataleirxs (discussiócontribucions)

Aquest cap de setmana em miraré amb calma el manual, a veure si aprenc a fer les consultes. He anat mirant les que m'heu passat i sí, era això el que cercava. Moltes gràcies. Per exemple, ara sé que puc crear els polítics de Pernambuco i, dintre, els de Recife. Quan ho faci, el bot passarà automàticament o li hem de dir?

Pere prlpz (discussiócontribucions)

L'he d'engegar per que revisi les categories. Abans el passava periòdicament però me'n vaig cansar d'atendre consultes dels que no els agrada com tenim les categories i no volen canviar-les però demanen que fem grans esforços per que no vegin que estan com no els agrada.

Cataleirxs (discussiócontribucions)

Algunes de les queixes rebudes són meves :(

Pere prlpz (discussiócontribucions)

Per si és útil: el bot no és l'única manera de fer interseccions de categories. A Categoria Discussió:Morts en combat hi ha explicat com fer interseccions amb PetScan + QuickCategories. Només cal anar amb compte amb les inclusions estranyes (com ara tots els comunistes del món dins de filòsofs alemanys).

Cataleirxs (discussiócontribucions)

Aprofitant que estem parlant del tema, el Perebot marca com a Polítics a persones que són exiliats, presos polítics, independentistes, comunistes, afiliats al partit X, etc. sense que s'hagin dedicat professionalment a la política. Que em vinguin al cap ara, Jordi Cuixart i Oscar Niemeyer. Es pot fer alguna cosa amb això?

Pere prlpz (discussiócontribucions)

Per cert, algunes coses d'aquestes estan arreglades de fa temps, després d'haver-les descobert amb el bot. Per exemple, teníem polítics > represaliats polítics > exiliats, i ara ja no ho tenim. De fet el problema no era tant si això està bé o malament sinó que que no lligava amb el que estàvem posant dins de la categoria d'exiliats, que hi havia per exemple els jueus que fugien del nazisme. A mi ja em sembla bé com està (amb exiliats fora de polítics), però algú pot argumentar que els exiliats són només els polítics (i si són exiliats per motius polítics són polítics) i els que no són polítics han d'anar a les categories de refugiats, i també podria funcionar bé. El que no funciona és quan els criteris són contradictoris, i posem a la categoria d'exiliats que no són polítics mentre posem la categoria d'exiliats dins de polítics.

El que passava amb exiliats és semblant al que ens passa el mateix amb els traductors. Algú va posar la categoria de traductors dins de lingüistes, possiblement pensant que els traductors professionals són uns lingüistes especialitzats, però després dins de la categoria de traductors hi posem gent que ha fet traduccions però que no són gaire lingüistes (per exemple, un escriptor que tradueix un llibre de poemes o un científic que tradueix un llibre del seu camp). Podem decidir que si aquests no professionals són traductors o no, si els traductors professionals són lingüistes i si aquests traductors que no són professionals o no són lingüistes de formació són lingüistes, però hem de decidir coses compatibles entre elles i reflectir-ho a les categories.

El tema dels traductors i uns quants més que són debatibles fa mesos que estan recollits a Tema:Wsozu41cn0x3a7bq sense que a ningú li hagi semblat malament la situació actual.

Cataleirxs (discussiócontribucions)

Aaah, per això quan vaig intentar seguir el fil de categories cap amunt no trobava la relació, ja ho havies modificat. Sí que tens raó que hi ha alguns casos, com el propi Cuixart que jo havia fet servir d'exemple o els militants, que no és gens descabellat que estiguin dintre de polítics.

Sobre les discussions que has mencionat, ni sabia que existien. No valdria la pena parlar-les a la taverna?

Pere prlpz (discussiócontribucions)

Val la pena parlar-ne a la Taverna o on sigui en comptes de parlar de la seva aplicació a cada article. Si creus que alguna cosa de les que hi ha recollides s'ha de canviar, parlem-ne.

I algunes coses les vaig anar arreglant a mida que les trobava. Normalment està posat a les discussions de les categories, però recordo que vaig acabar traient científics socials de científics (per que si no historiadors i traductors eren científics, cosa que ja era massa), i els exiliats (o més ben dit, els represaliats polítics) de polítics. A més, teníem el problema dels criteris no uniformes, com posar els metges dins de científics però no posar els metges de X dins de científics de X (o el mateix amb egiptòlegs i arqueòlegs, arqueòlegs i historiadors, etc.) i aquestes les vaig homogeneitzar, normalment seguint el criteri aplicat a la categoria superior.

Pere prlpz (discussiócontribucions)

Si els afiliats al partit X, els que tenen la ideologia X o els que ocupen el càrrec X no són polítics, aleshores s'ha de treure de la categoria de polítics les categories d'afiliats al partit X, dels que que tenen la ideologia X o dels que ocupen el càrrec X.

Igualment, si els que categoritzem en certes ideologies no són activistes, s'han de treure les categories de persones d'aquestes ideologies de les categories d'activistes.

Dit això, a mi em resulta força estrany dir que algú que s'afilia a un partit polític no està fent política, encara que tingui un altre ofici i no cobri de la política. A les assemblees d'alguns partits la majoria de gent viu d'una cosa diferent de la política, però estan fent política i són polítics, encara que siguin voluntaris i no professionals. Per això no em sembla malament que les categories d'afiliats a partits polítics (i tot el que contenen) estiguin dins de les categories de polítics.

Ara bé, si el consens és un altre, cap problema. Només cal que els criteris d'inclusió de les categories lliguin amb les supercategories on les posem.

Pere prlpz (discussiócontribucions)

O sigui, el bot no posa ningú a la categoria de polítics. Si el bot li posa a algú una categoria de polítics, és que ja està dins de la categoria de polítics i si això és un problema, això és el que s'ha de resoldre.

Cataleirxs (discussiócontribucions)

Categoria:Polítics sense pagueta XD

Cataleirxs (discussiócontribucions)

Vaig saltant d'un tema a un altre. A la pàgina de discussió de categories hi surt la frase "Els metges són científics, però els enginyers no i els veterinaris tampoc". Com faig per debatre-ho? Allà mateix, a la pàgina de discussió de vets i/o metges, a la teverna?

Pere prlpz (discussiócontribucions)

On vulguis. La discussió de la categoria és adient, però si afecta gaires categories diferents la Taverna pot ser un bon lloc, i Viquipèdia Discussió:Categorització també. De fet, si el tema és potencialment polèmic millor la Taverna (o un altre lloc amb avís a la Taverna) per que tingui visibilitat.

I compte que per treure els metges de científics, a més de trobar el consens, cal fer una feinada per editar unes 130 categories i moltíssims articles. Per posar veterinaris o enginyers dins de científics també però pot ser més fàcil d'automatitzar.

Cataleirxs (discussiócontribucions)

El que voldria és afegir els veterinaris dintre de científics, ja que bona part de la investigació mèdica per humans primer es fa en animals - a més de la investigació pròpiament per animals.

En honor a la veritat, la meva proposta realment seria treure metges i veterinaris de científics (no tots els metges ni els veterinaris fan investigació). M'acontentaria amb que tots dos hi siguin, però no amb la situació actual en que només hi són els de medicina humana.

Pere prlpz (discussiócontribucions)

Es pot fer, però jo obriria un fil nou perquè aquest no crec que el segueixi gaire gent.

Per la meva banda, em sembla raonable aplicar el mateix criteri als veterinaris que als metges, amb l'únic dubte de si els metges haurien de seguir essent científics.

Cataleirxs (discussiócontribucions)

Les categories han de tenir correlació interwiki? No n'he fet cap!

Amadalvarez (discussiócontribucions)

Una a una, sí. Però les superiors i inferiors no tenen perquè coincidir els arbres

Pere prlpz (discussiócontribucions)

Potser estem entenent coses diferents per "correlació" interwiki.

Les categories tenen un enllaç interviqui quan hi ha dues categories equivalents (raonablement equivalents). Això no vol dir que hagin d'estar a les mateixes categories ni que hagin de tenir les mateixes subcategories. Fins i tot pot ser que la definició de la categoria sigui diferent.

Per exemple, enllacem les nostres categories d'artistes amb les categories d'"artists" a enwiki, tot i que nosaltres incloem músics i actors dins d'artistes i a enwiki no (van a "entertainers", no a "artists"). Un altre exemple, nosaltres tenim categories per origen de significat volgudament ambigu (persones del lloc) mentre en en altres viquipèdies tenen persones del lloc (o relacionades amb el lloc) i persones nascudes al lloc; en aquest cas posem l'interviqui amb la categoria que existeixi o la que tingui més interviquis (o amb qualsevol de les dues).

Normalment per les categories més generals (ocupació, origen, o ocupació i estat) és fàcil trobar interviquis. Per les més concretes (metges reusencs, escriptors en català del Berguedà, cònsols romans del segle IIaC) costa més.

Pere prlpz (discussiócontribucions)

Si, n'haurien de tenir, tot i que l'estructura de les categories és força diferent entre les diferents viquipèdies i hi ha moltes categories que no tenen equivalent enlloc.

Cataleirxs (discussiócontribucions)

Una pregunta: hi ha algun consens respecte al ciutadans naturalitzats? Vull dir, es pot crear categories de brasilers naturalitzats, francesos naturalitzats, estatunidencs naturalitzats...?

Pere prlpz (discussiócontribucions)

Que jo sàpiga, el que més s'hi assembla és la Categoria:Francesos nascuts a l'Algèria francesa que no sé que ningú hagi posat en dubte, però tampoc crec que l'hagi vist gaire gent.

Suposo que no tindria problema la categoria de gent de x naturalitzada, o gent de x nascuda a y. Els problema que hi veig és d'omplir la categoria, que em temo que molts articles que hi haurien de ser no hi arribaran mai.

Cataleirxs (discussiócontribucions)

M'està apareixent una cosa estranya a Categoria:Esportistes d'Alagoas. Té dues subcategories que convergeixen en la mateixa subsubcategoria, però el nombre d'articles que mostra és diferent:

  • Esportistes d'Alagoas / Futbolistes d'Alagoas‎ / Futbolistes de Maceió‎ (buida)
  • Esportistes d'Alagoas / Esportistes de Maceió‎‎ / Futbolistes de Maceió‎ (6 p.)

A la Categoria:Futbolistes de Maceió hi ha realment 6 articles. Per què la primera ruta diu que està buida? He provat a netejar la memòria cau, per si de cas era una cosa temporal (tot i que aquestes subcategories les vaig crear ahir.

Idees?

Pere prlpz (discussiócontribucions)

Això és només que els recomptes són a la memòria cau del servidor (no la del teu navegador) i triguen a actualitzar-se. Ara hi veig sis articles de les dues maneres.

Cataleirxs (discussiócontribucions)

Com puc treure un llistat de cantants nascuts en un any concret (1942)? Gràcies

Amadalvarez (discussiócontribucions)
Resposta a «Treure dades de WD i fer canvis per lots a les Categories»