Tema de Viquiprojecte Discussió:Viquirepte/GEC

Pere prlpz (discussiócontribucions)

Si hem d'enllaçar a Wikidata tots els articles pendents de la GEC, això haurà d'incloure crear els elements de tots els topònims catalans de la GEC, que possiblement són els mateixos que els del Nomenclàtor oficial de toponímia major de Catalunya. En comptes de crear-los a mà, no valdria més pujar-los directament del nomenclàtor i aleshores, si cal, fer els enllaços amb Mix'n'match?

Per controlar quins són els que ja tenim, podrien ser útil les pàgines enllaçades de Plantilla:Nomenclàtor, tot i que fa temps que no les mantenim.

Pere prlpz (discussiócontribucions)

Hi afegeixo que al nomenclàtor hi ha coordenades, que a la GEC no hi són i que valdria la pena pujar a Wikidata.

KRLS (discussiócontribucions)

A mi em sembla una molt bona proposta però fins diumenge no puc mirar de plantejar-m'ho. Caldrà veure com minimitzar la generació de duplicats. Si més no existeix una eina per detectar potencials duplicats a WD (a posteriori).

Pere prlpz (discussiócontribucions)

Tenim la sort que gran part dels topònims que ja tenim (les muntanyes que va fer en @Solde) deuen haver sortit del mateix lloc i els articles conserven els mateixos noms del Nomenclàtor, amb una desambiguació afegida entre parèntesi i aleshores el nom es pot fer servir per detectar duplicats. Els topònims de la Conca de Tremp d'en @Claudefà crec que venen d'una font diferent i poden tenir noms canviats, però precisament per venir d'una font molt diferent no crec que hi hagi gaires duplicats perquè molts deuen ser topònims que no surten al Nomenclàtor.

Els edificis poden ser més problemàtics, perquè en tenim molts que venen de les bases de dades de monuments i sovint tenen noms diferents al mapa.

Un altre cas a banda poden ser els nuclis de població, que a Wikidata hi són perquè un bot en va pujar molts a les botopèdies en suec i cebuà, crec que a partir de Geonames. La sort és que són els nuclis més importants i aquests tendeixen a tenir noms amb formes ben establertes.

KRLS (discussiócontribucions)

Pere, et pots encarregar de crear-me la comarca Moianès al Nomenclàtor a partir de les comarques que han perdut municipis? Jo mentrestant m'encarrego de preparar un bot que generi items. Potser començaria pels cursos fluvials i veiem quins resultats ens dóna.

Pere prlpz (discussiócontribucions)

Al Nomenclàtor vols dir a les nostres pàgines de projecte?

Per experiments un bon lloc per començar potser són els nuclis de població, que tenen noms força estables però que sabem que n'hi ha molts de creats i poden anar bé per controlar si estem evitant bé els duplicats. Però tu mateix.

KRLS (discussiócontribucions)
Pere prlpz (discussiócontribucions)

Ja està, però només he pogut fer els topònims que estaven classificats per municipis. Els cursos fluvials i muntanyes, que estaven tots junts, els he hagut de deixar. Si cal fer aquests s'haurien de fer a partir del nomenclàtor original, que es pot descarregar com un full de càlcul del web de la Generalitat.

Pere prlpz (discussiócontribucions)

Estic mirant de començar a pujar els nuclis. La part complicada és evitar els duplicats.

KRLS (discussiócontribucions)

Hola! Jo estic vinculant amb un bot els edificis/masies/esglésies. No m'he atrevit encara a crear articles nous per aquesta mateixa qüestió. Ho veig molt arriscat entre els nostres items sense estar ben definits a WD i el Cebuano.

Pere prlpz (discussiócontribucions)

Jo ja he començat a pujar els nuclis (en porto 500 de 1626 previstos). Crec que he evitat força els duplicats a base de ser molt conservador. A més d'emparellar per municipi i nom, el que faig és no crear nuclis nous a menys de 800 metres de distància d'on n'hi hagi un a Wikidata. Així en perdo centenars, però m'estalvio ensurts. Els que he vist que se m'escapen són els que estan creats però no estan marcats com a entitat de població de cap mena i els que no estan en cap divisió administrativa de Catalunya.

Per cert, amb el nomenclàtor crec que hi ha un problema de datum a les coordenades. Comparant amb els nuclis que ja són a Wikidata i he pogut emparellar, em surt que fent servir el datum ED50 la majoria de punts s'acumulen (més o menys dispersos) al voltant del mateix lloc que diuen les coordenades de Wikidata, però de l'ordre d'una quarta part dels topònims es queden uns 300 a l'oest de Wikidata. Sospito que el problema pot ser que les coordenades de la primera edició del nomenclàtor fossin en ED50 i els afegits a la segona en WGS84. Això per nuclis no és un problema greu però podria ser-ho per edificis i topònims puntuals. A més, s'afegeix al fet que les coordenades estan arrodonides a 100 m.

Dubtava si esperar-me a pujar més nuclis, però si no hi ha comentaris em miro una mica els primers 500 i si ho veig raonablement bé pujo la resta tan aviat com tingui temps.

KRLS (discussiócontribucions)

Pere, tira endavant amb els nuclis de població. Quan els tinguis si vols els puc enllaçar amb la GEC via bot (menys feina per tots), sempre que acordem que se'm resti aquests 1.626 punts previstos.

Pere prlpz (discussiócontribucions)

M'espero perquè he trobat una font de duplicats que no venen del bot cebuà sinó que són nostres. Hi ha articles de nuclis del Pallars pujats sense "instància de" i sense divisió administrativa, i aquests costen de trobar. Suposo que hauré de baixar tots els articles i fer una combinació de nom i distància. Com a mínim tenen el nom en català.

KRLS (discussiócontribucions)
Pere prlpz (discussiócontribucions)

Ho estava fent amb R a partir de consultes SPARQL a Wikidata i del fitxer del nomenclàtor. Les categories no les havia fet servir perquè no pensava que se'm colarien articles nostres així, però és una bona idea. Miraré quina eina hi ha per fer llistats a partir de categories.

KRLS (discussiócontribucions)

Jo estic fent match controlats de Serralades i Muntanyes (he tingut un gran percentatge d'èxit) catalanes i també de Masies (molt èxit), Castells (poc èxit), Esglésies (poc èxit) i Habitatges (poc èxit). Que quedi clar que les edicions les estic fent amb el meu bot, però les està contant amb el meu usuari principal. Si teniu controlat algun gran nínxol d'articles que volgueu que intenti fer emparellament, només ho heu de dir.

Pere prlpz (discussiócontribucions)

@En cadufet proposava en un altre fil emparellar els topònims no catalans. Jo vaig dir que em semblava difícil, però veient el que estàs fent amb bot potser sí que es poden emparellar.

Pere prlpz (discussiócontribucions)

Ja està pujat el gruix dels nuclis de població (incloent disseminats i barris) a Wikidata. En tenim uns 5800 en total, però dels 5070 que hi ha al nomenclàtor en falten uns centenars que no he pogut confirmar si ja hi són o no i de moment no els pujo per no fer duplicats.

KRLS (discussiócontribucions)

Jo ja havia passat pels nuclis de població de Catalunya que tenien article a ca.wiki. Haig de dir que el cercador de la GEC no és gens bo amb caràcters especials. Ara estic amb les localitats dels Estats Units i el Quebec. Si hi estàs d'acord, després seguiré amb aquests 5800.

Pere prlpz (discussiócontribucions)

Si quan acabis el Quebec vols continuar amb la resta del Canadà, compte que la major part de topònims que a l'Enciclopèdia són als Territoris del Nord-Oest, actualment són a Nunavut. Quan acabem d'emparellar-los els n'hem d'enviar la llista.

KRLS (discussiócontribucions)

Segueixo passant per les localitats dels EUA... i he aprofitat pels nuclis de població de Catalunya on he tingut un gran èxit. He fet una petitat modificació de la query per poder veure quins articles tenen la propietat de la GEC. Com que restaven uns 800, he passat el bot per fer match d'alguns municipis catalans despistats. Tanmateix, en segueixen quedant, caldrà fer una mirada per entendre perquè no els he trobat.

KRLS (discussiócontribucions)
Pere prlpz (discussiócontribucions)
KRLS (discussiócontribucions)

En aquest cas, aparellava per nom, també comprovo que tingui "Entitat singular de població" a GEC i que quadri el municipi o la comarca. Potser, vaig alleugerir alguna cosa condició i se'm ha colat algun. Per exemple, als municipis d'Estats Units només comprovo que concordi el nom i l'estat (GEC no proporciona res més).

Pere prlpz (discussiócontribucions)

Aquest cas es devia colar perquè els dos són a la mateixa comarca. He seguit mirant la llista i ara mateix la impressió és que aquests problemes del teu bot no deuen ser gaires. Més freqüents són els errors manuals en emparellar i els ítems duplicats (inclosos els que queden dels meus).

Pere prlpz (discussiócontribucions)

Una altra de les causes són els items duplicats que vaig crear fa uns dies quan se'm van escapar els polonesos (i potser algun més). Ara n'he trobat un, però d'aquests n'haurien de quedar molt pocs.

Pere prlpz (discussiócontribucions)

Veient les primeres pàgines, el que hi trobo són:

- Pàgines mal enllaçades a la GEC (per exemple, pàgines de desambiguació, edificis per entitats de població, o pobles homònims de municipis o països diferents). Alguns són del teu bot i d'altres semblen manuals.

- Alguns items duplicats, normalment perquè els primers no estaven a wikidata com a assentament humà, o no estaven a Catalunya i no tenien coordenades, etc., i els he creat duplicats. Aquests intentaré anar-los fusionant.

El que no tinc clar què cal fer amb els mal enllaçats. Arreglar-ho a Wikidata? Prémer esborrar?

KRLS (discussiócontribucions)

Jo el procediment que estic fent és. Si està malament al mix'n'match, desvinculo l'aparellament i el trec de Wikidata (és pas necessari); en la pròxima sincronització manual es farà el match a mix'n'match. Si està malament a WD, simplement trec el item erroni de WD.

Pere prlpz (discussiócontribucions)

Els he repassat per buscar els nuclis de població duplicats que havia creat i n'he trobat uns quants. A la resta he vist moltes coses molt mal enllaçades. No sé si val més desaparellar amb bot el que estigui evidentment malament o directament esborrar tots els emparellaments i tornar-los a posar al joc.

KRLS (discussiócontribucions)

Sí, desemparellem-les massivament i tornem-les a enllaçar correctament. I posaré que sigui estricte total (Municipi i Comarca correctes i també nom).

Pere prlpz (discussiócontribucions)

Per l'experiència aparellant nuclis:

- Nom i municipi és molt segur. Aparellent topònims diferents hi afegiria el tipus de topònims, perquè tenim una colla d'esglésies i masos que es diuen igual que el nucli on són.

- El nom val la pena simplificar-lo: treure els articles i tot minúscula. Per exemple "el Mas Ram" és en alguns llocs "Mas Ram".

Segurament és obvi però com que jo m'he trobat amb alguns disgustos per no fer-ho ho esmento per si de cas.

I per cert, els pitjors casos que he vist són manuals.

KRLS (discussiócontribucions)

He trobat el bug que tenia el codi que he usat amb les entitats de població de Catalunya. Hem mancava un parèntesi. Ja està resolt; estic fent una nova passada controlada. Em disculpo de nou.

Pere prlpz (discussiócontribucions)

Cap problema. De fet, m'ha anat bé per trobar els meus duplicats del dia que jo hauria d'haver filtrat millor.

Pere prlpz (discussiócontribucions)
KRLS (discussiócontribucions)

Són dos conceptes diferents a WD. En el cas de la Viquipèdia, per mi és una redirecció.

Pere prlpz (discussiócontribucions)

El deixo com a dos, però amb dubte per aquest cas i d'altres de més petits en que el límit entre un edifici gran i un poble petit es fa difús. En aquest cas no cal redirecció a la Viquipèdia perquè el nucli i la casa tenen el mateix nom.

Pere prlpz (discussiócontribucions)

Entre els mal aparellats n'hi ha molts que podria ser evident de trobar i desaparellar amb bot. Sobretot les pàgines de desambiguació i els que l'article de l'Enciclopèdia comença parlant d'una entitat de població i a Wikidata és un edifici o una església.

Pere prlpz (discussiócontribucions)

Estic pujant uns 140 estanys del nomenclàtor. Potser es pot mirar d'aparellar-los amb bot o fer-los sortir al joc.

KRLS (discussiócontribucions)

Tens la query?

Pere prlpz (discussiócontribucions)

Tots els llacs han de sortir a https://query.wikidata.org/#%23Cossos%20d%27aigua%20de%20Catalunya%0ASELECT%20DISTINCT%20%3Fitem%20%3Fname%20%3Fcoord%20%3Flat%20%3Flon%20%3Fmun%20%3Fnmun%0AWHERE%20%7B%0Ahint%3AQuery%20hint%3Aoptimizer%20%22None%22%20.%0A%3Fitem%20wdt%3AP131%2a%20wd%3AQ5705%20.%0A%3Fitem%20wdt%3AP31%2Fwdt%3AP279%2a%20wd%3AQ23397.%0A%3Fitem%20wdt%3AP131%20%3Fmun%20.%0A%20%20OPTIONAL%20%7B%0A%3Fitem%20wdt%3AP625%20%3Fcoord%20.%0A%3Fitem%20p%3AP625%20%3Fcoordinate%20.%0A%3Fcoordinate%20psv%3AP625%20%3Fcoordinate_node%20.%0A%3Fcoordinate_node%20wikibase%3AgeoLatitude%20%3Flat%20.%0A%3Fcoordinate_node%20wikibase%3AgeoLongitude%20%3Flon%20.%0A%20%20%7D%0ASERVICE%20wikibase%3Alabel%20%7B%0Abd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cca%2Cen%2Ces%2Cpl%2Csv%2Cceb%22%20.%0A%3Fitem%20rdfs%3Alabel%20%3Fname%0A%7D%0ASERVICE%20wikibase%3Alabel%20%7B%0Abd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cca%22%20.%0A%3Fmun%20rdfs%3Alabel%20%3Fnmun%0A%7D%0A%7D%0AORDER%20BY%20ASC%20%28%3Fname%29

Això inclou els meus i els que ja hi eren (compte amb els que surten uns quants cops a la query). Si volguessis només els nous es pot filtrar els que tinguin nom oficial, que jo n'hi estic posant i la gran majoria dels topònims no en tenen. Un altre filtre ràpid és agafar només els que tenen "estan[yh]" al nom.

KRLS (discussiócontribucions)

Genial! Ja hi estic fent una passada. Estic fent match de la majoria. També estic sincronitzant més elements que el programa ha detectat ara que ja teníem a Wikidata (més d'un miler).

Pere prlpz (discussiócontribucions)

Per si et serveix, em temo que el teu bot confon quan l'article d'una ciutat a la GEC esmenta els rius Mississipí i Tennessee i quan esmenta els estats homònims. Pot ser casualitat però me n'acabo de trobar un de cada.

KRLS (discussiócontribucions)

135 elements de llacs vinculats; podria mirar de refinar més. Respecte les errades tinc limitat l'anàlisi de la descripció als 100 primers caràcters per tal de minimitzar aquest tipus errors. També ha de començar la descripció en majúscula com "Ciutat", "Nucli" per tal d'evitar casos com "... riu" o "...ciutat". Si em dones l'enllaç a l'item de Wikidata m'ho miro.

KRLS (discussiócontribucions)

He fet un primer codi que em permet recórrer les més de 4000 pàgines que ens queden. Si creieu que podria ser útil, podria agrupar les entrades per país o tipologia i penjar-les a alguna pàgina de Viquipèdia com #Entrada #numGEC #Nom #Descripció. Estic valorant si podria fer match cercant a WD, però no ho veig clar i em genera molta inseguretat.

Pere prlpz (discussiócontribucions)
Pere prlpz (discussiócontribucions)

@KRLS - He pujat uns centenars de fonts (ara n'hi ha més de 1500 però no estic segur de quantes ja hi eren). Pots passar-hi el bot a veure si les pots enllaçar?

KRLS (discussiócontribucions)

Bot en curs... podem anar cap al següent element del nomenclàtor.

Pere prlpz (discussiócontribucions)

Em temo que el proper trigarà més, però sí.

Pere prlpz (discussiócontribucions)

@KRLS No sé si per aparellar articles fas servir les declaracions d'entitat administrativa i estat de Wikidata, però si és així ja pots passar el bot per les serres, que a Wikidata ja hi eren però ara a més tenen estat i municipis.

A més, hi ha molts més ítems que ja hi eren i que tenen instància, estat o municipi que no tenien, però en això hi estic treballant perquè queda molta feina per fer.

KRLS (discussiócontribucions)

He vinculat unes 150 serrallades que no havia trobat l'altre cop mitjançant:

SELECT DISTINCT ?item ?name ?coord ?lat ?lon ?mun ?nmun WHERE { hint:Query hint:optimizer "None" . ?item wdt:P131* wd:Q5705 . ?item wdt:P31/wdt:P279* wd:Q46831 . ?item wdt:P131 ?mun .  OPTIONAL { ?item wdt:P625 ?coord . ?item p:P625 ?coordinate . ?coordinate psv:P625 ?coordinate_node . ?coordinate_node wikibase:geoLatitude ?lat . ?coordinate_node wikibase:geoLongitude ?lon .  } SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],ca,en,es,pl,sv,ceb" . ?item rdfs:label ?name } SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],ca" . ?mun rdfs:label ?nmun } } ORDER BY ASC (?name)

Prova-ho !. Hi ha més Q?

Pere prlpz (discussiócontribucions)

Diria que de moment cap altre que estigui complert, perquè abans de pujar res més del nomenclàtor m'estic dedicant a posar municipi a tots els elements geogràfics, i de pas instàncies quan trobo una categoria per fer-ho. Aleshores amb qualsevol categoria (platges, nuclis, muntanyes, etc.) n'has de trobar més que abans però d'aquí unes setmanes n'hauries de trobar més encara.

Pere prlpz (discussiócontribucions)

He posat Coma (Q3573216) a unes desenes de comes que ja teníem, incloent-ne mitja dotzena de mallorquines. La majoria ja tenien Q d'element geogràfic. No crec que valgui la pena engegar el bot expressament per tan poques però ho deixo apuntat.

Pere prlpz (discussiócontribucions)
Pere prlpz (discussiócontribucions)
KRLS (discussiócontribucions)

Tens alguna query per recuperar-los?

Pere prlpz (discussiócontribucions)

Els que he pujat jo deuen ser entre aquests 10.000, que són els edificis i edificis històrics amb nom oficial informat i que són a Catalunya.

Si fas servir el municipis i les coordenades n'hi ha uns centenars més que els he posat darrerament una de les dues coses. Aquests s'haurien de trobar buscant edificis de Catalunya en general.

KRLS (discussiócontribucions)

Activat! T'aviso quan estigui feta la passada.

KRLS (discussiócontribucions)

Gràcies Pere. He vinculat 6921 articles i 3417 que no he estat capaç de vincular. Aquí teniu els articles que no he estat capaç de vincular:

SELECT DISTINCT ?item ?itemLabel WHERE { VALUES ?tipus {wd:Q35112127 wd:Q41176} ?item wdt:P31 ?tipus. ?item wdt:P1448 [].  ?item wdt:P17 wd:Q29.  ?item wdt:P131* wd:Q5705. FILTER NOT EXISTS { ?item wdt:P1296 ?ident. } SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],ca,en,es,an,eu,pl,sv,ceb" . ?item rdfs:label ?itemLabel<nowiki>}</nowiki>

Prova-ho !}

Pere prlpz (discussiócontribucions)

M'he mirat alguns dels que no estan vinculats i sembla que no són a l'Enciclopèdia. Hagués dit que havien carregat el Nomenclàtor sencer però es veu que no.

KRLS (discussiócontribucions)

@Pere prlpz: Ens queda algun grup pendent per penjar i que sigui interessant vincular?

Pere prlpz (discussiócontribucions)

@KRLS El que hi ha al nomenclàtor:

 barri         233
 cap           947
 cim          4789
 com.          204
 curs fluv.   5459
 diss.         387
 e.m.d.         57
 edif.       16235
 edif. hist.  2399
 equip.        172
 hidr.        2783
 indr.        6899
 lit.          415
 mun.           89
 nucli        3433
 orogr.       6058
 serra        2130

Diria que de tots aquests, els grups que encara no he tocat gaire són:

  • Els elements orogràfics i els indrets, que deuen ser els dos grups amb més elements per pujar, excepte al Moianès i la Conca de Tremp on en @Claudefà ja devia fer articles fins i tot dels que no surten al nomenclàtor.
  • Els cims i serres, però que crec que en @Solde ja en va fer articles de gairebé tots fa anys.
  • Els cursos fluvials, que m'ha fet mandra pujar perquè és més difícil tractar-ne les coordenades, perquè el nomenclàtor no diu la dada més interessant, que és on desemboquen, i perquè tenia l'esperança (cada cop menys) que en trobéssim una font millor.
  • Els elements hidrogràfics estan a mitges. He pujat fonts i estanys.
  • Els equipaments, que no són gaires i molts ja deuen tenir article.
  • Dels elements litorals crec que no he pujat res però la majoria són platges que ja estan pujades d'altres fonts.

A més, dels molts milers de nuclis i edificis que no he pujat per evitar el risc de crear duplicats una part molt important han de ser falsos positius que no són a Wikidata. Per exemple, no pujava un nucli o un edifici si a prop hi havia un nucli o un edifici que no he sabut identificar al nomenclàtor, per si de cas és el mateix, i com que les coordenades del nomenclàtor no són gaire bones "a prop" pot voler dir 1 km. Aleshores, no crec que hagi pujat gairebé cap edifici que estigui en un nucli urbà o en una zona amb molts edificis notables.

En total al nomenclàtor hi ha 52700 entrades i a Wikidata hi ha 16538 elements de Catalunya amb nom oficial i coordenades, molts dels quals deuen ser els que he pujat del nomenclàtor o com a mínim hi he afegit dades. O sigui, sembla que encara hi ha marge per pujar coses.

KRLS (discussiócontribucions)

@Pere prlpz: Ja ha passat un any d'aquesta creuada. Com ho veus per reprendre-la creant nous items i vinculant-los?

Pere prlpz (discussiócontribucions)

@KRLS Porto un any pujant edificis cada vegada que puc. És lent, perquè hi ha errors al fitxer i perquè cal evitar duplicats, però ja tinc els edificis de tot l'àmbit metropolità i part de la Selva. Com que estic fent servir el fitxer de noms geogràfics de Catalunya, inclou edificis que no són al nomenclàtor, però les coordenades estan millor i això em permet pujar edificis que des del nomenclàtor no devia pujar.

KRLS (discussiócontribucions)

@Pere prlpz: Hi ha alguna query que puga usar per intentar fer match amb la GEC?

Pere prlpz (discussiócontribucions)
# llocs amb coordenades referenciades al fitxer de noms geo
SELECT ?item ?itemLabel 
WHERE {
  ?item wdt:P17 wd:Q29.
  ?item p:P625 ?coordinate.
  ?coordinate prov:wasDerivedFrom ?ref.
  ?ref pr:P248 wd:Q98463667.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "ca,oc,en,es,fr". }
}

Prova-ho !

@KRLS Et va bé aquesta? La majoria dels que he pujat els darrers mesos deuen ser d'aquests. Pots provar de fer servir l'àlies a més del label i potser en trobaràs un quants que ja eren a Wikidata amb un nom diferent que al Nomenclàtor (per exemple, molts monuments).

Les dades per aparellar (instància, municipi i àlies) els agafes de Wikidata o necessites que surtin a la query?

KRLS (discussiócontribucions)

N'he vinculat 877. Hi ha 6.112 que no sóc capaç de vincular.

SELECT ?item ?itemLabel 
WHERE {
  ?item wdt:P17 wd:Q29.
  ?item p:P625 ?coordinate.
  ?coordinate prov:wasDerivedFrom ?ref.
  ?ref pr:P248 wd:Q98463667.
  FILTER NOT EXISTS { ?item wdt:P1296 ?ident. }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "ca,oc,en,es,fr". }
}

Prova-ho !

Resposta a «Topònims catalans»