Vés al contingut

Usuària:Tiputini/proves/eines

De la Viquipèdia, l'enciclopèdia lliure

De quins datasets va parlar?

[modifica]
  • Les dades estadístiques que es poden extreure directament dels articles via expressions regulars contra el codi wiki, per exemple (freqüències de paraules, freqüències de referències, etc)
  • Dumps https://dumps.wikimedia.org
    • XML dumps -> permeten descarregar la Viquipèdia sencera i fer anàlisis a la brava. Pel que es veu el format XML és una mica antic
    • mediawiki API -> la recomanava per tasques concretes
    • SQL repicas -> dades estructurades, es poden extreure a través de quarry https://quarry.wmflabs.org
  • mediawiki utilities -> contingut anotat i amb dades estructurades de Commons, per exemple
  • Wikimedia API
  • https://stats.wikimedia.org -> La interfície ara és més user friendly del que la recordava. Hi ha un servei concret per les visites a cada pàgina, i una eina per comparar visites a pàgines en diversos idiomes, que es diu langviews analysis.
  • Wiki atlas https://wiki-atlas.org -> Pots creuar articles geolocalitzats i número de visites, i pots navegar per un mapa on se t'indica quins elements tenen més visites. Es pot canviar entre idiomes.
  • Pageviews by country -> Quina versió de la Viquipèdia és més utilitzada segons el territori, per saber d'on provenen els lectors i les visites. Les dades que proporciona són agregades
  • clickstream dataset -> Com la gent entra a Viquipèdia i es mou d'una pàgina a l'altra. Ho tenen disponible només per les top 10 wikipedias, potser estaria bé demanar que ho activin a la Viquipèdia en català. De moment no permet veure salts entre idiomes, però aviat es proporcionaran dades estimades al respecte per poder començar a analitzar-ne els motius i comportaments.
  • ORES http://ores.wikimedia.org
  • Toolforge
  • PAWS https://paws.wmflabs.org -> llibretes públiques de Jupyter customitzades per facilitar la interacció amb els wikis de Viquipèdia
  • Event stream -> dades continuades d'esdeveniments als diversos projectes Wikimedia. El projecte "listen to wikipedia" de Hatnote es basa en aquest recurs
  • Wikidata i les seves queries. Interessant: si fas ctrl+espai a la caixa de text de les queries pots teclejar text i et busca la Q
  • Wikidata graph builder -> eina que et permet construir diagrames de xarxes de relacions a partir de les dades de Wikidata.

Aquí es poden trobar exemples de bona part del que va presentar: http://paws-public.wmflabs.org/paws-public/User:Diego_(WMF)/WikiMediaPublicTools.ipynb

Al torn de preguntes van sortir els dubtes sobre la completesa dels datasets que s'oferien, i també hi va haver interès al voltant de la política de persones vives quan es tracten temes com malalties o orientacions religioses i sexuals.

Finalment, també va parlar del section recommendation: https://secrec.wmflabs.org -> eina que mapeja seccions d'un mateix article en diverses llengües per fomentar-ne traduccions i incorporar coses que falten.