Patrimoni Digital de Catalunya

De Viquipèdia
Dreceres ràpides: navegació, cerca
Gnome-globe.svgPatrimoni Digital de Catalunya
Logotip
URL http://www.padicat.cat/
Tipus de lloc Gestió documental
Comercial? No
Llengua Català
Propietari Biblioteca de Catalunya
Llançament 2005
Modifica dades a Wikidata

El Patrimoni Digital de Catalunya (PADICAT) és l'arxiu web de Catalunya.[1]

Creat el 2005[2] per la Biblioteca de Catalunya, la institució pública responsable de recollir, conservar i difondre el patrimoni bibliogràfic de Catalunya, i per extensió el patrimoni digital. Compta amb la col·laboració tecnològica del Consorci de Serveis Universitaris de Catalunya (CSUC) per preservar i donar accés a versions antigues de pàgines web publicades a Internet. La Biblioteca de Catalunya, com a responsable del PADICAT, està associada a l'International Internet Preservation Consortium (IIPC).[3]

Història[modifica | modifica el codi]

El PADICAT va néixer el 2005 seguint la tendència d'altres biblioteques nacionals en la creació d'arxius web, i com a resposta a la publicació per part de la UNESCO de les Directrius per a la preservació del patrimoni digital.[4]

Hi ha nombrosos arxius web en funcionament[5] Els més coneguts són també els que van fer les primeres passes l'any 1996: el suec Kulturarw3;[6] l'australià Pandora,[7] i el conegut repositori web d'abast internacional, l'Internet Archive.[8]

L'anàlisi d'aquestes experiències pioneres i de posteriors, donen pas a la planificació del projecte PADICAT seguint la tendència generalitzada arreu del món d'un model híbrid de funcionament, complementant la captura periòdica d'un domini geogràfic sencer (en aquest cas el .cat), amb accions selectives, i ampliant aquesta cobertura a diversos esdeveniments d'interès social que generen una activitat intensa a la xarxa (processos electorals, per exemple) o amb paquets web agrupats per una mateixa temàtica (museus de Catalunya, música folk-rock catalana a la xarxa, etc.). En el cas del PADICAT, això es complementa amb les aportacions ciutadanes a través de les pàgines web recomanades.

El juny de 2005, la Biblioteca de Catalunya va iniciar la fase preliminar, de planificació, en la qual es va realitzar l'anàlisi dels projectes i recursos existents, els agents implicats en la producció de pàgines web de Catalunya i els aspectes legals que condicionen les pràctiques que es volen dur a terme.

Basant-se en uns paràmetres definits per la Biblioteca de Catalunya, el 21 de juliol de 2006 es van començar a recopilar de manera automatitzada els webs susceptibles de formar part del patrimoni digital de Catalunya. L'11 de setembre de 2006, coincidint amb la celebració de la Diada Nacional de Catalunya, el portal web de PADICAT es va obrir al públic, amb una trentena de webs emmagatzemats.

El període 2006-2008 representa la fase de producció, de pla pilot del projecte, i la fase d'explotació de PADICAT: la captura sistemàtica de les pàgines web de Catalunya.

El període 2009-2011 va permetre la Biblioteca de Catalunya comptar amb un escenari òptim en el qual aquest sistema, que és pioner a Espanya i de referència a Europa, funcionà a ple rendiment. Paral·lelament, es van tancar acords de cooperació amb més de 450 institucions de tot tipus, i es va garantir l'accés en obert, en línia, a tota la col·lecció.

L'11 de setembre de 2011, coincidint de nou amb la Diada Nacional de Catalunya i amb el cinquè aniversari de la posada en funcionament del seu web, es va inaugurar una nova versió del portal web d'accés als continguts dipositats al PADICAT.

El 2016 PADICAT té conservats 72.241 webs, 306.032 captures, 432 milions de fitxers i 17,5 TB d'espai que són consultables de forma lliure i gratuïta.[9][10]

Missió i objectius[modifica | modifica el codi]

La missió del PADICAT és recollir, conservar i difondre el patrimoni digital de Catalunya nascut a Internet. Els seus objectius són:

  • Compilar massivament el domini .cat, per mitjà del conveni signat amb la Fundació puntCat.[11][12]
  • Impulsar el dipòsit sistemàtic de la producció web de les entitats i les empreses de Catalunya.
  • Promoure línies de recerca processant de manera monogràfica els recursos d'esdeveniments de la vida pública catalana, com ara campanyes electorals a Internet,[13] el fenomen de la música en línia, o els museus a Internet.

Funcionament[modifica | modifica el codi]

Programari[modifica | modifica el codi]

El sistema es basa en l'aplicació d'una sèrie de programes informàtics que permeten la captura, l'emmagatzematge, l'organització, la preservació i l'accés permanent a les pàgines web publicades a Internet. Posteriorment a la fase d'anàlisi i test de programari es va determinar que s'utilitzaria el programa informàtic Heritrix,[14] emprat en la major part de projectes de captura de recursos digitals. Aquest és el programa encarregat de compilar les pàgines web tal com les veu l'usuari que navega per Internet i emmagatzemar-les en arxius comprimits en format .arc o WARC.[15] A continuació, el programari Heritrix es complementa amb NutchWax,[16] o bé la combinació d'Hadoop[17] i Wayback,[18] que duen a terme uns processos d'indexació de la informació compilada que permeten, ulteriorment, utilitzar aquests índexs per localitzar els recursos dins de la col·lecció mitjançant les seves respectives interfícies de consulta: Wera,[19] que permet la cerca per paraules clau a través dels índexs generats per NutchWax; i Wayback, que permet la consulta directa per URL en els índexs generats per Hadoop i el mateix Wayback.

S'ha aprofitat el programa Web Curator Tool,[20] desenvolupat per la National Library of New Zealand [21] i la British Library, com a sistema de gestió documental que permet l'assignació de metadades a una part significativa de la col·lecció, amb la intenció de poder integrar, en el futur, els fons del dipòsit a la cerca en altres catàlegs, tant de la Biblioteca de Catalunya com d'altres institucions. Actualment, ja es realitza la catalogació de les pàgines web emprant el programari CAT[22] realitzat pels tècnics del CSUC expressament per al projecte.

Maquinari[modifica | modifica el codi]

Pel que fa al maquinari que sosté el sistema, es compta amb sis nodes HP ProLiant DL360 G4p, encarregats de les tasques de recol·lecció i indexació de les pàgines web. De la cerca i la visualització de resultats en la interfície web, se n'encarrega un clúster Linux d'alta disponibilitat amb característiques de balanceig de càrrega de peticions i de tolerància d'errors en cas de desastre tècnic dels nodes que integren la plataforma. Una cabina NetApp FAS3170 presenta un espai de 19TB de disc via NFS a aquests nodes. Els nodes estan connectats mitjançant fibra a una Storage Area Network (SAN) i el sistema es completa amb un robot on es guarden, en cinta, còpies de seguretat de les dades. És previst la inclusió paral·lela dels continguts dipositats a PADICAT al sistema COFRE[23] (COnservem per al Futur Recursos Electrònics), un instrument de preservació en alta seguretat creat a partir de la pròpia experiència de la Biblioteca de Catalunya.[24]

Referències[modifica | modifica el codi]

  1. «PADICAT : l'arxiu web de Catalunya». Biblioteca de Catalunya. [Consulta: 23 novembre 2012].
  2. «Memòria del plantejament del projecte PADICAT (Patrimoni Digital de Catalunya)». Barcelona: Biblioteca de Catalunya, desembre 2005. [Consulta: 23 novembre 2012].
  3. «International Internet Preservation Consortium». [Consulta: 23 novembre 2012].
  4. Biblioteca Nacional de Australia. «Directrices para la preservación del patrimonio digital». Camberra: Unesco, 2003. [Consulta: 23 novembre 2012].
  5. Llueca Fonollosa, Ciro. «Webs sempre accessibles : les biblioteques nacionals i els dipòsits digitals nacionals». BiD: textos universitaris de biblioteconomia i documentació, desembre 2005. [Consulta: 20 novembre 2012].
  6. «Kulturarw3 : the Swedish Web Archive». National Library of Sweden. [Consulta: 23 novembre 2012].
  7. «Pandora : Australia's Web Archive». National Library of Australia. [Consulta: 23 novembre 2012].
  8. «Internet Archive». Internet Archive. [Consulta: 23 novembre 2012].
  9. «PADICAT». [Consulta: 14 juny 2016].
  10. PADICAT
  11. «Signat el conveni de cooperació entre la Biblioteca de Catalunya i la Fundació punCAT per la preservació de les pàgines web». Biblioteca de Catalunya. [Consulta: 23 novembre 2012].
  12. «Fundació PuntCAT». Fundació puntCAT. [Consulta: 23 novembre 2012].
  13. Llueca, Ciro; Cócera, Daniel; Torres, Natàlia et al. «A ritmo de tweet: archivando elecciones 2.0». El profesional de la información, 2011 V. 20, n. 3 (junio), p.309-314.. [Consulta: 21 novembre 2012].
  14. «Heritrix». [Consulta: 23 novembre 2012].
  15. «WARC File Format specifications». SourceForge. [Consulta: 23 novembre 2012].
  16. «NutchWax». SourceForge. [Consulta: 23 novembre 2012].
  17. «Hadoop». The Apache Software Foundation. [Consulta: 23 novembre 2012].
  18. «Wayback». SourceForge. [Consulta: 23 novembre 2012].
  19. «Wera». SourceForge. [Consulta: 23 novembre 2012].
  20. National Library of New Zealand; British Library. «Web Curator Tool». SourceForge. [Consulta: 23 novembre 2012].
  21. «National Library of New Zealand». National Library of New Zealand. [Consulta: 23 novembre 2012].
  22. Llueca, Ciro; Cócera, Daniel; Torres, Natàlia et al. «"CAT (Curator Archiving Tool): improving access to web archives». International Internet Preservation Consortium meeting (September 2010: Vienna, 2010. [Consulta: 20 novembre 2012].
  23. Serra, Eugènia; Pérez, Karibel; Llueca, Ciro. «La Biblioteca de Catalunya i l'accés al patrimoni digital». MEI, 2011 II, Vol. 2, nº 2, pág. 5-20.. [Consulta: 21 novembre 2012].
  24. Pérez, Karibel; Serra, Eugènia «Com guardar el món dins d'un COFRE». Item. Revista de biblioteconomia i documentació, 2012, p.112-125 [Consulta: 14 desembre 2012].

Enllaços externs[modifica | modifica el codi]