Patrimoni Digital de Catalunya

De Viquipèdia
Dreceres ràpides: navegació, cerca
Patrimoni Digital de Catalunya
Logotip
URL http://www.padicat.cat/
Comercial? No
Tipus de lloc Gestió documental

El Patrimoni Digital de Catalunya (acrònim PADICAT) és l'arxiu web de Catalunya.[1]

Creat el 2005[2] per la Biblioteca de Catalunya, la institució pública responsable de recollir, conservar i difondre el patrimoni bibliogràfic de Catalunya, i per extensió el patrimoni digital. Compta amb la col·laboració tecnològica del Centre de Serveis Científics i Acadèmics de Catalunya (CESCA) per preservar i donar accés a versions antigues de pàgines web publicades a Internet. La Biblioteca de Catalunya, com a responsable del PADICAT, està associada a l'International Internet Preservation Consortium (IIPC).[3]

Història[modifica | modifica el codi]

Web del PADICAT 2011

El PADICAT va néixer el 2005 seguint la tendència d'altres biblioteques nacionals en la creació d'arxius web, i com a resposta a la publicació per part de la UNESCO de les Directrius per a la preservació del patrimoni digital.[4]

Hi ha nombrosos arxius web en funcionament[5] Els més coneguts són també els que van fer les primeres passes l'any 1996: el suec Kulturarw3;[6] l'australià Pandora,[7] i el conegut repositori web d'abast internacional, l'Internet Archive.[8]

L'anàlisi d'aquestes experiències pioneres i de posteriors, donen pas a la planificació del projecte PADICAT seguint la tendència generalitzada arreu del món d'un model híbrid de funcionament, complementant la captura periòdica d'un domini geogràfic sencer (en aquest cas el .cat), amb accions selectives, i ampliant aquesta cobertura a diversos esdeveniments d'interès social que generen una activitat intensa a la xarxa (processos electorals, per exemple) o amb paquets web agrupats per una mateixa temàtica (museus de Catalunya, música folk-rock catalana a la xarxa, etc.). En el cas del PADICAT, això es complementa amb les aportacions ciutadanes a través de les pàgines web recomanades.

El juny de 2005, la Biblioteca de Catalunya va iniciar la fase preliminar, de planificació, en la qual es va realitzar l'anàlisi dels projectes i recursos existents, els agents implicats en la producció de pàgines web de Catalunya i els aspectes legals que condicionen les pràctiques que es volen dur a terme.

Basant-se en uns paràmetres definits per la Biblioteca de Catalunya, el 21 de juliol de 2006 es van començar a recopilar de manera automatitzada els webs susceptibles de formar part del patrimoni digital de Catalunya. L'11 de setembre de 2006, coincidint amb la celebració de la Diada Nacional de Catalunya, el portal web de PADICAT es va obrir al públic, amb una trentena de webs emmagatzemats.

El període 2006-2008 representa la fase de producció, de pla pilot del projecte, i la fase d'explotació de PADICAT: la captura sistemàtica de les pàgines web de Catalunya.

El període 2009-2011 va permetre la Biblioteca de Catalunya comptar amb un escenari òptim en el qual aquest sistema, que és pioner a Espanya i de referència a Europa, funcionà a ple rendiment. Paral·lelament, es van tancar acords de cooperació amb més de 450 institucions de tot tipus, i es va garantir l'accés en obert, en línia, a tota la col·lecció.

L'11 de setembre de 2011, coincidint de nou amb la Diada Nacional de Catalunya i amb el cinquè aniversari de la posada en funcionament del seu web, es va inaugurar una nova versió del portal web d'accés als continguts dipositats al PADICAT.

En data de novembre de 2012, PADICAT ja té conservats 58.122 webs, 249.609 captures, 349 milions de fitxers i 13 TB d'espai que són consultables de forma lliure i gratuïta.[9]

Missió i funcionament[modifica | modifica el codi]

Missió i objectius[modifica | modifica el codi]

La missió del PADICAT és recollir, conservar i difondre el patrimoni digital de Catalunya nascut a Internet. Els seus objectius són:

  • Compilar massivament el domini .cat, per mitjà del conveni signat amb la Fundació puntCat.[10][11]
  • Impulsar el dipòsit sistemàtic de la producció web de les entitats i les empreses de Catalunya.
  • Promoure línies de recerca processant de manera monogràfica els recursos d'esdeveniments de la vida pública catalana, com ara campanyes electorals a Internet,[12] el fenomen de la música en línia, o els museus a Internet.

Després d'unes etapes de naixement (2005-2006), creixement (2007-2008) i consolidació (2009-2011), a partir del 2012 es persegueix sistematitzar la capacitat de creixement, amb la fita d'incorporar anualment unes 75.700 versions d'aproximadament 32.000 pàgines web, procedents de:

  • Compilació semestral de 30.000 recursos del domini .cat.
  • Compilació semestral de 550 recursos de les més de 450 entitats amb què s'ha arribat a un conveni de cooperació.
  • Compilació semestral dels recursos procedents de recomanacions dels usuaris.
  • Compilació diària d'una part substancial de 30 publicacions seriades en línia.

A aquestes fites concretes s'hi afegeixen quatre eixos permanents de treball:

  • Definició de les estratègies de preservació digital per al patrimoni nascut a Internet. PADICAT proporciona radiografies periòdiques de la web catalana; detecta els formats que experimenten a curt termini problemes d'il·legibilitat; identifica els llenguatges més usats, etc.
  • Impuls a línies de recerca a partir de la creació de col·leccions monogràfiques que compten amb la implicació d'experts de cada matèria.
  • Creació i manteniment de l'hemeroteca digital a Internet, amb la captura sistematitzada de publicacions digitals en sèrie. Actualment, una mostra representativa quant a tipus i continguts, seleccionant les nascudes digitals, sense equivalent analògic.
  • Cooperació amb altres arxius web i dipòsits de preservació digital, de biblioteques, arxius i museus, per donar una resposta eficient als reptes de preservació digital i accés als recursos dipositats.

Funcionament[modifica | modifica el codi]

Programari[modifica | modifica el codi]

Funcionament del programari de PADICAT

El sistema es basa en l'aplicació d'una sèrie de programes informàtics que permeten la captura, l'emmagatzematge, l'organització, la preservació i l'accés permanent a les pàgines web publicades a Internet. Posteriorment a la fase d'anàlisi i test de programari es va determinar que s'utilitzaria el programa informàtic Heritrix,[13] emprat en la major part de projectes de captura de recursos digitals. Aquest és el programa encarregat de compilar les pàgines web tal com les veu l'usuari que navega per Internet i emmagatzemar-les en arxius comprimits en format .arc o WARC.[14] A continuació, el programari Heritrix es complementa amb NutchWax,[15] o bé la combinació d'Hadoop[16] i Wayback,[17] que duen a terme uns processos d'indexació de la informació compilada que permeten, ulteriorment, utilitzar aquests índexs per localitzar els recursos dins de la col·lecció mitjançant les seves respectives interfícies de consulta: Wera,[18] que permet la cerca per paraules clau a través dels índexs generats per NutchWax; i Wayback, que permet la consulta directa per URL en els índexs generats per Hadoop i el mateix Wayback.

S'ha aprofitat el programa Web Curator Tool,[19] desenvolupat per la National Library of New Zealand [20] i la British Library, com a sistema de gestió documental que permet l'assignació de metadades a una part significativa de la col·lecció, amb la intenció de poder integrar, en el futur, els fons del dipòsit a la cerca en altres catàlegs, tant de la Biblioteca de Catalunya com d'altres institucions. Actualment, ja es realitza la catalogació de les pàgines web emprant el programari CAT[21] realitzat pels tècnics del CESCA expressament per al projecte.

Servidors del PADICAT al CESCA

Maquinari[modifica | modifica el codi]

Pel que fa al maquinari que sosté el sistema, es compta amb sis nodes HP ProLiant DL360 G4p, encarregats de les tasques de recol·lecció i indexació de les pàgines web. De la cerca i la visualització de resultats en la interfície web, se n'encarrega un clúster Linux d'alta disponibilitat amb característiques de balanceig de càrrega de peticions i de tolerància d'errors en cas de desastre tècnic dels nodes que integren la plataforma. Una cabina NetApp FAS3170 presenta un espai de 19TB de disc via NFS a aquests nodes. Els nodes estan connectats mitjançant fibra a una Storage Area Network (SAN) i el sistema es completa amb un robot on es guarden, en cinta, còpies de seguretat de les dades. És previst la inclusió paral·lela dels continguts dipositats a PADICAT al sistema COFRE[22] (COnservem per al Futur Recursos Electrònics), un instrument de preservació en alta seguretat creat a partir de la pròpia experiència de la Biblioteca de Catalunya.[23]

Referències[modifica | modifica el codi]

  1. «PADICAT : l'arxiu web de Catalunya». Biblioteca de Catalunya. [Consulta: 23 novembre 2012].
  2. «Memòria del plantejament del projecte PADICAT (Patrimoni Digital de Catalunya)». Barcelona: Biblioteca de Catalunya, desembre 2005. [Consulta: 23 novembre 2012].
  3. «International Internet Preservation Consortium». [Consulta: 23 novembre 2012].
  4. Biblioteca Nacional de Australia. «Directrices para la preservación del patrimonio digital». Camberra: Unesco, 2003. [Consulta: 23 novembre 2012].
  5. Llueca Fonollosa, Ciro. «Webs sempre accessibles : les biblioteques nacionals i els dipòsits digitals nacionals». BiD: textos universitaris de biblioteconomia i documentació, desembre 2005. [Consulta: 20 novembre 2012].
  6. «Kulturarw3 : the Swedish Web Archive». National Library of Sweden. [Consulta: 23 novembre 2012].
  7. «Pandora : Australia's Web Archive». National Library of Australia. [Consulta: 23 novembre 2012].
  8. «Internet Archive». Internet Archive. [Consulta: 23 novembre 2012].
  9. PADICAT
  10. «Signat el conveni de cooperació entre la Biblioteca de Catalunya i la Fundació punCAT per la preservació de les pàgines web». Biblioteca de Catalunya. [Consulta: 23 novembre 2012].
  11. «Fundació PuntCAT». Fundació puntCAT. [Consulta: 23 novembre 2012].
  12. Llueca, Ciro; Cócera, Daniel; Torres, Natàlia et al. «A ritmo de tweet: archivando elecciones 2.0». El profesional de la información, 2011 V. 20, n. 3 (junio), p.309-314.. [Consulta: 21 novembre 2012].
  13. «Heritrix». [Consulta: 23 novembre 2012].
  14. «WARC File Format specifications». SourceForge. [Consulta: 23 novembre 2012].
  15. «NutchWax». SourceForge. [Consulta: 23 novembre 2012].
  16. «Hadoop». The Apache Software Foundation. [Consulta: 23 novembre 2012].
  17. «Wayback». SourceForge. [Consulta: 23 novembre 2012].
  18. «Wera». SourceForge. [Consulta: 23 novembre 2012].
  19. National Library of New Zealand; British Library. «Web Curator Tool». SourceForge. [Consulta: 23 novembre 2012].
  20. «National Library of New Zealand». National Library of New Zealand. [Consulta: 23 novembre 2012].
  21. Llueca, Ciro; Cócera, Daniel; Torres, Natàlia et al. «"CAT (Curator Archiving Tool): improving access to web archives». International Internet Preservation Consortium meeting (September 2010: Vienna, 2010. [Consulta: 20 novembre 2012].
  22. Serra, Eugènia; Pérez, Karibel; Llueca, Ciro. «La Biblioteca de Catalunya i l'accés al patrimoni digital». MEI, 2011 II, Vol. 2, nº 2, pág. 5-20.. [Consulta: 21 novembre 2012].
  23. Pérez, Karibel; Serra, Eugènia. «Com guardar el món dins d'un COFRE». Item. Revista de biblioteconomia i documentació, 2012, p.112-125 [Consulta: 14 desembre 2012].

Enllaços externs[modifica | modifica el codi]