Arxiu del web espanyol

De la Viquipèdia, l'enciclopèdia lliure

Introducció[modifica]

En la seva Carta sobre la preservació del patrimoni digital (2003) la UNESCO defineix el patrimoni digital com aquells recursos únics que són fruit del saber o l'expressió dels éssers humans: són recursos de caràcter cultural, educatiu, científic o administratiu i informació tècnica, jurídica, mèdica i d'altres classes, que es generen directament en format digital o es converteixen a aquest a partir de material analògic ja existent.

Aquest patrimoni, semblantment al patrimoni material, ha de ser preservat. Per això diversos països, mitjançant les biblioteques nacionals, han iniciat projectes per preservar aquest patrimoni. Això es fa mitjançant els arxius web. Si bé, en un principi, l'arxiu web es concebia com una eina no tant de preservació com facilitadora de l'accés permanent als continguts del web,[1] en l'actualitat es concep l'arxiu web com una eina de preservació del patrimoni digital.

Per tant, podem definir "arxiu web" com la col·lecció formada per la recol·lecció automatitzada de fragments del web. Un arxiu web està compost per pàgines i llocs web els continguts dels quals han estat concebuts per a la seva publicació en xarxes de comunicació. La finalitat d'un arxiu web és la preservació i difusió d'aquests recursos "nascuts digitals" perquè puguin servir com a eina de coneixement per a generacions presents i futures.[2]

Història[modifica]

La Biblioteca Nacional d'Espanya va crear el 2009 l'Arxiu del web espanyol per conservar i facilitar l'accés futur a tots els continguts espanyols publicats a Internet (webs, blogs, fòrums, llistes de distribució, documents, imatges, vídeos, etc.). A l'estat espanyol ja s'havien iniciat dos projectes similars per crear l'arxiu del patrimoni digital català i basc: PADICAT (Patrimoni Digital de Catalunya, creat el 2005) i ONDARENET (arxiu del Patrimoni Digital Basc, el 2007).

Per crear aquest projecte, s'han seguit les directrius per a la preservació del patrimoni digital de la UNESCO (2003) i la Recomanació de la Comissió Europea de 24 d'agost de 2006 sobre la digitalització i l'accessibilitat en línia del material cultural i la conservació digital.

El projecte consisteix a capturar pàgines i llocs web espanyols allotjats en el domini .es, així com en altres dominis i subdominis genèrics (.com, .edu, .gob, .org, .net, .biz, etc.).

La primera recol·lecció selectiva es va fer amb motiu de les eleccions generals del 20 de novembre de 2011. Es volia així conservar informació important per al futur coneixement de la història d'Espanya. La captura va ser exhaustiva, incorporant no només els llocs web de caràcter oficial, sinó altres com ara els perfils a les xarxes socials dels candidats o blogs d'opinió política.

La segona recol·lecció selectiva va ser de continguts sobre humanitats trobats a la xarxa, en un sentit molt ampli. Es van capturar diverses categories: Arquitectura, Art i Disseny, Associacions, Esports, Economia, Comerç i Empresa, Educació, Filosofia i Religió, Geografia i Història, Llengua i Literatura, Llibre imprès i digital, Medicina, Mitjans de Comunicació, Música i Dansa, Oci, ONG, Sanitat, Teatre, i Cinema i Espectacles.

A més d'aquestes dues recol·leccions temàtiques, l'any 2013 ja s'havien efectuat cinc recol·leccions massives i tres d'actualització. El resultat és que l'any 2013 s'havien arxivat i preservat 2.421.407.950 URL diferents.[3]

Tecnologia[modifica]

L'arxiu del web espanyol reuneix més de 85 TB d'informació comprimida en format WARC (Web ARChive file format, estàndard internacional ISO 28500), un format de fitxer utilitzat globalment per estructurar, gestionar i emmagatzemar objectes digitals.

Aquest format especifica un mètode per combinar múltiples recursos digitals en un arxiu d'arxius agregats juntament amb la informació relacionada.[2]

Col·laboracions[modifica]

Un projecte d'aquesta envergadura requereix moltes col·laboracions.

D'una banda, la Biblioteca Nacional d'Espanya és membre del Consorci Internacional per a la Preservació d'Internet (International Internet Preservation Consortium –IIPC–) des de 2010, organització que aglutina les iniciatives més importants a escala mundial en el camp de l'arxivament web i en la qual s'integren biblioteques nacionals d'arreu del món, així com institucions patrimonials com arxius i biblioteques universitàries i d'investigació.

Per a portar a terme la recopilació de totes aquestes dades, la Biblioteca Nacional d'Espanya ha disposat de la col·laboració de la fundació Internet Archive, que arxiva continguts publicats a Internet des de 1996.

D'una altra banda la Biblioteca Nacional d'Espanya ha signat un conveni amb Red.es per a la construcció d'un dipòsit digital que permeti preservar el patrimoni documental en línia.

Finalment, s'està promovent el treball conjunt amb els centres col·laboradors de les comunitats autònomes, amb els que s'haurien de definir els recursos que cal recol·lectar, els procediments de selecció i captura, així com les metadades que cal incloure per a garantir el seu accés. Des de la Biblioteca Nacional d'Espanya també es té en compte que cal comptar amb les biblioteques universitàries i d'investigació, que han de ser aliats estratègics per a portar a terme el projecte de l'Arxiu del web espanyol.[3]

Dipòsit legal electrònic[modifica]

Aquest projecte encara no és consultable, en espera de la promulgació del Reial Decret que reguli el dipòsit legal electrònic. Segons l'esborrany d'aquest Reial Decret, els editors i els productors de les pàgines web on es troben allotjades tindran l'obligació de permetre als centres de conservació accedir a aquestes publicacions telemàticament. Aquests centres de conservació seran designats per les comunitats autònomes i per la Biblioteca Nacional d'Espanya. Amb aquest futur Reial Decret, el ciutadà podrà accedir a tota la informació d'Internet que estigui registrada i preservada en els centres de conservació.[4]

Vegeu també[modifica]

Referències[modifica]

  1. Llueca Fonollosa, Ciro (2005). «Webs sempre accessibles : les biblioteques nacionals i els dipòsits digitals nacionals». BiD: textos universitaris de biblioteconomia i documentació, desembre, núm. 15. <http://bid.ub.edu/15lluec1.htm> [Consulta: 25-03-2015]
  2. 2,0 2,1 Biblioteca Nacional d'Espanya (http://www.bne.es/ca/LaBNE/ArchivoWeb/ Arxivat 2015-04-02 a Wayback Machine.)
  3. 3,0 3,1 Ana Santos Aramburo, El archivo de la web española. Trama & texturas Arxivat 2015-04-20 a Wayback Machine., ISSN 1887-3669, Nº. 22, 2013
  4. «Más cerca de un Depósito Legal para publicaciones digitales.», 13-03-2014. [Consulta: 26 març 2015].