Web archiving

De Viquipèdia
Salta a: navegació, cerca

Web archiving és el procés de recollir parts del World Wide Web per assegurar la preservació de la informació en un arxiu per a futurs investigadors, historiadors i públic general.[1] Els arxivers web normalment utilitzen aranyes web (web crawlers, en anglès) per automatitzar la captura a causa de l'enorme grandària i la quantitat d'informació present al Xarxa. L'organització més gran de web archiving basada en l'ús massiu del rastreig web (web crawling) és l'Internet Archive que s'esforça a mantenir un arxiu de tota la Xarxa. L'International Web Archiving Workshop (IWAW), iniciat el 2001, ha proporcionat una plataforma per compartir i intercanviar experiències i idees. La posterior fundació de l'International Internet Preservation Consortium (IIPC) l'any 2003 ha facilitat en gran mesura la col·laboració internacional en el desenvolupament d'estàndards i eines de codi obert per a la creació d'arxius web. Aquests esdeveniments, i la part cada cop més gran de la cultura humana creada i enregistrada a la web, es combinen per fer inevitable que cada vegada més les biblioteques i arxius hauran de fer front als reptes de l'arxiu web. Així mateix, les biblioteques nacionals, arxius nacionals i diversos consorcis d'organitzacions també estan involucrats en arxivar contingut web amb valor cultural. Igualment, programari comercial i serveis d'arxiu web estan disponibles per a les organitzacions que necessiten arxivar el seu propi contingut web com a patrimoni corporatiu, normatiu o amb fins legals.

Els arxivers web generalment recopilen diversos tipus de contingut web, on s'inclouen pàgines web HTML, fulls d'estil, JavaScript, imatges i vídeo. Per altra banda, recullen les metadades dels recursos com, per exemple, el temps d'accés, tipus MIME i mida del contingut. Aquestes metadades són útils per establir l'autenticitat i la procedència de la col·lecció arxivada.

Mètodes de recollida[modifica]

Recol·lecció remota[modifica]

La tècnica més comuna d'arxiu web utilitza aranyes web per automatitzar el procés de recol·lecció de pàgines web. Les aranyes solen accedir a pàgines web de la mateixa manera que els usuaris disposen d'un navegador veure la web i, per tant, suposen un mètode relativament senzill de recol·lecció remota de contingut web. Alguns exemples d'aranyes web utilitzades per a l'arxiu web inclouen: Heritrix, HTTrack o Wget. Existeixen diversos serveis gratuïts que poden usar-se per arxivar els recursos web a demanda, utilitzant aquestes tècniques de rastreig web. Aquests serveis inclouen Wayback Machine i WebCite.

Arxiu de bases de dades[modifica]

La tècnica d'arxiu de bases de dades fa referència a mètodes per arxivar el contingut subjacent de llocs web basats en bases de dades. Generalment, requereix l'extracció del contingut de la base de dades en un esquema estàndard, sovint usant XML. Un cop emmagatzemat en aquest format estàndard, el contingut es pot fer accessible mitjançant un únic sistema d'accés. Aquest enfocament s'exemplifica amb les eines DeepArc i Xinq, desenvolupades per la Biblioteca Nacional de França i la Biblioteca Nacional d'Austràlia, respectivament. DeepArc permet mapejar l'estructura d'una base de dades relacional en un esquema XML (XML schema) i exportar el contingut en un document XML. Xinq, a més, permet que el contingut sigui accessible en línia. Tot i que la disposició original i el comportament de la pàgina web no es pot conservar exactament, Xinq permet replicar la consulta bàsica i la funcionalitat de recuperació d'informació.

Arxivat transaccional[modifica]

L'arxivat transaccional és un enfocament orientat a esdeveniments, que recull les transaccions reals que tenen lloc entre un servidor web i un navegador web. S'utilitza principalment com a mitjà per preservar el testimoni del contingut que es veu realment en una pàgina web específica en una data determinada. Això pot ser particularment important per a les organitzacions que necessiten complir amb determinats requisits legals o normatius en l'exposició i la retenció d'informació. Un sistema transaccional d'arxiu normalment funciona interceptant cada petició HTTP al servidor web i la seva resposta corresponent, a l'hora que filtra cada resposta per eliminar contingut duplicat i emmagatzema permanentment les respostes com a fluxos de bits (bitstreams).

Dificultats i limitacions[modifica]

Aranyes web[modifica]

Els arxius web que es basen en el rastreig web com el seu principal mitjà de recollida es veuen afectats per diverses dificultats en aquest rastreig:

  • El protocol d'exclusió de robots pot sol·licitar a les aranyes no tenir accés a parts d'un lloc web. Tanmateix, alguns arxivers web poden ignorar la sol·licitud i recollir, de tota manera, aquestes parts.
  • Gran part d'un lloc web pot estar amagada a la web profunda. Per exemple, la pàgina de resultats darrere un formulari web pot mentir a la web profunda si les aranyes no poden seguir un enllaç a la pàgina de resultats.
  • Les trampes per aranyes web (crawler traps o spider traps, en anglès) (per exemple, els calendaris) poden causar que una aranya descarregui un nombre infinit de pàgines, de manera que generalment les aranyes es configuren per limitar el nombre de pàgines dinàmiques que rastregen.

De tota manera, és important tenir en compte que un arxiu web natiu, és a dir, un arxiu web totalment navegable, amb vincles operatius, mitjans, etc., només és possible utilitzant la tecnologia d'aranyes. El web és tant gran que per rastrejar una part significativa es necessita una gran quantitat de recursos tècnics. La Xarxa canvia tant ràpidament que, fins i tot, parts d'un lloc web poden canviar abans que una aranya web hagi acabat de rastrejar-lo.

Limitacions generals[modifica]

Alguns servidors web estan configurats per enviar de resposta diferents pàgines a les sol·licituds d'arxivadors web com ho farien en resposta a les peticions d'un navegador corrent.[2] Això es realitza normalment per enganyar els motors de cerca a dirigir més tràfic d'usuaris a un lloc web i, sovint, es fa per evitar la rendició de comptes o per proporcionar contingut millorat només a aquells navegadors que el poden mostrar.

Els arxivers web no només han d'afrontar els reptes tècnics per arxivar la Web, sinó que també han de bregar amb les lleis de propietat intel·lectual. Peter Lyman [3] afirma que "tot i que la Web és considerada popularment com a recurs de domini públic, té drets d'autor; per tant, els arxivers no tenen dret legal per copiar la Web". No obstant això, biblioteques nacionals d'alguns països poden tenir dret legal per copiar parts de la Web sota una extensió del dipòsit legal.

Alguns arxius web sense fins de lucre que es fan accessibles al públic, com WebCite, l'Internet Archive o de la Internet Memory Foundation permeten als propietaris amagar o eliminar el contingut arxivat al qual no volen que el públic hi tingui accés. Altres arxius web només són accessibles des de certs llocs o han regulat el seu ús. WebCite cita una recent demanda contra l'emmagatzematge en memòria cau de Google, que Google va guanyar. [4]

Aspectes de curació web[modifica]

La curació web, igual que qualsevol curació digital, implica:

  • Certificació de la fiabilitat i la integritat del contingut de la col·lecció
  • Recollir actius web verificables
  • Proporcionar la cerca i la recuperació d'actius web
  • Continuïtat semàntica i ontològica i la possibilitat de comparació de la col·lecció

A més, a banda de l'exposició sobre els mètodes de recollida de la Web, també cal incloure aquells que faciliten l'accés, la certificació i l'organització. Hi ha un conjunt d'eines populars que aborden aquests passos de curació, el conjunt d'eines per a la curació web de International Internet Preservation Consortium:

  • Heritrix - recull d'actius de la web
  • NutchWAX - cerca de col·leccions d'arxius web
  • Codi obert Wayback Machine - buscar i navegar per les col·leccions de fitxers web utilitzant Nutchwax
  • Web Curator Tool - selecció i gestió de la col·lecció web [5]

Altres eines de codi obert per a la manipulació d'arxius web:

  • Eines de la WARC (Web ARChive) - per crear, llegir, analitzar i manipular arxius de la WARC de forma programada
  • Cercadors Google - per a la indexació i recerca de text complet i metadades en arxius web [cita requerida]

Com a eines gratuïta, però no de codi obert també existeix:

  • WARC Software Development Kit (WSDK) que representa un conjunt de mòduls Erlang simple, compacte i altament optimitzats per manipular Erlang (crear/llegir/escriure) el format d'arxiu WARC ISO 28500:2009.

Referències[modifica]

  1. Habibzadeh, Parham «Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals». Applied Clinical Informatics, Vol. 4, 2013, pàg. 455-464. DOI: http://dx.doi.org/10.4338/ACI-2013-07-RA-0055. ISSN: 1869-0327.
  2. Habibzadeh, Parham «Are current archiving systems reliable enough?». International Urogynecology Journal, Vol. 26, Issue 10, Octubre 2015, pàg. 1553-1553. DOI: 10.1007/s00192-015-2805-7. ISSN: 0937-3462.