CLOCKSS

De la Viquipèdia, l'enciclopèdia lliure

CLOCKSS acrònim anglès de Controlled Lots Of Copies Keep Stuff Safe (= multituds controlades de còpies conserven les coses amb seguretat) és un projecte sense ànim de lucre –iniciat per les principals editorials acadèmiques del món i les biblioteques de recerca– amb el compromís de garantir a llarg termini l'accés a les publicacions científiques en format digital.

La seva missió és crear un arxiu fosc[1] distribuït geogràficament que asseguri la conservació de diverses còpies dels mateixos documents, per a evitar la seva desaparició per desastres naturals, tecnològics o errades humanes.

El model distribuït escollit per CLOCKSS es basa en l'arquitectura de software del projecte LOCKSS.

La preservació digital col·laborativa[modifica]

Una de les principals preocupacions de les biblioteques de tot el món, en l'actualitat, és com mantenir l'accés als continguts digitals de publicacions periòdiques si aquestes deixen d'editar-se, es cancel·la la subscripció o l'editor fa fallida. Aquests documents no es poden afegir a les seves col·leccions perquè les subscripcions resulten cares i no es pot garantir la seva preservació.

Amb els documents impresos no hi ha aquest problema, ja que es distribueixen molts exemplars a diverses biblioteques i si es destrueix una còpia queden disponibles els de la resta de centres: sempre hi ha moltes còpies dels documents distribuïts arreu.

De la col·laboració entre biblioteques i editors ha nascut un servei de preservació digital en servidors independents que permet l'accés a la informació subscrita. Els editors donen la seva autorització per preservar els continguts en servidors aliens i alliberar la informació en cas de fallada tècnica.

Les xarxes de preservació digital distribuïdes[2] mantenen múltiples còpies, creades localment, amb les següents característiques:[3]

  • els locals que preserven el mateix contingut no poden estar a una distància inferior a 120-200 km entre ells.
  • els locals de preservació s'han de situar fora d'àrees amb possibilitat de patir desastres naturals.
  • els locals s'han de distribuir a través de diferents xarxes d'energia elèctrica.
  • els locals de preservació han d'estar sota control de diferents administradors de sistemes.
  • el contingut preservat en llocs dispersos ha d'estar en mitjans electrònics actualitzats i la seva funcionalitat verificada regularment.
  • el seu contingut es replicarà com a mínim tres cops seguint els principis ja exposats.

Entre els projectes més coneguts i utilitzats a nivell mundial per universitats i centres d'investigació científica destaquen Portico, LOCKSS i CLOCKSS.

Portico[modifica]

Portico presta serveis de preservació digital de revistes i llibres electrònics i altres continguts d'ITHAKA, una organització sense ànim de lucre, que dedica els seus recursos a ajudar la comunitat acadèmica a utilitzar les noves tecnologies digitals per avançar en la investigació i la docència. Va néixer el 2002 centrat en el model JSTOR, un arxiu en línia de publicacions acadèmiques. Si l'editor deixa de publicar un títol, no ofereix els números anteriors o falla l'accés, Pórtico garanteix l'accés als continguts.

Portico és arxiu permanent dels continguts d'un elevat nombre d'editors, associacions i societats científiques i amb les seves polítiques de preservació garanteix la seva autenticitat, usabilitat i el seu accés a llarg termini. Concentra algunes de les editorials més importants del món com Elsevier, Springer, Wiley o SAGE.

Logotip del programa LOCKSS

LOCKSS[modifica]

LOCKSS (Lots Of Copies Keep Stuff Safe) es desenvolupa a la Universitat de Stanford entre 1999 i 2002. Forma part d'una iniciativa de biblioteques preocupades per la preservació dels continguts digitals adquirits per les seves universitats. Crea xarxes de col·laboració que guarden les col·leccions distribuïdes en diverses institucions. Això els proporciona eines de baix cost[4] i de codi obert per donar accés als continguts digitals de manera local. Es treballa sobre la premissa que a més biblioteques conservin els mateixos recursos, major serà la possibilitat de supervivència.

El material es descarrega en una caixa LOCCKSS, que pot ser qualsevol ordinador, i així resta disponible pels membres de la comunitat encara que l'editor deixi de publicar per cancel·lació de la subscripció, fallida, fusió o problemes de la xarxa.

LOCKSS és un software de codi obert que funciona mitjançant una xarxa peer-to-peer on el programari verifica periòdicament l'autenticitat i la integritat del contingut emmagatzemat. En cas de detectar una anomalia el sistema substitueix automàticament l'arxiu dubtós amb una versió correcta dels altres servidors. Les publicacions poden ser revistes i llibres electrònics, blocs, tesis i dissertacions o documentació governamental en diversos formats.

CLOCKSS[modifica]

Diagrama de flux de CLOCKSS

Aquest projecte va ser fundat l'any 2006 per Stanford, Sun Microsystems, Library of Congress i The New York Public Library, entre altres centres, per crear un arxiu sense finalitats lucratives, dirigit per la comunitat, segur i amb continguts accessibles al llarg del temps preservats davant qualsevol risc.

CLOCKSS aplica el model LOCKSS a l'entorn dels arxius foscos "dark archives" als quals només es pot accedir en cas d'emergència. La seva funció és garantir la supervivència del recurs digital de qualsevol degradació o si es produeix un sinistre: destrucció dels servidors, desaparició de l'editor...

Funcionament

CLOCKSS té una estructura de govern basada en la comunitat transparent: compta amb la col·laboració del Consell d'Administració format per editors i bibliotecaris amb igual representació de vots en la decisió de procediments, prioritats o el moment d'activar el contingut. També ha desenvolupat una estructura que inclou les normes, reglaments i processos necessaris per crear un arxiu fosc.[5]

La comunitat la formen els editors de contingut, les biblioteques que compren i administren aquests continguts i els usuaris finals: acadèmics, estudiants i lectors de continguts acadèmics electrònics. Els editors signen un contracte amb CLOCKSS redactat en comú amb les biblioteques amb el compromís de bolcar tot el contingut a l'arxiu fosc. Ningú no pot accedir-hi a no ser que es produeixi un esdeveniment desencadenant: la plataforma de lliurament falla durant un període sostingut, l'editor cessa l'activitat, retira algun títol o elimina números anteriors que ja no estan disponibles. En aquest moment el contingut queda disponible a través de CLOCKSS i es publica a les universitats d'Edinburgh i Stanford. Una vegada els materials estan disponibles queden sota llicència Creative Commons així com els títols amb continguts acadèmics, considerats orfes o abandonats.

L'arxiu CLOCKSS comprèn una xarxa de nodes situats a quinze de les principals biblioteques de recerca del món disperses geogràficament. Cada node és responsable d'arxivar el contingut sencer de totes les editorials participants que ocupa sis terabytes.

El funcionament de CLOCKSS podria dividir-se en ser passos diferents, que van des del consentiment per part de l'editor de l'accés als continguts dels seus arxius fins a la publicació gratuïta d'aquests quan es produeix l'esdeveniment desencadenant:[6]

  • Pas 1: L'editor proporciona a CLOCKSS l'accés als continguts dels seus arxius, proporcionant-li també una presentació de la pàgina en HTML. Paral·lelament a això, l'editor també afegeix un permís al seu web per permetre que els rastrejadors de CLOCKSS accedeixin als seus continguts, allotjant-los en els llocs FPS que li han sigut designats per facilitar-ne la seva recollida.
  • Pas 2: Màquines localitzades a les universitats de Rice, Indiana i Stanford són les encarregades de la ingesta d'aquests continguts facilitats per les editorials. Els continguts poden provenir però de fonts diverses, com de la presentació de la pàgina que disposa el servidor HTTP del web o també dels continguts disponibles al lloc FPS que li ha sigut designat anteriorment a l'editorial.
  • Pas 3: Els continguts de què disposen les màquines, recollits de forma duplicada i ubicats en llocs diferents, passen un exhaustiu control de validació per confirmar que les diferents versions de què es disposen són del tot coincidents entre elles.
  • Pas 4: Després que el procés d'auditoria i validació de la qualitat dels continguts conclogui exitosament, aquests són traspassats i guardats a les màquines de preservació de CLOCKSS.
  • Pas 5: El contingut guardat a les màquines de preservació són validats i contrastats constantment mitjançant processos d'auditoria. Si per algun motiu el contingut de les màquines es perden o es detecten incomplets, aquestes emprendran les mesures pertinents per esmenar i reparar els arxius afectats. Per fer-ho es consultaran tant als continguts que resten duplicats a les mateixes màquines com les presentacions originals de què sisposa l'editor.
  • Pas 6: Quan es produeix un esdeveniment desencadenant, sigui una pèrdua sobtada d'informació o qualsevol altra situació que hagi pogut malmetre el recurs original, s'alliberaran els continguts preservats per CLOCKSS, mitjançant dos passos: a) el contingut afectat és migrat al format més actual de què se’n disposi i b) el contingut de les màquines de preservació serà bolcat automàticament a un servidor web públic d'alguna de les organitzacions amfitriones de CLOCKSS.
  • Pas 7: El contingut publicat estarà des d'aquell moment disponible gratuïtament a les universitat de Stanford i Edinburgh.
Institucions participants

Aquest projecte compta amb la participació de biblioteques i editorials de gran tradició i prestigi com Edimburgh University, University of Virginia, Societat Química Americana, Blackwell Publishing o Oxford University Press.

A la pàgina oficial de CLOCKSS es pot consultar la llista completa de col·laboradors.

Reptes de futur

Un dels desafiaments amb què es troba actualment el Consell d'Administració de CLOCKSS és la política de desenvolupament de la col·lecció: com arribar a un consens sobre el que és important preservar davant el ràpid creixement dels continguts, la seva qualitat i naturalesa. Inicialment es van centrar en les revistes i els llibres electrònics però degut a l'actual creixement del contingut acadèmic en bases de dades es troben amb la necessitat d'incloure aquesta àrea en la política de preservació. El principal problema són les bases de dades obertes contínuament actualitzades i, per tant, impossibles de preservar.

Un altre obstacle el representen els continus canvis de normes i formats d'Internet i la naturalesa canviant dels continguts amb l'aparició de nous llenguatges de programació com Ajax i HTML5, que afecten la visibilitat i l'emmagatzemament del contingut així com la seva recuperació. L'arxiu CLOCKSS ha de mantenir-se en constant evolució per afrontar tots aquests reptes.

Reconeixement[modifica]

Cal destacar que ja el primer any de funcionament (2007) la iniciativa va guanyar el Premi de Col·laboració Excel·lent, atorgat per l'Association for Library Collections & Technical Services (Associació per a les col·leccions de biblioteques i serveis tècnics), una divisió de l'associació estatunidenca dels llibreries (ALA).[7]

Enllaços externs[modifica]

Referències[modifica]

  1. Gallart, Nuria; Keefer, Alice. Preservació de dipòsits digitals (pdf). Barcelona: Consorci de Biblioteques Universitàries de Catalunya, 2007, p. 38. 
  2. Castillo, José Manuel; Jorba, Ferran «Emmagatzematge distribuït i preservació digital: una panoràmica d'alternatives». Textos universitaris de biblioteconomia i documentació, 20, 2008. ISSN: 1575-5886.
  3. Skinner, Katherine; Schultz, Matt. A Guide to Distributed Digital Preservation (en anglès). Atlanta: Educopia Institute, 2010. ISBN 978-0-9826653 [Consulta: 6 abril 2015 (2015-04-06)]. 
  4. Seadle, Michael. Archiving in the Networked World: By the Numbers (en anglès), 2011, p. 11 pàgines [Consulta: 5 abril 2015 (2015-04-05)]. 
  5. «It Takes a Community: The CLOCKSS Initiative» (en (anglès)). REICH, Victoria, 2008. [Consulta: 5 abril 2015].
  6. Un esdeveniment desencadenant és descrit per CLOCKSS com qualsevol situació que interfereixi en la disponibilitat de l'arxiu: per exemple que l'editorial ja no operi en el sector de mercat, que hagi deixat de publicar sense tenir un successor clar dels dret dels seus continguts, que no en faciliti l'accés a números anteriors o també per qualsevol catàstrofe o problema tècnic de caràcter irreversible. Podeu trobar la definició completa a l'apartat «How does the CLOCKSS board define a trigger event?» (anglès)
  7. «ALCTS Outstanding Collaboration Citation». A: Letters from ALCTS. vol. 18 n°2. Chicago: American Library Association (ALA), Abril 2007 [Consulta: 6 abril 2015 (2015-04-06)]. «Given to CLOCKSS, the ALCTS Outstanding Collaboration Citation recognizes and encourages collaborative problem-solving efforts in the areas of acquisition, access, management, preservation or archiving of library materials. It recognizes a demonstrated benefit from actions, services, or products that improve and benefit providing and managing library collections.»