[Versión castellana]

José Manuel Castillo

Universitat Autònoma de Barcelona

josemanuel.castillo@uab.cat


Ferran Jorba

Universitat Autònoma de Barcelona

ferran.jorba@uab.cat



Archiving should be done by
librarians and archivists,
period.
Gordon Tibbitts,
Blackwell Publishing1

Resum [Resumen] [Abstract]

Dels diversos aspectes de la preservació digital, aquest article se centra en un: l'emmagatzematge distribuït (creació de rèpliques) com a garantia que almenys no es perdi, corrompi o sigui inaccessible una còpia única dels documents.

Mirarem com repliquen les seves dades Internet Archive i Google, i avaluarem algunes de les eines de programari que hem trobat, tant les específicament bibliotecàries (en especial LOCKSS), les propietàries orientades a l'arxiu empresarial, i algunes de les opcions de programari lliure.

L'article es deté sobretot en LOCKSS, que s'ha creat un nom com a solució estandarditzada per a preservació digital en el món bibliotecari, però que a nosaltres ens va decebre per la seva poca claredat en els objectius i implementació, i els seus requeriments excessius. Atès que de les eines avaluades, cap ens serveix per preservar (replicant) els nostres fons, aportem la nostra solució temporal i línies futures de recerca.


1 Introducció i motivació

Aquest article és una primera recapitulació del que hem trobat a la Universitat Autònoma de Barcelona (UAB) sobre sistemes informàtics de preservació digital basats en múltiples còpies distribuïdes. Naturalment, un sistema distribuït, per la seva pròpia definició, requereix la participació de múltiples socis i, per tant, aquest resum no deixa de ser sinó una petita contribució a una estratègia consorciada de preservació digital.

No ha estat fàcil intentar concretar les diferents solucions implementables, perquè vivim en una època en què hi ha una gran quantitat de teoria acadèmica, de formalismes teòrics i d'aplicacions en fase de desenvolupament, que encara no han pogut demostrar la seva viabilitat. Estem segurs, a més, que hi ha opcions més imaginatives que encara no hem explorat.

En qualsevol cas, la veritat és que, en l'entorn de les biblioteques i universitats, tots ens trobem en una situació semblant:

Els lectors familiaritzats en preservació digital es deuen demanar per què avaluem diferents solucions si ja hi ha LOCKSS (Lots Of Copies Keep Stuff Safe). En parlarem una mica més endavant.


2 Línies generals de la preservació digital

Convé aclarir que estem parlant de l'estadi més bàsic de la preservació digital, l'anomenat bit-level preservation, és a dir, el que garanteix que els objectes, fitxers o documents no siguin alterats. Generalment, les diverses implementacions que hem trobat i hem avaluat es basen en els principis següents:


3 Tipus de solucions

Estem en un moment en què almenys tres comunitats diferents necessiten unes solucions similars i han arribat a conclusions del mateix tipus. Segurament en el món bibliotecari sembla que només hi hagi LOCKSS, que té el prestigi enorme d'un projecte capdavanter i, a més, amb molta presència i literatura publicada, però hi ha vida més enllà de LOCKSS i, de fet, si hem mirat més enllà, ha estat a causa d'una certa frustració amb aquest sistema.

Paral·lelament, el món empresarial corporatiu, especialment en els Estats Units, també té la necessitat (i sovint l'obligació legal) d'emmagatzemar documents durant períodes de temps llargs: aquest és un dels problemes causats per la mítica "oficina sense paper". Terminològicament, els proveïdors de solucions empresarials tendeixen a utilitzar l'expressió fixed content, i es refereixen a tota la documentació, sovint administrativa, que una vegada generada no es modifica i es consulta poc, o mai, encara que s'hagi de conservar fins i tot algunes vegades durant períodes respectables de temps, com ara les històries clíniques. A més, cada vegada és més imprescindible per al desenvolupament de l'activitat d'aquestes empreses arxivar i mantenir almenys part de l'enorme volum de dades que es generen actualment.

Finalment, en la informàtica de consum, la manipulació cada vegada més gran de fitxers multimèdia (àudio i vídeo), especialment en servidors d'ús compartit, ha creat la necessitat de gestionar aquests volums de manera diferent de com es feia fins ara (còpies de seguretat en cinta).

Avui dia, en molts entorns, els responsables del departament d'informàtica es qüestionen si val la pena fer còpies de seguretat en cinta. Cada vegada més, les solucions de còpies de seguretat en disc, o en general, les d'emmagatzematge nearline (entre l'estat en línia del disc en producció i el fora de línia de la cinta) tenen més implantació en el mercat.


4 Lliçons dels grans sistemes a Internet

Abans de valorar les solucions que hem avaluat, val la pena fer un cop d'ull a la manera com custodien les dades alguns dels grans sistemes d'Internet.


4.1 Internet Archive

Internet Archive

De les grans instal·lacions a Internet, Internet Archive és el que més s'assembla al nostre cas, ja que un dels seus objectius principals és preservar webs. Internet Archive ha desenvolupat un sistema més aviat minimalista per configurar els nodes dels servidors de disc.2 Per tal de garantir la integritat de les còpies, Internet Archive té tres centres de dades: un a San Francisco, un a Amsterdam i un altre al Caire, i repliquen els fitxers via rsync,3 encara que desen una còpia de les versions canviades o esborrades.4 Tal com diuen els responsables de Internet Archive, es tracta de buscar un sistema econòmic,5 senzill i efectiu. Recalquen que els errors humans també produeixen pèrdues, de manera que és millor tenir equips amb personal diferent per als diversos centres.6 Com que van tenir males experiències amb la recuperació massiva de cintes DLT, han arribat a la conclusió que és millor tenir-ho tot en disc, i com més viu millor. Així, han creat una empresa, Capricorn Tech,7 que comercialitza el seu disseny de servidor de disc anomenat Petabox,8 que s'utilitza en els seus centres i en altres institucions, com ara la Bibliothèque Nationale de France.9


4.2 Google

LOCKSS

Com ho fa Google? És sabut que Google utilitza massivament ordinadors econòmics amb el sistema operatiu Linux, i processa les dades en paral·lel. Google ha desenvolupat una infraestructura extraordinària amb què difícilment es pot comparar qualsevol universitat o biblioteca del nostre entorn,10 però sí que en podem aprendre algunes coses. Segons la informació de què disposem,11 Google ha desenvolupat el seu propi sistema de fitxers, anomenat GFS,12 i les dades estan replicades almenys tres vegades, i cinc les metadades.13 A més de les eines de cerca, sabem que Google també allotja dades, ja sigui correu (Gmail), fotos (Picasa), vídeos (Google Video i YouTube) o, més recentment, grans conjunts de dades científiques d'accés públic (Palimpsest).14 Però, en qualsevol cas, Google tampoc no fa còpies de seguretat en cinta.


5 Solucions bibliotecàries

Hi ha dos aspectes que distingeixen específicament el tractament bibliotecari en la qüestió que ens ocupa. D'una banda, la manca de límits temporals (preservar "per a la posteritat") i, de l'altra, el fet de buscar solucions cooperatives. Ambdues característiques formen part de la tradició professional, i queden perfectament il·lustrades en la citació de Thomas Jefferson que presideix LOCKSS i CLOCKSS:

"Let us save what remains: not by vaults and locks which fence them from the public eye and use in consigning them to the waste of time, but by such a multiplication of copies, as shall place them beyond the reach of accident."15


5.1 LOCKSS i CLOCKSS

LOCKSS  CLOCKSS

Comencem per l'aplicació que en principi hauria de ser la solució estandarditzada per a la preservació: LOCKSS. LOCKSS16 és un projecte ambiciós, molt ambiciós, amb fundadors i socis d'envergadura: Stanford, Sun Microsystems, Library of Congress i The New York Public Library, entre altres centres. El principi que el guia és molt fàcil d'entendre: Lots Of Copies Keep Stuff Safe; és a dir, "moltes còpies permeten que el material sigui segur". Si avui dia podem llegir els clàssics grecs, llatins o medievals és perquè, encara que s'hagin perdut molts manuscrits, se n'han conservat molts d'altres gràcies al fet que hi havia còpies en diferents llocs del món. Es tracta d'aplicar aquest principi als documents digitals: multiplicar les còpies dels documents i situar-los en seus geogràficament disperses per garantir que, encara que se'n perdi o se n'espatlli alguna, les altres permetin que cap obra no es quedi sense rèplica.

A partir d'aquest principi bàsic i carregat de sentit comú, l'aplicació pràctica de LOCKSS sorprèn per les seves particularitats. Com que la idea original va sorgir a partir de la voluntat de preservar publicacions de tercers editors,17 tot el sistema gira al voltant d'un crawler o robot web que recull les revistes remotes18 segons unes regles o uns connectors específics per a cada títol. Aquest contingut, aquestes pàgines web, es repliquen i s'auditen segons el protocol Library Cache Auditing Protocol (LCAP), un sistema altament sofisticat per comparar i verificar que totes les còpies es conservin íntegres i, en cas de conflicte, un sistema de votació i valoració de confiança entre tots els sistemes que formen part de LOCKSS per determinar quines còpies són autèntiques i quines han estat alterades,19 és a dir, el que els filòlegs han fet amb les edicions crítiques de tota la vida, però a temps real i automatitzat.

De totes maneres, quan el contingut que s'ha de preservar no és necessàriament públic, o no és accessible via web, LOCKSS no és aplicable, sinó que cal utilitzar un derivat anomenat CLOCKSS (controlled o community LOCKSS), que abans tenia les pàgines en el web de LOCKSS, però que ara fins i tot té el seu propi domini.20 De totes maneres, aquesta distinció continua sent molt difusa en les seves pàgines web. Per exemple, en el lloc de CLOCKSS s'afirma que "CLOCKSS host libraries are collecting and preserving comprehensive collections including materials to which they DO have a subscription and materials to which they DO NOT have a subscription. CLOCKSS is preserving material published by scholarly publishers".21 Sembla que l'única diferència real entre l'un i l'altre sigui el fet que LOCKSS implementa un fitxer obert (light archive) i CLOCKSS, un de tancat (dark archive) fins que no es produeixi algun esdeveniment que permeti de fer-se visible.22 Finalment, sembla que no es preveu la incorporació de més de quinze biblioteques participants en el consorci CLOCKSS.23

En el nostre cas, el fons que cal preservar no es tracta tant de revistes HTML externes, com en primera instància del patrimoni digital de la nostra universitat (els fitxers PDF de les revistes publicades per la mateixa UAB i que ens proporciona el Servei de Publicacions, més els fitxers TIFF resultat de digitalitzacions retrospectives). També tenim, en segon lloc, altres tipus de documents, com ara fotos, vídeos, àudios i altres materials. Segons el que hem après, en LOCKSS i CLOCKSS, per a casos com aquests cal escriure uns connectors específics adaptats a cada tipus de col·lecció.

Sorprenentment per a una aplicació amb llicència oberta, al final de 2007 no hi ha cap enllaç per baixar el programari. A la UAB en vàrem instal·lar una còpia (l'aplicació està escrita en Java) gràcies a unes instruccions que ens van enviar en privat a partir de la consulta que els vam fer. D'altra banda, la instal·lació de CLOCKSS requereix obrir en els nostres ordinadors una sèrie de ports TCP i UDP perquè siguin accessibles des del domini stanford.edu.

Finalment, ens va sorprendre el fet que els requisits per garantir que CLOCKSS funcioni correctament siguin que hi hagi un mínim de sis còpies, preferiblement set, dels documents. Si, per exemple, a la UAB digitalitzem aproximadament 11 TB en un any, hauríem de disposar d'entre 70 i 80 TB de disc.

D'aquesta manera, almenys en el nostre cas, l'experiència amb LOCKSS ha estat poc satisfactòria. I per això vàrem buscar alternatives.


5.2 DAITSS

DAITSS

DAITSS24 (Dark Archive in the Sunshine State) té per objectiu la implementació integral del model OAIS25 i, com a part d'aquest model, implementa la replicació d'objectes (per defecte, tres còpies, en comptes de les set de LOCKSS) i la migració de formats. En tot cas, no tant com a sistema de replicació per se, que era el que buscàvem, sinó com a part d'una solució integral que hauríem d'avaluar amb altres paràmetres, especialment pel que fa a la compatibilitat per integrar-lo en el fluxe de treball dels dipòsits ja existents. Està escrit en Java i MySQL, té llicència GPL i es publiquen actualitzacions amb una certa regularitat.


5.3 koLibRI

koLibRI

A Alemanya també hi ha centres de preservació digital, com ara Nestor,26 i tenen projectes de programari, per exemple, koLibRI,27 escrit en Java i per a la base de dades DB2, però malgrat l'enfocament de preservació, no hi hem trobat sistemes de rèplica o verificació d'objectes digitals.


6 Solucions comercials-corporatives

Aquest tipus de solucions acostumen a posar més èmfasi en aspectes com el "claus en mà", o fins i tot la fiabilitat legal dels productes, que en la possibilitat de cooperar amb institucions externes per dur a terme una política conjunta de preservació a llarg termini.

Arran d'aquesta necessitat, van apareixent en el mercat un gran nombre d'aplicacions per proveir una solució. Les més esteses implementen el model CAS (Content-Addressable Storage);28 un sistema d'emmagatzematge que es basa en el mecanisme de recuperació de la informació a partir del contingut, i no de la ubicació física. Treballa en l'àmbit lògic amb el concepte d'objectes digitals (la informació que cal preservar), als quals associa una etiqueta (que els identificarà en el sistema) i una sèrie d'altres metadades. Físicament sol funcionar gestionant múltiples còpies dels mateixos objectes, emmagatzemades de manera dispersa, per evitar pèrdues d'informació causades per errors humans, de maquinari o de programari.


6.1 Centera

EMC

Centera29 és una plataforma per arxivar continguts digitals invariables comercialitzada per EMC, procedent de la compra de l'empresa FileWave el 1999,30 i una de les solucions CAS capdavanteres i amb més implantació al mercat.

La seva arquitectura física, que el mateix fabricant va anomenar RAIN (Redundant Array of Independent Nodes), consisteix en un conjunt de nodes (servidors Linux) connectats entre si en una xarxa d'àrea local privada, els quals desenvolupen una de dues possibles funcions: la provisió d'espai per a emmagatzematge (permet d'allotjar 1,38 TB nets en configuració de mirall, o 2,36 TB en protecció per paritat), i connectivitat per xarxa (amb un port Ethernet d'1 Gbps i suport TCP/IP).

Un armari al complet de la seva capacitat (això és, amb 32 nodes) pot disposar de fins a aproximadament 75 TB nets, encara que poden connectar-se tants armaris entre si com espai d'emmagatzematge total es requereixi.

El sistema "garanteix" la immutabilitat dels continguts que emmagatzema. Una vegada més, el principi pel qual s'intenta preservar la informació és el manteniment de múltiples còpies més o menys disperses. Així, periòdicament Centera s'encarrega d'executar determinats processos per assegurar que sempre hi hagi dues còpies de cada objecte que s'emmagatzema, i que aquestes es mantinguin invariables i idèntiques a l'original introduït en el sistema inicialment. En cas que es detectin errors de maquinari o inconsistències de les còpies o de les metadades, Centera té la capacitat per recuperar-se automàticament.

Fins a quin punt les dades estan fora de perill? Si les còpies d'un determinat objecte digital estiguessin (gairebé simultàniament) en discos físics i, com a conseqüència d'un error, la còpia de l'objecte que allotgessin es perdés, no es podria recuperar la informació emmagatzemada. Això és així tant en una configuració de mirall (en el cas que es perdés tant el disc original com el mirall), com en una configuració de protecció de paritat (en el cas que es perdessin dos discos en la mateixa formació, de manera que seria impossible recalcular la paritat simple). Per tant, la recomanació del fabricant és mantenir dos conjunts de sistemes Centera que es repliquin entre si (això és, un mínim de quatre còpies de cada objecte digital).

Altres funcionalitats interessants són la possibilitat de convertir en parts l'espai dels continguts (mitjançant els anomenats pools virtuals), definir polítiques de retenció dels objectes, estendre la solució segons les necessitats particulars a través d'una API suposadament oberta, i d'altres.


6.2 Nexsan

Nexsan Assureon

Assureon, de l'empresa Nexsan31, és una solució molt similar a la que presenta EMC amb Centera.

Pel que fa a maquinari, i a diferència de Centera, Assureon es basa en l'emmagatzematge de la informació no en nodes independents, sinó en agrupacions de discos controlats per un sistema central. Les agrupacions de discos són els que ha desenvolupat la mateixa empresa Nexsan (SATABeast i SATABoy), i es basen en tecnologia SATA.

En l'aspecte funcional, té dos avantatges de què manca la competència: la possibilitat d'emmagatzemar la informació en formacions de discos de doble paritat o RAID 6 (de manera que s'obté més protecció davant d'eventuals errors dels discos), i la capacitat de servir els objectes a través d'una interfície de sistema de fitxers i d'accedir-hi mitjançant NFS o CIFS (sense haver de treballar forçosament amb desenvolupaments propis basats en API, ni haver de pagar la llicència per altres productes, com és el cas de Centera).

Un tercer avantatge molt important és que el sistema disposa d'un mecanisme (que el mateix fabricant ha anomenat AutoMAID) per estalviar energia i intentar preservar la vida útil dels discos. MAID (Multiple Array of Idle Discs) consisteix en el fet que, després d'un temps determinat (i configurable) durant el qual no s'hagi accedit a la informació desada en els discos, el sistema actua d'aquesta manera: fa que, primer, s'aparquin els capçals del disc; segon, i després que hagi passat més temps, es baixin les revolucions a les quals gira; tercer, després que hagi transcorregut encara més temps, s'aturi el disc totalment.

Per a entorns com el de l'objecte del nostre estudi —l'arxivament i la preservació digital—, en els quals l'accés a les dades és molt esporàdic (bàsicament el que fa el mateix sistema per assegurar-se que tot està com ha d'estar), aquesta funció d'estalvi de recursos és molt important a l'hora de considerar una solució.


6.3 CAStor

Caringo

La de CAStor32, de l'empresa Caringo, és una és una solució CAS només de programari, a diferència de les dues anteriors, que incloïen també el maquinari.

Pel que fa a l'operativa, consisteix simplement a connectar una memòria USB a un servidor amb maquinari estàndard (no cal que sigui de grans prestacions, però sí que ha de disposar de molta capacitat d'emmagatzematge), i arrencar el sistema des d'aquest dispositiu. Una vegada estigui funcionant, la màquina es converteix automàticament en un node integrat a la xarxa d'emmagatzematge.

Com més capacitat es necessiti, més màquines poden integrar-se a la xarxa (pot escalar fins i tot més d'1 PB amb centenars de nodes): tan sols fa falta connectar un servidor més i fer que arrenqui des de la memòria USB amb el programari CAStor.

També es basa en els mateixos principis que les altres solucions: es mantenen diverses còpies dels objectes emmagatzemats i el sistema s'encarrega automàticament de comprovar de manera periòdica la seva integritat i de recuperar-se després d'errors o de canvis en la configuració.


7 Programari lliure

Linus Torvalds, creador del nucli Linux, és l'autor d'una frase molt citada, "only wimps use tape backup: real men just upload their important stuff on ftp, and let the rest of the world mirror it",33 que és una variació de la de Thomas Jefferson utilitzada per LOCKSS. I, de fet, hi ha molta experiència acumulada durant molts anys en la rèplica de dipòsits de programari lliure, començant per les col·leccions GNU i TeX, Perl, Apache i, posteriorment, els més massius de Linux.


7.1 Twisted Storage

Twisted Storage

Twisted Storage34 és el primer projecte de programari lliure i de codi obert que pretén implementar el model CAS. Està escrit en Python i utilitza el motor per a aplicacions en xarxa Twisted,35 i pot treballar tant amb MySQL com amb SQLite. Inicialment ens va semblar que era un projecte molt interessant, ja que prometia funcionalitats de les quals només disposaven solucions comercials i molt costoses. Lamentablement, només se n'ha publicat una primera versió, la 0.1.5, l'octubre de 2006, i des d'aleshores no hi ha hagut cap moviment en el desenvolupament.


7.2 Allmydata Tahoe

Allmydata Tahoe

Allmydata36 és una empresa que ofereix allotjament de dades per a particulars i empreses, amb garanties de privacitat, redundància i disponibilitat. Al seu torn, el desenvolupament de la pròxima versió del seu programari37 és obert i està especialment enfocat a la descentralització, la criptografia forta i la redundància. Tal com Twisted Storage, està escrit en Python, es basa en el motor Twisted per a aplicacions en xarxa i OpenSSL i altres mòduls criptogràfics, però en aquests moments encara no el recomanen per a producció perquè no està acabat. En tot cas, com que encriptar dades va contra les polítiques de preservació a llarg termini (per si en el futur es perdés la possibilitat de desencriptar-les, ja sigui per pèrdua de claus o bé per altres problemes; no hauria servit de res la seva custòdia), aquest aspecte no ens el fa gaire recomanable.


7.3 MogileFS

MogileFS

MogileFS38 és un sistema de fitxers distribuït, especialment dissenyat com a servidor de documents en llocs web amb molt trànsit, com ara LiveJournal,39 per al qual va ser escrit, ja que els seus responsables no trobaven una solució comercial assequible. L'utilitzen diversos llocs web amb bon rendiment i disposa d'una bona comunitat d'usuaris. Està escrit en Perl i utilitza el MySQL o el PostgreSQL.

Lamentablement, no va proveït de cap sistema de comprovació de la integritat de la informació emmagatzemada en la grid encara que això sí, permet la possibilitat de mantenir moltes còpies d'un mateix objecte. De la mateixa manera, tampoc no disposa de cap mecanisme de recuperació automàtica d'un node caigut. A més, en la nostra instal·lació de laboratori també observem que presenta alguns problemes amb fitxers de més de 65 MB.


8 La nostra solució

Per abordar la solució al problema, hem de considerar els diversos sistemes d'emmagatzematge disponibles. Podríem adquirir armaris de discos i replicar les dades entre diverses seus disperses geogràficament mitjançant programari de sincronització, o bé contactar amb un proveïdor que disposi de solucions personalitzades de tipus CAS i similars, o utilitzar algun sistema d'emmagatzematge distribuït amb eines de programari lliure.

Hi ha diversos sistemes d'emmagatzematge distribuïts: un disc (dispositiu de blocs) compartit, un sistema de fitxers compartit i un sistema de fitxers distribuït compartit. En el nostre cas, inicialment estàvem interessats a investigar les possibilitats d'un sistema de fitxers distribuït compartit. La nostra pretensió era aprofitar el fet que el Servei de Biblioteques disposa de diverses desenes d'ordinadors repartits pel campus (OPAC amb Linux)40 perquè els usuaris facin consultes, per poder utilitzar-los a més com a nodes d'una xarxa d'emmagatzematge distribuït. Cada node disposaria d'un sistema de fitxers local, que mitjançant el programari adequat s'aconseguiria agregar un per un en un únic sistema de fitxers. Al seu torn, aquest sistema de fitxers seria accessible des de diversos ordinadors centrals.

El problema, després de dur a terme diverses proves en laboratori, va ser que cap paquet de programari lliure no s'adaptava a la nostra situació: o bé eren projectes que estaven en plena fase de desenvolupament (i, per tant, inadequats per a producció per la seva inestabilitat), o bé que no estaven realment pensats per a la preservació digital i necessitaven un procés d'adaptació costós.

Una altra dificultat consistia en el gran cost d'inversió que representava apostar per alguna de les solucions comercials corporatives que hem exposat, i el fet de lligar-se a una eina determinada sota el control d'un únic fabricant, un aspecte que considerem que no és la millor alternativa.

Finalment, hem decidit rebaixar les nostres pretensions inicials, tenint en compte el que s'ha dit abans i pel fet que escollir una solució completa pel nostre compte i sense comptar plenament amb la resta de la comunitat universitària seria a la pràctica un esforç poc constructiu.

Com que la nostra responsabilitat és en primer lloc professional, pretenem de moment, en primer lloc i com a solució immediata, imitar el que està fet l'Internet Archive. Això és: mantenir un número determinat de còpies de cada objecte, i emmagatzemar-les en suports físics ubicats a llocs diferents. La idea és adquirir dos o més sistemes d'emmagatzemament en disc que siguin barats (tant en el cost d'adquisició com en el de manteniment) i realitzar les sincronitzacions entre els equips amb software tipus rsync.

En segon lloc, estem avaluant un altre tipus de software, el de control de versions, i més específicament el dels distribuits41, perquè una observació atenta revela que més enllà de les seves aparents diferències, comparteixen també objectius com els nostres, no només el nom (repositories) i el mètode (distribuits). Aquest tipus és una família d'aplicacions relativament recent però que ha madurat molt ràpidament, i que en aquests coments està representada sobretot per tres grans noms: Git http://git.or.cz, Mercurial http://www.selenic.com/mercurial y Bzr http://bazaar-vcs.org. Encara que probablement el candidat més probable a ser la nostra solució escollida sigui Git, degut a la seva escalabilitat, flexibilitat, diversitat de mètodes de replicació i garanties d'integritat de les seves dades, la decissió, en el moment d'escriure aquestes línies, és una mica prematura, ja que hem de confirmar que (o quin d'ells) gestionin bé grans volums de fitxers binaris. Una exposició completa i raonada d'això seria objecte d'un estudi específic.

9 Annexos

Altres solucions comercials corporatives:

Altres iniciatives relacionades, en programari lliure:



Notes

1 UKSG 19.2 (2006): 111-119. <http://works.bepress.com/gordon_tibbitts/1>. [Consulta: 28/02/2008].

2 <http://www.archive.org/iathreads/post-view.php?id=41661>. [Consulta: 28/02/2008].

3 rsync és una eina amb llicència GPL per sincronitzar conjunts de fitxers entre màquines remotes, via xarxa, transmetent només les diferències entre aquests fitxers. <http://www.samba.org/rsync>. [Consulta: 28/02/2008].

4 <http://www.archive.org/iathreads/post-view.php?id=19584>. [Consulta: 28/02/2008].

5 <http://webservices.xml.com/pub/a/ws/2002/01/18/brewster.html>. [Consulta: 28/02/2008].

6 <http://www.archive.org/iathreads/post-view.php?id=15551>. [Consulta: 28/02/2008].

7 <http://www.capricorn-tech.com>. [Consulta: 28/02/2008].

8 <http://www.capricorn-tech.com/products.php>. [Consulta: 28/02/2008].

9 <http://wa.archive.org/blog/2007/05/17/crawl-data-delivered-to-bibliotheque-national-de-france>. [Consulta: 28/02/2008].

10 Inclou, per exemple, un llenguatge de programació propi, el Sawzall, que només té sentit en un sistema de milers de servidors, com els que formen part de Google. <http://research.google.com/archive/sawzall.html>. [Consulta: 28/02/2008].

11 <http://www.baselinemag.com/print_article2/0,1217,a=182664,00.asp>. [Consulta: 28/02/2008].

12 <http://labs.google.com/papers/gfs.html>. [Consulta: 28/02/2008].

13 <http://research.google.com/archive/disk_failures.pdf>. [Consulta: 28/02/2008].

14 Google's Palimpsest project: promiscuous distribution of all science data sets. <http://pimm.wordpress.com/2007/09/25/googles-palimpsest-project-promiscuous-distribution-of-all-science-data-sets>. [Consulta: 28/02/2008].

15 <http://www.locks.org>. [Consulta: 28/02/2008].

16 Ibid.

17 "LOCKSS libraries are building local collections as part of an international digital preservation network. They collect and preserve in their LOCKSS boxes all genres and formats of web-based content to which they subscribe and open access titles that meet their collection criteria such as e-journals, e-books, web sites, electronic theses and dissertations, imaged collections, and government documents." <http://www.clockss.org/clocksswiki/files/LOCKSSCLOCKSSChart.pdf>. [Consulta: 28/02/2008].

18 Una altra manera de comprovar que LOCKSS (i CLOCKSS) és una barreja de molts elements dispars (robot i servidor web, analitzador HTML i RTF, client OAI, etc.) és consultar la llista de productes que en formen part. Aquesta llista apareix a la seva pàgina de llicència. <http://www.lockss.org/lockss/License_Information>. [Consulta: 28/02/2008].

19 <http://lockss.stanford.edu/freenix2000/freenix2000.html>. [Consulta: 28/02/2008].

20 <http://www.clockss.org>. [Consulta: 28/02/2008].

21 <http://www.clockss.org/clocksswiki/files/LOCKSSCLOCKSSChart.pdf>. [Consulta: 28/02/2008]. La cursiva de la citació és nostra.

22 Per exemple, la cessació de la publicació d'una revista.

23 Ibid.

24 <http://daitss.fcla.edu>. [Consulta: 28/02/2008].

25 <http://en.wikipedia.org/wiki/OAIS>. [Consulta: 28/02/2008].

26 Network of expertise in long-term storage and long-term availability of digital resources in Germany. <http://www.langzeitarchivierung.de>. [Consulta: 28/02/2008].

27 <http://kopal.langzeitarchivierung.de/index_koLibRI.php.en>. [Consulta: 28/02/2008].

28 <http://www.cascommunity.org/portal/modules.php?name=Content&pa=showpage&pid=34>. [Consulta: 28/02/2008].

29 <http://www.emc.com/products/systems/centera.jsp>. [Consulta: 28/02/2008].

30 <http://www.emc.com/products/systems/centera.jsp>. [Consulta: 28/02/2008].

31 <http://www.nexsan.com/assureon.php>. [Consulta: 28/02/2008].

32 <http://www.caringo.com/products_castor.html>. [Consulta: 28/02/2008].

33 <http://groups.google.com/group/linux.dev.kernel/msg/76ae734d543e396d>. [Consulta: 28/02/2008].

34 <http://twistedstorage.sourceforge.net>. [Consulta: 28/02/2008].

35 <http://twistedmatrix.com/trac/wiki/TwistedProject>[Consulta: 28/02/2008].

36 <http://www.allmydata.com>. [Consulta: 28/02/2008].

37 <http://allmydata.org/trac/tahoe>. [Consulta: 28/02/2008].

38 <http://www.danga.com/mogilefs>. [Consulta: 28/02/2008].

39 <http://www.danga.com/faq.bml>. [Consulta: 28/02/2008].

40 Jorba, Ferran, "Els kiosks Linux a les Biblioteques UAB". En: II Jornades de Programari Lliure. Barcelona, 2003. <http://www.jornadespl.org/biblioteca/ii-jornades/ponencies/fjorba-2003.pdf>. [Consulta: 28/02/2008].

41 Auvray, Sébastien, Distributed Version Control Systems: A Not-So-Quick Guide Through, May 2008. <http://www.infoq.com/articles/dvcs-guide>. [Consulta: 16/05/2008].