BID: textos universitaris de Biblioteconomia i Documentació

Número 11, desembre 2003


RCLIS: cap a una biblioteca digital de biblioteconomia i documentació

[Versió anglesa]


José Manuel Barrueco Cruz

Biblioteca de Ciències Socials, Universitat de València


Imma Subirats Coll

Departament de Política Territorial i Obres Públiques, Generalitat de Catalunya


Traducció: Carles Sierra


Resum [Abstract] [Resumen]

Es descriu RCLIS, un projecte internacional que vol desenvolupar una biblioteca digital especialitzada en biblioteconomia i documentació i que segueix el model d'arxiu obert que ja s'ha implementat en altres disciplines, com ara la física o l'economia. Es tracta d'un recurs gratuït en què participen, de manera altruista, bibliotecaris de diferents països amb l'objectiu de recollir tota la bibliografia generada en informació i documentació.


1  Introducció

En aquest article presentem l'estudi d'una biblioteca digital especialitzada en biblioteconomia i documentació: RCLIS. El nostre objectiu és descriure les característiques principals d'un projecte en el qual hem treballat més de tres anys. RCLIS (Research in Computing, Library and Information Science) és un projecte de cooperació internacional per desenvolupar una biblioteca digital de biblioteconomia i documentació. La iniciativa té dos objectius principals. En primer lloc, tracta de compilar i posar al domini públic metadades sobre documents de recerca. Les dades són d'accés lliure per a usos públics i privats, comercials o no. També farà de banc de proves per a la investigació en biblioteques digitals. En segon lloc, procura facilitar l'accés a documents lliurement disponibles a Internet, a fi d'incrementar-ne la visibilitat. RCLIS s'ocupa de documents tradicionals, com ara actes de congressos, articles publicats en revistes científiques i informes d'investigació.

RCLIS s'inspira en el moviment del programari de codi font obert. Creiem que les bases de dades tancades, rigorosament controlades pels seus proveïdors, equivalen en el món de les dades a allò que el programari de codi font tancat és en el món dels programaris. Els usuaris d'aquestes bases de dades han de prendre els continguts tal com se'ls dóna. No hi ha definides maneres formals de corregir-ne continguts o d'afegir-hi registres. En el món de les dades acadèmiques, on les comunitats d'usuaris i de col·laboradors tenen força elements en comú, sembla que es poden millorar les bases de dades tancades. RCLIS mira de posar a prova aquesta idea.

RCLIS dóna suport al moviment per l'erudició en línia gratuïta (FOS, http://www.earlham.edu/%7Epeters/fos/). Fonamentalment, tractarà de documentar recursos que estiguin disponibles lliurement en línia. La raó senzilla i pràctica és que els recursos en línia de lliure disponibilitat són més còmodes per a l'usuari. Tanmateix, no rebutjarà recursos amb quotes o que no es trobin en línia, atès que RCLIS aspira a guanyar-se la confiança de tots els implicats en el procés de la comunicació científica.

RCLIS es basa en la col·laboració d'un equip de voluntaris de diversos països. No hi ha una estructura formal ni un finançament per part d'universitats o de cossos governamentals. També, com el programari lliure, el treball el duu a terme un equip d'amics que treballen plegats només per diversió. Aquest equip es coordina mitjançant una llista de discussió.

Aquest article s'organitza en cinc parts. La primera, de caràcter introductori, s'acaba aquí. La segona part explica l'arquitectura de RCLIS. La tercera descriu els punts febles detectats en el model de RCLIS i la manera com es podrien redreçar. Una d'aquestes solucions es descriu en la quarta secció: implementar un nou arxiu obert per tal d'ampliar l'abast de la biblioteca digital amb vista als moviments d'autoarxivament i a l'OAi (aplicacions obertes). Aquest arxiu s'anomena E-LIS. En darrer lloc, amb la part cinquena finalitza l'article.


2  Arquitectura de RCLIS

RCLIS segueix el model definit per la RePEc (Research Papers in Economics, http://repec.org). Aquesta biblioteca digital de gran èxit especialitzada en economia es va crear el 1997. En aquests moments, conté metadades sobre més de 177.000 documents (documents de treball i articles publicats en revistes científiques). Un total de 86.000 documents d'aquest conjunt tenen tot el text disponible electrònicament. Les dades les aporten més de 250 institucions de tot el món i s'hi pot accedir mitjançant un dels 14 serveis d'usuari disponibles. El novembre de 2002, la RePEc va tenir més d'un milió de consultes de resums i es van baixar més de 212.000 documents. Es pot aconseguir més informació sobre l'activitat de la RePEc a: <http://logec.hhs.se>. En essència RCLIS tracta d'aplicar a la nostra disciplina el model que tan bons resultats ha donat en les ciències econòmiques.

La RePEc i RCLIS estan construïts sobre una arquitectura distribuïda. Es basen en el principi del repartiment de costos entre el màxim nombre possible de participants, de manera que cadascú aporta tan sols una ínfima fracció del treball necessari per dur a terme els objectius. Els participants de la biblioteca digital es poden classificar en dues categories: proveïdors de dades i proveïdors de serveis. Mentre que els proveïdors de dades (arxius) contenen metadades sobre documents, els proveïdors de serveis prenen aquestes metadades per tal d'oferir un valor afegit i fer que el resultat sigui útil per a l'usuari final. L'intercanvi de metadades dels arxius als serveis es fa per mitjà d'un conjunt bàsic de regles especificades en un document anomenat Guildford protocol (GP).1 Les metadades es codifiquen mitjançant un format bibliogràfic anomenat ReDIF (Research Documents Information Format).2 Així, en la figura 1, es mostra una descripció gràfica de l'arquitectura de RCLIS.

Arquitectura de RCLIS

Figura 1. Arquitectura de RCLIS

ReDIF fa servir una estructura senzilla de nom de camp i contingut de camp, comuna i coneguda per la major part d'usuaris. Un registre de la versió anglesa d'aquest article en ReDIF tindria aquest aspecte:

Template-Type: ReDIF-Paper 1.0
Title: RCLIS: towards a digital library for Information Science
Author-Name: Subirats Coll, Imma
Author-Email: wisubirats@gencat.net
Author-Name: Barrueco Cruz, José Manuel
Author-Email: jose.barrueco@uv.es
Keywords: digital libraries; electronic publishing; open archives; e-prints
Length: 14 pages
Abstract: In this presentation we describe the RCLIS digital library for Library, Information Science and Computing
Creation-Date: 09-01-2003
File-URL: http://www.uv.es/=barrueco/rclis.pdf
File-Format: text/html
Handle: RcLIS:nbr:nberwo:6490


El registre comença amb l'especificació de l'objecte descrit. ReDIF té un abast ampli i permet representar no només documents, sinó tots els objectes implicats en el procés de comunicació científica, com ara autors, institucions de recerca o canals de publicació (publicacions científiques, actes de congressos, sèries d'informes). Després ve un seguit de camps opcionals, entre els quals hi ha l'URL del text complet del document, si aquest està disponible. L'últim camp és el nom del document, que identifica cada ítem. Es compon de la cadena següent: el terme RCLIS seguit de dos punts, un codi únic per a l'arxiu que proporciona les metadades, un codi de sis lletres que identifica el canal de publicació i una identificació de l'ítem que es descriu. Cada part se separa amb dos punts. RCLIS encara no utilitza totes les possibilitats de ReDIF, perquè tan sols se centra en els documents. Per veure un exemple de la utilització plena del format ReDIF, consulteu Krichel (2000).3


2.1  Arxius i serveis

Per fer servir la terminologia de RCLIS, el proveïdors de dades són arxius. Els arxius són institucions que aporten metadades sobre els documents que publiquen o distribueixen.

Proporcionen metadades autoritzades en el sentit que hi ha una descripció bibliogràfica única per a cada document. El creador elabora aquesta descripció quan el document passa a estar disponible electrònicament. És a dir, es crea a nivell de publicació. Malauradament, no sempre és possible aconseguir la col·laboració dels proveïdors de continguts. Aleshores, es fa necessari recórrer a tercers proveïdors. Aquests descriuen documents de gran importància procedents d'institucions que no participen en RCLIS. Aquests arxius no ofereixen dades autoritzades i seran l'origen de múltiples problemes (com ara la duplicació de registres).

Des d'un punt de vista tècnic, un arxiu és tan sols una estructura de directoris i fitxers definits en un servidor FTP o HTTP. L'arxiu conté fitxers ASCII estàtics amb metadades sobre documents en format ReDIF. Ara per ara, RCLIS té tres grans arxius o proveïdors de dades. Cadascun s'identifica per un nom format per la cadena RCLIS, seguida de dos punts, i un codi de tres lletres:



En el moment de redactar aquest document, el 27 de setembre, RCLIS conté metadades sobre 16.788 documents, 9.092 dels quals estan en format electrònic i disponibles lliurement a Internet. L'evolució del nombre de documents de RCLIS es mostra en la figura 2.

Evolució del nombre de documents de RCLIS

Figura 2. Evolució del nombre de documents de RCLIS

Emmagatzemades en arxius, les dades en format ReDIF no tenen gaire interès per a la comunitat de recerca. Calen iniciatives que treguin les dades dels arxius i els donin algun tipus de valor afegit a fi de presentar la informació als usuaris finals. Aquesta mena de recopiladors de continguts són el que anomenem serveis d'usuaris. En aquest moment, el principal servei d'usuaris per a RCLIS és DoIS (Documents in Information Science), disponible a l'URL següent: <http://dois.mimas.ac.uk>.

DoIS, que es va obrir el 1999, presenta tot el conjunt de dades mitjançant pàgines HTML estàtiques. Així, el lloc és totalment visible per als robots web. L'accés al lloc s'efectua per mitjà d'un motor de cerca shwiss++ o bé mitjançant una eina de navegació que permet a l'usuari seleccionar el tipus de publicació i tot seguit un canal particular (revista científica, actes de congrés, etc.) on els articles individuals es classifiquen seguint un criteri cronològic. El nombre d'usuaris de DoIS ha anat en augment des de l'inici del projecte, com reflecteix la figura 3. Les barres representen el nombre de visites rebudes cada mes. La línia mostra l'evolució de les visites per document. Des del juliol de 2001, aquesta mitjana fluctua entre 16 i 22.

Ús de DoIS

Figura 3. Ús de DoIS


3  Funciona adequadament el model RCLIS? Li cal cap millora?

Una conclusió que podríem treure dels tres anys de funcionament és que RCLIS no ha aconseguit atreure els principals proveïdors de continguts de la disciplina. Al contrari que el model mestre sobre economia, encara depèn d'un petit grup de proveïdors de dades no autoritzades. Per què? Perquè no és possible exportar tan sols l'arquitectura sense tenir en compte les qüestions socials que envolten la comunitat de recerca.

La biblioteconomia i documentació i l'economia tenen unes estructures de publicació molt diferents. Mentre que en economia hi ha una tradició de distribució de publicacions preliminars i documents de treball per part de les institucions de recerca, en les biblioteconomia i documentació aquesta tradició no existeix. Així, en economia, la creació i distribució de continguts està molt més repartida entre petits participants que en altres disciplines. Aquesta desfragmentació en la distribució dels resultats de recerca obliga els departaments a fer públiques les seves sèries de publicacions preliminars per tal d'obtenir visibilitat en la comunitat. Una biblioteca digital internacional, com RePEc, en facilita la publicitat i, per tant, els departaments estan disposats a contribuir en un projecte com aquest.

D'altra banda, la publicació en la biblioteconomia i documentació se centra en les revistes científiques i actes de congressos. Per bé que les primeres les publiquen empreses comercials, les segones les organitzen grans societats i institucions. Cap de les dues no s'enorgulleix de contribuir en un projecte com RCLIS si no en tenen clars els avantatges. Fins i tot en economia, les metadades dels grans editors s'han obtingut després de dures negociacions i les mantenen actualment terceres institucions.

En resum, si RCLIS no ha aconseguit atreure els principals proveïdors de continguts, és el moment de buscar nous mètodes d'introducció de dades. Una primera solució ha de ser canviar els agents amb qui tractem. En comptes de tractar només amb els editors, hauríem de fer-ho directament amb els mateixos autors i demanar-los que emmagatzemin en RCLIS versions electròniques dels documents que publiquin. És a dir, ensenyar-los a arxivar ells mateixos les seves publicacions. Per què haurien d'estar interessats a fer-ho? Perquè així els seus treballs els podrien proporcionar més visibilitat. S'ha demostrat que els documents lliurement disponibles a Internet són citats més sovint que els que es troben ocults a llocs web comercials.5

Hi ha un moviment internacional per alliberar la bibliografia científica encapçalat per Stevan Harnad.6 La iniciativa de l'autoarxivament es basa en la idea que els autors són els únics propietaris dels documents que produeixen i que podrien emmagatzemar-los en les seves pàgines personals o en arxius públics. Aquests documents s'anomenen e-prints, un nou terme que designa tant els documents que han passat un control de qualitat o un procés de revisió d'experts (postprints), com aquells que no ho han fet (preprints o publicacions preliminars). D'aquesta manera, la comunitat científica es beneficia del lliure accés a la bibliografia científica i els autors obtenen una major visibilitat per a les seves obres, ja que aquest accés no té barreres econòmiques.

Però els documents que hi hagi en pàgines personals o servidors web aïllats no tenen gaire interès si no els poden descobrir tercers recopiladors de continguts. Per resoldre aquest problema va sorgir la iniciativa OAi (http://www.openarchives.org). L'OAi es va crear per permetre la unió de proveïdors de continguts, de manera que poguessin interactuar i intercanviar metadades a Internet. Tal com fa RCLIS, l'OAi distingeix entre proveïdors de serveis i proveïdors de dades (observeu que un membre de l'equip de RCLIS, Thomas Krichel, ha estat al comitè tècnic de l'OAI d'ençà de la convenció de Santa Fe). Hi ha dos tipus d'arxius: segons la disciplina i segons la institució. El primer conté metadades sobre documents que tracten una determinada àrea temàtica, però que vénen de múltiples institucions. El segon és una institució que conté metadades sobre múltiples disciplines, però amb el denominador comú d'estar publicades pel seu personal. En el cas de RCLIS, es va optar per crear un arxiu basat en la disciplina. Així, el gener de 2003 es va crear E-LIS (E-prints in Library and Information Science, http://eprints.rclis.org).


4  E-LIS, un arxiu obert per a la nostra disciplina

E-LIS ha estat dissenyat com a arxiu internacional i d'accés lliure d'e-prints sobre ciències de la informació, biblioteconomia i disciplines relacionades. Té l'objectiu de fer que qualsevol usuari potencial amb accés a Internet pugui localitzar el text complet dels documents científics, accedir-hi, recollir-lo, fer-hi cerques i utilitzar-lo. A més, aquest servei pretén donar suport a particulars que desitgin publicar els seus documents o fer, si més no, que estiguin disponibles en l'àmbit mundial, publicats o no.

La recerca i l'arxivament a E-LIS són totalment de franc per a qualsevol usuari. L'únic requisit és que els autors que vulguin trametre un document s'han de registrar per tal d'obtenir un identificador d'usuari al sistema. S'anima els bibliotecaris, biblioteques, instituts de recerca, organitzacions i investigadors particulars relacionats amb la biblioteconomia i documentació i els camps afins a fer ús de l'arxiu i a contribuir-hi.


4.1  Iniciatives semblants

E-LIS no és l'únic arxiu ni el més recent. Hi ha dues iniciatives més per crear arxius oberts sobre la nostra disciplina:



Només @rchiveSIC està registrat actualment com a proveïdor de dades de l'OAI.

La qüestió seria per què cal un altre arxiu per a biblioteconomia i documentació. E-LIS no mira de competir amb les iniciatives consolidades, sinó de proporcionar possibilitats alternatives als autors. A més, també hi ha una qüestió geogràfica. En aquest sentit, @rchiveSIC se centra en França, mentre que DLIST ho fa en els documents anglesos i dels EUA. És necessària una autèntica iniciativa internacional que s'encarregui de tots els documents sense restriccions lingüístiques o geogràfiques.


4.2  El programari Eprints

Com altres iniciatives citades en la secció anterior, E-LIS s'ha creat mitjançant el programari Eprints (http://www.eprints.org). Eprints s'ha desenvolupat a la University of Southampton. És un popular sistema per implementar arxius oberts que fan servir més de trenta dipòsits. Eprints ha estat dissenyat amb l'objectiu primordial que sigui fàcil d'usar i d'instal·lar i, és clar, de distribució gratuïta. De fet, Eprints està disponible sota llicència GNU, la qual cosa vol dir que el codi font està disponible en el domini públic i que qualsevol el pot fer servir. Les principals característiques d'aquest programari són les següents:




4.3  Política de contribució

Per tal d'atreure el màxim nombre d'autors, la política de contribució és molt senzilla. Qualsevol document relacionat temàticament amb biblioteconomia i documentació, en un sentit ampli, i disponible electrònicament en qualsevol format podria ser inclòs a l'arxiu. El criteri bàsic perquè un document sigui acceptat és que sigui pertinent per a la seva recerca pels camps de biblioteconomia i documentació i que tingui la forma d'un document acabat, a punt per entrar en un procés de comunicació científica. Això no vol dir que no hi hagi un procediment d'edició per garantir que els autor no envien palla o continguts inapropiats. Un consell editorial integrat per investigadors de diverses àrees s'encarrega d'examinar els documents tramesos. El cicle de treball d'un enviament típic podria ser així:

No hi ha restriccions pel que fa al format de fitxer usat, però es recomanen encaridament els documents PDF. L'arxiu accepta, a més, enviaments en tots els idiomes, però es necessita un resum en anglès quan el text és en un altre idioma. Les qüestions de copyright sobre la tramesa de documents són molt importants. En aquest sentit, els autors que els remeten són responsables d'estar segurs que els documents que envien no estan subjectes a cap restricció de copyright en la seva distribució electrònica. Se'ls demana que no enviïn documents produïts per editors en PDF o altres versions del format. A menys que es faci constar el contrari, els creadors o autors conserven el copyright i els altres drets de propietat.

Per acabar, és obligatori que el dipositant sigui l'autor o un dels autors del treball dipositat. L'editor ho verificarà i, en cas contrari, rebutjarà l'enviament.


4.4  Estructura

L'estructura de l'arxiu es compon de tres parts principals: el mòdul d'accés, la base de dades interna i l'àrea d'usuari. Com altres serveis creats d'acord amb el programari Eprints, E-LIS és accessible de dues maneres complementàries. En primer lloc, es proporciona un cercador per buscar les descripcions bibliogràfiques. En segon lloc, l'usuari pot navegar pels e-prints segons l'any i el tema. A l'hora d'enviar un document és obligatori d'incloure-hi la data de publicació i assignar-hi un o més codis de classificació.

L'arbre temàtic adoptat s'anomena esquema de classificació JITA (http://rclis.org/internal/jita.txt). S'ha construït per a E-LIS i pren com a base l'esquema de classificació de temes NewsAgent (http://users.aber.ac.uk/emk/topics.htm) i l'esquema de classificació RIS (http://www.iud.fh-darmstadt.de/iud/wwwmeth/publ/example/werkz/risclass/menu1.htm). L'objectiu de l'esquema JITA és proporcionar un esquema temàtic senzill per categoritzar la major part dels documents de la disciplina. És un esquema obert. Per tal de mantenir-ne la simplicitat, només hi ha un sol nivell de categories, però l'esquema està preparat per incorporar nivells més específics a l'arbre, si escau.



La base de dades interna es basa en un sistema de gestió de bases de dades MySQL. Totes les metadades sobre e-prints i usuaris necessàries per a l'administració de l'arxiu s'emmagatzemen en taules SQL.

L'àrea d'usuari està formada per un conjunt d'instruccions en llenguatge Perl que llegeixen directament la informació emmagatzemada en la base de dades MySQL. Per aquesta raó les pàgines HTML es creen dinàmicament, per la via ràpida. El primer pas per entrar a l'àrea personal, un cop l'autor s'ha registrat, és donar un nom d'usuari i una contrasenya. A l'autor li apareix llavors un menú, on l'opció principal és la d'afegir un e-print a l'arxiu o modificar els documents ja emmagatzemats. Altres funcions disponibles a l'àrea d'usuari són: modificar o completar les metadades de l'autor, subscriure's per rebre avisos per correu electrònic sobre nous documents, fer una llista dels documents de l'autor que ja hi ha a l'arxiu, fer cerques per usuari, etc.


5   Conclusió

En aquest article, hem descrit la biblioteca digital RCLIS sobre biblioteconomia i documentació. Hi ha hagut dues parts en la vida del projecte. Fins aquest any, hem estat treballant amb un model arquitectònic prestat de la disciplina de l'economia, que fa ja gairebé cinc anys que funciona. Atès que en les biblioteconomia i documentació l'estructura de publicació dels resultats d'investigació és força diferent a la d'economia, cal investigar noves maneres d'obtenir entrades de documents. Aquest any, RCLIS s'ha passat al moviment de l'OAI i ha creat un arxiu obert per a la nostra disciplina. Així, els autors podrien autoarxivar els seus treballs quan no estiguin disponibles en el domini públic. En la figura 4, es mostra la nova arquitectura de RCLIS amb aquest nou desenvolupament.

Nova arquitectura de RCLIS

Figura 4. Nova arquitectura de RCLIS

En aquest gràfic podem veure com s'ha inclòs una nova entrada de dades per tal de permetre serveis que recullin les metadades tant dels arxius RCLIS que fan servir una combinació de GP i ReDIF com dels arxius, com ara E-LIS, que utilitzen el protocol d'arxius oberts per a la recol·lecció de dades.7 En aquest darrer cas, per a les metadades originals dels arxius, es necessita un convertidor que es distribueix per mitjà del format sense restriccions Dublin Core.

En resum, RCLIS es troba en una fase de transició on conviuen dos tipus d'arxius i de protocols. Esperem que en un futur proper els vells arxius basats en GP passin a adoptar el model OAI-PMH.


Data de recepció: 28/09/2003   Data d'acceptació: 15/10/2003.



Notes

1   Thomas Krichel (ed.), Guildford protocol (1997),
<ftp://netec.mcc.ac.uk/pub/NetEc/RePEc/all/root/docu/guilp.html> [Consulta: 27/09/2003].

2   Thomas Krichel (ed.), Research documents information format (1997),
<ftp://netec.mcc.ac.uk/pub/NetEc/RePEc/all/root/docu/redif_1.html> [Consulta: 27/09/2003].

3   Thomas Krichel, RePEc: an open library for economics (24/03/2000),
<http://openlib.org/home/krichel/papers/salisbury.html> [Consulta: 27/09/2003].

4   Herbert Van de Sompel, Oren Beit-Arie, “Open linking in the scholarly information environment using the OpenURL framework”, D-Lib, vol. 7, no. 3 (2001),
<http://www.dlib.org/dlib/march01/vandesompel/03vandesompel.html> [Consulta: 27/09/2003].

5   Steve Lawrence, “Online or invisible?”, Nature, vol. 411, no. 6837 (2001), p. 521,
<http://www.neci.nec.com/~lawrence/papers/online-nature01/> [Consulta: 27/09/2003].

6   Stevan Harnad, “The self-archiving initiative: freeing the refereed research literature online”, Nature, vol. 410, 26 (April 2001), p. 1024 - 1025.

7   Carl Lagoze, et al. (ed.), The Open Archives Initiative protocol for metadata harvesting (2002),
<http://www.openarchives.org/OAI/openarchivesprotocol.html> [Consulta: 28/09/2003].