[Versión castellana]

José Manuel Barrueco

Bibliotecari de la Biblioteca de Ciències Socials
Universitat de València

barrueco@uv.es



Resum [Resumen] [Abstract]

Un dels reptes que es plantegen els dipòsits institucionals és demostrar i quantificar amb dades objectives que els treballs disponibles en obert se citen i s'utilitzen més que la resta. Alguns dipòsits ja inclouen anàlisis d'ús dels seus documents. També existeixen projectes en l'àmbit internacional dedicats a l'elaboració d'índexs de citacions. De moment, aquestes iniciatives són aïllades. Per obtenir una avaluació precisa cal integrar els resultats de diferents institucions i disciplines tendents a obtenir indicadors globals que permetin la comparació entre autors, institucions, etc. En aquest treball es presenta una proposta d'arquitectura destinada a permetre la recopilació, la distribució i l'agregació de les dades necessàries per mesurar l'ús i l'impacte dels treballs emmagatzemats en dipòsits institucionals.


1 Introducció

La iniciativa d'accés obert (OAI) promou l'accés lliure a la literatura científica, sense cap tipus de restricció financera o tècnica, a través de la creació de revistes en accés obert i l'arxivament dels treballs publicats en dipòsits institucionals o temàtics (BOAI, 2001). Pressuposa que el fet d'eliminar les barreres financeres que limiten l'accés als documents científics permetria que aquests estiguessin a disposició d'un nombre més elevat de lectors potencials i, per tant, seria també més gran l'impacte que causarien en la comunitat científica. L'objectiu de l'accés obert, doncs, pot resumir-se d'aquesta manera: augmentar l'accés i, així, augmentar l'impacte dels treballs.

Per impacte, i en sentit ampli, es pot entendre qualsevol canvi, intencionat o no, de caràcter positiu o negatiu, que un treball causa en la comunitat científica a la qual pertany i que es materialitza en comentaris de la resta de col·legues, en noves publicacions que analitzen o es basen en la primera, etc. Com que les publicacions són l'objecte tangible utilitzat per quantificar l'impacte, l'obtenció d'indicadors fiables per mesurar-lo s'ha basat en el recompte de citacions, assumint que un treball serà millor com més citacions rebi.

La idea, inferida de l'objectiu de l'accés obert, que els documents en obert se citen més que els que no ho estan, s'ha convertit en un eslògan per motivar els autors a arxivar els seus treballs en dipòsits institucionals. Tanmateix, si bé s'han publicat nombrosos estudis que així ho proven (entre d'altres, Eysenbach, 2006; Lawrence, 2001; Lin, 2007), els autors fan poques contribucions als dipòsits. Aquests majoritàriament són buits de continguts científics actuals (Swan, 2008) i creixen gràcies a les aportacions fetes des de les biblioteques a base de tesis doctorals, materials històrics digitalitzats, recursos didàctics, etc. Per tant, per atreure els investigadors cap als dipòsits institucionals no n'hi ha prou a afirmar la importància de l'accés obert, ni a demostrar que els documents oberts se citen més que la resta. Cal fer entendre la utilitat, com a investigador individual, d'oferir els treballs en obert, que es concreta en la quantificació de l'augment de l'impacte. És necessari proporcionar serveis de valor afegit que demostrin quant, quan i com es baixen i se citen els documents. Per fer-ho, cal mesurar sistemàticament el trànsit de documents en els dipòsits. Ara bé, no es pot plantejar un mesurament efectiu de manera aïllada per a cada dipòsit institucional o temàtic, sinó que cal fer-ho des d'un àmbit superior d'agregació de dades, bé sigui per disciplines o per àrees geogràfiques, que permetin de contextualitzar i comparar resultats d'investigadors entre institucions. Això implica el desenvolupament d'una estructura que estigui per damunt del dipòsit i que integri, analitzi i extregui indicadors a partir de les dades que s'obtinguin de dipòsits institucionals diversos.

En aquest treball es presenta una proposta d'arquitectura destinada a permetre la recopilació, la distribució i l'agregació de les dades necessàries per mesurar l'ús i l'impacte dels treballs emmagatzemats en dipòsits institucionals. En l'apartat següent s'analitzen els diversos àmbits de mesurament. A continuació, els apartats 3 i 4 analitzen, respectivament, la problemàtica de la utilització de registres (logs) per tenir constància de l'ús i l'extracció de referències per mesurar l'impacte. L'apartat 5 proposa una arquitectura per integrar dades d'ús i de citacions.


2 Ús i impacte de documents en obert

Tenint en compte l'objectiu de l'accés obert d'augmentar l'accessibilitat (per augmentar l'impacte) podríem establir almenys dos àmbits de mesurament destinats a avaluar la utilitat d'arxivar els documents en obert:

Cada vegada hi ha més dipòsits que inclouen un servei d'anàlisi d'ús dels seus documents. Tant l'EPrints com el DSpace ofereixen mòduls per a l'anàlisi local de registres. Diversos exemples concrets d'anàlisi amb indicadors del nombre de baixades i visites de la informació bibliogràfica de l'EPrints i del DSpace es poden veure en l'E-LIS <http://eprints.rclis.org/es/index.php?action=show_detail_eprint&id=7136> o al dipòsit de la University of Toronto <https://tspace.library.utoronto.ca/statistics>. Un pas més el constitueix el projecte Interoperable Repository Statistics (IRS) <http://irs.eprints.org>, finançat pel Joint Information Systems Committee (JISC), al Regne Unit, amb l'objectiu d'investigar la recollida i l'intercanvi de dades d'ús. S'ha materialitzat en el desenvolupament d'un paquet de programari, l'IRStats, que automatitza l'elaboració d'estadístiques en funció de múltiples indicadors. Tots aquests projectes es basen en dipòsits individuals i ens ofereixen una visió parcial de l'ús dels treballs, perquè només inclouen les vegades que algú hi ha accedit o que s'han baixat des del mateix dipòsit. Per aprofitar al màxim el potencial de les dades d'ús, cal que s'agrupin i s'explotin com a agregadors específics.

La quantificació de l'ús i l'impacte a través de dades procedents de diferents institucions planteja una sèrie de problemes. En primer lloc, cal determinar quin o quins són els objectes que s'han de quantificar i fer-ne una identificació. El directori OpenDOAR <http://www.opendoar.org> mostra que els dipòsits institucionals són plens de continguts que no són pròpiament documents d'investigació. La quantificació de l'ús d'aquests documents, encara que sigui interessant per als gestors del dipòsit, no presenta cap valor afegit des del punt de vista de l'accés obert. Per tant, l'objecte a analitzar haurien de ser exclusivament els eprints, que entenem com els documents d'investigació en la versió tant pre com post publicació, abans o després d'haver passat per un procés d'avaluació d'experts. Queden fora d'aquest àmbit els objectes populars però sense valor per a la recerca, com ara objectes d'aprenentatge, material audiovisual, fotografies, etc. Davant la bibliometria tradicional, que se centra en la revista com a objecte d'estudi, les dades recollides dels dipòsits ens permetran de descendir en la granularitat de l'objecte d'estudi i centrar-nos en treballs d'investigació pròpiament dits.

En segon lloc, cal tenir en compte que un mateix treball pot aparèixer en diverses versions i que una mateixa versió pot estar emmagatzemada en diversos dipòsits (si cada autor arxiva una còpia en la seva respectiva institució). A més, cada dipòsit pot tenir diverses representacions d'una versió en diferents formats: PDF, Word, etc. Per proporcionar resultats fiables sobre un treball, caldrà agregar les dades d'ús i de citacions de totes les versions, les localitzacions i els formats coneguts. Això implica la necessitat d'un sistema normalitzat de descripció i d'identificació dels treballs. Si bé es desenvolupen estàndards com ara l'OAI-ORE (OAI, 2007), que permetrà la integració d'objectes complexos, de moment la identificació correcta d'un treball requereix la utilització d'uns identificadors adequats i d'una descripció que utilitzi metadades completes. En els dipòsits s'utilitza una gamma heterogènia de sistemes d'identificació, entre els quals hi ha el Handle, el DOI, el PURL, etc.


3 Recopilació de dades d'ús a través de registres

Els usuaris interactuen amb el dipòsit institucional a través de la interfície web. Per tant, els registres d'accés als servidors web proporcionen una idea aproximada de l'activitat i la utilització dels diferents recursos que emmagatzemen.

Cada transacció que rep el servidor web queda reflectida en una o diverses entrades al fitxer de registre. Una consulta a una pàgina registrarà tantes entrades —o hits— com elements contingui aquesta pàgina. El W3C manté un format estàndard per a registres de servidors web (Hallam-Baker, 1996) que després ha estat ampliat i desenvolupat per diverses empreses. Una entrada de registre típica en un servidor web Apache seria la següent:

66.249.65.194 - - [18/Feb/2008:14:03:48 +0100] ''GET /s/2005/diwdiwvjh.html HTTP/1.1'' 304 - - ''Mozilla/5.0''

En què:

La interpretació de dades extretes d'un registre com aquest s'hauria de fer amb precaució i tenint en compte una sèrie de limitacions:

Amb l'aplicació d'aquestes regles s'arribaria a obtenir un registre prou fiable de la utilització del dipòsit. Per contra, es reduiria el volum d'accessos fins a un 75 %, cosa que han demostrat projectes com ara LogEc <http://logec.repec.org>.


4 Recollida de dades de citacions

El mesurament de l'impacte implica la creació d'un índex de citacions. Si bé les dades d'ús es generen automàticament al servidor, en el cas de les citacions és necessària una actuació expressa del gestor del dipòsit. És una operació costosa, ja que per obtenir uns graus acceptables de precisió cal dedicar-hi recursos humans i tècnics considerables. A causa precisament dels costos, seria recomanable dur a terme l'extracció de citacions en el proveïdor de serveis, i que un dipòsit d'àmbit nacional o disciplinari s'encarregués de recollir els documents i processar-los per a l'explotació i/o l'exposició pública. Per tant, tindríem un servei que, en termes del protocol OAI-PMH, actua indistintament de dipòsit i de proveïdor de dades.

Hi ha projectes consolidats en l'àmbit internacional dedicats a l'extracció i l'enllaç de referències de documents disponibles en dipòsits (Barrueco, 2002). Són el que Steven Lawrence va anomenar índexs de citacions autònoms, ja que en lloc de basar-se en el treball humà, l'encarregat de tot el procés d'elaboració de l'índex és un sistema informàtic. La importància de les citacions en l'àmbit científic també es manifesta en el fet que tant el Google Scholar com el seu competidor de Microsoft, el Live Search Academic, proporcionen una funcionalitat de visualització del nombre de vegades que s'han citat els documents que emmagatzemen.

Una anàlisi de citacions des de l'àmbit dels dipòsits serà útil en la mesura que es creïn nous serveis de valor afegit que millorin o diversifiquin els resultats de les iniciatives esmentades. Una opció de millora és integrar-hi altres dades disponibles als dipòsits; per exemple, dades d'ús amb identificació d'autors per crear serveis de personalització.

La descripció del procés de creació d'un índex de citacions autònom queda fora de l'abast d'aquest treball a causa dels diferents enfocaments des dels quals es pot abordar. Barrueco (2005) ja n'ha analitzat un. En general, aquest procés té tres etapes:

  1. Recollida. Cal definir l'entorn de dades sobre el qual es treballarà. No és possible fer un servei universal, sinó que s'ha de restringir el nombre de dipòsits que s'han d'analitzar, els tipus de documents que constituiran la base per a documents que citen i se citen, etc. En aquesta etapa, es monitora l'entorn de dades seleccionat per detectar canvis: documents nous, documents modificats, etc. L'entrada a l'índex la constitueixen les metadades recollides dels dipòsits. A partir d'aquestes, en un segon moment, es baixa el text complet i es converteix el format original en un format normalitzat que pugui ser analitzat. Per exemple, de PDF a ASCII o d'HTML a XML.


  2. Anàlisi. És el nucli del sistema. Es tracta de l'anàlisi del document per trobar la llista de referències. Una vegada delimitada la bibliografia, tracta d'identificar cada referència i els elements que la componen. Com un valor addicional es podria identificar el context de la citació, és a dir, aïllar la frase o les frases amb les quals l'autor s'ha referit a l'obra citada.


  3. Enllaç. A partir de cada referència tracta de comprovar si l'obra citada es troba disponible en format electrònic en l'entorn de dades definit. En cas afirmatiu, es fa un enllaç entre els identificadors del document que cita i el document que se cita.

5 Integració de dades de citacions i d'ús

En les dues seccions anteriors s'ha tractat la problemàtica i el procés de generació de dades d'ús i de citacions en els dipòsits institucionals. Per treure el màxim partit a aquestes dades, cal que s'integrin en agregadors de continguts que puguin dur a terme tècniques de mesurament, d'explotació i d'extracció d'indicadors.

Bollen i van de Sompel (2005) han proposat una arquitectura basada en el protocol OAI-PMH per intercanviar dades d'ús que es podria ampliar per incloure també dades de citacions. En aquesta arquitectura cal un format de metadades, que pugui ser expressat en XML, per representar tant les dades d'ús com de citacions. Una vegada que hi hagi aquesta representació en XML es podran recollir les dades a través del protocol OAI-PMH. Per a la representació de dades d'accés, proposen la utilització de ContextObject de la norma OpenURL (ANSI/NISO, 2004). En aquest cas, cada entrada del registre que hagi superat la fase de neteja, es convertirà en un registre ContextObject. Cal determinar almenys tres elements per a cadascuna d'aquestes entrades: qui ha fet la petició (adreça IP), quan i què ha sol·licitat. ContextObject és apropiat per representar aquesta informació, ja que cada registre ContextObject és una estructura de dades que conté, almenys, els elements següents:

Tenint en compte aquestes especificacions, una entrada en el registre del dipòsit E-LIS que sol·licités la pàgina

<http://eprints.rclis.org/archive/00012408/>

quedaria reflectida com a

158.42.184.226 - - [22/Feb/2008:11:19:47 +0100] ''GET /archive/00012408/ HTTP/1.0'' 200 3855 ''-'' ''Wget/1.10.2''

Seria convertida al registre ContextObject següent, i es recolliria utilitzant OAI-PMH:

<?xml version=''1.0'' encoding=''UTF-8''?>
<ctx:context-object
timestamp=''2008-02-22T11:19:47Z''
identifier=''urn:UUID:58f202ac-22cf-11d1-b12d-002035b29062''>
<ctx:referent>
<ctx:identifier>info:eprints.rclis.org:12408</ctx:identifier>
</ctx:referent>
<ctx:requester>
<ctx:identifier>urn:ip:158.42.184.226</ctx:identifier>
</ctx:requester>
<ctx:service-type>
<full-text>no</full-text>
</ctx:service-type>
</ctx:context-object>
</xml>

En el cas de les referències i citacions, també cal un format de metadades que permeti de representar-les i que pugui ser expressat en XML per ser intercanviat via OAI-PMH. En aquesta representació hem de diferenciar entre referències, o cadenes de caràcters extretes de la bibliografia d'un treball, i que representen un altre document en què l'autor s'ha basat, i citacions, o relacions entre la referència i el document al qual representen. Assumint que considerem citacions exclusivament les relacions que s'estableixen entre dos objectes disponibles en el nostre entorn de dades, és a dir, entre dos objectes dels quals coneixem els identificadors en l'espai OAI, hi ha tres relacions que cal representar:

Hi ha diversos formats de metadades que ens permeten de representar aquestes relacions. Per exemple, el Dublin Core ho fa recorrent, com en el cas anterior, a ContextObject (Apps, 2005). El problema d'aquesta opció és que exigeix un grau de granularitat en les dades que és difícil d'aconseguir mitjançant tècniques automàtiques d'extracció i enllaç. A més, exigeix que les referències i les citacions estiguin representades en el mateix registre Dublin Core que les metadades descriptives del document. Un altre format més flexible i que permet de separar la descripció del document de la representació de citacions i referències (Krichel, 2006) és l'Academic Metadata Format (AMF). S'hi s'utilitzen els elements següents:

D'acord amb el que hem exposat, un exemple de registre de referències i citacions en AMF quedaria de la manera següent:

<amf xmlns=''http://amf.openlib.org''
xmlns:xsi=''http://www.w3.org/2001/XMLSchema-instance''
xsi:schemaLocation=''http://amf.openlib.org http://amf.openlib.org/2001/amf.xsd''
xmlns:acis=''http://acis.openlib.org/''>
<text ref=''RePEc:nbr:nberwo:9999''>
<references>
<acis:referencestring>Engen, Eric, William Gale, and John Karl
Scholz. 1996. The Illusory Effects of Saving Incentives on
Saving. Journal of Economic Perspectives 10 (4):113-138.
</acis:referencestring>
<text ref=''RePEc:aea:jecper:v:10:y:1996:i:4:p:113-38'' />
</references>
<reference>
<literal>Filer, Randall, and Marjorie Honig. 1998. A Model of
Endogenous Pensions in Retirement Behavior. Manuscript, Hunter College.</literal>
</reference>
<isreferencedby>
<text ref=''RePEc:dnb:wormem:752'' />
</isreferencedby>
<isreferencedby>
<text ref=''RePEc:fip:fedlwp:2003-038'' />
</isreferencedby>
<isreferencedby>
<text ref=''RePEc:dnb:mebser:2003-18'' />
</isreferencedby>
</text>
</amf>

Una vegada que tenim tant les dades d'ús com de citacions representades mitjançant metadades en llenguatge XML, podrien ser recollides usant el protocol OAI-PMH per agregadors de continguts específics en una arquitectura similar a la que mostra la figura 1. En aquesta arquitectura tenim els elements següents:

Arquitectura per a la distribució de dades

Figura 1. Arquitectura per a la distribució de dades



6 Bibliografia

ANSI/NISO (2004). ANSI/NISO z39.88-2004: The openurl framework for context-sensitive services. <http://www.niso.org/standards/standard_detail.cfm?std_id=783>. [Consulta: 23/02/2008].

Apps, A. (2005). Guidelines for encoding bibliographic citation information in Dublin Core metadata. <http://dublincore.org/documents/dc-citation-guidelines>. [Consulta: 23/02/2008].

Barrueco, J. M. (2002). "Reference linking: un nuevo concepto para facilitar el acceso a la literatura científica". El profesional de la información, vol. 11, nº. 4, p. 278–282.

Barrueco, J. M. (2005). "Building an autonomous citation index for grey literature". TGJ, an international journal on grey literature, vol. 1, no. 2, p. 91–97.

BOAI (2001). Budapest open access initiative. <http://www.soros.org/openaccess>. [Consulta: 23/02/2008].

Bollen, J.; Sompel, H. van de (2005). "A framework for assessing the impact of units of scholarly communication based on OAI-PMH harvesting of usage information". CERN workshop on innovations in scholarly communication (OAI4), Geneva (Switzerland). <http://eprints.rclis.org/archive/00006076/02/bollen.pdf>. [Consulta: 23/02/2008].

COUNTER (2005). Counter code of practice for journals and databases. <http://www.projectcounter.org/code_practice.html>. [Consulta: 26/02/2008].

Eysenbach, G. (2006). "Citation advantage of open access articles". PLoS biology, vol. 4, no. 5, p. 692–698.

Hallam-Baker, P. M.; Behlendorf, B. (1996). Extended log file format. <http://www.w3.org/TR/WD-logfile.html>. [Consulta: 23/02/2008].

ISO (2005). ISO/IEC 9834-8:2005 procedures for the operation of OSI registration authorities: generation and registration of universally unique identifiers (UUIDs) and their use as ASN.1 object identifier components. <http://www.itu.int/ITU-T/studygroups/com17/oid.html>. [Consulta: 23/02/2008].

Krichel, T. (2006). Syntax and vocabulary of the academic metadata format. <http://amf.openlib.org/doc/nagano.html>. [Consulta: 20/02/2008].

Lawrence, S. (2001). "Free online availability substantially increases a paper's impact". Nature, vol. 411, no. 6837, p. 521.

Lin, S. K. (2007). "Non-open access and its adverse impact on molecules". Molecules, no. 12, p. 1436–1437.

OAI (2007). Open archives initiative: object reuse and exchange. <http://www.openarchives.org/ore>. [Consulta: 23/02/2008].

Swan, A.; Carr, L. (2008). "Institutions, their repositories and the web". Serials review, vol. 34, no. 1. <http://eprints.ecs.soton.ac.uk/14965>. [Consulta: 26/02/2008].


Data de recepció: 15/02/2008. Data d'acceptació: 04/03/2008.