ODiSEA: International Registry on Research Data

[Versión castellana]

Alicia García-García

Estudiant predoctoral. Instituto Universitario de Investigación Dr. Viña Giner
Universidad Católica de Valencia

alicia.garcia@ucv.es

Josep-Manuel Rodríguez-Gairín

Professor del Departament de Biblioteconomia i Documentació
Universitat de Barcelona

rodriguez.gairin@ub.edu

Tomás Saorín

Professor de la Facultad de Comunicación y Documentación
Universidad de Murcia

tsp@um.es

Luís-Millán González

Professor del Departamento de Educación Física y Deportiva
Universidad de Valencia

luis.m.gonzalez@uv.es

Xavi García-Massó

Professor del Departamento de Fisioterapia
Universidad de Valencia

xavier.garcia@uv.es

Antonia Ferrer Sapena, Fernanda Peset

Professores del Departamento de Comunicación, Documentación e Historia del Arte
Universidad Politécnica de Valencia

mpesetm@upv.es, anfersa@upv.es

Resum [Abstract] [Resumen]

L'article revisa els temes principals en la preservació i reutilització de les dades de recerca (beneficis, cicle de vida, projectes, normatives, etc.) i identifica la falta d'un registre mundial de bancs, repositoris i biblioteques de dades. Exposa la creació d'una eina web que reculli aquest tipus de dipòsits i els classifiqui per àrees disciplinàries: ODiSEA, International Registry on Research Data, que ofereix resultats sobre nombre i tipologia temàtica d'aquest tipus de dipòsits a escala mundial. Aquesta aportació facilita el descobriment de nous conjunts de dades, la recombinació de les quals, des d'una perspectiva multidisciplinària, ha de fomentar la innovació i la rendibilitat de la inversió en ciència.

1 Introducció

Els últims anys, en la bibliografia s'ha debatut el benefici de l'accés i la preservació de les publicacions científiques i acadèmiques a través de repositoris d'accés obert. Però el producte de l'activitat investigadora inclou també dades, identificades com a materials suplementaris, en la Declaració de Bethesda i de Berlín, ambdues del 2003, sobre accés obert al coneixement en ciències i humanitats. Aquests materials s'han de preservar i posar a disposició de la societat com a recursos que poden ser d'utilitat social per al pro comú (commons). De fet, per Abella (2011) "los datos deben ser la infraestructura de la economía digital", i han de permetre crear ocupació i innovació. Això és el que pretén el moviment open data, ratificat per la Directiva europea 2003/98/CE, de reutilització d'informació en el sector públic, i la Llei 37/2007: alliberar el valor social i econòmic dels continguts, dades i documents que es troben en poder de les administracions públiques (Ferrer-Sapena; Peset; Aleixandre-Benavent, 2011).

La reutilització de la informació del sector públic és un element cada vegada més important en les estratègies d'open data i open government (Marcos-Martín; Soriano-Maldonado, 2011) i es pot estendre a la posada en disposició de les dades científiques, que no sols pertanyen a les administracions, sinó que els generen grups de recerca atomitzats. El potencial de la reutilització com a eina de validació de la ciència i com a motor d'innovació és inqüestionable (Peset; Ferrer-Sapena; Subirats-Coll, 2011).

Els beneficis de compartir i reutilitzar les dades els han exposat nombrosos autors, que destaquen principalment un estalvi en els costos, una rendibilitat més gran de la inversió pública en els projectes de recerca i un augment considerable de citacions, afegides a les citacions que reben de l'article. L'accés lliure i l'intercanvi de les dades reforcen la recerca científica oberta, i fomenten la diversitat d'anàlisi i d'opinió i, per tant, l'aparició d'investigacions noves. Explorar temes no previstos pels investigadors inicials fa possible la comprovació d'hipòtesis alternatives i mètodes d'anàlisi, cosa que facilita la formació d'investigadors nous, i també crea nous conjunts de dades quan recombina fonts múltiples (Fienberg; Martin; Straf, 1985).

Actualment, l'èxit d'un projecte de recerca es mesura no sols per les publicacions que produeix, sinó també per les dades que posa a disposició de la comunitat en general. Arxius pioners com GenBank han demostrat el potencial d'aquests conjunts de dades per generar descobriments nous, especialment quan es combinen dades de molts laboratoris i s'analitzen de maneres no previstes pels investigadors originals (Guralnick; Constable; Wieczorek [et al.], 2009). En definitiva, verificació i reutilització, juntament amb la seva preservació, són factors que, segons el nostre parer, influiran en el futur dels esquemes de finançament de la ciència.

Aquest tipus de dades científiques inclou una gran varietat de tipologies depenent de l'àrea de coneixement, entre les quals es troben, per exemple, els conjunts de dades primàries, els materials font, les representacions digitals de materials gràfics i pictòrics, les bases de dades d'estructures genètiques i cristal·logràfiques, seqüències de proteïnes, microarrays, les neuroimatges, etc.

En el context de preservació de dades sorgeixen fenòmens nous que regulen aquesta activitat, tal com va succeir en el camp de les publicacions científiques. Observem com s'institueixen els dipòsits per a les dades (bancs de dades i repositoris); com es desenvolupen o s'adapten les tecnologies i els paquets existents; com comencen a esmentar-se expressament en les normatives i regulacions en l'àmbit nacional i internacional, i, finalment, com neix un estat d'opinió col·lectiva pel que fa als drets d'accés i reutilització tant de científics productors i usuaris d'aquestes dades, de les agències que les produeixen o financen amb programes de recerca, com de les editorials que, de vegades, les difonen des de les seves plataformes d'edició juntament amb els articles, i les polítiques de reutilització de les quals no sempre són explicitades.

També s'ha debatut el paper que poden tenir els professionals de la informació i les biblioteques acadèmiques en la distribució d'aquests materials (Martínez-Uribe; Macdonald, 2008). Un dels conceptes clau en l'accés a les dades de recerca és la preservació digital, digital curation, definit pel Digital Curation Centre com "las acciones necesarias para mantener, preservar y añadir valor a los datos digitales de investigación a lo largo de todo su ciclo de vida". El cicle de vida de les dades (data life cycle) es refereix a tot el procés en el qual les dades es creen, analitzen i gestionen, és a dir, la recollida de dades experimental i d'observació, la neteja i integració, l'anàlisi, la publicació, i la conservació en un dipòsit. Aquest cicle de vida de les dades és necessari perquè es puguin intercanviar. I té una sèrie d'etapes que s'inicia amb la preservació digital de les dades (digital curation lifecycle). Primer, s'avaluen les dades, ja que el valor i la tipologia determinaran la necessitat de preservar-les a llarg termini. En aquest procés de selecció, cal destacar la importància d'entendre el context en què es generen les dades, perquè cada disciplina i subdisciplina té les pròpies característiques particulars, i diferents nivells de complexitat en les dades (ARL, 2006). Les accions que es duen a terme en conjunt han d'assegurar una preservació duradora en el temps, el seu accés i reutilització, en funció de les polítiques i dels requisits legals definits per cada institució, i, finalment, la transformació, per crear nous objectes digitals a partir de l'original.

L'objectiu d'aquesta preservació és afavorir la compartició de les dades per reutilitzar-les en nous treballs de recerca, procés que s'anomena data sharing. En l'àmbit científic, compartir dades ha estat una pràctica habitual entre les institucions científiques des de fa temps. Tradicionalment, s'ha dut a terme per vies informals —els investigadors faciliten als seus col·legues les dades en brut—, però hi ha una tendència que les dades s'alliberin perquè les usin investigadors anònims, seguint el model d'accés obert a les publicacions. Per això, s'han desenvolupat vies formals per dipositar aquests materials, com els bancs de dades i repositoris d'accés obert, juntament amb una altra infraestructura tecnològica que està guanyant terreny: les seus o plataformes editorials (Torres-Salinas, 2010b).

Els últims anys les editorials han promogut la recepció d'aquestes dades i la majoria preveuen en la seva política per a l'autor unes pautes per al material complementari. En àrees com la medicina o les ciències naturals les editorials especifiquen els repositoris públics en què s'han de dipositar els conjunts de dades perquè l'article es pugui publicar.

Però no tots els investigadors comparteixen les dades per vies formals malgrat els avantatges que té. Segons apunta Torres-Salinas (2010a), potser és a causa de la manca de repositoris específics, de la desconfiança en la seva preservació o del temor que no se'n reconegui l'autoria. Les dades resultants de la recerca constitueixen un capital intel·lectual de gran valor, per la qual cosa algunes institucions de recerca perceben com a ineficient compartir el resultat de l'activitat investigadora si no extreuen el valor econòmic total de les dades que comparteixen (Hammond; Moritz; Agosti, 2008).

Entre les iniciatives per regular la gestió de les dades de recerca destaca el Data Audit Framework (DAF) del Digital Curation Centre, que proporciona a les organitzacions els mitjans per identificar, localitzar, descriure i avaluar com estan gestionant les pròpies dades de recerca per assegurar-ne la futura reutilització. Un altre projecte també finançat pel Joint Information Systems Committee (JISC), DISC-UK DataShare, pretén elaborar un model per dipositar les dades en repositoris institucionals al Regne Unit.

Per la seva banda, les institucions governamentals, a través de normatives i polítiques per emmagatzemar i preservar dades, estableixen que els treballs subvencionats amb fons públics es dipositin en repositoris d'accés obert (Arzberger; Schroeder; Beaulieu, 2004). Trobem com a exemple els Principles and guidelines for access to research data from public funding del 2007 de l'Organització de Cooperació i Desenvolupament Econòmic (OCDE). A Espanya, la Llei 14/2011, de 2 de juny de 2011, de la ciència, la tecnologia i la innovació, de moment no fa referència als materials complementaris, mentre que als Estats Units els National Institutes of Health (NIH) obliguen, des del 2003, a dipositar les dades generades per la recerca finançada en bancs específics en funció de les àrees i subàrees de coneixement. Els NIH van desenvolupar diversos repositoris i bases de dades suplementàries específics, entre els quals hi ha el GenBank, Gene, Genome, Protein Cluster i PubChem, que faciliten la tasca de preservació de les dades generades als investigadors.

Les normatives i orientacions dels organismes de recerca que recomanen preservar les dades en dipòsits creats específicament per emmagatzemar-les s'erigeixen de facto en una guia per gestionar-les i conservar-les correctament.

En definitiva, l'accés formalitzat a les dades procedents de la recerca augmenta l'eficiència de la inversió, per la qual cosa és vital conèixer les fonts de dades disponibles: bancs de dades, repositoris, seus editorials i biblioteques de dades. Els investigadors, com a consumidors de bibliografia científica, necessiten accedir també a les dades generades (Martínez-Uribe; Macdonald, 2008).

Darrerament s'han creat una gran quantitat de repositoris de dades institucionals, però en la bibliografia s'observa que no hi ha una identificació sistemàtica de les fonts de preservació de les dades de recerca. La descentralització dels dipòsits d'emmagatzematge de dades en els repositoris de les mateixes institucions i, per tant, l'absència d'un sistema central de cerca, requereix un registre que permeti identificar tots aquests dipòsits.

En no trobar un registre mundial de dipòsits de dades de recerca, tal com n'hi ha un per a repositoris —ROAR i OpenDOAR—, el nostre grup de recerca va plantejar la creació d'una eina que les aglutinés de manera classificada per disciplines. L'objectiu d'aquest projecte és facilitar la identificació de les fonts d'emmagatzematge de dades de recerca per permetre, com a mínim, als professionals de la informació conèixer de manera fàcil i fiable on els investigadors han de dipositar les dades i si hi ha llacunes disciplinàries.

2 Material i mètode

En primer lloc, s'han fet cerques d'informació generals a Internet per tal d'identificar un directori similar al nostre.

En segon lloc, s'han consultat diverses fonts per recopilar els dipòsits i repositoris de dades que hi ha. S'han revisat estudis bibliogràfics previs i interrogat les bases de dades de la Web of Knowledge, Scopus, CSIC i LISA, combinant les paraules clau: data sharing, reuse, data curation, research data i data repositories. Aquests treballs citaven dipòsits com ara DART (Treolar, 2006), ARROW (Payne; Treolar, 2006), DRYAD (Greenberg, 2009), Protein Data Bank i GenBank (Martínez-Uribe; Macdonald, 2009) i d'altres esmentaven conjunts de dipòsits (Torres-Salinas; Robinson-García; Cabezas-Clavijo, 2012). S'han examinat les polítiques de copyright de les editorials científiques respecte al material suplementari dels articles, ja que de vegades s'hi citen els dipòsits recomanats. També s'han consultat els registres de repositoris d'accés obert ROAR (Registry of Open Access Repositories) i OpenDOAR (Directory of Open Access Repositories) i s'han identificat els arxius digitals que contenen dades de recerca.

D'aquesta anàlisi s'han obtingut nombrosos repositoris de dades.

En tercer lloc, s'ha utilitzat Drupal per construir el web ODiSEA i la base de dades. Utilitzar un gestor de continguts ha permès incorporar un sistema de cerca en els registres aplicant diferents tipus de filtres. L'ús del mòdul Google Chart API facilita a l'usuari la visualització en temps real de diferents tipus de gràfics (barres, sectors, etc.).

El registre conté camps de directori i camps d'anàlisi. Es va obtenir informació sobre la institució responsable del dipòsit, l'àrea geogràfica, el tipus de dades i la quantitat que n'emmagatzema, el format, i el grau de compliment del protocol OAI-PMH.

La classificació dels bancs de dades es basa en les àrees de coneixement de l'Essential Science Indicators de la Web of Knowledge: Agricultural Science, Biology and Chemistry, Chemistry, Clinical Medicine, Computer Science, Economics and Business, Engineering, Environment Ecology, Geoscience, Immunology, Material Science, Mathematics, Microbiology, Molecular Biology and Genetics, Multidisciplinary, Neuroscience and Behaviour, Pharmacology and Toxicology, Physics, Plant and Animal Science, Psychiatry/Psychology, Social Science General, Space Science.

3 Resultats

El resultat d'aquest treball és un inventari de dipòsits especialitzats en la preservació de dades de recerca a escala mundial anomenat ODiSEA: International Registry on Research Data. Recull els dipòsits que conserven conjunts de dades, material addicional als articles i materials gràfics i multimèdia.

Imatge 1. Interfície d'ODiSEA

És un projecte conjunt entre cinc universitats espanyoles: Universidad Politécnica de Valencia, Universidad de Valencia, Universitat de Barcelona, Universidad Católica de Valencia i Universidad de Murcia.

Les seves funcionalitats inclouen la cerca per disciplina i per tipus de dades que emmagatzema el dipòsit.

Imatge 2. Exemple d'interfície de cerca

Permet conèixer les dades de dipòsits que responen als criteris de cerca, de manera que, per exemple, ajuda a identificar les llacunes disciplinàries o geogràfiques que hi ha actualment.

Imatge 3. Llista de resultats

A data d'avui, disposa de 176 dipòsits, entre els quals hi ha bancs especialitzats, biblioteques de dades, repositoris que accepten conjunts de dades i bancs d'imatges.

Imatge 4. Distribució per matèries

Recull tant dipòsits específics, per exemple GenBank, com genèrics, com ara Dataverse Network, entre molts d'altres. Permet conèixer les dades individuals de cada dipòsit, si bé la base de dades en recull d'altres per analitzar.

Imatge 5. Interfície d'un registre complet

L'anàlisi per països mostra que el nombre més gran de dipòsits és als Estats Units i al Regne Unit. La situació a Espanya és similar al Japó, al Canadà i a Austràlia amb un nombre de dipòsits superior a França, Itàlia, Dinamarca o Alemanya.

Imatge 6. Distribució per àrea geogràfica

La inclusió d'un camp que indica si el dipòsit és compatible amb el protocol OAI-PMH, que de moment s'està investigant en cadascun dels dipòsits, ens permet saber si aquests conjunts de dades els recopilaran màquines que ofereixen serveis de cerca massius, com ara OAister-OCLC o Google. Finalment, segons el nostre parer, un dels indicadors més importants d'aquest registre és el que mostra si és d'accés obert, és a dir, si les dades són reutilitzables o no. Amb això tindrem el panorama real del retorn de la inversió en recerca.

4 Conclusions

Per facilitar que prosperi la recerca, és necessària la conservació de les dades. Això inclou la selecció, la conservació en funció de les polítiques i dels requisits legals de cada institució, i la reutilització d'acord amb els drets de propietat intel·lectual i de patents. Tot i que cal destacar que encara hi ha una certa manca en els marcs tècnics i institucionals per regular la normalització de l'accés obert a les dades de recerca, de manera gradual estan emergint iniciatives internacionals que afavoreixen poder-les compartir. Nombrosos investigadors, agències de recerca i centres superiors estan interessats a fer que les dades científiques siguin reutilitzables a través del desenvolupament i implementació dels repositoris digitals, que en facilitin la gestió i l'accés.

La proliferació d'aquests dipòsits específics de preservació de les dades en diferents disciplines ha fet que sorgeixi una necessitat nova: l'existència d'un registre global que recopili i classifiqui aquests dipòsits. Per cobrir aquesta nova demanda s'ha creat ODiSEA, que registra i classifica per disciplines els dipòsits existents de dades de recerca.

L'anàlisi de les dades que conté mostra un predomini geogràfic dels Estats Units i del Regne Unit i del tipus banc especialitzat i repositori digital. Les disciplines que més dipòsits reuneixen són biologia molecular i genètica, i biologia i química, davant farmacologia i toxicologia i ciències de les plantes i els animals. Cal destacar que el nombre més gran de dipòsits s'aglutina sota la categoria multidisciplinària.

Quant a l'accés obert i la reutilització, els resultats s'estan investigant, ja que molts dels dipòsits no els defineixen específicament en les seves polítiques.

L'aportació que representa aquest registre facilita la descoberta de conjunts nous de dades, la recombinació de les quals, des d'una perspectiva multidisciplinària, fomentarà la innovació i la rendibilitat de la inversió en ciència.

Bibliografia

ARL (Association of Research Libraries) (2006). To stand the test of time: long-term stewardship of digital data sets in science and engineering. Arlington (Va.): The Association. <http://www.arl.org/bm~doc/digdatarpt.pdf>. [Consulta: 28/08/2012].

Abella, Alberto (2011). Reutilización de información pública y privada en España. Avance de situación para agentes públicos y privados. Una oportunidad para los negocios y el empleo. Madrid: Rooter. <http://rooter.es/documents/PAPER_REUTILIZACION_INFORMACION_PUBLICA_PRIVADA_OPENDATA.pdf>. [Consulta: 25/08/2012].

Arzberger, P.; Schroeder, A.; Beaulieu, G. [et al.] (2004). "Promoting access to public research data for scientific economic and social development". Data science journal, vol. 3, no. 29 (Nov.), p.135–152. <https://www.jstage.jst.go.jp/article/dsj/3/0/3_0_135/_article>. [Consulta: 25/08/2012].

Data Information Specialist Comitee-UK (DISC-UK) (2007). DataShare Project. <http://www.disc-uk.org/datashare.html>. [Consulta: 25/08/2012].

Ferrer-Sapena, Antonia; Peset, Fernanda; Aleixandre-Benavent, Rafael (2011)."Acceso a los datos públicos y su reutilización: open datay open government". El profesional de la información, vol. 20, n.° 3 (mayo–junio), p. 260–269. <http://elprofesionaldelainformacion.metapress.com/link.asp?id=92741636q145x727>. [Consulta: 25/08/2012].

Fienberg, Stephen E.; Martin, Margaret E.; Straf, Miron L. (ed.) (1985). Sharing research data. Washington, D.C.: National Academy Press.

Greenberg, Jane (2009). "Theoretical considerations of lifecycle modeling: an analysis of the dryad repository demonstrating automatic metadata propagation, inheritance, and value system adoption". Cataloging & classification quarterly, vol. 47, no. 3, p. 380–402.

Guralnick, Robert; Constable, Heather; Wieczorek, John [et al.] (2009)."Data's shameful neglect". Nature, vol. 461, no. 145 (Sept.). <http://www.nature.com/nature/journal/v461/n7261/full/461145a.html>. [Consulta: 25/08/2012].

Hammond, Tom; Moritz, Thomas D.; Agosti, Donat (2008)."The conservation knowledge commons: putting biodiversity data and information to work for conservation". En: Proceedings of the Twelfth Biennal Conference of the International Association for the Study of Commons. <http://dlc.dlib.indiana.edu/dlc/bitstream/handle/10535/2132/Moritz_129701.pdf?sequence=1>. [Consulta: 25/08/2012].

Marcos-Martín, Carlos; Soriano-Maldonado, Salvador-Luis (2011). "Reutilización de la información del sector público y Open data en el contexto español y europeo. Proyecto Aporta". El profesional de la información, vol. 20, n.° 3 (mayo–junio), p. 291–297. <http://es.scribd.com/doc/57214418/Reutilizacion-de-la-informacion-del-sector-publico-y-open-data-en-el-contexto-espanol-y-europeo>. [Consulta: 12/07/2012].

Martinez-Uribe, Luis; Macdonald, Stuart (2009)."User engagement in research data curation". Lecture notes in computer science, vol. 5.714, p. 309–314. <http://www.era.lib.ed.ac.uk/bitstream/1842/3206/1/Martinez_Macdonald_ECDL09.pdf>. [Consulta: 02/11/2012].

— (2008). "Un nuevo cometido para los bibliotecarios académicos: data curation". El profesional de la información, vol. 17, n.° 3 (mayo–junio), p. 273–280. <http://www.elprofesionaldelainformacion.com/contenidos/2008/mayo/03.pdf>.[Consulta: 15/07/2012].

Payne, Geoff; Treloar, Andrew (2006)."The ARROW Project after 2 years: are we hitting our targets?". En: Proceedings of VALA. Melbourne. <http://www.valaconf.org.au/vala2006/papers2006/57_Treloar_Final.pdf>. [Consulta: 28/08/2012].

Peset, Fernanda; Ferrer-Sapena, Antonia; Subirats-Coll, Imma (2012). "Open data y linked open data: su impacto en el área de bibliotecas y documentación". El profesional de la información, vol. 20, n.° 2 (marzo–abril), p. 165–173. <http://www.elprofesionaldelainformacion.com/contenidos/2011/marzo/06.pdf>. [Consulta: 02/08/2012].

Torres-Salinas, Daniel (2010a). "Compartir datos (data sharing) en ciencia: contexto de una oportunidad". Anuario ThinkEPI, vol. 4, p. 258–261. <http://www.thinkepi.net/compartir-datos-data-sharing-en-ciencia-el-contexto-de-una-oportunidad>. [Consulta: 24/07/2012].

— (2010b). "Hacia la gestión de datos de investigación en las universidades: la Data asset framework". Anuario ThinkEPI, vol. 4, p. 262–265.

Torres-Salinas, Daniel; Robinson-García, Nicolás; Cabezas-Clavijo, Álvaro (2012). "Compartir los datos de investigación: introducción al data sharing". El profesional de la información, vol. 21, n.° 2 (marzo–abril), p. 173–184. <http://hdl.handle.net/10760/16786>. [Consulta: 24/07/2012].

Treloar, Andrew (2006). "The Dataset Acquisition, Accessibility, and Annotatione-Research Technologies (DART) Project: building the new collaborative e-research infrastructure". En: Proceedings of AusWeb06, the Twelfth Australian World Wide WebConference. Southern Cross University Press. <http://ausweb.scu.edu.au/aw06/papers/refereed/treloar/paper.html>. [Consulta: 08/07/2012].

Treloar, Andrew; Groenewegen, David; Harboe-Ree, Cathrine (2007)."The data curation continuum: managing data objects in institutional repositories". D-Lib magazine, vol. 13, no. 9–10. <http://www.dlib.org/dlib/september07/treloar/09treloar.html>. [Consulta: 08/07/2012].

Data de recepció:05/09/2012. Data d'acceptació: 28/10/2012.