Número 50 (juny 2023)

Concepció d'una eina brasilera per a l'elaboració de plans de gestió de dades de recerca: reptes per al model de plans automàtics (maDMP)

[Versão em português]


Laura Vilela Rodrigues Rezende

Professora de la Universidade Federal de Goiás (UFG) i investigadora de l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)

Elizabete Cristina de Souza de Aguiar Monteiro

Bibliotecària de la Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP/Marília) i investigadora de l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)

Ketlen Stueber

Universidade Federal do Rio Grande do Sul (UFRGS) i investigadora de l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)

Fabiano Couto Corrêa da Silva

Professor de la Universidade Federal do Rio Grande do Sul (UFRGS) i investigador de l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)

José Carlos Abbud Grácio

Professor de la Universidade Estadual Paulista Júlio de Mesquita Filho (UNESP/Marília) i investigador de l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)

Alexandre Faria de Oliveira

Investigador de la Universidade de Brasília (UnB) Director de projectes i investigador de l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)

 

Resum

Objectius: aquest treball presenta un estudi del model conceptual d'una eina per elaborar i gestionar plans per a la gestió de dades automàtics (maDMP, Machine Actionable Data Management Plan) per a l'escenari brasiler dirigit per l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT). Com a objectius, s’analitzen les eines existents per decidir sobre la viabilitat de desenvolupar una solució des del principi o bé adaptar-ne i remodelar-ne una d'existent, a més de dissenyar el model conceptual considerant els agents implicats en l'ecosistema de recerca brasiler.

Metodologia: es tracta d’un informe de l'experiència amb un estudi exploratori per desenvolupar el model conceptual d'una eina per elaborar un pla de gestió de dades en l'escenari brasiler. S'ha utilitzat el mètode Design Science Research, que estableix un procés sistemàtic que permet a l'investigador recercar, descriure o explicar un fenomen i també dissenyar o prescriure solucions per a un problema concret (Dresch et al., 2014).

Resultats: es presenten els detalls de l'estudi comparatiu de les eines existents per a l'elaboració de plans de gestió de dades (PGD), a més del disseny del model conceptual de la solució brasilera. S'interpreta que l'escenari ideal per a aquest cas consisteix a personalitzar l'eina DMPTool que ja existia, per tal d’optimitzar els recursos i el temps de desenvolupament. És una eina robusta, amb una comunitat de desenvolupament activa i actualitzacions freqüents, la qual cosa la converteix en una bona solució per crear PGD automàtics. Cal destacar el paper important d'aquest estudi en la comprensió de les connexions i l'intercanvi d'informació necessaris per a l'ecosistema de la ciència brasilera, en el qual l'eina PGD de l'IBICT té un paper centralitzador i aglutinador d'aquesta informació.

Resumen

Objetivos: este trabajo presenta un estudio del modelo conceptual de una herramienta para elaborar y gestionar planes para la gestión de datos automáticos (maDMP, Machine Actionable Data Management Plan) para el escenario brasileño dirigido por el l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT). Como objetivos, se analizan las herramientas existentes para decidir sobre la viabilidad de desarrollar una solución desde el principio o bien adaptar y remodelar una existente, además de diseñar el modelo conceptual considerando a los agentes implicados en el ecosistema de investigación brasileño.

Metodología: se trata de un informe de la experiencia con un estudio exploratorio para desarrollar el modelo conceptual de una herramienta para elaborar un plan de gestión de datos en el escenario brasileño. Se ha utilizado el método Design Science Research, que establece un proceso sistemático que permite al investigador buscar, describir o explicar un fenómeno y también diseñar o prescribir soluciones para un problema concreto (Dresch et al., 2014).

Resultados: se presentan los detalles del estudio comparativo de herramientas existentes para la elaboración de planes de gestión de datos (PGD), además del diseño del modelo conceptual de la solución brasileña. Se interpreta que el escenario ideal para este caso consiste en personalizar la herramienta DMPTool que ya existía, a fin de optimizar los recursos y el tiempo de desarrollo. Es una herramienta robusta, con una comunidad de desarrollo activa y frecuentes actualizaciones, lo que la convierte en una buena solución para crear PGD automáticos. Cabe destacar el importante papel de este estudio en la comprensión de las conexiones y el intercambio de información necesarios para el ecosistema de la ciencia brasileña, en el que la herramienta PGD del IBICT tiene un papel centralizador y aglutinador de esta información.

Abstract

Aims: This article presents a study of a conceptual model for a machine-actionable Data Management Plan (maDMP - Machine Actionable Data Management Plan) for the Brazilian setting conducted by the Brazilian Institute of Information and Technology (IBICT). The objectives were to analyse the existing tools; to consider the feasibility of developing a new solution from the very beginning, or adapting and remodeling an existing one; and to design the conceptual model considering the agents involved in the Brazilian research ecosystem.

Methods: This article reports an exploratory study on the development of a conceptual model of a Data Management Plan for use in the Brazilian scenario. The Design Science Research method was used, a systematic process that allows researchers to study and describe a phenomenon and also design or prescribe solutions for a specific problem (Dresch et al., 2014).

Results: A detailed comparative study of the existing development tools for DMPs is presented, in addition to a description of the design of the conceptual model of the Brazilian solution. The ideal scenario for this case is the improvement of the existing DMPTool tool, optimizing resources and development time. This robust instrument has accompanied the development of resources that will establish it a tool for creating DMPs that can be activated by machines. The study identifies the connections and exchanges of information necessary for the Brazilian Science ecosystem, in which the IBICT's DMP tool can play a centralizing and aggregating role.

Resumo

Objectivos: Este trabalho apresenta um estudo de modelo conceitual de uma ferramenta de elaboração e gestão de Planos de Gestão de Dados acionável por máquina (maDMP – Machine Actionable Data Management Plan) para o cenário brasileiro conduzido pelo Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT). Como objetivos, buscou-se analisar as ferramentas existentes e decidir pela viabilidade de se desenvolver uma solução desde o início ou adaptar e remodelar uma já existente além de desenhar o modelo conceitual considerando os agentes envolvidos no ecossistema de pesquisa brasileiro.

 

1 Introducció

El temps actual requereix que hi hagi un acostament major entre la comunitat científica i la societat en general. La importància de la ciència, la tecnologia i la innovació (CTI) esdevé una premissa bàsica davant els reptes que plantegen les societats en tots els àmbits del coneixement. El moviment d'obertura quant al treball científic comença a materialitzar-se arreu dels països i hi ha algunes directrius a escala internacional que comencen a ocupar un lloc assenyalat, com és el cas del document elaborat per la UNESCO amb recomanacions per a la ciència oberta.

La ciència oberta es defineix com un constructe inclusiu que combina diversos moviments i pràctiques que tenen com a objectiu fer que el coneixement científic multilingüe estigui disponible de manera oberta, fer-lo accessible i reutilitzable per a tothom, augmentar la col·laboració científica i l'intercanvi d'informació en benefici de la ciència i la societat, i obrir els processos de creació, avaluació i comunicació del coneixement científic als actors de la societat, a més de la comunitat científica tradicional. Engloba totes les disciplines científiques i tots els aspectes de les pràctiques acadèmiques, incloses les ciències bàsiques i aplicades i les ciències naturals, socials i humanes, i es basa en els pilars clau següents: coneixement científic obert, infraestructura científica oberta, comunicació científica, implicació oberta dels actors socials i diàleg obert amb altres sistemes de coneixement (UNESCO, 2021, p. 7).

El procés d'obertura del treball científic engloba diversos aspectes, que comprenen l'accés obert a les publicacions; la posada a disposició de dades; l'avaluació d'experts oberta; fer públics els quaderns de laboratori, recursos educatius i codis computacionals, i també la divulgació de la ciència. En el context brasiler, es pot observar que les accions relacionades amb la ciència oberta encara se centren principalment en l'accés obert a la producció científica. Un fet que aquest escenari fa destacar és que el directori internacional DOAJ (Directory of Open Access Journals), que indexa revistes d'accés obert, en presenta un nombre elevat (1.632) que són originàries del Brasil (DOAJ, 2022).

Per a aquest treball, es va decidir fer servir un marc pràctic i d'implementació de la gestió de dades de recerca, en què es prioritza l'etapa inicial de planificació. La vessant de la ciència oberta relacionada amb la gestió i l'obertura de dades comença a consolidar-se en l'escenari brasiler, encara que sigui de manera incipient. Es nota que encara no hi ha una integració de la informació provinent dels agents implicats en tot l'ecosistema de la ciència, la tecnologia i la innovació (CTI). A més dels investigadors i les institucions de recerca, les agències de finançament són actors fonamentals per a l'obertura de les dades científiques, ja que poden sol·licitar que les recerques que financen posin les dades generades o produïdes a disposició de la comunitat científica i la societat en general.

Dit això, l'etapa de planificació de la recerca ha de considerar quines accions es duran a terme perquè les dades produïdes o generades durant el procés de recerca s'obrin correctament, a més de preveure també on s'emmagatzemaran al final de la investigació. Un document que s’utilitza per descriure aquesta informació és el pla de gestió de dades (PGD). Actualment, hi ha eines per crear aquests plans, però tenen un caràcter massa estàtic i textual, sense informació que es pugui recuperar automàticament sobre els sistemes que utilitzen els agents implicats en tot l'ecosistema científic, a escala nacional i internacional.

Un altre punt rellevant és que, com que són documents estàtics, en general els PGD es consideren uns documents addicionals que han d'emplenar els investigadors quan ho sol·liciten les agències finançadores. En lloc que els investigadors els vegin com una demanda burocràtica més, els PGD haurien de formar part integral de totes les etapes de la recerca, establir connexions entre els agents implicats en el procés d'investigació i servir com una mena d'integrador dinàmic, capaç d'actualitzacions automàtiques al llarg de la gestió de dades de recerca.

Hi ha algunes iniciatives per definir i desenvolupar un PGD automàtic, és a dir, estructurat de manera que permeti als agents implicats en el procés de recerca i gestió de dades actuar de manera integrada i col·laborativa, amb informació diversa que es pugui emplenar de manera automatitzada. Aquest treball presenta un estudi per definir el model conceptual d'una eina per elaborar un pla de gestió de dades automàtic (maDMP) per a l'escenari brasiler dirigit per l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT).


2 Planificació de la gestió de dades de recerca

Amb l'objectiu de compartir la recerca produïda, així com els processos, les metodologies, els codis i les dades que s'hi associen, els investigadors han de planificar tota aquesta recerca, incloent-hi el que es farà amb les seves dades i els inputs generats. Per tal d'il·lustrar-ho d'una manera més didàctica, i a mode d'intent d'actualitzar i adaptar el model de comunicació científica proposat per Pinto i Costa (2018, p. 155), la figura 1 suggereix com podria ser el cicle de vida de la recerca i les opcions per difondre'n els resultats i les dades científiques generades. En la fase inicial, hi ha l'etapa de planificació de la recerca, moment en què és possible que l'investigador utilitzi el pla de gestió de dades (PGD) per detallar els procediments de recerca, les tècniques de recollida i quines dades es generaran, a més de facilitar informació sobre la ubicació d'emmagatzematge i la publicació dels resultats al final de la recerca. En finalitzar el procés de recerca, és possible compartir o no els resultats i les dades generades. En relació amb el cas negatiu, hi ha qüestions relacionades amb la propietat intel·lectual i industrial i amb la necessitat de mantenir en secret o retinguts els productes generats com a resultat de recerques científiques. A la part central i dreta de la figura 1, es pot observar que en l'etapa de finalització de la recerca, a l'hora de decidir difondre o compartir els resultats i les dades generats, l'investigador té l'opció de la comunicació formal, que inclou les revistes científiques i tot el seu procés d'avaluació d'experts, com a principal mitjà disponible. A més de la publicació formal, dins de l'àmbit del present estudi una de les vies d'obertura del treball científic és el dipòsit de les dades de recerca generades durant el procés de recerca. Els repositoris de dades científiques es consideren els millors llocs d'emmagatzematge, ja que estan dissenyats per proporcionar informació descriptiva detallada sobre conjunts de dades per tal d'afavorir-ne la localització, la intel·ligibilitat i la compartició.

 

Figura 1. Cicle de vida de la recerca i difusió dels resultats/dades científics.   Font: elaboració dels autors, a partir de Pinto i Costa (2018).

Figura 1. Cicle de vida de la recerca i difusió dels resultats/dades científics.                      
Font: elaboració dels autors, a partir de Pinto i Costa (2018).

 

Així, és necessari planificar la gestió de les dades que es fa durant la recerca, amb l'objectiu de fer-ne una compartició i difusió científica adequades, considerant els plans de gestió de dades com a documentació rellevant per detallar totes aquestes passes. Cal remarcar que les opcions per publicar els resultats i les dades de recerca s'han d'entendre com a vies complementàries d'obertura del treball científic.

2.1 Plans de gestió de dades

Un pla de gestió de dades (PGD) és un document que descriu tot el cicle de vida de les dades de recerca, des de la recollida fins a la documentació completa del procés de la investigació, i registra les decisions preses sobre estàndards de metadades, formats, llicències, període d'emmagatzematge i costos associats, entre altres factors que inclouen les característiques i els processos de la recerca, des de la concepció fins a l'emmagatzematge, la conservació i la disponibilitat posteriors.

El PGD requereix una seqüència documentada d'accions destinades a identificar i assegurar els recursos, i recopilar, mantenir i utilitzar els conjunts de dades. Això inclou obtenir finançament i identificar recursos tècnics i de personal per al cicle complet de gestió de dades. L'abast i la quantitat de detalls d'un PGD depenen del projecte i del públic per al qual s'està desenvolupant.

Els PGD són documents fonamentals per garantir la preservació i l'accessibilitat de les dades generades en la investigació científica. Aquests plans els requereixen les agències de finançament i les institucions de recerca per garantir que les dades generades es gestionen adequadament, des de la concepció fins a la conservació.

2.2 Dinamitzar els plans de gestió de dades: maDMP

La qüestió central que es presenta com un problema dels PGD és que els investigadors entenen que són una demanda més, que han de resoldre ells, sovint de manera obligatòria i, tal com passa avui, aquests documents són estàtics i sense interconnexió amb altres agents implicats en el treball científic. En el context de les agències de finançament que demanen PGD, el control, la comprovació i l'anàlisi d'aquests documents s'acaben fent manualment, sense cap interrelació entre identificadors que puguin vincular investigadors, recerques, finançament, dades i publicacions.

En els darrers anys, aquesta problemàtica ha impulsat estudis orientats a millorar els PGD per intentar donar-los dinamisme, interoperabilitat amb altres sistemes i la capacitat d'actualitzar automàticament la informació al llarg del procés de recerca. Aquests PGD es coneixen com a "maDMP", acrònim de "Machine Actionable Data Management Plans". Els maDMP pretenen millorar els plans tradicionals, millorar la qualitat de les dades i les metadades de recerca mitjançant l'automatització i, així, reduir la sobrecàrrega administrativa generada per completar i avaluar els textos presents en els models tradicionals. En enllaçar els sistemes d'informació en l'ecosistema científic, els maDMP aporten beneficis als finançadors, els equips de consells d'ètica, els experts legals, els investigadors i personal de suport, els editors, els operadors de repositoris, els administradors institucionals i els proveïdors d'infraestructura (Miksa, et al., 2019).

Pel que fa a les seves funcionalitats, Miksa, et al. (2019) presenten deu principis per aplicar els maDMP tenint en compte la variabilitat del seu abast i les especificitats implícites en cada principi, a més de les qüestions tècniques, organitzatives i socials exigides segons l'origen i la realitat dels llocs d'aplicació i desenvolupament de l'eina i dels plans. Perquè els plans funcionin automàticament, els proveïdors d'infraestructura han de proporcionar sistemes de suport que corresponguin a les demandes necessàries per executar-los. A continuació es presenten els deu principis esmentats (Miksa, et al., 2019):

  • Cal integrar els PGD en els fluxos de treball de totes les parts interessades en l'ecosistema de dades de recerca.
  • Cal permetre que els sistemes automatitzats actuïn en nom de les parts interessades.
  • Les polítiques han de tenir en compte els sistemes i les interconnexions, no només els actors implicats.
  • Els components de l'ecosistema de gestió de dades s'han de descriure tenint en compte els sistemes, les seves interconnexions i els actors implicats.
  • Cal utilitzar identificadors únics persistents i vocabularis controlats.
  • Se suggereix seguir un model de dades comú per als maDMP.
  • Els PGD han de funcionar per al consum tant humà com de màquines.
  • Els PGD haurien de donar suport a l'avaluació i el monitoratge de la gestió de dades.
  • Els PGD han de ser actualitzables, en directe i amb versionament de documents.
  • Els PGD han d'estar disponibles per al públic en general.

Els principis que aquests autors especifiquen permeten percebre clarament l'evolució des del model inicial del PGD estàtic, en format text, fins a un que es pot activar automàticament. Altres aspectes que cal considerar en la definició conceptual i la implementació d'un PGD automàtic són els que enumera la Research Data Alliance (RDA), a partir d'estudis fets per Miksa, et al. (2020). Quan es van revisar les deu eines per elaborar plans de gestió de dades (Haplo, F1000 Researsh, DMPTool, DMPonline, DMP Opidor, Data Stewardship Wizard, NSD DMP, Argos, Tu Wien i Easy Dmp), es va comprovar que les eines preveuen les característiques bàsiques de cardinalitat, granularitat, versionament, retenció, estat i serialització. Per a cadascun d'aquests termes s'entén el següent:

  • Cardinalitat: els PGD que tenen camps emplenats amb informacions predefinides provinents d'altres sistemes relacionats (obligatòries o opcionals).
  • Granularitat: depèn del context de la recerca i fa referència a les descripcions de les característiques dels conjunts de dades, que poden variar i actualitzar-se a mesura que avança la recerca.
  • Versionament: generació de segells de temps de creació dels PGD i les versions respectives; els mecanismes de control de versions s'actualitzen cada vegada que canvien les dades i permeten recuperar diferents versions d'un PGD basant-se en registres de marcadors.
  • Retenció: les dades només es poden posar a disposició després d'haver rebut una assignació d'accés i llicència d'ús; mentre no s'atorga la llicència, les dades es consideren tancades o inaccessibles.
  • Estat del PGD: indica si les actuacions del pla es troben en la fase de "prevista en planificació" o si ja s'han dut a terme.
  • Serialització: la serialització en Java Script Object Notation (JOSN) és una representació ontològica del contingut que es pot utilitzar en qualsevol altra representació: Extensible Markup Language (XML), Ontology Web Language (OWL) i JavaScript Object Notation for Linked Data (JSON-LD).

Després d'haver presentat les característiques i innovacions conferides als plans de gestió de dades automàtics, a continuació es descriu el recorregut metodològic d'aquest estudi, que pretén definir un model conceptual per a una eina centralitzada per crear PGD automàtics, que es posarà a disposició de la comunitat científica brasilera.


3 Recorregut metodològic

Aquest estudi es basa en un informe de l'experiència sobre el desenvolupament del model conceptual d'una eina per elaborar un pla de gestió de dades de recerca. S'ha utilitzat el mètode Design Science Research, que permet a l'investigador recercar, descriure o explicar un fenomen i també dissenyar o prescriure solucions per a un problema concret (Dresch, 2015). El Design Science Research pretén desenvolupar solucions per a dos tipus de problemes: qüestions pràctiques, que requereixen canvis que s'adaptin millor als objectius dels qui prenen decisions, i problemes de coneixement, que requereixen reinvencions en el coneixement del món (Wieringa, 2009). Per a aquest estudi s'han identificat dos problemes pràctics:

  • Les eines d'elaboració de PGD, que donen lloc a plans estàtics i textuals, sense informació que es pugui recuperar automàticament dels sistemes utilitzats pels agents implicats en tot l'ecosistema científic.
  • La inexistència d'una eina brasilera centralitzada que respongui a les demandes de les diferents parts implicades en l'ecosistema de recerca i que pugui ser automàtica.

La taula 1 conté les directrius aplicades en aquest estudi.

Orientació

Descripció

Aplicació en maPGD

1. Disseny com a artefacteEl mètode Design Science Research ha de produir un artefacte viable amb processos de creació, model, mètode o instanciació.PGD ​​​​IBICT: eina per gestionar i elaborar PGD.
2. Rellevància del problemaL'objectiu del Design Science Research és desenvolupar solucions de base tecnològica a problemes rellevants en empreses i institucions.Eina PGD automàtica alineada amb les necessitats de gestió de dades de les parts interessades.
3. Avaluació del dissenyLa utilitat, la qualitat i l'eficàcia de l'artefacte s'ha de demostrar amb rigor mitjançant mètodes d'avaluació.Estudi comparatiu entre les eines PGD.
4. Aportacions de la recercaEl Design Science Research ha de proporcionar contribucions clares i verificables en les àrees de l'artefacte, fonaments i/o metodologies de disseny.Elaboració de continguts per difondre el desenvolupament de l'eina PGD.
5. Rigor de la recercaEl Design Science Research es basa a aplicar mètodes rigorosos en la construcció i l'avaluació de l'artefacte.Es faran avaluacions i proves de l'eina PGD.
6. Disseny com a procés de cercaLa recerca d'un artefacte efectiu requereix utilitzar els mitjans disponibles per assolir els objectius desitjats.Es van avaluar les eines per dissenyar PGD, es van utilitzar conceptes de PGD automàtics i els principis FAIR per investigar i desenvolupar solucions.
7. Comunicació de recercaEl Design Science Research s'ha de presentar de manera eficaç a un públic orientat a la tecnologia i la gestió.Publicació dels resultats i posada a disposició de la comunitat.

Taula 1. Design Science Research per al disseny i desenvolupament d'una eina de creació de PGD automàtics.                     
Font: elaboració dels autors, a partir de Hevner, March, Ram i Park (2004).


4 Anàlisi i resultats

Els resultats es presenten en dues etapes. En primer lloc, s'analitza detalladament l'adequació dels programaris principals per elaborar PGD que estan disponibles, pel que fa a la millor idoneïtat i personalització per a l'automatització. A continuació, es presenta una proposta de model conceptual per a una eina d'elaboració de PGD automàtics, basada en DMPTool, en l'escenari brasiler.

4.1 Anàlisi de les eines d'elaboració de PGD per fer-los automàtics

Les eines per elaborar PGD seleccionades són DMPTool, DMPOnline, Argos, DataWiz i EasyDMP. Aquestes eines es van analitzar per verificar-ne les funcionalitats, les possibilitats de personalització i els usos. Es va seleccionar l'eina DMPTool per a la personalització i la implementació, pels motius següents:

  • Segueix les recomanacions per funcionar de manera automàtica de l’RDA: DMP Common Standards
  • El DMPRoadmap és una base de codi obert per a una eina PGD automàtica, gestionada conjuntament pel Digital Curation Center (DCC) i el University of California Curation Center (UC3), que representa els esforços per fer convergir en una única solució les millors característiques de les versions anteriors de DMPonline i DMPTool. 
  • El DMPRoadmap s'utilitza en diversos serveis internacionals, com ara DMP Assistant, al Canadà; DMPTuuli, a Finlàndia; DMP OPIDoR, a França; PGDonline, a Espanya, i la versió DEIC de DMPonline, a Dinamarca. 
  • Ofereix un ampli suport a la comunitat que implementa l'eina, un fet crucial per als desenvolupadors. 
  • Està associat amb DataCite i han creat un flux de treball per generar DOI connectats a l'ORCID, que són recuperats en els cercadors web. 
  • És una eina recomanada per diverses institucions brasileres d'ensenyament i de promoció de la recerca.

 

 

DMPTool

DMP Ibict

DMPonline

Argos

DataWiz

easyDMP

Personalització amb logo

no

no

no

no identificat

no identificat

Versionament

iniciat

iniciat

iniciat

no identificat

segell de temps de creació

Desenvolupament relacionat amb maDMP (automàtic)

iniciat

iniciat

iniciat

no identificat

iniciat

Research Organization Registry (ROR) IDs: per identificar afiliacions d'organitzacions de recerca

iniciat

previst

iniciat

no identificat

no identificat

no identificat

IDs del Crossref Funder Registry per identificar finançadors de recerca

iniciat

previst

iniciat

iniciat

no identificat

no identificat

RDA Common Standard JSON usat per intercanviar metadades DMP entre eines (easyDMP i Data Stewardship Wizard)

iniciat

previst

iniciat

iniciat

no identificat

no identificat

API DataCite GraphQL: pot exposar totes les connexions referents a la recerca del PGD

iniciat

previst

iniciat

no identificat

no identificat

no identificat

Taxonomia: Contributor Roles Taxonomy (CRediT)

iniciat

previst

iniciat

no identificat

no identificat

no identificat

Flux de treball d'aprovació de patrocinadors i finançadors en què poden revisar, comentar i aprovar DMP enviats

iniciat

previst

no identificat

no identificat

no identificat

no identificat

Integració amb FAIRsharing

iniciat

previst

iniciat

iniciat

no identificat

no identificat

Interoperabilitat entre eines PGD (intercanvis de metadades)

iniciat

previst

iniciat

iniciat

 

no identificat

 

iniciat

Integració amb Dataverse

iniciat

previst

no identificat

iniciat

no identificat

no identificat

Integració amb eines de gestió de dades

iniciat

previst

no identificat

no identificat

iniciat

Creació de plantilles

no identificat

basat en la NSF

Identificador persistent (DOI)

sí (DMP ID)

DMP ID i DOI

no

 
 
 
Autenticació CAFe

no

no

no

Autenticació gov.br
 

previst

 
 
 
 
Autenticació correu electrònic personal

no identificat

no

ID són vinculats automàticament al registre ORCID

iniciat

no

no identificat

no identificat

no identificat

Selecció de models de PGD per institució

no

iniciada

no

iniciada

no identificat

no identificat

Inclusió de col·laboradors de l'equip de recerca

no identificat

no identificat

Inclusió d'identificador (ORCID) dels col·laboradors

iniciat

no identificat

no identificat

Inclusió d'informació dels resultats de la recerca

no

no identificat

no identificat

Llista de repositoris

sí (utilitza el Registry of Research Data Repositories - re3data registration)

sí (utilitza el Registry of Research Data Repositories - re3data registration)

sí (utilitza el Registry of Research Data Repositories - re3data registration)

no identificat

no identificat

Llista de patrons de metadades

RDA Metadata Standards Catalog (opens in a new window)

no identificat

no identificat

Selector de llicències

sí (SPDX)

sí (SPDX) implementant EUDAT

no

no identificat

no identificat

Model de referència/citació per a cada PGD

no

 

no identificat

no identificat

Inclou els outputs de la recerca

no

no identificat

no identificat

Configuracions detallades d'exportació

no identificat

no identificat

Definició de la visibilitat del pla

no identificat

no identificat

Codi font

disponible amb llicències obertes

disponible amb llicències obertes

disponible amb llicències obertes

disponible

disponible

disponible amb llicències obertes

Exemples de DMP disponibles públicament

previst

 
 
Comentaris

no identificat

no identificat

no identificat

Informes per a les agències de finançament

no identificat

previst

no identificat

no identificat

no identificat

no identificat

Integració amb ambient de preservació digital

no identificat

previst

no identificat

no identificat

no identificat

no identificat

Taula 2. Anàlisi de les funcionalitats de les eines per a l'elaboració de plans de gestió de dades.                      
Font: elaboració dels autors (2022).

 

4.2 Proposta de model conceptual de l'eina brasilera per a l'elaboració de PGD automàtics (maPGD)

Un cop definit el camí per personalitzar l'eina DMPTool, la passa següent va ser esbossar el model conceptual per al funcionament de l'eina, considerant els actors implicats en l'ecosistema científic brasiler. Cal subratllar el paper fonamental de l'Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT) en iniciatives per fomentar el desenvolupament científic brasiler alineades amb els preceptes de la ciència oberta; en particular, la preparació i el desenvolupament d'aquest estudi, que afavoreix les accions de gestió de dades de recerca a tot el país, a més de permetre sistematitzar i creuar informació sobre la ciència, la tecnologia i la innovació (CTI), imprescindibles per a les agències de finançament i les institucions de recerca.

L'eina brasilera per elaborar PGD es representa en la figura 2 com a "PGD BR (IBICT)", ubicada expressament al centre, ja que la idea és que actuï com a centralitzadora d'informació sobre la recerca científica brasilera. A la part superior del flux, hi ha informació sobre els investigadors i els costos implicats en el projecte, incloent-hi l'accés a la plataforma PGD BR amb les credencials definides prèviament. Aquestes aportacions provindran de les fonts d'informació següents:

  • Comunidade Acadêmica Federada (CAFe): la primera federació acadèmica del país, que és actualment una de les cinc més grans del món en nombre de clients (RNP, 2022). 
  • ORCID (Open Researcher and Contributor Identifier): a més de proporcionar un identificador únic a l'investigador, el vincula amb la seva informació professional integrada (filiacions, beques, publicacions científiques i revisions d'experts, inscrites prèviament en una mena de currículum d'abast internacional). En estar interconnectat amb l'eina PGD, l'ORCID pot oferir tota aquesta informació de manera sistematitzada automàticament.      
  • Currículo Lattes: la principal plataforma de gestió curricular del Brasil.      
  • GovBr: servei del govern brasiler per a la identificació en mitjans digitals. Permet una identificació segura en accedir als serveis digitals governamentals (Ministério da Gestão e da Inovação em Serviços, 2022).

A la part esquerra de la figura 2, hi ha les agències de finançament, com a proveïdors d'informació sobre convocatòries de finançament, projectes finançats i els vincles respectius amb l'equip de recerca. Destaquem aquí la possibilitat de registrar un identificador únic de les agències de finançament per mitjà del recurs Crossref Founder Registry, que afavoreix la parametrització d'aquesta informació. Aquí és destacable la bidireccionalitat de la relació entre el PGD BR i els sistemes d'agències de finançament, ja que, a més de proporcionar informació, aquests agents també poden utilitzar la informació dels PGD, especialment per generar indicadors i estadístiques de finançament.

 

Figura 2. Model conceptual del PGD IBICT.         Font: Elaborada pels autors a partir de Miksa, Walk i Neish (2020).

Figura 2. Model conceptual del PGD IBICT.                           
Font: elaboració dels autors a partir de Miksa, Walk i Neish (2020).


A la part inferior de la figura, hi ha la interconnexió dels PGD amb les institucions docents i de recerca que poden actuar com a gestors de repositoris de publicacions i dades científiques. Aquests sistemes d'emmagatzematge són essencials en el context de la recerca científica, ja que els investigadors poden dipositar-hi les seves dades i altres publicacions, per afavorir la compartició i la disponibilitat, amb la ciència oberta com a teló de fons de tot el procés d'obertura del treball científic.

És remarcable la complexitat i diversitat en el procés descriptiu de les dades i altres publicacions d'aquests repositoris mitjançant metadades que obeeixen als estàndards internacionals, d'acord amb els principis de descoberta i reutilització. Aquests repositoris inclouen identificadors persistents, llicències d'accés i ús (que es poden obtenir a partir de bases de dades que ofereixen automàticament les opcions que s'adapten millor a les situacions dels projectes de recerca), requisits de seguretat, fiabilitat de les dades, control de versions i cerques polièdriques, entre altres recursos que enriqueixen les dades. També cal destacar aquí la possibilitat d'una relació bidireccional entre els PGD i els repositoris, ja que, a més de proporcionar informació, aquests agents també en reben automàticament dels PGD, la qual cosa alimenta les metadades dels conjunts de dades (datasets). Un exemple d'aquest intercanvi d'informació són els DOI (identificadors persistents) dels conjunts de dades (assignats pels repositoris), quan l'investigador informa en el PGD BR sobre quin serà el repositori escollit per a l'emmagatzematge futur. Així, serà possible assignar-hi espai d'emmagatzematge en aquest dipòsit, fins i tot en l'etapa de planificació de la recerca.

Per acabar la descripció del model conceptual, hi ha l'IBICT, a la part dreta de la figura, com l'organisme que aporta la solució tecnològica per gestionar i preparar els PGD. Cal recalcar que aquest organisme també aportarà una solució de preservació digital del PGD BR, amb l'objectiu de garantir-hi l'accés en el temps, utilitzant el model Hipátia.

El model Hipátia, desenvolupat per l'IBICT, és una iniciativa que crea una capa tecnològica interoperable per automatitzar el procés de preservació d'objectes digitals. A més, té compatibilitat amb el model de referència per a la preservació digital OAIS, que incorpora l'estructuració de repositoris d'arxius digitals de confiança, que formen part de la fase final d'emmagatzematge, la qual cosa garanteix la integritat, l'autenticitat, la fiabilitat i la seguretat de les dades emmagatzemades en un sistema; en aquest cas concret, el PGD BR. Un dels programaris compatibles amb aquests dipòsits al final de la cadena de custòdia és Archivematica. Aquesta solució tecnològica s'adapta a qualsevol sistema que gestioni processos i objectes digitals.


5 Consideracions finals

El pla de gestió de dades automàtic (maDMP/maPGD), definit conceptualment per a l'escenari brasiler, té com a premissa bàsica centralitzar la informació entre els sistemes dels diferents agents implicats en l'ecosistema de la ciència, tenint en compte les infraestructures tecnològiques disponibles i les possibilitats d'utilització de recursos per part d'investigadors de diferents àrees del coneixement, institucions docents i de recerca, i agències de finançament, entre d'altres. Es va decidir utilitzar una eina gratuïta ja existent, que compta amb una sòlida xarxa de col·laboradors i de suport: DMPTool. S'entén que amb aquesta decisió es podrà optimitzar i racionalitzar el procés de desenvolupament d'una eina automàtica i contribuir a la maduració d'estàndards i definicions d'aquest tipus de solucions tecnològiques a escala internacional.

En el context brasiler, la xarxa federada d'institucions d'ensenyament i recerca ofereix un ús innovador d'aquest tipus d'eina per elaborar PGD, que permet avançar en el desenvolupament i la utilització de l'eina per part dels diferents agents implicats. Un altre aspecte rellevant és la possibilitat de descobrir les funcionalitats i necessitats de cada agent implicat en l'ecosistema de la ciència brasilera, cosa que pot oferir possibilitats d'utilitzar i compartir informació d'una manera enriquidora. Finalment, cal destacar que una eina maPGD, personalitzada a partir d'aquest model conceptual, es podrà ajustar per interconnectar agents, productes, serveis i altres entitats implicades en l'ecosistema científic mitjançant estàndards, directrius i bones pràctiques difosos internacionalment, com els principis FAIR, esquemes de metadades definits prèviament i identificadors únics, entre d'altres.

 

Bibliografia

Dresch, Aline; Lacerda, Daniel Pacheco; Antunes, José Antônio Valle (2015). "Chapter 4. Design science research". En: Design Science Research: a method for science and technology advanced. Switzerland: Springer, p. 67102.

DOAJ. Directory of Open Access Journals (2022). "Periódicos por países dos editores: Brasil". <https://doaj.org/search/journals?source=%7B%22query%22%3A%7B%22query_string%22%3A%7B%22query%22%3A%22Brasil%22%2C%22default_operator%22%3A%22AND%22%7D%7D%2C%22size%22%3A50%2C%22sort%22%3A%5B%7B%22created_date%22%3A%7B%22order%22%3A%22desc%22%7D%7D%5D%2C%22track_total_hits%22%3Atrue%7D>. [Consulta: 28/09/2022].

Hevner, Alan; March, Salvatore T.; Park, Jinsoo; Ram, Sudha (2004). "Design Science in Information Systems Research". Management Information Systems Quarterly, vol. 28, no. 1, p. 75105.

Miksa, Tomasz; Walk, Paul; Neish, Peter (2020). RDA DMP Common Standard for Machine-actionable Data Management Planshttps://doi.org/10.15497/rda00039.

Miksa, Tomasz; Simms, Stephanie; Mietchen, Daniel; Jones, Sarah (2019). "Ten principles for machine-actionable data management plans". PLoS Computational Biolgy, vol. 15, no. 3, e1006750. https://doi.org/10.1371/journal.pcbi.1006750.

Ministério da Gestão e da Inovação em Serviços (2022). Governo digital: Gov.br. <https://www.gov.br/governodigital/pt-br/conta-gov-br>. [Consulta: 30/09/2022].

Pinto, Carlos Sousa; Costa, Joaquim Luís (2018). "Capítulo 5. Padrões de comunicação em diferentes comunidades científicas". En: Costa, Sely Maria de Souza; Leite, Fernando César Lima; Tavares, Rosemeire Barbpsa (eds.). Comunicação da informação, gestão da informação e gestão do conhecimento. Brasília: IBICT. p. 145159. https://doi.org/10.18225/9788570131485

RNP (2022). Comunidade acadêmica federada: rede CAFe. <https://www.rnp.br/servicos/cafe>. [Consulta: 30/09/2022].

UNESCO (2021). Recomendações da UNESCO sobre ciência aberta. <https://unesdoc.unesco.org/ark:/48223/pf0000379949_por>. [Consulta: 27/09/2022].

Wieringa, Roel (2009). "Design science as nested problem solving". DESRIST '09: Proceedings of the 4th International Conference on Design Science Research in Information Systems and Technology. Philadelphia, May 2009. Article no. 8. https://doi.org/10.1145/1555619.1555630                                    
 

Similares

 

Articles similars a BiD

llicencia CC BY-NC-ND
Creative Commons
Llicència Creative Commons de tipus Reconeixement-NoComercial-SenseObraDerivada. Aquest article es pot difondre lliurement sempre que se'n citi l'autor i l'editor amb els elements que consten en la secció "Citació recomanada". No se'n pot fer, però, cap obra derivada (traducció, canvi de format, etc.) sense el permís de l'editor. Així, BiD compleix amb la definició d'open access de la Declaració de Budapest a favor de l'accés obert. La revista també permet que els autors mantinguin els drets d'autor i els de publicació sense restriccions.