Josep-Manuel Rodríguez-Gairín , Andreu Sulé Duesa
Professors de la Facultat de Biblioteconomia i Documentació
Universitat de Barcelona
rodriguez.gairin@ub.edu, sule@ub.edu
Resumen [Resum] [Abstract]
DSpace es uno de los programas de código abierto preferidos por las instituciones académicas para gestionar repositorios de ficheros (textuales, audio, vídeo, etc.), facilitando su depósito, organizándolos en comunidades, asignándoles metadatos y permitiendo su difusión en recolectores o agregadores. El manual que aquí presentamos no es el típico manual genérico sobre su funcionamiento (cómo se consulta, cómo se depositan documentos, cómo se revisan, etc.), sino uno de específico para gestores de la información y la documentación, centrado en aquellas funciones del programa que se encuentran más directamente relacionadas con nuestra profesión (esquema de metadatos, vocabularios controlados, interfaces de consulta, herramientas de difusión, estadísticas, etc.).
1 Introducción
DSpace es un software de código abierto diseñado por el Massachusetts Institute of Technology (MIT) y los laboratorios de HP para gestionar repositorios de ficheros (textuales, audio, vídeo, etc.), facilitando su depósito, organizándolos en comunidades, asignándoles metadatos y permitiendo su difusión a recolectores o agregadores. Estas características han hecho que, junto con EPrints, sea uno de los programas preferidos por las instituciones académicas para gestionar el repositorio dónde los investigadores depositan sus publicaciones y materiales de búsqueda con objeto de darles una mayor visibilidad.1
El manual que aquí presentamos de DSpace no es el típico manual genérico sobre su funcionamiento (cómo se consulta, cómo se depositan documentos, cómo se revisan, etc.),2 sino que nuestra intención ha sido elaborar un manual específico para gestores de la información y la documentación. ¿En qué consiste esta especificidad? Pues que en vez de centrarnos en aquello que DSpace puede hacer una vez instalado, lo hacemos en aquello que se puede parametrizar y más concretamente en aquellas funciones que se encuentran más directamente relacionadas con nuestra profesión. ¿Cómo se puede definir un nuevo esquema de metadatos? ¿Se pueden emplear vocabularios controlados? ¿Hasta qué punto se pueden personalizar las interfaces de consulta? ¿Y las de visualización o de resultados y de registros? ¿Es posible incorporar nuevas herramientas de difusión como por ejemplo la sindicación de contenidos RSS? ¿Puedo mejorar la evaluación del rendimiento del repositorio con estadísticas diferentes de las que incorpora por defecto el programa?
Justo es decir que la mayor parte de las respuestas a estas preguntas ya se encuentran en otros manuales y foros, pero muy a menudo sin la orientación documentalista que nosotros hemos querido darles. Ha sido nuestra voluntad recopilarlas, reformularlas y exponerlas de una manera ordenada, para que puedan ser de utilidad para cualquier profesional de la información y la documentación que quiera poner en marcha y optimizar un sistema de gestión de repositorios basado en DSpace.
Para no caer en un manual para informáticos (cosa que pasa a menudo cuando se trata de parametrizar un programa) hemos huido de explicaciones técnicas muy detalladas sobre los procesos de configuración, para centrarnos más en las posibilidades que ofrece DSpace para adaptar y/o mejorar sus prestaciones. Esto quiere decir que en muchos casos, una vez se conozca la mejora y se quiera implementar, hará falta recurrir a otros recursos (DSpace how-to Guide, Category:Howto-DSpace Wiki, etc.), o incluso al apoyo de personal informático, para la configuración del sistema.
2 Instalación
El código fuente del programa puede obtenerse de la web que el proyecto tiene en SourceForge. En abril del 2008 la versión estable es la 1.4.2 aun cuando ya se encuentra accesible una versión beta de la 1.5.
DSpace se una aplicación cliente/servidor que se gestiona vía web, es decir, que la mayor parte de procesos pueden llevarse a cabo con un navegador estándar como Internet Explorer, Firefox u Opera.
Desde el punto de vista del servidor, DSpace puede instalarse tanto en entornos Linux como en un servidor Windows, siempre que reúna una serie de prerrequisitos:
- Entorno de desarrollo Java 1.4 o superior.
- Herramienta de compilación Apache Ante 1.6.2 o superior
- Sistema de gestión de bases de datos PostgreSQL 7.3 u Oracle 9 o superiores con el juego de caracteres Unicode activados.
- Servidor de aplicaciones Jakarta TomCat 4.x o 5.x.
A diferencia de otras aplicaciones basadas en AMP (Apache-MySQL-PHP), la verdad es que la instalación de DSpace no es una tarea sencilla y requiere unos ciertos conocimientos de informática para configurar la base de datos y el entorno de desarrollo.
Del mismo modo, cuando a posteriori se hacen cambios en la configuración de DSpace, en especial en los ficheros jsp, muchas veces es necesario recompilar la aplicación con el orden "ant" para hacerlos operativos.
Aparte de estas aplicaciones básicas, hace falta configurar una serie de actividades programadas (cron jobs) que permitan informar periódicamente a los usuarios de los nuevos documentos depositados (sistema de alertas), indexar el texto completo de los documentos añadidos, generar las miniaturas de los gráficos e informar al administrador del correcto funcionamiento del sistema.
3 Adaptaciones generales del sistema a nuestro entorno
Con los pasos anteriores tendremos instalado un sistema DSpace limpio preparado para empezar a trabajar. A continuación hará falta parametrizarlo para ajustarlo a las necesidades de nuestro centro tanto a nivel visual como funcional.
3.1 Cambiar el idioma del programa
Dado que el sistema se instala por defecto en inglés, sin duda el primer paso consiste en modificar su configuración para que los textos se muestren en nuestro idioma. Esto se consigue instalando los paquetes de lenguaje. La versión 1.4.2 dispone de traducciones para seis idiomas, entre ellos el catalán y el castellano.
Esta configuración es relativamente sencilla pues todos los mensajes se encuentran independientes del código informático en un fichero "messagesxx.properties" (dónde xx es el idioma de la traducción: es, ca, fr, de...). Sólo hace falta copiar los ficheros que se pueden descargar de SourceForge en el directorio "config/languagepacks", volver a compilar la aplicación con el orden ant y copiar los ficheros ".war" que se generarán en el directorio webapps del Tomcat. De este modo, DSpace usará el idioma definido en el navegador si éste está en la lista de disponibles.
3.2 Cambiar la presentación
También podemos adaptar el aspecto en qué se presentará el sistema tanto a nivel de estructura como de estilo. En los dos casos los ficheros que se pueden modificar se encuentran en el directorio "jsp", pero hace falta dejar los originales y copiarlos en "jsp/local/layout" para modificarlos y trabajar con ellos.
Con respecto al estilo, las modificaciones se harán en el fichero "jsp/local/layout/styles.css.jsp". La estructura se reparte de la manera siguiente:
Ilustración 1. Estructura del programa
Hace falta recordar que siempre que se hagan modificaciones en ficheros es necesario recompilar la aplicación con la orden "ant", borrar el directorio "dspace" del Tomcat y copiar el nuevo "dspace.war" generado.
Una excepción al punto anterior son el espacio central de noticias y la barra lateral derecha que son ficheros HTML modificables, directamente en este caso en el directorio de instalación (normalmente "opt/dspace"), y que no requieren recompilar ni reiniciar el Tomcat. También se pueden modificar estos textos desde el administrador del sistema <http://web-address-tono-my-dspace/dspace-admin> en la opción "Editar noticias".
3.3 Cambiar el contenido de los mensajes de correo electrónico
El sistema envía mensajes de correo electrónico al administrador y a los usuarios cuando se subscriben o se generan alertas. Estos mensajes no se encuentran en los ficheros de internacionalización descritos antes, sino que los debemos modificar en el directorio "config/emails". En este caso no podemos tener ficheros diferentes según idiomas.
4 Creación de comunidades y de colecciones
DSpace estructura los repositorios en comunidades y colecciones dónde las comunidades contienen sub-comunidades y/o colecciones y las colecciones contienen documentos.
La definición de estas secciones jerárquicas se puede hacer desde la interfaz de administración del sistema <http://web-address-tono-my-dspace/dspace-admin>:
Il·lustración 2. Comunidades y colecciones
5 Gestión de usuarios
DSpace es un sistema de colaboración que requiere una buena planificación previa de las personas que interactuarán con él. Globalmente podemos hablar de un acceso público, que no requiere ningún registro y permite la consulta de las colecciones y documentos públicos, y un acceso registrado, que permite la consulta de colecciones restringidas así como interactuar con el sistema para gestionar los documentos depositados.
Los usuarios pueden crearse de diferentes maneras:
- Un usuario puede darse de alta directamente desde la opción "Mi DSpace" que se encuentra en la barra lateral izquierda de la página principal. El sistema envía un correo electrónico de verificación antes de permitir llenar el formulario de alta. En este caso el usuario es asignado a un grupo genérico de usuarios y se le permite suscribirse a las colecciones, con la finalidad de recibir actualizaciones de nuevos ítems por correo electrónico.
- El administrador del sistema <http://web-address-tono-my-dspace/dspace-admin> puede añadir usuarios manualmente desde la opción que se encuentra al menú de administración.
- El sistema permite validar los usuarios con un directorio LDAP o con certificados digitales.
Una vez creados, el administrador del sistema puede asignarlos a grupos y a cada uno de estos grupos se los pueden asignar privilegios (lectura, escritura, añadir, borrar y administrar) por comunidades, colecciones o ítems concretos. Las combinaciones posibles son muchas; difícilmente se querrá asignar privilegios concretos a un documento y normalmente lo que se hace es crear un grupo por comunidad o colección.
6 Representación de la información (metadatos)
Por defecto, DSpace está configurado con el esquema de metadatos Dublin Core, pero quizás, según los documentos que queramos depositar, nos será muy útil disponer de otros esquemas para definirlos mejor (PRISM, MODS, METS, etc.). Así, por ejemplo, en el caso de artículos de revista o actas de congresos, puede ser útil registrar los datos bibliográficos (como por ejemplo el volumen, número, páginas, ISSN o DOI) que encontramos en PRISM pero no en DC. Esto se puede hacer desde la interfaz Web, entrando como administrador <http://web-address-tono-my-dspace/dspace-admin> y escogiendo la opción "Registrar metadatos".
Ilustración 3. Esquema de registro de metadatos
Una vez incorporado el nuevo esquema se hace clic sobre el "Namespace" y se añaden los campos de los metadatos correspondientes.
Ilustración 4. Registro de campo de metadatos
7 Vocabularios controlados
De serie DSpace tiene desactivada la funcionalidad del uso de vocabularios controlados en el proceso de descripción de los documentos, puesto que no es compatible con las normas de accesibilidad establecidas por la WAI (Web Accessibility Initiative). A pesar de todo, si se quiere emplear esta opción sólo hace falta activar la línea "webui.controlledvocabulary.enable = true" del fichero "dspace.cfg".
En Dspace los vocabularios controlados consisten básicamente en una lista de términos ordenados jerárquicamente y orientados a la clasificación temática de los documentos. Por ejemplo:
Tesauro de biblioteconomía
Archivística
Biblioteconomía
Acceso al documento bibliotecario
Automatización de bibliotecas
Ciencias y técnicas auxiliares
Estudios métricos de la información
Fuentes de informaciónLa asignación de un término a un recurso supone su vinculación a la agregación de todos los términos jerárquicamente superiores. Por ejemplo, si se asignara como materia el término "Automatización de bibliotecas", el documento quedaría vinculado a la agregación "Tesauro de biblioteconomía::Biblioteconomía::Automatitzación de bibliotecas".
Estos vocabularios tienen una estructura XML y, de serie, DSpace sólo tiene licencia para redistribuir los vocabularios Norwegian Science Index y Swedish Research Subject Categories. Ahora bien, el administrador del sistema puede crear otros vocabularios con el apoyo de una plantilla que se encuentra en el fichero "controlledvocabulary.xsd". El resultado final es un fichero XML como el que se muestra en la figura:
Ilustración 5. Fichero tesaurobd.xml
Este fichero hace falta copiarlo en el directorio "config/controlled-vocabularies/", editar el fichero "config/input-forms.xml", buscar el campo al que se quiere asociar (por ejemplo el Subject) y añadir "<vocabulary>tesaurobd</vocabulary>".
Como resultado, cuando un usuario deposita y describe un documento, en el campo "Materia" el programa le permite escoger el término del tesauro.
Ilustración 6. Visualización del tesauro en el proceso de descripción
8 Publicación
Como en la mayoría de los repositorios institucionales en Dspace el proceso de publicación de documentos corre en gran parte a cargo de los mismos autores. Es el propio autor el que cuelga el documento en el repositorio, el que lo describe (metadatos) y el que le asigna unos derechos de explotación. Opcionalmente, el programa permite establecer un paso previo a la publicación definitiva consistente en la revisión del documento y de la descripción hecha por parte de otros miembros de la comunidad.
En definitiva, el proceso de publicación de un documento en Dspace seguiría los pasos siguientes:
- Identificación del autor.
- Elección de la colección en la cual quiere publicar el documento.
- Descripción del documento (metadatos).
- Asignación del fichero correspondiente al documento (preferentemente en formatos abiertos como PDF, XML, TXT, HTM, HTML, JPG, etc.).
- Elección de la licencia de derechos de autor (habitualmente Creative Commons).
- Revisión del documento y de la descripción por parte de otros miembros (opcional).
- Publicación definitiva del documento.
Por defecto, los formularios que se utilizan para describir los documentos son iguales para todas las colecciones y están basados en el esquema Dublin Core. Sin embargo, editando el fichero "input-forms.xml" se pueden crear formularios específicos para colecciones, así como asignar un nuevo esquema de metadatos para la descripción del recurso (ver 6 Representación de la información (metadatos)). También desde este fichero se puede especificar en cada campo si es o no obligatorio, si es o no repetible y asignarle un lenguaje controlado para la introducción de los valores (ver 7 Vocabularios controlados).
9 Flujo de trabajo
El proceso de depósito de un documento en DSpace contempla un flujo de trabajo con un máximo de tres pasos. Cada paso puede estar asignado a una persona o a un grupo de personas que reciben una notificación cuando un documento llega a este paso. Si no está asignado a nadie este paso se omite.
Cuando una persona de un grupo del flujo de trabajo recibe el documento puede rechazarlo, modificar los metadatos y/o aceptarlo, con lo cual pasará automáticamente al siguiente paso y en última instancia, el documento será publicado en el repositorio.
Ilustración 7. Flujo de trabajo
Fuente: <http://www.dspace.org/index.php?option=com_content&task=view&id=149#ingest>
10 Consulta
DSpace permite configurar los criterios de tres maneras diferentes de hacer búsquedas disponibles, por defecto, en el programa: navegación, consulta simple y consulta avanzada.
10.1 Navegación
Ilustración 8. Navegación
El programa permite navegar alfabéticamente por los elementos siguientes: "Comunidades y colecciones", "Título", "Autor", "Materias" y "Fecha de publicación" (en este caso por orden cronológico inverso). Si resulta necesario se pueden parametrizar estos elementos de navegación en el fichero "dspace.cfg".
10.2 Consulta simple
Ilustración 9. Consulta simple
Por defecto, DSapce puede buscar de manera simultánea en los campos "Título", "Autor", "Materia", "Resumen", "Número de clasificación interna" (series), "Patrocinador",3 "Identificador" (ISBN, ISSN, URI, etc.) y "Lengua". Desde el fichero "dspace.cfg" se puede modificar este criterio añadiendo y/o borrando campos de busca.
En caso de buscar por más de un término DSpace emplea por defecto el operador OR. Este criterio también se puede modificar desde el fichero "dspace.cfg" dónde se puede escoger un nuevo operador de búsqueda (AND o NOT).
Por último, mencionar que también se puede configurar el sistema para que indexe a texto completo el contenido de los documentos publicados. Para esto hace falta parametrizar el directorio "/bin/filter-media" (donde se definen los formatos susceptibles de ser indexados)4 y el fichero "dspace.cfg". Una vez activada esta funcionalidad la búsqueda por texto completo se podrá realizar tanto desde la casilla única de la consulta simple como desde la opción "Palabra clave" de la consulta avanzada.
10.3 Consulta avanzada
Ilustración 10. Consulta adelantada
En este caso, desde el fichero "dspace.cfg"se pueden añadir nuevos campos de búsqueda o borrar algunos de los ya existentes.
11 Visualización de resultados y de registros
11.1 Visualización de resultados
Ilustración 11. Visualización de resultados
Una vez realizada la consulta los resultados se muestran, por defecto, con los campos "Fecha de publicación", "Título" y "Autores". Desde el fichero "dspace.cfg" se pueden añadir nuevos campos, borrar los ya existentes o mover su posición dentro de la tabla.
11.2 Visualización de registros
Ilustración 12. Visualización de registros
La visualización de los registros también tiene un formato por defecto y, también como en el caso anterior, editando el fichero "dspace.cfg" se puede añadir/borrar campos, cambiar el nombre de las etiquetas y modificar el orden de presentación.
En el supuesto de que nuestra institución disponga del software SFX y activamos en el "dspace.cfg" la dirección de nuestro servidor de enlaces (por ejemplo "sfx.server.url = http://sfx.ub.edu/ub?") el sistema mostrará un icono que permite la localización del documento, aunque normalmente ya tendremos una copia archivada en nuestro repositorio.
Ilustración 13. Visualización del icono SFX
12 Difusión
Además de la difusión a través de la propia interfaz de consulta, DSpace dispone de tres herramientas más para dar a conocer los documentos depositados:
12.1 Alertas
Permite recibir por correo electrónico una notificación con los registros que se han dado de alta en una determinada colección. Para activar esta opción solamente hace falta ir a la página de la colección y subscribirse.
Il·lustración 14. Alertas
12.2 Sindicación de contenidos RSS
Mediante la configuración del fichero "dspace.cfg" se puede habilitar la funcionalidad de difundir mediante RSS las actualizaciones que se hacen en una determinada comunidad y/o colección ("webui.feed.enable = true"). El programa permite parametrizar, entre otros elementos, el número máximo de noticias visualizadas, el formato RSS (se recomienda 1.0 y o/2.0) y los campos que se mostrarán.
Il·lustración 15. RSS
12.3 OAI
Dspace soporta Open Archives Initiatives Protocol for Metadata Harvesting (OAI-PMH) como proveedor de datos. De este modo los registros están disponibles para que los metadatos asociados a los objetos puedan ser recopilados (harvesting) por todo tipo de recolectores como por ejemplo el servicio ROAI del Ministerio de Cultura o el portal OAIster de la University of Michigan.
Para habilitar esta funcionalidad sólo hace falta copiar el fichero "dspace-oai.war" en el directorio "[Tomcat]/webapps/". Una vez hecho esto, es conveniente registrar la URL base <http://web-address-tono-my-dspace/dspace-oai> en el mayor número de servicios de recolección posible (OaiInstallations–DSpace Wiki, Open Archives Initiative-Data Provider Registration, Directory of Open Access Repositories–OpenDOAR, Registry of Open Access Repositories (ROAR), etc.).
13 Preservación
Además de la difusión de la información, uno de los objetivos principales de los repositorios es la preservación de sus contenidos.
En primer lugar hace falta verificar que el contenido de los ficheros no se altere a nivel de bits, ya sea por corrupción física de los soportes magnéticos o por virus informáticos. En este aspecto, DSpace utiliza una aplicación denominada Checksum Checker que se ejecuta dentro de una tarea programada (cada día, por ejemplo) con objeto de detectar cambios en los ficheros.
Un segundo aspecto de la preservación hace referencia al hecho de que aunque los ficheros permanezcan inalterados en el tiempo, determinados formatos, en especial los propietarios de poca difusión, pueden ser inaccesibles con el paso del tiempo. A tal efecto hace falta identificar claramente los formatos de los documentos, establecer herramientas de conversión y otros aspectos en continuo estudio, tanto por la comunidad de usuarios DSpace como por especialistas en el tema.
14 Estadísticas
El paquete de estadísticas que ofrece DSpace por defecto no es demasiado completo: datos sobre la visualización de las páginas, búsquedas realizadas, conexiones, errores, etc. Para habilitar esta funcionalidad hace falta retocar algunas líneas del fichero dstat.cfg que es el archivo del programa que permite configurar las estadísticas. Se puede encontrar información de los cambios a hacer en <http://wiki.dspace.org/index.php/Use_DSpace_Statistics>.
Si en el fichero "dspace.cfg" se define que los informes estadísticos sean accesibles públicamente ("report.public = true"), estos se podran consultar desde la dirección <http://web-address-tono-my-dspace/statistics>, como por ejemplo en el repositorio de University of Oregon Libraries.
Si lo que se quiere es obtener otro tipo de datos estadísticos (por ejemplo, sobre la descarga de ficheros) hace falta recurrir al uso de herramientas complementarias como Webalizer, tal y como ha hecho la Università degli Studi di Parma, o el paquete Tasmania Statistics empleado por la Universidad de Alicante.
Ilustración 16. Estadísticas de DSpaceUnipr elaboradas con Webalizer
Ilustración 17. Estadísticas de DESFILE elaboradas con Tsamania Statistics
15 Otros aspectos de la personalización
Podemos encontrar una amplia información sobre otros aspectos más específicos de la personalización del programa en el documento DSpace how-to guide (Donohue; Phillips; Salo: 2007), del que hay una traducción al castellano efectuada por la Universidad de León y consultable en <http://sod.upc.es/gude/images/f/f8/HowTov2.pdf>.
Bibliografía
Donohue, Tim; Phillips, Scott; Salo, Dorothea (2007). DSpace how-to Guide: tips and tricks for managing common DSpace chores: now serving DSpace 1.4.2 and Manakin 1.1. <http://hdl.handle.net/2142/1043 >. [Consulta: 25/03/2008]. Existe una traducción al castellano realizada por Luis Tijera (Universidad de León) disponible en <http://sod.upc.es/gude/images/f/f8/HowTov2.pdf >. [Consulta: 25/03/2008].
DSpace Wilki! <http://wiki.dspace.org/ >. [Consulta: 25/03/2008].
DSpace.org <http://www.dspace.org >. [Consulta: 25/03/2008].
Grupo de Usuarios de DSpace de España. GUDE: Grupo de Usuarios de DSpace de España <http://sod.upc.es/gude/index.php/Portada >. [Consulta: 25/03/2008].
METS: Metadata Enconding & Transmission Standard. <http://www.loc.gov/standards/mets/ >.[Consulta: 25/03/2008].
MODS: Metadata Object Description Schema. <http://www.loc.gov/standards/mods/ >. [Consulta: 25/03/2008].
PRISM: Publishing Requirements for Industry Standard Metadata. <http://www.prismstandard.org/>. [Consulta: 25/03/2008].
Notas
1 El Grupo de Usuarios DSpace de España mantiene una lista de casos de éxito <http://sod.upc.es/gude/index.php/Instalaciones_de_DSpace>. [Consulta: 25/03/2008].
2 Como manual genérico vale la ayuda (DSpace help) del mismo programa, muy clara y bien estructurada.
3 Por ejemplo, patrocinadores de proyectos de búsqueda.
4 Únicamente válido para los formatos Adobe PDF (basado en texto o OCRed), Microsoft Word, texto plano y HTML.