[Versió catalana], [English version]
Helmut Nagy, Tassilo Pellegrini, Thomas Schandl, Andreas Blumauer
Semantic Web Company GmbH
Viena, Austria
h.nagy@semantic-web.at, t.pellegrini@semanticweb.at, t.schandl@semantic-web.at, a.blumauer@semantic-web.at
Christian Mader
Faculty of Computer Science
Universität Wien
Viena, Austria
Resumen [Abstract] [Resum]
Los tesauros han sido una herramienta importante de recuperación de la información durante décadas, y todavía lo son. Tienen el potencial de mejorar considerablemente la gestión de la información de grandes organizaciones, pero todavía están infrautilizados respecto de los sistemas de gestión de contenidos, los motores de búsqueda o los sistemas de etiquetado. En este artículo queremos describir estos casos de uso para tesauros, cómo se tienen que estructurar los tesauros para ajustarse a los diferentes casos de uso y como las tecnologías web semánticas del sistema de gestión de tesauros PoolParty pueden ayudar a realizarlos.
El paquete PoolParty se compone de un sistema web de gestión de tesauros, un extractor de conceptos y un servidor de búsquedas semánticas, que está creado totalmente sobre la base de los estándares web semánticos del W3C.
1 Introducción
PoolParty Thesaurus Manager (PPTM) es una herramienta para crear y mantener tesauros multilingües SKOS (simple knowledge organization system), con el objetivo de que sean fáciles de utilizar por personas sin conocimientos web semánticos o sin capacidades técnicas especiales.
PoolParty Extractor (PPX) ofrece una API (interfaz de programa de aplicación) que proporciona algoritmos de explotación de texto basándose en modelos de conocimiento semánticos. Mediante PoolParty Extractor se pueden analizar documentos de manera automatizada, extraer las frases significativas, las categorías de entidades mencionadas y otros metadatos. Se pueden asignar diferentes esquemas de datos o metadatos a un tesauro SKOS que se utilice como modelo de conocimiento semántico unificado.
PoolParty Search Server and Semantic Indexer (PPS) es una aplicación de búsqueda basada en tecnologías semánticas. Las tecnologías semánticas en un motor de búsqueda proporcionan una mejor comprensión de lo que están buscando los usuarios y conllevan unos mejores resultados de búsqueda en comparación con los resultados que se pueden obtener con motores de búsqueda convencionales.
Antes de presentar el paquete PoolParty de manera detallada, analizaremos los supuestos conceptuales sobre la interacción entre las especificidades estructurales de un tesauro y la calidad de un resultado de aplicación basado en tesauros. Esto viene motivado por el hecho de que prácticamente no hay bibliografía que hable sobre los requisitos de modelado de tesauros en relación con las siguientes áreas de aplicación específicas de tesauros: clasificación, indización, autocompletado, ampliación de consultas, recomendaciones y glosarios. A partir de estas áreas de aplicación, compararemos los atributos estructurales de SKOS y discutiremos la relevancia funcional. Tener en cuenta estos supuestos puede ayudar considerablemente al modelado de tesauros orientados a aplicaciones.
2 Organización del conocimiento con tesauros SKOS
Los tesauros se pueden utilizar en diferentes escenarios de aplicación, como el autocompletado, la búsqueda y navegación facetadas, las recomendaciones o los glosarios. En este sentido, los tesauros normalmente desarrollan la función de armonizar terminologías, controlar vocabularios o ayudar al usuario a la hora de navegar por un espacio de conceptos (Soergel, 2002). A pesar de la larga tradición de investigación en el ámbito del aseguramiento de la calidad de los tesauros, hasta ahora se ha prestado poca atención a la interacción entre las especificidades estructurales de un tesauro y la calidad de los resultados en relación con los diferentes escenarios de aplicación de un tesauro. Si bien hay varias iniciativas que se centran en la calidad de los tesauros y de los metadatos en términos de expresividad y de solidez estructural (Kless, 2010; Stvilia, 2007; Park, 2006), los estándares ISO actuales (ISO 2788, 1986; ISO 5964, 1985; ANSI/NISO Z39.19, 2005; ISO 25964-1, 2011) y la bibliografía básica sobre tesauros y sistemas de organización (Broughton, 2006; Gaus, 2005), estos enfoques no tienen en cuenta la aplicación prevista y, por tanto, tienen una relevancia limitada para el modelado de tesauros aplicados.
Este artículo analiza las especificidades estructurales de los tesauros y la relevancia que tienen para mejorar la calidad final de una aplicación específica. Se basa en los supuestos que los atributos estructurales de un tesauro tienen una relevancia diferente para escenarios de aplicación específicos y que el principio de modelado de un tesauro tiene un impacto directo en la calidad de una aplicación basada en tesauros.
La siguiente sección proporciona una visión de conjunto sobre las obras relacionadas en el ámbito de tesauros para aplicaciones web. Este análisis comienza con una visión general sobre los criterios de calidad de los tesauros, pero luego aporta una visión específica sobre la recomendación SKOS del W3C, que se ha aceptado ampliamente como modelo de referencia para aplicaciones basadas en tesauros en la web (semántica). A continuación, recopilamos y definimos los escenarios básicos de aplicación de los tesauros, aportamos una visión de conjunto sobre los atributos estructurales proporcionados por SKOS y presentamos nuestro enfoque sobre cómo estos atributos influyen en los diferentes escenarios de aplicación. En la siguiente sección se discuten las implicaciones para el desarrollo de tesauros en diferentes escenarios de aplicación.
3 Especificidades estructurales de los tesauros para aplicaciones basadas en SKOS
Desde su primera publicación en 2004, la recomendación SKOS (simple knowledge organization system) del W3C ha sido utilizada por diversas aplicaciones web semánticas como modelo ligero para permitir la interoperabilidad a escala terminológica y esquemática (véase Avesani, 2005; Kules, 2006; Sah, 2007; Abel, 2008; Davies, 2008; Tordai, 2009; Golub, 2009; Echarte, 2009). Según Sacco (2010), "SKOS provides a vocabulary to define the basic structure and content of semi-formal knowledge organizations such as thesauri, classification schemes, subject heading lists, taxonomies, folksonomies and other similar controlled vocabularies. Since it is designed on RDF, SKOS allows these semi-structured concepts to be published on the Web, linked to data available on the Web and also incorporated with other concept schemes". Su complejidad ontológica (semántica), comparablemente reducida, convierte SKOS en un estándar ideal para el uso con fines de organización del conocimiento colaborativo, especialmente en el contexto de esquemas de clasificación generados socialmente (véase Orlandi, 2010; Waitelonis, 2010; Sah, 2010). Con la iniciativa Linked Data que ha ido ganando terreno durante los últimos años, SKOS ha emergido como "estándar" común (actualmente, es una recomendación del W3C) para expresar sistemas de organización de conocimiento (KOS), como tesauros y taxonomías. SKOS tiene un enfoque basado en conceptos, según el cual un concepto es "una idea o noción; una unidad de pensamiento" (tal como se define en la definición de SKOS) que se puede representar mediante un URI (identificador uniforme de recursos). Por otro lado, el enfoque basado en términos propuesto, por ejemplo en los estándares ISO2788 e ISO5964 y otros más antiguos, trata las entradas léxicas (términos) como las unidades más básicas. Se puede encontrar una comparación detallada de ambos enfoques en el apéndice del manual de SKOS (Isaac, 2008). La mayoría de estándares basados en términos (ISO 2788 1986, ISO 5964 1985) se desarrollaron en la era anterior a la web y actualmente se están revisando en el nuevo estándar ISO de próxima aparición (ISO 25964-1), en que el enfoque basado en términos también se ha modificado hacia un enfoque basado en conceptos: "The traditional aim of a thesaurus is to guide the indexer and the searcher to choose the same term for the same concept.The concepts are represented by terms, and for each concept, one of the possible representations is selected as the preferred term." (Sacco, 2010).
Otra señal de la importancia de tener controlados los vocabularios en formatos web, como SKOS, es que cada vez más y más vocabularios ofrecen versiones SKOS de sus vocabularios, junto con los formatos clásicos proporcionados hasta ahora. Se han hecho transformaciones a los tesauros Agrovoc (Morshed, 2010), Eurovoc (Rodríguez, 2008), GEMET (Miles, 2004) y STW Thesaurus for Economic (Neubert, 2009), pero también a otros tipos de vocabularios controlados, como encabezamientos de materia. A pesar de la amplia aceptación de SKOS, la investigación sobre la interacción entre el paradigma de modelado SKOS y la calidad del resultado de la aplicación es comparativamente escasa.
Wang et al. (2009) han hecho un experimento sobre la precisión y la relevancia de las recomendaciones gráficas automáticas en relación con las propiedades semánticas subyacentes. Han llegado a la conclusión de que los recursos relacionados jerárquicamente utilizando propiedades más amplias y limitadas de SKOS proporcionaban el máximo número de recomendaciones al caso de uso descrito. Y, recientemente, Kless y Milton (2010) han desarrollado un constructo de medida para evaluar la calidad intrínseca de los tesauros basándose principalmente en el marco conceptual de calidad de la información desarrollado por Stvilia et al. (2007) y los constructos de medida definidos por Soergel (1994).
Nos centraremos en los tesauros como tipo de vocabulario controlado que ofrece el máximo nivel de expresividad y, concretamente, en un modelo de tesauro basado en conceptos. A continuación, intentaremos demostrar cómo los diferentes escenarios de aplicación exigen especificidades diferentes de un tesauro.
4 Escenarios de aplicación basados en tesauros. Una visión de conjunto
"Today's thesauri are mostly electronic tools, having moved on from the paper-based era when thesaurus standards were first developed. They are built and maintained with the suppor t of software and need to integrate with other software, such as search engines and content management systems. [...] Whereas in the past thesauri were designed for information professionals trained in indexing and searching, today there is a demand for vocabularies that untrained users will find to be intuitive, and for vocabularies that enable inferencing by machines" (ISO 25964-1, 2011). Esta introducción al nuevo estándar ISO ya pone de manifiesto que el ámbito y el uso de los tesauros han experimentado modificaciones como consecuencia del cambio de una era anterior a la web a la era de la web. Broughton (2006) afirma que los principales escenarios de aplicación para tesauros son la indización, la provisión de metadatos, la búsqueda (formulación y ampliación de consultas) y la navegación. Soergel (2002) define casos de uso para tesauros en el contexto de las bibliotecas digitales. Según su planteamiento, fomentan el aprendizaje y asimilación de información, ayudan a los investigadores y profesionales a aclarar problemas, permiten la recuperación de la información (las búsquedas, la visualización de información relevante, la indización, y la combinación o acceso a múltiples bases de datos) y favorecen el procesamiento de documentos después de la recuperación. En cuanto a las aplicaciones web semánticas, son especialmente importantes los aspectos de recuperación de la información y procesamiento de documentos basándose en vocabularios controlados. En relación con los casos de uso planteados por Soergel (2002) y Broughton (2006), proporcionamos una breve descripción de la aplicabilidad práctica de los tesauros para los siguientes escenarios de aplicación.
Filtrado y clasificación
Desde la perspectiva del usuario final, la capacidad de navegar por las clasificaciones es útil para obtener una impresión sobre el grado de detalle y el tipo de datos almacenados en un sistema de información. De esta manera, el usuario puede realizar búsquedas en el sistema, aunque no se puedan o no se deban formular términos de búsqueda. Este caso de uso se ha identificado como "browsing the classification structure", según Soergel (2002). Broughton (2006) también afirma que "the thesaurus is often used as an aid to navigation or browsing through the systematic display". Se trata de ejemplos que utilizan la "estructura de clasificación" desde la perspectiva del usuario, pero esta estructura también se puede utilizar para clasificar automáticamente documentos o proporcionar una estructura de filtro (facetas) para limitar los resultados de búsqueda.
Indización
Broughton (2006) afirma: "As it was first developed, the thesaurus was an indexing tool for large technical document collections." Probablemente, la indización sea el escenario de aplicación más frecuente para los tesauros. Por ejemplo, se da una definición en NISO/ANSI Z39.19 (2005): "Indexing is the process of assigning preferred terms or headings to describe the concepts and other metadata associated with a content object."
Autocompletado
El autocompletado permite la formulación estructurada y contextual de la cadena de consulta de un usuario mediante la asignación de partes de la cadena de consulta en descriptores o múltiples expresiones de lenguaje natural dentro de una base de conocimiento (Cafarella, 2011). Un tesauro puede permitir una aplicación que proporcione un vocabulario controlado de términos que se sugiere para la entrada, por ejemplo, en un campo de búsqueda o como entrada en un formulario.
Formulación y ampliación de consultas
La búsqueda moderada proporciona ayuda basada en el conocimiento a los usuarios finales cuando exploran verticalmente un dominio o cuando ejercen la búsqueda federada. Esta aplicación ha resultado especialmente útil combinada con la búsqueda de texto libre para permitir la navegación estructurada y la formulación de consultas complejas. Broughton (2006) distingue entre formulación y ampliación de consultas: la primera significa que se proporcionan términos de búsqueda adicionales al usuario desde el tesauro y que se pueden añadir a la búsqueda en la interfaz, mientras que la segunda significa que la búsqueda se enriquece con la estructura del tesauro, automáticamente con el motor de búsqueda, sin interacción del usuario.
Recomendación
Al navegar (o buscar) por un sistema de información, los elementos recomendados ayudan a ampliar la visión del usuario sobre los datos incluidos. A menudo los términos de búsqueda se formulan mal o la estructura existente no se ajusta a las necesidades de navegación del usuario. Un tesauro puede proporcionar este tipo de recomendaciones mediante el modelo de conocimiento que se crea alrededor de sus conceptos utilizando sinónimos y relaciones para recomendar contenido y ampliar consultas. Burke (2000) proporciona ejemplos y experimentos con sistemas de recomendación basados en conocimiento. No hemos podido encontrar ninguna relación directa con el uso de los tesauros para las recomendaciones, pero consideramos que este escenario de aplicación queda cubierto implícitamente (o como mínimo es una extensión) por los escenarios mencionados anteriormente.
Glosario
Los glosarios ayudan a los usuarios de un sistema de información a interpretar los datos incluidos. Pueden ser el punto inicial para acceder o conocer un dominio y también un punto de referencia donde se definan un dominio o los conceptos de un dominio. Soergel (2002) define el "support learning and assimilating information" y el "support meaningful information display" como funciones de un tesauro, y consideramos que los glosarios son la herramienta adecuada para estas funciones.
5 Atributos estructurales diferentes para tesauros específicos de aplicación
La estructura de un tesauro influye en la calidad del resultado de la aplicación. En relación con la obra de Klees y Milton (2010, p. 315), que definieron criterios de calidad generales (intrínsecos) para tesauros, discutimos la relevancia de los elementos estructurales de SKOS para los escenarios de aplicación definidos anteriormente. La tabla 1 muestra una selección de elementos estructurales relacionados con SKOS.
Componentes de los tesauros Definición Atributos SKOS correspondientes Elementos básicos Conceptos Un concepto indica "una unidad de pensamiento, una idea o una noción sobre algo". Dentro de SKOS, un concepto es una entidad abstracta (clase) que existe independientemente de sus etiquetas o significantes. skos:concept Etiquetas Dentro de SKOS, las etiquetas significan o identifican un concepto con una expresión del lenguaje natural. Un concepto se puede denotar mediante diversas etiquetas (dando expresión a los sinónimos), mientras que una etiqueta puede significar varios conceptos (dando expresión a los homónimos). skos:prefLabel, skos:altLabel, skos:hiddenLabel Elementos estructurales Relaciones de equivalencia Con el uso de SKOS, los sinónimos se pueden expresar enlazando una etiqueta favorita (prefLabel) y una etiqueta alternativa (altLabel) o una etiqueta oculta (hiddenLabel) con el mismo concepto. skos:prefLabel -> skos:altLabel skos:prefLabel -> skos:hiddenLabel Relaciones jerárquicas Dentro del mismo esquema conceptual, las relaciones jerárquicas entre conceptos se pueden definir en SKOS utilizando propiedades más amplias y limitadas. Los conceptos de diferentes esquemas conceptuales se han de colocar en las relaciones jerárquicas mediante los atributos broadMatch y narrowMatch. skos:broader, skos:narrower, skos:broadMatch, skos:narrowMatch Relaciones asociativas Se trata de relaciones entre dos conceptos que están "relacionados" entre sí, sin consignar ningún tipo de generalización. SKOS sirve para ello mediante la definición de las propiedades relacionadas y relatedMatch. skos:related Homónimos Como cada "unidad de pensamiento" se expresa como concepto en SKOS, los homónimos son simplemente etiquetas idénticas (es decir, tienen el mismo valor de cadena) enlazadas con el concepto correspondiente. skos:prefLabel = skos:prefLabel Polijerarquías SKOS no limita las definiciones de jerarquía. Cada concepto se puede enlazar con un número arbitrario de conceptos más amplios o limitados. skos:concept tiene más de una relación skos:broader; múltiples conceptos están enlazados al mismo concepto mediante skos:narrower skos:broaderTransitive Profundidad jerárquica La profundidad de un tesauro SKOS se puede expresar mediante el número de pasos transitivos más amplios o limitados originados de (o que conducen a) un skos:concept que se ha atribuido para ser un concepto superior (skos:hasTopConcept, skos:topConceptOf). skos:broaderTransitive, skos:narrowerTransitive Elementos de documentación Definiciones Para esclarecer el significado de un concepto, SKOS proporciona la definición, scopeNote y propiedades de ejemplo. skos:definition, skos:scopeNote, skos:example Notas Como documentación general, SKOS define las propiedades de las notas (nota editorial, de cambio e historial). skos:editorialNote, skos:changeNote, skos:historyNote Tabla 1. Elementos estructurales de los tesauros
Hay varios elementos estructurales disponibles en SKOS que no se tienen en cuenta en este artículo. Para obtener una cobertura exhaustiva, véase la documentación de referencia sobre SKOS (Miles, 2008) y el manual de SKOS (Isaac, 2008).
A continuación, intentamos demostrar cómo las diferentes áreas de aplicación ponen énfasis en diferentes elementos estructurales dentro de un tesauro. Así, la tabla 2 aporta una visión de conjunto de las diferentes áreas de aplicación en relación con los requisitos de los atributos estructurales creados para los tipos de aplicaciones.
Clasificación o filtrado Indexación Autocompletado Formulación o ampliación de consultas Recomendación Glosario Conceptos Cantidad restringida por el ámbito de la aplicación Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Etiquetas Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Cantidad restringida por el ámbito del dominio Relaciones de equivalencia Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) relevantes Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) especialmente relevantes Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) especialmente relevantes Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) especialmente relevantes Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) especialmente relevantes Etiqueta alternativa (altLabel) especialmente relevante Homónimos Aumento de la complejidad Tienen que ser calificados Tienen que ser calificados Tienen que ser calificados Tienen que ser calificados Tienen que ser calificados Relaciones jerárquicas Estructura clara importante No relevante No relevante No relevante Relevante en relación con procesos algorítmicos Estructura clara importante para la visualización sistemática de tesauros, pero no para la visualización alfabética Polijerarquías Es necesario evitarlo Permitido Tienen que ser calificadas No relevante Permitido Permitido Profundidad jerárquica Profundidad restringida por el ámbito de la aplicación No relevante No relevante No relevante No relevante Se necesitan niveles para estructurar el dominio. Importante para la visualización sistemática de tesauros no para la visualización alfabética. Relaciones asociativas No relevante No relevante No relevante Relevante para ampliar el contexto válido Relevante en relación con procesos algorítmicos Relaciones: importante para la visualización sistemática de tesauros no para la visualización alfabética Definiciones No relevante No relevante No relevante No relevante No relevante Relevante Notas No relevante No relevante No relevante No relevante No relevante Relevante Tabla 2. Requisitos estructurales para diferentes escenarios de aplicación
Si la estructura del tesauro proporciona información necesaria para procesos algorítmicos, la importancia de las relaciones jerárquicas y asociativas varía no sólo en función del área de aplicación, sino también de la metodología aplicada para servir una aplicación específica.
A continuación, abordaremos más detalladamente los requisitos estructurales definidos para los diferentes escenarios de aplicación.
6 Análisis de los aspectos estructurales
Filtrado o clasificación
Un tesauro se puede utilizar para filtrar, clasificar o navegar por el contenido por categorías. Como las curvas de aprendizaje para las clasificaciones complejas son pronunciadas, es preferible una jerarquía estática con un ámbito definido (número limitado de conceptos) que una de dinámica. Por tanto, la cantidad de etiquetas y de conceptos válidos está restringida por la aplicación. Las relaciones de equivalencia son relevantes para la categorización, ya que aumentan la consistencia semántica de un tesauro, mientras que las polijerarquías y los homónimos deberían de evitarse ya que incrementan la complejidad. La profundidad jerárquica está limitada por la aplicación. En función de la completitud del vocabulario, la información adicional sobre las materias se puede presentar como parte de un glosario. Las relaciones asociativas, las definiciones y las notas no son relevantes para la clasificación.
Indización
Un tesauro puede mejorar las funcionalidades estándar de indización para documentos (estadísticas o lingüísticas) proporcionando conocimiento del dominio para que la extracción dé mejores resultados de indización. Cuanto más elevada sea la especificidad de dominio de un tesauro, mejores serán los resultados de indización. Por tanto, el número de conceptos y de etiquetas dentro de un tesauro está limitado por el ámbito del dominio. Las relaciones de equivalencia son muy relevantes para indizar documentos, porque aumentan la capacidad de exploración léxica de un corpus de documentos, mientras que la relevancia de relaciones jerárquicas y asociativas no es pertinente para la indización, ya que principalmente tienen un papel en la recuperación de objetos de contenido indizado, que en nuestro caso queda cubierto en el escenario de recomendación. La indización irá acompañada de los enfoques estadísticos y lingüísticos para extraer términos. Esto también puede favorecer un enfoque de mantenimiento semiautomático del tesauro, proporcionando términos nuevos mediante la determinación de términos extraídos frecuentemente no encontrados en el tesauro y sugiriéndolos como conceptos nuevos.
Autocompletado
Un tesauro puede permitir funcionalidades de autocompletado, la normalización sintáctica de la entrada de texto libre mediante recomendaciones basadas en un análisis de cadenas desde el campo de entrada. El autocompletado no sólo ayuda al usuario a seleccionar términos existentes de una base de conocimiento predefinida (por ejemplo, un tesauro), sino que también le ayuda a obtener una visión de conjunto de los diferentes contextos en que un término cobra validez semántica. Mientras que el número de conceptos y etiquetas relevantes está limitado por el ámbito del dominio, las relaciones de equivalencia son uno de los elementos fundamentales dentro de las funcionalidades de autocompletado, ya que ayudan al usuario a desglosar un término de búsqueda arbitrario hasta el concepto correspondiente. En cambio, las relaciones jerárquicas y asociativas son de menor importancia para las funcionalidades de autocompletado, ya que la información sobre la profundidad jerárquica de un tesauro normalmente no proporciona información adicional para la construcción del término de búsqueda. Por otra parte, la información sobre las polijerarquías y los homónimos tiene una importancia mayor, ya que ayudan al usuario a definir el contexto en que el concepto seleccionado cobra validez.
Formulación y ampliación de consultas
Un tesauro como herramienta de búsqueda permite la formulación de consultas y la ampliación de consultas. Los términos de la consulta se pueden ampliar, limitar o traducir basándose en el corpus terminológico del tesauro y las relaciones semánticas correspondientes. En una búsqueda moderada, se utilizan etiquetas alternativas (relaciones de equivalencia) y conceptos relacionados (relaciones asociativas) para ampliar la consulta de búsqueda. Mientras que las relaciones de equivalencia son adecuadas para definir el punto léxico de entrada a un modelo de conocimiento, las relaciones asociativas ayudan a ampliar el contexto en que una consulta de búsqueda cobra validez. Las relaciones jerárquicas también se pueden utilizar para mostrar términos de búsqueda alternativos dentro de un contexto determinado (dependencia de la vía de acceso), pero normalmente tienen una importancia menor para la construcción de la consulta. Para una mejor navegación, los resultados se pueden ordenar según su clasificación o se pueden filtrar de acuerdo con facetas definidas como resultado de una clasificación previa.
Recomendación
Un tesauro puede proporcionar recomendaciones que pueden mejorar la recuperación de contenido indizado, las sugerencias de autocompletado o la formulación y ampliación de consultas mediante el uso del conocimiento de dominio incorporado al tesauro a través de las relaciones. Todos los tipos de relaciones son relevantes para proporcionar recomendaciones, pero especialmente las relaciones asociativas y las relaciones jerárquicas tienen un papel importante, porque se podrían utilizar para sugerir consultas de búsqueda alternativas o para ayudar a recuperar contenido que no esté directamente relacionado con los términos de búsqueda, sino relacionado con la materia de la búsqueda (por ejemplo, utilizar términos más amplios o hermanos en una jerarquía) o relacionado con el ámbito de la búsqueda (por ejemplo, utilizar términos relacionados).
Glosario
Los glosarios pueden ser beneficiosos para el usuario de varias maneras. Como el objetivo es describir completamente los conceptos de un dominio, todos los elementos estructurales definidos son relevantes. Un glosario debería proporcionar una visión de conjunto sistemática y completa de un dominio y, de este modo, podría servir de base de conocimiento o referencia acordada de terminología para ese dominio. Por tanto, esto implica la necesidad de aclarar el significado de los conceptos definidos en un tesauro mediante definiciones, ejemplos y notas sobre el ámbito. En este contexto, un glosario basado en tesauro se puede considerar una fuente de metadatos que, por ejemplo, se puede utilizar para proporcionar ayuda contextual a los sistemas de información.
7 Realizar estos casos de uso con PoolParty
Mediante PoolParty Thesaurus Manager, se pueden crear vocabularios controlados y tesauros basados en estándares del W3C. En su núcleo, PoolParty utiliza RDF para representar SKOS y otros vocabularios, como Dublin Core o FOAF. Por tanto, se utiliza un repositorio de datos (Triple Store) RDF como base tecnológica. Mediante el uso de tecnologías web como RDF y especialmente SKOS, los tesauros se pueden representar de una manera estandarizada. Si bien OWL ofrecería más posibilidades de crear modelos de conocimiento, se considera demasiado complejo para el trabajador medio de servicios de información.
En comparación con otros sistemas que todavía se basan en bases de datos relacionales, PoolParty está listo para consumir y publicar Linked Data (datos enlazados) desde el principio. Junto con la posibilidad de publicar cualquier tesauro basado en PoolParty a través de la interfaz de Linked Data, el sistema ofrece un punto final SPARQL para ejecutar consultas de cada proyecto de tesauro. Esta tecnología se puede utilizar para integrar un tesauro en otras plataformas (sitios wiki, CMS, etc.) o motores de búsqueda.
Gestión colaborativa de tesauro
En la era de la web, lo más habitual es que las tareas de ingeniería y de mantenimiento de los tesauros se lleven a cabo de manera colaborativa. PoolParty está totalmente basado en formato web; los administradores sólo necesitan un navegador web para ejecutar todas las operaciones CRUD típicas, como añadir nuevos conceptos o relaciones. Su interfaz intuitiva y basada en clics permite trabajar en los conceptos mediante la técnica de arrastrar y soltar, o el autocompletado de etiquetas de conceptos.
De forma predeterminada, PoolParty también publica una versión wiki HTML de sus tesauros, lo que ofrece una alternativa para navegar y editar conceptos, de modo que se puedan implicar más personas en el proceso de desarrollo de los tesauros. Mediante esta función cualquier persona puede tener acceso a un tesauro y, opcionalmente, también editar, añadir o borrar etiquetas de conceptos. Las funciones de búsqueda y autocompletado también están disponibles. El código HTML del sistema wiki también se enriquece con RDFa y, de esta manera, se exponen todos los metadatos RDF asociados a un concepto como datos enlazados, que pueden ser detectados por motores de búsqueda RDF y rastreadores.
Enlazar conceptos entre diferentes vocabularios controlados es otra forma flexible de crear tesauros en estructuras descentralizadas. Basándose en los principios de Linked Data, los tesauros pueden mantenerse en lugares diferentes, pero se pueden seguir conectando entre sí indicando que varios conceptos son similares o incluso idénticos.
Tecnologías
PoolParty está programado con Java y utiliza SAIL API3. Se puede utilizar con varios repositorios de datos, lo que permite flexibilidad en términos de rendimiento y escalabilidad.
La gestión del tesauro (visualización, creación y edición de conceptos SKOS y las relaciones correspondientes) se puede hacer en una interfaz AJAX basado en Yahoo User Interface (YUI). Alternativamente, la edición de etiquetas se puede hacer en una interfaz HTML de estilo wiki.
Para la extracción de frases clave de documentos, PoolParty utiliza PoolParty Extractor (PPX), que utiliza los tesauros SKOS para crear un modelo de extracción. Los documentos analizados se almacenan localmente y se indizan en Solr junto con los conceptos extraídos y los conceptos relacionados.
Gestión de tesauros y datos enlazados (abiertos y cerrados)
El aumento de Linked Data generado por el enorme crecimiento del movimiento Linked Open Data Cloud es un argumento importante para que muchas organizaciones publiquen sus propios datos, al menos parcialmente, como Linked Open Data. La interfaz Linked Data de PoolParty proporciona una manera fácil de gestionarlo, y a la vez ofrece opciones para personalizar el proceso de publicación. Como PoolParty no es sólo un sistema que sirva a las organizaciones gubernamentales, sino también a las empresas con soluciones de gestión de metadatos, los mecanismos Linked Data de PoolParty se pueden utilizar como tecnología de integración de datos también detrás de los cortafuegos corporativos.
PoolParty no sólo publica sus tesauros como Linked Open Data (adicionalmente, en un punto final SPARQL), sino que también consume LOD para ampliar los tesauros con información de fuentes LOD. Los conceptos de los tesauros se pueden enlazar, por ejemplo, con DBpedia mediante el servicio de búsqueda DBpedia, que toma la etiqueta de un concepto y devuelve posibles candidatos coincidentes. El usuario puede seleccionar el recurso DBpedia que coincida con el concepto de su tesauro y, de este modo, crear una relación de asignación SKOS entre el URI del concepto a PoolParty y el URI de DBpedia. Se puede utilizar el mismo enfoque para enlazar con otros tesauros SKOS disponibles como Linked Data.
También se pueden recuperar otros repositorios de la fuente de datos de destino, por ejemplo, el resumen de DBpedia se puede convertir en un SKOS: la definición y las coordenadas geográficas se pueden importar y utilizar para visualizar la ubicación de un concepto en el mapa, si es necesario. La información de la categoría de DBpedia también se puede utilizar para recuperar conceptos adicionales de esa categoría como hermanos del concepto en cuestión, para alimentar el tesauro.
Para generar tesauros "sembrados" para un determinado dominio, el equipo de PoolParty ha desarrollado un método para extraer automáticamente estas estructuras de DBpedia.
Gestión corporativa de vocabularios y metadatos PoolParty
PoolParty es un sistema corporativo preparado que ofrece una alta fiabilidad, usabilidad, rendimiento y mecanismos como la conmutación, lo que garantiza ciclos de trabajo suaves y protección contra la pérdida de datos. Funciona tanto sobre servidores Linux como Windows. Un proceso constante de control de la calidad alrededor del producto —incluida documentación de alta calidad— acompaña el desarrollo global de PoolParty. La gestión corporativa de vocabularios y metadatos está totalmente implementada y los estándares abiertos garantizan una elevada seguridad de la inversión. La integración de los tesauros PoolParty en sistemas corporativos se puede hacer basándose en API estándares.
PoolParty permite la importación de tesauros en formato SKOS (con serializaciones que incluyen RDF/XML, N-Triples o Turtle) o Zthes.
Explotación de texto y búsqueda semántica
PoolParty ofrece una variedad de opciones para facilitar la gestión de tesauros mediante la explotación de texto, así como soluciones para hacer posibles soluciones de búsquedas semánticas. PoolParty puede analizar diferentes formatos de texto como HTML, PDF o Word, y puede detectar términos relevantes dentro de un documento basándose en tesauros existentes o servirlos como nuevo término candidato para ampliar más un tesauro. Con PoolParty Thesaurus Management, los repositorios de documentos se pueden indizar y se pueden hacer búsquedas de forma semántica desde el principio.
La familia de productos PoolParty está formada por dos componentes más que, junto con la gestión de tesauros, constituyen la base para las soluciones corporativas de búsquedas semánticas.
Soluciones de búsquedas verticales: la familia de productos PoolParty
La familia de productos PoolParty está formada por tres componentes: PoolParty Thesaurus Management (PPTM), PoolParty Extractor (PPX) y PoolParty Semantic Search (PPSS). Combinados, estos elementos constituyen la base para soluciones de búsquedas semánticas verdaderas y búsquedas verticales. PoolParty puede indizar información no estructurada, semiestructurada y estructurada, y puede integrar diferentes fuentes basándose en un tesauro semántico.
PoolParty Semantic Search se entrega con una API de búsqueda completa, que se puede utilizar para la integración en plataformas corporativas existentes. La API permite el autocompletado categorizado, la búsqueda facetada, la búsqueda de texto completo y las ayudas a la búsqueda, que se basan en tesauros que representan el conocimiento de fondo del experto del dominio. PPSS puede gestionar millones de documentos, es muy rápido y está preparado para aplicaciones de búsquedas verticales también en grandes empresas. PPSS también se puede utilizar para el desarrollo de ayudas a la búsqueda que se utilizan normalmente en tiendas virtuales, servicios de asistencia técnica en línea y aplicaciones de centros de atención telefónica.
8 Conclusión
En este artículo hemos perfilado los supuestos conceptuales sobre los requisitos estructurales de varias aplicaciones basadas en tesauros. Nuestro análisis indica que algunos tipos de aplicación permiten crear un único tesauro para diferentes escenarios (por ejemplo, autocompletado y formulación o ampliación de consultas), mientras que otras aplicaciones exigen tesauros diferentes o un subconjunto definido de tesauros para permitir determinadas funciones (por ejemplo, filtrado o clasificación e indización). Otra conclusión que se puede extraer es que diferentes escenarios de aplicación implican complejidades diferentes (por ejemplo, autocompletado vs. glosario) y, por tanto, difieren en términos de esfuerzo y de costes necesarios para desarrollar un vocabulario con una calidad suficiente. Por tanto, se deben tener en cuenta dos aspectos fundamentales a la hora de desarrollar un tesauro:
- ¿Qué escenarios de aplicación deberán preverse?
- ¿Qué elementos estructurales son necesarios para permitir estos escenarios?
Teniendo en cuenta estos aspectos, los ingenieros de conocimiento pueden planificar de manera efectiva las funcionalidades requeridas de un tesauro y, por tanto, mejorar la eficiencia del esfuerzo de ingeniería basado en tesauros.
La familia de productos PoolParty ofrece una amplia variedad de opciones para crear estos tipos de tesauros de acuerdo con los estándares del W3C y las mejores prácticas de Linked Data. Los tres grandes temas son: búsqueda semántica, gestión de tesauros y datos enlazados. El núcleo de PoolParty utiliza tecnologías web semánticas, que se basan en estándares abiertos y tecnologías de vanguardia. La gestión profesional de los metadatos es la clave para la gestión eficiente de la información en grandes organizaciones y en la web. PoolParty combina web semántica, explotación de texto e ingeniería colaborativa del conocimiento para hacer que las aplicaciones sean más inteligentes.
Bibliografía
Abel, F. (2008). "The benefit of additional semantics in folksonomy systems". En: Proceedings of the 2nd PhD workshop on information and knowledge management. New York: ACM, p. 49-56.
ANSI/NISO Z39.19 (2005). Guidelines for the construction, format, and management of monolingual controlled vocabularies.
Avesani, P.; Cova, M. (2005). "Shared lexicon for distributed annotations on the web". En: Proceedings of the 14th international conference on World Wide Web. New York: ACM, p. 207-214.
Broughton, V. (2006). Essential thesaurus construction. London: Facet Publishing.
Burke, R. (2000). "Knowledge-based recommender systems". En: Encyclopedia of Library and Information Systems, vol. 69.
Cafarella, M. J.; Halevy, A.; Madhavan, J. (2011). Structured data on the web. New York: ACM, p. 72-79.
Davies, J.; Harris, S.; Crichton, C. et al. (2008). "Metadata standards for semantic interoperability in electronic government". En: Proceedings of the 2nd international conference on theory and practice of electronic governance. New York: ACM, p. 67-75.
Echarte, F.; Astrain, J. J.; Córdoba, A. et al. (2009). "Acoar: a method for the automatic classification of annotated resources". En: Proceedings of the fifth international conference on knowledge capture. New York: ACM, p. 181-182.
Gaus, W. (2005). Dokumentations-und Ordnungslehre: Theorie und Praxis des Information Retrieval. Berlin: Springer.
Golub, K.; Moon, J.; Tudhope, D. et al. (2009). "Entag: enhancing social tagging for discovery". En: Proceedings of the 9th ACM/IEEE-CS joint conference on digital libraries. New York: ACM, p. 163-172.
Isaac, A.; Summers, E. (2008). Skos simple knowledge organization system primer.
ISO 2788 (1986). Documentation-guidelines for the establishment and development of monolingual thesauri.
ISO 5964 (1985). Documentation-guidelines for the establishment and development of multilingual thesauri.
ISO 25964-1 (2011). Information and documentation-thesauri and interoperability with other vocabularies-part 1: Thesauri for information retrieval.
Kless, D.; Milton, S. (2010). Towards quality measures for evaluating thesauri.
Kules, B.; Kustanowitz, J.; Shneiderman, B. (2006). "Categorizing web search results into meaningful and stable categories using fast-feature techniques". En: Proceedings of the 6th ACM/IEEE-CS joint conference on digital libraries. New York: ACM, p. 210-219.
Miles, A.; Bechhofer, S. (2008). Skos simple knowledge organization system reference.
Miles, A.; Rogers, N.; Beckett, D. (2004). Skos-core guidelines for migration: guidelines and case studies for generating rdf encodings of existing thesauri.
Morshed, A.; Keizer, J.; Johannsen, G. et al. (2010). From agrovoc owl model towards agrovoc skos model.
Neubert, J. (2009). "Bringing the 'thesaurus for economics' on to the web of linked data". En: Proceedings of the linked data on the web workshop, vol. 538.
Orlandi, F.; Passant, A. (2010). "Semantic search on heterogeneous wiki systems". En: Proceedings of the 6th international symposium on wikis and open collaboration. New York: ACM, p. 4:1-4:10.
Park, J.; Bui, Y. (2006). An assessment of metadata quality: A case study of the national science digital library metadata repository.
Rodríguez, J. M.; Azcona, E. R.; Paredes, E. R. (2008). Promoting government controlled vocabularies for the semantic web: the eurovoc thesaurus and the cpv product classification system.
Sacco, O.; Bothorel, C. (2010). "Exploiting semantic web techniques for representing and utilising folksonomies". En: Proceedings of the international workshop on modeling social media. New York: ACM, p. 9:1-9:8.
Sah, M.; Hall, W.; Gibbins, N. M. et al. (2007). "Semport: a personalized semantic portal". En: Proceedings of the eighteenth conference on hypertext and hypermedia. New York: AMC, p. 31-32.
Sah, M.; Wade, V. (2010). "Automatic metadata extraction from multilingual enterprise content". En: Proceedings of the 19th ACM international conference on information and knowledge management. New York: ACM, p. 1665-1668.
Soergel, D. (1994). Indexing and retrieval performance: The logical evidence.
Soergel, D. (2002). "Thesauri and ontologies in digital libraries: 1. structure and use in knowledge-based assistance to users". En: Proceedings of the 2nd ACM/IEEE-CS joint conference on digital libraries. New York: ACM, p. 415-415.
Stvilia, B.; Gasser, L.; Twidale, M. B. et al. (2007). A framework for information quality assessment.
Tordai, A.; Ossenbruggen van, J.; Schreiber, G. (2009). "Combining vocabulary alignment techniques". En: Proceedings of the fifth international conference on knowledge capture. New York: ACM, p. 25-32.
Waitelonis, J.; Sack, H.; Hercher, J. et al. (2010). "Semantically enabled exploratory video search". En: Proceedings of the 3rd international semantic search workshop. New York: ACM, p. 8:1-8:8.
Wang, Y.; Stash, N.; Aroyo, L. et al. (2009). "Semantic relations for content-based recommendations". En: Proceedings of the fifth international conference on knowledge capture. New York: ACM, p. 209-210.