BID: textos universitaris de Biblioteconomia i Documentació

Número 11, desembre 2003


Informe de les II Jornadas de Tratamiento y Recuperación de la Información JOTRI 2003 (Universidad Carlos III, Leganés, Madrid, 8-9 de setembre de 2003)1


Pilar Martínez-Carner i Ascaso, Montserrat Sebastià i Salat

Facultat de Biblioteconomia i Documentació
Universitat de Barcelona


Les JOTRI són un fòrum de debat i de comunicació del coneixement en l’àrea multidisciplinària del tractament i la recuperació de la informació, tant en la recerca teòrica com en l’aplicació pràctica. El grup que convoca cada any aquestes jornades està integrat per representants d’una bona part de les universitats espanyoles, i ho fa amb la voluntat de col·laboració disciplinària des d’una doble perspectiva: la del departament d’informàtica i la del departament de biblioteconomia i documentació de la universitat organitzadora. La primera edició d’aquestes jornades fou l’any 2002 sota els auspicis de la Universitat Politècnica de València. La segona edició es va celebrar el mes de setembre passat amb la Universidad Carlos III de Madrid com a institució organitzadora.

Un primer balanç de les JOTRI a partir de les dues primeres edicions celebrades ha permès al grup organitzador avançar dues conclusions. En primer lloc, com a fòrum obert sobre recuperació de la informació, tot fa pensar que les JOTRI s’han convertit en un marc atractiu per a la dinamització i la convergència de les línies de recerca que propugna i que són les següents: l’automatització de la indexació, la generació automàtica de resums, la classificació i el filtratge de documents, la generació de tesaurus, tècniques i eines de processament del llenguatge natural aplicades a la recuperació de la informació, els agents personals, i la recuperació multilingüe. En segon lloc, les jornades estan obertes a la presentació de projectes i de prototipus, cosa que fa d’aquest fòrum un àmbit d’interès creixent per als grups de recerca i per a les empreses que opten per la innovació i el desenvolupament.

El format de les JOTRI es desplega en tres blocs:

  1. Conferència a càrrec d’una autoritat reconeguda en alguna de les línies de recerca.
  2. Sessions de treballs amb moderador i debat per cada una de les àrees de recerca.
  3. Presentació de projectes, pòsters i debat final.

A l’edició del 2003 les JOTRI van comptar amb una sessió inaugural sobre l’interès actual per la recuperació de la informació, a càrrec de Gregorio Peces Barba i de Mercedes Caridad Sebastián, rector i vicerectora, respectivament, de la Universidad Carlos III de Madrid.

Peter Ingwersen, professor de la Royal School of Library and Information Science, de Copenhaguen, va impartir la conferència inaugural, amb el títol “Integrating information seeking and IR theory: in context”. Com és habitual en Peter Ingwersen, la seva exposició va ser un exhaustiu estat de la qüestió sobre els aspectes més emergents de la teoria de la recuperació de la informació. La primera part va fer referència a l’impacte de les tecnologies de la informació i la comunicació (TIC) en la recuperació de la informació, amb una conclusió: actualment el problema principal és com simultaniejar el ritme de producció de coneixement amb els sistemes d’accés, la comunicació, la cooperació i els usos de la informació. A la segona part es va fer un repàs de tots els conceptes fonamentals de la recuperació de la informació i dels models vigents estudiats i/o proposats per Vakkari, Bystöm & Järvelin, Ingwersen, Kuhltau, Orom, Saracevic i Sormunen. La tercera part va ser una interessant polèmica entre els conceptes de rellevància i de pertinença.

Després de la conferència inaugural, es va començar a desenvolupar el programa de les jornades amb les diverses comunicacions presentades en dos grans blocs temàtics.

Tot i que no responien a una unitat temàtica de continguts, majoritàriament les comunicacions van tenir en compte aspectes diferents de l’avaluació i del control de la recuperació de la informació i d’algunes aplicacions. Tot seguit es resumeixen les comunicacions del primer bloc.

La sessió es va iniciar amb la comunicació “Human-mediated current awareness in a large digital library”, que, dins la temàtica dels eprints i preprints, va presentar una anàlisi de NEP (New Electronic Papers), un servei d’avisos informatius a través de llistes de distribució i per mitjà de correu electrònic, on es poden trobar les novetats aparegudes a RePEc (Research papers in economics). A més de presentar NEP des d’un punt de vista conceptual, es va plantejar com aquest servei s’adequa al món canviant de les biblioteques digitals i es va remarcar la tasca dels editors que examinen i filtren els nous ítems que arriben a RePEc. El treball va donar a conèixer algunes estadístiques sobre el rendiment de NEP i, entre altres aspectes, va fer èmfasi en la poca redundància dels reports. Els autors consideren NEP com un intent de traspassar els límits que hi ha entre els usuaris i els proveïdors en l’àmbit de les biblioteques digitals; és a dir, consideren que aquest sistema es podria aplicar a diferents biblioteques digitals.

Dins el marc dels sistemes de personalització de contingut web, es va presentar “Desarrollo de una colección de evaluación para personalización de periódicos digitales”, un estudi sobre el procés de construcció d’una col·lecció d’avaluació per aquest tipus de sistemes. El treball es va centrar en un tipus d’usuari interessat en termes i seccions que es poden trobar normalment en les notícies habituals d’un diari digital.

Els autors d’“Indicadores de medición y evaluación de la innovación: fuentes estadísticas y estudios de prospectiva en la Unión Europea” revisen les principals fonts d’informació aplicades en tècniques d’avaluació comparativa (benchmarking), dins el marc de les iniciatives European Innovation Scoreboard, i en el context de les relacions ciència-indústria.

En “Arquitectura multiagente para la asignación de categorías a textos” es va presentar un sistema classificador multiestratègic per assignar categories a documents de text: HYCLA. La comunicació va donar a conèixer l’arquitectura d’aquest sistema i la seva avaluació.

Amb “Creación, mantenimiento y perspectivas de una base de datos de recursos web médicos: la experiencia de QreME” es van exposar els procediments que es van seguir per crear QreME, una base de dades de recursos web del món de la medicina. Les autores de la comunicació també van mostrar les característiques de la base de dades i dels recursos que inclouen, a més d’aspectes relatius al manteniment de la base de dades.

En “Aspectos clave para maximizar la eficacia en la recuperación de información en un portal científico de carácter público” es va analitzar la funció dels portals com a solució per a la difusió i recuperació de la informació pública. A més, es va presentar una classificació d’aquests portals i algunes tècniques per millorar la interoperabilitat i la recuperació de la informació en l’àmbit de l’Administració pública. També es van descriure les iniciatives de metadades aplicades a l’administració electrònica, així com els llenguatges de marcatge i les premisses de la interoperabilitat.

En “Aplicación de la federación de bases de datos para la gestión de revistas en una biblioteca universitaria” es va tractar de fer una proposta de tècniques de federació de bases de dades per tal d’evitar la duplicació d’informació que hi pot haver a les biblioteques com a conseqüència de la confluència de múltiples sistemes de gestió de bases de dades per a l’administració de la col·lecció. Així mateix, es va mostrar una aplicació de la proposta d’arquitectura federada, fent servir Oracle.

En el context de la formació de comunitats web, “Formación de comunidades-web mediante Trueque: un enfoque distribuido basado en agentes para recuperación de información” va presentar un mecanisme d’intercanvi del coneixement, denominat Trueque, aplicat en xarxes peer-to-peer, i en un context de recuperació d’informació. L’objectiu és aconseguir una gestió ràpida i eficient dels recursos fent servir la topologia de xarxa més senzilla possible.

En “Tratamiento de la incertidumbre en inteligencia artificial” es va desplegar una breu revisió dels models de recuperació de la informació fonamentals en xarxes bayesianes desenvolupats entorn d’un treball d’investigació.

En “Como aplicar redes bayesianas a la recuperación de información: una guerra contra la complejidad” els autors van exposar com aquests models de recuperació han estat pensats per superar el problema del gran volum d’informació que podem trobar en els actuals sistemes d’informació.

“Aproximación al rendimiento de los sistemas de recuperación de información jurídica: valores de exhaustividad-precisión en Aranzadi y La Ley” va presentar un estudi que avalua el rendiment dels coneguts sistemes de recuperació d’informació jurídica de les editorials Aranzadi i La Ley. L’avaluació del rendiment d’aquests sistemes es proposa a partir dels indicadors extrets de la recuperació temàtica.

“El sistema SARE-Bi de catalogación y recuperación de documentos multilingües” va mostrar un sistema de catalogació i recuperació de la informació anomenat SARE-Bi. Es tracta d’un sistema de gestió integral de continguts multilingües, basat en esquemes de descripció de metadades, traducció assistida per ordinador (TMX) i localització de programari (XLIFF). Tots aquests models, dialectes d’XML, se sobreposen i es complementen de maneres diferents. Aquests estàndards s’han incorporat, o bé adaptat, al sistema de publicació web denominat Zope.

En “FameIr, a multimedia information retrieval shell” es va presentar un prototipus de programari desenvolupat tant per indexar com per recuperar diferents media (text, àudio, imatges, etc.). FameIr permet, també, indexar pàgines web i serveis d’informació.

En “Contribución de MIRACLE[r1] al Cross language evaluation forum” els autors van descriure la importància de MIRACLE en el CLEF i com MIRACLE combina diferents tècniques tant estadístiques com lingüístiques; també van comparar els resultats obtinguts per les combinacions d’aquestes tècniques.

En “ZaiTek: Sistema de vigilancia tecnológica en Internet” es va presentar un sistema de vigilància tecnològica a Internet. Es tracta d’un sistema multilingüe basat en tecnologia lingüística que és capaç d’extreure d’Internet la informació rellevant per a l’usuari, ja sigui una empresa o una institució, i amb un potencial que es fonamenta en l’enginyeria lingüística.

Els sistemes CBIR (Content-Based Image Retrieval) permeten de recuperar imatges digitals a partir d’atributs visuals, com ara colors, formes o textures, tal com es va proposar a “Usabilidad de sistemas de recuperación de imágenes basados en atributos visuales”. El treball va presentar el disseny d’una fitxa descriptiva sobre sis sistemes de recuperació d’imatges en versió demo que permet l’anàlisi d’usabilitat.

En “Técnicas digitales aplicadas para la recuperación de información gráfica y textual en el Centro de Documentación Virtual de la Asociación de Universidades Populares Extremeñas es va exposar el disseny i el manteniment de les bases de dades i de les tasques de selecció, digitalització i descripció dels documents amb tots els procediments i els punts crítics.

“La construcción de la web semántica: ontologías en la recuperación de la imagen fotográfica” va presentar dues tendències en el tractament de la imatge fotogràfica, en l’intent de popularitzar l’ús d’estàndards que possibilitin la construcció de la web semàntica. La primera tendència tracta de l’aplicació de l’estàndard MPEG-7 Visual, que consisteix en un seguit d’eines per elaborar descripcions de documents visuals fixos. L’altra tendència la representa el programa Protégé 2000, que edita ontologies en RDF i pot importar tesaurus especialitzats en imatge, amb la condició que estiguin en aquest format.

El segon bloc de comunicacions, més homogènies des del punt de vista temàtic, va fer referència a la recerca teòrica i bàsica sobre gairebé tots els temes centrals de les JOTRI. Es va tractar d’indexació automàtica i de generació de tesaurus a les comunicacions següents: “Desarrollo de una aplicación para la gestión de relaciones en tesauros generados automáticamente”; “Visualización en Topic maps”; “El nuevo tesauro Eurovoc”; “Automatic generation of a multilingual similarity thesaurus from web”; “Extracción de palabras clave en OmniPaper”; “Extracción de términos índice mediante cascadas de expresiones”; “Indización en la RI”; i “Asignación automática de palabras clave en tiempo real”.

Pel que fa a l’enginyeria lingüística aplicada a la recuperació de la informació, hi va haver diverses comunicacions: “Ontologías, metadatos y agentes: recuperación semántica de la información”; “Análisis morfosintáctico para la extracción de información”; “Named entity recognition and classification for texts in basque”; i “Un algoritmo segmentador basado en frecuencias de letras sucesoras de palabras con el mismo significado”.

Per la seva banda, la generació automàtica de resums només va ser recollida a “Confluencia de paradigmas en el resumen documental”.

El darrer dels temes tractats van ser els criteris d’avaluació de sistemes de recuperació, analitzats a: “Indicadores de rendimiento en bases de datos bibliográficas”; “Criterios de evaluación de la interacción indización/recuperación de la información en las pasarelas temáticas”; i “Análisis de la medida de la distancia entre documentos y consultas”.

El debat de clausura va posar en evidència que aquestes jornades són un fòrum obert sobre recuperació d’informació i que acullen tota la diversitat de la producció que actualment desplega la recerca bàsica i teòrica a l’Estat espanyol, tant en el marc universitari com en l’empresarial. Es va convidar els més de 200 assistents a la propera edició de les JOTRI l’any 2004.




Notes

1 Jornadas de Tratamiento y Recuperación de la Información (2es: 2003: Leganés, Madrid). JOTRI2003: II Jornadas de Tratamiento y Recuperación de la Información, Leganés, Madrid, 8-9 de septiembre de 2003. (Madrid: Universidad Carlos III de Madrid, Escuela Politécnica Superior, Departamento de Biblioteconomía y Documentación y Departamento de Informática, 2003), 291 p. ISBN 84-89315-33-7.