[Traducción automática al español]



Adán Server Sastre

Col·laborador del grup de recerca Organització i Recuperació de Continguts Digitals (ORCD)
Facultat de Biblioteconomia i Documentació. Universitat de Barcelona

adan.server@codc.org




El dia 12 del proppassat mes de desembre va tenir lloc al saló d’actes del Consejo Superior de Investigaciones Científicas (Madrid) el seminari “Uso de lenguajes documentales en la web semántica”.1 La jornada, organitzada pel Grupo Normaweb de la Sociedad Española de Documentación y Información Científica (SEDIC), amb la col·laboració del Centro de Información y Documentación Científica (CINDOC), pretenia donar a conèixer els avantatges d’utilitzar llenguatges controlats en la recuperació de la informació en l’anomenada web semàntica, i presentar experiències reals d’àmbit nacional.

La gratuïtat de l’acte, subvencionat per la Dirección General del Libro, Archivos y Bibliotecas del Ministerio de Cultura, va propiciar un èxit de públic, amb 315 inscrits, dels quals, finalment, uns 180 hi assistiren.

El seminari es va planificar en dues parts. En la primera, més descriptiva, es pretenia definir el concepte de web semàntica, explicar la utilitat de l’ús de llenguatges controlats, les diferències i semblances entre ontologies i tesaurus, i presentar els darrers estàndards relacionats amb el tema. En la segona, més empírica, es volia plantejar un debat sobre les dificultats que s’han de superar perquè es generalitzi l’ús d’aquestes eines, incidint sobre el valor que poden tenir per a les institucions o empreses. Inaugurà el seminari Luis Rodríguez Yunta, secretari de la SEDIC, que actuà de moderador.

La primera comunicació va ser a càrrec d’Asunción Gómez-Pérez, professora de la Universidad Politécnica de Madrid, que va dur a terme una aproximació marcadament informàtica al concepte de web semàntica. El creixement constant de la World Wide Web fa necessària l’aplicació de noves tècniques d’intel·ligència artificial que permetin augmentar l’eficàcia en la recuperació de la informació. El llenguatge de marcatge predominant en l’Internet actual, HTML, perdrà importància i es generalitzarà l’ús d’XML, que permet donar significat a les metadades incloses en les metaetiquetes de pàgines web utilitzant un format “comprensible” per als programes. Les ontologies proporcionen l’estructura necessària per conferir aquest significat. La web semàntica no és diferent, sinó una extensió de l’actual, que dibuixa un panorama en què conflueixen nous serveis web i agents intel·ligents, i en el qual és bàsica l’ontologia, que defineix una xarxa semàntica, i la interoperabilitat entre sistemes, per poder migrar els recursos actuals als nous formats.

Ángeles Maldonado, documentalista del CINDOC, va presentar la segona comunicació del matí, en què va defensar la vigència de l’ús de llenguatges documentals per garantir l’eficàcia en la recuperació de la informació. “La web semàntica és un invent dels informàtics”, i no és tan innovadora com volen fer creure; en el fons, del que estan parlant és d’utilitzar les tècniques documentals tradicionals de control de vocabulari per resoldre el problema semàntic que pateix el web actual i que afecta la pertinença de la recuperació de la informació en sistemes documentals. Tot seguit va explicar qüestions molt elementals (possiblement innecessàries en aquest tipus d’esdeveniment) per argumentar la seva teoria: definició dels tipus de relacions conceptuals i problemes que planteja en la recuperació l’ús de llenguatges no controlats.

A continuació, Antonio García Jiménez, professor de la Universidad Juan Carlos I, va presentar una anàlisi comparativa força entenedora entre tesaurus i ontologies. Els tesaurus i les ontologies presenten diversos punts de convergència: els tesaurus es poden entendre com a ontologies; els tesaurus serveixen de punt de partida per a la construcció d’ontologies, i les dues eines serveixen per representar el coneixement mitjançant el control del vocabulari. Les ontologies es diferencien dels tesaurus pel nivell d’abstracció més elevat que tenen, com també de concepció i de descripció, més riquesa estructural, més coneixement estructural o operacional, i són “comprensibles” per a les màquines. Per construir una ontologia a partir d’un tesaurus, en primer lloc s’han de convertir les relacions o els enllaços dels tesaurus en relacions DAML/OIL, en segon lloc s’han de convertir els continguts del tesaurus en relacions RDF Schema, i en darrer lloc s’han de convertir les relacions o els enllaços del tesaurus en RDF Schema. Els principals problemes que pot plantejar la conversió són de caràcter semàntic: falta de reciprocitat entre els termes genèrics i específics i la transitivitat dels termes relacionats, a més de la similitud entre l’estatus de les relacions jeràrquiques i les d’una altra tipologia. El procés requereix el treball conjunt d’informàtics i bibliotecaris, amb els problemes que això comporta, atès que tenen diferents maneres de treballar i provenen de tradicions diferents.

La primera ponència va ser a càrrec de Martín Álvarez Espinar,2 de l’Oficina Española del W3C, que va presentar, des d’una perspectiva netament informàtica, els nous llenguatges i estàndards creats per a la codificació de llenguatges documentals: OWL i SKOS Core. RDF Schema és un llenguatge de descripció de vocabularis que s’utilitza per a la creació d’ontologies partint de la representació de metadades. Planteja certes limitacions pel que fa a l’aplicació a la web semàntica, per la qual cosa se’n va desenvolupar l’OWL, que afegeix més vocabulari per descriure classes i propietats, s’adapta a l’arquitectura de la World Wide Web i de la web semàntica i és compatible amb tots els formats anteriors. El sistema SKOS Core es va desenvolupar per complementar l’RDF: proporciona una estructura que ofereix una infraestructura senzilla, flexible i extensible per representar, importar, exportar o compartir tesaurus, esquemes de classificació, taxonomies i llistes d’encapçalaments de matèria.

La segona ponència va ser la d’Asunción Gómez-Pérez, que va presentar algunes aplicacions informàtiques per a la gestió d’ontologies a la web semàntica. Per a la gestió d’ontologies s’utilitzen tècniques de marcs (per definir classes i relacions) i tècniques de lògica descriptiva (per definir axiomes). El model que es representa amb les ontologies ha de ser consensuat, ja siguin low-ontology (tesaurus) o high-ontology (amb molts axiomes). En el mercat hi ha nombrosos editors d’ontologies que utilitzen OWL i que permeten especificar els tipus de relacions de manera “comprensible” per a les màquines: Protégé, WebODE o OilEd. D’entre els sistemes de consulta d’ontologies, destaca OYSTER, que és un programari P2P utilitzat per donar d’alta ontologies. Altres eines per a la gestió d’ontologies són els convertidors de format i els razonadores, utilitzats per construir taxonomies.

Amb la segona ponència va concloure la primera part del seminari, que es va reprendre, després d’un descans, amb la presentació de projectes en desenvolupament al territori espanyol.

Rodrigo Sánchez va iniciar la segona sessió de la jornada presentant un agent desenvolupat pel Departamento de Biblioteconomía y Documentación de la Universidad Complutense de Madrid per a la generació automàtica de sistemes de classificació adaptats a la web semàntica. L’aplicació del format SKOS Core facilita l’aprenentatge de l’agent i és capaç de crear representacions automàticament, que poden ser compartides per altres agents. Els principals problemes que s’han plantejat deriven de la reutilització de categories basades en càlculs vectorials. Tot i que el sistema es pot formalitzar utilitzant ontologies en lloc dels sistemes de classificació tradicionals, encara és molt difícil aconseguir-ho.

Tot seguit, Xavier Agenjo, de la Fundación Larramendi, va presentar l’ontologia del Patrimonio Cultural Cántabro. La utilització d’ontologies per part de les institucions de memòria permet resoldre els problemes de visibilitat i localització que presenten els recursos digitals, millorar-ne la cerca i recuperació, i adaptar-se als mètodes de funcionament de la web semàntica. Per desenvolupar-les es disposa d’un marc normatiu, CRM, desenvolupat per CIDOC i compatible amb altres esquemes: XML, MARC, EAD, EAC i Dublin Core; i la norma ISO/FDIS 21127, que està en fase de desenvolupament. L’empresa Digibis treballa en dos projectes basats en ontologies: Biblioteca Virtual de Polígrafos Españoles i Ontología del Patrimonio Cultural Cántabro, de la Fundación Marcelino Botín.

A continuació, Richard Benjamins, de l’empresa iSOCO, va exposar la dificultat que comporta calcular els costos econòmics, la creació i el manteniment d’ontologies. S’han de valorar diversos factors: producte, personal i processos. Atenent les característiques del producte o el domini, s’han de tenir en compte la complexitat de l’ontologia, la data de creació, si s’ha reutilitzat, la documentació que ha de gestionar, etc. També hi influeix l’experiència de l’equip encarregat de desenvolupar el projecte, les seves habilitats i la continuïtat. En darrer lloc, també hi intervenen factors relacionats amb l’enginyeria del procés i la construcció de l’ontologia. iSOCO ha desenvolupat tres aplicacions basades en ontologies: el cercador semàntic de la web del Real Instituto Elcano, l’Intelligent FAQ System del Consejo General del Poder Judicial i l’eina d’anotació semiautomàtica OntoHache, desenvolupada per la Residencia de Estudiantes del Archivo Virtual de la Edad del Plata.

Finalment, Jesús Gascón,3 professor de la Facultat de Biblioteconomia i Documentació de la Universitat de Barcelona, va exposar les dificultats plantejades per l’aplicació del Tesauro de Biblioteconomía y Documentación al portal Temària.4 Els principals problemes presentats són característics de la creació de tesaurus multilingües partint de tesaurus monolingües: les cadenes no es poden repetir en totes les llengües del tesaurus, atès que cada llengua prové d’una realitat cultural diferent i, per tant, en cada llengua pot representar conceptes diferents. Per solucionar-ho s’han desenvolupat cadenes diferents per a cada versió i s’ha dut a terme una adaptació a la mateixa cadena, sacrificant les diferències culturals. En el futur, no es descarta la conversió del tesaurus en ontologia.

El seminari va concloure amb una breu taula rodona i amb el tradicional torn de preguntes.

Després de tota una jornada sobre la web semàntica, va quedar clar que l’assoliment dels objectius que persegueix implicarien molts avantatges pel que fa a la recuperació de continguts al web, tot i que no es van concretar gaire. Lamentablement, també va quedar palès que hi ha un llarg camí per recórrer abans que la web semàntica sigui una realitat, si és que finalment s’aconsegueix, atesa la complexitat implícita en la conversió de la web actual.

D’altra banda, l’acte es va caracteritzar per la poca diversitat de la tipologia dels llenguatges documentals tractats: llevat del tesaurus presentat per Jesús Gascón i de l’esquema de classificació presentat per Rodrigo Sánchez, totes les altres contribucions es van centrar en ontologies.




Notes

1 Podeu consultar el programa a: <http://www.sedic.es/gt_normalizacion_web-semantica05-programa.htm>. [Consulta: 26/02/2006].

2 La presentació de Martín Álvarez està disponible a: <http://www.w3c.es/Presentaciones/2005/1212-OWLSkosSEDIC-MA/>. [Consulta: 26/02/2006].

3 Agraeixo la col·laboració de Jesús Gascón en la redacció d’aquest informe. Podeu consultar la seva presentació a: <http://temaria.net/gascon2005.ppt>. [Consulta: 26/02/2006].

4 Grup de recerca Organització i Recuperació de Continguts Digitals, Universitat de Barcelona, Facultat de Biblioteconomia i Documentació. Temària: revistes digitals de biblioteconomia i documentació. <http://temaria.net>. [Consulta: 26/02/2006].