[Versión castellana], [English version]


Helmut Nagy, Tassilo Pellegrini, Thomas Schandl, Andreas Blumauer

Semantic Web Company GmbH
Viena, Àustria

h.nagy@semantic-web.at, t.pellegrini@semanticweb.at, t.schandl@semantic-web.at, a.blumauer@semantic-web.at


Christian Mader

Faculty of Computer Science
Universität Wien
Viena, Àustria

christian.mader@univie.ac.at



Resum [Abstract] [Resumen]

Els tesaurus han estat una eina important de recuperació de la informació durant dècades, i encara ho són. Tenen el potencial de millorar considerablement la gestió de la informació d'organitzacions grans, però encara estan infrautilitzats respecte dels sistemes de gestió de continguts, els motors de cerca o els sistemes d'etiquetatge. En aquest article volem descriure aquests casos d'ús per a tesaurus, de quina manera s'han d'estructurar els tesaurus per ajustar-se als diferents casos d'ús i com les tecnologies web semàntiques del sistema de gestió de tesaurus PoolParty poden ajudar a realitzar-los.

El paquet PoolParty es compon d'un sistema web de gestió de tesaurus, un extractor de conceptes i un servidor de cerques semàntiques, que està creat totalment sobre la base dels estàndards web semàntics del W3C.


1 Introducció

PoolParty Thesaurus Manager (PPTM) és una eina per crear i mantenir tesaurus multilingües SKOS (simple knowledge organization system), amb l'objectiu que siguin fàcils d'utilitzar per persones sense coneixements web semàntics o sense capacitats tècniques especials.

PoolParty Extractor (PPX) ofereix una API (interfície de programa d'aplicació) que proporciona algorismes d'explotació de text basant-se en models de coneixement semàntics. Mitjançant PoolParty Extractor es poden analitzar documents de manera automatitzada, extreure'n les frases significatives, les categories d'entitats esmentades i altres metadades. Es poden assignar diferents esquemes de dades o metadades a un tesaurus SKOS que s'utilitzi com a model de coneixement semàntic unificat.

PoolParty Search Server and Semantic Indexer (PPS) és una aplicació de cerca basada en tecnologies semàntiques. Les tecnologies semàntiques en un motor de cerca proporcionen una millor comprensió d'allò que estan cercant els usuaris i comporten uns resultats de cerca millors en comparació amb els resultats que es poden obtenir amb motors de cerca convencionals.

Abans de presentar el paquet PoolParty de manera detallada, analitzarem els supòsits conceptuals sobre la interacció entre les especificitats estructurals d'un tesaurus i la qualitat d'un resultat d'aplicació basat en tesaurus. Això ve motivat pel fet que pràcticament no hi ha bibliografia que parli sobre els requisits de modelatge de tesaurus en relació amb les següents àrees d'aplicació específiques de tesaurus: classificació, indexació, autocompleció, ampliació de consultes, recomanacions i glossaris. A partir d'aquestes àrees d'aplicació, compararem els atributs estructurals de SKOS i en discutirem la rellevància funcional. Tenir en compte aquests supòsits pot ajudar considerablement al modelatge de tesaurus orientats a aplicacions.


2 Organització del coneixement amb tesaurus SKOS

Els tesaurus es poden utilitzar en diferents escenaris d'aplicació, com ara l'autocompleció, la cerca i navegació facetades, les recomanacions o els glossaris. En aquest sentit, els tesaurus normalment desenvolupen la funció d'harmonitzar terminologies, controlar vocabularis o ajudar l'usuari a l'hora de navegar per un espai de conceptes (Soergel, 2002). Tot i la llarga tradició d'investigació en l'àmbit de l'assegurament de la qualitat dels tesaurus, fins ara s'ha prestat poca atenció a la interacció entre les especificitats estructurals d'un tesaurus i la qualitat dels resultats en relació amb els diferents escenaris d'aplicació d'un tesaurus. Si bé hi ha diverses iniciatives que se centren en la qualitat dels tesaurus i de les metadades en termes d'expressivitat i de solidesa estructural (Kless, 2010; Stvilia, 2007; Park, 2006), els estàndards ISO actuals (ISO 2788, 1986; ISO 5964, 1985; ANSI/NISO Z39.19, 2005; ISO 25964-1, 2011) i la bibliografia bàsica sobre tesaurus i sistemes d'organització (Broughton, 2006; Gaus, 2005), aquests enfocaments no tenen en compte l'aplicació prevista i, per tant, tenen una rellevància limitada per al modelatge de tesaurus aplicats.

Aquest article analitza les especificitats estructurals dels tesaurus i la rellevància que tenen per millorar la qualitat final d'una aplicació específica. Es basa en els supòsits que els atributs estructurals d'un tesaurus tenen una rellevància diferent per a escenaris d'aplicació específics i que el principi de modelatge d'un tesaurus té un impacte directe en la qualitat d'una aplicació basada en tesaurus.

La secció següent proporciona una visió de conjunt sobre les obres relacionades en l'àmbit de tesaurus per a aplicacions web. Aquesta anàlisi comença amb una visió general sobre els criteris de qualitat dels tesaurus, però després aporta una visió específica sobre la recomanació SKOS del W3C, que s'ha acceptat àmpliament com a model de referència per a aplicacions basades en tesaurus al web (semàntic). A continuació, recopilem i definim els escenaris bàsics d'aplicació dels tesaurus, aportem una visió de conjunt sobre els atributs estructurals proporcionats per SKOS i presentem el nostre enfocament sobre com aquests atributs influeixen en els diferents escenaris d'aplicació. En la secció següent es discuteixen les implicacions per al desenvolupament de tesaurus en diferents escenaris d'aplicació.


3 Especificitats estructurals dels tesaurus per a aplicacions basades en SKOS

Des de la seva primera publicació l'any 2004, la recomanació SKOS (simple knowledge organization system) del W3C ha estat emprada per diverses aplicacions web semàntiques com a model lleuger per permetre la interoperabilitat a escala terminològica i esquemàtica (vegeu Avesani, 2005; Kules, 2006; Sah, 2007; Abel, 2008; Davies, 2008; Tordai, 2009; Golub, 2009; Echarte, 2009). Segons Sacco (2010), "SKOS provides a vocabulary to define the basic structure and content of semi-formal knowledge organizations such as thesauri, classification schemes, subject heading lists, taxonomies, folksonomies and other similar controlled vocabularies. Since it is designed on RDF, SKOS allows these semi-structured concepts to be published on the Web, linked to data available on the Web and also incorporated with other concept schemes". La seva complexitat ontològica (semàntica), comparablement reduïda, converteix SKOS en un estàndard ideal per a l'ús amb finalitats d'organització del coneixement col·laboratiu, especialment en el context d'esquemes de classificació generats socialment (vegeu Orlandi, 2010; Waitelonis, 2010; Sah, 2010). Amb la iniciativa Linked Data que va guanyant terreny durant els darrers anys, SKOS ha emergit com a "estàndard" comú (actualment, és una recomanació del W3C) per expressar sistemes d'organització de coneixement (KOS), com ara tesaurus i taxonomies. SKOS té un enfocament basat en conceptes, segons el qual un concepte és "una idea o noció; una unitat de pensament" (tal com es defineix en la definició de SKOS) que es pot representar mitjançant un URI (identificador uniforme de recursos). D'altra banda, l'enfocament basat en termes proposat, per exemple en els estàndards ISO2788 i ISO5964 i altres més antics, tracta les entrades lèxiques (termes) com les unitats més bàsiques. Es pot trobar una comparació detallada d'ambdós enfocaments en l'apèndix del manual de SKOS (Isaac, 2008). La majoria d'estàndards basats en termes (ISO 2788 1986, ISO 5964 1985) es van desenvolupar en l'era anterior al web i actualment s'estan revisant en l'estàndard ISO nou de propera aparició (ISO 25964-1), en què l'enfocament basat en termes també s'ha modificat envers un enfocament basat en conceptes: "The traditional aim of a thesaurus is to guide the indexer and the searcher to choose the same term for the same concept... The concepts are represented by terms, and for each concept, one of the possible representations is selected as the preferred term..." (Sacco, 2010).

Un altre senyal de la importància de tenir controlats els vocabularis en formats web, com ara SKOS, és que cada cop més i més vocabularis ofereixen versions SKOS dels seus vocabularis, juntament amb els formats clàssics proporcionats fins ara. S'han fet transformacions als tesaurus Agrovoc (Morshed, 2010), Eurovoc (Rodríguez, 2008), GEMET (Miles, 2004) i STW Thesaurus for Economic (Neubert, 2009), però també a altres tipus de vocabularis controlats, com ara encapçalaments de matèria. Tot i l'àmplia acceptació de SKOS, la investigació sobre la interacció entre el paradigma de modelatge SKOS i la qualitat del resultat de l'aplicació és comparativament escassa.

Wang et al. (2009) han fet un experiment sobre la precisió i la rellevància de les recomanacions gràfiques automàtiques en relació amb les propietats semàntiques subjacents. Han arribat a la conclusió que els recursos relacionats jeràrquicament emprant propietats més àmplies i limitades de SKOS proporcionaven el nombre màxim de recomanacions al cas d'ús descrit. I, recentment, Kless i Milton (2010) han desenvolupat un constructe de mesura per avaluar la qualitat intrínseca dels tesaurus basant-se principalment en el marc conceptual de qualitat de la informació desenvolupat per Stvilia et al. (2007) i els constructes de mesura definits per Soergel (1994).

Ens centrarem en els tesaurus com a tipus de vocabulari controlat que ofereix el màxim nivell d'expressivitat i, concretament, en un model de tesaurus basat en conceptes. A continuació, intentarem demostrar com els diferents escenaris d'aplicació exigeixen especificitats diferents d'un tesaurus.


4 Escenaris d'aplicació basats en tesaurus. Una visió de conjunt

"Today's thesauri are mostly electronic tools, having moved on from the paper-based era when thesaurus standards were first developed. They are built and maintained with the support of software and need to integrate with other software, such as search engines and content management systems. [...] Whereas in the past thesauri were designed for information professionals trained in indexing and searching, today there is a demand for vocabularies that untrained users will find to be intuitive, and for vocabularies that enable inferencing by machines" (ISO 25964-1, 2011). Aquesta introducció al nou estàndard ISO ja posa de relleu que l'àmbit i l'ús dels tesaurus han experimentat modificacions com a conseqüència del canvi d'una era anterior al web a l'era del web. Broughton (2006) afirma que els principals escenaris d'aplicació per a tesaurus són la indexació, la provisió de metadades, la cerca (formulació i ampliació de consultes) i la navegació. Soergel (2002) defineix casos d'ús per a tesaurus en el context de les biblioteques digitals. Segons el seu plantejament, fomenten l'aprenentatge i assimilació d'informació, ajuden els investigadors i professionals a aclarir problemes, permeten la recuperació de la informació (les cerques, la visualització d'informació rellevant, la indexació, i la combinació o accés a múltiples bases de dades) i afavoreixen el processament de documents després de la recuperació. Pel que fa a les aplicacions web semàntiques, són especialment importants els aspectes de recuperació de la informació i processament de documents basant-se en vocabularis controlats. En relació amb els casos d'ús plantejats per Soergel (2002) i Broughton (2006), proporcionem una descripció breu de l'aplicabilitat pràctica dels tesaurus per als escenaris d'aplicació següents.

Filtratge i classificació

Des de la perspectiva de l'usuari final, la capacitat de navegar per les classificacions és útil per obtenir una impressió sobre el grau de detall i el tipus de dades emmagatzemades en un sistema d'informació. D'aquesta manera, l'usuari pot fer cerques al sistema, encara que no es puguin o no s'hagin de formular termes de cerca. Aquest cas d'ús s'ha identificat com a "browsing the classification structure", segons Soergel (2002). Broughton (2006) també afirma que "the thesaurus is often used as an aid to navigation or browsing through the systematic display". Es tracta d'exemples que utilitzen l'"estructura de classificació" des de la perspectiva de l'usuari, però aquesta estructura també es pot emprar per classificar automàticament documents o proporcionar una estructura de filtre (facetes) per limitar els resultats de cerca.

Indexació

Broughton (2006) afirma: "As it was first developed, the thesaurus was an indexing tool for large technical document collections." Probablement, la indexació sigui l'escenari d'aplicació més freqüent per als tesaurus. Per exemple, es dóna una definició a NISO/ANSI Z39.19 (2005): "Indexing is the process of assigning preferred terms or headings to describe the concepts and other metadata associated with a content object."

Autocompleció

L'autocompleció permet la formulació estructurada i contextual de la cadena de consulta d'un usuari mitjançant l'assignació de parts de la cadena de consulta a descriptors o múltiples expressions de llenguatge natural dins d'una base de coneixement (Cafarella, 2011). Un tesaurus pot permetre una aplicació que proporcioni un vocabulari controlat de termes que se suggereix per a l'entrada, per exemple, en un camp de cerca o com a entrada en un formulari.

Formulació i ampliació de consultes

La cerca moderada proporciona ajuda basada en el coneixement als usuaris finals quan exploren verticalment un domini o quan exerceixen la cerca federada. Aquesta aplicació ha resultat especialment útil combinada amb la cerca de text lliure per permetre la navegació estructurada i la formulació de consultes complexes. Broughton (2006) distingeix entre formulació i ampliació de consultes: la primera significa que es proporcionen termes de cerca addicionals a l'usuari des del tesaurus i que es poden afegir a la cerca a la interfície, mentre que la segona significa que la cerca s'enriqueix amb l'estructura del tesaurus, automàticament amb el motor de cerca, sense interacció de l'usuari.

Recomanació

En navegar (o cercar) per un sistema d'informació, els elements recomanats ajuden a ampliar la visió de l'usuari sobre les dades incloses. Sovint els termes de cerca es formulen malament o l'estructura existent no s'ajusta a les necessitats de navegació de l'usuari. Un tesaurus pot proporcionar aquest tipus de recomanacions mitjançant el model de coneixement que es crea al voltant dels seus conceptes emprant sinònims i relacions per recomanar contingut i ampliar consultes. Burke (2000) proporciona exemples i experiments amb sistemes de recomanació basats en coneixement. No hem pogut trobar cap relació directa amb l'ús dels tesaurus per a les recomanacions, però considerem que aquest escenari d'aplicació queda cobert implícitament (o com a mínim n'és una extensió) pels escenaris esmentats abans.

Glossari

Els glossaris ajuden els usuaris d'un sistema d'informació a interpretar les dades incloses. Poden ser el punt inicial per accedir o conèixer un domini i també un punt de referència on es defineixin un domini o els conceptes d'un domini. Soergel (2002) defineix el "support learning and assimilating information" i el "support meaningful information display" com a funcions d'un tesaurus, i considerem que els glossaris són l'eina adequada per a aquestes funcions.


5 Atributs estructurals diferents per a tesaurus específics d'aplicació

L'estructura d'un tesaurus influeix en la qualitat del resultat de l'aplicació. En relació amb l'obra de Klees i Milton (2010, p. 315), que van definir criteris de qualitat generals (intrínsecs) per a tesaurus, discutim la rellevància dels elements estructurals de SKOS per als escenaris d'aplicació definits abans. La taula 1 mostra una selecció d'elements estructurals relacionats amb SKOS.

Components dels tesaurus Definició Atributs SKOS corresponents
Elements bàsics
Conceptes Un concepte indica "una unitat de pensament, una idea o una noció sobre una cosa". Dins de SKOS, un concepte és una entitat abstracta (classe) que existeix independentment de les seves etiquetes o significants. skos:Concept
Etiquetes Dins de SKOS, les etiquetes signifiquen o identifiquen un concepte amb una expressió del llenguatge natural. Un concepte es pot denotar mitjançant diverses etiquetes (donant expressió als sinònims), mentre que una etiqueta pot significar diversos conceptes (donant expressió als homònims). skos:prefLabel, skos:altLabel, skos:hiddenLabel
Elements estructurals
Relacions d'equivalència Amb l'ús de SKOS, els sinònims es poden expressar enllaçant una etiqueta preferida (prefLabel) i una etiqueta alternativa (altLabel) o una etiqueta oculta (hiddenLabel) amb el mateix concepte. skos:prefLabel -> skos:altLabel skos:prefLabel -> skos:hiddenLabel
Relacions jeràrquiques Dins del mateix esquema conceptual, les relacions jeràrquiques entre conceptes es poden definir a SKOS emprant propietats més àmplies i limitades. Els conceptes de diferents esquemes conceptuals s'han de col.locar en les relacions jeràrquiques mitjançant els atributs broadMatch i narrowMatch. skos:broader, skos:narrower, skos:broadMatch, skos:narrowMatch
Relacions associatives TEs tracta de relacions entre dos conceptes que estan "relacionats" entre si, sense consignar cap tipus de generalització. SKOS serveix per a això mitjançant la definició de les propietats relacionades i relatedMatch. skos:related
Homònims Com que cada "unitat de pensament" s'expressa com a concepte a SKOS, els homònims són simplement etiquetes idèntiques (és a dir, tenen el mateix valor de cadena) enllaçades amb el concepte corresponent. skos:prefLabel = skos:prefLabel
Polijerarquies SKOS no limita les definicions de jerarquia. Cada concepte es pot enllaçar amb un nombre arbitrari de conceptes més amplis o limitats. skos:concept té més d'una relació skos:broader; múltiples conceptes estan enllaçats al mateix concepte mitjançant skos:narrower
Profunditat jeràrquica La profunditat d'un tesaurus SKOS es pot expressar mitjançant el nombre de passos transitius més amplis o limitats originats de (o que condueixen a) un skos:concept que s'ha atribuït per ser un concepte superior (skos:hasTopConcept, skos:topConceptOf). skos:broaderTransitive, skos:narrowerTransitive
Elements de documentació
Definicions Per esclarir el significat d'un concepte, SKOS proporciona la definició, scopeNote i propietats d'exemple. skos:definition, skos:scopeNote, skos:example
Notes Com a documentació general, SKOS defineix les propietats de les notes (nota editorial, de canvi i historial). skos:editorialNote, skos:changeNote, skos:historyNote

Taula 1. Elements estructurals dels tesaurus

Hi ha diversos altres elements estructurals disponibles a SKOS que no es tenen en compte en aquest article. Per obtenir-ne una cobertura exhaustiva, vegeu la documentació de referència sobre SKOS (Miles, 2008) i el manual de SKOS (Isaac, 2008).

A continuació, intentem demostrar com les diferents àrees d'aplicació posen èmfasi en diferents elements estructurals a dins d'un tesaurus. Així, la taula 2 aporta una visió de conjunt de les diferents àrees d'aplicació en relació amb els requisits dels atributs estructurals creats per als tipus d'aplicacions.

Classificació o filtratge Indexació Autocompleció Formulació o ampliació de consultes Recomanació Glossari
Conceptes Quantitat restringida per l'àmbit de l'aplicació Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini
Etiquetes Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini Quantitat restringida per l'àmbit del domini
Relacions d'equivalència Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) rellevants Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) especialment rellevants Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) especialment rellevants Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) especialment rellevants Etiqueta alternativa (altLabel) o etiqueta oculta (hiddenLabel) especialment rellevants Etiqueta alternativa (altLabel) especialment rellevant
Homònims Augment de la complexitat S'ha de qualificar S'ha de qualificar S'ha de qualificar S'ha de qualificar S'ha de qualificar
Relacions jeràrquiques Estructura clara important No rellevant No rellevant No rellevant Rellevant en relació amb processos algorísmics Estructura clara important per a la visualització sistemàtica de tesaurus, però no per a la visualització alfabètica
Polijerarquies Cal evitar-ho Permès S'ha de qualificar No rellevant Permès Permès
Profunditat jeràrquica Profunditat restringida per l'àmbit de l'aplicació No rellevant No rellevant No rellevant No rellevant Es necessiten nivells per estructurar el domini. Important per a visualització sistemàtica de tesaurus no per a visualització alfabètica
Relacions associatives No rellevant No rellevant No rellevant Rellevant per ampliar el context vàlid Rellevant en relació amb processos algorísmics Relacions important per a visualització sistemàtica de tesaurus no per a visualització alfabètica
Definicions No rellevant No rellevant No rellevant No rellevant No rellevant Rellevant
Notes No rellevant No rellevant No rellevant No rellevant No rellevant Rellevant

Taula 2. Requisits estructurals per a diferents escenaris d'aplicació

Si l'estructura del tesaurus proporciona informació necessària per a processos algorísmics, la importància de les relacions jeràrquiques i associatives varia no només en funció de l'àrea d'aplicació, sinó també de la metodologia aplicada per servir una aplicació específica.

A continuació, abordarem més detalladament els requisits estructurals definits per als diferents escenaris d'aplicació.


6 Anàlisi dels aspectes estructurals

Filtratge o classificació

Un tesaurus es pot utilitzar per filtrar, classificar o navegar pel contingut per categories. Com que les corbes d'aprenentatge per a les classificacions complexes són pronunciades, és preferible una jerarquia estàtica amb un àmbit definit (nombre limitat de conceptes) que no pas una de dinàmica. Per tant, la quantitat d'etiquetes i de conceptes vàlids està restringida per l'aplicació. Les relacions d'equivalència són rellevants per a la categorització, ja que augmenten la consistència semàntica d'un tesaurus, mentre que les polijerarquies i els homònims s'haurien d'evitar ja que incrementen la complexitat. La profunditat jeràrquica està limitada per l'aplicació. En funció de la completesa del vocabulari, la informació addicional sobre les matèries es pot presentar com a part d'un glossari. Les relacions associatives, les definicions i les notes no són rellevants per a la classificació.

Indexació

Un tesaurus pot millorar les funcionalitats estàndard d'indexació per a documents (estadístiques o lingüístiques) tot proporcionant coneixement del domini perquè l'extracció doni millors resultats d'indexació. Com més elevada sigui l'especificitat de domini d'un tesaurus, millors seran els resultats d'indexació. Per tant, el nombre de conceptes i d'etiquetes dins d'un tesaurus està limitat per l'àmbit del domini. Les relacions d'equivalència són molt rellevants per indexar documents, perquè augmenten la capacitat d'exploració lèxica d'un corpus de documents, mentre que la rellevància de relacions jeràrquiques i associatives no és pertinent per a la indexació, ja que principalment tenen un paper en la recuperació d'objectes de contingut indexat, que en el nostre cas queda cobert a l'escenari de recomanació. La indexació anirà acompanyada dels enfocaments estadístics i lingüístics per extreure termes. Això també pot afavorir un enfocament de manteniment semiautomàtic del tesaurus, tot proporcionant termes nous mitjançant la determinació de termes extrets freqüentment no trobats al tesaurus i suggerint-los com a conceptes nous.

Autocompleció

Un tesaurus pot permetre funcionalitats d'autocompleció, la normalització sintàctica de l'entrada de text lliure mitjançant recomanacions basades en una anàlisi de cadenes des del camp d'entrada. L'autocompleció no només ajuda l'usuari a seleccionar termes existents d'una base de coneixement predefinida (per exemple, un tesaurus), sinó que també l'ajuda a obtenir una visió de conjunt dels diferents contexts en què un terme cobra validesa semàntica. Mentre que el nombre de conceptes i etiquetes rellevants està limitat per l'àmbit del domini, les relacions d'equivalència són un dels elements fonamentals dins de les funcionalitats d'autocompleció, ja que ajuden l'usuari a desglossar un terme de cerca arbitrari fins al concepte corresponent. En canvi, les relacions jeràrquiques i associatives són de menor importància per a les funcionalitats d'autocompleció, ja que la informació sobre la profunditat jeràrquica d'un tesaurus normalment no proporciona informació addicional per a la construcció del terme de cerca. D'altra banda, la informació sobre les polijerarquies i els homònims té una importància més gran, ja que ajuden l'usuari a definir el context en què el concepte seleccionat cobra validesa.

Formulació i ampliació de consultes

Un tesaurus com a eina de cerca permet la formulació de consultes i l'ampliació de consultes. Els termes de la consulta es poden ampliar, limitar o traduir basant-se en el corpus terminològic del tesaurus i les relacions semàntiques corresponents. En una cerca moderada, s'utilitzen etiquetes alternatives (relacions d'equivalència) i conceptes relacionats (relacions associatives) per ampliar la consulta de cerca. Mentre que les relacions d'equivalència són adequades per definir el punt lèxic d'entrada a un model de coneixement, les relacions associatives ajuden a ampliar el context en què una consulta de cerca cobra validesa. Les relacions jeràrquiques també es poden utilitzar per mostrar termes de cerca alternatius dins d'un context determinat (dependència de la via d'accés), però normalment tenen una importància menor per a la construcció de la consulta. Per a una millor navegació, els resultats es poden ordenar segons la seva classificació o es poden filtrar d'acord amb facetes definides com a resultat d'una classificació prèvia.

Recomanació

Un tesaurus pot proporcionar recomanacions que poden millorar la recuperació de contingut indexat, els suggeriments d'autocompleció o la formulació i ampliació de consultes mitjançant l'ús del coneixement de domini incorporat al tesaurus a través de les relacions. Tots els tipus de relacions són rellevants per proporcionar recomanacions, però especialment les relacions associatives i les relacions jeràrquiques tenen un paper important, perquè es podrien utilitzar per suggerir consultes de cerca alternatives o per ajudar a recuperar contingut que no estigui directament relacionat amb els termes de cerca, sinó relacionat amb la matèria de la cerca (per exemple, utilitzar termes més amplis o germans en una jerarquia) o relacionat amb l'àmbit de la cerca (per exemple, utilitzar termes relacionats).

Glossari

Els glossaris poden ser beneficiosos per a l'usuari de diverses maneres. Com que l'objectiu és descriure completament els conceptes d'un domini, tots els elements estructurals definits són rellevants. Un glossari hauria de proporcionar una visió de conjunt sistemàtica i completa d'un domini i, d'aquesta manera, podria servir de base de coneixement o referència acordada de terminologia per a aquell domini. Per tant, això implica la necessitat d'aclarir el significat dels conceptes definits en un tesaurus mitjançant definicions, exemples i notes sobre l'àmbit. En aquest context, un glossari basat en tesaurus es pot considerar una font de metadades que, per exemple, es pot utilitzar per proporcionar ajuda contextual als sistemes d'informació.


7 Realitzar aquests casos d'ús amb PoolParty

Mitjançant PoolParty Thesaurus Manager, podeu crear vocabularis controlats i tesaurus basats en estàndards del W3C. Al seu nucli, PoolParty utilitza RDF per representar SKOS i altres vocabularis, com ara Dublin Core o FOAF. Per tant, s'empra un repositori de dades (Triple Store) RDF com a base tecnològica. Mitjançant l'ús de tecnologies web com ara RDF i especialment SKOS, els tesaurus es poden representar d'una manera estandarditzada. Si bé OWL oferiria més possibilitats de crear models de coneixement, es considera massa complex per al treballador mitjà de serveis d'informació.

En comparació amb altres sistemes que encara es basen en bases de dades relacionals, PoolParty està llest per consumir i publicar Linked Data (dades enllaçades) des de bon començament. Juntament amb la possibilitat de publicar qualsevol tesaurus basat en PoolParty a través de la interfície de Linked Data, el sistema ofereix un punt final SPARQL per executar consultes de cada projecte de tesaurus. Aquesta tecnologia es pot emprar per integrar un tesaurus a altres plataformes (llocs wiki, CMS, etc.) o motors de cerca.

Gestió col·laborativa de tesaurus

En l'era del web, el més habitual és que les tasques d'enginyeria i de manteniment dels tesaurus es duguin a terme de manera col·laborativa. PoolParty està totalment basat en format web; els administradors només necessiten un navegador web per executar totes les operacions CRUD típiques, com ara afegir nous conceptes o relacions. La seva interfície intuïtiva i basada en clics permet treballar en els conceptes mitjançant la tècnica d'arrossegar i de deixar anar, o l'autocompleció d'etiquetes de conceptes.

De manera predeterminada, PoolParty també publica una versió wiki HTML dels seus tesaurus, cosa que ofereix una alternativa per navegar i editar conceptes, de manera que es puguin implicar més persones en el procés de desenvolupament dels tesaurus. Mitjançant aquesta funció qualsevol persona pot tenir accés a un tesaurus i, opcionalment, també editar, afegir o esborrar etiquetes de conceptes. Les funcions de cerca i autocompleció també estan disponibles. El codi HTML del sistema wiki també s'enriqueix amb RDFa i, d'aquesta manera, s'exposen totes les metadades RDF associades a un concepte com a dades enllaçades, que poden ser detectades per motors de cerca RDF i rastrejadors.

Enllaçar conceptes entre diferents vocabularis controlats és una altra manera flexible de crear tesaurus en estructures descentralitzades. Basant-se en els principis de Linked Data, els tesaurus es poden mantenir en llocs diferents, però es poden continuar connectant entre si tot indicant que diversos conceptes són similars o fins i tot idèntics.

Tecnologies

PoolParty està programat amb Java i utilitza SAIL API3. Es pot fer servir amb diversos repositoris de dades, cosa que permet flexibilitat en termes de rendiment i escalabilitat.

La gestió del tesaurus (visualització, creació i edició de conceptes SKOS i les relacions corresponents) es pot fer en una interfície AJAX basat en Yahoo User Interface (YUI). Alternativament, l'edició d'etiquetes es pot fer en una interfície HTML d'estil wiki.

Per a l'extracció de frases clau de documents, PoolParty utilitza PoolParty Extractor (PPX), que fa servir els tesaurus SKOS per crear un model d'extracció. Els documents analitzats s'emmagatzemen localment i s'indexen a Solr juntament amb els conceptes extrets i els conceptes relacionats.

Gestió de tesaurus i dades enllaçades (obertes i tancades)

L'augment de Linked Data generat per l'enorme creixement del moviment Linked Open Data Cloud és un argument important perquè moltes organitzacions publiquin les seves pròpies dades, almenys parcialment, com a Linked Open Data. La interfície Linked Data de PoolParty proporciona una manera fàcil de gestionar-ho, i alhora ofereix opcions per personalitzar el procés de publicació. Com que PoolParty no és només un sistema que serveixi a les organitzacions governamentals, sinó també a les empreses amb solucions de gestió de metadades, els mecanismes Linked Data de PoolParty es poden utilitzar com a tecnologia d'integració de dades també darrere dels tallafocs corporatius.

PoolParty no només publica els seus tesaurus com a Linked Open Data (addicionalment, en un punt final SPARQL), sinó que també consumeix LOD per ampliar els tesaurus amb informació de fonts LOD. Els conceptes dels tesaurus es poden enllaçar, per exemple, amb DBpedia mitjançant el servei de cerca DBpedia, que agafa l'etiqueta d'un concepte i retorna possibles candidats coincidents. L'usuari pot seleccionar el recurs DBpedia que coincideixi amb el concepte del seu tesaurus i, d'aquesta manera, crear una relació d'assignació SKOS entre l'URI del concepte a PoolParty i l'URI de DBpedia. Es pot utilitzar el mateix enfocament per enllaçar amb altres tesaurus SKOS disponibles com a Linked Data.

També es poden recuperar altres repositoris de la font de dades de destinació, per exemple, el resum de DBpedia es pot convertir en un SKOS: la definició i les coordenades geogràfiques es poden importar i utilitzar per visualitzar la ubicació d'un concepte al mapa, si cal. La informació de la categoria de DBpedia també es pot utilitzar per recuperar conceptes addicionals d'aquella categoria com a germans del concepte en qüestió, per tal d'alimentar el tesaurus.

Per generar tesaurus "sembrats" per a un determinat domini, l'equip de PoolParty ha desenvolupat un mètode per extreure automàticament aquestes estructures de DBpedia.

Gestió corporativa de vocabularis i metadades PoolParty

PoolParty és un sistema corporatiu preparat que ofereix una alta fiabilitat, usabilitat, rendiment i mecanismes com la commutació, cosa que garanteix cicles de treball suaus i protecció contra la pèrdua de dades. Funciona tant sobre servidors Linux com Windows. Un procés constant d'assegurament de la qualitat al voltant del producte —inclosa documentació d'alta qualitat— acompanya el desenvolupament global de PoolParty. La gestió corporativa de vocabularis i metadades està totalment implementada i els estàndards oberts garanteixen una elevada seguretat de la inversió. La integració dels tesaurus PoolParty a sistemes corporatius es pot fer basant-se en API estàndards.

PoolParty permet la importació de tesaurus en format SKOS (amb serialitzacions que inclouen RDF/XML, N-Triples o Turtle) o Zthes.

Explotació de text i cerca semàntica

PoolParty ofereix una varietat d'opcions per facilitar la gestió de tesaurus mitjançant l'explotació de text, així com solucions per fer possibles solucions de cerques semàntiques. PoolParty pot analitzar diferents formats de text com ara HTML, PDF o Word, i pot detectar termes rellevants dins d'un document basant-se en tesaurus existents o servir-los com a nou terme candidat per ampliar més un tesaurus. Amb PoolParty Thesaurus Management, els repositoris de documents es poden indexar i es poden fer cerques de manera semàntica des de bon començament.

La família de productes PoolParty està formada per dos components més que, juntament amb la gestió de tesaurus, constitueixen la base per a les solucions corporatives de cerques semàntiques.

Solucions de cerques verticals:la família de productes PoolParty

La família de productes PoolParty està formada per tres components: PoolParty Thesaurus Management (PPTM), PoolParty Extractor (PPX) i PoolParty Semantic Search (PPSS). Combinats, aquests elements constitueixen la base per a solucions de cerques semàntiques veritables i cerques verticals. PoolParty pot indexar informació no estructurada, semiestructurada i estructurada, i pot integrar diferents fonts basant-se en un tesaurus semàntic.

PoolParty Semantic Search es lliura amb una API de cerca completa, que es pot utilitzar per a la integració en plataformes corporatives existents. L'API permet l'autocompleció categoritzada, la cerca facetada, la cerca de text complet i les ajudes a la cerca, que es basen en tesaurus que representen el coneixement de fons de l'expert del domini. PPSS pot gestionar milions de documents, és molt ràpid i està preparat per a aplicacions de cerques verticals també a grans empreses. PPSS també es pot utilitzar per al desenvolupament d'ajudes a la cerca que s'empren normalment a botigues virtuals, serveis d'assistència tècnica en línia i aplicacions de centres d'atenció telefònica.


8 Conclusió

En aquest article hem perfilat els supòsits conceptuals sobre els requisits estructurals de diverses aplicacions basades en tesaurus. La nostra anàlisi indica que alguns tipus d'aplicació permeten crear un únic tesaurus per a diferents escenaris (per exemple, autocompleció i formulació o ampliació de consultes), mentre que altres aplicacions exigeixen tesaurus diferents o un subconjunt definit de tesaurus per permetre determinades funcions (per exemple, filtratge o classificació i indexació). Una altra conclusió que es pot extreure és que diferents escenaris d'aplicació impliquen complexitats diferents (per exemple, autocompleció vs. glossari) i, per tant, difereixen en termes d'esforç i de costos necessaris per desenvolupar un vocabulari amb una qualitat suficient. Per tant, s'han de tenir en compte dos aspectes fonamentals a l'hora de desenvolupar un tesaurus:

Tenint en compte aquests aspectes, els enginyers de coneixement poden planificar de manera efectiva les funcionalitats requerides d'un tesaurus i, per tant, millorar l'eficiència de l'esforç d'enginyeria basat en tesaurus.

La família de productes PoolParty ofereix una àmplia varietat d'opcions per crear aquests tipus de tesaurus d'acord amb els estàndards del W3C i les millors pràctiques de Linked Data. Els tres grans temes són: cerca semàntica, gestió de tesaurus i dades enllaçades. El nucli de PoolParty utilitza tecnologies web semàntiques, que es basen en estàndards oberts i tecnologies d'avantguarda. La gestió professional de les metadades és la clau per a la gestió eficient de la informació a grans organitzacions i al web. PoolParty combina web semàntic, explotació de text i enginyeria col·laborativa del coneixement per fer que les aplicacions siguin més intel·ligents.


Bibliografia

Abel, F. (2008). "The benefit of additional semantics in folksonomy systems". En: Proceedings of the 2nd PhD workshop on information and knowledge management. New York: ACM, p. 49-56.

ANSI/NISO Z39.19 (2005). Guidelines for the construction, format, and management of monolingual controlled vocabularies.

Avesani, P.; Cova, M. (2005). "Shared lexicon for distributed annotations on the web". En: Proceedings of the 14th international conference on World Wide Web. New York: ACM, p. 207-214.

Broughton, V. (2006). Essential thesaurus construction. London: Facet Publishing.

Burke, R. (2000). "Knowledge-based recommender systems". En: Encyclopedia of Library and Information Systems, vol. 69.

Cafarella, M. J.; Halevy, A.; Madhavan, J. (2011). Structured data on the web. New York: ACM, p. 72-79.

Davies, J.; Harris, S.; Crichton, C. et al. (2008). "Metadata standards for semantic interoperability in electronic government". En: Proceedings of the 2nd international conference on theory and practice of electronic governance. New York: ACM, p. 67-75.

Echarte, F.; Astrain, J. J.; Córdoba, A. et al. (2009). "Acoar: a method for the automatic classification of annotated resources". En: Proceedings of the fifth international conference on knowledge capture. New York: ACM, p. 181-182.

Gaus, W. (2005). Dokumentations-und Ordnungslehre: Theorie und Praxis des Information Retrieval. Berlin: Springer.

Golub, K.; Moon, J.; Tudhope, D. et al. (2009). "Entag: enhancing social tagging for discovery". En: Proceedings of the 9th ACM/IEEE-CS joint conference on digital libraries. New York: ACM, p. 163-172.

Isaac, A.; Summers, E. (2008). Skos simple knowledge organization system primer.

ISO 2788 (1986). Documentation-guidelines for the establishment and development of monolingual thesauri.

ISO 5964 (1985). Documentation-guidelines for the establishment and development of multilingual thesauri.

ISO 25964-1 (2011). Information and documentation-thesauri and interoperability with other vocabularies-part 1: Thesauri for information retrieval.

Kless, D.; Milton, S. (2010). Towards quality measures for evaluating thesauri.

Kules, B.; Kustanowitz, J.; Shneiderman, B. (2006). "Categorizing web search results into meaningful and stable categories using fast-feature techniques". En: Proceedings of the 6th ACM/IEEE-CS joint conference on digital libraries. New York: ACM, p. 210-219.

Miles, A.; Bechhofer, S. (2008). Skos simple knowledge organization system reference.

Miles, A.; Rogers, N.; Beckett, D. (2004). Skos-core guidelines for migration: guidelines and case studies for generating rdf encodings of existing thesauri.

Morshed, A.; Keizer, J.; Johannsen, G. et al. (2010). From agrovoc owl model towards agrovoc skos model.

Neubert, J. (2009). "Bringing the 'thesaurus for economics' on to the web of linked data". En: Proceedings of the linked data on the web workshop, vol. 538.

Orlandi, F.; Passant, A. (2010). "Semantic search on heterogeneous wiki systems". En: Proceedings of the 6th international symposium on wikis and open collaboration. New York: ACM, p. 4:1-4:10.

Park, J.; Bui, Y. (2006). An assessment of metadata quality: A case study of the national science digital library metadata repository.

Rodríguez, J. M.; Azcona, E. R.; Paredes, E. R. (2008). Promoting government controlled vocabularies for the semantic web: the eurovoc thesaurus and the cpv product classification system.

Sacco, O.; Bothorel, C. (2010). "Exploiting semantic web techniques for representing and utilising folksonomies". En: Proceedings of the international workshop on modeling social media. New York: ACM, p. 9:1-9:8.

Sah, M.; Hall, W.; Gibbins, N. M. et al. (2007). "Semport: a personalized semantic portal". En: Proceedings of the eighteenth conference on hypertext and hypermedia. New York: AMC, p. 31-32.

Sah, M.; Wade, V. (2010). "Automatic metadata extraction from multilingual enterprise content". En: Proceedings of the 19th ACM international conference on information and knowledge management. New York: ACM, p. 1665-1668.

Soergel, D. (1994). Indexing and retrieval performance: The logical evidence.

Soergel, D. (2002). "Thesauri and ontologies in digital libraries: 1. structure and use in knowledge-based assistance to users". En: Proceedings of the 2nd ACM/IEEE-CS joint conference on digital libraries. New York: ACM, p. 415-415.

Stvilia, B.; Gasser, L.; Twidale, M. B. et al. (2007). A framework for information quality assessment.

Tordai, A.; Ossenbruggen van, J.; Schreiber, G. (2009). "Combining vocabulary alignment techniques". En: Proceedings of the fifth international conference on knowledge capture. New York: ACM, p. 25-32.

Waitelonis, J.; Sack, H.; Hercher, J. et al. (2010). "Semantically enabled exploratory video search". En: Proceedings of the 3rd international semantic search workshop. New York: ACM, p. 8:1-8:8.

Wang, Y.; Stash, N.; Aroyo, L. et al. (2009). "Semantic relations for content-based recommendations". En: Proceedings of the fifth international conference on knowledge capture. New York: ACM, p. 209-210.