Selecció i implementació d'un motor de cerca a la Biblioteca Virtual de la UOC


Jordi Serrano Muñoz

Responsable d'avaluació i explotació dels serveis bibliotecaris de la UOC

jserrano@uoc.edu


Adoració Pérez Alarcón

Directora de la Biblioteca Virtual de la UOC

dora@uoc.edu

Resum [Abstract] [Resumen]

A partir de diferents enquestes de satisfacció institucional i de l'anàlisi de l'arxiu “log” del servidor de la biblioteca respecte a l'ús i al comportament dels usuaris, es va detectar que cada cop era més complex accedir als continguts i serveis de manera proporcional al creixement d'aquests darrers i de l'augment del nombre d'usuaris. El creixement dels recursos i de les diferents aplicacions desenvolupats a la Biblioteca Virtual de la UOC (BUOC) va fer necessari la selecció i la implementació d'un motor de cerca que facilités de manera global l'accés als recursos d'informació i als serveis oferts a la comunitat virtual de la UOC d'acord amb la tipologia d'usuari, l'idioma i el seu entorn d'aprenentatge. En aquest article s'exposa el procés d'anàlisi de diferents productes i la implementació de Verity a la BUOC amb els desenvolupaments realitzats en les diferents aplicacions perquè el motor de cerca pugui fer la seva funció.


Introducció

Des dels seus inicis al curs 1995-96, la Biblioteca Virtual de la Universitat Oberta de Catalunya, la BUOC (http://biblioteca.uoc.edu), té com a missió donar suport a l'activitat docent, de recerca i de gestió a la comunitat virtual de la Universitat Oberta de Catalunya (UOC) per mitjà del seu Campus Virtual.

El Campus Virtual és bàsicament una intranet educativa on interactuen els membres de la UOC, i des d'on la BUOC dóna servei a aquests membres per mitjà del seu servidor web.

Durant el curs 1995-96, s'oferia als usuaris l'accés per web a una base de dades Oracle que contenia la informació bibliogràfica dels documents físics disponibles i una bústia electrònica d'atenció a l'usuari, mentre es treballava de cara al curs 1996-97 en la instal·lació de VTLS i l'adaptació de la passarel·la web per incloure la demanda de préstecs en línia (Maniega, 1997) així com en la creació de formularis que actuessin com a tauler virtual d'informació i se seleccionaven recursos digitals accessibles per mitjà de pàgines estàtiques.

A partir del curs 1996-97, es van incorporant documents electrònics de compra i també documents generats per la Universitat i per la mateixa biblioteca i s'inicia la digitalització de sumaris i resums de llibres físics i dels sumaris de les revistes en paper subscrites per la UOC. En el curs 1999-2000 se substitueixen les pàgines estàtiques amb recursos d'informació per un gestor de recursos digitals conegut per DinaWEB (Serrano, 1999) amb l'estàndard Dublin Core, del qual actualment disposem d'una nova versió (DIMAX) que inclou a més els estàndards d'aprenentatge virtual (e-learning) IMS i SCORM.

Paral·lelament, el nombre d'usuaris passa d'aproximadament 200 als gairebé 26.000 del curs actual i l'oferta d'estudis s'amplia a diferents iniciatives com ara màsters, postgraus, accés a majors de 25 anys, Escola Virtual d'Idiomes i un doctorat en Societat de la Informació.


Unes dades preocupants

Cada final de semestre, la UOC fa una enquesta entre l'alumnat. Les preguntes relatives a la BUOC mostren un grau de satisfacció elevat, però en les respostes lliures l'alumnat feia comentaris relatius a la complexitat de recuperar la informació adient entre tot el conjunt d'informació disponible a la Biblioteca. Pel que fa a l'estudi del “log”, hem obtingut dades segons les quals cada vegada els usuaris passaven més temps a la biblioteca i els passos per arribar a la informació es feien més complexos.

Aquests aspectes tenien una correlació directa amb l'increment de recursos digitals com a conseqüència de l'oferta formativa, que s'intenta minimitzar amb la implementació de prestatgeries virtuals o de petites biblioteques amb el material bàsic per a cada assignatura, i paral·lelament s'anaven incrementant els serveis especialitzats amb les diferents aplicacions per facilitar-ne l'accés.

L'any 2000, l'usuari disposava de l'OPAC per accedir a documents físics i digitals disponibles a la UOC o, en el servidor de la biblioteca, del DinaWEB, per accedir a recursos digitals tant interns com externs i també d'un petit motor de cerca que permetia accedir als documents del servidor i als sumaris i resums, així com als sumaris de les publicacions periòdiques; a més, també disposava de serveis com ara els de notícies i de distribució electrònica de sumaris. Per tant, l'usuari es trobava, des de la pàgina principal del servidor web de la biblioteca, amb la necessitat de prendre una decisió prèvia respecte al tipus de material que volia recuperar (paper, digital, digital creat per la Biblioteca, etc.), cosa que l'obligava, en la majoria dels casos, a repetir la cerca en les diferents aplicacions.

Aquest escenari ens va dur a un procés de reflexió en el qual es va veure la necessitat de crear un únic punt d'accés, amb independència de les aplicacions existents i futures, que millorés la recuperació d'informació en el servidor web adaptant-se als diferents formats i aplicacions.

Paral·lelament al desenvolupament i a la implementació del motor de cerca, un test d'usabilitat dut a terme en el Campus Virtual i a la Biblioteca confirmava la complexitat d'aquesta a l'hora d'utilitzar-la (Maniega, 2002), i ens va demostrar aquesta necessitat a més de la de redissenyar la interfície web de la Biblioteca Virtual.


El procés de selecció

A part del volum d'informació disponible, ens trobàvem davant de diferents estàndards com ara MARC, XML, IMS, SCORM i W3C i de diferents formats de documents: MS-Office, RTF, HTML, PDF i ASCII, entre d'altres.

Els aspectes anteriors feien necessari localitzar una eina que facilités l'accés a la informació independentment del suport, del format, de l'entorn d'usuari i de l'idioma de l'entorn i dels recursos.

En la definició del producte, es requeria que fos fàcil d'administrar, que les cerques es fessin de manera familiar a l'usuari (com ara Google, Altavista, etc. ), que la visualització de resultats tingués una forma clara i parametritzable i que tingués en compte diferents tipus de cerca. Es va redactar un document de requeriments (Biblioteca de la UOC, 1999) que recollia tot un conjunt d'aspectes agrupats en sis grans apartats:

1. Maquinari:

— Plataforma SUN Solaris
— RAM
— Compressió índexs (espai de disc)


2. Indexació:

— Per arxiu
— Per directori
— Per arxius remots a partir de l'URL
— Actualitzable de manera automàtica dels canvis en els continguts de la pàgina


3. Formats:

— HTML
— Text
— PDF
— MS-Office
— XLS (Excel)
— DOC (Word)
— MDB (Access)
— PPT (PowerPoint)
— Missatges de correu electrònic


4. Tipus de cerca:

— Sinònims
— Paraula
— Camps
— Rang (>, <, =)
— Frase i proximitat
— Booleana
— Caràcters de substitució (?, *, ..)
— Llenguatge natural
— Semàntica
— Query by Example


5. Part client (usuari):

— Personalització de la cerca
— Guardar/actualitzar cerques (perfils)
Push


6. Multifunció:

— Catàleg
— Web
— Internet
— Motor/s de cerca
DinaWEB
— Bases de dades remotes


El punt 6, referit a la multifunció, és el que es va considerar més rellevant. L'eina havia de “dialogar” amb les aplicacions existents a la BUOC.

A partir dels punts anteriors, es va fer un treball de cerca bibliogràfica per familiaritzar-se amb el tema, i entre les fonts consultades cal destacar els butlletins digitals de Search Engine Watch i Axandra Search Engine Facts.


Els productes

Si ens movem en el camp dels motors de cerca més complexos que els tradicionals i que incorporen més prestacions i possibilitats, ens trobem en un mercat en expansió i en constant creixement. El 1997 una tercera part del mercat d'aquests productes se centrava en cinc empreses i productes (Nerney, 1997): PC Docs Fulcrum Search Server (Fulcrum Technologies); BASIS (Information Dimensions); Dataware II Knowlegde (Dataware Technologies); Verity: Information Server (Verity Inc.) i Excalibur Retrievalware (Excalibur Technologies).

Altres autors a la mateixa època els reduïen a tres (Boery, 1997): Excalibur Retrievalware, Verity, i PC Docs.

Durant el 1998 i el 1999, es van incorporar al mercat noves aplicacions que també calia considerar: Inmagic Db/Text Intranet Spider (Inmagic Inc.); Ultraseek Server (Infoseek Technology); Personal Librarian Web Turbo (America Online); InfoMagnet (CompassWare Development); Altavista Search Intranet (Altavista Inc.).

Es va fer un estudi de tots els productes i, en els casos en què va ser possible, es va contactar amb els proveïdors per a una demostració, a més de provar-los en llocs en explotació.

Els resultats es van incloure en taules com per exemple:

Comparació dels diferents productes respecte als tipus de cerca

Taula 1. Comparació dels diferents productes respecte als tipus de cerca


Ponderats els resultats, les nostres opcions es van decantar per Excalibur Retrievalware i Verity, i finalment ens vam decidir per aquest darrer no tan sols pel cost, sinó pel suport tècnic que proporcionava a una persona amb experiència en el món de les biblioteques.


Instal·lació

L'any 2002, es va iniciar la instal·lació de Verity (Verity Information Server 3.7) en el servidor de la BUOC amb les característiques de maquinari següents: Sun Ultra-60 amb processador 2 UltraSPARC-II a 296 MHz i una memòria de 512 MB amb el sistema operatiu Solaris 8 i amb la versió 1.3.26 d'Apache.


Definició de les col·leccions

A Verity, les col·leccions s'entenen com a grups de documents. Ateses les característiques de la BUOC, es va procedir a agrupar la informació i els documents segons l'idioma:

  Català Castellà Anglès Comú (Informació o documents independents de l'idioma o entorn d'usuari)
Documents electrònics       X
OPAC X X X  
Recursos digitals DinaWEB/DIMAX X X X  
Sumaris i resums de llibres       X
Articles dels sumaris de revistes UOC       X
Pàgines estàtiques amb informació i serveis X X X  

Taula 2. Col·leccions creades segons l'idioma

Un cop indexades aquestes col·leccions i fetes les primeres proves de cerca i visualització, es va decidir subdividir addicionalment la col·lecció de documents electrònics per format, ja que donava més flexibilitat a l'hora de visualitzar els resultats.


Les parts més fàcils

Les parts més fàcils a l'hora de la indexació van ser els documents electrònics i les pàgines d'informació i serveis. El procés és senzill, com en qualsevol motor de cerca, i la recuperació mostra la informació inclosa a les metadades de la pàgina o del document: títol, autor i descripció (en cas de no tenir-ne, mostra la descripció que genera el mateix cercador). Es van aplicar per mitjà del llenguatge de Verity (SearchScript), especialment quan l'autor és la mateixa Biblioteca de la UOC o la metadada del títol en els documents electrònics de compra està en blanc o conté text del tipus “file c://mydocuments/....”. Quasi per casualitat, la divisió en col·leccions va permetre d'afegir identificadors del tipus “Document electrònic”, “Informació i serveis” o “Manual d'ús” previs al resultat de la cerca.

Exemple de resultats de documents electrònics i pàgines d'informació i serveis

Figura 1. Exemple de resultats de documents electrònics i pàgines d'informació i serveis


Una mica de complexitat

Sumaris i resums

El repte següent van ser els sumaris i els resums dels llibres físics disponibles a la Universitat. La indexació no tenia més complexitat que en el cas anterior, però la visualització no aportava més valor.

Es va decidir incloure l'accés a l'OPAC amb la informació bibliogràfica i la possibilitat de demanar en préstec el document objecte del resum o del sumari. La solució va partir del nom del document que està relacionat amb l'etiqueta 035 de VTLS: el SearchScript permet de “trossejar” el nom de l'arxiu i “enganxar-lo” a una crida predefinida a VTLS.

Sumari i resum d'un document amb accés a l'OPAC i al préstec

Figura 2. Sumari i resum d'un document amb accés a l'OPAC i al préstec


DinaWEB/DIMAX

Dins el gestor de recursos digitals, els primers intents d'indexació es van dur a terme directament a partir de la base de dades, però els resultats no van ser prou satisfactoris. Es va decidir de fer una extracció etiquetada en XML i definir els camps dins els paràmetres de la col·lecció. Cada 24 hores es fa de manera automatitzada una extracció de l'arxiu XML que s'exporta al servidor web de la Biblioteca, on Verity actualitza la informació continguda a l'arxiu XML de cada idioma, per exemple:

<?xml version="1.0" encoding="ISO-8859-1"?>
<ROWDATA>
<ROW>
<ID_RECURS>10</ID_RECURS>
<DATA>27/08/99</DATA>
<DATA_REVISIO>18/11/03</DATA_REVISIO>
<DATA_CADUCITAT></DATA_CADUCITAT>
<CONTROL_TREN></CONTROL_TREN>
<USUARI></USUARI>
<PWD></PWD>
<AUTOR></AUTOR>
<PROVEIDOR></PROVEIDOR>
<PUBLICAT_A></PUBLICAT_A>
<PAIS>Espanya</PAIS>
<IDIOMA_RECURS>es</IDIOMA_RECURS>
<FORMAT>HTML</FORMAT>
<PROTOCOL>HTTP</PROTOCOL>
<TEXT_COMPLERT>0</TEXT_COMPLERT>
<AMBIT_GEOGRAFIC>Espanya</AMBIT_GEOGRAFIC>
<TITOL>EDIT. Base de datos de editoriales españolas e hispanoamericanas</TITOL>
<ABSTRACT>Base de dades del Ministeri d'Educació i Cultura que inclou un cens d'editorials espanyoles i les més significatives d'hispanoamericanes.</ABSTRACT>
<URL>http://www.mcu.es/bases/spa/edit/EDIT.html</URL>
<MANUAL></MANUAL>
<MANUAL_UOC></MANUAL_UOC>
<BUIDAT_A></BUIDAT_A>
<PERIODICITAT></PERIODICITAT>
<ISSN_ISBN></ISSN_ISBN>
<EDICIO></EDICIO>
<MATERIA_CAT>Editors i edició - </MATERIA_CAT>
<MATERIA_CAS>Editores y edición - </MATERIA_CAS>
<MATERIA_ANG>Publishers and Publishing - </MATERIA_ANG>
<LLISTA_NODES>Editorials(663) -Documentació(268) -</LLISTA_NODES>
</ROW>
</ROWDATA>

Sumaris i articles de revistes

A partir de l'experiència anterior, va ser més fàcil treballar aquest conjunt de documents, ja que la gestió dels sumaris i els seus articles comparteixen una estructura similar al DinaWEB/DIMAX. El procediment va ser el mateix, és a dir, extreure un arxiu etiquetat en XML. Però com que en els sumaris i resums dels llibres la informació no aportava cap valor afegit, es va veure necessari enllaçar-ho amb el sistema de distribució electrònica de sumaris (DESU), que incorpora la possibilitat de fer comandes al Servei d'Obtenció de Documents (SOD). Quan l'usuari recupera un article, Verity en mostra les dades: títol, autor, paginació, revista, volum, any, etc., i permet l'accés a l'índex de la revista, al sumari del número i a la funcionalitat de demanar una còpia de l'article (figura 3).

Comanda al Servei d'Obtenció de Documents (SOD) a partir de Verity

Figura 3. Comanda al Servei d'Obtenció de Documents (SOD) a partir de Verity


La part més difícil

La part més difícil va ser la indexació de l'OPAC, ja que indexava tot un conjunt d'elements que no eren rellevants per a l'usuari: les pantalles intermèdies, informació dels exemplars, etc.

El que interessava era indexar les pantalles d'informació bibliogràfica (card screen) i es va optar per fer un petit programa en Perl a VTLS, que generava una pàgina estàtica a partir de l'etiqueta 035 amb la crida a cada pantalla de la informació bibliogràfica. Es donaven instruccions a Verity d'indexar tots els URL de la pàgina estàtica.

A partir d'aquí es va detectar que el robot o spider anava saltant per tots els enllaços de cada pantalla intermèdia, per la qual cosa es van afegir, a la passarel·la web on es genera la pàgina, la metadada que indica als robots i motors de cerca que indexin tan sols la pàgina recuperada i no continuïn indexant els enllaços inclosos:

<meta name="robots" content="index, nofollow">

Un cop resolt aquest aspecte, es va comprovar que, d'amigable, la visualització dels resultats no n'era gaire, per la qual cosa es va decidir modificar novament la passarel·la web i afegir en Perl instruccions que etiquetessin alguns dels camps de VTLS: autor/s, títol/s, matèries en català i castellà, edició, dades editorials i, en el cas de bibliografia recomanada i materials didàctics, l'assignatura o assignatures a les quals està adscrit el document.

Aquest aspecte va ajudar a aportar valor a la informació bibliogràfica dels documents, ja que l'usuari, a més de la informació aportada per l'OPAC, pot accedir al sumari i al resum i disposar de la possibilitat de demanar el document en préstec. En el cas de la bibliografia recomanada, es facilita l'accés a la llista de tots els documents relacionats amb l'assignatura (figura 4).

Documents de l'OPAC amb accés a la informació complementària (sumari, resum), a la sol·licitud de préstec i a la bibliografia de l'assignatura

Figura 4. Documents de l'OPAC amb accés a la informació complementària (sumari, resum), a la sol·licitud de préstec i a la bibliografia de l'assignatura


Disseny de la interfície i restriccions d'accés

Un cop testats i validats els diferents processos d'indexació i recuperació, es va procedir a dissenyar la interfície de consulta i els resultats per mitjà de plantilles i a configurar l'opció de cerca avançada. Per fer-ho es van tenir en compte els resultats i les recomanacions de l'auditoria d'usabilitat feta a tota la Biblioteca Virtual, incloent-hi les recomanacions del W3C respecte a persones amb discapacitats visuals. Finalment, un darrer aspecte, probablement un dels més rellevants de la implementació, va ser la restricció d'accés en relació amb les llicències o els serveis a part dels continguts de la BUOC. Fins aleshores, les mateixes aplicacions DinaWEB/DIMAX, DESU o distribució de sumaris i l'OPAC eren els que feien aquesta restricció. Bàsicament es tractava de configuracions predefinides de tipus d'usuari dins el Campus Virtual que certificaven o autoritzaven l'accés als recursos, a documents protegits o als serveis, a través d'una passarel·la transparent per a l'usuari anomenada TREN.

L'esquema d'aquesta passarel·la (figura 5) es fa a partir del navegador de l'usuari i de la connexió a algun dels “Frontends” del Campus Virtual, que llegeix en el servidor d'aplicacions els “privilegis” dels usuaris com ara aules d'estudi, expedient acadèmic i, en el nostre cas, les funcionalitats accessibles de la Biblioteca.

Esquema de la passarel·la TREN dins el Campus Virtual

Figura 5. Esquema de la passarel·la TREN dins el Campus Virtual


Aprofitant la nova versió de la Biblioteca Virtual, es va optar per desenvolupar una aplicació que des de la Biblioteca “agafa” durant tota la connexió al Campus la identificació i el codi de la sessió de connexió de l'usuari i es va “arrossegant” o “transportant” en cada una de les accions que l'usuari fa dins el servidor web.

Aquesta funcionalitat es va incloure com una variable dins els paràmetres de Verity, i, així, en una connexió externa al Campus Virtual des d'Internet al servidor de la BUOC (http://biblioteca.uoc.edu) aquesta variable és buida, i, per tant, no permet l'accés als recursos digitals de pagament i a serveis com el préstec o de serveis documentals de subscripció.

En el Campus Virtual amb aquesta informació inclosa dins la variable de Verity, permet l'accés exclusiu, en funció de l'entorn d'aprenentatge de l'usuari, als continguts i serveis propis de la biblioteca, seleccionats i elaborats per a cada un d'aquests entorns.


Conclusions

Atesos el creixement del nombre d'usuaris, i l'augment de recursos, d'aplicacions i de serveis, des de la BUOC es va veure necessari implementar una eina que en facilités l'accés. La idea original era la implementació d'un motor de cerca similar als que hi ha a Internet, però, una vegada analitzats, es va veure l'oportunitat d'afegir valor als resultats de les diferents cerques i no limitar-se a mostrar una llista de resultats més o menys adients.

A l'hora de seleccionar l'eina, es van prioritzar requeriments que permetessin interactuar o dialogar amb les aplicacions de continguts (DinaWEB/DIMAX i OPAC) i de serveis (préstec, SOD, serveis a mida i sumaris), i altres aplicacionss que es desenvolupessin en el futur.

La complexitat en la tasca d'implementació es va originar a partir del diàleg amb les aplicacions, però la flexibilitat del llenguatge SearchScript que incorpora Verity i el desenvolupament de petites aplicacions van permetre de superar aquestes dificultats.

La coincidència amb l'auditoria d'usabilitat va fer que es pogués adaptar el producte a les recomanacions d'aquesta auditoria i incloure'l a la nova versió de la Biblioteca Virtual. El resultat ha estat un nou punt d'accés que engloba totalment el conjunt de recursos i serveis disponibles a la UOC sense excloure les opcions tradicionals que s'oferien fins al moment de la implementació.


Bibliografia

Axandra Search Engine Facts. <http://www.axandra.com/>. [Consulta 01/04/04].

Biblioteca de la UOC (1999). Selecció d'un motor de cerca per la Biblioteca de la UOC: anàlisi de productes. Document intern.

Boeri, Robert; Hensel, Martin (1997). “What's next for text: Retrieval trends past, present and push”. EMedia Professional (April 1997), p. 53.

Maniega Legarda, David (2002). “Aplicación de un estudio de usabilidad en bibliotecas digitales: la Biblioteca Virtual de la UOC”. En: Workshop CALSI (2002: València). Workshop CALSI. Universitat Politècnica de València, 22-23 octubre 2002. Consultable a: <http://biblioteca.uoc.edu/cgi-bin/pass/byteserver.pl/docs_elec/comunicacions/12882.pdf.> [Consulta: 01/04/04].

Maniega Legarda, David; Serrano Muñoz, Jordi (1997). “El préstec de documents en un campus virtual: generant un nou concepte”. En: Jornades Catalanes de Documentació (6es: 1997: Barcelona). 6es Jornades Catalanes de Documentació: cap a la societat digital. Barcelona: SOCADI; COBDC, 1997. Consultable a: <http://biblioteca.uoc.edu/cgi-bin/pass/byteserver.pl/docs_elec/ponencies/1909.pdf.> [Consulta: 01/04/04].

Nerney, Chris (1997). “Searching for true knowlegde”. Network World, vol. 14 (24) (June 16, 1997), p. 42.

Search Engine Watch. <http://searchenginewatch.com/>. [Consulta: 01/04/04].

Serrano Muñoz, Jordi; Maniega Legarda, David; Barragán Yebra, Cristina; Martí, Juanjo; Beleña, Clara; Capillas, Ramon (1999). “DinaWEB: l'organització de recursos accessibles en línia a la Biblioteca Virtual de la Universitat Oberta de Catalunya”. En: Jornades Catalanes de Documentació (7es: 1999: Barcelona). 7es Jornades Catalanes de Documentació. Barcelona: COBDC, 1999. p. 445-453. Consultable a: <http://biblioteca.uoc.edu/cgi-bin/pass/byteserver.pl/docs_elec/ponencies/3525.pdf>. [Consulta: 01/04/04].


Data de recepció: 21/03/04. Data d'acceptació: 26/04/04.