BID: textos universitaris de Biblioteconomia i Documentació

Número 6, juny 2001


Servei d'alerta d'informació NewsAgent
[English version]
Clara Baiget
LITC, South Bank University
baigetc@sbu.ac.uk

Resum

S'exposa l'experiència NewsAgent for library and information professionals, un servei de difusió selectiva de la informació (DSI) dirigit als professionals del món de la biblioteconomia i la documentació, per posar-los al dia amb notícies del seu interès. També es mostra l'origen i els objectius del servei, la planificació i el desenvolupament i es fa un balanç del funcionament.


1  Introducció

Davant de l'allau d'informació que hi ha a Internet, es fa difícil seleccionar informació rellevant sense haver de perdre gaire temps. A partir d'aquí va sorgir la idea del projecte NewsAgent for library and information professionals <http://newsagent.sbu.ac.uk>, un servei de difusió selectiva de la informació (DSI).

Està dirigit als professionals del món de la biblioteconomia i la documentació. D'acord amb el perfil que els usuaris descriuen quan s'hi subscriuen, un servidor filtra les notícies de manera que cada un només rebi aquelles que l'interessen. Actualment té més de 800 subscriptors.

És un projecte de recerca subvencionat pel Govern del Regne Unit, a través del programa Electronic Libraries <http://www.ukoln.ac.uk/services/elib/> (eLib). L'experiment ha donat lloc a un servei de gran utilitat —demostrada per les opinions de nombrosos usuaris—, però ara que el projecte ha arribat a l'última fase cal analitzar-ne la futura viabilitat econòmica i la continuïtat. En principi la South Bank University vol seguir promocionant-lo, però encara no es veu una opció clara de finançament.

El projecte també ha resultat molt interessant per experimentar amb agents intel·ligents i robots de cerca.


2  Programa eLib

L'eLib és un programa de cinc anys del JISC <http://www.jisc.ac.uk> (Joint Information Systems Committee), un ens subvencionat pel Higher Education Funding Council d'Anglaterra, Escòcia i Gal·les, per promocionar l'ús dels sistemes d'informació i les tecnologies d'informació i comunicació (TIC) a l'educació superior.

L'eLib va començar el 1994, amb el nom de FIGIT, amb l'objectiu d'afavorir que les biblioteques adoptessin les tecnologies de la informació. El 1999 es va donar per tancat, quan ja s'havien fet més de 70 projectes, amb un cost total superior a 5.400 milions de pessetes.

Els projectes eLib <http://www.ukoln.ac.uk/services/elib/projects/> es finançaven durant un temps màxim de tres anys. Després havien de ser rendibles per si mateixos. En el cas de NewsAgent encara s'estan estudiant les possibilitats de subvencions econòmiques per continuar-lo.


3  Projecte NewsAgent

3.1  Objectiu

L'objectiu de NewsAgent fou crear un servei que filtrés la informació d'acord amb un perfil d'interès personal establert per l'usuari. Per dur-lo a terme calia fer un sistema de recol·lecció que seleccionés, classifiqués i enviés els continguts automàticament.

La funció principal de NewsAgent és la d'alerta d'informació, tot i que també incorpora la possibilitat de fer cerques sobre les notícies ja enviades (que queden emmagatzemades en una base de dades, consultables a través del web).


3.2  Fases

Primera: de l'1 d'abril de 1996 al 31 de març de 1998

Durant la primera fase es va dissenyar el que seria el projecte, per tal de sotmetre'l a l'avaluació del programa eLib i obtenir els recursos econòmics per finançar-lo. Es va crear el consorci que havia de fer les diferents feines, en el qual destaquen les institucions següents:

Aquesta va ser una època d'avaluació constant, i de definició del servei i dels requeriments d'acord amb les necessitats dels usuaris. Es van prendre diversos acords referents a l'ús de metadades, fet que es considerava una part molt important del projecte.

El projecte va ser aprovat definitivament el juliol de 1998, mes en què s'inicià un període de proves pràctiques sobre el funcionament real de NewsAgent.


Període de prova: de l'1 d'abril al 31 de juliol de 1998

Si bé ja es tenien usuaris reals, a la pàgina web s'avisava que el servei encara estava en període de prova i en desenvolupament.

Durant aquest període es van intentar preveure i solucionar tots els problemes que podrien sorgir durant la segona fase, de plena operativitat. Per exemple s'observà que alguns usuaris rebien els missatges per duplicat, i en canvi d'altres no en rebien cap. També es va descobrir un problema en el manteniment de la base de dades gestionada amb el programa Oracle.

Es van acabar de treballar els aspectes tècnics com ara el llenguatge de cerca, la possibilitat d'editar o modificar el perfil dels usuaris, etc. L'objectiu era començar la segona fase "a ple rendiment". De tota manera, cal dir que no s'ha disposat mai de gaire suport econòmic, i l'empresa Fretwell-Downing Informatics Ltd, que és qui s'ocupa dels aspectes tècnics, en alguns casos no va poder dedicar-s'hi a fons, i de fet només "salvava la situació". Indirectament això va afectar l'eficàcia del servei i es traduí en una disminució del nombre d'usuaris, que havia arribat gairebé a la xifra de 200.

Una decisió clau presa durant aquest període va ser la de no crear un magatzem de continguts virtuals distribuïts (Distributed Virtual Content Store, DVCS) totalment basat en el protocol Z39.50. La raó principal d'aquesta decisió va ser a causa que al final es disposava d'uns recursos econòmics inferiors als que s'havien sol·licitat inicialment. Però d'altra banda, també es va creure innecessari tant pel previsible entorn comercial dels serveis d'alerta informativa, com perquè es desviarien uns esforços que calia centrar en les tasques més prioritàries. No obstant això, una vegada presa aquesta decisió es va establir que l'empresa Fretwell-Downing Informatics Ltd tindria llibertat per desenvolupar aquest mòdul per les raons comercials pròpies i eventuals o per a altres projectes.

En aquest període també es va veure que s'havien de simplificar l'autenticació/autorització dels usuaris, i l'administració, i que això es podia fer a través d'un únic magatzem de dades simple, però que pogués ser gestionat de forma distribuïda —a través de les xarxes. A més a més, semblava probable que a LITC es podria desenvolupar un robot Z39.50 o altres sistemes de recollida de dades, de manera que per exemple nous títols de llibres situats a servidors Z39.50 remots poguessin ser accessibles a la base de dades de NewsAgent. Això volia dir que serveis com ara BUBL podrien ser integrats a NewsAgent sense haver de desenvolupar una xarxa de servidors completament distribuïts que haurien encarit els costos de gestió.


Segona: de l'1 d'agost de 1998 al 31 de març de 2001

A l'inici de la segona fase es va presentar un Pla de negoci complet a eLib, amb informació financera i un assessorament de riscos econòmics. Aquest pla detallat s'ha anat revisant, com a mínim, anualment per reflectir les circumstàncies financeres, tècniques i comercials del moment.

Econòmicament s'ha comptat amb la subvenció de JISC, però a partir d'ara també cal considerar patrocinadors comercials i ajudes de màrqueting, que podrien fer que el servei tingués més probabilitats d'èxit enfront de possibles competidors.

Després del període de prova es va fer un estudi de com millorar el servei, sobretot pel que fa als aspectes tècnics. Per exemple, es van investigar els mecanismes que permetessin especificar als proveïdors d'informació quines eren les notícies que el robot de NewsAgent ja havia visitat; o també, dins del disseny de la interfície web, es va pensar a donar més èmfasi al registre d'usuaris i a les opcions per fer modificacions, etc.

El nombre d'usuaris no va incrementar-se pràcticament durant el primer any i els 8 mesos següents, però des de l'abril de 2000 ha anat augmentant sense parar —tot i algunes fallides del servidor. Gràcies bàsicament a la millor qualitat de la indexació, en un mes es va passar de 110 a 240 usuaris, fins a arribar a una xifra de 600 l'octubre de 2000. Actualment —març de 2001—, n'hi ha més de 800.

Gràfic 1: Evolució d'usuaris

A causa de certes precarietats i incerteses sobre el servei, en cap moment s'ha fet una campanya de màrqueting per promocionar-lo, tot i que s'ha informat de la seva existència en algunes llistes de distribució, com ara IweTel <http://www.rediris.es/list/info/iwetel.html>. Tot i que les notícies són en anglès, el seu interès no està limitat al món anglosaxó. L'única informació que posa més èmfasi en el Regne Unit i que pot tenir un caràcter més local és la de cursos i conferències.


3.3  Estructura del sistema

Per dur a terme els objectius del projecte es va dissenyar una estructura tècnica bastant complexa. L'eina per identificar, tractar, enviar i emmagatzemar automàticament les dades és el robot o harvester (recol·lector), creat a la Universitat d'Edinburgh. A través de l'administrador es defineixen les pàgines web i els nivells que el robot ha de buidar o indexar.

Cada nit, el harvester comprova si hi ha alguna notícia nova a les pàgines web definides prèviament. El sistema recull les metadades que puguin haver-hi en els camps descriptius: títol, autor, paraules clau, etc. Els recursos queden emmagatzemats com a registres d'una base de dades, i s'envien als usuaris d'acord amb els perfils que ells mateixos han definit.

La Fretwell-Downing Ltd va instal·lar NewsAgent en un ordinador Sun localitzat a la South Bank University. El llenguatge que s'utilitza a la base de la base de dades és SQL, i la majoria del software està escrit en Perl.

La Universitat de Wales, a Aberystwyth, va gestionar els temes relacionats amb la definició de les metadades i el vocabulari durant la primera fase.

L'estructura tècnica de NewsAgent té cinc parts principals:

  1. Recol·lector de les notícies d'uns llocs web predeterminats escollits pel seu interès reconegut.

  2. Recol·lector de missatges electrònics.

  3. Client visualitzador d'HTML.

  4. VDX (virtual document exchange) o client administrador de Windows.

  5. Alerta en forma de missatge electrònic.


3.4  Formats

Les notícies enviades als usuaris són, doncs, de dos tipus: recursos web d'Internet i correus electrònics seleccionats de les llistes de distribució. Segons el format, el procés de gestionar-los és diferent. Com ja s'ha dit en part, les fonts són:


3.4.1  Recursos web

Al nostre web identifiquem els recursos web com a "World Wide Web (WWW) Page", que inclouen articles, informes, notícies, etc.

El robot té llistades les adreces d'Internet que es consideren d'interès i que, per tant, ha de visitar permanentment. Es va establir un conveni amb els proveïdors de recursos web perquè hi incloguessin metadades a l'encapçalament, d'acord amb la classificació de NewsAgent (NewsAgent Metadata Design). La Universitat d'Aberystwyth s'encarregà de dissenyar-lo i mantenir-lo fins al 31 de març de 1998, moment en què tot el contingut quedà sota la gestió de LITC.

El projecte pilot incloïa les revistes següents com a recursos d'informació buidats de manera fixa: Program, Vine, Library technology, Ariadne, i Journal of librarianship and information science. A l'última versió de NewsAgent del febrer de 2000 es van afegir altres URL d'organitzacions, com per exemple The Library Association, UKOLN, The British Library i LITC.

Les pàgines web tractades pel harvester queden emmagatzemades durant un dia en un fitxer, el qual conté les metadades, una descripció de les notícies seleccionades (teòricament amb paraules clau incloses): títol, resum, autor, publicació (títol de la revista), paraules clau i tipus de recurs (en aquest cas sempre és "www pages").

El fitxer es pot modificar a través d'una connexió Telnet (per afegir-hi paraules clau, descriure altres notícies seleccionades manualment, esborrar els duplicats, etc.), gestionat amb Unix. Finalment el sistema filtra aquesta informació durant la nit i l'envia als usuaris.

La recol·lecció automàtica d'informació, és a dir, amb el robot, no ha tingut gaire èxit. En part perquè molt pocs webs inclouen suficients metadades, i també perquè els proveïdors no sempre situen cada notícia en una única pàgina amb les seves metadades corresponents, sinó que les llisten una darrere l'altra. El robot veu que la pàgina ha canviat però desconeix quina de les notícies és la nova.

També es produïren errors a causa de la manera d'actuar del robot, ja que detectava si els editors de les pàgines havien introduït retocs i modificacions per mínimes que fossin i les tornava a processar com a notícies noves, la qual cosa produïa duplicats. Per tant, el sistema de harvester no ha resultat gaire efectiu.

NewsAgent va començar com un projecte de recerca, però al final s'han prioritzat els conceptes de servei i funcionalitat, anteposant la qualitat i la satisfacció dels usuaris. És per això que l'octubre de 2000, després de mesos d'haver estat corregint les notícies que recuperava el sistema (antigues, duplicades, etc.), es va decidir parar l'actuació del harvester i fer tota la selecció manualment. En realitat, el robot no reduïa feina, sinó que en generava més. Segurament amb més dotació econòmica s'hauria pogut continuar investigant per perfeccionar-lo, però malauradament de moment aquest no és el cas.

El canvi no va modificar l'estructura del sistema. La manera de seleccionar les notícies es fa a mà, però es tenen subscripcions al conegut servei Mind-it <http://mindit.netmind.com/>, un "ajudant personal de web" que notifica els canvis que es produeixen en aquells webs dels quals prèviament se'n vol fer un seguiment. Aquesta és una manera molt còmoda de saber, per exemple, quan surten nous números de revistes o quan una institució emet una nota de premsa. Els recursos que es buiden normalment estan llistats al nostre web <http://newsagent.sbu.ac.uk> (sota el menú “Help”, i després “Resources”).

Per facilitar la descripció de recursos es va incorporar el programa Arachnophilia 4.0, ja que funciona com un processador de text i és molt més amigable que el sistema Unix, el qual funciona per comandaments i és bastant inflexible.


3.4.2  Missatges electrònics

Els missatges electrònics que reben els usuaris de NewsAgent provenen de llistes de distribució.

Des del principi la gestió dels missatges electrònics ha estat bastant manual, i en conseqüència, el resultat ha estat també més acurat. Fins al setembre de 2000 les subscripcions a les llistes de correu electrònic es feien a través d'un compte del mateix servidor de NewsAgent, però abans que els missaatges s'enviessin als usuaris, es podien modificar o esborrar (com per exemple els missatges d'agraïment) a través del programa VDX. Els que quedaven al servidor (els interessants) eren processats pel mateix sistema i convertits en pàgines web.

L'inconvenient que presentava el programa VDX (de la companyia Fretwell-Downing Ltd) és que els missatges rebuts al servidor no es podien visualitzar sencers, només la primera línia, i això en dificultava molt la selecció. Per veure el text cada missatge s'havia d'obrir des del programa Macromedia Dreamweaver 3.0 (utilitzat per gestionar els missatges electrònics en format HTML).

Per agilitzar aquest procés, el setembre de 2000 es va decidir canviar l'adreça de les subscripcions per una de nova que actués d'intermediària per seleccionar els correus. Els missatges electrònics rebuts es descarreguen des del programa Netscape i així es pot veure tot el text. De tota manera, els que es consideren interessants s'han d'enviar a l'adreça de correu del servidor de NewsAgent perquè els processi.

Quan es reenviaven els missatges amb l'opció “Forward” quedaven amb mala presentació, de manera que ara no queda cap altra solució que “copiar i enganxar” els textos. Tots els missatges electrònics s'envien en format text pla (ASCII de 7 bits), perquè si es fes en HTML tots els enllaços que apareixen en el missatge generarien nous enllaços a les adreces URL. Així es redueix el “guirigall” que apareixeria a la part de dalt de la pàgina web (i en la seva descripció) als qui reben les actualitzacions en text pla.

Però aquest sistema té l'inconvenient que les adreces d'Internet s'han d'activar mitjançant la inclusió dels coneguts codis d'HTML <a href=“URL”>URL</a> perquè creïn enllaços vius i l'usuari no hagi de fer un “copiar i enganxar” per connectar-se amb les adreces que li interessin.

Finalment, el camp “Assumpte” de l'original es copia al camp “Assumpte” del nou missatge; però si el text corresponent no és gaire clar, o no utilitza el vocabulari controlat de NewsAgent, s'afegeixen paraules clau entre claudàtors. En aquest cas, el text del nou missatge comença amb la informació relacionada amb el missatge original: “Date”, “From”, “To”. I després ve el cos amb el text.


3.5  Recuperació de la informació

Tot i que la funció principal de NewsAgent és com a DSI, hi ha la possibilitat de fer cerques entre les notícies enviades, ja que queden emmagatzemades en forma de base de dades.


3.5.1  Alerta a través del correu electrònic

L'usuari rep les alertes per correu electrònic, les quals consisteixen en una llista de recursos classificats pels temes que ell ha descrit prèviament com a perfil personalitzat.

Tots els recursos tenen un títol (en els correus electrònics, el camp "Matèria" es converteix en el títol del document), una adreça URL i un resum (les primeres línies del cos del missatge en el cas dels correus electrònics).


3.5.2  Cerques a la base de dades

A diferència dels recursos d'Internet que s'emmagatzemen a la base de dades indefinidament (i són accessibles des de la pàgina web), els correus electrònics només són cercables durant 30 dies i després s'esborren per estalviar memòria del servidor. Per tant, deixen de ser recuperables.

Tots els documents processats i enviats tenen paraules clau afegides manualment, utilitzant el vocabulari controlat de NewsAgent per assegurar que la recuperació de la informació sigui adequada. És per això que es recomana utilitzar el vocabulari controlat, tant a l'hora de definir el perfil, com a l'hora de fer cerques a la base de dades. Els camps són: “Títol”, “Adreça URL”, “Paraules clau” i “Tipus de document”.

Un altre aspecte important referent a les cerques a la base de dades és que es recomana usar simultàniament els camps “Títol” i “Paraules clau”. L'única manera de recuperar correus electrònics és a través del títol (el qual conté vocabulari controlat), però en el cas dels recursos web, el “Títol” conté llenguatge lliure, i el camp “Paraula clau”, llenguatge controlat.

Finalment, els comandaments booleans que es poden utilitzar són AND, OR i NOT, així com “comença per” (truncat), “més gran que”, “més petit que”, etc., per als camps numèrics.


4  Avaluació

El projecte ha estat una oportunitat interessant per experimentar amb el harvester, el tema de les metadades, els robots de cerca, i en general, per fer funcionar un servei d'alerta d'informació.

Des del punt de vista del contingut, ha estat interessant estudiar l'abast que el servei havia de cobrir, els recursos d'informació, i les llistes de distribució on subscriure's.

S'han hagut de descriure i buidar articles de revistes electròniques, i seleccionar els correus electrònics interessants entre una mitjana diària de gairebé 200 correus. Tot això amb una gran limitació de temps, ja que només es destinen 20 hores setmanals al servei i únicament hi ha una persona.

La idea és bona: si la gent se sent aclaparada amb tanta informació com hi ha, NewsAgent els és de gran ajuda perquè la que els interessa els arriba d'una manera còmoda. El servei és bastant flexible i ofereix diferents opcions temàtiques per perfilar els interessos. Fins i tot, es poden crear perfils personals (en aquest cas és recomanable utilitzar el vocabulari controlat de NewsAgent, ja que és el que s'utilitza en la indexació).

Sense haver fet gaire promoció (no es volia arribar a un nombre gaire alt d'usuaris davant del futur incert del servei), NewsAgent actualment té més de 800 usuaris, els quals, en general, es mostren bastant satisfets. De vegades es reben felicitacions per la utilitat del servei, i fins i tot han circulat missatges a llistes de distribució en què el recomanen.

Recentment, i ja previst com a part final del projecte, CERLIM va fer un estudi d'usuaris mitjançant un qüestionari, per avaluar el servei, però encara no se'n tenen els resultats. Com a curiositat, sembla que un usuari dels EUA va respondre que "no només estaria disposat a pagar pel servei (aquesta era una de les preguntes de l'enquesta) sinó que li agradaria treballar per NewsAgent" i que "l'únic inconvenient que hi trobava és que a les notícies, les quantitats de diners vénen expressades en lliures enlloc de dòlars". Esperem que tothom contesti tan positivament!

Tot i que la prioritat de NewsAgent és el servei d'alerta, la base de dades històrica de les notícies enviades també és bastant útil.

Hi ha, però, dos obstacles fonamentals. El primer és a causa de les metadades. Com s'ha comentat abans, la majoria de webs no n'inclouen, i quan hi ha diverses notícies en una mateixa pàgina, part de la informació no és recuperable (cada una hauria d'estar en una pàgina diferent). És per això que moltes dades s'han d'entrar manualment, tot i que aquesta no era la intenció inicial. Una possibilitat seria que els proveïdors d'informació incorporessin metadades en els seus recursos, de manera que les notícies fossin processades fàcilment pel sistema harvester. És, tanmateix, una opció que ha estat molt difícil de dur a terme.

El segon obstacle ha estat el software, ja que no es va aconseguir que —dins del projecte— arribés a tenir el nivell d'ús i confiança requerits pel servei. Malgrat que es basa en Unix/Oracle, i no en normes locals, el manteniment demana un alt nivell de coneixements tècnics.

El darrer problema és la viabilitat econòmica del servei. Com s'ha esmentat, la intenció de la segona fase del projecte era que NewsAgent fos autosuficient econòmicament. Les opcions per finançar-se es basaven en la publicitat, patrocinadors, inversions d'empreses o altres institucions per explotar-lo compartint els riscos (Venture capital), o que la South Bank University l'integrés com un servei propi.

Els primers sondejos van mostrar que seria difícil mantenir el servei mitjançant anuncis o patrocinis. En l'estudi que es va fer tampoc es va veure viable l'alternativa que el servei fos de pagament, ja que gran part de l'oferta de serveis disponibles a Internet són gratuïts. També caldrà comptar amb les despeses que ocasionaria una nova infraestructura tècnica per administrar el control d'accessos, ara inexistent.


5  Bibliografia

— Informes de NewsAgent — Recursos d'Internet — Més informació sobre metadades