[Versión castellana]


Lluís Codina, Rafael Pedraza-Jiménez

Professors de Documentació
Departament de Comunicació
Universitat Pompeu Fabra

lluis.codina@upf.edu, rafael.pedraza@upf.edu



En l'última dècada la recuperació de la informació ha experimentat més avenços i innovacions que en els cinquanta anys anteriors, i la causa principal ha estat el web. El motiu és que fins llavors, la recuperació de la informació (RI a partir d'ara) havia estat confinada en entorns aïllats i controlats al mateix temps.

Això significa que la RI tenia el seu àmbit sempre entre les col·leccions de documents tancades, per exemple, els documents d'una institució, i alhora homogènies, per exemple economia, o medicina, o informes jurídics, etc. La qüestió és que, entre els anys seixanta, des de les seminals aportacions de Gerald Salton, i els noranta, poc abans de la plena irrupció del web, els avenços en la RI consistien bàsicament en refinaments successius d'algunes poques desenes d'algorismes d'indexació i de càlcul de rellevància. És cert que, ocasionalment, apareixien propostes més o menys rupturistes, per exemple noves formes de visualització de la informació, però inevitablement, naixien i morien sempre com a vaporware, és a dir, sense arribar a assolir mai l'estatus de tecnologia comercialitzada o aplicada en el món real.

L'emergència del web en els anys noranta va propiciar l'aparició gradual d'un escenari tan diferent que va posar a prova gairebé tot el que se sabia llavors tant de RI com de les altres disciplines afins a la representació i l'organització de la informació.

La raó per la qual el web va suposar aquest gran revulsiu va ser deguda com a mínim a dues circumstàncies. D'una banda, tenim el fet que el web és un sistema descentralitzat i a la vegada completament heterogeni. Això feia que l'escenari fos totalment diferent de tot allò pel que estaven més o menys ben preparades les disciplines vinculades a l'organització de la informació, tant les procedents de les Ciències de la Documentació com de les Ciències de la Computació.

La conseqüència va ser gairebé una dècada de tempteigs durant la qual van conviure diferents formes d'organització de la informació. Algunes d'elles de fet han passat gairebé a l'oblit. Qui recorda, per exemple, que Yahoo! va iniciar la seva marxa com un directori de llocs (no de pàgines) elaborat estrictament "a mà"? Hi va haver fins i tot una indústria de programari que ara és gairebé clandestina, comparada amb el seu auge quan encara no havien aparegut les fórmules actualment dominants. Estem pensant en una gamma d'aplicacions que organitzaven pàgines o webs com autèntics gestors de bases de dades locals, o multicercadors dels quals amb prou feines en sobreviuen heroicament alguns casos de programari comercial (per exemple, en el seu moment, el tan eficaç Copernic).

D'altra banda, el que té lloc al web en realitat és el que s'anomena RI "amb adversari" (adversarial information retrieval), un altre aspecte mai contemplat per la RI clàssica. Ningú no s'hagués imaginat mai que la major part de l'enginyeria de RI s'hauria de posar al servei d'evitar que el document, a indexar primer i a ordenar ("rankear" si se'ns permet aquesta expressió tan poc elegant) després, ens prengués el pèl i ens fes creure que és el que no és (o sigui, que és un document rellevant per al tema X, quan no té cap relació amb aquest tema, ni amb cap altre, perquè en realitat és un simple frau).

Naturalment, també hi havia els motors de cerca, com Altavista, però estaven lluny de ser la molt raonable solució, amb tots els seus defectes, que ara són. La raó és que aplicaven, precisament, els algoritmes de la RI clàssica, és a dir, aquella pensada per a entorns tancats, controlats, homogenis i sense adversari. El resultat no podia ser molt eficient, de manera que aquesta era la raó perquè coexistissin almenys les tres fórmules assenyalades sense que cap d'elles fos gaire bona.

Tot va canviar molt a finals dels anys noranta amb la idea dels fundadors de Google, Sergey Brin i Larry Page, d'aplicar l'anàlisi d'enllaços per ordenar els resultats. La idea en síntesi era la següent: el filtratge de la informació no tenia gaire problema, el problema era la ordenació dels resultats. Hi havia ja tanta informació al web en aquella època que trobar milers o desenes de milers de pàgines web sobre qualsevol tema era fàcil. El problema era l'algoritme d'ordenació, basat en els càlculs estadístics de la RI clàssica, molt influenciats al seu torn per les freqüències dels termes presents en cada document, encara que després aquestes freqüències es ponderessin amb freqüències globals del conjunt de l'índex, etc.

El que van aportar com a novetat Brin i Page va ser la següent idea, senzilla però tremendament eficaç: i si apliquem la mateixa lògica que en l'anàlisi de citacions per determinar la importància d'una pàgina? És a dir, igual que sabem que una publicació dins d'una àrea de coneixement és més important (té major impacte), sobre la base del càlcul de citacions, hauríem de poder saber quines pàgines són més importants per a una pregunta determinada, si sabem quina rep més enllaços. Per tant, van deduir que si eren capaços de construir una espècie de base de dades on poguessin saber quants enllaços rebia cada pàgina, llavors seria fàcil determinar quines pàgines eren les més valuoses per a cada pregunta. Amb un important matís posterior (no tots els enllaços valen el mateix, sinó que els enllaços de pàgines al seu torn molt enllaçades són més valuosos), aquesta forma de determinar la importància d'un web i després d'influir la seva posició en la ordenació de la pàgina de resultats va rebre el nom de PageRank, ara tan conegut, discutit i imitat.

En aquests moments, la RI al web té oberts almenys dos reptes importants, un és l'esmentada recuperació amb adversari. Això s'assembla cada vegada més a una carrera d'armaments on a cada innovació dels cercadors per evitar el correu brossa, segueix alguna tècnica per burlar aquesta innovació. Per exemple, en el seu moment, quan va quedar clara la importància dels enllaços d'entrada en el posicionament d'una pàgina per expulsar de l'índex a les pàgines de mala qualitat, molts autors sense escrúpols es van dedicar a muntar autèntiques granges d'enllaços per incloure autoenllaços.

L'altre repte és conèixer la intenció de l'usuari quan llança una cerca. Atès que un cercador com Google és en realitat una interfície unificada d'accés al repositori d'informacions multimèdia més gran i divers que mai va somiar la humanitat, resulta clau poder interpretar les intencions de l'usuari. Però aquesta intenció només es pot determinar per mitjans indirectes. No és possible sotmetre a cada usuari a un qüestionari previ abans de permetre llançar una cerca. Encertar en major mesura aquesta predicció (si l'usuari en realitat busca notícies d'actualitat, o vídeos, o llocs web, o un lloc on realitzar una transacció, o una definició, o una entrada de diccionari) pot marcar la diferència entre que l'usuari consideri que la cerca ha estat encertada o més aviat un fracàs.

Pel mateix motiu, en els últims anys la pàgina de resultats també ha anat evolucionant cap al que s'anomena la "cerca universal". Això vol dir que actualment, la majoria dels motors de cerca combinen en la mateixa pàgina de resultats diverses tipologies i morfologies de la informació, generalment imatges, vídeos i notícies (a més de pàgines web).

Fins i tot el mateix concepte de cercador ha evolucionat i, al costat dels cercadors tradicionals (o generalistes), s'han desenvolupat nous tipus de cercadors. Especialment interessants són els casos dels metacercadors i els cercadors especialitzats.

En els últims anys, al mateix temps que totes aquestes innovacions, s'ha desenvolupat també el projecte de la web semàntica, que podria constituir la tendència més important per al futur de la cerca al web. Es tracta d'una ambiciosa iniciativa del World Wide Web Consortium (W3C) que, de tenir èxit, estaria destinada a transformar de manera decisiva el web tal com el coneixem ara.

L'objectiu és aconseguir un web amb continguts que siguin millor interpretats pels ordinadors i on, entre altres coses, els cercadors funcionin de forma "intel·ligent". Ara bé, per a això seria necessari que el contingut d'aquest web estigués estructurat d'acord amb una sèrie d'estàndards i recomanacions del W3C.

Concretament, la informació hauria d'estar marcada i descrita amb metadades seguint un formalisme molt ben determinat. Això ja és prou difícil d'aconseguir donada la naturalesa oberta i heterogènia, sense el control central que caracteritza el web (i que, de passada, ha aconseguit fer-ne el que és, per tant, no cal somiar en canviar aquest aspecte). Ara bé, comptar amb un web com el descrit seria la condició necessària, però no suficient. A més, seria necessari comptar amb ontologies que permetin interpretar, comparar i fusionar les dades, les metadades i les informacions procedents de diferents recursos. Finalment, seria necessària l'existència d'eines capaces de relacionar i fer inferències amb aquests continguts per satisfer les necessitats d'informació dels usuaris, que equivaldrien als "cercadors de la web semàntica", i que serien els anomenats "agents intel·ligents de cerca".

Com és fàcil de deduir, es tracta d'una formidable tasca, plena de dificultats, al mateix temps científiques, perquè se situen en les fronteres del coneixement, i logístiques, perquè implica una manera de crear i publicar continguts molt diferent. Malgrat tot, hi ha fundades esperances que el moviment, projecte o visió de la web semàntica, obtingui resultats que, a mitjà i a llarg termini, podrien conduir a un paisatge on la RI sigui molt diferent del que coneixem ara.

Ja han aparegut algunes eines de cerca, a cavall entre els cercadors tradicionals i els agents intel·ligents del futur, que apliquen algunes de les idees de base d'aquesta iniciativa. Potser un dels més significatius sigui el cercador Wolfram Alpha.

A més, aquest projecte ha motivat el desenvolupament complet de diversos estàndards (com ara l'XML, l'RDF, l'SKOS, l'OWL o el Dublin Core, entre d'altres) que poden contribuir de manera decisiva a la millora dels sistemes de cerca del web, especialment si són aplicats en entorns més controlats com són els dipòsits, les biblioteques digitals o les intranets.

El més important és que en aquesta impressionant llista de reptes que presenta la RI en general i la cerca al web en particular, hi ha un ampli terreny d'estudis així com de projectes, tant empresarials com de recerca i desenvolupament, on els professionals i estudiosos dels diversos àmbits de les Ciències de la Documentació hi poden fer grans aportacions.