Tendències en recuperació d’informació a la web

Ricardo Baeza-Yates

Yahoo! Research Barcelona

1 Introducció

Quan Salton va crear, a la dècada de 1960, els fonaments del que avui anomenem recuperació d’informació (RI), mai va imaginar que el seu impacte arribaria a milers de milions de persones. Aquest fet es va produir amb el sorgiment de la web a mitjans dels anys 1990. Actualment ja hi ha més de 170 milions de llocs web actius (Netcraft, novembre 2011) i desenes de milers de milions de pàgines web estàtiques,¹ ja que les pàgines dinàmiques són, en la pràctica, infinites. Gràcies als cercadors i a un model de publicitat en els resultats, inventat per Overture, podem consultar gratuïtament en aquesta mar de dades que és la web.

Per això, si determinar la rellevància d’un document a partir d’una consulta era el problema central de la RI clàssica, aquest problema és encara més important i més difícil de solventar en el context de la web. Això es deu a moltes raons, entre les quals podem esmentar que un document físic no sempre és una pàgina web i que l’spam² de la web es manifesta de totes les formes possibles. D’altra banda, la web ajuda amb la seva estructura d’enllaços i les persones contribueixen amb la seva interacció amb la web. Això últim és el que genera la diferència crucial, ja que l’anàlisi de dades de l’ús de la web permet distingir el què és rellevant del què és inservible. En altres paraules, és la realimentació (relevance feedback) implícita de milions de persones, la saviesa de la gent (wisdom of crowds), la que dóna el senyal més fort de rellevància.

Si fem una anàlisi històrica, veurem que això no és res de nou. Quan Salton i altres investigadors van començar a usar les estadístiques de les paraules d’un document (per exemple TF-IDF),³ estaven partint de com les persones fan servir les paraules, és a dir, de la saviesa dels que escriuen. Aquesta va ser la base de la primera generació de cercadors, des de 1994 a 1998, exemplificada per Altavista. No obstant això, el 1997, DirectHit va inventar la idea d’usar els clics de les persones en els resultats de cerca com a nou senyal de rellevància i, al mateix temps, Marchiori i altres van promoure la idea d’usar els enllaços, incloent el text de l’enllaç, com un altre senyal de rellevància. Això últim va culminar el 1998 amb dos algorismes de popularitat basats en enllaços que ja són famosos, PageRank i HITS. Aquesta segona generació de cercadors, liderada per Google, havia afegit la saviesa dels lectors i dels webmasters.

La tercera generació de cercadors va començar el 2003 amb l’anàlisi massiva de l’ús de la web, cosa que va permetre incloure noves funcionalitats com ara la correcció d’ortografia (Google) o els suggeriments de consultes en temps real (Yahoo!). Aquesta evolució ha continuat amb la detecció de la intenció que hi ha darrere de la consulta (tots els cercadors principals), l’anàlisi d’opinions (Bing) o les pre-visualitzacions instantànies (Yahoo!), moltes d’elles gràcies a tècniques d’aprenentatge automàtic, que permeten utilitzar la saviesa de tota la gent.

Un factor vital en aquesta evolució és l’explosió de la Web 2.0 o el que s’anomena CGU (contingut generat pels usuaris, o en anglès, user generated content, UGC). Encara que la qualitat del contingut editorial a la web és millor en mitjana que el CGU, donat el volum d’aquest últim, trobarem més i millor contingut al mateix nivell de qualitat. Això indica que el contingut en la web es democratitza ja que aquest té més "propietaris" i la cua llarga de la distribució de contingut (veure següent paràgraf) es fa més i més llarga. D’altra banda, el temps d’atenció que les persones dediquen segueix sent el mateix, augmentant per tant la fragmentació de les visites al contingut. Si afegim a això les xarxes socials, també es fragmenta l’accés als continguts donats els diferents nivells de privacitat (amics, coneguts, etc.).

Un altre fet important que afecta els cercadors és la “cua llarga i pesada” (long and heavy tail) en la distribució de les consultes. És a dir, hi ha poques consultes molt freqüents i moltes consultes poc freqüents, i aquestes últimes poden suposar la meitat del volum. D’altra banda, les paraules no canvien tant, el que implica que les persones fan servir les mateixes paraules per fer consultes diferents. Això mostra la diversitat de la gent en el moment de pensar quines paraules utilitzar. Una explicació senzilla de la cua llarga és que la gent normal fa les consultes populars i la gent sofisticada⁴ fa les consultes rares. No obstant això, una anàlisi recent de Goel et al (2010) mostra que l’explicació correcta és que totes les persones tenen una cua llarga. És a dir, tots som normals i sofisticats en diferents moments, depenent de les nostres necessitats davant un cercador. Això és molt important, ja que implica que si un servei web no satisfà la cua llarga, no estarà satisfent a cada un de nosaltres un percentatge del nostre temps.

2 Desafiaments

Abans d’aprofundir en els reptes i les tendències associades als cercadors web, reflexionem primer sobre l’ús actual que se’n fa. Aquest ús el podem organitzar a través de dues dimensions. La primera dimensió, la temporal, va des del passat al present i la segona dimensió, estructural, va des del caos a l’ordre absolut. Una necessitat clàssica d’informació estarà en el passat (per exemple, Wikipedia) mentre que una de notícies d’últim minut estarà en el present (per exemple, Twitter). A la web no totes les necessitats són d’informació, també n’hi ha de navegació (buscar un lloc web específic) o transaccionals (interactuar en la web). Per exemple, en el segon cas, si volem comprar un passatge d’avió, la interfície desitjada serà molt estructurada i hauria de tenir només informació actual. Finalment, si volem explorar la web i deixar-nos sorprendre (per exemple serendipity) estarem més a prop del caos que l’ordre. A causa d’això els cercadors intenten predir la necessitat existent darrere de la consulta i ajustar els resultats d’acord amb la intenció predita. D’altra banda, han de fer-ho a qualsevol lloc d’aquest espai de dues dimensions i en un domini de coneixement totalment obert.

El primer desafiament segueix sent la qualitat de la rellevància dels resultats. Aquí podem esmentar diverses tendències que inclouen millorar la diversitat i novetat dels resultats (és a dir, si la consulta té més d’un significat, intentar afegir resultats per a tots ells, tant de coneguts com de nous).

El segon desafiament és permanent i és el d’eficiència. Aquest té dos aspectes. El primer és que la cerca sigui ràpida, és a dir, menys d’un segon. El segon és que encara que la web segueixi creixent desaforadament, el cercador pugui escalar la seva arquitectura i administrar més pàgines web i més consultes cada dia.

El tercer repte és la funcionalitat del cercador. Això inclou millorar l’assistència a l’usuari, tant abans com després de la consulta, i també com mostrar resultats de diferents fonts de dades, el que es diu avui cerca agregada (aggregated search). Per exemple, combinar resultats textuals amb imatges i àudio. En termes més generals, podem dir que es tracta de qualsevol element nou en la interfície d’usuari que millori l’experiència de l’usuari.

El quart desafiament és contextualitzar la resposta a la ubicació física, a l’idioma, al dispositiu que s’està usant, al grup social i, reiterant, a la intenció que hi ha darrere de la consulta. La contextualització es contraposa a la personalització per a l’usuari, ja que per fer-ho cal tenir el consentiment de la persona (això implica que l’usuari es registri) i disposar de dades suficients sobre ella (i donada la llei del mínim esforç això, en general, no és cert), afegint per tant problemes de privacitat. Com que al final les persones no són tan diferents, és molt més efectiu contextualitzar, agrupant totes les persones que estan intentant fer el mateix. Això permet no només ajudar millor a més gent (saviesa de grups), sinó que ens allunya del problema de la privacitat.

El cinquè repte és deixar de veure la web com un conjunt de pàgines⁵ i veure-la com una web d’objectes, on hi ha representacions de persones, d’institucions, de llocs, de dates, etc. Aquests objectes tenen atributs i aquests atributs, uns determinats valors. Per exemple, si volem comprar una càmera fotogràfica digital, els tres atributs més importants seran el preu, la resolució i el factor d’augment (zoom). Molts d’aquests atributs seran incomplets o poc fiables, però si coneixem la intenció de l’usuari, podem fer una cerca en aquests atributs (facetes search). Aquest desafiament està relacionat amb la web semàntica i Yahoo! va ser el primer cercador en recol·lectar micro-formats i fitxers RDF (Resource Description Framework), que permeten poblar la base de dades d’objectes amb els seus atributs i valors.

Un sisè desafiament està relacionat amb la integració d’aplicacions externes en un cercador. Per exemple, si busquem un DVD, més d’un lloc de comerç electrònic⁶ voldria oferir-nos-el. Una alternativa seria crear un mercat d’aplicacions on els oferents liciten perquè el cercador executi una d’aquestes aplicacions. Un exemple d’això és Yahoo! QuickApps i segurament en veurem molts altres en el futur.

El setè i últim desafiament és el més futurista: la cerca implícita. La gent no s’aixeca cada dia per buscar sinó més aviat per dur a terme certes tasques que es converteixen en una sèrie de cerques. Però, ¿per què hauríem de fer consultes, si l’ordinador les pot fer per nosaltres?⁷ Així és, hi ha casos en els quals el cercador pot buscar automàticament i ajudar la persona. Les recomanacions contextuals són un exemple, com ara les recomanacions de llibres a Amazon. Segur que hi ha molts altres casos on un sistema de cerca implícit pot aportar informació relacionada, des de quan llegim una notícia a quan escrivim un correu electrònic.⁸ Aquest desafiament implica predir molt bé el context de l’usuari.

3 Epíleg

Els desafiaments que hem enunciat han de deixar en clar de buscar en la web no és un problema de recuperar documents, sinó que és un mecanisme per intervenir entre la persona i les necessitats existents darrere dels seus objectius. Això implicarà tota una gamma de noves experiències d’usuari que explotaran la Web 2.0 usant mineria de dades i tècniques d’aprenentatge automàtic.

D’altra banda, creiem que la tecnologia bàsica de recerca a la Web ja està ben resolta I que la raó principal d’una persona per provar un altre cercador serà una experiència d’usuari clarament superior. En aquest àmbit la cerca implícita i la tramesa d’informació en comptes de la cerca explícita, seran claus.

Bibliografía

Baeza-Yates, R.; Ribeiro-Neto, B. (2011). Modern information retrieval: the concepts and technology behind search. 2nd ed. Harlow: Addison-Wesley, Pearson.

Baeza-Yates, R.; Raghavan, Prabhakar (2010). "Next generation web search". En: Ceri, S.; Brambilla, M. (eds.). Search computing: challenges and directions. New York: Springer, p. 11–23.

Baeza-Yates, R.; Broder, A.; Maarek, Y. (2011). "The new frontier of web search technology: seven challenges". En: Ceri, S.; Brambilla, M. (eds.). Search computing: trends and developments. Berlin: Springer-Verlag.

Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B. (2010). "Anatomy of the long tail: ordinary people with extraordinary tastes". En: WSDM 2010, Third ACM International Conference on Web Search and Data Mining (New York). <http://www.wsdm-conference.org/2010/>. [Consulta: 01/11/2011].

Notes

¹ Les pàgines estàtiques són fitxers en un lloc web, mentre que les dinàmiques no existeixen fins que una persona interactua amb un lloc web.

² L’spam de web es refereix a text, enllaços i clics que només existeixen per intentar enganyar els cercadors.

³ Freqüència d’un terme (TF) i freqüència inversa de document (IDF), dues mesures utilitzades en recuperació d’informació.

⁴ Tots els lectors, independentment de si són normals o sofisticats, suposaran que són part del segon grup.

⁵ De fet el concepte de pàgina cada vegada té menys sentit amb tecnologies que permeten canviar el seu contingut dinàmicament, com Ajax.

⁶ Hauria de ser comerç digital, però una vegada que s’usa malament un terme, és difícil corregir-lo.

⁷ Relacionat amb això, per què hem de posar-li nom als fitxers si podem buscar dins del seu contingut?

⁸ Ídem a l'anterior.