Tendencias en recuperación de información en la web

Ricardo Baeza-Yates

Yahoo! Research Barcelona

1 Introducción

Cuando Salton creó en la década de los años 60 los cimientos de lo que hoy llamamos recuperación de información (RI), nunca imagino que su impacto llegaría a miles de millones de personas. Esto ocurrió con el surgimiento de la Web a mediados de los años 90. Actualmente, ya hay más de 170 millones de sitios Web activos (Netcraft, Nov 2011) y decenas de miles de millones de páginas Web estáticas,¹ ya que las páginas dinámicas son en la práctica infinitas. Gracias a los buscadores y un modelo de publicidad en los resultados, inventado por Overture, podemos consultar gratuitamente en este mar de datos que es la Web.

Por lo anterior, si determinar la relevancia de un documento dada una consulta era el problema central de la RI clásica, este problema es aún más importante y más difícil en el contexto de la Web. Esto se debe a muchas razones, entre las cuales podemos mencionar que un documento físico no siempre es una página Web y que el spam² de Web se manifiesta de todas las formas posibles. Por otro lado, la Web ayuda con su estructura de enlaces y las personas contribuyen con su interacción con la Web. Esto último es lo que hace la diferencia crucial, ya que el análisis de datos del uso de la Web permite distinguir lo relevante de lo inservible. En otras palabras, es la realimentación (relevance feedback) implícita de millones de personas, de la sabiduría de la gente (wisdom of crowds), la que da la señal de relevancia más fuerte.

Si hacemos un análisis histórico, esto no es nada nuevo. Cuando Salton y otros investigadores comenzaron a usar estadísticas de las palabras de un documento (por ejemplo TF-IDF),³ estaban partiendo de cómo las personas usan las palabras, es decir, de la sabiduría de los que escriben.. Esta fue la base de la primera generación de buscadores, desde 1994 a 1998, ejemplificada por Altavista. Sin embargo, en 1997, DirectHit inventó la idea de usar los clicks de las personas en los resultados de búsqueda como nueva señal de relevancia y, al mismo tiempo Marchiori y otros promovieron la idea de usar los enlaces, incluyendo el texto del enlace, como otra señal de relevancia. Esto último culminó en 1998 con dos algoritmos de popularidad basados en enlaces que ya son famosos, PageRank y HITS. Esta segunda generación de buscadores, liderada por Google, había agregado la sabiduría de los lectores y de los webmasters.

La tercera generación de buscadores comenzó en el 2003 con el análisis masivo de uso de la Web, lo que permitió incluir nuevas funcionalidades como la corrección de ortografía (Google) o la sugerencia de consultas en tiempo real (Yahoo!). Esta evolución ha continuado con la detección de la intención que existe detrás de la consulta (todos los buscadores principales), el análisis de opiniones (Bing) o las pre-visualizaciones instantáneas (Yahoo!), muchas de ellas gracias a técnicas de aprendizaje automático, que permiten usar la sabiduría de toda la gente.

Un factor vital en esta evolución es la explosión de la Web 2.0 o lo que se llama CGU (contenido generado por los usuarios, o en inglés, user generated content, UGC). Aunque la calidad del contenido editorial en la Web es mejor en promedio que el CGU, dado el volumen de este último, encontraremos más y mejor contenido al mismo nivel de calidad. Esto indica que el contenido en la Web se democratiza ya que hay más "propietarios" del mismo y la cola larga de la distribución de contenido (ver siguiente párrafo) se hace más y más larga. Por otro lado, el tiempo de atención que las personas dedican sigue siendo el mismo, aumentando la fragmentación de las visitas al contenido. Si agregamos a esto las redes sociales, también se fragmenta el acceso a los contenidos dado los distintos niveles de privacidad (amigos, conocidos, etc.).

Otro hecho importante que afecta a los buscadores es la cola larga y pesada (long and heavy tail) en la distribución de las consultas. Es decir, hay pocas consultas muy frecuentes y muchas consultas poco frecuentes, y estas últimas pueden ser la mitad del volumen. Por otro lado, las palabras no cambian tanto, lo que implica que las personas usan las mismas palabras para hacer consultas distintas. Esto muestra la diversidad de la gente al momento de pensar que palabras usar. Una explicación sencilla de la cola larga es que la gente normal hace las consultas populares y la gente sofisticada⁴ hace las consultas raras. Sin embargo, un análisis reciente de Goel et al muestra que la explicación correcta es que todas las personas tienen una cola larga. Es decir, todos somos normales y sofisticados en distintos momentos, dependiendo de nuestras necesidades ante un buscador. Esto es muy importante, pues implica que si un servicio Web no satisface la cola larga, no estará satisfaciendo a cada uno de nosotros un porcentaje de nuestro tiempo.

2 Desafíos

Antes de profundizar en los desafíos y las tendencias asociadas a los buscadores web, reflexionemos primero sobre el uso actual que se hace de ellos. Este uso lo podemos organizar a través de dos dimensiones. La primera dimensión, la temporal, va desde el pasado al presente y la segunda dimensión, estructural, va desde el caos al orden absoluto. Una necesidad clásica de información estará en el pasado (e.g. Wikipedia) mientras que una de noticias de último minuto estará en el presente (e.g. Twitter). En la Web no todas las necesidades son de información, también las hay de navegación (buscar un sitio Web específico) o transaccionales (interactuar en la Web). Por ejemplo, en el segundo caso, si queremos comprar un pasaje de avión, la interfaz deseada será muy estructurada y debería tener sólo información actual. Finalmente, si queremos explorar la Web y dejarnos sorprender (e.g. serendipity) estaremos más cerca del caos que del orden. Debido a esto los buscadores intentan predecir la necesidad existente detrás de la consulta y ajustar los resultados de acuerdo a la intención predicha. Por otro lado deben hacer esto en cualquier lugar de este espacio de dos dimensiones y en un dominio de conocimiento totalmente abierto.

El primer desafío sigue siendo la calidad de la relevancia de los resultados. Aquí podemos mencionar varias tendencias que incluyen mejorar la diversidad y novedad de los resultados (es decir, si la consulta tiene más de un significado, intentar agregar resultados para todos ellos, tanto conocidos como nuevos).

El segundo desafío es permanente y es el de eficiencia. Esta tiene dos aspectos. El primero es que la búsqueda sea rápida, es decir menos de un segundo. El segundo es que aunque la Web siga creciendo desaforadamente, el buscador pueda escalar su arquitectura y administrar más páginas Web y más consultas cada día.

El tercer desafío es la funcionalidad del buscador. Eso incluye mejorar la asistencia al usuario, tanto antes como después de la consulta y también como mostrar resultados de distintas fuentes de datos, lo que se llama hoy búsqueda agregada (aggregated search). Por ejemplo, combinar resultados textuales con imágenes y audio. En términos más generales, hace referencia a cualquier elemento nuevo en la interfaz de usuario que mejore la experiencia del mismo.

El cuarto desafío es contextualizar la respuesta a la ubicación física, el idioma, el dispositivo que se está usando, el grupo social y, reiterando, la intención que existe detrás de la consulta. La contextualización se contrapone a la personalización por usuario, ya que para hacerlo es necesario tener el consentimiento de la persona (esto implica que el usuario se registre) y disponer de datos suficientes sobre ellas (y dada la ley del mínimo esfuerzo esto, en general, no es cierto), agregando problemas de privacidad. Como al final las personas no son tan distintas, es mucho más efectivo contextualizar, agrupando todas las personas que están intentando hacer lo mismo. Esto permite no sólo ayudar mejor a más gente (sabiduría de grupos), sino que nos aleja del problema de la privacidad.

El quinto desafío es dejar de ver la Web como un conjunto de páginas⁵ y verla como una Web de objetos, donde existen representaciones de personas, instituciones, lugares, fechas, etc. Estos objetos tendrán atributos y esos atributos, unos determinados valores. Por ejemplo, si queremos comprar una cámara fotográfica digital, los tres atributos más importantes serán el precio, la resolución y el factor de aumento (zoom). Muchos de estos atributos serán incompletos o poco confiables, pero si conocemos la intención del usuario, podemos hacer una búsqueda en estos atributos (faceted search). Este desafío está relacionado con la Web semántica y Yahoo! fue el primer buscador en recolectar micro-formatos y ficheros RDF (Resource Description Framework), que permiten poblar la base de datos de objetos con sus atributos y valores.

Un sexto desafío está relacionado con la integración de aplicaciones externas en un buscador. Por ejemplo, si buscamos un DVD, más de un sitio de comercio electrónico⁶ querría ofrecérnoslo. Una alternativa sería crear un mercado de aplicaciones donde los oferentes pujan para que el buscador gatille una de estas aplicaciones. Un ejemplo de esto es Yahoo! QuickApps y seguramente veremos muchos otros en el futuro.

El séptimo y último desafío es el más futurista: la búsqueda implícita. La gente no se levanta cada día para buscar sino más bien para llevar a cabo ciertas tareas que se convierten en una serie de búsquedas. Pero, ¿por qué debiéramos de hacer consultas, si el ordenador puede hacerlas por nosotros?⁷ Así es, hay casos en los cuales el buscador puede buscar automáticamente y ayudar a la persona. Las recomendaciones contextuales son un ejemplo, como las recomendaciones de libros en Amazon. Seguro que hay muchos otros casos donde un modo de búsqueda implícito puede aportar información relacionada, desde cuando leemos una noticia a cuando escribimos un correo electrónico.⁸ Este desafío implica predecir muy bien el contexto del usuario.

3 Epílogo

Los desafíos que hemos enunciado deben dejar en claro que buscar en la Web no es un problema de recuperar documentos, sino que es un mecanismo para mediar entre la persona y las necesidades que se encuentran detrás de sus objetivos. Esto implicará toda una gama de nuevas experiencias de usuario que explotarán la Web 2.0 usando minería de datos y técnicas de aprendizaje automático.

Por otro lado, creemos que la tecnología básica de búsqueda en la Web ya está bien resuelta y que la razón principal de una persona para probar otro buscador será una experiencia de usuario claramente superior. En este ámbito la búsqueda implícita y el envío de información en vez de la búsqueda explícita, serán claves.

Para las personas que quieran profundizar en los temas mencionados, incluimos una corta bibliografía.

Bibliografía

Baeza-Yates, R.; Ribeiro-Neto, B. (2011). Modern information retrieval: the concepts and technology behind search, 2nd ed., Harlow: Addison-Wesley, Pearson.

Baeza-Yates, R.; Raghavan, Prabhakar (2010). "Next generation web search". En: Ceri, S.; Brambilla, M. (eds.). Search computing: challenges and directions. New York: Springer, p. 11–23.

Baeza-Yates, R.; Broder, A.; Maarek, Y. (2011). "The new frontier of web search technology: seven challenges". En: Ceri, S.; Brambilla, M. (eds.). Search computing: trends and developments. Berlin: Springer-Verlag.

Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B. (2010). "Anatomy of the long tail: ordinary people with extraordinary tastes". En: WSDM 2010, Third ACM International Conference on Web Search and Data Mining (New York). <http://www.wsdm-conference.org/2010/>. [Consulta: 01/11/2011].

Notas

¹ Las páginas estáticas son ficheros en un sitio Web, mientras que las dinámicas no existen hasta que una persona interactúa con un sitio Web.

² El spam de Web se refiere a texto, enlaces y clicks que solo existen para intentar engañar a los buscadores.

³ Frecuencia de un término (TF) y frecuencia inversa de documento (IDF), dos medidas utilizadas en recuperación de información.

⁴ Todos los lectores, independientemente de si son normales o sofisticados, supondrán que son parte del segundo grupo.

⁵ De hecho el concepto de página cada vez tiene menos sentido con tecnologías que permiten cambiar su contenido dinámicamente, como Ajax.

⁶ Debiera ser comercio digital, pero una vez que se usa mal un término, es difícil corregirlo.

⁷ Relacionado con esto, ¿por qué tenemos que ponerle nombre a los ficheros si podemos buscar dentro de su contenido?

⁸ Idem a la anterior.