BID: textos universitaris de Biblioteconomia i Documentació

Número 6, juny 2001


Análisis del buscador múltiple Copernic 2001 Pro
[versió catalana]
Jorge Franganillo
Institut Municipal d'Assistència Sanitària
jfranganillo@imas.imim.es

Teresa Maria Figuerola
Biblioteca de Montserrat
tfiguecu7@biblio.ub.edu


1  Un apunte terminológico

Antes de presentar Copernic 2001, nos conviene precisar una cuestión terminológica que consideramos imprescindible y que afecta a la denominación de los buscadores del mismo tipo. Es habitual encontrar este buscador y otros similares bautizados como metabuscadores o, afortunadamente con menos frecuencia, con términos aún más impropios como megabuscadores, multibuscadores o multimotores. La designación metabuscador es la más común, pero ello no implica que sea la más idónea; de tan trillado, el prefijo meta- ha sido vaciado de su significado original en muchos contextos. Así pues, al hablar de estos sistemas de búsqueda y en virtud de las características de su funcionamiento, es más conveniente denominarlos buscadores múltiples porque es eso, precisamente, lo que son.

En los últimos años han aparecido varios buscadores múltiples en forma de software de gestión con cierto grado de sofisticación, como es el caso del programa que nos ocupa, que incorporan una serie de procesos automatizados: programación, almacenamiento y seguimiento de las consultas, y comprobación de la accessibilidad de las direcciones. En un intento de designar su propia especie, Copernic se presenta a sí mismo con la apelación poco modesta de agente inteligente, vanidad que desgraciadamente se ha extendido mucho. La atribución del adjetivo inteligente resulta totalmente gratuita porque el programa no demuestra ninguna capacidad que la justifique. Por lo tanto, es más acertado ceñirse a la esencia de estos programas y evitar los nombres imprecisos y cercanos a la ciencia-ficción. Proponemos, en consecuencia, tratarlos sencillamente de agentes buscadores.


2  Presentación

Copernic, producto de la empresa canadiense Copernic Technologies, es un agente buscador que transfiere una ecuación de búsqueda a un conjunto de buscadores de manera simultánea, recupera las referencias pertinentes y las ordena según el grado medio de relevancia obtenido de cada uno de los buscadores. La empresa creadora de Copernic se constituyó en 1996 con el propósito de desarrollar soluciones innovadoras en tecnologías de agentes de búsqueda para conseguir un acceso y una gestión eficientes de la gran masa de información presente en Internet. El programa se desarrolló el año siguiente en una versión experimental, y se puso al alcance del público en noviembre de 1998. Desde entonces se han lanzado versiones con elementos nuevos, la mayoría de los cuales, no obstante, sólo están disponibles en las ediciones comerciales. La edición gratuita ofrece los servicios básicos de consulta y, con la intención de persuadir a los posibles compradores de las ediciones comerciales, da una idea bastante aproximada de las posibilidades del programa completo.

Pantalla principal

Figura 1: Pantalla principal

Copernic Basic, la edición gratuita, permite consultar simultáneamente cerca de 80 buscadores importantes agrupados en siete categorías: “El web” más una categoría opcional relacionada con un idioma o un país, “Grupos de noticias”, “Direcciones de correo electrónico”, “Compra de libros”, “Compra de hardware” y “Compra de software”. A pesar de ser la edición reducida de un programa comercial, ofrece tantas o más posibilidades que las versiones completas de otros buscadores múltiples como Lexibot, NetAttaché Pro o Internet EZ Search.

Copernic Plus, la edición comercial más económica, permite acceder a más de 1.000 fuentes de información agrupadas en 90 categorías de búsqueda especializada, algunas de las cuales son bastante irrelevantes; he aquí algunos ejemplos: “Enciclopedias”, “Salud”, “Multimedia”, “Ciencias”, “Negocios y finanzas”, “Descarga de software”, “Cine”, “Artículos sobre las tecnologías”, “Música”, etc.

Copernic Pro, la edición comercial más completa, ofrece, además, otras prestaciones interesantes: actualización de búsquedas programadas, servicio de alerta y verificador ortográfico de les búsquedas.

El programa puede obtenerse, en cualquiera de las tres modalidades, a través del sitio web <http://www.copernic.com>.


3  Lenguaje de interrogación y recuperación de la información

A través del botón “Buscar” o desde la lista de categorías se abre la pantalla de consulta (fig. 2) donde se debe escribir las palabras clave. El cuadro de diálogo permite escoger entre buscar por intersección (“Buscar todas las palabras”), por unión (“Buscar una de las palabras”), o por frase (“Buscar la expresión exacta”). La versión en inglés incluye una cuarta opción, que consiste en introducir una pregunta en lenguaje libre, con la cual el buscador no hace otra cosa que seleccionar las palabras clave y combinarlas con el operador lógico Y. Sin embargo, la documentación del programa aconseja utilizar palabras clave en lugar de preguntas para obtener resultados mejores.

Dado que el programa pide escoger entre estas opciones y aunque el procedimiento de consulta y recuperación se basa en el álgebra booleana, no es necesario escribir operadores en la ecuación de búsqueda. En caso que el usuario dé operadores, el programa le informará de que no necesita emplearlos ya que él mismo los administra automáticamente; el usuario tendrá que reindizar la pregunta o bien podrá usar las conjunciones como términos de búsqueda.

No es posible combinar diferentes modalidades de consulta en una misma petición, un obstáculo que limita la estrategia. El motivo es que muchos de los buscadores archivados sólo reconocen un operador, así que las ecuaciones han de ser sencillas. No obstante, Copernic permite combinar palabras con frases (o secuencias de caracteres) dadas entre comillas. Por ejemplo, se puede efectuar la búsqueda bioética “ingeniería genética” para combinar la palabra con el término compuesto.

Pantalla de consulta

Figura 2: Pantalla de consulta

Cada interrogación sólo puede hacerse en una categoría. Aunque esto puede parecer una limitación, de hecho es una característica que ayuda a obtener resultados más pertinentes; cada necesidad de información requiere resolverse en un único tipo de fuente excluyendo el resto. Antes de ejecutar una consulta se puede especificar a qué buscadores de la categoría escogida se quiere llamar, y el número de referencias a obtener de cada uno (hasta 300) y en total (hasta 3.000). Estos valores pueden asignarse a una categoría en concreto o a todas en conjunto. Por defecto, el programa recupera 10 referencias de cada buscador, hasta 1.000 en total, con el fin de obtener una cantidad considerable de resultados antes de hacer uso de las funciones de validado o refinado, que analizaremos más adelante.

El usuario no tiene que preocuparse de mantener al día el catálogo de buscadores porque el programa incorpora una rutina de actualización automática que, aprovechando la conexión con la red, añade, modifica o elimina buscadores y categorías siempre que tenga noticia de cambios. Sin embargo, no es posible añadir más buscadores o categorías de las que proporciona el sitio web de Copernic. A pesar de esta limitación, el menú “Ayuda” incluye la opción de sugerir un buscador nuevo.


4  Eliminación de duplicados

En cuanto a la supresión de referencias duplicadas, la documentación de Copernic sólo menciona que el programa hace esta función. Tal vaguedad demuestra que el mecanismo no funciona tan bien como sería deseable: se limita a citar una única vez los recursos recuperados de diversos buscadores con una misma dirección URL, pero no es capaz de distinguir un mismo recurso localizado en direcciones o dominios diferentes. De esta cuestión los responsables del servicio de asistencia técnica de Copernic afirman que son conscientes y que buscan una solución.


5  Validación de los documentos

La función de validación identifica las direcciones inaccesibles (porque no existen o porque no se puede establecer la conexión en el tiempo de espera prefijado) y da la opción de eliminarlas. En este sentido, conviene tener presente que la congestión de la red puede influir negativamente sobre el resultado final ya que el programa interpretará como inaccesibles muchas direcciones que en realidad no lo son. Este proceso es ejecutable conjuntamente con la búsqueda, a pesar de que la vuelve más lenta; por esta razón Copernic la ofrece como una opción posterior. Como el programa puede trabajar con muchas conexiones simultáneas, este proceso actúa de manera concurrente, hecho que supone un ahorro de tiempo considerable en comparación con haber de comprobar manualmente la accesibilidad de cada una de las referencias.

Documentos identificados como inaccesibles

Figura 3: Documentos identificados como inaccesibles


6  Descarga dels documentos

Copernic permite almacenar los documentos hallados para poder explorarlos después, sin conexión. Esta función puede aplicarse a una selección de los resultados, o a todos, con las opciones siguientes:

Dado que al usuario puede interesarle acceder a los enlaces incluidos en los documentos recuperados, el programa se ocupa de garantizar la navegabilidad entre un documento descargado y los documentos remotos relacionados mediante la conversión de sus enlaces relativos en enlaces absolutos (en los enlaces relativos se especifica la ruta hacia el documento vinculado relativa al documento cargado, independientemente de su localización; los enlaces absolutos se emplean para enlazar documentos situados en servidores diferentes o, como sucede en la función de descarga de Copernic, para permitir el acceso a documentos remotos desde un documento local). Esta característica toma especial relieve si se considera que ni Netscape Communicator ni Microsoft Internet Explorer, los visualizadores más extendidos, la contemplan.


7  Depuración de las búsquedas

Una vez lanzada la consulta con el lenguaje de interrogación básico y obtenidos los resultados, es muy probable que convenga acotar la necesidad informativa porque las limitaciones en la búsqueda inicial pueden haber producido un resultado bastante ruidoso. A través de un lenguaje de interrogación más sofisticado, la función “Refinar” permite filtrar un conjunto de recursos. En este segundo paso se pueden combinar los operadores lógicos Y, O, Y NO y O NO —este último, poco habitual—, el operador de proximidad CERCA (con un límite de proximidad de 10 palabras), las comillas para definir cadenas de caracteres, y los paréntesis para limitar los operadores a un grupo de términos. También se puede solicitar el truncamiento de las palabras (todas o ninguna) y que se respete la coincidencia de caja (mayúsculas y minúsculas).

Pantalla de la función “Refinar”

Figura 4: Pantalla de la función “Refinar”

Esta operación ofrece más posibilidades de formulación que la pantalla inicial ya que el propio programa puede trabajar con ecuaciones complejas sobre los resultados de la primera pregunta, que seguramente habrá dado un conjunto de referencias suficientemente amplio. No obstante, sería más oportuno poder ejecutarlas de entrada (sobre todo si se tiene en cuenta que el programa necesita descargar todas las referencias, proceso que requiere un cierto tiempo). Ante esta característica conviene que la primera búsqueda sea bastante genérica para obtener el máximo posible de resultados; después se podrán aplicar las restricciones oportunas.


8  Presentación y ordenación de los resultados

El programa ofrece unas interfaces amistosas, claras e intuitivas. La iconografía es rica, pero precisamente por eso resulta difícil de interpretar y requiere cierta familiarización. Por suerte, esta última versión de Copernic ya incluye las leyendas (fig. 5) que facilitan la comprensión.

Leyenda

Figura 5: Leyenda

La pantalla de Copernic está dividida en cuatro áreas: la barra de herramientas, la lista de categorías, el historial de búsquedas y la ventana de resultados. La barra de herramientas contiene los botones, formularios, controles y conmutadores con las funciones esenciales del programa. La lista de categorías ofrece la relación de ámbitos mediante los cuales se puede efectuar una búsqueda, y brinda la posibilidad de añadir más a través de la opción “Agregar más”, que remite a una página web desde la cual se pueden descargar e instalar paquetes adicionales de categorías.

En el historial de búsquedas se muestra un listado de las peticiones hechas y que Copernic almacena automáticamente. De cada una presenta la ecuación (sin refinar), el máximo de resultados (por buscador y en total), la modalidad de consulta (intersección, unión o frase), la fecha, la hora de creación y la última actualización, el número de referencias recuperadas, la categoría en la que se ha ejecutado y un campo de observaciones. El usuario puede configurar esta presentación de acuerdo con sus necesidades y escoger las columnas de datos y el orden de colocación. Las búsquedas aparecen en orden cronológico, pero pueden ordenarse bajo otros criterios.

La ventana de resultados (fig. 6) enumera las referencias relevantes de las búsquedas almacenadas en el historial. De cada recurso citado se puede ver el título, la dirección URL, el grado de relevancia (de forma gráfica o numérica), el estado del recurso citado, una casilla de verificación (para establecer órdenes particulares), qué buscadores han recuperado la referencia, y un resumen. Las palabras clave aparecen resaltadas con otro color en el título y en el resumen, lo que facilita la exploración de los resultados. Como sucede en el historial de búsquedas, también aquí es posible configurar la presentación y escoger otros campos: el número de ocurrencias de los términos buscados, la fecha de localización, la fecha de la última visita, y la ruta del fichero local (en caso de haber descargado el documento). Un recurso determinado se puede encontrar en estos estados:

La presentación de los resultados en esta ventana, integrada dentro de la pantalla principal del programa, es muy compacta y parece atiborrada por el hecho de tener que condensar mucha información en poco espacio.

Ventana de resultados

Figura 6: Ventana de resultados

Como alternativa, Copernic ofrece lo que denomina explorador de resultados (fig. 7), una vista independiente que permite examinar las referencias en una ventana similar a la pantalla de resultados de un buscador y, por lo tanto, más cómoda y amistosa con el usuario. Esta nueva presentación posibilita la consulta de los documentos localizados a través de una interfaz con la que el usuario acostumbrado a la navegación se encontrará más familiarizado. Aparte de estas diferencias puramente visuales, hay otras de ámbito funcional que conviene destacar: filtra los documentos según un único estado en lugar de agruparlos y no permite hacer selecciones. Por lo tanto, aunque el explorador de resultados es más claro, no ofrece tantas posibilidades en el momento de examinar los resultados.

Explorador de resultados

Figura 7: Explorador de resultados

En ambas vistas, el programa ofrece la opción de mostrar u ocultar fragmentos de los documentos citados (llamados felizmente resúmenes por muchos buscadores), esto es, líneas construidas a base de retales. Dado que el buscador múltiple toma referencias de fuentes diferentes, los extractos mostrados no son muy homogéneos: hay buscadores y robots que sacan provecho de los metadatos, otros seleccionan fragmentos donde aparecen los términos de la ecuación de búsqueda, otros se conforman con la primera línea de texto del recurso y los hay que se atreven a no proporcionar nada. Este hecho no es más que un reflejo de la poca uniformidad con la que se indizan los contenidos de la red.

Otro aspecto en el que también queda patente la diversidad en el funcionamiento de los buscadores es la asignación de los grados de relevancia, que se obtienen a partir de la comparación entre dos conjuntos de palabras: las que representan los documentos y las que representan la necesidad de información. Se impone recordar que Copernic no efectúa búsquedas, sino que las delega a otros buscadores, cada uno con criterios de ponderación diferentes, y calcula una media porcentual de los índices de relevancia obtenidos para cada referencia. El acierto en el cálculo de relevancia por parte de cada buscador activado depende de la calidad de su sistema de recuperación; unos se basan en los metadatos, otros se fijan en la posición de les palabras dentro del documento, otros valoran la cantidad de enlaces procedentes de otras páginas, y los hay que valoran la proximidad de las palabras o la frecuencia de aparición. La eficacia de esta ponderación puede cuestionarse ya que el orden no siempre es aceptable. Habitualmente, los recursos con una puntuación de relevancia mayor son pertinentes.

Llegados a este punto, nos interesa aclarar la diferencia entre relevancia y pertinencia, dos conceptos que ponen de manifiesto el modelo probabilístico de petición de información en los entornos de recuperación de información. La relevancia es una propiedad de los documentos que indica el grado de probabilidad de satisfacer una necesidad de información. La pertinencia es la capacidad de los documentos para resolver el requisito informativo y mediante la cual resultan apropiados. Como consecuencia, los resultados que se obtienen son una ordenación de los documentos, que parte del grado de probabilidad según el cual podrán ser pertinentes.


9  Exportación de los resultados

Mediante la función de exportación de los resultados, se pueden enviar informes o los resultados de las búsquedas por correo electrónico. Para poder emplearla conviene tener un cliente de correo configurado con el soporte MAPI (Messaging Applications Programming Interface). En caso de que esta cuestión técnica coja al usuario por sorpresa, la página de preguntas frecuentes del sitio web de Copernic explica brevemente cómo configurarlo e informa de que hay una alternativa: exportar las búsquedas a un fichero que puede enviarse como documento adjunto en un mensaje electrónico. También es posible almacenar los resultados de las búsquedas en los formatos siguientes: texto ASCII, texto con valores delimitados por comas, HTML, XML i dBase. No obstante, el programa se queda corto en el abanico de formatos a escoger, ya que sólo contempla los más abiertos. La salida de datos a través de la impresora requiere abrir el explorador de resultados, desde donde se puede hacer una copia impresa de los resultados tal como el usuario los haya filtrado y ordenado.


10  Servicio de alerta

Copernic ofrece un agente de seguimiento para realizar la actualización de las búsquedas de manera autónoma y notificar al usuario sobre la aparición de nuevos documentos de su interés o indicar los cambios que se hayan producido. Se puede programar la actualización de una consulta durante su creación o modificación según la periodicidad deseada, se pueden juntar diversas peticiones en la misma agenda de seguimiento, e incluso establecer el orden de ejecución de las búsquedas a efectuar. También es posible programar el agente para que envíe por correo electrónico a una o varias direcciones los informes con los nuevos documentos hallados. Esta herramienta de actualización requiere Internet Explorer (versión 4.0 o posterior) para que Copernic pueda acceder al Planificador de tareas (fig. 8), un módulo de Windows que implica tener el ordenador encendido para que se active la actualización automática en el momento previsto, a pesar de lo cual permite ejecutar una tarea en el momento en que el usuario la solicite.

Consulta programada en el Planificador de tareas

Figura 8: Consulta programada en el Planificador de tareas

Hay tres maneras de consultar los informes de seguimiento:

Como se puede comprobar, esta utilidad actúa como un servicio de alerta, a partir de un perfil de búsqueda dado, en una base de datos.


11  Traducción de documentos

Copernic ofrece una herramienta de traducción de documentos a través del servicio en línea Gist-In-Time (<http://translate.copernic.com:8090>). La comparamos con otros servicios similares como Babelfish (<http://babelfish.altavista.com>), Translation Experts (<http://www.tranexp.com>) y PROMT-Reverso Online (<http://www.paralink.com/translation>). Aun teniendo presente que la calidad de las traducciones automatizadas no es buena en general, nuestra opinión es que Gist-In-Time no es una opción demasiado brillante.

Servei de traducció en línia Gist-In-Time

Figura 9: Servei de traducció en línia Gist-In-Time


12  Integración

Una cualidad interesante del programa es su capacidad de integración con Internet Explorer (versión 4.0 o posterior) y con otros componentes de Windows. Esta característica facilita el acceso a los servicios que ofrece Copernic sin la necesidad de abrir la aplicación ex profeso, i permite que el explorador de resultados, analizado antes, aproveche algunas bibliotecas dinámicas de Internet Explorer para la presentación de los resultados en formato HTML. Otras posibilidades de esta integración son:

Sería interesante ver estas posibilidades también en Netscape Communicator, pero este visualizador queda totalmente al margen de estas capacidades; no es tan abierto como Internet Explorer y no admite tantas sutilezas, dado que no es producto de Microsoft y no está suficientemente integrado con su entorno operativo, Windows. Pero no nos engañemos ni olvidemos que rasgos como estos son el motivo de las incesantes trifulcas comerciales protagonizadas por la empresa de Bill Gates.


13  Ayuda

Copernic dispone de una función de ayuda accesible desde cualquier contexto, a través de la cual el programa se da a conocer, describe sus características, incluye aclaraciones y ofrece consejos de uso. El texto de la ayuda está impregnado del mismo tono vanidoso con el que el programa es presenta a sí mismo, pero es de buen entender y se libra del fuego eterno por la buena redacción de la traducción castellana, bastante correcta, algo inusitado en los tiempos que corren. A pesar de ello, a veces se limita a mencionar las funciones que el programa es capaz de hacer, y se queda corto en explicaciones.

El sitio web de la empresa ofrece, además, una página de respuestas a preguntas frecuentes (http://www.copernic.com/support/index.html), referidas a la instalación del programa y a problemas que pueden surgir, y proporciona varias direcciones de correo electrónico para resolver otras cuestiones (asistencia técnica particularizada, información de compra y sugerencias de mejora para el programa) en un plazo razonable: entre 24 y 48 horas.


14  Como conclusión

El crecimiento continuo de Internet está mermando el rendimiento de los mecanismos de búsqueda actuales. Uno de los remedios a este problema estriba en los buscadores múltiples, especialmente los agentes de búsqueda, ya que incorporan diversos procesos automatizados de utilidad. De todos modos, conviene decidir con buen criterio entre utilizar estos inventos u optar por los buscadores “tradicionales”. Todo depende de lo que se busque y del grado de complejidad de la consulta.

Para encontrar términos oscuros recomendamos el uso de un buscador múltiple; ello ahorrará tiempo y esfuerzo, dado que la consulta se efectuará en muchos buscadores a la vez. En cambio, es más aconsejable escoger un único buscador si se confía en que recuperará la página que se está buscando; no hace falta matar moscas a cañonazos. Si se quiere precisión, el algoritmo empleado por Google (<http://www.google.com/advanced_search?hl=es>) es destacable porque tiene en cuenta la cantidad de enlaces que reciben los documentos indizados. Para hacer consultas complejas y centradas en un aspecto concreto, aconsejamos utilizar buscadores que proporcionen un lenguaje de interrogación suficientemente sofisticado como AltaVista: búsqueda avanzada (<http://es-es.altavista.com/searchadv>) y Northern Light: Power Search (<http://www.northernlight.com/power.html>). Si se está en busca de repertorios sistemáticos de recursos conviene consultar los directorios temáticos y las guías expertas.

Aun así, existe la posibilidad de no encontrar lo que se buscaba. Efectivamente, el hecho de haber agotado todas estas opciones no implica necesariamente que la información requerida no esté en la red. Hay información que los buscadores no recogen y que se ha de buscar a través de otras fuentes: grupos de discusión, bases de datos, etc. Pero eso no es todo. Hay que dejar la puerta abierta porque Copernic sólo es un pedazo del presente de Internet, un instrumento competente para trabajar ahora, en el año 2001. Pero es un árbol de hoja caduca. Entonces tendremos que preguntarnos: ¿y después? La respuesta es de un Premio Nobel: José Saramago nos dice, hacia el final de su maravillosa A caverna, “[...] e ela respondeu: Depois, velho amigo, como sempre, o futuro”.