Anàlisi del cercador múltiple Copernic 2001 Pro
[versión castellana]
Jorge Franganillo
Institut Municipal d'Assistència Sanitària
jfranganillo@imas.imim.es
Teresa Maria Figuerola
Biblioteca de Montserrat
tfiguecu7@biblio.ub.edu
1 Un apunt terminològic
Abans de presentar Copernic, ens convé precisar una qüestió terminològica que considerem imprescindible i que afecta la denominació dels cercadors del mateix tipus. És habitual trobar aquest cercador i d'altres similars batejats com a metacercadors o, afortunadament amb menys freqüència, amb termes encara més impropis com ara megacercadors, multicercadors o multimotors. La designació metacercador és la més comuna, però això no implica que sigui la més idònia; de tan usat, el prefix meta- ha estat buidat del seu significat original en molts contextos. Així doncs, en parlar d'aquests sistemes de cerca i en virtut de les característiques del seu funcionament, és més convenient denominar-los cercadors múltiples perquè és això, precisament, el que són.
En els darrers anys n'han aparegut diversos en forma de programari de gestió amb un cert grau de sofisticació, com és el cas del programa que ens ocupa, que incorporen una sèrie de processos automatitzats: programació, emmagatzemament i seguiment de les consultes, i comprovació de l'accessibilitat de les adreces. En un intent de designar la pròpia espècie, Copernic es presenta a si mateix amb l'apel·lació no gaire modesta d'agent intel·ligent, vanitat que malauradament ha esdevingut molt estesa. L'atribució de l'adjectiu intel·ligent resulta totalment gratuïta perquè el programa no demostra cap capacitat que la justifiqui. Per tant, és més encertat cenyir-se a l'essència d'aquests programes i evitar els noms imprecisos i propers a la ciència-ficció. Proposem, en conseqüència, tractar-los senzillament d'agents cercadors.
2 Presentació
Copernic, producte de l'empresa canadenca Copernic Technologies, és un agent cercador que transmet una equació de cerca a un conjunt de cercadors de manera simultània, en recupera les referències pertinents i les ordena segons el grau mitjà de rellevància obtingut de cadascun dels cercadors. L'empresa creadora de Copernic es va constituir l'any 1996 amb el propòsit de desenvolupar solucions innovadores en tecnologies d'agents de cerca per tal d'aconseguir un accés i una gestió eficients de la gran massa d'informació present a Internet. El programa es va desenvolupar l'any següent en una versió experimental, i es va posar a l'abast del públic el novembre de 1998. Des d'aleshores s'han llançat versions amb elements nous, la majoria dels quals, però, només estan disponibles en les edicions comercials. L'edició gratuïta ofereix els serveis bàsics de consulta i, amb la intenció de persuadir els possibles compradors de les edicions comercials, dóna una idea força aproximada de les possibilitats del programa complet.
Figura 1: Pantalla principal
Copernic Basic, l'edició gratuïta, permet consultar simultàniament prop de 80 cercadors importants agrupats en set categories: “El web” més una categoria opcional relacionada amb un idioma o un país, “Grupos de noticias”, “Direcciones de correo electrónico”, “Compra de libros”, “Compra de hardware” i “Compra de software”. Malgrat que és l'edició reduïda d'un programa comercial, ofereix tantes o més possibilitats que les versions completes d'altres cercadors múltiples com ara Lexibot, NetAttaché Pro o Internet EZ Search.
Copernic Plus, l'edició comercial més econòmica, permet accedir a més de 1.000 fonts d'informació agrupades en 90 categories de cerca especialitzada, algunes de les quals són força irrellevants; en són exemples: “Enciclopedias”, “Salud”, “Multimedia”, “Ciencias”, “Negocios y finanzas”, “Descarga de software”, “Cine”, “Artículos sobre las tecnologías”, “Música”, etc.
Copernic Pro, l'edició comercial més completa, que analitzem aquí, ofereix, a més, altres prestacions interessants: actualització de cerques programades, servei d'alerta i verificador ortogràfic de les cerques.
El programa pot obtenir-se, en qualsevol de les tres modalitats, a través del lloc web <http://www.copernic.com>.
3 Llenguatge d'interrogació i recuperació de la informació
A través del botó “Buscar” o des de la llista de categories s'obre la pantalla de consulta (fig. 2) on s'han d'escriure les paraules clau. El quadre de diàleg permet triar entre cercar per intersecció (“Buscar todas las palabras”), per unió (“Buscar una de las palabras”), o per frase (“Buscar la expresión exacta”). La versió en anglès inclou una quarta opció, que consisteix a introduir una pregunta en llenguatge lliure, amb la qual el cercador no fa altra cosa que seleccionar-ne les paraules clau i combinar-les amb l'operador lògic I. No obstant això, la documentació del programa recomana fer servir paraules clau en lloc de preguntes per obtenir millors resultats.
Atès que el programa demana escollir entre aquestes opcions i malgrat que el procediment de consulta i recuperació es basa en l'àlgebra booleana, no cal escriure operadors dins l'equació de cerca. En cas que l'usuari doni operadors, el programa l'informarà que no necessita emprar-los ja que ell mateix els administra automàticament; l'usuari haurà de reindexar la pregunta o bé podrà fer servir les conjuncions com a termes de cerca.
No és possible combinar diferents modalitats de consulta en una mateixa petició, un obstacle que limita l'estratègia. El motiu és que molts dels cercadors arxivats només reconeixen un operador, per tant, les equacions han de ser senzilles. Tanmateix, Copernic permet combinar paraules amb frases (o seqüències de caràcters) donades entre cometes. Per exemple, es pot fer la cerca bioética “ingeniería genética” per tal de combinar la paraula amb el terme compost.
Figura 2: Pantalla de consulta
Cada interrogació només pot fer-se en una categoria. Tot i que això pot semblar una limitació, de fet és un característica que ajuda a obtenir resultats més pertinents; cada necessitat d'informació requereix resoldre's en un únic tipus de font tot excloent-ne la resta. Abans d'executar una consulta es pot especificar quins cercadors de la categoria escollida es volen cridar, i el nombre de referències a obtenir de cadascun (fins a 300) i en total (fins a 3.000). Aquests valors es poden assignar a una categoria en concret o a totes en conjunt. Per defecte, el programa recupera 10 referències de cada cercador, fins a un total de 1.000, per tal d'obtenir una quantitat considerable de resultats abans de fer servir les funcions de validació o refinació, que analitzarem més endavant.
L'usuari no ha de preocupar-se de mantenir al dia el catàleg de cercadors perquè el programa incorpora una rutina d'actualització automàtica que, aprofitant la connexió amb la xarxa, afegeix, modifica o elimina cercadors i categories sempre que tingui notícia de canvis. Tanmateix, no és possible afegir-hi més cercadors o categories de les que proporciona el lloc web de Copernic. Malgrat aquesta limitació, el menú “Ayuda” inclou l'opció de suggerir un cercador nou.
4 Eliminació de duplicats
Pel que fa a la supressió de referències duplicades, la documentació de Copernic només menciona que el programa fa aquesta funció. Aquesta vaguetat demostra el fet que el mecanisme no funciona tan bé com fóra desitjable: es limita a citar una única vegada els recursos recuperats de diversos cercadors amb una mateixa adreça URL, però no és capaç de distingir un mateix recurs localitzat en adreces o dominis diferents. D'aquesta qüestió, els responsables del servei d'assistència tècnica de Copernic afirmen que en són conscients i que busquen una solució.
5 Validació dels documents
La funció de validació identifica les adreces inaccessibles (perquè no existeixen o perquè no es pot establir la connexió en el temps d'espera prefixat) i dóna l'opció d'eliminar-les. En aquest sentit, convé tenir present que la congestió de la xarxa pot influir negativament sobre el resultat final ja que el programa interpretarà com a inaccessibles moltes adreces que en realitat no ho són. Aquest procés és executable conjuntament amb la cerca, tot i que l'alenteix força; per això Copernic l'ofereix com una opció posterior. Com que el programa pot treballar amb moltes connexions simultànies, aquest procés actua de manera concurrent, fet que suposa un estalvi de temps considerable en comparació amb un usuari que hagués de comprovar d'una en una l'accessibilitat de les referències.
Figura 3: Documents identificats com a inaccessibles
6 Descàrrega dels documents
Copernic permet emmagatzemar els documents trobats per poder explorar-los després, sense connexió. Aquesta funció es pot aplicar a una selecció dels resultats, o a tots, amb les opcions següents:
“Quitar los documentos inaccesibles”: suprimeix de manera automàtica les adreces no accessibles en el temps d'espera concedit.
“Descargar las imágenes”: emmagatzema també les imatges, feina que suposa un increment del temps d'espera, especialment si la consulta ha recuperat molts documents o aquests inclouen nombroses imatges.
“Descargar los documentos seleccionados solamente”: grava els documents triats en la finestra principal.
Atès que l'usuari pot estar interessat a accedir als enllaços inclosos en els documents recuperats, el programa té cura de garantir la navegabilitat entre un document descarregat i els documents remots relacionats mitjançant la conversió dels seus enllaços relatius en enllaços absoluts (en els enllaços relatius s'especifica la ruta cap al document vinculat relativa al document carregat, independentment de la seva localització; els enllaços absoluts es fan servir per enllaçar documents situats en servidors diferents o, com succeeix en la funció de descàrrega de Copernic, per permetre l'accés a documents remots des d'un document local). Aquesta característica pren especial relleu si es considera que ni Netscape Communicator ni Internet Explorer, els visualitzadors més estesos, la inclouen.
7 Depuració de les cerques
Un cop llançada la consulta amb el llenguatge d'interrogació bàsic i obtinguts els resultats, és molt probable que calgui acotar la necessitat informativa perquè les limitacions en la cerca inicial poden haver produït un resultat força sorollós. A través d'un llenguatge d'interrogació més sofisticat, la funció “Refinar” permet filtrar un conjunt de recursos. En aquest segon pas es poden combinar els operadors lògics Y, O, Y NO i O NO —aquest darrer, poc habitual—, l'operador de proximitat CERCA (amb un límit de proximitat de 10 paraules), les cometes per definir cadenes de caràcters, i els parèntesis per limitar els operadors a un grup de termes. També es pot demanar el truncament de les paraules (totes o cap) i que es respecti la coincidència de caixa (majúscules i minúscules).
Figura 4: Pantalla de la funció “Refinar”
Aquesta operació ofereix més possibilitats de formulació que la pantalla inicial ja que el mateix programa pot treballar amb equacions complexes sobre els resultats de la primera pregunta, que de ben segur haurà donat un conjunt de referències prou ampli. Això no obstant, seria més oportú poder executar-les de bon principi (sobretot si es té en compte que el programa necessita descarregar totes les referències, procés que requereix un cert temps). Davant d'aquesta característica convé que la primera cerca sigui prou genèrica per obtenir el màxim possible de resultats; després es podran aplicar-hi les restriccions oportunes.
8 Presentació i ordenació dels resultats
El programa ofereix unes interfícies amistoses, clares i intuïtives. La iconografia és rica, però precisament per això esdevé difícil d'interpretar-la i requereix certa familiarització. Sortosament, la darrera versió de Copernic inclou una llegenda (fig. 5) que en facilita la comprensió.
Figura 5: Llegenda
La pantalla de Copernic està dividida en quatre àrees: la barra d'eines, la llista de categories, l'historial de cerques i la finestra de resultats. En la barra d'eines hi ha els botons, formularis, controls i commutadors amb les funcions essencials del programa. La llista de categories ofereix la relació d'àmbits mitjançant els quals es pot efectuar una cerca, i dóna la possibilitat d'afegir-n'hi més a través de l'opció “Agregar más”, que remet a una pàgina web des de la qual es poden descarregar i instal·lar paquets addicionals de categories.
En l'historial de cerques es mostra una llista de les recerques fetes i que Copernic emmagatzema automàticament. De cada una presenta l'equació (sense refinar), el màxim de resultats (per cercador i en total), la modalitat de consulta (intersecció, unió o frase), la data, l'hora de creació i la darrera actualització, el nombre de referències recuperades, la categoria on s'ha llançat i un camp d'observacions. L'usuari pot configurar aquesta presentació d'acord amb les seves necessitats i escollir les columnes de dades i l'ordre de col·locació. Les cerques apareixen en ordre cronològic, però es poden ordenar sota altres criteris.
La finestra de resultats (fig. 6) enumera les referències rellevants de les cerques emmagatzemades a l'historial. De cada recurs citat es pot veure el títol, l'adreça URL, el grau de rellevància (de forma gràfica o numèrica), l'estat del recurs citat, una casella de verificació (per establir ordres particulars), quins cercadors han recuperat la referència, i un resum. Les paraules clau apareixen ressaltades amb un altre color al títol i al resum, cosa que facilita l'exploració dels resultats. Com en l'historial de cerques, també aquí és possible configurar la presentació i triar altres camps: el nombre d'ocurrències dels termes buscats, la data de localització, la data de la darrera visita, i la ruta del fitxer local (en cas d'haver descarregat el document). Un recurs determinat es pot trobar en aquests estats:
Segons l'actualització en executar de nou la cerca: documents antics, nous i actualitzats.
- Segons l'accessibilitat del recurs validat: accessible i no accessible.
- Documents descarregats.
- Documents refinats.
- Documents visitats.
- Documents omesos en alguna selecció anterior.
La presentació dels resultats en aquesta finestra, integrada dins la pantalla principal del programa, és molt compacta i sembla atapeïda pel fet que s'ha de condensar molta informació en poc espai.
Figura 6: Finestra de resultats
Com a alternativa, Copernic ofereix el que anomena explorador de resultats (fig. 7), una vista independent que permet examinar les referències en una finestra semblant a la pantalla de resultats d'un cercador i, per tant, més còmoda i amistosa amb l'usuari. Aquesta nova presentació possibilita la consulta dels documents localitzats a través d'una interfície amb què l'usuari acostumat a la navegació es trobarà més familiaritzat. A banda d'aquestes diferències purament visuals, n'hi ha d'altres de caire funcional que convé destacar: filtra els documents segons un únic estat en comptes d'agrupar-los i no permet fer seleccions. Per tant, malgrat que l'explorador de resultats és més clar, no ofereix tantes possibilitats a l'hora d'examinar els resultats.
Figura 7: Explorador de resultats
En ambdues vistes, el programa ofereix l'opció de mostrar o amagar fragments dels documents citats (anomenats feliçment resums per part de molts cercadors), és a dir, línies construïdes a còpia de retalls. Com que el cercador múltiple pren referències de fonts diferents, els extractes mostrats no són gaire homogenis: hi ha cercadors i robots que treuen profit de les metadades, altres seleccionen fragments on apareixen els termes de l'equació de cerca, altres es conformen amb la primera línia de text del recurs i n'hi ha que s'atreveixen a no proporcionar res. Aquest fet no és més que un reflex de la poca uniformitat amb què s'indexen els continguts de la xarxa.
Un altre aspecte en què també queda palesa la diversitat en el funcionament dels cercadors és l'assignació dels graus de rellevància, que s'obtenen a partir de la comparació entre dos conjunts de paraules: les que representen els documents i les que representen la necessitat d'informació. Hem de recordar que Copernic no efectua cerques, sinó que les delega a altres cercadors, cadascun amb criteris de ponderació diferents, i calcula una mitjana percentual dels índexs de rellevància obtinguts per a cada referència. L'encert en el càlcul de rellevància per part de cada cercador activat depèn de la qualitat del seu sistema de recuperació; uns es basen en les metadades, altres es fixen en la posició de les paraules dins del document, altres valoren la quantitat d'enllaços provinents d'altres pàgines, i n'hi ha que valoren la proximitat de les paraules o la freqüència d'aparició. L'eficàcia d'aquesta ponderació es pot qüestionar ja que l'ordre no sempre és acceptable. Habitualment, els recursos amb una puntuació de rellevància major són pertinents.
En arribar a aquest punt, ens interessa aclarir la diferència entre rellevància i pertinència, dos conceptes que posen de manifest el model probabilístic de petició d'informació en els entorns de recuperació d'informació. La rellevància és una propietat dels documents que indica el grau de probabilitat de satisfer una necessitat d'informació. La pertinència és la capacitat dels documents per resoldre el requeriment informatiu i mitjançant la qual esdevenen apropiats. Com a conseqüència, els resultats que s'obtenen són una ordenació dels documents, que parteix del grau de probabilitat segons el qual podran ser pertinents.
9 Exportació dels resultats
Mitjançant la funció d'exportació dels resultats, es poden enviar informes o els resultats de les cerques per correu electrònic. Per poder fer-la servir cal tenir un client de correu configurat amb el suport MAPI (Messaging Applications Programming Interface). En cas que aquesta qüestió tècnica agafi l'usuari per sorpresa, la pàgina de preguntes freqüents del lloc web de Copernic explica breument com configurar-ho i informa que hi ha una alternativa: exportar les cerques a un fitxer que es pot enviar com a document adjunt en un missatge electrònic. També és possible emmagatzemar els resultats de les recerques en els formats següents: text ASCII, text amb valors delimitats per comes, HTML, XML i dBase. No obstant això, el programa es queda curt en el ventall de formats a escollir, ja que només inclou els més oberts. La sortida de dades a través de la impressora requereix obrir l'explorador de resultats, des d'on es pot fer una còpia impresa dels resultats tal com l'usuari els hagi filtrat i ordenat.
10 Servei d'alerta
Copernic ofereix un agent de seguiment per actualitzar les cerques de manera autònoma i notificar a l'usuari l'aparició de nous documents del seu interès o indicar els canvis que s'hagin produït. Es pot programar l'actualització d'una consulta durant la seva creació o modificació segons la periodicitat desitjada, es poden ajuntar diverses peticions en la mateixa agenda de seguiment, i fins i tot, establir l'ordre d'execució de les cerques a efectuar. També és possible programar l'agent perquè enviï per correu electrònic a una o diverses adreces els informes amb els nous documents trobats. Aquesta eina d'actualització requereix Internet Explorer (versió 4.0 o posterior) per tal que Copernic pugui accedir al Planificador de tareas (fig. 8), un mòdul de Windows que implica tenir l'ordinador encès perquè s'activi l'actualització automàtica en el moment previst, tot i que permet executar una tasca en el moment que l'usuari la demani.
Figura 8: Consulta programada al Planificador de tareas
Hi ha tres maneres de consultar els informes de seguiment:
La finestra “Agendas de seguimiento” presenta en negreta les cerques amb nous resultats que encara no han estat consultades.
En l'historial de cerques, les consultes actualitzades apareixen ressaltades en negreta i amb el nombre de nous documents localitzats afegit temporalment entre parèntesi a la columna “Resultados”.
Si s'ha sol·licitat l'opció d'enviament d'un informe per correu electrònic, aquest arribarà als destinataris en format HTML o text ASCII.
Com es pot comprovar, aquesta utilitat actua com un servei d'alerta, a partir d'un perfil de cerca donat, en una base de dades.
11 Traducció de documents
Copernic ofereix una eina de traducció de documents a través del servei en línia Gist-In-Time <http://translate.copernic.com:8090>. La vam comparar amb altres serveis similars com ara Babelfish <http://babelfish.altavista.com>, Translation Experts <http://www.tranexp.com> i PROMT-Reverso Online <http://www.paralink.com/translation>. Encara tenint present que la qualitat de les traduccions automatitzades no és bona en general, la nostra opinió és que Gist-In-Time no és una opció gaire brillant.
Figura 9: Servei de traducció en línia Gist-In-Time
12 Integració
Un tret interessant del programa és la seva capacitat d'integració amb Internet Explorer (versió 4.0 o posterior) i amb altres components de Windows. Aquesta característica facilita l'accés als serveis que ofereix Copernic sense la necessitat d'obrir l'aplicació ex profeso, i permet que l'explorador de resultats, analitzat abans, tregui profit d'algunes biblioteques dinàmiques d'Internet Explorer per a la presentació dels resultats en format HTML. Altres possibilitats d'aquesta integració són:
La substitució de la barra de cerca d'Internet Explorer pel component “Búsqueda activa de Copernic”, que permet buscar a través de Copernic fins i tot a partir d'una selecció de paraules d'una pàgina web.
L'addició de botons i comandaments nous a Internet Explorer per obrir Copernic i traduir documents mitjançant Gist-In-Time.
La capacitat de la barra d'adreces per executar directament la funció “Búsqueda activa de Copernic” en introduir termes de cerca.
Seria interessant veure aquestes possibilitats també en Netscape Communicator, però aquest visualitzador queda totalment al marge d'aquestes capacitats; no és tan obert com Internet Explorer i no admet tantes subtileses, atès que no és producte de Microsoft i no està prou integrat amb el seu entorn operatiu, Windows. Però no ens enganyem ni oblidem que trets com aquests són el motiu de les incessants gresques comercials protagonitzades per l'empresa de Bill Gates.
13 Ajuda
Copernic disposa d'una funció d'ajuda accessible des de qualsevol context, a través de la qual el programa es dóna a conèixer, descriu les seves característiques, inclou aclariments i ofereix consells d'ús. El text de l'ajut està impregnat del mateix to vanitós amb què el programa es presenta a si mateix, però és de bon entendre i es deslliura del foc etern per la bona redacció de la traducció castellana, prou correcta, fet una mica inusitat en els temps que corren. Malgrat això, de vegades es limita a mencionar les funcions que el programa és capaç de fer, i es queda curt a l'hora d'explicar-les.
El lloc web de l'empresa ofereix, a més, una pàgina de respostes a preguntes freqüents <http://www.copernic.com/support>, referides a la instal·lació del programa i a problemes que poden sorgir, i proporciona diverses adreces de correu electrònic per resoldre altres qüestions (assistència tècnica particularitzada, informació de compra i suggeriments de millora per al programa) en un termini raonable: entre 24 i 48 hores.
14 Com a conclusió
El creixement continu d'Internet està minvant el rendiment dels ginys de cerca actuals. Un dels remeis a aquest problema rau en els cercadors múltiples, especialment els agents de cerca, ja que incorporen diversos processos automatitzats útils. De totes maneres, convé decidir amb bon criteri entre fer servir aquests invents o optar pels cercadors “tradicionals”. Tot depèn d'allò que es busqui i del grau de complexitat de la consulta.
Per trobar termes obscurs recomanem l'ús d'un cercador múltiple; això estalviarà temps i esforços, atès que la consulta s'efectuarà en molts cercadors alhora. En canvi, és més aconsellable triar un únic cercador si es confia en què recuperarà la pàgina que s'està buscant; no cal matar mosques a cops de canó. Si es vol precisió, l'algorisme emprat per Google <http://www.google.com/advanced_search?hl=ca> és especialment destacable perquè té en compte la quantitat d'enllaços que reben els documents indexats. Per fer consultes complexes i centrades en un aspecte concret, recomanem l'ús de cercadors que proporcionin un llenguatge d'interrogació prou sofisticat com ara AltaVista: cerca avançada <http://es-ca.altavista.com/searchadv> i Northern Light: Power Search <http://www.northernlight.com/power.html>. Si s'està a la recerca de repertoris sistemàtics de recursos convé consultar els directoris temàtics i les guies expertes.
Tot i això, existeix la possibilitat de no trobar el que es buscava. Efectivament, el fet d'haver esgotat totes aquestes opcions no implica necessàriament que la informació requerida no estigui a la xarxa. Hi ha informacions que els cercadors no recullen i que s'han de buscar a través d'altres fonts: grups de discussió, bases de dades, etc. Això no és tot, però. S'ha de deixar la porta oberta perquè Copernic és tan sols un tros del present d'Internet, un instrument competent per treballar ara, l'any 2001. Però és un arbre de fullam caduc. Caldrà, doncs, preguntar-nos: i després? La resposta és d'un Premi Nobel: José Saramago ens diu, cap al final de la seva meravellosa A caverna, “[...] e ela respondeu: Depois, velho amigo, como sempre, o futuro”.