Carlos Gonzalo
DEA en Informació i Documentació en l’Era Digital
Resum [Abstract] [Resumen]
En l’estructura d’enllaços d’un lloc web es poden distingir dos tipus principals d’enllaços: els de navegació i els semàntics. Els cercadors només tenen en compte el segon tipus, ja que aporta valor semàntic per mitjà del text de l’àncora (anchor text). En llocs no acadèmics, els principals motius de creació d’aquests enllaços semàntics són purament comercials i de màrqueting. Una subclasse d’enllaç de màrqueting és la que podríem anomenar d’enllaços fraudulents, coneguts popularment com a [enllaços] spam. La creació massiva d’aquest tipus d’enllaços —link farm, és a dir, “granja d’enllaços”— té com a objectiu modificar el comportament de l’algoritme Page Rank. Google ha creat l’algoritme Trust Rank amb la finalitat de detectar “granges d’enllaços”.
1 Introducció
En el marc de la World Wide Web definim l’enllaç com una connexió entre un element d’un document d’hipertext —ja sigui una paraula, una frase, un símbol o una imatge— i un altre element diferent situat en el mateix document, en un altre document, en un arxiu o en un script. Per regla general, la forma més comuna d’enllaç és una paraula o imatge ressaltada que l’internauta pot seleccionar, i obtenir el lliurament i la visualització immediata d’un altre arxiu de text, vídeo o àudio. L’objecte ressaltat, conegut com a àncora (anchor), al costat de l’objecte a què es refereix, constitueix un enllaç d’hipertext.
Aquests enllaços i els textos utilitzats com a àncora que apunten cap a una pàgina estan considerats com el recurs número u del posicionament web, que podríem definir com “el conjunto de procedimientos que permiten colocar un sitio o una página web en un lugar óptimo entre los resultados proporcionados por un motor de búsqueda” (Codina, 2004).
Els principals procediments de posicionament web es poden dividir en dos grups de factors que depenen del control que l’administrador pot exercir-hi. Els factors interns són els que l’administrador del lloc web pot optimitzar: les paraules clau, tant primàries com secundàries, els títols i les metaetiquetes. Els factors externs són els que depenen de tercers, de pàgines a les quals, en principi, l’administrador no té un accés directe. En aquest últim grup s’ha de tenir en compte el nombre total d’enllaços entrants, com també el text de l’àncora d’aquests enllaços. En un cas òptim, les mateixes paraules clau que condueixen a una determinada pàgina web s’haurien de trobar en el text que actua com a ancoratge de l’etiqueta d’un enllaç entrant; així, un enllaç entrant òptim per a aquest article tindria la composició següent: <a href="http://bid.ub.edu/16gonza1.htm">Tipologia i anàlisi d’enllaços web: aplicació a l’estudi dels enllaços fraudulents i de les “granges d’enllaços”</a>.
L’objectiu de la manipulació i creació d’enllaços és modificar el comportament dels algoritmes dels cercadors, principalment el de l’algoritme PageRank1 de Google, ja que per determinar els rangs dels resultats de les cerques, els motors usen mesures de popularitat d’enllaços (quantitat de llocs “relacionats” o “autoritatius” que enllacen a una web determinada).
En aquest article analitzarem amb detall la composició dels enllaços web i la seva manipulació. En un primer bloc estudiarem la composició de les anomenades xarxes socials, les seves unitats i característiques bàsiques, i a continuació ens centrarem en la perspectiva de l’anàlisi de xarxes d’enllaços (Hyperlink Network Analysis, més conegut per la sigla HNA) i les diferents eines analítiques per a l’estudi de les comunitats. Finalitzarem aquest primer bloc amb la perspectiva webmètrica, en la qual destacarem els indicadors de connectivitat i les mesures topològiques aplicades a les estructures d’enllaços.
A continuació desenvoluparem un apartat centrat en els motius de creació d’enllaços, en què tractarem la motivació acadèmica, derivada dels estudis de xarxes socials, la motivació navegadora i la motivació de negoci, per acabar amb la motivació relacionada amb el posicionament web, que ens obrirà les portes a l’estudi de les comunitats d’enllaços fraudulents (enllaços spam), conegudes popularment com granges d’enllaços (link farms), i a un nou algoritme de Google anomenat Trust Rank.
2 Grafs, enllaços i tipologies d’estructures
L’estructura interna d’un lloc web pot ser representada per mitjà d’un graf dirigit G = (V, E),2 on V és una col·lecció de vèrtexs o nodes i E és una col·lecció d’arestes o arcs en el lloc web. Els grafs finits amb n vèrtexs es representen com estructures de dades per mitjà d’una matriu d’adjacència: una matriu n-per-n les entrades de la qual a la fila i i a la columna j donen el nombre d’arestes des del vèrtex i-èsim fins al j-èsim.
Parts d’un graf Matriu d’adjacència d’un graf Gràfic 1. Estructura interna d’un lloc web
Cada node té tres atributs —ID, concepte i descripció—, on:
- ID és l’identificador del node.
- Concepte és una paraula clau o frase que representa la categoria semàntica de la pàgina web.
- Descripció és una llista de valors-nom que descriu els atributs del node, com ara l’URL, si la pàgina és un índex o una pàgina de continguts, etc.
Les arestes tenen quatre atributs —node font, node objectiu, tipus i descripció—, on:
- Node font és el node que conté un enllaç.
- Node objectiu és el node apuntat per l’enllaç del node font.
- Tipus pot ser semàntic o de navegació.
- Descripció és una llista de valors-nom que descriu els atributs del vèrtex, com ara el text de l’àncora de l’enllaç, el nom de l’arxiu, etc.
Dos nodes seran adjacents si hi ha una connexió entre tots dos, i un camí serà una seqüència de nodes adjacents, on el primer node es diu origen i el segon es diu destinació. Aquestes connexions entre origen i destinació poden classificar-se atenent a si hi ha una relació semàntica entre els nodes o si, al contrari, el seu objectiu principal és facilitar la navegació interna del lloc.
Un enllaç és de tipus semàntic si les pàgines connectades tenen relacions semàntiques explícites per mitjà del text de l’àncora. Aquestes arestes o arcs que uneixen els conceptes dels textos de l’àncora poden donar lloc a dos tipus de relacions semàntiques: agregació o associació de conceptes.
- La relació d’agregació denota un vincle jeràrquic en el qual el concepte d’un node pare és més ampli que el dels nodes fill. La relació d’agregació és no reflexiva, no simètrica i transitiva.
- La relació d’associació és un tipus de vincle horitzontal en el qual els conceptes estan relacionats semànticament l’un amb l’altre. La relació d’associació és reflexiva, simètrica i no transitiva. Per extensió, dos nodes fill tenen relació d’associació si comparteixen el mateix node pare.
Per tant, en una estructura d’enllaços, un enllaç és semàntic si les pàgines connectades tenen una relació semàntica explícita; en cas contrari, es considera l’aresta com un enllaç de navegació. Així, en una estructura tipus de directori, els enllaços que apunten cap al seu propi lloc poden classificar-se dins dels cinc grups següents:
- Enllaç ascendent: apunta cap al nivell pare.
- Enllaç descendent: apunta cap a un nivell inferior.
- Enllaç vertical: enllaç descendent específic que apunta cap a una pàgina d’un nivell inferior.
- Enllaç germà: enllaç la pàgina objectiu del qual és en el mateix nivell.
- Enllaç diagonal: enllaç que apunta cap a una pàgina situada en un altre nivell jeràrquic.
Segons la classificació anterior, un enllaç es considerarà de navegació si respon a un dels models següents:
- Enllaç ascendent: a causa de l’organització jeràrquica del lloc, els enllaços ascendents funcionen com enllaços per tornar a la pàgina anterior.
- Enllaços situats en una barra de navegació de nivell superior: quan ens referim a una barra de nivell superior volem dir que l’enllaç a la barra de navegació no és un enllaç descendent.
- Enllaços dins d’una llista de navegació comuna a les pàgines web (notícies o productes recomanats): ja que l’enllaç no és específic de la pàgina, sinó que forma part d’un grup de navegació, no hi ha una relació semàntica amb la pàgina que conté l’enllaç.
Les estructures d’enllaços, una vegada transformades en grafs i matrius d’adjacència, permeten discernir els patrons estructurals del lloc. D’aquesta manera, les estructures hipertextuals d’un lloc web seran diferents depenent de quina funcionalitat tinguin dins de la xarxa. Segons quina sigui la funció del lloc web, aquest tindrà una estructura d’enllaços determinada que compartirà amb altres llocs similars. Amitay et al. (2003) van classificar els diferents tipus de llocs, segons l’estructura i els patrons d’enllaços, de la manera següent:
Gràfic 2. Tipologia de llocs web segons l’estructura dels enllaços (font: Amitay et al., 2003)
- Motors de cerca. Figura (a): un motor de cerca apareixerà com un forat negre en el ciberespai, ja que, igual que un forat negre, un motor de cerca condensa en la seva base de dades una còpia de gran part de l’Internet visible. El seu lloc web és molt petit: la pàgina de cerca i algunes pàgines amb informació corporativa o de cerca avançada; rep un gran nombre d’enllaços entrants d’altres pàgines i exerceix una forta atracció gravitacional, i les seves pàgines contenen un nombre molt reduït d’enllaços sortints.
- Directoris. Figura (b): els llocs d’aquest tipus recullen una gran varietat de pàgines en les seves taxonomies i enllacen al seu torn cap als llocs inclosos en les seves categories. Cada node de la taxonomia està representat per una pàgina web amb enllaços sortints cap a cada una de les pàgines que pertanyen a aquesta categoria. Per tant, els directoris tindran milers d’enllaços sortints organitzats en forma d’arbre taxonòmic. De la mateixa manera, els directoris també atreuen molts enllaços entrants, tant en la pàgina principal com en pàgines més profundes del lloc.
- Llocs corporatius. Figura (c): com que moltes vegades les pàgines es creen usant una plantilla amb botons d’enllaços ascendents i cap a la pàgina principal, els llocs corporatius normalment tenen una robusta infraestructura interna d’enllaços. Moltes d’aquestes plantilles també inclouen barres de navegació amb enllaços diagonals entre diferents branques de la corporació. Ara bé, a causa de la naturalesa comercial i corporativa d’aquests llocs, el nombre dels seus enllaços sortints cap a altres llocs és significativament menor.
- Serveis d’hostatge (hosting) virtual. Figura (d): en aquest cas l’estructura d’enllaços interna és molt menor. Normalment no hi ha enllaços entre la part corporativa i les pàgines principals (home) dels llocs hostatjats. Els llocs d’hostatge web (host) poden tenir enllaços cap al lloc de l’empresa d’acollida. Aleatòriament, poden aparèixer enllaços diagonals entre llocs hostatjats, si bé són superats en gran mesura pel nombre d’enllaços sortints cap a altres llocs externs. Els enllaços entrants apunten cap als llocs hostatjats i no cap al lloc corporatiu de l’empresa hostatjadora.
- Universitats: els llocs web de les universitats són híbrids entre llocs corporatius i serveis virtuals d’hostatjament. Les parts administratives de la universitat apareixen com un lloc corporatiu, mentre que les pàgines de les facultats i dels estudiants estan disposades de manera similar a les dels llocs d’hostatjament web.
3 Anàlisi de xarxes d’enllaços i webmetria
Han Woo Park i Mike Thelwall, en l’article titulat “Hyperlink analyses of the World Wide Web: a review” (2003), estudien les estructures d’enllaços des de dues perspectives diferents. La primera és l’anàlisi de xarxes d’enllaços, que deriva al seu torn de les anàlisis de xarxes socials, i una segona perspectiva centrada en els estudis webmètrics, que deriven de la ciència de la informació.
El primer acostament suggereix que els mètodes d’anàlisi de xarxes socials poden ser aplicats per entendre la interacció entre els processos de comunicació intervinguda per ordinador (CMO).3 El marc teòric d’aquest tipus d’anàlisi (Jackson, 1997) estudia la representació i interpretació dels patrons comunicatius, partint de la base que les xarxes d’enllaços són tipus de xarxes CMO en què els autors de llocs web estan interconnectats mitjançant enllaços. Per mitjà de l’anàlisi de la configuració d’aquests enllaços es poden discernir les “empremtes electròniques” de les relacions socials, ja sigui entre persones o entre llocs web.
La relació (Garton et al., 1997) és la unitat fonamental d’anàlisi d’intercanvis entre actors socials i es caracteritza pels atributs de contingut, direcció i força:
- El contingut es refereix al recurs que és intercanviat, tant un fitxer amb informació com el fet de concretar una reunió.
- Segons la direcció, la relació pot ser directa o indirecta (donar suport social i rebre’l), com també simètrica o asimètrica (quan un dels agents inicia més sovint que l’altre l’acte de comunicació).
- La força de la comunicació també pot variar segons la intensitat i freqüència de l’intercanvi. Per exemple, els vincles forts són els que s’estableixen per mitjà de la provisió de serveis recíprocs o de contacte freqüent. Normalment, els parells que mantenen vincles forts tenen més propensió a compartir els recursos que tenen.
3.1 Anàlisi de xarxes d’enllaços
A diferència de l’anàlisi tradicional de xarxes, l’anàlisi de xarxes d’enllaços (ARE) té com a font única d’informació els enllaços que extreu dels llocs web. D’aquesta manera, el conjunt de dades extretes dels enllaços es transforma en una matriu S simètrica n × n (coneguda com a 1-mode network matrix), on n és el nombre de nodes en l’anàlisi. En ARE, els nodes són llocs web que representen actors socials, i cada cel·la sij indica l’absència o la presència de freqüència d’enllaços entre els nodes i i j. La força de la relació pot ser expressada si cada cel·la representa quants enllaços hi ha entre dos nodes.
A partir de la informació representada en forma de matrius, es poden aplicar els mètodes analítics següents heretats de l’anàlisi de xarxes socials:
- Centralisme: l’indicador de centralisme mesura l’amplitud en la qual es desenvolupa una xarxa d’enllaços organitzada al voltant dels llocs web centrals. El node central es defineix com el lloc web que proporciona el major nombre de connexions i/o les més curtes cap als altres membres del grup; depenent de la posició dels llocs web, se’n poden identificar els diferents rols, com ara els de referenciador, agent comercial d’informació, i autoritat o lloc de prestigi.
- Densitat: aquest paràmetre reflecteix com els llocs estan connectats els uns amb els altres en el conjunt de la xarxa i n’indica el nivell global d’integració. Per calcular el nivell d’integració s’extreu la proporció entre el nombre de relacions o enllaços que realment ocorren i el nombre de relacions o enllaços teòricament possibles. Així, xarxes densament entrellaçades tenen una comunicació directa considerable entre els seus membres, a diferència dels d’una xarxa escassament entrellaçada.
- Anàlisi de clústers: l’anàlisi de clústers identifica els grups de llocs web que mostren més bé les seves relacions d’enllaços, i genera grups centrals i perifèrics segons la densitat dins del clúster.
- Modelatge de blocs: aquesta anàlisi descobreix llocs web amb posicions conjuntes similars. Els llocs web dins del mateix bloc mostren patrons d’enllaços similars cap a altres llocs. Per mitjà d’aquesta tècnica es poden descobrir les estructures dels diferents rols a través de l’anàlisi de les relacions. Amb la juxtaposició d’indicadors múltiples de relació en matrius analítiques s’aconsegueix col·locar en un bloc tots els indicadors que tenen una posició estructuralment equivalent.
- Escalat multidimensional: aquest tipus d’anàlisi revela les posicions que els nodes ocupen en l’espai, en transformar la matriu de connectivitat d’enllaços en coordinades de dues o tres dimensions que es poden representar en un gràfic.
3.2 Webmetria
La segona perspectiva de Han Woo Park i Mike Thelwall (2003) a l’hora d’estudiar les estructures d’enllaços és la webmetria. Aquesta visió parteix de l’aplicació de la bibliometria al camp de les estructures web en establir una analogia amb la citació d’articles de revistes científiques (Larson, 1996; Rodríguez Gairín, 1997). L’aplicació de l’anàlisi de citació en el context web pretén usar els enllaços com a mesura de l’abast de comunicació en línia entre els propietaris de dos o més conjunts de pàgines web. Per extensió, altres investigadors han utilitzat aquestes anàlisis com a mesures de l’impacte en línia, en què la qualitat o el nivell d’interès dels seus continguts són les causes de l’atracció d’enllaços.4
Per mesurar i interpretar l’estructura, la mida i la connectivitat del web, la webmetria aplica diverses mesures. Pinto Molina et al. (2003) ens mostren la definició dels diferents indicadors utilitzats en els estudis webmètrics, d’entre els quals els indicadors de connectivitat i les mesures topològiques:
3.2.1 Indicadors de connectivitat
- Anàlisi hipertextual: aquest indicador té en compte el nombre d’enllaços entrants en un lloc web. Alguns autors parlen del concepte de popularitat, entès com el nombre de visites que rep un lloc web, i no el diferencien del nombre d’enllaços.
- Densitat hipertextual: es defineix com la mitjana aritmètica del nombre d’enllaços que té cada un dels dominis o llocs. Aquest indicador és útil quan s’efectuen diverses preses de dades del mateix espai en diferents dates. Altres autors utilitzen, per analitzar cada node, el terme densitat com la proporció entre la mida de la pàgina i el nombre d’enllaços.
- Índex d’endogàmia: aquest índex, també anomenat índex d’interconnexió, valora els enllaços interns i mostra si els dominis es referencien bàsicament a si mateixos o bé, al contrari, tenen un nivell de connexió amb altres dominis. Aquest índex utilitza la proporció entre el nombre d’enllaços interns i el nombre total d’enllaços; com més baix sigui aquest valor, menys endogàmics seran els dominis.
- Diàmetre web: el diàmetre és la distància màxima per assolir un document determinat dins d’un lloc web. Aquest indicador està relacionat amb el nivell de profunditat que hi ha al lloc, és a dir, el nombre de nivells existents en el teòric arbre jeràrquic que constituiria un lloc web. El nivell de profunditat del lloc és una indicació de la possible existència de zones que puguin romandre invisibles per a l’accés, en el cas que hi hagi una profunditat elevada.
- Visibilitat: el factor d’impacte de web, WIF (Ingwersen, 1998), és un paràmetre per avaluar la visibilitat d’una àrea del web basada en el nombre d’enllaços. La visibilitat és el resultat de dividir el nombre de citacions aparegudes en la resta de llocs de la mostra pel nombre de pàgines del lloc avaluat (ràtio entre el nombre de pàgines que el lloc i el nombre total de pàgines del lloc). El WIF es divideix, al seu torn, en WIF extern absolut (nombre total de pàgines externes que contenen un enllaç a la pàgina objectiu) i WIF extern relatiu (WIF extern absolut dividit pel nombre de pàgines del lloc objectiu).5
3.2.2 Mesures topològiques
L’estructura d’enllaços conté informació sobre les diferents comunitats web. Les mesures topològiques es basen en la consideració del web com un graf en què les pàgines web es representen mitjançant els nodes i els enllaços es representen mitjançant les vores dirigides, denominades arestes o arcs (gràfic 1).
Aquesta perspectiva centrada en la naturalesa hipertextual del web analitza l’evolució dels seus dominis i calcula un conjunt de mesures que tenen en compte els enllaços que es donen entre les diferents pàgines web que conformen els dominis d’estudi. Aquestes mesures poden considerar-se de similitud per als grafs i, a més d’obtenir un valor únic per a cada un dels grafs, permeten utilitzar aquest valor únic per establir comparacions entre els valors de diferents dominis. Els índexs es poden classificar de la manera següent:
- Índexs de node: valoren la similitud dels nodes entre els dominis. En obtenir valors normalitzats, es poden comparar els valors entre dues recollides de dades, cosa que ens permet saber si són molt semblants o no. Algunes de les mesures utilitzades són les següents: grau d’obertura, grau d’entrada, estatus, contraestatus, prestigi, distància convertida, centralisme i textura.
- Índexs de graf: permeten comparar els diferents dominis entre si, i el mateix domini entre diferents recollides de dades. Les mesures topològiques de graf de compactació i l’estratificació permeten comparar la complexitat i connectivitat de les estructures hipertextuals dels dominis web.
- Compactació: un graf que té un alt valor de compactació indica que els diferents nodes del graf es poden assolir o enllaçar fàcilment mitjançant un nombre ampli de referències encreuades. Un índex de compactació baix, proper a 0, indica que hi ha una insuficiència d’enllaços i que possiblement hi ha diferents parts del graf que estan desconnectades, mentre que valors propers a 1 indiquen que el lloc està totalment connectat.
- Estratificació: aquest índex permet conèixer si un lloc web s’ha dissenyat d’una manera lineal, jeràrquica, i indueix l’usuari a seguir una navegació concreta, o si, al contrari, no hi ha una estructura jeràrquica, ni tampoc un ordre de navegació preestablert pel dissenyador del lloc. Els valors d’aquest índex van des d’1, que indica una estructura hipertextual de tipus lineal, fins a 0, que indica una estructura circular.
4 Motius de creació d’enllaços
Han Woo Park i Mike Thelwall (2003) van centrar el seu estudi sobre enllaços en les comunitats acadèmiques; la raó principal subjacent per a la creació d’enllaços en aquest tipus de comunitats és la quantitat d’investigació que generen les organitzacions associades als llocs. L’exemple que analitzen els autors és una mostra aleatòria de 414 enllaços entre universitats de la Gran Bretanya (Wilkinson et al., 2003), en què més del 90 % tenia una motivació relacionada amb la investigació o la docència. En les seves conclusions indiquen que desconeixen si els patrons trobats per a espais acadèmics es poden usar per analitzar un altre tipus de comunitats no acadèmiques.
En un altre article centrat en el món acadèmic, Mike Thelwall (2003) va dur a terme una exploració qualitativa de cent llocs web d’universitats angleses partint de les analogies existents entre enllaços web i les citacions d’articles. Gràcies a aquesta exploració, l’autor va descobrir quatre tipus de motivacions per a la creació d’enllaços.
1) Enllaços de navegació general Són el punt de partida en la navegació per trobar una àmplia gamma d’informació. La seva utilitat deriva de l’amplitud d’informació que es té a l’abast començant a navegar des d’aquest punt. Thelwall com a exemple les revisions bibliogràfiques, ja que els lectors poden usar-les com a punt de partida per recuperar més articles específics sobre el tema.
2) Enllaços de propietat Els enllaços de propietat, també anomenats credit links, són definits com aquells que declaren autoria, coautoria, propietat o copropietat d’un lloc web o d’un projecte associat. En molts dels casos, els enllaços no són essencials per a l’atribució de propietat, ja que aquesta pot ser inferida fàcilment pel text, i es tracta d’enllaços per emfatitzar l’adscripció.
3) Enllaços socials Són aquells la raó primària dels quals és reforçar llaços socials. L’autor l’exemple de les pàgines personals que enllacen amb la pàgina d’un col·laborador o un grup de col·laboradors. Sense funció aparent, estrenyen llaços socials per mitjà d’un cert reconeixement implícit en l’enllaç. Com l’autor mateix indica, aquesta categoria d’enllaços és la que té una motivació més tènue.
4) Enllaços gratuïts Els enllaços gratuïts són els que no tenen cap funció comunicativa. Malgrat que és possible imaginar un context en el qual pot ser útil qualsevol enllaç, aquests enllaços sembla que són allà perquè l’autor de la pàgina sap que l’organització té un web i decideix incloure-la, encara que no sigui útil per qui visita la pàgina. Per tant, el terme enllaç gratuït s’usa per a aquells enllaços sense cap motivació comunicativa discernible en la seva creació. Thelwall afegeix que no s’espera que aquests enllaços siguin usats i que no tenen cap rol comunicatiu identificable.
Quadre 1. Tipus de motivació per crear hipervincles (font: Thelwall, 2003)
L’autor reconeix la possibilitat que les motivacions se superposin i fins i tot que en molts casos no hi hagi una motivació primària clara. La informalitat i trivialitat de molts dels enllaços, especialment els de navegació i els gratuïts, podrien ser considerades soroll de fons que impediria la temptativa d’aplicar amb èxit tècniques bibliomètriques al web.
D’altra banda, la naturalesa d’aquests enllaços de navegació gratuïts apareix més ben explicada per mitjà de l’article de Han Woo Park (2002), que mostra els resultats d’una enquesta duta a terme a 64 administradors coreans sobre motivacions d’enllaç.6 Ens interessa la percepció de credibilitat d’aquests administradors, ja que són ells, precisament, els qui decideixen on enllacen els llocs web
L’enquesta als administradors incloïa un total de set qüestions:7 la primera, la segona i l’última de les qüestions eren preguntes obertes limitades, mentre que la resta de respostes havien de ser quantificades en una escala en què 50 corresponia a un valor mitjà i 0 era un valor nul. Seguint aquest barem, es va demanar als administradors que avaluessin els punts que apareixen en la pregunta següent: “Quan es decideix crear un enllaç amb un altre lloc web, com és d’important la seva credibilitat en termes de veracitat, reputació, utilitat, puntualitat, competència, seguretat i fiabilitat?”.
Els resultats d’aquesta pregunta van ser els següents: veracitat, 91,56; reputació, 78,91; utilitat, 105,81; puntualitat, 85,94; competència, 90,31; seguretat, 82,73, i fiabilitat, 79,84. El punt més important va ser la utilitat, seguit de la veracitat i de la competència.
A més dels punts anteriors, l’autor va estudiar les respostes a dues preguntes obertes: 1) una raó per escollir un enllaç cap a un determinat lloc web, i 2) l’avantatge dels enllaços. Les respostes a les preguntes obertes van ser estudiades partint d’una anàlisi de freqüències de paraules.
En les respostes a la primera pregunta van destacar les paraules següents: contents, amb 25 repeticions per vint dels administradors, i relevance i similar, usades en disset ocasions per disset administradors.8 Els resultats de la segona pregunta van mostrar que la paraula amb més freqüència era information, que apareixia catorze vegades i era esmentada per tretze administradors (20,3 %), seguida per contents, tretze vegades per tretze persones enquestades.9
Per mitjà d’una anàlisi clúster de les respostes a les preguntes obertes de les enquestes, l’autor va destacar que per a la primera pregunta apareixien sis grups petits, al costat d’un grup més gran de set paraules que eren per catorze administradors.
Clústers Termes Interpretació Clúster 1 affiliation, relevance, topic, similar, business, type, contents Aquest clúster mostra que la majoria de llocs proporcionen enllaços als seus llocs afiliats. La similitud de continguts influeix sobre l’afiliació entre llocs web. Els llocs web elegeixen els seus afiliats pel tipus de negoci.
Clúster 2 information, sharing, useful Aquest clúster identifica els administradors les respostes dels quals delaten la preocupació per compartir informació útil entre els llocs web.
Clúster 3 marketing, public, relations Aquest clúster suggereix que l’intercanvi d’enllaços pot contribuir a l’augment d’oportunitats de màrqueting.
Clúster 4 connectedness, interface, quality, exchange, win Aquest clúster és un grup que no mostra cap interpretació clara.
Clúster 5 current, augmenting Mostra que els llocs web decideixen els enllaços per augmentar la informació de les pàgines.
Clúster 6 mother company Significa que alguns llocs web cooperen sistemàticament amb altres llocs que pertanyen a la mateixa empresa mare. Aquests llocs web són anomenats normalment llocs germans
Clúster 7 revenue, banner, advertising Mostra que els anuncis localitzats a les seves pàgines són una font d’ingressos per als llocs web.
Taula 1. Motivació dels enllaços (font: Woo Park, 2002)
L’anàlisi clúster per a la segona pregunta va revelar que les 25 paraules amb una freqüència més gran formaven un grup gran i set de més petits:
Clústers Termes Interpretació Clúster 1 various, kinds, providing, convenience, relevant, information, exchange, contents Els administradors esperen els aspectes següents quan decideixen fer un enllaç cap a un altre lloc web: rellevància, informació, intercanvi de continguts i increment del contingut actual.
Clúster 2 revenue, marketing, advertising Aquest clúster reflecteix l’ús d’un enllaç com un nou vehicle de publicitat.
Clúster 3 current augmenting Aquest clúster mostra que els llocs web ofereixen enllaços cap a altres llocs per maquillar o expandir els seus propis continguts.
Clúster 4 increasing visitors Els enllaços cap a altres llocs poden atreure (amb engany) visitants als seus propis llocs.
Clúster 5 user, navigation, interface Termes relatius al disseny de llocs web. Una estructura d’enllaços ben organitzada pot millorar la interfície de l’usuari.
Clúster 6 trust transfer La confiança de l’usuari augmenta si se selecciona un enllaç a un lloc de renom.
Clúster 7 don’t know Aquest clúster mostra que els administradors no estan segurs sobre els avantatges dels enllaços.
Clúster 8 web site, pursuing, porta Indica que l’avantatge dels enllaços està en el fet de proveir una àmplia gamma d’informació.
Taula 2 . Avantatges dels enllaços (font: Woo Park, 2002)
Woo Park defensa que el nombre d’enllaços existents entre llocs web és un bon indicador de la seva qualitat. Com reflecteixen alguns dels clústers que acabem de veure, el nombre d’enllaços entrants cap a un lloc web està correlacionat positivament amb la qualitat i credibilitat del lloc. A partir dels resultats d’aquesta enquesta es dedueix que és possible mesurar la credibilitat d’un lloc web basant-nos en l’anàlisi d’enllaços entrants. Tanmateix, en l’apartat següent introduïm una nova perspectiva en les motivacions de creació d’enllaços, i recuperem, així, la perspectiva de posicionament web que hem vist en la introducció. Des del punt de vista del posicionament web, tot seguit comentarem un per un aquests clústers, i complementarem, així, la visió parcial que ha ofert aquesta enquesta als administradors.
5 Posicionament web i motivació d’enllaços
Des del punt de vista d’un cercador, o des de la perspectiva del posicionament web, si es vol, només les relacions semàntiques explícites tenen importància. Els enllaços interns d’un lloc, en la major part dels casos navegacionals, no es tenen en compte a l’hora de calcular el rànquing dels cercadors, ja que aquests enllaços s’eliminen durant els processos d’indexació. Els enllaços externs, que se suposen dotats de valor semàntic, són tractats per convertir-los en matrius, i els textos de l’àncora, on presumiblement hi ha la informació de relació semàntica, s’inclouen en els càlculs de rànquing.
Tal com apuntem en la introducció de l’article, els enllaços pertanyen al grup dels factors externs, ja que, en principi, l’administrador no té accés a les pàgines que enllacen cap al seu propi lloc. La solució d’aquesta falta d’accessibilitat ha estat la creació de pàgines artificials que apunten cap a una pàgina objectiu, pàgines l’acumulació de les quals ha creat vertaderes comunitats d’enllaços fraudulents, conegudes com a granges d’enllaços.
Tornant a l’article de Woo Park, aquest va assenyalar en les seves conclusions que les anàlisis clúster suggerien que les motivacions i els avantatges dels enllaços podien ser classificats en dues dimensions: la de navegació i la relacionada amb propòsits comercials. Aquest segon aspecte, el dels propòsits comercials, és la motivació principal —si no l’única— en la creació de comunitats i pàgines web mercenàries.
A continuació analitzarem les motivacions anteriorment exposades des del punt de vista dels enllaços fraudulents, i intentarem classificar-les, si és possible, segons les categories aportades per Thelwall i Woo Park.
De manera paral·lela a l’exposició de l’apartat anterior, començarem per la tipologia d’enllaços que ens mostrava Thelwall (2003) I, tot seguit, aplicarem la seva classificació a la tipologia d’enllaços fraudulents:
1) Enllaços de navegació general versus enllaços fraudulents En alguns casos, els enllaços fraudulents poden servir com portes de partida per trobar una gamma àmplia d’informació. En molts casos, les comunitats d’enllaços fraudulents no solament enllacen amb les pàgines objectiu, sinó que també ho fan amb pàgines de qualitat reconeguda, per assolir, així, altes puntuacions nodals per a determinats algoritmes; tanmateix, aquest no n’és l’objectiu primordial. El fet de classificar alguns enllaços fraudulents com enllaços de navegació general és purament circumstancial, ja que els objectius que cal optimitzar solen ser molt concrets, i només a l’efecte de “maquillatge” s’enllaça amb portals generals de prestigi reconegut.
2) Enllaços propietat versus enllaços fraudulents Els enllaços fraudulents poden ser enllaços propietat en els casos en què la pàgina mercenària és un duplicat d’una d’original (per exemple, tenir registrat el mateix nom de domini i/o variants en diferents dominis de primer nivell, top-level domains). En el cas de les “granges d’enllaços” ocorre el contrari, ja que sempre s’intenta evitar que el propietari d’aquesta tècnica fraudulenta de posicionament es reconegui.
3) Enllaços socials versus enllaços fraudulents Encara que, segons Thelwall, els enllaços fraudulents estan caracteritzats per una motivació tènue, els podríem classificar com enllaços socials. Atès que la raó primària és reforçar llaços socials, els enllaços fraudulents compleixen aquest propòsit, si bé de manera no ètica. Des del punt de vista dels cercadors, els enllaços fraudulents són purament socials, ja que cadascun passa a reforçar, no ja el llaç social, sinó la posició en el rànquing de la pàgina d’un col·laborador o d’un grup de col·laboradors.
4) Enllaços gratuïts versus enllaços fraudulents Els enllaços fraudulents podrien ser classificats dins del conjunt d’enllaços gratuïts, ja que —com aquells— no s’espera que ningú els usi. El rol comunicatiu tampoc no existeix, sinó que tenen com a única funció sumar un altre enllaç entrant cap a la pàgina objectiu en la base de dades d’un cercador.
Quadre 2. Tipologia d’enllaços i enllaços fraudulents (adaptació de Thelwall, 2003)
En tractar la tipologia d’enllaços segons Woo Park i la seva aplicació als enllaços fraudulents, analitzarem i glossarem cada un dels clústers resultants (en aquest apartat proporcionem una traducció dels termes al català). Els set clústers de la primera pregunta (taula 1) eren els següents:
Clústers Termes Interpretació Clúster 1 afiliació, rellevància, tema, similar, negoci, tipus, continguts Des de la perspectiva dels enllaços fraudulents es dóna una afiliació amb el lloc objectiu, si bé no té per què haver-hi cap tipus de similaritat de continguts.
Clúster 2 informació, compartint, estri En el cas de les pàgines i comunitats d’enllaços fraudulents, també poden arribar a ser útils als usuaris. Els directoris d’enllaços fraudulents de vegades són fonts nodals adequades si reuneixen en una pàgina enllaços relacionats amb una categoria determinada. Els tres noms associats a aquesta categoria poden ser aplicats als enllaços fraudulents.
Clúster 3 màrqueting, públic, relacions Encara que Woo Park esmentava en aquest apartat que l’intercanvi d’enllaços contribuïa a incrementar les oportunitats de màrqueting en el web, des del punt de vista dels enllaços fraudulents, l’intercanvi hauria de ser substituït per la paraula creació. L’objectiu de crear oportunitats de màrqueting continua sent una part fonamental en els enllaços fraudulents. Si un usuari arriba a una «granja d’enllaços» per mitjà dels resultats d’un cercador, pot assolir el lloc objectiu, I això compleix la finalitat d’oportunitat de màrqueting. Si, al contrari, l’enllaç fraudulent no pertany a una «granja», sinó que està camuflat i barrejat amb centenars de missatges en un guestboard o en un bloc, també compleix la finalitat de màrqueting a l’hora d’incrementar artificialment la popularitat del seu propi lloc objectiu.
Clúster 4 connectivitat, interfície, qualitat, intercanvi, guany Encara que per Woo Park aquest clúster no oferia una interpretació clara, des de la perspectiva dels enllaços fraudulents assoleix un major sentit. Així, podríem interpretar que els enllaços fraudulents són oportunitats per “guanyar diners per mitjà d’una interfície de qualitat optimitzada, i per mitjà de la connexió a una gran xarxa d’enllaços o “granges d’enllaços””.
Clúster 5 corrent augmentar En aquest cas, en comptes d’augmentar el cabal d’informació, ens referiríem a augmentar la quantitat d’enllaços entrants cap al lloc objectiu.
Clúster 6 Mare, companyia Aquest clúster dóna a entendre la importància de les relacions fraternals entre llocs web i comunitats. Des del punt de vista dels enllaços fraudulents, podríem entendre que es tracta de la possible col·laboració entre dues “granges d’enllaços” sembrades pel mateix administrador, que pot vincular en el pròxim rastreig (crawling) d’algun cercador. També podríem interpretar que mare es refereix a la pàgina objectiu, mentre que companyia són els enllaços fraudulents.
Clúster 7 ingrés, banner, publicitat Podríem considerar aquesta raó com la més adequada de totes les respostes des de la perspectiva dels enllaços fraudulents. La finalitat de qualsevol pràctica de posicionament fraudulent no és altra que publicitar una pàgina web que generi ingressos. És prou sabut que darrere de la creació de comunitats artificials per manipular els resultats dels cercadors hi ha un gran moviment monetari. Des del famós Adwords o la seva versió Yahoo! fins a la tècnica més baixa de la manipulació de resultats per mitjà de “granges d’enllaços”, totes tenen el mateix objectiu: generar ingressos per mitjà de la publicitat.
Taula 3. Motivació dels enllaços i enllaços fraudulents (adaptació de Woo Park, 2002)
L’anàlisi clúster per a la segona pregunta va revelar que hi havia un grup gran i set de més petits (taula 2). No hem afegit comentaris als tres últims clústers a causa de la vaguetat dels termes:
Clústers Termes Interpretació Clúster 1 diversos, tipus, subministrar, conveniència, rellevant, informació, intercanvi, continguts En el cas dels enllaços fraudulents no sempre s’ofereix informació rellevant, ja que la creació de l’enllaç és causada per una contrapartida monetària. Tampoc no es dóna intercanvi de continguts ni un augment dels continguts del lloc web.
Clúster 2 ingrés, màrqueting, publicitat Similar al clúster 7 de la taula anterior, en aquest cas el clúster reflecteix que els enllaços són usats com un nou vehicle de publicitat. Si bé els enllaços fraudulents no podrien ser considerats com vehicles de publicitat, n’hi ha un gran nombre que sí que podrien augmentar el rànquing d’un lloc en concret si actués com a vehicle publicitari..
Clúster 3 corrent augmentar Vegeu el clúster 5 de la taula anterior.
Clúster 4 augmentar visitant Sinònim de generar , aquesta resposta està estretament relacionada amb el segon clúster. Els enllaços fraudulents poden generar visites directament —si una pàgina d’una «granja d’enllaços» apareix en els resultats d’un cercador— o indirectament —en augmentar el rànquing de la pàgina objectiu.
Clúster 5 termes relatius al disseny de llocs web: usuari, navegació, interfície. Per a aquest clúster, el comentari de Woo Park era: “una estructura d’enllaços ben organitzada pot millorar la usabilitat”. Les pàgines d’enllaços fraudulents, suport d’aquests enllaços, també han de tenir una bona usabilitat, enfocada no tant cap a l’usuari humà sinó més aviat cap al funcionament del robot dels cercadors. D’aquesta manera, l’estructura de la interfície ha de facilitar la navegació per mitjà del lloc perquè el robot indexi totes i cada una de les pàgines que contenen els enllaços fraudulents.
Taula 4. Avantatges dels enllaços i enllaços fraudulents (adaptació de Woo Park, 2002)
6 Comunitats artificials i “granges d’enllaços”
Els algoritmes usats per quantificar la importància d’una pàgina o comunitat web basats en la informació extreta dels enllaços són l’objectiu primordial dels administradors de pàgines d’enllaços fraudulents (spammers), i les “granges d’enllaços”, el seu element més representatiu. La problemàtica que deriva d’aquest fet ha transcendit fins al món acadèmic, on l’estudi dels enllaços fraudulents s’ha convertit en el tema central de molts articles.
L’article de García-Molina i Gyöngyi (2004), titulat Web spam taxonomy, destaca per la seva claredat a l’hora d’exposar totes les tècniques d’enllaços fraudulents que s’usen avui en dia per manipular els resultats dels cercadors d’Internet.10 D’aquest article ens interessa la visió que donen els autors des de la perspectiva de l’optimitzador fraudulent, l’administrador de pàgines d’enllaços fraudulents (d’ara endavant, administrador fraudulent), referent tant a la tipologia de pàgines web com a l’optimització d’enllaços.
Segons García-Molina i Gyöngyi, per a un administrador fraudulent en el web hi ha tres tipus de pàgines:
- Inaccessibles: són les pàgines que l’administrador no pot modificar. Els seus enllaços sortints són fora del seu abast. Únicament pot apuntar-les.
- Accessibles: pàgines mantingudes per tercers que poden ser manipulades d’alguna manera per l’administrador fraudulent. Es poden agregar missatges en un guestbook que continguin enllaços cap al lloc d’enllaços fraudulents o incloure’ls en k de referits. El seu nombre és limitat, encara que la revolució dels blocs ofereix grans possibilitats.
- Pàgines pròpies: pàgines mantingudes per l’administrador fraudulent, que té un control total sobre els seus continguts. L’objectiu és impulsar una o més d’una de les seves pàgines en el rànquing. Hi ha un cert cost de manteniment (registre de dominis i web d’hostatjament), per la qual cosa el nombre total de pàgines d’enllaços fraudulents depèn del pressupost de l’administrador fraudulent.
Les tècniques d’enllaços fraudulents basades en enllaços poden ser agrupades depenent de si afegeixen enllaços sortints cap a pàgines populars o, per contra, recullen enllaços entrants cap a una pàgina objectiu o un grup de pàgines:
- Enllaços sortints: els administradors fraudulents poden afegir manualment enllaços sortints cap a pàgines populars amb l’objectiu d’incrementar el rànquing nodal de la seva pàgina. El mètode més estès per a la creació d’un nombre massiu d’enllaços sortints és la clonació de directoris que llisten llocs rellevants per a diferents temes i subtemes. Els administradors fraudulents poden replicar una part o la totalitat de les pàgines d’un directori (DMOZ Open Directory, dmoz.org, o bé Yahoo! directory, dir.yahoo.com) i crear ràpidament estructures massives d’enllaços sortints.
- Enllaços entrants: per incrementar el nombre d’enllaços entrants a una pàgina o un grup de pàgines, l’administrador fraudulent pot adoptar alguna de les estratègies següents:
- Crear un “pot de mel”(honey pot): un conjunt de pàgines que proveeixen d’algun tipus de recurs útil (p. ex., còpies de pàgines de documentació Unix), però que alhora també inclouen/amaguen enllaços cap a la pàgina objectiu dels enllaços fraudulents. El “pot de mel”fa que hi hagi gent que enllaci cap a aquest lloc i que, així, augmenta el rànquing de la pàgina objectiu.
- Infiltrar-se en un directori web: alguns directoris web permeten als administradors enviar enllaços als seus llocs sota algun dels temes del directori. Si els editors dels directoris esmentats no verifiquen el contingut d’aquests enllaços, els administradors fraudulents poden haver inclòs en el directori enllaços que apuntin cap a les seves pàgines objectiu. Atès que els directoris tenen altes puntuacions, com ara la nodal i la d’autoritat, aquesta tècnica d’enllaços fraudulents és molt útil a l’hora d’augmentar tant el Page Rank com el grau d’autoritat de les pàgines objectiu.
- Incloure enllaços en taulers d’anuncis o llibres de visita: si aquests tipus de pàgines estan mancats del control dels administradors, l’administrador fraudulent pot incloure enllaços cap a les seves pàgines d’enllaços fraudulents sota l’aparença innocent de simples missatges.
- Participar en un intercanvi d’enllaços: algunes vegades els administradors fraudulents estableixen intercanvis d’enllaços entre els seus propis llocs.
- Crear la pròpia «granja d’enllaços»: avui en dia, els administradors fraudulents poden controlar un gran nombre de llocs i crear arbitràriament estructures d’enllaços que augmentarien el rànquing d’algunes pàgines objectiu. Encara que aquest acostament era car fa alguns anys, en l’actualitat és molt comú, ja que els costos de registre de domini i d’hostatjament han baixat dràsticament.
García-Molina i Gyöngyi també van mostrar els models òptims de comunitats artificials en un article posterior titulat Link spam alliances (2005). En aquest article, el seu model de «granja d’enllaços» es basa en les pautes següents:
- Cada «granja d’enllaços» té una sola pàgina objectiu. La pàgina objectiu és la que pretén ser optimitzada en una posició de “top10”, motiu pel qual l’administrador fraudulent es concentra a augmentar el rànquing d’aquesta pàgina.
- Cada «granja d’enllaços» té un nombre fix de pàgines esquer (boosting) l’objectiu de les quals és millorar el rànquing de la pàgina objectiu, possiblement apuntant cap a ella. Aquestes pàgines esquer estan sota el control absolut de l’administrador fraudulent. S’assumeix que hi ha un límit en la mida de les “granges d’enllaços” derivat dels costos de manteniment.
- L’administrador fraudulent ha acumulat enllaços de pàgines externes cap a la seva «granja d’enllaços» per mitjà de directoris o llibres de visites, enllaços coneguts com enllaços segrestats (hijacked links). El Page Rank total de la «granja d’enllaços» provinent d’aquests enllaços és conegut com a degoteig espectral (leakage). L’spammer no té un control total sobre aquestes pàgines que contenen enllaços segrestats; el seu únic objectiu és aconseguir com més enllaços d’aquest tipus millor, preferentment de pàgines que posseeixin un Page Rank alt.
L’estructura òptima per a una «granja d’enllaços» amb una única pàgina objectiu consisteix en k pàgines boosting que apunten directament cap a la pàgina objectiu, que al seu torn apunta cap a cada una de les pàgines de la «granja» i que rep de l’exterior un — de filtracions.
Gràfic 3. Estructura òptima d’una «granja d’enllaços» (font: García-Molina i Gyöngyi, 2005)
García-Molina i Gyöngyi destaquen, en el mateix article, que les estructures òptimes poden ser fàcilment perceptibles. Per aquest motiu, els administradors fraudulents poden intentar evitar les millors estructures, malgrat que els rànquings de les seves pàgines objectiu puguin disminuir. Tot i així, els administradors fraudulents no es desviaran gaire d’aquestes estructures òptimes, per la qual cosa les estructures reals s’assemblaran a les estudiades en aquest article. Per acabar, es mostra una estructura irregular que, malgrat la seva forma, amaga una aliança de set «granges d’enllaços».
Gràfic 4. Estructura irregular d’una «granja d’enllaços» (font: García-Molina i Gyöngyi, 2005)
L’aparició d’aquest article va generar automàticament comentaris en els fòrums d’optimització web sobre la incompatibilitat del model teòric amb la realitat del web.11 Per exemple, es va considerar improbable la unió de diverses “granges d’enllaços” mitjançant enllaços bidireccionals, ja que els administradors fraudulents no enllaçaven les seves “granges d’enllaços” des de les pàgines objectiu. En el comentari de l’article es mostra una visió més real d’una «granja d’enllaços» en què es combinen pàgines legítimes i enllaços fraudulents. Aquesta combinació aconsegueix eludir l’algoritme Page Rank per mitjà de pàgines legítimes i no legítimes que enllacen amb la pàgina objectiu, i així s’aconsegueix disminuir el risc que siguin capturades com pàgines d’enllaços fraudulents.
7 L’algoritme Page Rank
Merlino-Santesteban (2003) divideix en tres els tipus d’algoritmes d’ordenació per rellevància basats en connectivitat: dependents, quasidependents o independents de la consulta de l’usuari. L’algoritme Page Rank és el millor exemple del tipus d’algoritmes independents de la consulta de l’usuari, els quals assignen una puntuació a una pàgina, independentment de la cerca proporcionada. Aquests algoritmes produeixen un rànquing independentment de la similitud consulta-document, ja que el seu objectiu principal és mesurar la qualitat intrínseca d’una pàgina.
El Page Rank d’una pàgina web no és influït per la pàgina en si mateixa o per alguna consulta potencial, sinó que es basa només en determinacions d’importància aportades pels enllaços. El Page Rank parteix d’un graf construït a priori, que utilitza la informació dels enllaços entrants per assignar valors d’importància global a cada una de les pàgines del web. D’aquesta manera, el Page Rank calcula la importància d’una pàgina atorgant a cada enllaç que es dirigeix cap a ella un pes proporcional respecte de l’autoritat de la pàgina que el conté. Per determinar l’autoritat de la pàgina citant, el Page Rank és utilitzat iterativament unes cent vegades fins que els valors convergeixen.
La fórmula del Page Rank és la següent:
PR(A) = (1–d) + d (PR(T1) / C(T1) +... + PR(Tn) / C(Tn))
Els elements que hi apareixen són els següents:
- PR(A) és el Page Rank de la pàgina de referència.
- d: és un factor de debilitació.
- (1–d) assegura que qualsevol pàgina, encara que no rebi cap enllaç, tindrà un PR mínim de 0,15.
- PR(Ti) / C(Ti) és el Page Rank (PR) de la pàgina i-èsima que enllaça a la web de referència, (Ti), dividit pel nombre de tots els enllaços (C) que també surten d’aquesta pàgina Ti, és a dir, el PR que transmet.
- i = 1... n, ja que se suposen n pàgines que enllacin amb la de referència.
El Page Rank es basa en un reforç mutu entre pàgines: la importància d’una pàgina determinada influeix en la importància de les altres pàgines que contenen el seu enllaç i alhora és influïda per la importància d’aquestes.
Segons unes anàlisis recents de l’algoritme, García-Molina et al. (2004) han mostrat que la puntuació total del Page Rank (rtotal) per a un grup de pàgines depèn de quatre factors:
rtotal = rstatic + rin - rout - rsink
on rstatic és la puntuació obtinguda de la puntuació de la distribució estàtica; rin és la puntuació que arriba a les pàgines per mitjà dels enllaços entrants des de pàgines externes; rout és la puntuació que surt de les pàgines per mitjà dels seus enllaços sortints cap a pàgines externes, i rsink és la puntuació perduda per mitjà de les pàgines sense enllaços sortints (sink pages) del grup. De la fórmula anterior deriva l’estructura òptima d’enllaços que maximitza la puntuació de la pàgina objectiu.
Gràfic 5. Estructura òptima per millorar el posicionament web d’una pàgina (font: García-Molina et al., 2004)
Aquesta estructura facilita l’accessibilitat a les pàgines pròpies (Own) per mitjà de les accessibles, cosa que també els permet de ser indexades pels robots dels cercadors. Per maximitzar el Page Rank de la pàgina objectiu (t) es poden utilitzar les estratègies següents:
- Usar totes les pàgines pròpies disponibles de la «granja d’enllaços» per maximitzar la puntuació rstatic.
- Acumular el màxim nombre d’enllaços entrants des de les pàgines accessibles A cap a la «granja d’enllaços», i així es maximitza la puntuació rin.
- Suprimir els enllaços que apunten cap a fora de la «granja d’enllaços», ja que això fa que la puntuació rout tendeixi a zero.
- Evitar les «pàgines enfonsades» (sink pages) dins de la «granja», i assegurar-nos que cada pàgina (inclosa la t) té algun enllaç sortint: així aconseguim que rsink sigui zero.
L’estructura d’enllaços que maximitza la puntuació de la pàgina K ha de seguir les regles següents:
- Fer que totes les pàgines accessibles i pròpies apuntin directament cap a la pàgina objectiu, ja que així se’n maximitza la puntuació entrant.
- Afegir enllaços des de t cap a totes les pàgines pròpies. Sense aquests enllaços, t perdria una part important de la seva puntuació, i es convertiria en una «pàgina enfonsada», i les pàgines pròpies romandrien inabastables des de fora de la d’enllaços. La puntuació que surt de t “reflueix” cap a ella mateixa per mitjà de la «granja d’enllaços», per mitjà del circuit tancat format per ella i la «granja».
Aquesta és la teoria per la qual es regeixen els administradors fraudulents a l’hora de crear quantitats massives d’enllaços cap a les seves pàgines objectiu. Sobre això, Baeza-Yates et al. (2005) han elaborat un article centrat en l’increment del Page Rank sota diferents tipologies de col·lusió, amb la comprovació de la debilitat de l’algoritme davant d’un Sybil attack.12 Per al beneplàcit dels administradors fraudulents, les conclusions mostren que, si bé qualsevol grup de nodes pot incrementar el seu Page Rank formant un subgraf estretament connectat, l’increment del Page Rank que obtenen està inversament relacionat amb el Page Rank de partida; és a dir, que nodes amb un Page Rank baix que duguin a terme aquest tipus d’atac veuran molt més incrementat el seu rànquing.
8 L’algoritme Trust Rank
Des del punt de vista dels criteris interns d’optimització, la simple acumulació de paraules clau en forma de text ocult en una sola pàgina es considera una tècnica arcaica d’optimització, que, a més, pot ser identificada fàcilment i ser eliminada mitjançant un vector d’anàlisi de termes. Arran de la seva fàcil detecció, els administradors fraudulents han perfeccionat altres tècniques per generar continguts ben estructurats, focalitzats temàticament i rics en paraules clau rellevants que encaixen amb els termes de recerca dels usuaris. Una vegada saturades les possibilitats d’optimització interna, han apostat pels Sybil attacks i l’efecte TKC13 (Tightly-Knit Communities) amb l’objectiu de modificar el rànquing dels algoritmes comercials a través de comunitats artificials en les quals cadascuna de les seves pàgines està estretament focalitzada en alguna de paraula clau popular.
D’aquesta manera, durant els últims anys la major preocupació dels administradors fraudulents s’ha centrat en el Page Rank, que alguns consideren el principal criteri extern per a l’optimització. Recentment han aparegut en el món del posicionament web notícies que adverteixen que la importància del Page Rank ha estat modificada i que avui en dia el seu valor és menor. Tot i així, la preocupació pel Page Rank i per la seva manipulació ha assolit l’àmbit acadèmic, i ha fet que la lluita contra els enllaços fraudulents sigui la protagonista de molts articles científics.
D’entre els articles, destaca el de García-Molina et al. (2004), que proposa l’algoritme Trust Rank per combatre els enllaços fraudulents. Els autors assenyalen que la detecció algorítmica d’enllaços fraudulents és molt difícil si no es compta amb assistència humana. Per aquest motiu, per a la creació del seu algoritme contra els enllaços fraudulents parteixen d’un conjunt de «pàgines llavor» (seed pages), classificades o no com a escombraries per un editor humà. La premissa bàsica del Trust Rank és que les pàgines bones normalment apunten cap a pàgines bones i rarament cap a pàgines d’enllaços fraudulents. Després de la selecció d’un grup de pàgines bones, se’ls assigna una puntuació alta de confiança. A continuació van seguir un acostament similar al del Page Rank, ja que les puntuacions de confiança es propaguen cap a altres pàgines a través dels seus enllaços sortints. Finalment, després de la integració amb els resultats del Page Rank, les pàgines amb altes puntuacions de confiança es van considerar pàgines bones
9 Conclusions
Podem considerar l’estructura d’enllaços del web com una xarxa semàntica en la qual les paraules o frases que apareixen en el text de l’àncora són nodes que estableixen relacions semàntiques per mitjà de les arestes. Tanmateix, malgrat el paral·lelisme entre la citació acadèmica i els enllaços, aquests són radicalment diferents, ja que els enllaços manquen del formalisme de les citacions en publicacions acadèmiques. La prova més fefaent d’aquesta falta de formalisme és la motivació subjectiva dels administradors i, a més, l’aparició de comunitats artificials l’únic objectiu de les quals és impulsar en el rànquing un determinat lloc web.
L’interès per les estructures d’enllaços i la seva repercussió sobre els algoritmes dels cercadors comercials té el seu reflex en tota la producció científica apareguda recentment a la xarxa. És d’aquesta mateixa documentació que es nodreixen els responsables del posicionament web, que coneixen les debilitats dels principals algoritmes, així com les possibles solucions de lluita contra els enllaços fraudulents.
A tall de colofó, ens agradaria destacar aquesta paradoxa, el fet que l’interès comercial i l’acadèmic es retroalimenten: els primers creant comunitats artificials, els segons intentant trobar solucions a les tècniques de posicionament fraudulent, i donant pistes, així, als administradors de pàgines fraudulentes perquè millorin els seus models, que tornaran a ser objecte d’estudi per part de l’àmbit acadèmic.
Bibliografia
Amitay, Einat et al. (2003). The connectivity sonar: detecting site functionality by structural patterns. <http://www.ht03.org/papers/pdfs/5.pdf>. [Consulta: 10/05/2006].
Baeza-Iots, Ricardo; Castell, Carlos; López, Vicente (2005). Pagerank increase under different collusion topologies. <http://airweb.cse.lehigh.edu/2005/baeza-yates.pdf>. [Consulta: 10/05/2006].
Codina, Lluís (2004). “Posicionamiento web: conceptos y ciclo de vida”. Hipertext.net, núm. 2. <http://www.hipertext.net/web/pag216.htm>. [Consulta: 10/05/2006].
Garton, Laura; Haythornthwaite, Caroline; Wellman, Barry (1997). “Studying online social networks”. JCMC, vol. 3, no. 1 (June). <http://jcmc.indiana.edu/vol3/issue1/garton.html>. [Consulta: 10/05/2006].
García-Molina, Héctor; Gyöngyi, Zoltán (2005). “Web spam taxonomy”. En: First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb’05), 10–14 Maig 2005, Chiba, Japan. <http://airweb.cse.lehigh.edu/2005/gyongyi.pdf>. [Consulta: 10/05/2006].
García-Molina, Héctor; Gyöngyi, Zoltán; Pedersen, Jan (2004). “Combating web spam with TrustRank”. En: Proceedings of the Thirtieth International Conference on Very Large Data Bases, Toronto, Canada, August 31 – September 3 2004. <http://www.vldb.org/conf/2004/RS15P3.PDF>. [Consulta: 10/05/2006].
García-Molina, Héctor; Gyöngyi, Zoltán (2005). Link spam alliances. March 2, 2005. Technical report. <http://blog.searchenginewatch.com/blog/pdf/linkalliance.pdf>. [Consulta: 10/05/2006].
Ingwersen, Peter (1998). “The calculation of web impact factors”. Journal of Documentation, vol. 54, no. 2, p. 236–243.
Jackson, M. H. (1997). “Assessing the structure of communication on the world wide web”. Journal of Computer-Mediated Communication, vol. 3, no. 1. <http://jcmc.indiana.edu/vol3/issue1/jackson.html>. [Consulta: 10/05/2006].
Larson, R. R. (1996). “Bibliometrics of the World Wide Web: an exploratory analysis of the intellectual structure of cyberspace”. En: Hardin, S. (ed.). Proceedings of the 59 th Annual Meeting, ASIS 96. Baltimore, pàg. 71–79. <http://sherlock.berkeley.edu/asis96/asis96.html>. [Consulta: 10/05/2006].
Lempel, R.; Moran, S. (2000). “The stochatic approach for link-structure analysis (SALSA) and the TKC effect”. En: Proceedings of the 9 th World Wide Web Conference (WWW9). <http://www.csd.uwo.ca/courses/CS868b/papers/salsa.pdf>. [Consulta: 10/04/2006].
Merlino-Santesteban, Cristian (2003). “Análisis de conectividad en la recuperación de información web”. Ciência dóna Informação, vol. 32, no. 3 (set./dez.), pàg. 113–119. <http://www.scielo.br/pdf/ci/v32n3/19030.pdf>. [Consulta: 10/05/2006].
Pinto Molina, María et al. (2003). “Visibilidad de la investigación de las Universidades españolas a través de sus páginas web en el ámbito del espacio europeo de enseñanza superior: análisis, evaluación y mejora de la calidad”. Programa de estudio y análisis para la mejora de la calidad de la enseñanza superior y profesorado universitario. Granada, 2003. <http://wwwn.mec.es/univ/html/informes/estudios_analisis/resultados_2003/EA2003-0012/VISIWEB.pdf>. [Consulta: 10/01/2006].
Rodríguez i Gairín, J. M (1997). “Valorando el impacto de la información en Internet: AltaVista, el ‘Citation Index’ de la red”. Revista española de documentación científica, vol. 20, nº 2, p. 175–181. <http://bd.ub.es/pub/rzgairin/altavis.htm>. [Consulta: 10/05/2006].
Thelwall, Mike (2002). “A comparison of sources of links for academic Web Impact Factor calculations”. Journal of Documentation, vol. 58, no. 1, pàg. 66–78. <http://www.scit.wlv.ac.uk/~cm1993/papers/2002_%20Sources_of_links_for_WIF_Calculations.pdf>. [Consulta: 10/05/2006].
Thelwall, Mike (2003). “What is this link doing here? Beginning a fini-grained process of identifying reasons for academic hyperlink creation”. Information research, vol. 8, no. 3 (April). <http://informationr.net/ir/8-3/paper151.html>. [Consulta: 10/05/2006].
Wilkinson, David et al. (2003). “Motivations for academic web site interlinking: evidence for the Web as a novel source of information on informal scholarly communication”. Journal of Information Science, vol. 29, no. 1, pàg. 49–56. <http://jis.sagepub.com/cgi/content/abstract/29/1/49>. [Consulta: 10/05/2006].
Woo Park, Han (2002). “Examining the determinants of who is hyperlinked to whom: a survey of webmasters in Korea”. First Monday, vol. 7, no. 11 (November 4th). <http://www.firstmonday.org/issues/issue7_11/park/>. [Consulta: 10/05/2006].
Woo Park, Han; Barnett, George A. (2002). “Hyperlink-affiliation network structure of top web sites”. Journal of the American Society for Information Science and Technology, vol. 53, issue 7 (July), pàg. 592–601.
Woo Park, Han; Thelwall, Mike (2003). “Hyperlink analyses of the World Wide Web: a review”. Journal of Computer-Mediated Communication, vol. 8, no. 4. <http://jcmc.indiana.edu/vol8/issue4/park.html>. [Consulta: 10/05/2006].
Data de recepció: 15/02/2006. Data d’acceptació: 20/03/2006.
Notes
1 El Page Rank (PR) és un valor entre 1 i 10 que depèn de la quantitat i qualitat de les webs que tinguin enllaços cap a la web de referència, així com dels seus enllaços interns. El PR transmès pels llocs depèn, al seu torn, del PR propi i del nombre d’enllaços sortints que tingui aquesta pàgina. La fórmula bàsica del PR és la següent: PR(A) = (1–d) + d (PR(T1) / C(T1) +... + PR(Tn) / C(Tn)).
2 Els grafs poden ser dirigits quan hi ha un sentit o direcció en la connexió entre uns i altres com, per exemple, un enllaç entrant o sortint; i quan no s’indica una direcció, es diu que el graf és no dirigit.
3 Traducció de la versió anglesa Computer-Mediated Communication (CMC).
4 Aquest és el raonament que apliquen els motors de cerca a l’hora de quantificar el nombre d’enllaços entrants d’una pàgina web.
5 Els problemes derivats d’una correcta definició d’àrea objectiu, així com els problemes en el càlcul del nombre d’enllaços derivats de la inclusió de mirrors, ha donat lloc a una multiplicació dels paràmetres segons la densitat i la mida dels dominis (Thelwall, Smith, 2002). Els quatre paràmetres utilitzats són els següents:
- Nombre total d’enllaços.
- Nombre total d’enllaços dividit pel nombre total de pàgines del lloc o dels llocs objectiu.
- Nombre total d’enllaços dividit pel nombre total de pàgines en el lloc o en els llocs font.
- Nombre total d’enllaços dividit pel nombre total de pàgines en els llocs font i objectiu.
Han Woo Park i Mike Thelwall (2003) recomanen l’ús combinat dels quatre paràmetres, ja que cada mètode aporta una perspectiva de les dades diferent. El primer aporta una visió del total d’enllaços en conjunt, mentre que l’últim permet conèixer la tendència subjacent dels enllaços en dividir-los per la mida. En el segon paràmetre, en dividir pel nombre de pàgines objectiu, es mostra quins llocs atreuen més enllaços per pàgina i d’on provenen aquests enllaços. En dividir-lo per la mida de la font, obtenim un indicador sobre quins llocs acullen el major nombre d’enllaços per pàgina i els llocs que són el seu objectiu.6 Segons l’autor, quan un lloc web està en un estat prematur de desenvolupament ha de tenir cura de quins enllaços estableix i amb qui. Sent el principal objectiu de qualsevol lloc web acumular el per al seu lloc, els enllaços que ofereix han de ser concordes amb aquest mateix objectiu, i oferir enllaços externs cap als serveis de què està mancat i que poden ser d’utilitat per als seus usuaris potencials.
7 1) La raó per escollir un enllaç a un determinat lloc web. 2) L’avantatge dels enllaços. 3) La fiabilitat dels llocs web enllaçats. 4) La professionalitat o l’experiència dels llocs enllaçats. 5) La seguretat dels llocs enllaçats. 6) La valoració de l’increment de la credibilitat del seu lloc web en enllaçar-lo amb un altre de credibilitat major. 7) L’afiliació de la informació.
8 Les paraules amb més freqüència d’aparició foren business, type, company, information, useful, topic i advertising. A més d’aquestes, també hi aparegueren freqüentment termes com ara affiliation, augmenting, marketing, banner, mother, sharing, current, exchange, revenue, win, connectedness, interface, public, quality i relations.
9 Les paraules amb una major freqüència van ser augmenting, navigation, Web site, current, don’t, know, relevant i convenience. També van aparèixer amb una freqüència alta increasing, interface, marketing, portal, pursuing, transfer, various, advertising, exchange, providing, trust, user, kinds, revenue i visitors.
10 Fins i tot els mateixos autors es permeten la llicència d’utilitzar en el format pdf del seu article paraules clau amagades que exemplifiquen la tècnica d’enllaços fraudulents més rudimentària.
11 <http://www.seomoz.org/articles/link-spam-alliances.php>.
12 Sybil attack és l’intent d’alterar un sistema de recomanació creant múltiples identitats, en el nostre cas, creant múltiples pàgines que apuntin cap a una sola pàgina.
13 Lempel i Moran (2000) van observar que un efecte lateral en les propietats de l’algoritme HITS era que, en un graf que conté múltiples comunitats, l’algoritme HITS fixarà l’atenció només en una sola d’aquestes comunitats, que rebrà una alta posició en el rànquing. Serà la que contingui les seves pàgines centrals i la seva autoritat més estretament interconnectades. Aquestes parts més estretament connectades d’un graf es coneixen per la sigla TKC (Tightly-Knit Communities).