[Versión castellana]


Carlos Gonzalo

DEA en Informació i Documentació en l’Era Digital

cgonzalop@yahoo.com




Resum [Abstract] [Resumen]

En l’estructura d’enllaços d’un lloc web es poden distingir dos tipus principals d’enllaços: els de navegació i els semàntics. Els cercadors només tenen en compte el segon tipus, ja que aporta valor semàntic per mitjà del text de l’àncora (anchor text). En llocs no acadèmics, els principals motius de creació d’aquests enllaços semàntics són purament comercials i de màrqueting. Una subclasse d’enllaç de màrqueting és la que podríem anomenar d’enllaços fraudulents, coneguts popularment com a [enllaços] spam. La creació massiva d’aquest tipus d’enllaços —link farm, és a dir, “granja d’enllaços”— té com a objectiu modificar el comportament de l’algoritme Page Rank. Google ha creat l’algoritme Trust Rank amb la finalitat de detectar “granges d’enllaços”.


1 Introducció

En el marc de la World Wide Web definim l’enllaç com una connexió entre un element d’un document d’hipertext —ja sigui una paraula, una frase, un símbol o una imatge— i un altre element diferent situat en el mateix document, en un altre document, en un arxiu o en un script. Per regla general, la forma més comuna d’enllaç és una paraula o imatge ressaltada que l’internauta pot seleccionar, i obtenir el lliurament i la visualització immediata d’un altre arxiu de text, vídeo o àudio. L’objecte ressaltat, conegut com a àncora (anchor), al costat de l’objecte a què es refereix, constitueix un enllaç d’hipertext.

Aquests enllaços i els textos utilitzats com a àncora que apunten cap a una pàgina estan considerats com el recurs número u del posicionament web, que podríem definir com “el conjunto de procedimientos que permiten colocar un sitio o una página web en un lugar óptimo entre los resultados proporcionados por un motor de búsqueda” (Codina, 2004).

Els principals procediments de posicionament web es poden dividir en dos grups de factors que depenen del control que l’administrador pot exercir-hi. Els factors interns són els que l’administrador del lloc web pot optimitzar: les paraules clau, tant primàries com secundàries, els títols i les metaetiquetes. Els factors externs són els que depenen de tercers, de pàgines a les quals, en principi, l’administrador no té un accés directe. En aquest últim grup s’ha de tenir en compte el nombre total d’enllaços entrants, com també el text de l’àncora d’aquests enllaços. En un cas òptim, les mateixes paraules clau que condueixen a una determinada pàgina web s’haurien de trobar en el text que actua com a ancoratge de l’etiqueta d’un enllaç entrant; així, un enllaç entrant òptim per a aquest article tindria la composició següent: <a href="http://bid.ub.edu/16gonza1.htm">Tipologia i anàlisi d’enllaços web: aplicació a l’estudi dels enllaços fraudulents i de les “granges d’enllaços”</a>.

L’objectiu de la manipulació i creació d’enllaços és modificar el comportament dels algoritmes dels cercadors, principalment el de l’algoritme PageRank1 de Google, ja que per determinar els rangs dels resultats de les cerques, els motors usen mesures de popularitat d’enllaços (quantitat de llocs “relacionats” o “autoritatius” que enllacen a una web determinada).

En aquest article analitzarem amb detall la composició dels enllaços web i la seva manipulació. En un primer bloc estudiarem la composició de les anomenades xarxes socials, les seves unitats i característiques bàsiques, i a continuació ens centrarem en la perspectiva de l’anàlisi de xarxes d’enllaços (Hyperlink Network Analysis, més conegut per la sigla HNA) i les diferents eines analítiques per a l’estudi de les comunitats. Finalitzarem aquest primer bloc amb la perspectiva webmètrica, en la qual destacarem els indicadors de connectivitat i les mesures topològiques aplicades a les estructures d’enllaços.

A continuació desenvoluparem un apartat centrat en els motius de creació d’enllaços, en què tractarem la motivació acadèmica, derivada dels estudis de xarxes socials, la motivació navegadora i la motivació de negoci, per acabar amb la motivació relacionada amb el posicionament web, que ens obrirà les portes a l’estudi de les comunitats d’enllaços fraudulents (enllaços spam), conegudes popularment com granges d’enllaços (link farms), i a un nou algoritme de Google anomenat Trust Rank.


2 Grafs, enllaços i tipologies d’estructures

L’estructura interna d’un lloc web pot ser representada per mitjà d’un graf dirigit G = (V, E),2 on V és una col·lecció de vèrtexs o nodes i E és una col·lecció d’arestes o arcs en el lloc web. Els grafs finits amb n vèrtexs es representen com estructures de dades per mitjà d’una matriu d’adjacència: una matriu n-per-n les entrades de la qual a la fila i i a la columna j donen el nombre d’arestes des del vèrtex i-èsim fins al j-èsim.


Parts d’un graf
Matriu d’adjacència d’un graf
Parts d’un graf
Matriu d’adjacència d’un graf

Gràfic 1. Estructura interna d’un lloc web


Cada node té tres atributs —ID, concepte i descripció—, on:

Les arestes tenen quatre atributs —node font, node objectiu, tipus i descripció—, on:

Dos nodes seran adjacents si hi ha una connexió entre tots dos, i un camí serà una seqüència de nodes adjacents, on el primer node es diu origen i el segon es diu destinació. Aquestes connexions entre origen i destinació poden classificar-se atenent a si hi ha una relació semàntica entre els nodes o si, al contrari, el seu objectiu principal és facilitar la navegació interna del lloc.

Un enllaç és de tipus semàntic si les pàgines connectades tenen relacions semàntiques explícites per mitjà del text de l’àncora. Aquestes arestes o arcs que uneixen els conceptes dels textos de l’àncora poden donar lloc a dos tipus de relacions semàntiques: agregació o associació de conceptes.

Per tant, en una estructura d’enllaços, un enllaç és semàntic si les pàgines connectades tenen una relació semàntica explícita; en cas contrari, es considera l’aresta com un enllaç de navegació. Així, en una estructura tipus de directori, els enllaços que apunten cap al seu propi lloc poden classificar-se dins dels cinc grups següents:

  1. Enllaç ascendent: apunta cap al nivell pare.
  2. Enllaç descendent: apunta cap a un nivell inferior.
  3. Enllaç vertical: enllaç descendent específic que apunta cap a una pàgina d’un nivell inferior.
  4. Enllaç germà: enllaç la pàgina objectiu del qual és en el mateix nivell.
  5. Enllaç diagonal: enllaç que apunta cap a una pàgina situada en un altre nivell jeràrquic.

Segons la classificació anterior, un enllaç es considerarà de navegació si respon a un dels models següents:

  1. Enllaç ascendent: a causa de l’organització jeràrquica del lloc, els enllaços ascendents funcionen com enllaços per tornar a la pàgina anterior.
  2. Enllaços situats en una barra de navegació de nivell superior: quan ens referim a una barra de nivell superior volem dir que l’enllaç a la barra de navegació no és un enllaç descendent.
  3. Enllaços dins d’una llista de navegació comuna a les pàgines web (notícies o productes recomanats): ja que l’enllaç no és específic de la pàgina, sinó que forma part d’un grup de navegació, no hi ha una relació semàntica amb la pàgina que conté l’enllaç.

Les estructures d’enllaços, una vegada transformades en grafs i matrius d’adjacència, permeten discernir els patrons estructurals del lloc. D’aquesta manera, les estructures hipertextuals d’un lloc web seran diferents depenent de quina funcionalitat tinguin dins de la xarxa. Segons quina sigui la funció del lloc web, aquest tindrà una estructura d’enllaços determinada que compartirà amb altres llocs similars. Amitay et al. (2003) van classificar els diferents tipus de llocs, segons l’estructura i els patrons d’enllaços, de la manera següent:


Tipologia de llocs web segons l’estructura dels enllaços (font: Amitay et al., 2003)

Gràfic 2. Tipologia de llocs web segons l’estructura dels enllaços (font: Amitay et al., 2003)



3 Anàlisi de xarxes d’enllaços i webmetria

Han Woo Park i Mike Thelwall, en l’article titulat “Hyperlink analyses of the World Wide Web: a review” (2003), estudien les estructures d’enllaços des de dues perspectives diferents. La primera és l’anàlisi de xarxes d’enllaços, que deriva al seu torn de les anàlisis de xarxes socials, i una segona perspectiva centrada en els estudis webmètrics, que deriven de la ciència de la informació.

El primer acostament suggereix que els mètodes d’anàlisi de xarxes socials poden ser aplicats per entendre la interacció entre els processos de comunicació intervinguda per ordinador (CMO).3 El marc teòric d’aquest tipus d’anàlisi (Jackson, 1997) estudia la representació i interpretació dels patrons comunicatius, partint de la base que les xarxes d’enllaços són tipus de xarxes CMO en què els autors de llocs web estan interconnectats mitjançant enllaços. Per mitjà de l’anàlisi de la configuració d’aquests enllaços es poden discernir les “empremtes electròniques” de les relacions socials, ja sigui entre persones o entre llocs web.

La relació (Garton et al., 1997) és la unitat fonamental d’anàlisi d’intercanvis entre actors socials i es caracteritza pels atributs de contingut, direcció i força:


3.1 Anàlisi de xarxes d’enllaços

A diferència de l’anàlisi tradicional de xarxes, l’anàlisi de xarxes d’enllaços (ARE) té com a font única d’informació els enllaços que extreu dels llocs web. D’aquesta manera, el conjunt de dades extretes dels enllaços es transforma en una matriu S simètrica n × n (coneguda com a 1-mode network matrix), on n és el nombre de nodes en l’anàlisi. En ARE, els nodes són llocs web que representen actors socials, i cada cel·la sij indica l’absència o la presència de freqüència d’enllaços entre els nodes i i j. La força de la relació pot ser expressada si cada cel·la representa quants enllaços hi ha entre dos nodes.

A partir de la informació representada en forma de matrius, es poden aplicar els mètodes analítics següents heretats de l’anàlisi de xarxes socials:


3.2 Webmetria

La segona perspectiva de Han Woo Park i Mike Thelwall (2003) a l’hora d’estudiar les estructures d’enllaços és la webmetria. Aquesta visió parteix de l’aplicació de la bibliometria al camp de les estructures web en establir una analogia amb la citació d’articles de revistes científiques (Larson, 1996; Rodríguez Gairín, 1997). L’aplicació de l’anàlisi de citació en el context web pretén usar els enllaços com a mesura de l’abast de comunicació en línia entre els propietaris de dos o més conjunts de pàgines web. Per extensió, altres investigadors han utilitzat aquestes anàlisis com a mesures de l’impacte en línia, en què la qualitat o el nivell d’interès dels seus continguts són les causes de l’atracció d’enllaços.4

Per mesurar i interpretar l’estructura, la mida i la connectivitat del web, la webmetria aplica diverses mesures. Pinto Molina et al. (2003) ens mostren la definició dels diferents indicadors utilitzats en els estudis webmètrics, d’entre els quals els indicadors de connectivitat i les mesures topològiques:


3.2.1 Indicadors de connectivitat


3.2.2 Mesures topològiques

L’estructura d’enllaços conté informació sobre les diferents comunitats web. Les mesures topològiques es basen en la consideració del web com un graf en què les pàgines web es representen mitjançant els nodes i els enllaços es representen mitjançant les vores dirigides, denominades arestes o arcs (gràfic 1).

Aquesta perspectiva centrada en la naturalesa hipertextual del web analitza l’evolució dels seus dominis i calcula un conjunt de mesures que tenen en compte els enllaços que es donen entre les diferents pàgines web que conformen els dominis d’estudi. Aquestes mesures poden considerar-se de similitud per als grafs i, a més d’obtenir un valor únic per a cada un dels grafs, permeten utilitzar aquest valor únic per establir comparacions entre els valors de diferents dominis. Els índexs es poden classificar de la manera següent:


4 Motius de creació d’enllaços

Han Woo Park i Mike Thelwall (2003) van centrar el seu estudi sobre enllaços en les comunitats acadèmiques; la raó principal subjacent per a la creació d’enllaços en aquest tipus de comunitats és la quantitat d’investigació que generen les organitzacions associades als llocs. L’exemple que analitzen els autors és una mostra aleatòria de 414 enllaços entre universitats de la Gran Bretanya (Wilkinson et al., 2003), en què més del 90 % tenia una motivació relacionada amb la investigació o la docència. En les seves conclusions indiquen que desconeixen si els patrons trobats per a espais acadèmics es poden usar per analitzar un altre tipus de comunitats no acadèmiques.

En un altre article centrat en el món acadèmic, Mike Thelwall (2003) va dur a terme una exploració qualitativa de cent llocs web d’universitats angleses partint de les analogies existents entre enllaços web i les citacions d’articles. Gràcies a aquesta exploració, l’autor va descobrir quatre tipus de motivacions per a la creació d’enllaços.


1) Enllaços de navegació general

Són el punt de partida en la navegació per trobar una àmplia gamma d’informació. La seva utilitat deriva de l’amplitud d’informació que es té a l’abast començant a navegar des d’aquest punt. Thelwall com a exemple les revisions bibliogràfiques, ja que els lectors poden usar-les com a punt de partida per recuperar més articles específics sobre el tema.

2) Enllaços de propietat

Els enllaços de propietat, també anomenats credit links, són definits com aquells que declaren autoria, coautoria, propietat o copropietat d’un lloc web o d’un projecte associat. En molts dels casos, els enllaços no són essencials per a l’atribució de propietat, ja que aquesta pot ser inferida fàcilment pel text, i es tracta d’enllaços per emfatitzar l’adscripció.

3) Enllaços socials

Són aquells la raó primària dels quals és reforçar llaços socials. L’autor l’exemple de les pàgines personals que enllacen amb la pàgina d’un col·laborador o un grup de col·laboradors. Sense funció aparent, estrenyen llaços socials per mitjà d’un cert reconeixement implícit en l’enllaç. Com l’autor mateix indica, aquesta categoria d’enllaços és la que té una motivació més tènue.

4) Enllaços gratuïts

Els enllaços gratuïts són els que no tenen cap funció comunicativa. Malgrat que és possible imaginar un context en el qual pot ser útil qualsevol enllaç, aquests enllaços sembla que són allà perquè l’autor de la pàgina sap que l’organització té un web i decideix incloure-la, encara que no sigui útil per qui visita la pàgina. Per tant, el terme enllaç gratuït s’usa per a aquells enllaços sense cap motivació comunicativa discernible en la seva creació. Thelwall afegeix que no s’espera que aquests enllaços siguin usats i que no tenen cap rol comunicatiu identificable.

Quadre 1. Tipus de motivació per crear hipervincles (font: Thelwall, 2003)


L’autor reconeix la possibilitat que les motivacions se superposin i fins i tot que en molts casos no hi hagi una motivació primària clara. La informalitat i trivialitat de molts dels enllaços, especialment els de navegació i els gratuïts, podrien ser considerades soroll de fons que impediria la temptativa d’aplicar amb èxit tècniques bibliomètriques al web.

D’altra banda, la naturalesa d’aquests enllaços de navegació gratuïts apareix més ben explicada per mitjà de l’article de Han Woo Park (2002), que mostra els resultats d’una enquesta duta a terme a 64 administradors coreans sobre motivacions d’enllaç.6 Ens interessa la percepció de credibilitat d’aquests administradors, ja que són ells, precisament, els qui decideixen on enllacen els llocs web

L’enquesta als administradors incloïa un total de set qüestions:7 la primera, la segona i l’última de les qüestions eren preguntes obertes limitades, mentre que la resta de respostes havien de ser quantificades en una escala en què 50 corresponia a un valor mitjà i 0 era un valor nul. Seguint aquest barem, es va demanar als administradors que avaluessin els punts que apareixen en la pregunta següent: “Quan es decideix crear un enllaç amb un altre lloc web, com és d’important la seva credibilitat en termes de veracitat, reputació, utilitat, puntualitat, competència, seguretat i fiabilitat?”.

Els resultats d’aquesta pregunta van ser els següents: veracitat, 91,56; reputació, 78,91; utilitat, 105,81; puntualitat, 85,94; competència, 90,31; seguretat, 82,73, i fiabilitat, 79,84. El punt més important va ser la utilitat, seguit de la veracitat i de la competència.

A més dels punts anteriors, l’autor va estudiar les respostes a dues preguntes obertes: 1) una raó per escollir un enllaç cap a un determinat lloc web, i 2) l’avantatge dels enllaços. Les respostes a les preguntes obertes van ser estudiades partint d’una anàlisi de freqüències de paraules.

En les respostes a la primera pregunta van destacar les paraules següents: contents, amb 25 repeticions per vint dels administradors, i relevance i similar, usades en disset ocasions per disset administradors.8 Els resultats de la segona pregunta van mostrar que la paraula amb més freqüència era information, que apareixia catorze vegades i era esmentada per tretze administradors (20,3 %), seguida per contents, tretze vegades per tretze persones enquestades.9

Per mitjà d’una anàlisi clúster de les respostes a les preguntes obertes de les enquestes, l’autor va destacar que per a la primera pregunta apareixien sis grups petits, al costat d’un grup més gran de set paraules que eren per catorze administradors.


ClústersTermesInterpretació
Clúster 1affiliation, relevance, topic, similar, business, type, contents

Aquest clúster mostra que la majoria de llocs proporcionen enllaços als seus llocs afiliats. La similitud de continguts influeix sobre l’afiliació entre llocs web. Els llocs web elegeixen els seus afiliats pel tipus de negoci.

Clúster 2information, sharing, useful

Aquest clúster identifica els administradors les respostes dels quals delaten la preocupació per compartir informació útil entre els llocs web.

Clúster 3marketing, public, relations

Aquest clúster suggereix que l’intercanvi d’enllaços pot contribuir a l’augment d’oportunitats de màrqueting.

Clúster 4connectedness, interface, quality, exchange, win

Aquest clúster és un grup que no mostra cap interpretació clara.

Clúster 5current, augmenting

Mostra que els llocs web decideixen els enllaços per augmentar la informació de les pàgines.

Clúster 6mother company

Significa que alguns llocs web cooperen sistemàticament amb altres llocs que pertanyen a la mateixa empresa mare. Aquests llocs web són anomenats normalment llocs germans

Clúster 7revenue, banner, advertising

Mostra que els anuncis localitzats a les seves pàgines són una font d’ingressos per als llocs web.

Taula 1. Motivació dels enllaços (font: Woo Park, 2002)


L’anàlisi clúster per a la segona pregunta va revelar que les 25 paraules amb una freqüència més gran formaven un grup gran i set de més petits:


ClústersTermesInterpretació
Clúster 1various, kinds, providing, convenience, relevant, information, exchange, contents

Els administradors esperen els aspectes següents quan decideixen fer un enllaç cap a un altre lloc web: rellevància, informació, intercanvi de continguts i increment del contingut actual.

Clúster 2revenue, marketing, advertising

Aquest clúster reflecteix l’ús d’un enllaç com un nou vehicle de publicitat.

Clúster 3current augmenting

Aquest clúster mostra que els llocs web ofereixen enllaços cap a altres llocs per maquillar o expandir els seus propis continguts.

Clúster 4increasing visitors

Els enllaços cap a altres llocs poden atreure (amb engany) visitants als seus propis llocs.

Clúster 5user, navigation, interface

Termes relatius al disseny de llocs web. Una estructura d’enllaços ben organitzada pot millorar la interfície de l’usuari.

Clúster 6trust transfer

La confiança de l’usuari augmenta si se selecciona un enllaç a un lloc de renom.

Clúster 7don’t know

Aquest clúster mostra que els administradors no estan segurs sobre els avantatges dels enllaços.

Clúster 8web site, pursuing, porta

Indica que l’avantatge dels enllaços està en el fet de proveir una àmplia gamma d’informació.

Taula 2 . Avantatges dels enllaços (font: Woo Park, 2002)


Woo Park defensa que el nombre d’enllaços existents entre llocs web és un bon indicador de la seva qualitat. Com reflecteixen alguns dels clústers que acabem de veure, el nombre d’enllaços entrants cap a un lloc web està correlacionat positivament amb la qualitat i credibilitat del lloc. A partir dels resultats d’aquesta enquesta es dedueix que és possible mesurar la credibilitat d’un lloc web basant-nos en l’anàlisi d’enllaços entrants. Tanmateix, en l’apartat següent introduïm una nova perspectiva en les motivacions de creació d’enllaços, i recuperem, així, la perspectiva de posicionament web que hem vist en la introducció. Des del punt de vista del posicionament web, tot seguit comentarem un per un aquests clústers, i complementarem, així, la visió parcial que ha ofert aquesta enquesta als administradors.


5 Posicionament web i motivació d’enllaços

Des del punt de vista d’un cercador, o des de la perspectiva del posicionament web, si es vol, només les relacions semàntiques explícites tenen importància. Els enllaços interns d’un lloc, en la major part dels casos navegacionals, no es tenen en compte a l’hora de calcular el rànquing dels cercadors, ja que aquests enllaços s’eliminen durant els processos d’indexació. Els enllaços externs, que se suposen dotats de valor semàntic, són tractats per convertir-los en matrius, i els textos de l’àncora, on presumiblement hi ha la informació de relació semàntica, s’inclouen en els càlculs de rànquing.

Tal com apuntem en la introducció de l’article, els enllaços pertanyen al grup dels factors externs, ja que, en principi, l’administrador no té accés a les pàgines que enllacen cap al seu propi lloc. La solució d’aquesta falta d’accessibilitat ha estat la creació de pàgines artificials que apunten cap a una pàgina objectiu, pàgines l’acumulació de les quals ha creat vertaderes comunitats d’enllaços fraudulents, conegudes com a granges d’enllaços.

Tornant a l’article de Woo Park, aquest va assenyalar en les seves conclusions que les anàlisis clúster suggerien que les motivacions i els avantatges dels enllaços podien ser classificats en dues dimensions: la de navegació i la relacionada amb propòsits comercials. Aquest segon aspecte, el dels propòsits comercials, és la motivació principal —si no l’única— en la creació de comunitats i pàgines web mercenàries.

A continuació analitzarem les motivacions anteriorment exposades des del punt de vista dels enllaços fraudulents, i intentarem classificar-les, si és possible, segons les categories aportades per Thelwall i Woo Park.

De manera paral·lela a l’exposició de l’apartat anterior, començarem per la tipologia d’enllaços que ens mostrava Thelwall (2003) I, tot seguit, aplicarem la seva classificació a la tipologia d’enllaços fraudulents:


1) Enllaços de navegació general versus enllaços fraudulents

En alguns casos, els enllaços fraudulents poden servir com portes de partida per trobar una gamma àmplia d’informació. En molts casos, les comunitats d’enllaços fraudulents no solament enllacen amb les pàgines objectiu, sinó que també ho fan amb pàgines de qualitat reconeguda, per assolir, així, altes puntuacions nodals per a determinats algoritmes; tanmateix, aquest no n’és l’objectiu primordial. El fet de classificar alguns enllaços fraudulents com enllaços de navegació general és purament circumstancial, ja que els objectius que cal optimitzar solen ser molt concrets, i només a l’efecte de “maquillatge” s’enllaça amb portals generals de prestigi reconegut.

2) Enllaços propietat versus enllaços fraudulents

Els enllaços fraudulents poden ser enllaços propietat en els casos en què la pàgina mercenària és un duplicat d’una d’original (per exemple, tenir registrat el mateix nom de domini i/o variants en diferents dominis de primer nivell, top-level domains). En el cas de les “granges d’enllaços” ocorre el contrari, ja que sempre s’intenta evitar que el propietari d’aquesta tècnica fraudulenta de posicionament es reconegui.

3) Enllaços socials versus enllaços fraudulents

Encara que, segons Thelwall, els enllaços fraudulents estan caracteritzats per una motivació tènue, els podríem classificar com enllaços socials. Atès que la raó primària és reforçar llaços socials, els enllaços fraudulents compleixen aquest propòsit, si bé de manera no ètica. Des del punt de vista dels cercadors, els enllaços fraudulents són purament socials, ja que cadascun passa a reforçar, no ja el llaç social, sinó la posició en el rànquing de la pàgina d’un col·laborador o d’un grup de col·laboradors.

4) Enllaços gratuïts versus enllaços fraudulents

Els enllaços fraudulents podrien ser classificats dins del conjunt d’enllaços gratuïts, ja que —com aquells— no s’espera que ningú els usi. El rol comunicatiu tampoc no existeix, sinó que tenen com a única funció sumar un altre enllaç entrant cap a la pàgina objectiu en la base de dades d’un cercador.

Quadre 2. Tipologia d’enllaços i enllaços fraudulents (adaptació de Thelwall, 2003)


En tractar la tipologia d’enllaços segons Woo Park i la seva aplicació als enllaços fraudulents, analitzarem i glossarem cada un dels clústers resultants (en aquest apartat proporcionem una traducció dels termes al català). Els set clústers de la primera pregunta (taula 1) eren els següents:


ClústersTermesInterpretació
Clúster 1afiliació, rellevància, tema, similar, negoci, tipus, continguts

Des de la perspectiva dels enllaços fraudulents es dóna una afiliació amb el lloc objectiu, si bé no té per què haver-hi cap tipus de similaritat de continguts.

Clúster 2informació, compartint, estri

En el cas de les pàgines i comunitats d’enllaços fraudulents, també poden arribar a ser útils als usuaris. Els directoris d’enllaços fraudulents de vegades són fonts nodals adequades si reuneixen en una pàgina enllaços relacionats amb una categoria determinada. Els tres noms associats a aquesta categoria poden ser aplicats als enllaços fraudulents.

Clúster 3màrqueting, públic, relacions

Encara que Woo Park esmentava en aquest apartat que l’intercanvi d’enllaços contribuïa a incrementar les oportunitats de màrqueting en el web, des del punt de vista dels enllaços fraudulents, l’intercanvi hauria de ser substituït per la paraula creació. L’objectiu de crear oportunitats de màrqueting continua sent una part fonamental en els enllaços fraudulents. Si un usuari arriba a una «granja d’enllaços» per mitjà dels resultats d’un cercador, pot assolir el lloc objectiu, I això compleix la finalitat d’oportunitat de màrqueting. Si, al contrari, l’enllaç fraudulent no pertany a una «granja», sinó que està camuflat i barrejat amb centenars de missatges en un guestboard o en un bloc, també compleix la finalitat de màrqueting a l’hora d’incrementar artificialment la popularitat del seu propi lloc objectiu.

Clúster 4connectivitat, interfície, qualitat, intercanvi, guany

Encara que per Woo Park aquest clúster no oferia una interpretació clara, des de la perspectiva dels enllaços fraudulents assoleix un major sentit. Així, podríem interpretar que els enllaços fraudulents són oportunitats per “guanyar diners per mitjà d’una interfície de qualitat optimitzada, i per mitjà de la connexió a una gran xarxa d’enllaços o “granges d’enllaços””.

Clúster 5corrent augmentar

En aquest cas, en comptes d’augmentar el cabal d’informació, ens referiríem a augmentar la quantitat d’enllaços entrants cap al lloc objectiu.

Clúster 6Mare, companyia

Aquest clúster dóna a entendre la importància de les relacions fraternals entre llocs web i comunitats. Des del punt de vista dels enllaços fraudulents, podríem entendre que es tracta de la possible col·laboració entre dues “granges d’enllaços” sembrades pel mateix administrador, que pot vincular en el pròxim rastreig (crawling) d’algun cercador. També podríem interpretar que mare es refereix a la pàgina objectiu, mentre que companyia són els enllaços fraudulents.

Clúster 7ingrés, banner, publicitat

Podríem considerar aquesta raó com la més adequada de totes les respostes des de la perspectiva dels enllaços fraudulents. La finalitat de qualsevol pràctica de posicionament fraudulent no és altra que publicitar una pàgina web que generi ingressos. És prou sabut que darrere de la creació de comunitats artificials per manipular els resultats dels cercadors hi ha un gran moviment monetari. Des del famós Adwords o la seva versió Yahoo! fins a la tècnica més baixa de la manipulació de resultats per mitjà de “granges d’enllaços”, totes tenen el mateix objectiu: generar ingressos per mitjà de la publicitat.

Taula 3. Motivació dels enllaços i enllaços fraudulents (adaptació de Woo Park, 2002)


L’anàlisi clúster per a la segona pregunta va revelar que hi havia un grup gran i set de més petits (taula 2). No hem afegit comentaris als tres últims clústers a causa de la vaguetat dels termes:


ClústersTermesInterpretació
Clúster 1diversos, tipus, subministrar, conveniència, rellevant, informació, intercanvi, continguts

En el cas dels enllaços fraudulents no sempre s’ofereix informació rellevant, ja que la creació de l’enllaç és causada per una contrapartida monetària. Tampoc no es dóna intercanvi de continguts ni un augment dels continguts del lloc web.

Clúster 2ingrés, màrqueting, publicitat

Similar al clúster 7 de la taula anterior, en aquest cas el clúster reflecteix que els enllaços són usats com un nou vehicle de publicitat. Si bé els enllaços fraudulents no podrien ser considerats com vehicles de publicitat, n’hi ha un gran nombre que sí que podrien augmentar el rànquing d’un lloc en concret si actués com a vehicle publicitari..

Clúster 3corrent augmentar

Vegeu el clúster 5 de la taula anterior.

Clúster 4augmentar visitant

Sinònim de generar , aquesta resposta està estretament relacionada amb el segon clúster. Els enllaços fraudulents poden generar visites directament —si una pàgina d’una «granja d’enllaços» apareix en els resultats d’un cercador— o indirectament —en augmentar el rànquing de la pàgina objectiu.

Clúster 5termes relatius al disseny de llocs web: usuari, navegació, interfície.

Per a aquest clúster, el comentari de Woo Park era: “una estructura d’enllaços ben organitzada pot millorar la usabilitat”. Les pàgines d’enllaços fraudulents, suport d’aquests enllaços, també han de tenir una bona usabilitat, enfocada no tant cap a l’usuari humà sinó més aviat cap al funcionament del robot dels cercadors. D’aquesta manera, l’estructura de la interfície ha de facilitar la navegació per mitjà del lloc perquè el robot indexi totes i cada una de les pàgines que contenen els enllaços fraudulents.

Taula 4. Avantatges dels enllaços i enllaços fraudulents (adaptació de Woo Park, 2002)


6 Comunitats artificials i “granges d’enllaços”

Els algoritmes usats per quantificar la importància d’una pàgina o comunitat web basats en la informació extreta dels enllaços són l’objectiu primordial dels administradors de pàgines d’enllaços fraudulents (spammers), i les “granges d’enllaços”, el seu element més representatiu. La problemàtica que deriva d’aquest fet ha transcendit fins al món acadèmic, on l’estudi dels enllaços fraudulents s’ha convertit en el tema central de molts articles.

L’article de García-Molina i Gyöngyi (2004), titulat Web spam taxonomy, destaca per la seva claredat a l’hora d’exposar totes les tècniques d’enllaços fraudulents que s’usen avui en dia per manipular els resultats dels cercadors d’Internet.10 D’aquest article ens interessa la visió que donen els autors des de la perspectiva de l’optimitzador fraudulent, l’administrador de pàgines d’enllaços fraudulents (d’ara endavant, administrador fraudulent), referent tant a la tipologia de pàgines web com a l’optimització d’enllaços.

Segons García-Molina i Gyöngyi, per a un administrador fraudulent en el web hi ha tres tipus de pàgines:

Les tècniques d’enllaços fraudulents basades en enllaços poden ser agrupades depenent de si afegeixen enllaços sortints cap a pàgines populars o, per contra, recullen enllaços entrants cap a una pàgina objectiu o un grup de pàgines:

García-Molina i Gyöngyi també van mostrar els models òptims de comunitats artificials en un article posterior titulat Link spam alliances (2005). En aquest article, el seu model de «granja d’enllaços» es basa en les pautes següents:

L’estructura òptima per a una «granja d’enllaços» amb una única pàgina objectiu consisteix en k pàgines boosting que apunten directament cap a la pàgina objectiu, que al seu torn apunta cap a cada una de les pàgines de la «granja» i que rep de l’exterior un de filtracions.


Estructura òptima d’una «granja d’enllaços» (font: García-Molina i Gyöngyi, 2005)

Gràfic 3. Estructura òptima d’una «granja d’enllaços» (font: García-Molina i Gyöngyi, 2005)


García-Molina i Gyöngyi destaquen, en el mateix article, que les estructures òptimes poden ser fàcilment perceptibles. Per aquest motiu, els administradors fraudulents poden intentar evitar les millors estructures, malgrat que els rànquings de les seves pàgines objectiu puguin disminuir. Tot i així, els administradors fraudulents no es desviaran gaire d’aquestes estructures òptimes, per la qual cosa les estructures reals s’assemblaran a les estudiades en aquest article. Per acabar, es mostra una estructura irregular que, malgrat la seva forma, amaga una aliança de set «granges d’enllaços».


Estructura irregular d’una «granja d’enllaços» (font: García-Molina i Gyöngyi, 2005)

Gràfic 4. Estructura irregular d’una «granja d’enllaços» (font: García-Molina i Gyöngyi, 2005)


L’aparició d’aquest article va generar automàticament comentaris en els fòrums d’optimització web sobre la incompatibilitat del model teòric amb la realitat del web.11 Per exemple, es va considerar improbable la unió de diverses “granges d’enllaços” mitjançant enllaços bidireccionals, ja que els administradors fraudulents no enllaçaven les seves “granges d’enllaços” des de les pàgines objectiu. En el comentari de l’article es mostra una visió més real d’una «granja d’enllaços» en què es combinen pàgines legítimes i enllaços fraudulents. Aquesta combinació aconsegueix eludir l’algoritme Page Rank per mitjà de pàgines legítimes i no legítimes que enllacen amb la pàgina objectiu, i així s’aconsegueix disminuir el risc que siguin capturades com pàgines d’enllaços fraudulents.


7 L’algoritme Page Rank

Merlino-Santesteban (2003) divideix en tres els tipus d’algoritmes d’ordenació per rellevància basats en connectivitat: dependents, quasidependents o independents de la consulta de l’usuari. L’algoritme Page Rank és el millor exemple del tipus d’algoritmes independents de la consulta de l’usuari, els quals assignen una puntuació a una pàgina, independentment de la cerca proporcionada. Aquests algoritmes produeixen un rànquing independentment de la similitud consulta-document, ja que el seu objectiu principal és mesurar la qualitat intrínseca d’una pàgina.

El Page Rank d’una pàgina web no és influït per la pàgina en si mateixa o per alguna consulta potencial, sinó que es basa només en determinacions d’importància aportades pels enllaços. El Page Rank parteix d’un graf construït a priori, que utilitza la informació dels enllaços entrants per assignar valors d’importància global a cada una de les pàgines del web. D’aquesta manera, el Page Rank calcula la importància d’una pàgina atorgant a cada enllaç que es dirigeix cap a ella un pes proporcional respecte de l’autoritat de la pàgina que el conté. Per determinar l’autoritat de la pàgina citant, el Page Rank és utilitzat iterativament unes cent vegades fins que els valors convergeixen.

La fórmula del Page Rank és la següent:


PR(A) = (1–d) + d (PR(T1) / C(T1) +... + PR(Tn) / C(Tn))


Els elements que hi apareixen són els següents:

  • PR(A) és el Page Rank de la pàgina de referència.


  • d: és un factor de debilitació.


  • (1–d) assegura que qualsevol pàgina, encara que no rebi cap enllaç, tindrà un PR mínim de 0,15.


  • PR(Ti) / C(Ti) és el Page Rank (PR) de la pàgina i-èsima que enllaça a la web de referència, (Ti), dividit pel nombre de tots els enllaços (C) que també surten d’aquesta pàgina Ti, és a dir, el PR que transmet.


  • i = 1... n, ja que se suposen n pàgines que enllacin amb la de referència.

El Page Rank es basa en un reforç mutu entre pàgines: la importància d’una pàgina determinada influeix en la importància de les altres pàgines que contenen el seu enllaç i alhora és influïda per la importància d’aquestes.

Segons unes anàlisis recents de l’algoritme, García-Molina et al. (2004) han mostrat que la puntuació total del Page Rank (rtotal) per a un grup de pàgines depèn de quatre factors:


rtotal = rstatic + rin - rout - rsink


on rstatic és la puntuació obtinguda de la puntuació de la distribució estàtica; rin és la puntuació que arriba a les pàgines per mitjà dels enllaços entrants des de pàgines externes; rout és la puntuació que surt de les pàgines per mitjà dels seus enllaços sortints cap a pàgines externes, i rsink és la puntuació perduda per mitjà de les pàgines sense enllaços sortints (sink pages) del grup. De la fórmula anterior deriva l’estructura òptima d’enllaços que maximitza la puntuació de la pàgina objectiu.


Estructura òptima per millorar el posicionament web d’una pàgina (font: García-Molina et al., 2004)

Gràfic 5. Estructura òptima per millorar el posicionament web d’una pàgina (font: García-Molina et al., 2004)

Aquesta estructura facilita l’accessibilitat a les pàgines pròpies (Own) per mitjà de les accessibles, cosa que també els permet de ser indexades pels robots dels cercadors. Per maximitzar el Page Rank de la pàgina objectiu (t) es poden utilitzar les estratègies següents:

  1. Usar totes les pàgines pròpies disponibles de la «granja d’enllaços» per maximitzar la puntuació rstatic.


  2. Acumular el màxim nombre d’enllaços entrants des de les pàgines accessibles A cap a la «granja d’enllaços», i així es maximitza la puntuació rin.


  3. Suprimir els enllaços que apunten cap a fora de la «granja d’enllaços», ja que això fa que la puntuació rout tendeixi a zero.


  4. Evitar les «pàgines enfonsades» (sink pages) dins de la «granja», i assegurar-nos que cada pàgina (inclosa la t) té algun enllaç sortint: així aconseguim que rsink sigui zero.

L’estructura d’enllaços que maximitza la puntuació de la pàgina K ha de seguir les regles següents:

  1. Fer que totes les pàgines accessibles i pròpies apuntin directament cap a la pàgina objectiu, ja que així se’n maximitza la puntuació entrant.


  2. Afegir enllaços des de t cap a totes les pàgines pròpies. Sense aquests enllaços, t perdria una part important de la seva puntuació, i es convertiria en una «pàgina enfonsada», i les pàgines pròpies romandrien inabastables des de fora de la d’enllaços. La puntuació que surt de t “reflueix” cap a ella mateixa per mitjà de la «granja d’enllaços», per mitjà del circuit tancat format per ella i la «granja».

Aquesta és la teoria per la qual es regeixen els administradors fraudulents a l’hora de crear quantitats massives d’enllaços cap a les seves pàgines objectiu. Sobre això, Baeza-Yates et al. (2005) han elaborat un article centrat en l’increment del Page Rank sota diferents tipologies de col·lusió, amb la comprovació de la debilitat de l’algoritme davant d’un Sybil attack.12 Per al beneplàcit dels administradors fraudulents, les conclusions mostren que, si bé qualsevol grup de nodes pot incrementar el seu Page Rank formant un subgraf estretament connectat, l’increment del Page Rank que obtenen està inversament relacionat amb el Page Rank de partida; és a dir, que nodes amb un Page Rank baix que duguin a terme aquest tipus d’atac veuran molt més incrementat el seu rànquing.


8 L’algoritme Trust Rank

Des del punt de vista dels criteris interns d’optimització, la simple acumulació de paraules clau en forma de text ocult en una sola pàgina es considera una tècnica arcaica d’optimització, que, a més, pot ser identificada fàcilment i ser eliminada mitjançant un vector d’anàlisi de termes. Arran de la seva fàcil detecció, els administradors fraudulents han perfeccionat altres tècniques per generar continguts ben estructurats, focalitzats temàticament i rics en paraules clau rellevants que encaixen amb els termes de recerca dels usuaris. Una vegada saturades les possibilitats d’optimització interna, han apostat pels Sybil attacks i l’efecte TKC13 (Tightly-Knit Communities) amb l’objectiu de modificar el rànquing dels algoritmes comercials a través de comunitats artificials en les quals cadascuna de les seves pàgines està estretament focalitzada en alguna de paraula clau popular.

D’aquesta manera, durant els últims anys la major preocupació dels administradors fraudulents s’ha centrat en el Page Rank, que alguns consideren el principal criteri extern per a l’optimització. Recentment han aparegut en el món del posicionament web notícies que adverteixen que la importància del Page Rank ha estat modificada i que avui en dia el seu valor és menor. Tot i així, la preocupació pel Page Rank i per la seva manipulació ha assolit l’àmbit acadèmic, i ha fet que la lluita contra els enllaços fraudulents sigui la protagonista de molts articles científics.

D’entre els articles, destaca el de García-Molina et al. (2004), que proposa l’algoritme Trust Rank per combatre els enllaços fraudulents. Els autors assenyalen que la detecció algorítmica d’enllaços fraudulents és molt difícil si no es compta amb assistència humana. Per aquest motiu, per a la creació del seu algoritme contra els enllaços fraudulents parteixen d’un conjunt de «pàgines llavor» (seed pages), classificades o no com a escombraries per un editor humà. La premissa bàsica del Trust Rank és que les pàgines bones normalment apunten cap a pàgines bones i rarament cap a pàgines d’enllaços fraudulents. Després de la selecció d’un grup de pàgines bones, se’ls assigna una puntuació alta de confiança. A continuació van seguir un acostament similar al del Page Rank, ja que les puntuacions de confiança es propaguen cap a altres pàgines a través dels seus enllaços sortints. Finalment, després de la integració amb els resultats del Page Rank, les pàgines amb altes puntuacions de confiança es van considerar pàgines bones


9 Conclusions

Podem considerar l’estructura d’enllaços del web com una xarxa semàntica en la qual les paraules o frases que apareixen en el text de l’àncora són nodes que estableixen relacions semàntiques per mitjà de les arestes. Tanmateix, malgrat el paral·lelisme entre la citació acadèmica i els enllaços, aquests són radicalment diferents, ja que els enllaços manquen del formalisme de les citacions en publicacions acadèmiques. La prova més fefaent d’aquesta falta de formalisme és la motivació subjectiva dels administradors i, a més, l’aparició de comunitats artificials l’únic objectiu de les quals és impulsar en el rànquing un determinat lloc web.

L’interès per les estructures d’enllaços i la seva repercussió sobre els algoritmes dels cercadors comercials té el seu reflex en tota la producció científica apareguda recentment a la xarxa. És d’aquesta mateixa documentació que es nodreixen els responsables del posicionament web, que coneixen les debilitats dels principals algoritmes, així com les possibles solucions de lluita contra els enllaços fraudulents.

A tall de colofó, ens agradaria destacar aquesta paradoxa, el fet que l’interès comercial i l’acadèmic es retroalimenten: els primers creant comunitats artificials, els segons intentant trobar solucions a les tècniques de posicionament fraudulent, i donant pistes, així, als administradors de pàgines fraudulentes perquè millorin els seus models, que tornaran a ser objecte d’estudi per part de l’àmbit acadèmic.


Bibliografia

Amitay, Einat et al. (2003). The connectivity sonar: detecting site functionality by structural patterns. <http://www.ht03.org/papers/pdfs/5.pdf>. [Consulta: 10/05/2006].

Baeza-Iots, Ricardo; Castell, Carlos; López, Vicente (2005). Pagerank increase under different collusion topologies. <http://airweb.cse.lehigh.edu/2005/baeza-yates.pdf>. [Consulta: 10/05/2006].

Codina, Lluís (2004). “Posicionamiento web: conceptos y ciclo de vida”. Hipertext.net, núm. 2. <http://www.hipertext.net/web/pag216.htm>. [Consulta: 10/05/2006].

Garton, Laura; Haythornthwaite, Caroline; Wellman, Barry (1997). “Studying online social networks”. JCMC, vol. 3, no. 1 (June). <http://jcmc.indiana.edu/vol3/issue1/garton.html>. [Consulta: 10/05/2006].

García-Molina, Héctor; Gyöngyi, Zoltán (2005). “Web spam taxonomy”. En: First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb’05), 10–14 Maig 2005, Chiba, Japan. <http://airweb.cse.lehigh.edu/2005/gyongyi.pdf>. [Consulta: 10/05/2006].

García-Molina, Héctor; Gyöngyi, Zoltán; Pedersen, Jan (2004). “Combating web spam with TrustRank”. En: Proceedings of the Thirtieth International Conference on Very Large Data Bases, Toronto, Canada, August 31 – September 3 2004. <http://www.vldb.org/conf/2004/RS15P3.PDF>. [Consulta: 10/05/2006].

García-Molina, Héctor; Gyöngyi, Zoltán (2005). Link spam alliances. March 2, 2005. Technical report. <http://blog.searchenginewatch.com/blog/pdf/linkalliance.pdf>. [Consulta: 10/05/2006].

Ingwersen, Peter (1998). “The calculation of web impact factors”. Journal of Documentation, vol. 54, no. 2, p. 236–243.

Jackson, M. H. (1997). “Assessing the structure of communication on the world wide web”. Journal of Computer-Mediated Communication, vol. 3, no. 1. <http://jcmc.indiana.edu/vol3/issue1/jackson.html>. [Consulta: 10/05/2006].

Larson, R. R. (1996). “Bibliometrics of the World Wide Web: an exploratory analysis of the intellectual structure of cyberspace”. En: Hardin, S. (ed.). Proceedings of the 59 th Annual Meeting, ASIS 96. Baltimore, pàg. 71–79. <http://sherlock.berkeley.edu/asis96/asis96.html>. [Consulta: 10/05/2006].

Lempel, R.; Moran, S. (2000). “The stochatic approach for link-structure analysis (SALSA) and the TKC effect”. En: Proceedings of the 9 th World Wide Web Conference (WWW9). <http://www.csd.uwo.ca/courses/CS868b/papers/salsa.pdf>. [Consulta: 10/04/2006].

Merlino-Santesteban, Cristian (2003). “Análisis de conectividad en la recuperación de información web”. Ciência dóna Informação, vol. 32, no. 3 (set./dez.), pàg. 113–119. <http://www.scielo.br/pdf/ci/v32n3/19030.pdf>. [Consulta: 10/05/2006].

Pinto Molina, María et al. (2003). “Visibilidad de la investigación de las Universidades españolas a través de sus páginas web en el ámbito del espacio europeo de enseñanza superior: análisis, evaluación y mejora de la calidad”. Programa de estudio y análisis para la mejora de la calidad de la enseñanza superior y profesorado universitario. Granada, 2003. <http://wwwn.mec.es/univ/html/informes/estudios_analisis/resultados_2003/EA2003-0012/VISIWEB.pdf>. [Consulta: 10/01/2006].

Rodríguez i Gairín, J. M (1997). “Valorando el impacto de la información en Internet: AltaVista, el ‘Citation Index’ de la red”. Revista española de documentación científica, vol. 20, nº 2, p. 175–181. <http://bd.ub.es/pub/rzgairin/altavis.htm>. [Consulta: 10/05/2006].

Thelwall, Mike (2002). “A comparison of sources of links for academic Web Impact Factor calculations”. Journal of Documentation, vol. 58, no. 1, pàg. 66–78. <http://www.scit.wlv.ac.uk/~cm1993/papers/2002_%20Sources_of_links_for_WIF_Calculations.pdf>. [Consulta: 10/05/2006].

Thelwall, Mike (2003). “What is this link doing here? Beginning a fini-grained process of identifying reasons for academic hyperlink creation”. Information research, vol. 8, no. 3 (April). <http://informationr.net/ir/8-3/paper151.html>. [Consulta: 10/05/2006].

Wilkinson, David et al. (2003). “Motivations for academic web site interlinking: evidence for the Web as a novel source of information on informal scholarly communication”. Journal of Information Science, vol. 29, no. 1, pàg. 49–56. <http://jis.sagepub.com/cgi/content/abstract/29/1/49>. [Consulta: 10/05/2006].

Woo Park, Han (2002). “Examining the determinants of who is hyperlinked to whom: a survey of webmasters in Korea”. First Monday, vol. 7, no. 11 (November 4th). <http://www.firstmonday.org/issues/issue7_11/park/>. [Consulta: 10/05/2006].

Woo Park, Han; Barnett, George A. (2002). “Hyperlink-affiliation network structure of top web sites”. Journal of the American Society for Information Science and Technology, vol. 53, issue 7 (July), pàg. 592–601.

Woo Park, Han; Thelwall, Mike (2003). “Hyperlink analyses of the World Wide Web: a review”. Journal of Computer-Mediated Communication, vol. 8, no. 4. <http://jcmc.indiana.edu/vol8/issue4/park.html>. [Consulta: 10/05/2006].


Data de recepció: 15/02/2006. Data d’acceptació: 20/03/2006.




Notes

1 El Page Rank (PR) és un valor entre 1 i 10 que depèn de la quantitat i qualitat de les webs que tinguin enllaços cap a la web de referència, així com dels seus enllaços interns. El PR transmès pels llocs depèn, al seu torn, del PR propi i del nombre d’enllaços sortints que tingui aquesta pàgina. La fórmula bàsica del PR és la següent: PR(A) = (1–d) + d (PR(T1) / C(T1) +... + PR(Tn) / C(Tn)).

2 Els grafs poden ser dirigits quan hi ha un sentit o direcció en la connexió entre uns i altres com, per exemple, un enllaç entrant o sortint; i quan no s’indica una direcció, es diu que el graf és no dirigit.

3 Traducció de la versió anglesa Computer-Mediated Communication (CMC).

4 Aquest és el raonament que apliquen els motors de cerca a l’hora de quantificar el nombre d’enllaços entrants d’una pàgina web.

5 Els problemes derivats d’una correcta definició d’àrea objectiu, així com els problemes en el càlcul del nombre d’enllaços derivats de la inclusió de mirrors, ha donat lloc a una multiplicació dels paràmetres segons la densitat i la mida dels dominis (Thelwall, Smith, 2002). Els quatre paràmetres utilitzats són els següents:

- Nombre total d’enllaços.
- Nombre total d’enllaços dividit pel nombre total de pàgines del lloc o dels llocs objectiu.
- Nombre total d’enllaços dividit pel nombre total de pàgines en el lloc o en els llocs font.
- Nombre total d’enllaços dividit pel nombre total de pàgines en els llocs font i objectiu.

Han Woo Park i Mike Thelwall (2003) recomanen l’ús combinat dels quatre paràmetres, ja que cada mètode aporta una perspectiva de les dades diferent. El primer aporta una visió del total d’enllaços en conjunt, mentre que l’últim permet conèixer la tendència subjacent dels enllaços en dividir-los per la mida. En el segon paràmetre, en dividir pel nombre de pàgines objectiu, es mostra quins llocs atreuen més enllaços per pàgina i d’on provenen aquests enllaços. En dividir-lo per la mida de la font, obtenim un indicador sobre quins llocs acullen el major nombre d’enllaços per pàgina i els llocs que són el seu objectiu.

6 Segons l’autor, quan un lloc web està en un estat prematur de desenvolupament ha de tenir cura de quins enllaços estableix i amb qui. Sent el principal objectiu de qualsevol lloc web acumular el per al seu lloc, els enllaços que ofereix han de ser concordes amb aquest mateix objectiu, i oferir enllaços externs cap als serveis de què està mancat i que poden ser d’utilitat per als seus usuaris potencials.

7 1) La raó per escollir un enllaç a un determinat lloc web. 2) L’avantatge dels enllaços. 3) La fiabilitat dels llocs web enllaçats. 4) La professionalitat o l’experiència dels llocs enllaçats. 5) La seguretat dels llocs enllaçats. 6) La valoració de l’increment de la credibilitat del seu lloc web en enllaçar-lo amb un altre de credibilitat major. 7) L’afiliació de la informació.

8 Les paraules amb més freqüència d’aparició foren business, type, company, information, useful, topic i advertising. A més d’aquestes, també hi aparegueren freqüentment termes com ara affiliation, augmenting, marketing, banner, mother, sharing, current, exchange, revenue, win, connectedness, interface, public, quality i relations.

9 Les paraules amb una major freqüència van ser augmenting, navigation, Web site, current, don’t, know, relevant i convenience. També van aparèixer amb una freqüència alta increasing, interface, marketing, portal, pursuing, transfer, various, advertising, exchange, providing, trust, user, kinds, revenue i visitors.

10 Fins i tot els mateixos autors es permeten la llicència d’utilitzar en el format pdf del seu article paraules clau amagades que exemplifiquen la tècnica d’enllaços fraudulents més rudimentària.

11 <http://www.seomoz.org/articles/link-spam-alliances.php>.

12 Sybil attack és l’intent d’alterar un sistema de recomanació creant múltiples identitats, en el nostre cas, creant múltiples pàgines que apuntin cap a una sola pàgina.

13 Lempel i Moran (2000) van observar que un efecte lateral en les propietats de l’algoritme HITS era que, en un graf que conté múltiples comunitats, l’algoritme HITS fixarà l’atenció només en una sola d’aquestes comunitats, que rebrà una alta posició en el rànquing. Serà la que contingui les seves pàgines centrals i la seva autoritat més estretament interconnectades. Aquestes parts més estretament connectades d’un graf es coneixen per la sigla TKC (Tightly-Knit Communities).