|  home | articoli | news | today | redazione | contatto | feed | 
27/09/2007

Le toolbar di Alexa e Google e il traffic ranking

Bookmark and Share


E' curiosa la tendenza diffusa a sottostimare l'influenza delle Toolbar deialexa toolbar search engine sugli algoritmi con cui essi valutano le pagine indicizzate.

Eppure sono gli stessi search engine a dichiarare che i dati provenienti dai clic dei visitatori che usano le toolbar vengono utilizzati per raccogliere e incrociare i dati statistici del comportamento degli utenti tramite il monitoraggio del traffic ranking.

Da una nota di Alexa Toolbar: "Making a better internet"

Alexa could not exist without the participation of the Alexa Toolbar community. Each member of the community, in addition to getting a useful tool, is giving back. Simply by using the Firefox and IE toolbars each member contributes valuable information about the web, how it is used, what is important and what is not. This information is returned to the community as Related Links, Traffic Rankings and more.

e ancora...

The traffic rank is based on three months of aggregated historical traffic data from millions of Alexa Toolbar users and is a combined measure of page views and users (reach).

e ancora...

Alexa computes traffic rankings by analyzing the Web usage of millions of Alexa Toolbar users. The information is sorted, sifted, anonymized, counted, and computed, until, finally, we get the traffic rankings shown in the Alexa service. The process is relatively complex, but if you have a need to know, please read on.


Per quanto riguarda Google, la sua formula semplificata (che peraltro non è quella attualmente usata) prevedeva fin dall'inizio un fattore, chiamato damping factor,  trad. fattore di smorzamento [1] [2], il cui valore viene deciso da Google e che nella documentazione originale assumeva valore 0,85. Tale valore può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all'altra. Valore che viene influenzato da molte variabili, tra cui il Traffic Ranking, come affermato da Karla Alcazar, docente di Computer Science  presso L'Università di Friburgo

"The random surfer picks a web page and keeps clicking on links, this probability is called damping factor".

"The PageRank value of a page reflects the frequency of hits on that page by the random surfer".
Karla Alcazar
Seminar: Link mining (2004)
Intitute für Informatik - Universität Freiburg

La formula originale semplificata del PageRank è la seguente:

PR[A]=(1 - d) + dleft (frac{PR[T1]}{C[T1]} + ... + frac{PR[Tn]}{C[Tn]}right )

Dove:
  • PR[A] è il valore di PageRank della pagina A che vogliamo calcolare
  • T1...Tn sono le pagine che contengono almeno un link verso A
  • PR[T1] ... PR[Tn] sono i valori di PageRank delle pagine T1 ... Tn
  • C[T1] ... C[Tn] sono il numero complessivo di link contenuti nella pagina che offre il link
  • d è il damping factor
Il PageRank non è altro che un indice di probabilità, di quanto tempo, mediamente, un navigatore si troverà su una certa pagina.
La formula si basa sulla teoria dei processi di Markov e c'è da dire che  nella sua formulazione originale non considera il contenuto delle pagine.
Questo potrebbe essere un grosso limite se non fosse comunque  abbinato ad algoritmi di analisi del contenuto, quali LSI o Proximity.


I ricercatori e docenti Fortunato, Flammini, Menczer, Vespignani  nella loro ricerca "The egalitarian effect of search engines" pubblicata nel 2005 affermano che:

"Traffic is the fraction of all user clicks in some period of time that lead to the page; this quantity, also known as view popularity, can be estimated using the Alexa Traffic Rankings service, which monitors the sites viewed by users of its toolbar"

[vedi anche J. Cho, S. Roy, and R. Adams. Page quality: In search of an unbiased web ranking. In Proc. ACM International Conference on Management of Data (SIGMOD), 2005]


Un testo molto stimolante appena pubblicato sull'argomento (solo in linguagoogle pagerank toolbar inglese) è quello di Amy Langville (Assistant Professor of Mathematics al College di Charleston in South Carolina) e Carl D. Meyer (Professor of Mathematics alla North Carolina State University) dal titolo:


in particolare il cap. 12.3 dal titolo "Ranking Based on Traffic Flow" (pagine 136-138) la cui dimostrazione, se pur interessante, è troppo lunga per poter essere riportata in queste righe [3].

Accenno solo brevemente il suo contenuto.

Si tratta di una interessante interpretazione di  John A. Tomlin a proposito del Traffic Rank.
Grazie al metodo matematico dei Moltiplicatori Langrange è possibile ottenere una soluzione che descrive la "temperatura" per ognuna delle pagine Web. Una interpretazione che affonda le sue radici nella relazione termodinamica tra entropia e calore (HotRank) [4]. In assenza di altre informazioni sul traffico delle pagine del World Wide Web, è possibile utilizzare un metodo che renda massima l'entropia. Questo metodo è soggetto alle condizioni di conservazione della rete in cui è calcolata (che sia una rete intranet o una rete extranet).



NOTE



[1] Il damping factor è un parametro correttivo che tiene conto della probabilità che l'utente cambi percorso durante la sua scelta dei link presenti in una pagina web. Attraverso il damping factor, Google può determinare il valore percentuale di PageRank che transita da una pagina all' altra e stabilire un valore minimo di Page Rank attribuito ad ognuna delle pagine presenti nei suoi archivi.

[2] Paolo Boldi Massimo Santini Sebastiano Vigna, PageRank as function of the Damping Factor - DSI, Università degli Studi di Milano

[3] Chi desidera la dimostrazione completa può scaricarla da:  John A. Tomlin - A New Paradigm for Ranking Pages on the World Wide Web - IBM Almaden Research Center

[4] Sulle relazioni tra entropia e web: La fisica del Web - The Daily Bit -  febbraio 2007



Claudio Pasqua
Capo Redattore
Online Communication Strategist, Web 2.0 Consultant. Si occupa di progetti di comunicazione online e di pianificazione di campagne di marketing sul web 2.0. Esperto di comunicazione della scienza e della cultura sui nuovi media.

Dal 1998 insegna tali materie presso università e centri privati di formazione. E' Fondatore di www.gravita-zero.org, testata di divulgazione della scienza e caporedattore di www.thedailybit.net testata di divulgazione infotelematica. In passato ha scritto per numerose testate nazionali, tra cui Creative, Inter.net, MyMedia.

Come membro del Direttivo dell'Unione CNA Comunicazione e Terziario Avanzato dell'Unione Provinciale di Torino e la collaborazione con la rivista della CNA (corriere artigiano) i suoi articoli di divulgazione tecnologica sono letti da circa 36.000 piccole e medie imprese e imprenditori.

Infine scrive di scienza sul mensile per ragazzi MondoErre in una rubrica chiamata Matemagica.

Da questo autore

Versione per stampa
Cerca nel sito
Apple, Mac, iPhone, iPod, MacBook, Google, Microsoft, Ecosistema, Time&Mind, web 2.0, staminali, network, wireless, wifi, community, iHair
Newsletter
Per ricevere automaticamente la nostra newsletter inserisci la tua email nel campo sottostante.

Potrai disiscriverti in qualsiasi momento direttamente dall'email inviata.

Banner/Partner
|  home | articoli | news | today | redazione | contatto | feed | 
The Daily Bit è una pubblicazione Time&Mind sas, Via Forlì, 60, 10149 Torino. P. IVA n. 07377120014 - Testata registrata presso il Tribunale di Torino con il n. 5565 del 4.01.2001
Design e CMS Time&Mind