del.icio.us blocca Google.

Alcuni giorni fa, distrattamente, avevo dimenticato di settare nuovamente l’user-agent del mio browser in quello di default. Navigavo in questo modo identificandomi come un bot di Google (leggete questo articolo per conoscere i plugin per Firefox che utilizzo).

Per caso, ho provato a visitare la mia pagina su del.icio.us e la risposta che ho ottenuto è stata la seguente:

Sorry, the page you requested was not found.

Please check the URL for proper spelling and capitalization. If you’re having trouble locating a destination on Yahoo!, try visiting the Yahoo! home page or look through a list of Yahoo!’s online services. Also, you may find what you’re looking for if you try searching below.

Inizialmente, non ricordandomi di aver cambiato user-agent, ho pensato che del.icio.us avesse qualche problema, dopo un pò però ho capito che il problema risiedeva nell’user-agent utilizzato.

A quel punto ho voluto dare uno sguardo al robots.txt utilizzato da del.icio.us (visibile qui) ed ho scoperto che è impostato per negare l’accesso a qualunque spider in tutto il sito:

User-agent: *
Disallow: /

Erroneamente però, è presente anche un’ulteriore riga, che dovrebbe consentire l’accesso agli rss:

Allow: /rss

Un file robots.txt però non indica quali file/directory puoi abilitare (allow) ma solo quelli che puoi disabilitare (disallow), come si può leggere su RobotsTxt.org e se il motore dello spider segue gli standard, difficilmente interpreterà quest’ultima riga.

Al di la dell’aspetto tecnico però, penso che del.icio.us non gradisca gli spider in quanto vuol creare un grandissimo database di documenti ben indicizzati (altro che spider, si tratta di segnalazioni volontarie) con un livello di accuratezza senza dubbio maggiore di quanto uno spider possa fare. Una classificazione (leggasi tag) fatta da persone è ovviamente di maggior valore.

Se da un lato posso capire l’interesse di del.icio.us (ormai sotto il controllo di Yahoo) nel non condividere le sue informazioni in modo da diventare, magari in futuro, un luogo ove cercare qualcosa, dall’altro mi dispiace che Google non vi possa accedere in quanto probabilmente conoscerebbe più facilmente tanti documenti magari poco segnalati nel web. E’ una limitazione a quell’idea di “condivisione della conoscenza” che ha fatto crescere internet e che in fondo ne rappresenta l’anima. Purtroppo, in questo periodo di notevole espansione, dove i grandi motori di ricerca stanno scoprendo come far soldi attraverso i loro servizi, ogni piccola conoscenza in più è considerata un tesoro da proteggere.

Mi chiedo solo se il database di del.icio.us sia accessibile e/o condiviso con il motore di ricerca di Yahoo.

P|xeL

Pubblicato da

Ingegnere. Si divide tra lavoro, bicicletta, monociclo e volontariato. Vive in una casa con un ciliegio insieme ad una moglie, una bimba e otto pesciolini che non lo aiutano a tenere in ordine.

Lascia un commento

I campi richiesti sono marcati con *.


Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.