Web e pc
sezione di
www.softwareparadiso.it
software, servizi, informazioni sull'edilizia e la casa
 
Robots.txt: come bloccare una cartella alla scansione del motore di ricerca
Google
 
Web
www.softwareparadiso.it
Il problema
Chi gestisci un sito web sa che, certe volte, ci sono dei dati che non si vogliono far visualizzare ai naviganti. Oppure in essi ci sono delle informazioni che devono rimanere nascoste. Possono essere anche delle intere cartelle che contengano, per esempio, lunghi documenti da salvaguardare ma che possono essere raggiunti tramite appositi software gestiti dallo stesso webmaster. Insomma come procedere per evitare che il bot dei motori di ricerca scandagli una parte del nostro sito, per qualunque motivo.
Naturalmente si può usare questo sistema anche per inviare dati a chi sa dove cercare.
Occorre caricare sullo spazio destinato al sito stesso un particolare file di testo che si chiamerà robots.
 
Come costruire un file robots.txt
Basta un qualsiasi editor di testo, per esempio blocco note, in cui scrivere poche righe di codice che servano a indicare ai motori di ricerca di non far vedere il contenuto di determinati altri file.

Un file robots.txt consiste di queste due regole:

  • User-agent: che corrisponde al robot al quale si deve applicare la regola successiva
  • Disallow: l'URL che si desidera bloccare
Ed ecco un esempio:
User-agent: *
Disallow: /cartella_da bloccare/

User-Agent: Googlebot
Disallow: /cartella_da_bloccare/
Nel primo caso si dice di bloccare a tutti i bot, nel secondo soltanto a Googlebot, ossia allo spider che usa Google per trovare le pagine sulla rete.
L'utilità del file robots, (da caricare sullo spazio web, nella cartella principale del sito, dove c'è anche il file index, per capirci), consiste nel nascondere non soltanto una certa cartella dentro la quale qualcuno potrebbe curiosare, (e ci può riuscire se sa che cosa potrebbe contenere e provando a indovinare i relativi nomi dei file), ma proprio per inserire una seconda altra cartella dentro la prima che, naturalmente, non apparirà nemmeno nella visualizzazione del solo file robots.
Difatti ognuno potrebbe, in rete, digitare il nome del file robots facendolo precedere dall'indirizzo del dato sito. Ma vedrebbe soltanto ciò che abbiamo indicato come codice, le due righe, per esempio, e a nulla varrebbe cercare di introdursi nella cartella indicata se in essa, come abbiamo detto, ce ne fossero di altre che non appaiono nel proprio nome.
Questo metodo nasconde definitivamente ogni cartella compresa in quella che abbiamo indicato nel file robots, ossia cartella_da_bloccare (o come la chiameremo, nel caso). Cioè, se carichiamo nel sito una cartella dentro un'altra che abbiamo disabilitato ai motori di ricerca, sappiamo con certezza che i dati di questa seconda cartella non saranno visti da nessuno. Sempre che si scelga un nome non facile da individuare: basta chiamarla wx67h91 o qualcosa di simile.
 
Torna all'indice della sezione di web e pc per visualizzare altre importanti pagine relative alla tua ricerca.