Guida Completa al file robots.txt Cos’è, a cosa serve e come configurarlo al meglio

Il file robots.txt è uno degli strumenti più importanti, ma spesso sottovalutati, nella gestione SEO e tecnica di un sito web. In questa guida completa, esploreremo ogni aspetto del file robots.txt, spiegando il suo funzionamento, la sintassi, gli usi corretti e le migliori pratiche per configurarlo correttamente.


Cos’è il file robots.txt?

Il file robots.txt è un file di testo semplice posizionato nella directory principale (root) di un sito web. Serve a comunicare ai motori di ricerca (come Google, Bing, Yahoo) quali pagine o sezioni del sito possono o non possono essere scansionate dai loro crawler.

Percorso classico: https://tuodominio.com/robots.txt


Perché è importante?

  • Controllo sulla privacy: puoi impedire l’indicizzazione di aree riservate o di amministrazione.
  • Ottimizzazione del crawl budget: eviti che i crawler perdano tempo su contenuti irrilevanti.
  • Protezione da errori SEO: puoi evitare che contenuti duplicati o di bassa qualità vengano indicizzati.

Come funziona?

I crawler leggono il file robots.txt prima di iniziare la scansione del sito. In base alle istruzioni contenute, decidono quali URL visitare e quali ignorare.

⚠️ Importante: il file robots.txt non impedisce l’accesso ai contenuti, solo dice ai crawler di non visitarli. Per impedire l’accesso reale, usa l’autenticazione o restrizioni lato server.


Sintassi base del file robots.txt

Un file robots.txt è composto da uno o più blocchi di istruzioni, ognuno riferito a uno specifico “user-agent” (cioè un bot).

User-agent: *
Disallow: /cartella-privata/
Allow: /cartella-privata/immagine-permessa.jpg

Le istruzioni più comuni:

  • User-agent: definisce a quale crawler si applicano le regole.
  • Disallow: blocca l’accesso a una directory o pagina.
  • Allow: permette l’accesso, anche se una directory più generale è bloccata.
  • Sitemap: indica l’URL della sitemap XML del sito.

Esempio completo:

User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /admin/logo.png
Sitemap: https://tuodominio.com/sitemap.xml

User-Agent: cosa significa?

Il campo User-agent identifica il crawler a cui si applicano le istruzioni. Alcuni esempi:

  • Googlebot: crawler di Google
  • Bingbot: crawler di Bing
  • *: tutti i crawler

Puoi scrivere regole specifiche per ciascun bot:

User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/

Disallow e Allow: istruzioni fondamentali

Disallow:

Blocca una directory o un file:

Disallow: /cartella/
Disallow: /pagina.html

Allow:

Consente l’accesso a contenuti specifici all’interno di una directory bloccata:

Allow: /cartella/file-permesso.jpg

Le istruzioni Allow sono utili soprattutto con Googlebot, che le riconosce perfettamente.


Sitemap: un’aggiunta molto utile

Indicare la sitemap XML nel file robots.txt aiuta i motori a scoprire meglio le pagine del sito.

Sitemap: https://tuodominio.com/sitemap.xml

Limitazioni del file robots.txt

  • Non protegge i contenuti sensibili: i file bloccati possono comunque essere accessibili se si conosce l’URL.
  • Non impedisce l’indicizzazione tramite link esterni.
  • Alcuni bot maligni ignorano le istruzioni del file.

Per proteggere davvero i dati sensibili, usa l’autenticazione server, htaccess, o file .htpasswd.


Dove caricare il file robots.txt?

Deve essere posizionato nella root del dominio:

CORRETTO: https://tuosito.com/robots.txt
SBAGLIATO: https://tuosito.com/cartella/robots.txt

Come testare il tuo robots.txt?

Puoi usare lo strumento di Google Search Console:


Buone pratiche da seguire

  1. Non bloccare per errore tutto il sito:Disallow: /Bloccherebbe l’intero sito!
  2. Non usare per nascondere dati sensibili: i file sono comunque accessibili.
  3. Aggiungi la sitemap: aiuta la scansione e l’indicizzazione.
  4. Aggiorna il file quando cambi struttura: non lasciare istruzioni obsolete.

Chi padroneggia il file robots.txt padroneggia la porta d’ingresso del proprio sito: ora che conosci tutte le chiavi, usale con saggezza per guidare i motori di ricerca dove vuoi tu.