Il file robots.txt
è uno degli strumenti più importanti, ma spesso sottovalutati, nella gestione SEO e tecnica di un sito web. In questa guida completa, esploreremo ogni aspetto del file robots.txt, spiegando il suo funzionamento, la sintassi, gli usi corretti e le migliori pratiche per configurarlo correttamente.
Cos’è il file robots.txt?
Il file robots.txt
è un file di testo semplice posizionato nella directory principale (root) di un sito web. Serve a comunicare ai motori di ricerca (come Google, Bing, Yahoo) quali pagine o sezioni del sito possono o non possono essere scansionate dai loro crawler.
Percorso classico: https://tuodominio.com/robots.txt
Perché è importante?
- Controllo sulla privacy: puoi impedire l’indicizzazione di aree riservate o di amministrazione.
- Ottimizzazione del crawl budget: eviti che i crawler perdano tempo su contenuti irrilevanti.
- Protezione da errori SEO: puoi evitare che contenuti duplicati o di bassa qualità vengano indicizzati.
Come funziona?
I crawler leggono il file robots.txt prima di iniziare la scansione del sito. In base alle istruzioni contenute, decidono quali URL visitare e quali ignorare.
⚠️ Importante: il file
robots.txt
non impedisce l’accesso ai contenuti, solo dice ai crawler di non visitarli. Per impedire l’accesso reale, usa l’autenticazione o restrizioni lato server.
Sintassi base del file robots.txt
Un file robots.txt è composto da uno o più blocchi di istruzioni, ognuno riferito a uno specifico “user-agent” (cioè un bot).
User-agent: *
Disallow: /cartella-privata/
Allow: /cartella-privata/immagine-permessa.jpg
Le istruzioni più comuni:
User-agent
: definisce a quale crawler si applicano le regole.Disallow
: blocca l’accesso a una directory o pagina.Allow
: permette l’accesso, anche se una directory più generale è bloccata.Sitemap
: indica l’URL della sitemap XML del sito.
Esempio completo:
User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /admin/logo.png
Sitemap: https://tuodominio.com/sitemap.xml
User-Agent: cosa significa?
Il campo User-agent
identifica il crawler a cui si applicano le istruzioni. Alcuni esempi:
Googlebot
: crawler di GoogleBingbot
: crawler di Bing*
: tutti i crawler
Puoi scrivere regole specifiche per ciascun bot:
User-agent: Googlebot
Disallow: /no-google/
User-agent: Bingbot
Disallow: /no-bing/
Disallow e Allow: istruzioni fondamentali
Disallow:
Blocca una directory o un file:
Disallow: /cartella/
Disallow: /pagina.html
Allow:
Consente l’accesso a contenuti specifici all’interno di una directory bloccata:
Allow: /cartella/file-permesso.jpg
Le istruzioni
Allow
sono utili soprattutto con Googlebot, che le riconosce perfettamente.
Sitemap: un’aggiunta molto utile
Indicare la sitemap XML nel file robots.txt aiuta i motori a scoprire meglio le pagine del sito.
Sitemap: https://tuodominio.com/sitemap.xml
Limitazioni del file robots.txt
- Non protegge i contenuti sensibili: i file bloccati possono comunque essere accessibili se si conosce l’URL.
- Non impedisce l’indicizzazione tramite link esterni.
- Alcuni bot maligni ignorano le istruzioni del file.
Per proteggere davvero i dati sensibili, usa l’autenticazione server, htaccess, o file .htpasswd
.
Dove caricare il file robots.txt?
Deve essere posizionato nella root del dominio:
CORRETTO: https://tuosito.com/robots.txt
SBAGLIATO: https://tuosito.com/cartella/robots.txt
Come testare il tuo robots.txt?
Puoi usare lo strumento di Google Search Console:
- Vai su: Strumenti > Controllo file robots.txt
- Oppure direttamente da: https://search.google.com/test/robots
Buone pratiche da seguire
- Non bloccare per errore tutto il sito:
Disallow: /
Bloccherebbe l’intero sito! - Non usare per nascondere dati sensibili: i file sono comunque accessibili.
- Aggiungi la sitemap: aiuta la scansione e l’indicizzazione.
- Aggiorna il file quando cambi struttura: non lasciare istruzioni obsolete.
Chi padroneggia il file robots.txt
padroneggia la porta d’ingresso del proprio sito: ora che conosci tutte le chiavi, usale con saggezza per guidare i motori di ricerca dove vuoi tu.