Guida Completa a robots.txt: Cos'è, Come Funziona e Come Configurarlo

Guida Completa al file robots.txt Cos’è, a cosa serve e come configurarlo al meglio

Il file robots.txt è uno degli strumenti più importanti, ma spesso sottovalutati, nella gestione SEO e tecnica di un sito web. In questa guida completa, esploreremo ogni aspetto del file robots.txt, spiegando il suo funzionamento, la sintassi, gli usi corretti e le migliori pratiche per configurarlo correttamente.

Cos’è il file robots.txt?

Il file robots.txt è un file di testo semplice posizionato nella directory principale (root) di un sito web. Serve a comunicare ai motori di ricerca (come Google, Bing, Yahoo) quali pagine o sezioni del sito possono o non possono essere scansionate dai loro crawler.
Percorso classico: https://tuodominio.com/robots.txt

Perché è importante?

Controllo sulla privacy: puoi impedire l’indicizzazione di aree riservate o di amministrazione.
Ottimizzazione del crawl budget: eviti che i crawler perdano tempo su contenuti irrilevanti.
Protezione da errori SEO: puoi evitare che contenuti duplicati o di bassa qualità vengano indicizzati.

Come funziona?

I crawler leggono il file robots.txt prima di iniziare la scansione del sito. In base alle istruzioni contenute, decidono quali URL visitare e quali ignorare.

⚠️ Importante: il file robots.txt non impedisce l’accesso ai contenuti, solo dice ai crawler di non visitarli. Per impedire l’accesso reale, usa l’autenticazione o restrizioni lato server.

Sintassi base del file robots.txt

Un file robots.txt è composto da uno o più blocchi di istruzioni, ognuno riferito a uno specifico “user-agent” (cioè un bot).

User-agent: *
Disallow: /cartella-privata/
Allow: /cartella-privata/immagine-permessa.jpg

Le istruzioni più comuni:

User-agent: definisce a quale crawler si applicano le regole.
Disallow: blocca l’accesso a una directory o pagina.
Allow: permette l’accesso, anche se una directory più generale è bloccata.
Sitemap: indica l’URL della sitemap XML del sito.

Esempio completo:

User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /admin/logo.png
Sitemap: https://tuodominio.com/sitemap.xml

User-Agent: cosa significa?

Il campo User-agent identifica il crawler a cui si applicano le istruzioni. Alcuni esempi:

Googlebot: crawler di Google
Bingbot: crawler di Bing
*: tutti i crawler

Puoi scrivere regole specifiche per ciascun bot:

User-agent: Googlebot
Disallow: /no-google/

User-agent: Bingbot
Disallow: /no-bing/

Disallow e Allow: istruzioni fondamentali

`Disallow:`

Blocca una directory o un file:

Disallow: /cartella/
Disallow: /pagina.html

`Allow:`

Consente l’accesso a contenuti specifici all’interno di una directory bloccata:

Allow: /cartella/file-permesso.jpg

Le istruzioni Allow sono utili soprattutto con Googlebot, che le riconosce perfettamente.

Sitemap: un’aggiunta molto utile

Indicare la sitemap XML nel file robots.txt aiuta i motori a scoprire meglio le pagine del sito.

Sitemap: https://tuodominio.com/sitemap.xml

Limitazioni del file robots.txt

Non protegge i contenuti sensibili: i file bloccati possono comunque essere accessibili se si conosce l’URL.
Non impedisce l’indicizzazione tramite link esterni.
Alcuni bot maligni ignorano le istruzioni del file.

Per proteggere davvero i dati sensibili, usa l’autenticazione server, htaccess, o file .htpasswd.

Dove caricare il file robots.txt?

Deve essere posizionato nella root del dominio:

CORRETTO: https://tuosito.com/robots.txt
SBAGLIATO: https://tuosito.com/cartella/robots.txt

Come testare il tuo robots.txt?

Puoi usare lo strumento di Google Search Console:

Vai su: Strumenti > Controllo file robots.txt
Oppure direttamente da: https://search.google.com/test/robots

Buone pratiche da seguire

Non bloccare per errore tutto il sito:Disallow: /Bloccherebbe l’intero sito!
Non usare per nascondere dati sensibili: i file sono comunque accessibili.
Aggiungi la sitemap: aiuta la scansione e l’indicizzazione.
Aggiorna il file quando cambi struttura: non lasciare istruzioni obsolete.

Chi padroneggia il file robots.txt padroneggia la porta d’ingresso del proprio sito: ora che conosci tutte le chiavi, usale con saggezza per guidare i motori di ricerca dove vuoi tu.