Generatore Robots.txt

Costruisci un file robots.txt con un editor visuale.

Sitemap URL

Crawl Delay (seconds, 0 = none)

User-agent:

Allow

Disallow

robots.txt

# robots.txt generated by raatools.net

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

Cos'è il robots.txt?

Il robots.txt è un file di testo posizionato alla radice di un sito web (example.com/robots.txt) che indica ai crawler dei motori di ricerca quali pagine o sezioni sono autorizzati o non autorizzati a scansionare. Fa parte del Robots Exclusion Protocol, uno standard volontario che i crawler ben configurati (come Googlebot e Bingbot) seguono per rispettare le preferenze di scansione dei proprietari del sito.

Un file robots.txt consiste di regole che specificano User-agent (a quale crawler si applica la regola) e direttive Disallow o Allow (quali percorsi bloccare o consentire). È anche possibile specificare la posizione della sitemap XML. Sebbene il robots.txt non possa impedire a scraper determinati di accedere ai contenuti, tutti i principali motori di ricerca lo rispettano.

Sintassi del robots.txt

User-agent: * — si applica a tutti i crawler. Usare nomi specifici come Googlebot per regole mirate.
Disallow: /admin/ — blocca la scansione della directory /admin/ e di tutto ciò che vi è contenuto.
Allow: /admin/public/ — sovrascrive un Disallow più ampio per consentire percorsi specifici.
Sitemap: https://example.com/sitemap.xml — indica ai crawler dove trovare la sitemap.

Come usare questo strumento

Selezionare le impostazioni desiderate — quali crawler prendere di mira, quali directory bloccare e se includere un riferimento alla sitemap. Lo strumento genera un file robots.txt valido che è possibile scaricare o copiare. Valida anche i file robots.txt esistenti per errori di sintassi e regole conflittuali.

Casi d'uso comuni

Bloccare i pannelli di amministrazione e le pagine di login dall'indicizzazione. Impedire la scansione di contenuti duplicati o di pagine scarne. Bloccare bot specifici (come i crawler per l'addestramento di IA). Impedire l'indicizzazione di siti di staging o sviluppo. Nascondere le directory private che non dovrebbero apparire nei risultati di ricerca. Limitare la velocità di crawler aggressivi con le direttive Crawl-delay.

Domande frequenti

Il robots.txt protegge i contenuti privati?

No. Il robots.txt è un suggerimento, non una misura di sicurezza. Qualsiasi persona o bot può leggere il file robots.txt e ignorarlo deliberatamente. In realtà, i bot malevoli controllano spesso il robots.txt per trovare directory interessanti da prendere di mira. Per contenuti veramente privati, usare l'autenticazione (password), controlli di accesso lato server o il meta tag noindex.

Cosa succede se non ho un file robots.txt?

Senza un file robots.txt, i crawler presumono di poter accedere a tutto nel sito. Questo va bene per la maggior parte dei siti. Se un crawler richiede robots.txt e ottiene un 404 (non trovato), lo interpreta come autorizzazione a scansionare tutto. Creare un robots.txt solo se è necessario limitare la scansione di sezioni specifiche.