raatools/

Generatore Robots.txt

Costruisci un file robots.txt con un editor visuale.

Allow
Disallow
robots.txt
# robots.txt generated by raatools.net

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

Cos'รจ il robots.txt?

Il robots.txt รจ un file di testo posizionato alla radice di un sito web (example.com/robots.txt) che indica ai crawler dei motori di ricerca quali pagine o sezioni sono autorizzati o non autorizzati a scansionare. Fa parte del Robots Exclusion Protocol, uno standard volontario che i crawler ben configurati (come Googlebot e Bingbot) seguono per rispettare le preferenze di scansione dei proprietari del sito.

Un file robots.txt consiste di regole che specificano User-agent (a quale crawler si applica la regola) e direttive Disallow o Allow (quali percorsi bloccare o consentire). รˆ anche possibile specificare la posizione della sitemap XML. Sebbene il robots.txt non possa impedire a scraper determinati di accedere ai contenuti, tutti i principali motori di ricerca lo rispettano.

Sintassi del robots.txt

  • User-agent: * โ€” si applica a tutti i crawler. Usare nomi specifici come Googlebot per regole mirate.
  • Disallow: /admin/ โ€” blocca la scansione della directory /admin/ e di tutto ciรฒ che vi รจ contenuto.
  • Allow: /admin/public/ โ€” sovrascrive un Disallow piรน ampio per consentire percorsi specifici.
  • Sitemap: https://example.com/sitemap.xml โ€” indica ai crawler dove trovare la sitemap.

Come usare questo strumento

Selezionare le impostazioni desiderate โ€” quali crawler prendere di mira, quali directory bloccare e se includere un riferimento alla sitemap. Lo strumento genera un file robots.txt valido che รจ possibile scaricare o copiare. Valida anche i file robots.txt esistenti per errori di sintassi e regole conflittuali.

Casi d'uso comuni

Bloccare i pannelli di amministrazione e le pagine di login dall'indicizzazione. Impedire la scansione di contenuti duplicati o di pagine scarne. Bloccare bot specifici (come i crawler per l'addestramento di IA). Impedire l'indicizzazione di siti di staging o sviluppo. Nascondere le directory private che non dovrebbero apparire nei risultati di ricerca. Limitare la velocitร  di crawler aggressivi con le direttive Crawl-delay.

Domande frequenti

Il robots.txt protegge i contenuti privati?

No. Il robots.txt รจ un suggerimento, non una misura di sicurezza. Qualsiasi persona o bot puรฒ leggere il file robots.txt e ignorarlo deliberatamente. In realtร , i bot malevoli controllano spesso il robots.txt per trovare directory interessanti da prendere di mira. Per contenuti veramente privati, usare l'autenticazione (password), controlli di accesso lato server o il meta tag noindex.

Cosa succede se non ho un file robots.txt?

Senza un file robots.txt, i crawler presumono di poter accedere a tutto nel sito. Questo va bene per la maggior parte dei siti. Se un crawler richiede robots.txt e ottiene un 404 (non trovato), lo interpreta come autorizzazione a scansionare tutto. Creare un robots.txt solo se รจ necessario limitare la scansione di sezioni specifiche.