Generatore Robots.txt
Costruisci un file robots.txt con un editor visuale.
# robots.txt generated by raatools.net User-agent: * Allow: / Disallow: /admin/ Disallow: /private/ Disallow: /api/ Sitemap: https://example.com/sitemap.xml
Cos'รจ il robots.txt?
Il robots.txt รจ un file di testo posizionato alla radice di un sito web (example.com/robots.txt) che indica ai crawler dei motori di ricerca quali pagine o sezioni sono autorizzati o non autorizzati a scansionare. Fa parte del Robots Exclusion Protocol, uno standard volontario che i crawler ben configurati (come Googlebot e Bingbot) seguono per rispettare le preferenze di scansione dei proprietari del sito.
Un file robots.txt consiste di regole che specificano User-agent (a quale crawler si applica la regola) e direttive Disallow o Allow (quali percorsi bloccare o consentire). ร anche possibile specificare la posizione della sitemap XML. Sebbene il robots.txt non possa impedire a scraper determinati di accedere ai contenuti, tutti i principali motori di ricerca lo rispettano.
Sintassi del robots.txt
- User-agent: * โ si applica a tutti i crawler. Usare nomi specifici come Googlebot per regole mirate.
- Disallow: /admin/ โ blocca la scansione della directory /admin/ e di tutto ciรฒ che vi รจ contenuto.
- Allow: /admin/public/ โ sovrascrive un Disallow piรน ampio per consentire percorsi specifici.
- Sitemap: https://example.com/sitemap.xml โ indica ai crawler dove trovare la sitemap.
Come usare questo strumento
Selezionare le impostazioni desiderate โ quali crawler prendere di mira, quali directory bloccare e se includere un riferimento alla sitemap. Lo strumento genera un file robots.txt valido che รจ possibile scaricare o copiare. Valida anche i file robots.txt esistenti per errori di sintassi e regole conflittuali.
Casi d'uso comuni
Bloccare i pannelli di amministrazione e le pagine di login dall'indicizzazione. Impedire la scansione di contenuti duplicati o di pagine scarne. Bloccare bot specifici (come i crawler per l'addestramento di IA). Impedire l'indicizzazione di siti di staging o sviluppo. Nascondere le directory private che non dovrebbero apparire nei risultati di ricerca. Limitare la velocitร di crawler aggressivi con le direttive Crawl-delay.
Domande frequenti
Il robots.txt protegge i contenuti privati?
No. Il robots.txt รจ un suggerimento, non una misura di sicurezza. Qualsiasi persona o bot puรฒ leggere il file robots.txt e ignorarlo deliberatamente. In realtร , i bot malevoli controllano spesso il robots.txt per trovare directory interessanti da prendere di mira. Per contenuti veramente privati, usare l'autenticazione (password), controlli di accesso lato server o il meta tag noindex.
Cosa succede se non ho un file robots.txt?
Senza un file robots.txt, i crawler presumono di poter accedere a tutto nel sito. Questo va bene per la maggior parte dei siti. Se un crawler richiede robots.txt e ottiene un 404 (non trovato), lo interpreta come autorizzazione a scansionare tutto. Creare un robots.txt solo se รจ necessario limitare la scansione di sezioni specifiche.