Gerador de Robots.txt
Construa um arquivo robots.txt com um editor visual.
# robots.txt generated by raatools.net User-agent: * Allow: / Disallow: /admin/ Disallow: /private/ Disallow: /api/ Sitemap: https://example.com/sitemap.xml
O que é o robots.txt?
O robots.txt é um ficheiro de texto colocado na raiz de um website (example.com/robots.txt) que indica aos rastreadores de motores de busca quais as páginas ou secções que estão autorizados ou não a rastrear. Faz parte do Robots Exclusion Protocol, uma norma voluntária que os rastreadores bem comportados (como o Googlebot e o Bingbot) seguem para respeitar as preferências de rastreamento dos proprietários de websites.
Um ficheiro robots.txt é composto por regras que especificam o User-agent (a qual rastreador a regra se aplica) e diretivas Disallow ou Allow (quais os caminhos a bloquear ou permitir). Também pode especificar a localização do seu sitemap XML. Embora o robots.txt não possa impedir scrapers determinados de aceder ao seu conteúdo, todos os principais motores de busca o respeitam.
Sintaxe do robots.txt
- User-agent: * — aplica-se a todos os rastreadores. Use nomes específicos como Googlebot para regras direcionadas.
- Disallow: /admin/ — bloqueia o rastreamento do diretório /admin/ e de tudo o que está dentro.
- Allow: /admin/public/ — substitui um Disallow mais amplo para permitir caminhos específicos.
- Sitemap: https://example.com/sitemap.xml — indica aos rastreadores onde encontrar o sitemap.
Como utilizar esta ferramenta
Selecione as definições desejadas — quais os rastreadores a visar, quais os diretórios a bloquear e se deve incluir uma referência ao sitemap. A ferramenta gera um ficheiro robots.txt válido que pode transferir ou copiar. Também valida ficheiros robots.txt existentes quanto a erros de sintaxe e regras conflituosas.
Casos de uso comuns
Bloquear painéis de administração e páginas de login da indexação. Impedir o rastreamento de conteúdo duplicado ou páginas com pouco conteúdo. Bloquear robots específicos (como rastreadores de treino de IA). Impedir a indexação de sites de staging ou desenvolvimento. Ocultar diretórios privados que não devem aparecer nos resultados de pesquisa. Limitar a taxa de rastreadores agressivos com diretivas Crawl-delay.
Perguntas frequentes
O robots.txt protege conteúdo privado?
Não. O robots.txt é uma sugestão, não uma medida de segurança. Qualquer pessoa ou robot pode ler o seu ficheiro robots.txt e ignorá-lo deliberadamente. Na verdade, os robots maliciosos verificam frequentemente o robots.txt para encontrar diretórios interessantes a atacar. Para conteúdo verdadeiramente privado, use autenticação (palavras-passe), controlos de acesso do lado do servidor, ou a meta tag noindex.
O que acontece se não tiver um ficheiro robots.txt?
Sem um ficheiro robots.txt, os rastreadores assumem que têm permissão para aceder a tudo no seu site. Isto é adequado para a maioria dos sites. Se um rastreador solicitar robots.txt e obtiver um 404 (não encontrado), trata isto como permissão para rastrear tudo. Só crie um robots.txt se precisar de restringir o rastreamento de secções específicas.