Generador de Robots.txt
Construye un archivo robots.txt con un editor visual.
# robots.txt generated by raatools.net User-agent: * Allow: / Disallow: /admin/ Disallow: /private/ Disallow: /api/ Sitemap: https://example.com/sitemap.xml
¿Qué es robots.txt?
robots.txt es un archivo de texto plano colocado en la raíz de tu sitio web (example.com/robots.txt) que indica a los rastreadores web (bots de motores de búsqueda) qué páginas o secciones pueden o no acceder. Es el primer archivo que los bots como Googlebot solicitan al visitar un sitio. Aunque opcional, robots.txt es una herramienta importante de SEO técnico y gestión del servidor.
El archivo usa una sintaxis simple: User-agent identifica el bot, y las directivas Allow/Disallow especifican rutas accesibles o bloqueadas. También puedes especificar la ubicación del sitemap XML para ayudar a los buscadores a descubrir todas tus páginas. Los bots respetuosos siguen las reglas; sin embargo, robots.txt no es seguridad: para proteger contenido realmente, usa autenticación.
Sintaxis de robots.txt
- User-agent: * — se aplica a todos los rastreadores. Usa nombres específicos como Googlebot para reglas dirigidas.
- Disallow: /admin/ — bloquea el rastreo del directorio /admin/ y todo lo que contenga.
- Allow: /admin/public/ — anula un Disallow más amplio para permitir rutas específicas.
- Sitemap: https://example.com/sitemap.xml — indica a los rastreadores dónde encontrar tu sitemap.
Cómo usar esta herramienta
Selecciona los bots que quieres permitir o bloquear, especifica los directorios a permitir o no, añade la URL de tu sitemap. La herramienta genera el archivo robots.txt al instante. Cópialo y guárdalo como robots.txt en la raíz de tu sitio web. La herramienta también valida la sintaxis y muestra cómo lo interpretarán los bots.
Casos de uso comunes
Bloquear paneles de administración y páginas de inicio de sesión de la indexación. Evitar el rastreo de contenido duplicado o páginas escasas. Bloquear bots específicos (como rastreadores de entrenamiento de IA). Evitar la indexación de sitios de staging o desarrollo (aunque la autenticación es más fiable). Apuntar a los sitemaps para mejorar el descubrimiento. Restringir el rastreo de directorios pesados que no aportan valor SEO.
Preguntas frecuentes
¿Es robots.txt una protección de seguridad real?
robots.txt es un protocolo voluntario; los bots bien comportados (Google, Bing, etc.) lo respetan, pero los maliciosos pueden ignorarlo. Para protección real, usa autenticación, cabeceras HTTP o controles de acceso a nivel de servidor. robots.txt evita la indexación, no el acceso. Cualquiera con la URL puede aún acceder al contenido.
¿Cuál es la diferencia entre robots.txt y la meta etiqueta robots?
robots.txt indica a los bots qué páginas pueden o no rastrear. La meta etiqueta robots o las cabeceras HTTP X-Robots-Tag controlan si las páginas rastreadas se indexan. Una página puede ser rastreable pero no indexable, o viceversa. Para evitar que aparezca en los resultados de búsqueda, usa noindex en lugar de bloquear con robots.txt: si está bloqueada, Google no puede ver la directiva noindex.