Generador de Robots.txt

Construye un archivo robots.txt con un editor visual.

Sitemap URL

Crawl Delay (seconds, 0 = none)

User-agent:

Allow

Disallow

robots.txt

# robots.txt generated by raatools.net

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

¿Qué es robots.txt?

robots.txt es un archivo de texto plano colocado en la raíz de tu sitio web (example.com/robots.txt) que indica a los rastreadores web (bots de motores de búsqueda) qué páginas o secciones pueden o no acceder. Es el primer archivo que los bots como Googlebot solicitan al visitar un sitio. Aunque opcional, robots.txt es una herramienta importante de SEO técnico y gestión del servidor.

El archivo usa una sintaxis simple: User-agent identifica el bot, y las directivas Allow/Disallow especifican rutas accesibles o bloqueadas. También puedes especificar la ubicación del sitemap XML para ayudar a los buscadores a descubrir todas tus páginas. Los bots respetuosos siguen las reglas; sin embargo, robots.txt no es seguridad: para proteger contenido realmente, usa autenticación.

Sintaxis de robots.txt

User-agent: * — se aplica a todos los rastreadores. Usa nombres específicos como Googlebot para reglas dirigidas.
Disallow: /admin/ — bloquea el rastreo del directorio /admin/ y todo lo que contenga.
Allow: /admin/public/ — anula un Disallow más amplio para permitir rutas específicas.
Sitemap: https://example.com/sitemap.xml — indica a los rastreadores dónde encontrar tu sitemap.

Cómo usar esta herramienta

Selecciona los bots que quieres permitir o bloquear, especifica los directorios a permitir o no, añade la URL de tu sitemap. La herramienta genera el archivo robots.txt al instante. Cópialo y guárdalo como robots.txt en la raíz de tu sitio web. La herramienta también valida la sintaxis y muestra cómo lo interpretarán los bots.

Casos de uso comunes

Bloquear paneles de administración y páginas de inicio de sesión de la indexación. Evitar el rastreo de contenido duplicado o páginas escasas. Bloquear bots específicos (como rastreadores de entrenamiento de IA). Evitar la indexación de sitios de staging o desarrollo (aunque la autenticación es más fiable). Apuntar a los sitemaps para mejorar el descubrimiento. Restringir el rastreo de directorios pesados que no aportan valor SEO.

Ejemplo práctico

Supón que quieres que Google indexe todo excepto tu carpeta de pruebas y los resultados de búsqueda interna. Añade un grupo con User-agent: *, una línea Allow: / y dos líneas Disallow para /staging/ y /search. Agrega Sitemap: https://example.com/sitemap.xml. El archivo generado indica a cada rastreador que puede recorrer todo el sitio salvo esos dos prefijos de ruta, y lo dirige a tu sitemap para un descubrimiento eficiente.

Errores comunes

Un error frecuente es usar robots.txt para ocultar páginas sensibles. Disallow solo impide el rastreo, no la indexación: una URL bloqueada puede aparecer en los resultados si otros sitios la enlazan, así que usa una etiqueta meta noindex o autenticación en su lugar. Otra trampa es bloquear /css/ o /js/; Google necesita esos recursos para renderizar y evaluar tus páginas. Además, la coincidencia distingue mayúsculas, por lo que Disallow: /Admin no bloqueará /admin.

Preguntas frecuentes

¿Es robots.txt una protección de seguridad real?

robots.txt es un protocolo voluntario; los bots bien comportados (Google, Bing, etc.) lo respetan, pero los maliciosos pueden ignorarlo. Para protección real, usa autenticación, cabeceras HTTP o controles de acceso a nivel de servidor. robots.txt evita la indexación, no el acceso. Cualquiera con la URL puede aún acceder al contenido.

¿Cuál es la diferencia entre robots.txt y la meta etiqueta robots?

robots.txt indica a los bots qué páginas pueden o no rastrear. La meta etiqueta robots o las cabeceras HTTP X-Robots-Tag controlan si las páginas rastreadas se indexan. Una página puede ser rastreable pero no indexable, o viceversa. Para evitar que aparezca en los resultados de búsqueda, usa noindex en lugar de bloquear con robots.txt: si está bloqueada, Google no puede ver la directiva noindex.

¿Garantiza robots.txt que una página no aparezca en Google?

No. Solo pide a los rastreadores que la respetan que omitan la URL. Para mantener una página fuera de los resultados de forma fiable, permite el rastreo y añade una directiva noindex, o protégela tras un inicio de sesión. Los bots maliciosos ignoran robots.txt por completo.