raatools/

Générateur Robots.txt

Construisez un fichier robots.txt avec un éditeur visuel.

Allow
Disallow
robots.txt
# robots.txt generated by raatools.net

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

Qu'est-ce que robots.txt ?

Robots.txt est un fichier texte placé à la racine d'un site web (example.com/robots.txt) qui indique aux robots d'indexation des moteurs de recherche les pages ou sections qu'ils sont autorisés ou non à explorer. Il fait partie du Robots Exclusion Protocol, une norme volontaire que les robots respectueux (comme Googlebot et Bingbot) suivent pour respecter les préférences d'exploration des propriétaires de sites.

Un fichier robots.txt est composé de règles précisant l'User-agent (à quel robot la règle s'applique) et les directives Disallow ou Allow (quels chemins bloquer ou autoriser). Vous pouvez également indiquer l'emplacement de votre sitemap XML. Bien que robots.txt ne puisse pas empêcher les aspirateurs déterminés d'accéder à votre contenu, tous les principaux moteurs de recherche le respectent.

Syntaxe du fichier robots.txt

  • User-agent: * — s'applique à tous les robots. Utilisez des noms spécifiques comme Googlebot pour cibler des règles précises.
  • Disallow: /admin/ — bloque l'exploration du répertoire /admin/ et de tout ce qu'il contient.
  • Allow: /admin/public/ — outrepasse un Disallow plus large pour autoriser des chemins spécifiques.
  • Sitemap: https://example.com/sitemap.xml — indique aux robots d'exploration où trouver votre sitemap.

Comment utiliser cet outil

Sélectionnez les paramètres souhaités — quels robots cibler, quels répertoires bloquer et s'il faut inclure une référence au sitemap. L'outil génère un fichier robots.txt valide que vous pouvez télécharger ou copier. Il vérifie également les fichiers robots.txt existants à la recherche d'erreurs de syntaxe et de règles conflictuelles.

Cas d'usage courants

Bloquez l'indexation des panneaux d'administration et des pages de connexion. Empêchez l'exploration des contenus dupliqués ou des pages superficielles. Bloquez certains bots (comme les robots d'entraînement d'IA). Empêchez l'indexation des sites de préproduction ou de développement. Masquez les répertoires privés qui ne devraient pas apparaître dans les résultats de recherche. Limitez la fréquence des robots trop agressifs grâce aux directives Crawl-delay.

Questions fréquentes

Le fichier robots.txt protège-t-il le contenu privé ?

Non. Le fichier robots.txt est une recommandation, pas une mesure de sécurité. N'importe quelle personne ou n'importe quel bot peut le consulter et choisir délibérément de l'ignorer. En réalité, les bots malveillants vérifient souvent robots.txt pour repérer les répertoires intéressants à cibler. Pour du contenu réellement privé, utilisez une authentification (mots de passe), des contrôles d'accès côté serveur ou la balise meta noindex.

Que se passe-t-il si je n'ai pas de fichier robots.txt ?

Sans fichier robots.txt, les robots d'indexation supposent qu'ils sont autorisés à accéder à tout votre site. C'est acceptable pour la plupart des sites. Si un robot demande robots.txt et reçoit une réponse 404 (introuvable), il considère cela comme une autorisation à tout explorer. Ne créez un robots.txt que si vous devez restreindre l'exploration de sections particulières.