Générateur Robots.txt

Construisez un fichier robots.txt avec un éditeur visuel.

Sitemap URL

Crawl Delay (seconds, 0 = none)

User-agent:

Allow

Disallow

robots.txt

# robots.txt generated by raatools.net

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

Qu'est-ce que robots.txt ?

Robots.txt est un fichier texte placé à la racine d'un site web (example.com/robots.txt) qui indique aux robots d'indexation des moteurs de recherche les pages ou sections qu'ils sont autorisés ou non à explorer. Il fait partie du Robots Exclusion Protocol, une norme volontaire que les robots respectueux (comme Googlebot et Bingbot) suivent pour respecter les préférences d'exploration des propriétaires de sites.

Un fichier robots.txt est composé de règles précisant l'User-agent (à quel robot la règle s'applique) et les directives Disallow ou Allow (quels chemins bloquer ou autoriser). Vous pouvez également indiquer l'emplacement de votre sitemap XML. Bien que robots.txt ne puisse pas empêcher les aspirateurs déterminés d'accéder à votre contenu, tous les principaux moteurs de recherche le respectent.

Syntaxe du fichier robots.txt

User-agent: * — s'applique à tous les robots. Utilisez des noms spécifiques comme Googlebot pour cibler des règles précises.
Disallow: /admin/ — bloque l'exploration du répertoire /admin/ et de tout ce qu'il contient.
Allow: /admin/public/ — outrepasse un Disallow plus large pour autoriser des chemins spécifiques.
Sitemap: https://example.com/sitemap.xml — indique aux robots d'exploration où trouver votre sitemap.

Comment utiliser cet outil

Sélectionnez les paramètres souhaités — quels robots cibler, quels répertoires bloquer et s'il faut inclure une référence au sitemap. L'outil génère un fichier robots.txt valide que vous pouvez télécharger ou copier. Il vérifie également les fichiers robots.txt existants à la recherche d'erreurs de syntaxe et de règles conflictuelles.

Cas d'usage courants

Bloquez l'indexation des panneaux d'administration et des pages de connexion. Empêchez l'exploration des contenus dupliqués ou des pages superficielles. Bloquez certains bots (comme les robots d'entraînement d'IA). Empêchez l'indexation des sites de préproduction ou de développement. Masquez les répertoires privés qui ne devraient pas apparaître dans les résultats de recherche. Limitez la fréquence des robots trop agressifs grâce aux directives Crawl-delay.

Exemple concret

Supposons que vous vouliez que Google indexe tout sauf votre dossier de préproduction et les résultats de recherche interne. Ajoutez un groupe avec User-agent: *, une ligne Allow: / et deux lignes Disallow pour /staging/ et /search. Ajoutez Sitemap: https://example.com/sitemap.xml. Le fichier généré indique à chaque robot qu'il peut parcourir tout le site sauf ces deux préfixes de chemin, et le dirige vers votre sitemap pour une découverte efficace.

Erreurs courantes

Une erreur fréquente consiste à utiliser robots.txt pour cacher des pages sensibles. Disallow empêche seulement l'exploration, pas l'indexation : une URL bloquée peut tout de même apparaître dans les résultats si d'autres sites y renvoient, utilisez donc plutôt une balise meta noindex ou une authentification. Autre piège : bloquer /css/ ou /js/ ; Google a besoin de ces ressources pour afficher et évaluer vos pages. Enfin, la correspondance est sensible à la casse, donc Disallow: /Admin ne bloquera pas /admin.

Questions fréquentes

Le fichier robots.txt protège-t-il le contenu privé ?

Non. Le fichier robots.txt est une recommandation, pas une mesure de sécurité. N'importe quelle personne ou n'importe quel bot peut le consulter et choisir délibérément de l'ignorer. En réalité, les bots malveillants vérifient souvent robots.txt pour repérer les répertoires intéressants à cibler. Pour du contenu réellement privé, utilisez une authentification (mots de passe), des contrôles d'accès côté serveur ou la balise meta noindex.

Que se passe-t-il si je n'ai pas de fichier robots.txt ?

Sans fichier robots.txt, les robots d'indexation supposent qu'ils sont autorisés à accéder à tout votre site. C'est acceptable pour la plupart des sites. Si un robot demande robots.txt et reçoit une réponse 404 (introuvable), il considère cela comme une autorisation à tout explorer. Ne créez un robots.txt que si vous devez restreindre l'exploration de sections particulières.

Le fichier robots.txt garantit-il qu'une page reste hors de Google ?

Non. Il demande seulement aux robots respectueux de ne pas récupérer l'URL. Pour tenir une page hors des résultats de manière fiable, autorisez l'exploration et ajoutez une directive noindex, ou protégez-la derrière une connexion. Les robots malveillants ignorent totalement robots.txt.