Générateur robots.txt
Configurez la visibilité de votre site pour les moteurs de recherche et les IA. GPTBot, Claude, Perplexity... tous les crawlers 2026 inclus.
Configurations prédéfinies
7 crawlers IA peuvent accéder à votre site
Un chemin par ligne. Ex: /admin/, /private/
# robots.txt généré par IndHack.com# https://indhack.com/outils/generateur-robots-txt# Règle par défautUser-agent: *Allow: /Disallow: /admin/Disallow: /private/# Crawlers bloquésUser-agent: Google-ExtendedDisallow: /User-agent: BytespiderDisallow: /User-agent: CCBotDisallow: /User-agent: Applebot-ExtendedDisallow: /User-agent: cohere-aiDisallow: /Comment utiliser ce fichier ?
- 1. Téléchargez ou copiez le fichier
- 2. Placez-le à la racine de votre site
- 3. Vérifiez :
votresite.com/robots.txt
Le robots.txt est une directive, pas une protection. Les bots malveillants l'ignorent.
Comprendre les crawlers IA en 2026
En 2026, votre fichier robots.txt ne gère plus seulement Googlebot. Une dizaine de crawlers IA parcourent le web pour alimenter ChatGPT, Gemini, Perplexity et d'autres. Pour vérifier si ces crawlers accèdent déjà à votre site, utilisez notre testeur de visibilité IA.
La bonne stratégie dépend de vos objectifs : voulez-vous être cité par les IA (excellent pour la visibilité) ou protéger votre contenu de l'entraînement des modèles ? Cette configuration fait partie d'une stratégie SEO complète.
| Crawler | Éditeur | Usage | Recommandation |
|---|---|---|---|
| GPTBot | OpenAI | Entraînement des modèles | À bloquer si protection souhaitée |
| ChatGPT-User | OpenAI | Navigation temps réel | Autoriser pour être cité |
| Claude-Web | Anthropic | Navigation Claude | Autoriser |
| PerplexityBot | Perplexity | Moteur de recherche IA | Autoriser |
| Google-Extended | Entraînement Gemini | À bloquer si protection souhaitée |
Ma recommandation : Autorisez les crawlers de navigation (ChatGPT-User, Claude-Web, PerplexityBot) pour être cité dans les réponses. Bloquez les crawlers d'entraînement (GPTBot, Google-Extended) si vous souhaitez protéger votre contenu original.
Questions Fréquentes
Qu'est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots (crawlers) des moteurs de recherche et des IA quelles parties de votre site ils peuvent ou ne peuvent pas explorer. C'est un standard du web depuis 1994.
Quels sont les crawlers IA à connaître en 2026 ?
Les principaux crawlers IA sont : GPTBot (OpenAI pour l'entraînement), ChatGPT-User (navigation temps réel), Claude-Web (Anthropic), PerplexityBot (Perplexity AI), Google-Extended (entraînement Gemini), et Bytespider (ByteDance/TikTok). Chacun a un comportement différent.
Dois-je bloquer les crawlers IA ?
Cela dépend de votre stratégie. Bloquer GPTBot empêche l'utilisation de votre contenu pour entraîner les modèles, mais ne vous rend pas invisible dans ChatGPT (qui utilise ChatGPT-User pour la navigation). La configuration 'Recommandée' équilibre visibilité et protection.
Le robots.txt protège-t-il vraiment mon contenu ?
Non, le robots.txt est une directive, pas une protection. Les bots bien intentionnés (Google, OpenAI) le respectent, mais les scrapers malveillants l'ignorent. Pour une vraie protection, utilisez des solutions techniques : authentification, WAF, rate limiting.
Où placer le fichier robots.txt ?
Le fichier robots.txt doit être placé à la racine de votre domaine, accessible via votresite.com/robots.txt. Il doit être nommé exactement 'robots.txt' (minuscules). Sur WordPress, vous pouvez le gérer via Yoast SEO ou un plugin dédié.
Besoin d'une stratégie GEO complète ?
Le robots.txt est la première étape. Je vous accompagne pour apparaître dans les réponses de ChatGPT et Perplexity.
Demander un audit GEO