IndHack
06 61 13 97 48
Inclut les 12 crawlers IA de 2026

Générateur robots.txt

Configurez la visibilité de votre site pour les moteurs de recherche et les IA. GPTBot, Claude, Perplexity... tous les crawlers 2026 inclus.

12crawlers IA
4configs prêtes
100%gratuit

Configurations prédéfinies

Visibilité IA
7/12

7 crawlers IA peuvent accéder à votre site

GPTBot
OpenAI - Entraînement des modèles GPT
ChatGPT-User
OpenAI - Navigation temps réel ChatGPT
OAI-SearchBot
OpenAI - Recherche web ChatGPT
Claude-Web
Anthropic - Crawler de Claude AI
PerplexityBot
Perplexity AI - Recherche augmentée
Google-Extended
Google - Entraînement Gemini/Bard
Bytespider
ByteDance - TikTok/Doubao AI
CCBot
Common Crawl - Dataset public IA
Applebot-Extended
Apple - Entraînement Apple Intelligence
Amazonbot
Amazon - Alexa et services AWS
anthropic-ai
Anthropic - Crawler alternatif Claude
cohere-ai
Cohere - Entraînement modèles IA

Un chemin par ligne. Ex: /admin/, /private/

robots.txt
# robots.txt généré par IndHack.com
# https://indhack.com/outils/generateur-robots-txt
# Règle par défaut
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
# Crawlers bloqués
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: cohere-ai
Disallow: /

Comment utiliser ce fichier ?

  1. 1. Téléchargez ou copiez le fichier
  2. 2. Placez-le à la racine de votre site
  3. 3. Vérifiez : votresite.com/robots.txt

Le robots.txt est une directive, pas une protection. Les bots malveillants l'ignorent.

Guide

Comprendre les crawlers IA en 2026

En 2026, votre fichier robots.txt ne gère plus seulement Googlebot. Une dizaine de crawlers IA parcourent le web pour alimenter ChatGPT, Gemini, Perplexity et d'autres. Pour vérifier si ces crawlers accèdent déjà à votre site, utilisez notre testeur de visibilité IA.

La bonne stratégie dépend de vos objectifs : voulez-vous être cité par les IA (excellent pour la visibilité) ou protéger votre contenu de l'entraînement des modèles ? Cette configuration fait partie d'une stratégie SEO complète.

CrawlerÉditeurUsageRecommandation
GPTBotOpenAIEntraînement des modèlesÀ bloquer si protection souhaitée
ChatGPT-UserOpenAINavigation temps réelAutoriser pour être cité
Claude-WebAnthropicNavigation ClaudeAutoriser
PerplexityBotPerplexityMoteur de recherche IAAutoriser
Google-ExtendedGoogleEntraînement GeminiÀ bloquer si protection souhaitée

Ma recommandation : Autorisez les crawlers de navigation (ChatGPT-User, Claude-Web, PerplexityBot) pour être cité dans les réponses. Bloquez les crawlers d'entraînement (GPTBot, Google-Extended) si vous souhaitez protéger votre contenu original.

Questions Fréquentes

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots (crawlers) des moteurs de recherche et des IA quelles parties de votre site ils peuvent ou ne peuvent pas explorer. C'est un standard du web depuis 1994.

Quels sont les crawlers IA à connaître en 2026 ?

Les principaux crawlers IA sont : GPTBot (OpenAI pour l'entraînement), ChatGPT-User (navigation temps réel), Claude-Web (Anthropic), PerplexityBot (Perplexity AI), Google-Extended (entraînement Gemini), et Bytespider (ByteDance/TikTok). Chacun a un comportement différent.

Dois-je bloquer les crawlers IA ?

Cela dépend de votre stratégie. Bloquer GPTBot empêche l'utilisation de votre contenu pour entraîner les modèles, mais ne vous rend pas invisible dans ChatGPT (qui utilise ChatGPT-User pour la navigation). La configuration 'Recommandée' équilibre visibilité et protection.

Le robots.txt protège-t-il vraiment mon contenu ?

Non, le robots.txt est une directive, pas une protection. Les bots bien intentionnés (Google, OpenAI) le respectent, mais les scrapers malveillants l'ignorent. Pour une vraie protection, utilisez des solutions techniques : authentification, WAF, rate limiting.

Où placer le fichier robots.txt ?

Le fichier robots.txt doit être placé à la racine de votre domaine, accessible via votresite.com/robots.txt. Il doit être nommé exactement 'robots.txt' (minuscules). Sur WordPress, vous pouvez le gérer via Yoast SEO ou un plugin dédié.

Besoin d'une stratégie GEO complète ?

Le robots.txt est la première étape. Je vous accompagne pour apparaître dans les réponses de ChatGPT et Perplexity.

Demander un audit GEO