Inclut les 12 crawlers IA de 2026

Générateur robots.txt

Configurez la visibilité de votre site pour les moteurs de recherche et les IA. GPTBot, Claude, Perplexity... tous les crawlers 2026 inclus.

12crawlers IA

4configs prêtes

100%gratuit

Configurations prédéfinies

Visibilité IA

7/12

7 crawlers IA peuvent accéder à votre site

GPTBot

OpenAI - Entraînement des modèles GPT

ChatGPT-User

OpenAI - Navigation temps réel ChatGPT

OAI-SearchBot

OpenAI - Recherche web ChatGPT

Claude-Web

Anthropic - Crawler de Claude AI

PerplexityBot

Perplexity AI - Recherche augmentée

Google-Extended

Google - Entraînement Gemini/Bard

Bytespider

ByteDance - TikTok/Doubao AI

CCBot

Common Crawl - Dataset public IA

Applebot-Extended

Apple - Entraînement Apple Intelligence

Amazonbot

Amazon - Alexa et services AWS

anthropic-ai

Anthropic - Crawler alternatif Claude

cohere-ai

Cohere - Entraînement modèles IA

Chemins à bloquer (Disallow)

Un chemin par ligne. Ex: /admin/, /private/

URL du Sitemap

robots.txt

# robots.txt généré par IndHack.com
# https://indhack.com/outils/generateur-robots-txt
# Règle par défaut
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
# Crawlers bloqués
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: cohere-ai
Disallow: /

Comment utiliser ce fichier ?

1. Téléchargez ou copiez le fichier
2. Placez-le à la racine de votre site
3. Vérifiez : votresite.com/robots.txt

Le robots.txt est une directive, pas une protection. Les bots malveillants l'ignorent.

Guide

Comprendre les crawlers IA en 2026

En 2026, votre fichier robots.txt ne gère plus seulement Googlebot. Une dizaine de crawlers IA parcourent le web pour alimenter ChatGPT, Gemini, Perplexity et d'autres. Pour vérifier si ces crawlers accèdent déjà à votre site, utilisez notre testeur de visibilité IA.

La bonne stratégie dépend de vos objectifs : voulez-vous être cité par les IA (excellent pour la visibilité) ou protéger votre contenu de l'entraînement des modèles ? Cette configuration fait partie d'une stratégie SEO complète.

Crawler	Éditeur	Usage	Recommandation
GPTBot	OpenAI	Entraînement des modèles	À bloquer si protection souhaitée
ChatGPT-User	OpenAI	Navigation temps réel	Autoriser pour être cité
Claude-Web	Anthropic	Navigation Claude	Autoriser
PerplexityBot	Perplexity	Moteur de recherche IA	Autoriser
Google-Extended	Google	Entraînement Gemini	À bloquer si protection souhaitée

Ma recommandation : Autorisez les crawlers de navigation (ChatGPT-User, Claude-Web, PerplexityBot) pour être cité dans les réponses. Bloquez les crawlers d'entraînement (GPTBot, Google-Extended) si vous souhaitez protéger votre contenu original.

Outils complémentaires

Testeur de visibilité IA

Votre site est-il visible par ChatGPT ?

Générateur de schema JSON-LD

Créez vos données structurées

Audit SEO Gratuit

Analysez votre site en 1 clic

Articles SEO & GEO

Consultant SEO par ville

Questions Fréquentes

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots (crawlers) des moteurs de recherche et des IA quelles parties de votre site ils peuvent ou ne peuvent pas explorer. C'est un standard du web depuis 1994.

Quels sont les crawlers IA à connaître en 2026 ?

Les principaux crawlers IA sont : GPTBot (OpenAI pour l'entraînement), ChatGPT-User (navigation temps réel), Claude-Web (Anthropic), PerplexityBot (Perplexity AI), Google-Extended (entraînement Gemini), et Bytespider (ByteDance/TikTok). Chacun a un comportement différent.

Dois-je bloquer les crawlers IA ?

Cela dépend de votre stratégie. Bloquer GPTBot empêche l'utilisation de votre contenu pour entraîner les modèles, mais ne vous rend pas invisible dans ChatGPT (qui utilise ChatGPT-User pour la navigation). La configuration 'Recommandée' équilibre visibilité et protection.

Le robots.txt protège-t-il vraiment mon contenu ?

Non, le robots.txt est une directive, pas une protection. Les bots bien intentionnés (Google, OpenAI) le respectent, mais les scrapers malveillants l'ignorent. Pour une vraie protection, utilisez des solutions techniques : authentification, WAF, rate limiting.

Où placer le fichier robots.txt ?

Le fichier robots.txt doit être placé à la racine de votre domaine, accessible via votresite.com/robots.txt. Il doit être nommé exactement 'robots.txt' (minuscules). Sur WordPress, vous pouvez le gérer via Yoast SEO ou un plugin dédié.

Besoin d'une stratégie GEO complète ?

Le robots.txt est la première étape. Je vous accompagne pour apparaître dans les réponses de ChatGPT et Perplexity.

Demander un audit GEO