Un crawler d’IA est un robot déployé par une entreprise d’intelligence artificielle pour parcourir le web et en collecter le contenu, soit pour entraîner un modèle, soit pour récupérer une information au moment de répondre à un utilisateur. GPTBot d’OpenAI, ClaudeBot d’Anthropic ou Google-Extended en sont des exemples. Comprendre ces robots et savoir les autoriser ou les bloquer via le fichier robots.txt est devenu un point clé de la visibilité dans les IA.
Qu’est-ce qu’un crawler d’IA ?
Comme un robot de moteur de recherche, un crawler d’IA suit les liens, lit le contenu public d’un site et le collecte. La différence tient à l’usage : il n’indexe pas les pages pour un classement, il alimente un modèle ou une réponse générative. La plupart de ces robots respectent les consignes du fichier robots.txt, à condition de les y inscrire correctement.
Entraînement et récupération
La distinction est essentielle. Les crawlers d’entraînement, comme GPTBot, ClaudeBot ou Google-Extended, collectent du contenu pour construire ou affiner un modèle. Les crawlers de récupération, comme OAI-SearchBot, ChatGPT-User ou PerplexityBot, vont chercher une page en temps réel pour répondre à une question. Bloquer un crawler d’entraînement agit sur les modèles futurs, bloquer un crawler de récupération coupe immédiatement la possibilité d’être cité.
Les principaux crawlers
- GPTBot (OpenAI) : entraînement des modèles GPT.
- OAI-SearchBot et ChatGPT-User (OpenAI) : recherche et navigation en temps réel dans ChatGPT.
- ClaudeBot (Anthropic) : entraînement, avec des robots distincts pour la récupération.
- Google-Extended (Google) : entraînement des modèles Gemini, sans effet sur la recherche Google.
- PerplexityBot (Perplexity) : récupération pour les réponses citées.
Comment les contrôler
Le contrôle passe par le fichier robots.txt, standardisé par le RFC 9309. On y déclare, pour chaque robot, ce qu’il peut ou non explorer, en visant son user agent exact. Il faut être précis : un nom mal orthographié n’est pas reconnu, et une règle trop large peut bloquer par erreur des robots utiles, voire la recherche classique.
Le piège à éviter pour le GEO
Bloquer les crawlers d’entraînement protège la propriété intellectuelle, mais bloquer par mégarde les crawlers de récupération supprime toute chance d’être cité dans les réponses. À l’inverse, bloquer Google-Extended n’affecte pas le classement dans la recherche Google, mais retire la marque de l’entraînement de Gemini. Chaque choix a un effet précis, d’où l’importance d’une configuration réfléchie au service du référencement et du GEO.
Crawlers d’IA et JavaScript
Beaucoup de crawlers d’IA n’exécutent pas le JavaScript. Un site dont le contenu est rendu côté navigateur peut donc leur apparaître vide, quelles que soient les consignes du robots.txt. C’est une raison technique de plus de servir un contenu accessible dès le HTML, sans dépendre entièrement d’un rendu dynamique.
À retenir
- Un crawler d’IA collecte le contenu web pour entraîner un modèle ou répondre en temps réel.
- On distingue les crawlers d’entraînement (GPTBot, ClaudeBot, Google-Extended) des crawlers de récupération (OAI-SearchBot, PerplexityBot).
- On les contrôle via le fichier robots.txt, standardisé par le RFC 9309.
- Bloquer un crawler de récupération coupe les citations, bloquer Google-Extended n’affecte pas la recherche Google.
- Une configuration imprécise peut bloquer par erreur des robots utiles.
- Beaucoup de crawlers n’exécutent pas le JavaScript, d’où l’importance d’un contenu accessible dès le HTML.
Pluvian audite la configuration des crawlers et la visibilité IA des sites B2B, du SEO technique au GEO. Pour un audit, échangez avec l’agence.
Voir aussi : llms.txt, GEO, Moteur de réponse génératif, Citation dans une réponse IA.