« Retour au glossaire

Le fichier robots.txt est un fichier texte placé à la racine d’un site, qui indique aux robots d’exploration quelles URL ils peuvent ou non parcourir. Standardisé par le RFC 9309, il sert avant tout à gérer le trafic des crawlers et à éviter de surcharger un serveur. Un point essentiel à connaître : il contrôle l’exploration, mais ne suffit pas à empêcher une page d’apparaître dans les résultats.

Qu’est-ce que le robots.txt ?

C’est un fichier unique, nommé exactement robots.txt et situé à la racine du domaine. Les robots respectueux le consultent avant d’explorer un site et suivent ses consignes. Il fonctionne par groupes de règles visant un robot précis, avec des instructions d’autorisation ou d’interdiction sur des chemins d’URL.

À quoi il sert vraiment

Son rôle premier est de gérer l’accès des crawlers pour préserver les ressources du serveur et orienter l’exploration vers les pages utiles. On l’utilise par exemple pour empêcher l’exploration de sections sans valeur pour la recherche, comme des pages d’administration ou des filtres. Ce n’est pas un outil de confidentialité.

Bloquer n’est pas désindexer

C’est le malentendu le plus courant. Une page interdite d’exploration dans le robots.txt peut quand même être indexée si d’autres sites pointent vers elle, son URL apparaissant alors dans les résultats. Pour réellement empêcher une page de figurer dans la recherche, il faut utiliser la balise noindex, protéger la page par mot de passe ou la supprimer, et surtout ne pas la bloquer dans le robots.txt, sinon le moteur ne verra jamais le noindex.

La syntaxe de base

Un fichier robots.txt s’articule autour de quelques directives. User-agent désigne le robot visé, Disallow interdit un chemin, Allow l’autorise, et Sitemap indique l’adresse du sitemap. Une étoile permet de viser tous les robots ou des motifs d’URL. La précision est cruciale : une règle trop large peut bloquer par erreur tout un site.

Robots.txt et budget de crawl

Sur les grands sites, le robots.txt sert aussi à préserver le budget de crawl en écartant les pages sans valeur, comme les facettes ou les paramètres de session. Attention toutefois : bloquer une page ne transfère pas le budget vers d’autres pages, comme le rappelle Google. L’objectif est d’éviter le gaspillage, pas de réallouer mécaniquement des ressources.

Robots.txt et crawlers d’IA

Le robots.txt est aussi le levier principal pour gérer les robots des entreprises d’IA, comme GPTBot, ClaudeBot ou Google-Extended. On peut y autoriser ou bloquer chaque robot selon que l’on veut nourrir l’entraînement, rester citable, ou protéger ses contenus. Une configuration réfléchie est devenue un point clé du SEO et du GEO.

Bonnes pratiques et erreurs

Les erreurs les plus coûteuses sont de bloquer involontairement tout le site, de bloquer les fichiers CSS et JavaScript nécessaires au rendu, ou de mal orthographier un nom de robot. Il est prudent de tester son fichier après chaque modification et de vérifier qu’aucune section stratégique n’est interdite par mégarde.

À retenir

  • Le robots.txt indique aux robots quelles URL explorer, et est standardisé par le RFC 9309.
  • Il gère le trafic des crawlers et préserve les ressources serveur.
  • Bloquer une page ne la désindexe pas : utiliser noindex ou un mot de passe pour cela.
  • Ses directives clés sont User-agent, Disallow, Allow et Sitemap.
  • Il aide à préserver le budget de crawl, sans le réallouer.
  • C’est aussi le levier principal pour gérer les crawlers d’IA.

Pluvian audite et configure le robots.txt et l’accès des robots, classiques comme IA, dans son accompagnement SEO technique. Pour un audit, échangez avec l’agence.

Voir aussi : Crawler d’IA, Crawl et exploration, Budget de crawl, Sitemap XML, Indexation.

Synonymes :
Robots txt, Fichier robots
« Retour au glossaire