llms.txt est un fichier au format Markdown, placé à la racine d’un site, qui propose aux grands modèles de langage une carte sélective des contenus les plus importants. Proposé en septembre 2024 par Jeremy Howard, cofondateur d’Answer.AI, il vise à aider les IA à trouver et comprendre les bonnes pages sans avoir à parcourir tout le site. Il faut le présenter honnêtement : c’est un standard proposé, à l’adoption encore inégale, dont la valeur pour la visibilité fait débat.
Qu’est-ce que llms.txt ?
C’est un fichier texte, écrit en Markdown, accessible à l’adresse racine du domaine, par exemple exemple.fr/llms.txt. Il liste les pages clés du site avec une courte description de chacune. L’idée part d’un constat simple : les fenêtres de contexte des modèles sont limitées, et les pages HTML, chargées de navigation, de scripts et de publicités, sont difficiles à lire pour une IA.
À quoi ça sert
Le fichier offre aux modèles une version concise et hiérarchisée du contenu, plus facile à exploiter qu’une page HTML complète. Il sert surtout à fournir un contexte propre aux agents et assistants, par exemple pour de la documentation technique, et à établir une source de vérité que l’IA peut privilégier. Son objectif est davantage la clarté du contexte que le gain de trafic.
llms.txt, robots.txt et sitemap
Trois fichiers voisins ne servent pas la même chose. Le robots.txt sert à l’exclusion : il dit aux robots où ils n’ont pas le droit d’aller. Le sitemap sert à la découverte : il liste les pages existantes. Le llms.txt sert au contexte : il met en avant les pages les plus utiles à lire pour une IA. Ils sont complémentaires et fonctionnent à des niveaux différents.
Comment se présente le fichier
La spécification prévoit un format précis et lisible à la fois par un humain et par une machine : un titre H1 avec le nom du site, une citation de résumé, puis des sections en H2 regroupant des liens accompagnés d’une courte description. Certains publient aussi une version étendue, llms-full.txt, qui rassemble le texte complet des contenus de référence.
Adoption et limites
C’est le point à connaître. Aucun grand fournisseur d’IA ne s’est engagé officiellement à lire ce fichier, et Google ne s’est pas prononcé sur son exploration. Plusieurs analyses constatent un effet sur les citations faible ou non mesurable, et il reste une convention communautaire plutôt qu’un standard formel. Son usage le plus établi concerne la documentation technique des éditeurs de logiciels.
Faut-il en publier un ?
Malgré ces réserves, le coût est quasi nul et le bénéfice potentiel réel : l’exercice oblige à dresser un inventaire propre de ce que l’on voudrait voir cité, et il prépare le terrain si l’adoption décolle. Des outils facilitent sa génération, et Yoast propose même de le créer en un clic. Le bon réflexe reste de le voir comme un complément à une vraie démarche GEO, pas comme un raccourci.
À retenir
- llms.txt est un fichier Markdown à la racine du site qui liste les contenus clés pour les IA.
- Il a été proposé en 2024 par Jeremy Howard, cofondateur d’Answer.AI.
- Il sert le contexte, là où robots.txt sert l’exclusion et le sitemap la découverte.
- C’est un standard proposé, encore peu adopté, sans engagement des grands fournisseurs d’IA.
- Son effet sur les citations est faible ou non mesurable à ce jour.
- Son coût étant quasi nul, il peut compléter une démarche GEO sans s’y substituer.
Pluvian met en place les bons signaux pour les IA et une stratégie GEO qui dépasse le seul fichier llms.txt. Pour un état des lieux, échangez avec l’agence.
Voir aussi : Crawler d’IA, GEO, RAG, Données structurées.