RAG (Retrieval-Augmented Generation) : définition

« Retour au glossaire

Le RAG, pour Retrieval-Augmented Generation, est une technique qui associe un système de récupération de documents à un modèle de langage. Avant de rédiger, le modèle va chercher des informations pertinentes dans une base ou sur le web, puis s’appuie dessus pour répondre. C’est l’un des mécanismes qui font fonctionner les moteurs de réponse modernes, et il explique pourquoi la qualité et la clarté d’un contenu en ligne pèsent autant aujourd’hui.

Qu’est-ce que le RAG ?

Le RAG combine deux mémoires : la mémoire paramétrique du modèle, c’est-à-dire ce qu’il a appris à l’entraînement, et une mémoire non paramétrique, un index de documents consultable au moment de répondre. Introduit par Lewis et ses coauteurs en 2020, ce cadre permet à une IA d’appuyer sa réponse sur des textes précis plutôt que sur sa seule mémoire interne.

Comment fonctionne le RAG

Le processus se déroule en deux temps. Un module de récupération transforme la question en requête, interroge un index et en extrait les passages les plus pertinents. Le modèle de langage génère ensuite la réponse en s’appuyant sur ces passages. La réponse est donc ancrée dans des sources identifiables, ce qui permet aussi de les citer.

Pourquoi le RAG a été créé

Les grands modèles stockent beaucoup de connaissances dans leurs paramètres, mais celles-ci sont figées à la date d’entraînement, difficiles à mettre à jour et sans provenance. Le RAG répond à ces limites en branchant le modèle sur une source externe actualisable. Lewis et al. ont montré qu’il produit des réponses plus précises, plus factuelles et traçables que les modèles sans récupération.

RAG et moteurs de réponse

La plupart des moteurs de réponse génératifs reposent sur une forme de RAG, en interrogeant le web ou un index propriétaire avant de répondre. C’est ce qui leur permet de traiter l’actualité et de citer des sources. Comprendre le RAG, c’est comprendre que ces moteurs ne devinent pas, ils récupèrent puis rédigent.

Ce que le RAG implique pour le GEO

Si une IA récupère des documents pour répondre, alors un contenu doit être récupérable et exploitable pour avoir une chance d’être utilisé. Cela suppose des pages indexables, claires, bien structurées et faisant autorité. C’est précisément l’objet du GEO : rendre un contenu facile à retrouver, à comprendre et à citer par ces systèmes.

Limites du RAG

Le RAG ne garantit pas l’exactitude : si les sources récupérées sont mauvaises ou mal interprétées, la réponse le sera aussi. La qualité dépend donc autant du contenu disponible que du modèle. Cela renforce l’importance, pour une marque, d’être une source fiable et bien structurée dans l’index que ces moteurs consultent.

À retenir

Le RAG combine un système de récupération de documents et un modèle de langage.
Il a été introduit par Lewis et al. en 2020 pour ancrer les réponses dans des sources réelles.
Il fonctionne en deux temps : récupération des passages pertinents, puis génération.
La plupart des moteurs de réponse reposent sur une forme de RAG.
Pour le GEO, il implique d’avoir un contenu récupérable, clair et faisant autorité.
Sa qualité dépend des sources récupérées autant que du modèle.

Pluvian rend les contenus des marques B2B faciles à récupérer et à citer par les moteurs de réponse, via le GEO. Pour en discuter, échangez avec l’agence.

Voir aussi : Grounding, Hallucination, Moteur de réponse génératif, GEO.

Sources :

Synonymes :

Retrieval-Augmented Generation, Génération augmentée par récupération

« Retour au glossaire