Un sitemap XML, ou plan de site, est un fichier qui liste les URL d’un site afin d’aider les moteurs de recherche à les découvrir. C’est une feuille de route que l’on fournit à Google et aux autres moteurs pour signaler les pages importantes et leurs mises à jour. Il ne garantit pas l’indexation, mais il facilite l’exploration, surtout pour les sites volumineux, récents ou au maillage interne incomplet.
Qu’est-ce qu’un sitemap XML ?
C’est un fichier au format XML, généralement nommé sitemap.xml et placé à la racine du site, qui énumère les adresses des pages à faire connaître aux moteurs. Chaque entrée peut indiquer la date de dernière modification. Le protocole est standardisé et reconnu par les principaux moteurs de recherche.
À quoi il sert
Le sitemap aide les moteurs à trouver des pages qu’ils n’auraient pas découvertes seuls, par exemple des pages récentes ou peu liées depuis le reste du site. Il signale aussi les mises à jour, ce qui peut accélérer leur prise en compte. Pour un petit site bien maillé, son apport est modeste, mais pour un site important, il devient un outil de pilotage précieux.
Sitemap et robots.txt
Les deux fichiers se complètent sans se confondre. Le robots.txt sert à l’exclusion : il dit aux robots où ne pas aller. Le sitemap sert à la découverte : il met en avant les pages que l’on souhaite voir explorées et indexées. On déclare d’ailleurs souvent l’adresse du sitemap dans le robots.txt pour que les moteurs le trouvent facilement.
Ce qu’un bon sitemap contient
Un sitemap propre ne liste que des URL utiles et indexables : des pages qui renvoient un code 200, en version canonique, sans redirection ni balise noindex, et non bloquées par le robots.txt. Y inclure des pages en erreur, dupliquées ou non indexables dilue le signal envoyé à Google. La règle est simple : n’y mettre que ce que l’on veut réellement voir indexé.
Comment le créer et le soumettre
La plupart des CMS génèrent un sitemap automatiquement, et sur WordPress une extension SEO comme Yoast s’en charge et le tient à jour. Une fois en place, on le soumet dans la Search Console de Google et on l’indique dans le robots.txt. Le sitemap reste ensuite à jour de lui-même au fil des publications, à condition de surveiller qu’il n’accumule pas d’URL inutiles.
Sitemaps et grands sites
Un fichier sitemap est limité en taille et en nombre d’URL. Les grands sites utilisent donc un sitemap d’index, un sommaire qui pointe vers plusieurs sitemaps thématiques. Cette organisation facilite le suivi de l’indexation par section et aide à repérer où se situent d’éventuels problèmes de couverture.
Bonnes pratiques
Tenir le sitemap synchronisé avec le contenu réel, en retirant les pages supprimées, redirigées ou désindexées. Surveiller le rapport de couverture dans la Search Console pour vérifier que les pages soumises sont bien indexées. Un sitemap soigné est un levier discret mais réel d’un bon référencement technique.
À retenir
- Un sitemap XML liste les URL d’un site pour aider les moteurs à les découvrir.
- Il facilite l’exploration sans garantir l’indexation.
- Il sert la découverte, là où le robots.txt sert l’exclusion.
- Un bon sitemap ne contient que des URL utiles, canoniques et indexables.
- Les CMS et extensions comme Yoast le génèrent et le maintiennent.
- Les grands sites s’appuient sur un sitemap d’index pour piloter la couverture.
Pluvian met en place et audite les sitemaps et l’architecture technique des sites B2B dans son accompagnement SEO. Pour un audit, échangez avec l’agence.
Voir aussi : Crawl et exploration, Indexation, Robots.txt, Budget de crawl, Maillage interne.