Budget de crawl : définition

« Retour au glossaire

Le budget de crawl désigne l’ensemble des URL que Google peut explorer et souhaite explorer sur un site donné. Le web étant quasi infini, les moteurs limitent le temps et les ressources consacrés à chaque site. Pour la plupart des sites, ce n’est pas un sujet, mais pour les grands sites à forte volumétrie, mal gérer son budget de crawl peut retarder l’indexation des pages importantes.

Qu’est-ce que le budget de crawl ?

Google définit le budget de crawl comme l’ensemble des URL qu’il peut et veut explorer sur un site, identifié par son nom d’hôte. Deux sous-domaines distincts ont donc des budgets séparés. L’idée est que le moteur ne peut pas tout explorer en permanence : il arbitre selon ses ressources et l’intérêt qu’il porte au site.

Capacité et demande de crawl

Le budget résulte de deux éléments. La capacité de crawl est le nombre de connexions simultanées que Google peut utiliser sans surcharger le serveur. La demande de crawl reflète l’intérêt du moteur pour le site, lié à la popularité des pages et à leur fraîcheur. Si la demande est faible, Google explore moins, même sans atteindre la limite de capacité.

Pour qui c’est un enjeu

Google est clair : le budget de crawl concerne surtout les grands sites, au-delà de quelques dizaines de milliers d’URL, ou les sites très fréquemment mis à jour. Pour un site de taille modeste dont les pages sont explorées le jour même de leur publication, il suffit de tenir le sitemap à jour et de surveiller la couverture d’index. Les e-commerces et sites à navigation à facettes sont les plus exposés.

Ce qui gaspille le budget

Les principaux gaspillages viennent des contenus dupliqués, des URL à paramètres, des navigations à facettes qui génèrent des milliers de pages quasi identiques, et des pièges d’exploration comme les calendriers infinis. Les erreurs et les chaînes de redirection consomment aussi du budget sans valeur. Tout ce temps passé sur des pages inutiles n’est plus disponible pour les pages stratégiques.

Comment l’optimiser

Consolider les doublons par des balises canonical ou des redirections.
Bloquer dans le robots.txt les pages réellement inutiles, comme certaines pages de filtres ou d’administration.
Retourner des codes 404 ou 410 pour les contenus définitivement supprimés.
Limiter le sitemap aux URL indexables et utiles.
Soigner les performances serveur, qui augmentent la capacité de crawl.

Les pièges à éviter

Google met en garde contre deux erreurs. Ne pas utiliser le robots.txt en croyant réallouer du budget à d’autres pages : le budget ne se transfère pas ainsi. Et ne pas compter sur la balise noindex pour cela, car Google explore quand même la page avant de voir la balise. Le bon réflexe est de bloquer ou supprimer franchement ce qui ne doit pas être exploré, dans le cadre d’un travail technique rigoureux.

À retenir

Le budget de crawl est l’ensemble des URL que Google peut et veut explorer sur un site.
Il résulte de la capacité de crawl et de la demande de crawl.
C’est un enjeu surtout pour les grands sites et les sites très souvent mis à jour.
Doublons, facettes, paramètres et erreurs gaspillent le budget.
On l’optimise par la consolidation, un robots.txt ciblé, des codes d’erreur propres et un sitemap épuré.
Le robots.txt ne réalloue pas le budget, et le noindex ne l’économise pas.

Pluvian optimise l’efficacité d’exploration des grands sites B2B dans le cadre de son accompagnement SEO technique. Pour un audit, échangez avec l’agence.

Voir aussi : Crawl et exploration, Indexation, Robots.txt, Sitemap XML, Redirection 301.

Sources :

Synonymes :

Crawl budget, Budget d'exploration