Votre site compte des dizaines de milliers de pages, mais Google ne les indexe pas toutes ? Le crawl budget est probablement en cause. Voici comment diagnostiquer et optimiser l'exploration de votre gros site par les moteurs de recherche.

Qu'est-ce que le crawl budget

Le crawl budget représente le nombre de pages que Googlebot est prêt à explorer sur votre site dans un laps de temps donné. Il dépend de deux facteurs :

  • Crawl rate limit : le nombre maximum de requêtes simultanées que Google s'autorise sans surcharger votre serveur
  • Crawl demand : l'intérêt de Google pour vos pages (popularité, fraîcheur, importance perçue)

Google alloue un budget limité à chaque site. Si ce budget est gaspillé sur des pages inutiles, vos pages importantes risquent de ne pas être crawlées assez fréquemment.

Pourquoi c'est critique pour les gros sites

Le crawl budget devient un enjeu majeur à partir de quelques milliers de pages. Voici les symptômes d'un problème :

  • Nouvelles pages non indexées : vos nouveaux produits ou articles mettent des semaines à apparaître
  • Mises à jour non prises en compte : les modifications de prix ou de stock ne se reflètent pas
  • Pages importantes désindexées : Google "oublie" certaines pages faute de les recrawler
  • Ratio pages crawlées/indexées faible : beaucoup de crawl pour peu d'indexation

Pour un site e-commerce de 50 000 produits ou un site média avec 100 000 articles, l'optimisation du crawl budget peut transformer les résultats SEO.

Diagnostiquer l'utilisation de votre crawl budget

Avant d'optimiser, analysez la situation actuelle.

Analyse via Google Search Console

Dans Search Console > Paramètres > Statistiques d'exploration :

  • Nombre de requêtes d'exploration : volume de crawl quotidien
  • Taille de téléchargement : poids moyen des pages crawlées
  • Temps de réponse moyen : performance du serveur

Analyse des logs serveur

L'analyse des logs révèle précisément ce que crawle Googlebot :

  • Quelles pages sont crawlées (et lesquelles ne le sont pas)
  • Fréquence de crawl par section
  • Codes de réponse (200, 301, 404, 500)
  • User-agents des différents bots

Indicateurs clés à surveiller

Indicateur Bon Problématique
Temps de réponse serveur < 200ms > 500ms
% pages crawlées/mois > 80% < 50%
% codes 200 > 90% < 80%
Taille moyenne des pages < 500 Ko > 2 Mo

Actions concrètes d'optimisation

1. Améliorer la performance serveur

Un serveur rapide permet à Google de crawler plus de pages :

  • Mettre en place un CDN pour les ressources statiques
  • Activer la compression Gzip/Brotli
  • Optimiser les requêtes base de données
  • Augmenter les ressources serveur si nécessaire

2. Éliminer les pages inutiles du crawl

Bloquez l'accès aux pages sans valeur SEO :

  • Pages de filtres/facettes : combinaisons infinies de filtres e-commerce
  • Pages de recherche interne : résultats de recherche site
  • Pages de pagination profondes : au-delà de la page 5-10
  • Pages de tri : même contenu trié différemment
  • Pages d'administration : connexion, panier, compte

Méthodes de blocage :

  • Robots.txt : Disallow pour bloquer le crawl
  • Noindex : permet le crawl mais pas l'indexation
  • Suppression des liens internes : pas de découverte

3. Optimiser le maillage interne

Guidez le crawler vers vos pages prioritaires :

  • Réduire la profondeur des pages importantes (max 3 clics)
  • Créer des liens depuis les pages à forte autorité
  • Utiliser des breadcrumbs pour la navigation
  • Éviter les liens orphelins (pages sans liens entrants)

Consultez notre méthode de maillage interne pour aller plus loin.

4. Optimiser le sitemap XML

  • N'inclure que les pages indexables
  • Segmenter en plusieurs sitemaps (< 50 000 URLs chacun)
  • Indiquer les dates de dernière modification
  • Prioriser les pages importantes

5. Gérer les redirections

  • Éviter les chaînes de redirections (A → B → C)
  • Corriger les redirections internes (lier directement à la destination)
  • Nettoyer les anciennes redirections devenues inutiles

6. Traiter les erreurs

  • Corriger les erreurs 404 avec des redirections 301
  • Résoudre les erreurs 500 (problèmes serveur)
  • Gérer les soft 404 (pages vides renvoyant un 200)

Erreurs fréquentes à éviter

  • Bloquer trop de pages : risque de cacher des pages importantes
  • Noindex + Disallow : si vous bloquez le crawl, le noindex ne sera pas lu
  • Négliger le mobile : Google utilise le mobile-first indexing
  • Ignorer JavaScript : contenu généré en JS consomme plus de ressources de crawl
  • Paramètres URL non gérés : ?color=red&size=M crée des doublons
  • Sitemap obsolète : URLs erreurées ou désindexables

Cas concret : optimisation d'un site e-commerce

Voici comment nous avons optimisé le crawl budget d'un site e-commerce de 80 000 produits :

Situation initiale

  • 350 000 URLs crawlées par mois (dont facettes et filtres)
  • Seulement 45 000 produits indexés (56%)
  • Nouveaux produits indexés après 3-4 semaines
  • Temps de réponse serveur : 450ms en moyenne

Actions mises en place

Action Détail
Blocage facettes Robots.txt pour 250 000 combinaisons de filtres
Optimisation serveur Cache + CDN, temps de réponse à 120ms
Nettoyage sitemap De 400 000 à 85 000 URLs
Maillage catégories Produits à max 3 clics de l'accueil

Résultats après 3 mois

  • 100 000 URLs crawlées par mois (-71%, mais 100% utiles)
  • 78 000 produits indexés (97.5%)
  • Nouveaux produits indexés en 2-3 jours
  • Trafic organique : +35% sur les pages produits

Quand faire appel à un expert

L'optimisation du crawl budget nécessite une expertise technique pointue. Faites appel à un spécialiste si :

  • Votre site dépasse 10 000 pages
  • Vous avez des problèmes d'indexation persistants
  • Votre site utilise beaucoup de JavaScript
  • Vous gérez des facettes e-commerce complexes

Notre audit SEO technique inclut une analyse complète du crawl budget avec recommandations prioritisées.

Conclusion

L'optimisation du crawl budget est un levier majeur pour les gros sites. En concentrant les ressources de crawl sur vos pages à valeur, vous améliorez l'indexation et la fraîcheur de votre contenu.

Les points clés à retenir :

  • Analysez vos logs pour comprendre ce que crawle Google
  • Bloquez les pages sans valeur SEO (facettes, pagination, recherche)
  • Améliorez la performance serveur pour un crawl plus rapide
  • Optimisez le maillage pour guider le crawler vers les pages importantes

Termes du glossaire SEO

Retrouvez les définitions dans notre glossaire SEO :