Votre site compte des dizaines de milliers de pages, mais Google ne les indexe pas toutes ? Le crawl budget est probablement en cause. Voici comment diagnostiquer et optimiser l'exploration de votre gros site par les moteurs de recherche.
Qu'est-ce que le crawl budget
Le crawl budget représente le nombre de pages que Googlebot est prêt à explorer sur votre site dans un laps de temps donné. Il dépend de deux facteurs :
- Crawl rate limit : le nombre maximum de requêtes simultanées que Google s'autorise sans surcharger votre serveur
- Crawl demand : l'intérêt de Google pour vos pages (popularité, fraîcheur, importance perçue)
Google alloue un budget limité à chaque site. Si ce budget est gaspillé sur des pages inutiles, vos pages importantes risquent de ne pas être crawlées assez fréquemment.
Pourquoi c'est critique pour les gros sites
Le crawl budget devient un enjeu majeur à partir de quelques milliers de pages. Voici les symptômes d'un problème :
- Nouvelles pages non indexées : vos nouveaux produits ou articles mettent des semaines à apparaître
- Mises à jour non prises en compte : les modifications de prix ou de stock ne se reflètent pas
- Pages importantes désindexées : Google "oublie" certaines pages faute de les recrawler
- Ratio pages crawlées/indexées faible : beaucoup de crawl pour peu d'indexation
Pour un site e-commerce de 50 000 produits ou un site média avec 100 000 articles, l'optimisation du crawl budget peut transformer les résultats SEO.
Diagnostiquer l'utilisation de votre crawl budget
Avant d'optimiser, analysez la situation actuelle.
Analyse via Google Search Console
Dans Search Console > Paramètres > Statistiques d'exploration :
- Nombre de requêtes d'exploration : volume de crawl quotidien
- Taille de téléchargement : poids moyen des pages crawlées
- Temps de réponse moyen : performance du serveur
Analyse des logs serveur
L'analyse des logs révèle précisément ce que crawle Googlebot :
- Quelles pages sont crawlées (et lesquelles ne le sont pas)
- Fréquence de crawl par section
- Codes de réponse (200, 301, 404, 500)
- User-agents des différents bots
Indicateurs clés à surveiller
| Indicateur | Bon | Problématique |
|---|---|---|
| Temps de réponse serveur | < 200ms | > 500ms |
| % pages crawlées/mois | > 80% | < 50% |
| % codes 200 | > 90% | < 80% |
| Taille moyenne des pages | < 500 Ko | > 2 Mo |
Actions concrètes d'optimisation
1. Améliorer la performance serveur
Un serveur rapide permet à Google de crawler plus de pages :
- Mettre en place un CDN pour les ressources statiques
- Activer la compression Gzip/Brotli
- Optimiser les requêtes base de données
- Augmenter les ressources serveur si nécessaire
2. Éliminer les pages inutiles du crawl
Bloquez l'accès aux pages sans valeur SEO :
- Pages de filtres/facettes : combinaisons infinies de filtres e-commerce
- Pages de recherche interne : résultats de recherche site
- Pages de pagination profondes : au-delà de la page 5-10
- Pages de tri : même contenu trié différemment
- Pages d'administration : connexion, panier, compte
Méthodes de blocage :
- Robots.txt : Disallow pour bloquer le crawl
- Noindex : permet le crawl mais pas l'indexation
- Suppression des liens internes : pas de découverte
3. Optimiser le maillage interne
Guidez le crawler vers vos pages prioritaires :
- Réduire la profondeur des pages importantes (max 3 clics)
- Créer des liens depuis les pages à forte autorité
- Utiliser des breadcrumbs pour la navigation
- Éviter les liens orphelins (pages sans liens entrants)
Consultez notre méthode de maillage interne pour aller plus loin.
4. Optimiser le sitemap XML
- N'inclure que les pages indexables
- Segmenter en plusieurs sitemaps (< 50 000 URLs chacun)
- Indiquer les dates de dernière modification
- Prioriser les pages importantes
5. Gérer les redirections
- Éviter les chaînes de redirections (A → B → C)
- Corriger les redirections internes (lier directement à la destination)
- Nettoyer les anciennes redirections devenues inutiles
6. Traiter les erreurs
- Corriger les erreurs 404 avec des redirections 301
- Résoudre les erreurs 500 (problèmes serveur)
- Gérer les soft 404 (pages vides renvoyant un 200)
Erreurs fréquentes à éviter
- Bloquer trop de pages : risque de cacher des pages importantes
- Noindex + Disallow : si vous bloquez le crawl, le noindex ne sera pas lu
- Négliger le mobile : Google utilise le mobile-first indexing
- Ignorer JavaScript : contenu généré en JS consomme plus de ressources de crawl
- Paramètres URL non gérés : ?color=red&size=M crée des doublons
- Sitemap obsolète : URLs erreurées ou désindexables
Cas concret : optimisation d'un site e-commerce
Voici comment nous avons optimisé le crawl budget d'un site e-commerce de 80 000 produits :
Situation initiale
- 350 000 URLs crawlées par mois (dont facettes et filtres)
- Seulement 45 000 produits indexés (56%)
- Nouveaux produits indexés après 3-4 semaines
- Temps de réponse serveur : 450ms en moyenne
Actions mises en place
| Action | Détail |
|---|---|
| Blocage facettes | Robots.txt pour 250 000 combinaisons de filtres |
| Optimisation serveur | Cache + CDN, temps de réponse à 120ms |
| Nettoyage sitemap | De 400 000 à 85 000 URLs |
| Maillage catégories | Produits à max 3 clics de l'accueil |
Résultats après 3 mois
- 100 000 URLs crawlées par mois (-71%, mais 100% utiles)
- 78 000 produits indexés (97.5%)
- Nouveaux produits indexés en 2-3 jours
- Trafic organique : +35% sur les pages produits
Quand faire appel à un expert
L'optimisation du crawl budget nécessite une expertise technique pointue. Faites appel à un spécialiste si :
- Votre site dépasse 10 000 pages
- Vous avez des problèmes d'indexation persistants
- Votre site utilise beaucoup de JavaScript
- Vous gérez des facettes e-commerce complexes
Notre audit SEO technique inclut une analyse complète du crawl budget avec recommandations prioritisées.
Conclusion
L'optimisation du crawl budget est un levier majeur pour les gros sites. En concentrant les ressources de crawl sur vos pages à valeur, vous améliorez l'indexation et la fraîcheur de votre contenu.
Les points clés à retenir :
- Analysez vos logs pour comprendre ce que crawle Google
- Bloquez les pages sans valeur SEO (facettes, pagination, recherche)
- Améliorez la performance serveur pour un crawl plus rapide
- Optimisez le maillage pour guider le crawler vers les pages importantes
Termes du glossaire SEO
Retrouvez les définitions dans notre glossaire SEO :




