Robots.txt : Fichier texte placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages ou sections ils peuvent ou ne peuvent pas explorer.

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte standard qui utilise le Robots Exclusion Protocol pour communiquer avec les crawlers des moteurs de recherche. Il doit être placé à la racine du domaine (exemple : https://www.example.com/robots.txt).

Ce fichier permet de gérer le budget de crawl en empêchant les robots d'explorer certaines parties de votre site. Cependant, il ne garantit pas que les pages bloquées ne seront pas indexées si des liens externes pointent vers elles.

Le robots.txt est une directive, pas une obligation : les robots malveillants peuvent l'ignorer.

Syntaxe du robots.txt

Les directives principales sont :

  • User-agent : Spécifie le robot concerné (* pour tous)
  • Disallow : Interdit l'accès à un chemin
  • Allow : Autorise l'accès (utile pour les exceptions)
  • Sitemap : Indique l'URL du sitemap XML
  • Crawl-delay : Délai entre les requêtes (ignoré par Google)

Exemples de robots.txt

Quelques configurations courantes :

# Autoriser tout
User-agent: *
Disallow:

# Bloquer tout le site
User-agent: *
Disallow: /

# Bloquer un répertoire
User-agent: *
Disallow: /admin/
Disallow: /private/

# Bloquer un robot spécifique
User-agent: Bingbot
Disallow: /

# Indiquer le sitemap
Sitemap: https://www.example.com/sitemap.xml

Bonnes pratiques

  • Ne bloquez pas les ressources CSS/JS nécessaires au rendu
  • Vérifiez votre robots.txt dans Google Search Console
  • N'utilisez pas robots.txt pour cacher du contenu sensible (pas sécurisé)
  • Préférez noindex pour empêcher l'indexation
  • Testez les modifications avant de les appliquer
  • Ne bloquez pas des pages avec des backlinks de valeur

Termes associés

← Retour au glossaire SEO