Aller au contenu principal
Retour au glossaire

Glossaire

robots.txt

Technique

robots.txt

Le fichier robots.txt est un standard web qui indique aux robots d'exploration quelles pages ils peuvent ou ne peuvent pas crawler sur votre site. Accessible à l'adresse https://votresite.com/robots.txt, il est lu en priorité par tous les bots avant qu'ils n'explorent quoi que ce soit. Pour le GEO, ce fichier est la première porte d'entrée — ou de blocage — pour les bots IA.

Pourquoi c'est important pour le GEO

Un robots.txt mal configuré peut bloquer GPTBot, ClaudeBot ou PerplexityBot sans que vous le sachiez. Si ces bots ne peuvent pas crawler votre site, votre contenu n'existe tout simplement pas pour les moteurs de recherche IA. C'est l'erreur technique la plus courante et la plus critique dans un audit GEO.

Beaucoup de sites ont hérité d'un Disallow: / générique configuré des années auparavant pour bloquer des scrapers, qui bloque maintenant involontairement tous les bots IA. D'autres ont des pages spécifiques bloquées (fiches produits, guides) qui sont précisément celles qu'on voudrait voir citées.

Comment optimiser

Configuration recommandée pour une visibilité IA maximale :

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Ajoutez également un lien vers votre sitemap en bas du fichier :

Sitemap: https://votresite.com/sitemap.xml

Exemple concret

Une agence de communication découvre lors d'un audit GEO que son robots.txt contient User-agent: * / Disallow: /guides/. Toutes ses pages guides — son meilleur contenu — sont bloquées pour tous les bots, y compris les bots IA. Après correction, ses guides commencent à être indexés et cités dans Perplexity en moins de six semaines.

Erreurs fréquentes

  • Disallow: / générique : une règle qui bloque tout peut provenir d'une ancienne configuration jamais nettoyée
  • Bloquer les dossiers stratégiques : /blog/, /guides/, /services/ bloqués = contenu clé invisible
  • Oublier anthropic-ai : autoriser ClaudeBot sans anthropic-ai laisse un accès partiel à l'écosystème Anthropic
  • Ne jamais vérifier : le fichier robots.txt ne génère aucune alerte visible — seul un audit manuel ou un outil comme Google Search Console peut révéler les problèmes