Aller au contenu principal
Retour au glossaire

Glossaire

AI Crawling

Technique

AI Crawling

AI Crawling désigne le processus par lequel les robots des plateformes IA — GPTBot pour OpenAI, ClaudeBot pour Anthropic, PerplexityBot pour Perplexity — parcourent le web pour collecter des données. Ces visites alimentent les modèles de langage en formation et les index de recherche en temps réel qui servent à générer les réponses.

Sans ce crawl, votre contenu n'existe tout simplement pas pour les IA, peu importe sa qualité.

Pourquoi c'est important pour le GEO

L'AI Crawling est la condition préalable à toute stratégie GEO. Avant de chercher à être cité, il faut d'abord être indexé. Des millions de sites web bloquent involontairement les bots IA soit via des règles robots.txt trop restrictives, soit via du JavaScript qui empêche le rendu, soit via des contenus protégés par des formulaires de connexion.

Vérifier que les bots IA accèdent bien à votre site est l'action la plus simple et la plus rapide pour améliorer votre visibilité IA — et souvent elle suffit à débloquer des citationsque vous n'obtenez pas malgré un bon contenu.

Comment optimiser

  1. Vérifier votre fichier robots.txt et s'assurer qu'il n'y a pas de règle Disallow: / pour les bots IA
  2. Créer un sitemap.xml exhaustif et le soumettre aux principales plateformes si possible
  3. S'assurer que votre contenu clé n'est pas derrière une connexion ou un formulaire
  4. Éviter le JavaScript-only rendering — vos pages doivent être lisibles en HTML statique
  5. Créer un fichier llms.txt à la racine du site pour guider les IA vers vos contenus prioritaires

Bots IA à autoriser dans robots.txt

  • GPTBot : OpenAI (ChatGPT)
  • ClaudeBot + anthropic-ai : Anthropic (Claude)
  • PerplexityBot : Perplexity
  • Google-Extended : Google AI Overviews

Exemple de configuration robots.txt permissive :

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

Exemple concret

Un cabinet de conseil découvre qu'il n'est jamais cité par Perplexity malgré des guides de qualité. En vérifiant le robots.txt, il constate qu'un développeur avait ajouté User-agent: * Disallow: /api/ pour bloquer les crawls de l'API — règle qui bloquait aussi tous les bots inconnus, y compris les bots IA. Correction en 5 minutes : les citations commencent à apparaître en 3 semaines.

Erreurs fréquentes

  • robots.txt trop restrictif : une règle générique User-agent: * peut bloquer involontairement tous les nouveaux bots, y compris les IA
  • Contenu en JavaScript uniquement : les bots IA ne rendent pas toujours le JavaScript — le contenu doit être accessible en HTML brut
  • Pas de sitemap : sans sitemap, les bots découvrent vos pages au hasard et en manquent une partie
  • Oublier llms.txt : ce fichier, inspiré de robots.txt, est de plus en plus lu par les IA pour prioriser leur indexation