GPTBot
GPTBot est le robot d'exploration web d'OpenAI. Il collecte les données du web pour entraîner les modèles GPT et alimenter les fonctions de recherche de ChatGPT. L'autoriser dans votre robots.txt est la première condition nécessaire pour apparaître dans les réponses de ChatGPT — la plateforme IA la plus utilisée au monde avec plus de 200 millions d'utilisateurs actifs.
Pourquoi c'est important pour le GEO
Sans GPTBot, votre contenu n'existe tout simplement pas pour ChatGPT. Même si votre site est parfaitement optimisé — bon contenu, bon Schema.org, bons backlinks — ChatGPT ne peut pas le citer s'il n'a pas pu l'indexer. C'est la première étape obligatoire de toute stratégie GEO ciblant la plateforme d'OpenAI.
En 2023, OpenAI a rendu GPTBot opt-out : les sites peuvent le bloquer, mais doivent le faire explicitement. Par défaut, GPTBot est autorisé à crawler les sites qui n'ont pas de restriction. Si votre robots.txt contient un Disallow: / général, GPTBot peut être bloqué sans que vous le sachiez.
Comment optimiser
Ajoutez cette directive dans votre fichier robots.txt à la racine du site :
User-agent: GPTBot
Allow: /
Si vous souhaitez autoriser GPTBot sur l'ensemble du site sauf certaines pages sensibles (espace client, données confidentielles), vous pouvez combiner avec des règles ciblées :
User-agent: GPTBot
Allow: /
Disallow: /compte/
Disallow: /admin/
Exemple concret
Une entreprise de formation professionnelle bloquait GPTBot dans son ancien robots.txt via une règle Disallow: / globale. Après l'avoir corrigée pour autoriser GPTBot explicitement, ses pages de formation ont commencé à être indexées. En moins de trois mois, des réponses ChatGPT sur "meilleures formations management" citaient directement leurs programmes, générant 40 demandes de contact supplémentaires par mois.
Erreurs fréquentes
- Règle
Disallow: /oubliée : une règle globale bloque GPTBot même si elle date d'une ancienne configuration - Contenu derrière un formulaire ou un login : GPTBot ne peut pas remplir de formulaires ni se connecter
- JavaScript-only rendering : les pages dont le contenu n'est visible qu'après exécution JS sont difficilement lisibles par GPTBot
- Ne jamais vérifier : testez votre robots.txt avec le vérificateur de Google Search Console pour confirmer qu'aucun bot n'est bloqué involontairement