LUWIZ
Glossaire · SEO

Robots.txt

Le robots.txt est un fichier texte placé à la racine d'un site web (à l'adresse domaine.com/robots.txt) qui indique aux robots d'exploration, comme Googlebot, quelles parties du site ils sont autorisés ou non à parcourir. Il s'appuie sur le protocole d'exclusion des robots et utilise des directives simples : User-agent désigne le robot ciblé, Disallow interdit l'exploration d'un chemin, Allow l'autorise. Le robots.txt contrôle le crawl, c'est-à-dire l'accès au contenu, mais ne garantit pas la désindexation : une URL bloquée peut tout de même apparaître dans les résultats si elle reçoit des liens. C'est un outil essentiel de gestion du budget de crawl, qui évite que les robots gaspillent leurs ressources sur des pages sans valeur SEO comme les pages d'administration, les paniers ou les filtres à facettes. Un robots.txt mal configuré peut bloquer involontairement des pages stratégiques et nuire gravement à la visibilité d'un site.

Le robots.txt est l'un des premiers fichiers consultés par un robot d'exploration lorsqu'il visite un site. Bien que minuscule, il a un impact direct sur la manière dont votre contenu est découvert et exploré par les moteurs de recherche et, de plus en plus, par les robots des intelligences artificielles.

Comment ça marche

Le fichier suit le protocole d'exclusion des robots. Il regroupe des directives organisées par bloc, chacun ciblant un ou plusieurs robots via la directive User-agent. Les directives Disallow et Allow définissent ensuite les chemins interdits ou autorisés. Voici un exemple simple :

User-agent: *
Disallow: /admin/
Disallow: /panier/
Allow: /

Sitemap: https://domaine.com/sitemap.xml

La ligne Sitemap indique l'emplacement du sitemap XML, ce qui aide les robots à découvrir l'ensemble des URL importantes. Les robots respectueux, comme Googlebot, lisent ce fichier avant d'explorer le site.

Pourquoi c'est important

Le principal intérêt du robots.txt est la maîtrise du budget de crawl. Sur un grand site, empêcher les robots de gaspiller leurs ressources sur des pages sans valeur (filtres, paramètres d'URL, espaces privés) leur permet de se concentrer sur les contenus stratégiques. À l'inverse, une erreur de syntaxe peut bloquer des sections entières et faire disparaître un site des résultats de recherche.

À retenir
Le robots.txt contrôle l'accès, pas la présence dans l'index. Pour désindexer une page, utilisez la balise noindex, pas un Disallow.

Robots.txt et IA générative

En 2026, le robots.txt joue un rôle nouveau : il permet d'autoriser ou de bloquer les robots des modèles de langage (GPTBot, ClaudeBot, PerplexityBot, Google-Extended). Bloquer ces agents protège votre contenu de l'entraînement, mais peut aussi réduire vos chances d'être cité dans les réponses des assistants IA. Cet arbitrage stratégique fait désormais partie intégrante d'une démarche de visibilité moderne, à articuler avec votre fichier llms.txt et votre stratégie globale.

FAQ

Questions fréquentes

Non. Le robots.txt bloque l'exploration mais pas l'indexation. Une URL bloquée peut tout de même figurer dans les résultats de recherche si d'autres pages pointent vers elle. Pour empêcher l'indexation, utilisez plutôt la balise meta robots noindex sur une page accessible au crawl.

Le fichier doit impérativement être placé à la racine du domaine, accessible à l'adresse domaine.com/robots.txt. Placé ailleurs, il sera ignoré par les robots. Chaque sous-domaine nécessite son propre fichier robots.txt.

Audit gratuit

Une question sur votre visibilité IA ?

Score de visibilité IA de votre site. Gap analysis vs 3 concurrents directs. 5 optimisations prioritaires. Livré en PDF, sans engagement.

Réponse sous 24h · Sans engagement · contact@luwiz.io