LUWIZ
Glossaire · SEO

Robots.txt

Robots.txt es un archivo de texto situado en la raíz de un sitio web (en la dirección dominio.com/robots.txt) que indica a los robots de rastreo, como Googlebot, qué partes del sitio pueden o no pueden recorrer. Se basa en el protocolo de exclusión de robots y utiliza directivas sencillas: User-agent designa el robot al que se dirige, Disallow prohíbe el rastreo de una ruta y Allow lo permite. Robots.txt controla el rastreo, es decir, el acceso al contenido, pero no garantiza la desindexación: una URL bloqueada puede seguir apareciendo en los resultados si recibe enlaces. Es una herramienta esencial para gestionar el presupuesto de rastreo, ya que evita que los robots malgasten sus recursos en páginas sin valor SEO como las páginas de administración, los carritos o los filtros por facetas. Un robots.txt mal configurado puede bloquear sin querer páginas estratégicas y perjudicar gravemente la visibilidad de un sitio en las búsquedas.

Robots.txt es uno de los primeros archivos que consulta un robot de rastreo cuando visita un sitio. Aunque diminuto, tiene un impacto directo en la forma en que su contenido es descubierto y explorado por los motores de búsqueda y, cada vez más, por los robots de las inteligencias artificiales.

Cómo funciona

El archivo sigue el protocolo de exclusión de robots. Agrupa directivas organizadas por bloques, cada uno dirigido a uno o varios robots mediante la directiva User-agent. Las directivas Disallow y Allow definen después las rutas prohibidas o permitidas. Aquí tiene un ejemplo sencillo:

User-agent: *
Disallow: /admin/
Disallow: /carrito/
Allow: /

Sitemap: https://dominio.com/sitemap.xml

La línea Sitemap indica la ubicación del sitemap XML, lo que ayuda a los robots a descubrir todas las URL importantes. Los robots respetuosos, como Googlebot, leen este archivo antes de explorar el sitio.

Por qué es importante

El principal interés de robots.txt es el control del presupuesto de rastreo. En un sitio grande, impedir que los robots malgasten sus recursos en páginas sin valor (filtros, parámetros de URL, espacios privados) les permite centrarse en los contenidos estratégicos. Por el contrario, un error de sintaxis puede bloquear secciones enteras y hacer desaparecer un sitio de los resultados de búsqueda.

Para recordar
Robots.txt controla el acceso, no la presencia en el índice. Para desindexar una página, utilice la etiqueta noindex, no un Disallow.

Robots.txt e IA generativa

En 2026, robots.txt desempeña un nuevo papel: permite autorizar o bloquear los robots de los modelos de lenguaje (GPTBot, ClaudeBot, PerplexityBot, Google-Extended). Bloquear estos agentes protege su contenido del entrenamiento, pero también puede reducir sus posibilidades de ser citado en las respuestas de los asistentes de IA. Este arbitraje estratégico forma ya parte integral de un enfoque de visibilidad moderno, que debe articularse con su archivo llms.txt y su estrategia global.

FAQ

Questions fréquentes

No. Robots.txt bloquea el rastreo, pero no la indexación. Una URL bloqueada puede aparecer igualmente en los resultados de búsqueda si otras páginas enlazan con ella. Para impedir la indexación, utilice la etiqueta meta robots noindex en una página accesible al rastreo.

El archivo debe situarse obligatoriamente en la raíz del dominio, accesible en dominio.com/robots.txt. Si se coloca en otro lugar, los robots lo ignorarán. Cada subdominio necesita su propio archivo robots.txt.

Audit gratuit

Une question sur votre visibilité IA ?

Score de visibilité IA de votre site. Gap analysis vs 3 concurrents directs. 5 optimisations prioritaires. Livré en PDF, sans engagement.

Réponse sous 24h · Sans engagement · contact@luwiz.io