Por qué hacer benchmark en los LLM
Porque sus prospectos formulan ahora sus preguntas a un modelo antes de abrir Google. Si ChatGPT recomienda a tres competidores y nunca a su marca, pierde la venta antes incluso de haber entrado en la carrera. El benchmark competitivo LLM mide exactamente esa brecha.
La lógica difiere del SEO clásico. En la búsqueda tradicional, usted sigue su posición en una consulta. En la búsqueda generativa no hay página de resultados: el modelo sintetiza una respuesta y cita unas pocas marcas. La métrica adecuada ya no es, por tanto, el rango, sino la cuota de citas: sobre el conjunto de prompts de su mercado, cuántas respuestas le mencionan a usted y cuántas mencionan a cada competidor.
Esta distinción es a la vez medible y estratégica. Las señales que activan una cita IA no son las que determinan el posicionamiento en Google. El análisis de Ahrefs sobre 200.000 dominios (dic. 2025) muestra que las menciones de marca off-site correlacionan más con las citas IA (YouTube 0,737, Reddit, Wikipedia) que el Domain Rating (0,266). Puede dominar el SEO y seguir siendo invisible en ChatGPT. El solapamiento es escaso: solo el 11 % de los dominios son citados a la vez por ChatGPT y por las AI Overviews.
Antes de medir, clarifique el perímetro: su mercado, sus tres a cinco competidores directos y las preguntas que se plantea un comprador. Es la base de un enfoque estructurado de agencia GEO, donde cada cifra alimenta una decisión.
Construir la lista de prompts
Todo depende de la calidad de sus prompts. Un benchmark solo vale por la representatividad de las preguntas probadas: deben reproducir lo que un prospecto real pregunta, no lo que a usted le gustaría que preguntara.
Estructure la lista según el recorrido de compra, en tres familias. Este reparto evita el sesgo clásico de probar únicamente consultas de marca, en las que usted siempre gana.
Las tres familias de prompts
| Familia | Intención | Ejemplo de prompt |
|---|---|---|
| Descubrimiento | El prospecto explora un problema, sin una solución en mente | '¿Cómo mejorar la visibilidad de mi sitio en ChatGPT?' |
| Comparación | El prospecto compara enfoques o proveedores | 'Mejores agencias GEO en Francia en 2026' |
| Decisión | El prospecto busca validar una elección concreta | '¿Qué agencia elegir para optimizar mi visibilidad IA en Albi?' |
Apunte a entre 20 y 40 prompts en total, repartidos entre estas familias. Por debajo de 20, una sola respuesta atípica distorsiona sus porcentajes. Formúlelos en lenguaje natural, como se habla a un asistente, y no en palabras clave telegráficas. Varíe los ángulos: 'mejor', 'cómo elegir', 'alternativas a', 'para [sector]'.
Integre sistemáticamente prompts donde espere ver a sus competidores. Ahí es donde el benchmark se convierte en una herramienta competitiva y no en una mera prueba de ego. Documente también cada prompt en variantes próximas: los modelos son sensibles a la formulación, y una pregunta reformulada puede hacer aparecer o desaparecer una marca.
Ejecutar la prueba en cada modelo
Lance cada prompt en cada modelo en condiciones estandarizadas; de lo contrario, los resultados no son comparables de una oleada a otra. El protocolo cuenta tanto como los prompts.
Pruebe en navegación privada o en una cuenta dedicada, sin memoria ni personalización activada. El historial de una cuenta personal sesga las respuestas hacia sus propias búsquedas pasadas.
Ejecute cada prompt en ChatGPT, Perplexity y Gemini como mínimo. Se basan en mecanismos de cita distintos y no devuelven las mismas marcas.
Para cada respuesta, anote cada marca o dominio mencionado, su posición en la respuesta y si se cita como fuente o se recomienda en el texto.
Conserve una captura o el texto en bruto de cada respuesta. Los modelos evolucionan; sin un archivo, no podrá verificar ni comparar al mes siguiente.
Los LLM no son deterministas. Lance cada prompt dos veces y considere presente una marca si aparece al menos una vez.
Un detalle técnico pesa mucho en los resultados: los LLM no ejecutan JavaScript. Si el contenido de sus páginas se carga del lado del cliente, el crawler del modelo solo ve una página vacía. El renderizado del lado del servidor (SSR) o un HTML estático es, por tanto, indispensable para existir en el índice que alimenta estas respuestas. Un competidor ausente de su benchmark a pesar de una fuerte notoriedad suele tener exactamente este problema.
ChatGPT por sí solo representa un volumen de audiencia que justifica incluirlo en cada benchmark. Ignorar este modelo equivale a ignorar la principal interfaz de búsqueda generativa.
Para automatizar la recogida a escala y cruzar estos datos con su tráfico real, consulte nuestro método para seguir el tráfico de los LLM en GA4. El benchmark ofrece la fotografía; GA4 confirma el impacto en el negocio.
Leer la matriz de resultados
La matriz es una tabla con los prompts en filas, los modelos en columnas, y cada celda lista las marcas citadas. Es el objeto central del benchmark: transforma decenas de respuestas en un mapa legible de su visibilidad IA.
Calcule primero su cuota de citas: número de respuestas en las que aparece, dividido por el número total de respuestas probadas. Haga el mismo cálculo para cada competidor. Obtendrá una clasificación de visibilidad IA que a menudo no tiene nada que ver con la clasificación de Google de su mercado. Esta métrica de cuota de citas se desarrolla en detalle en nuestra guía sobre la cuota de voz IA.
Lea después la matriz según tres ejes de diagnóstico.
Las tres zonas que detectar
| Configuración de la celda | Qué significa | Prioridad de acción |
|---|---|---|
| Usted + competidores citados | Usted existe en esta pregunta, el mercado está repartido | Consolidar: reforzar su posición relativa |
| Competidor citado en solitario | Ocupa el espacio, usted es invisible | Atacar: crear el contenido citable que falta |
| Nadie pertinente citado | El modelo improvisa o cita fuera de tema | First mover: ventana abierta para ocupar rápido |
La tercera zona es la más rentable. Cuando ningún actor de su mercado es citado en un prompt de alta intención, la primera marca que publica un contenido factual, estructurado y citable se lo lleva todo. Es lo contrario de una batalla frontal: usted ocupa un terreno vacío.
Detecte también las diferencias entre modelos. Una marca citada en Perplexity pero ausente de ChatGPT revela una señal de cita precisa que trabajar: sourcing web para uno, notoriedad off-site para el otro. La matriz no solo dice dónde pierde, sino por qué.
Transformar en un plan de acción
Un benchmark sin plan de acción es un informe muerto. Cada zona de la matriz se traduce en un proyecto GEO concreto, priorizado por la brecha entre el valor de negocio del prompt y su ausencia actual.
Priorice según una regla sencilla: empiece por los prompts de decisión donde un competidor está citado en solitario, después por los prompts de descubrimiento donde la ventana está abierta. Los primeros recuperan ventas; los segundos construyen la autoridad de fondo.
Para cada prompt de decisión en el que falta, cree o enriquezca una página que responda directamente a la pregunta, con un pasaje citable autónomo de 134 a 167 palabras colocado al principio.
Añada schema FAQPage en estas páginas: es una señal fuerte para las AI Overviews, que facilita la extracción de sus pares pregunta-respuesta por los modelos.
Allí donde un competidor domina sin una ventaja SEO evidente, refuerce sus menciones en YouTube, Reddit y las fuentes que los modelos privilegian. Es lo que más correlaciona con las citas.
Audite cada página objetivo: si el contenido depende del JavaScript, pase a SSR o HTML estático para que el crawler del modelo vea realmente su texto.
Vuelva a lanzar la misma lista de prompts un mes después para medir el movimiento. Sin una segunda oleada, nunca sabrá si sus acciones han desplazado la cuota de citas.
El pasaje citable merece una atención particular. Un párrafo de 134 a 167 palabras, factual y autónomo, que responde por completo a la subpregunta, constituye la unidad que los modelos extraen. Demasiado corto, carece de sustancia; demasiado largo, diluye la respuesta y pierde su citabilidad. Es el formato óptimo observado en los contenidos efectivamente retomados.
Documente cada oleada en la misma tabla para seguir la trayectoria. La cuota de citas que sube oleada tras oleada es la prueba de que su estrategia GEO funciona, mucho antes de que la facturación lo confirme. Las cifras de progresión de un caso de cliente son ilustrativas: lo que cuenta es su propia curva, medida con un protocolo estable.
Para obtener un primer diagnóstico cuantificado sin montar usted mismo todo el protocolo, utilice nuestro Score de Visibilidad IA. Le ofrece una fotografía inmediata de su cuota de citas frente a sus competidores directos.
Nuestra auditoría GEO gratuita compara su visibilidad frente a sus competidores en ChatGPT, Perplexity y Gemini, y le entrega el plan de acción priorizado.
Questions fréquentes
¿Cuántos prompts hay que probar para un benchmark fiable?+
Cuente entre 20 y 40 prompts por mercado para obtener una primera fotografía representativa. Por debajo de 20, el ruido estadístico distorsiona las conclusiones; por encima de 40, el coste de recogida se dispara sin una ganancia de información importante. Repártalos entre preguntas de descubrimiento, de comparación y de decisión para cubrir todo el recorrido de compra.
¿En qué modelos hay que lanzar el benchmark?+
Como mínimo ChatGPT, Perplexity y Gemini, porque cubren la mayor parte de los usos y se basan en mecanismos de cita diferentes. ChatGPT supera los 900 millones de usuarios semanales. Añada Claude y Google AI Overviews si su audiencia los utiliza. Pruebe cada modelo en una sesión nueva, sin historial, para evitar la personalización.
¿Con qué frecuencia hay que repetir un benchmark competitivo LLM?+
Una vez al mes basta para seguir una tendencia, ya que las respuestas de los modelos evolucionan con las actualizaciones y el índice web. Conserve la misma lista de prompts y el mismo protocolo de una oleada a otra; de lo contrario, las variaciones dejan de ser comparables. Un seguimiento trimestral sigue siendo aceptable para un mercado estable y poco competitivo.
¿Sustituye el benchmark LLM al seguimiento de posiciones SEO?+
No, lo complementa. El posicionamiento en Google y la cuota de citas IA solo se solapan parcialmente: únicamente el 11 % de los dominios son citados a la vez por ChatGPT y por las AI Overviews. Seguir ambos ofrece una visión completa de su visibilidad, desde el enlace azul hasta la respuesta generativa.



