LUWIZ
Glossaire · GEO

Token

Un token es la unidad básica que maneja un gran modelo de lenguaje (LLM): un fragmento de texto que puede representar una palabra entera, parte de una palabra, un solo carácter o un signo de puntuación. Antes de procesar una consulta o un documento, el modelo divide el texto en tokens mediante un proceso llamado tokenización, y luego convierte cada token en un vector numérico. En español, una palabra común suele corresponder a un único token, mientras que un término largo, raro o técnico se fragmenta en varios tokens. Los modelos razonan y facturan en tokens, no en palabras: su ventana de contexto, sus límites de entrada y salida y el coste de uso de las API se miden todos en número de tokens. Para el GEO, entender el token aclara cómo un LLM lee, segmenta y pondera el contenido de una página antes de decidir qué pasajes citar en sus respuestas.

El token es el ladrillo elemental con el que todo gran modelo de lenguaje percibe el texto. Donde un humano lee palabras y frases, el modelo solo ve una secuencia de tokens: fragmentos estandarizados que aprendió a reconocer durante su entrenamiento.

Cómo funciona

Antes de cualquier cálculo, el modelo aplica una tokenización al texto recibido. Un tokenizador segmenta la cadena de caracteres en tokens según un vocabulario fijo, normalmente aprendido por compresión estadística (algoritmos de tipo Byte-Pair Encoding). Cada token se asocia luego a un identificador numérico y se transforma en un embedding, un vector que el modelo puede manipular matemáticamente.

La división no es intuitiva. La palabra "optimización" puede convertirse en un solo token o dividirse en "optim" + "ización" según el tokenizador. Los espacios, la puntuación y las mayúsculas también cuentan. Por eso un mismo contenido no ocupa el mismo número de tokens de un idioma a otro.

Por qué importa en GEO

Los modelos no razonan en palabras sino en tokens, y de ello se derivan tres consecuencias concretas para la visibilidad IA.

Primero, la ventana de contexto — la cantidad de texto que un modelo puede procesar de una vez — se mide en tokens. Un contenido demasiado denso o mal estructurado corre el riesgo de quedar truncado.

Después, el coste y la latencia de las API dependen del volumen de tokens de entrada/salida. Esto influye en cómo los motores de respuesta muestrean las fuentes.

Por último, la forma en que su página se segmenta en tokens condiciona su división en pasajes y, por tanto, su citabilidad IA.

A retenir
Los LLM leen, cuentan y facturan en tokens, no en palabras. Un contenido claro y bien segmentado se procesa de forma más eficiente — y tiene más probabilidades de ser citado.

Un ejemplo concreto

La frase "LUWIZ optimiza la visibilidad IA" tiene cinco palabras, pero puede representar de siete a nueve tokens según el tokenizador, ya que el nombre de marca "LUWIZ" suele dividirse en varios fragmentos al no figurar en el vocabulario. Esta es una de las razones por las que reforzar la entidad nombrada de una marca pesa tanto en GEO.

FAQ

Questions fréquentes

Una palabra es una unidad lingüística; un token, una unidad técnica del modelo. Una palabra común suele equivaler a un token, pero un término largo o raro se divide en varios tokens. De media, en español, cuente alrededor de 1,3 a 1,5 tokens por palabra.

Las API de LLM facturan según el número de tokens de entrada y salida, no por número de palabras. La ventana de contexto del modelo también se mide en tokens. Reducir la verbosidad de un prompt disminuye así directamente el coste y la latencia.

Audit gratuit

Une question sur votre visibilité IA ?

Score de visibilité IA de votre site. Gap analysis vs 3 concurrents directs. 5 optimisations prioritaires. Livré en PDF, sans engagement.

Réponse sous 24h · Sans engagement · contact@luwiz.io