Glossaire · GEO

Tokenización

La tokenización es el proceso por el cual un modelo de lenguaje (LLM) divide un texto en unidades elementales llamadas tokens antes de procesarlo. Un token no es exactamente una palabra: puede corresponder a una palabra corta, a un fragmento de palabra, a un signo de puntuación o a una secuencia de caracteres. En español se cuentan en promedio entre 1,3 y 1,5 tokens por palabra, frente a alrededor de 1,3 tokens por palabra en inglés. La tokenización condiciona el coste de una llamada a la API (facturada por token), la longitud máxima de contexto que un modelo puede ingerir y la manera en que segmenta y luego comprende un contenido. Para el posicionamiento generativo, entender la tokenización ayuda a estructurar pasajes densos y autónomos que el modelo pueda aislar, vectorizar y citar. Un contenido claro, segmentado en frases factuales, se tokeniza y se reutiliza con mayor facilidad por una IA generativa.

La tokenización es el paso invisible pero decisivo que precede a todo procesamiento por un modelo de lenguaje. Antes de comprender, resumir o citar su contenido, una IA lo transforma en una secuencia de tokens. Dominar este mecanismo permite escribir contenidos que los modelos ingieren y reutilizan sin fricción.

Cómo funciona

Un modelo no lee palabras, sino identificadores numéricos. El tokenizador aplica un algoritmo —con mayor frecuencia el Byte Pair Encoding (BPE)— que aprende las secuencias de caracteres más frecuentes y las agrupa en tokens. Las palabras comunes se convierten en un solo token, mientras que las palabras raras, los nombres propios o los términos técnicos se fragmentan en varias piezas. Esta secuencia de tokens se convierte luego en vectores (véase el embedding) que el modelo manipula.

Por qué es importante

La tokenización tiene tres consecuencias directas. Primero, el coste: las API de LLM facturan por token, tanto de entrada como de salida. Segundo, la ventana de contexto: un modelo tiene un límite máximo de tokens, lo que restringe la cantidad de texto procesable de una sola vez. Tercero, la comprensión: un texto mal estructurado, sobrecargado de jerga o de caracteres inusuales, se tokeniza de forma irregular y resulta más difícil de segmentar con limpieza.

Para recordar

Escribir para la IA es escribir para la tokenización: frases cortas, hechos autónomos y un vocabulario claro se dividen en tokens limpios y se citan más.

Un ejemplo concreto

La palabra «posicionamiento» puede dividirse en dos o tres tokens según el tokenizador, mientras que «SEO» ocupa uno solo. No es un detalle menor: una página densa en términos raros consume más tokens y ofrece fronteras de segmentación menos nítidas. Al estructurar sus contenidos en pasajes factuales y autosuficientes, facilita tanto el chunking como la extracción de citas por los motores generativos.

FAQ

Preguntas frecuentes

No exactamente. Un token es una unidad de segmentación que puede ser una palabra entera, un fragmento de palabra, un espacio o un signo de puntuación. En español una palabra equivale en promedio a 1,3-1,5 tokens, y las palabras largas o raras se dividen en varias piezas.

Porque determina cómo un modelo segmenta y tarifica su contenido. Los pasajes cortos, factuales y autónomos se tokenizan de forma limpia y son más fáciles de aislar y luego de citar por una IA generativa.

Ir más lejos

Términos y recursos relacionados

Glossaire

Token

La unidad elemental producida por la tokenización y facturada por los LLM.

Descubrir

Glossaire

Chunking

La división de un documento en pasajes coherentes para la indexación y el RAG.

Descubrir

Service

Servicio GEO

Optimizar sus contenidos para que las IA generativas los comprendan y los citen.

Descubrir

Auditoría gratuita

¿Una pregunta sobre tu visibilidad en la IA?

La puntuación de visibilidad IA de tu sitio. Análisis de brechas frente a 3 competidores directos. 5 optimizaciones prioritarias. Entregado en PDF, sin compromiso.

Respuesta en 24 h · Sin compromiso · contact@luwiz.io