# Tokenisation

> La tokenisation est le procédé par lequel un modèle de langage (LLM) découpe un texte en unités élémentaires appelées tokens, avant de le traiter. Un token n'est pas exactement un mot : il peut correspondre à un mot court, à un fragment de mot, à un signe de ponctuation ou à une suite de caractères. En français, on compte en moyenne entre 1,2 et 1,5 token par mot, contre environ 1,3 token par mot en anglais. La tokenisation conditionne le coût d'un appel API (facturé au token), la longueur maximale de contexte qu'un modèle peut ingérer, et la manière dont il segmente puis comprend un contenu. Pour le référencement génératif, comprendre la tokenisation aide à structurer des passages denses et autonomes que le modèle peut isoler, vectoriser et citer. Un contenu clair, segmenté en phrases factuelles, se tokenise et se réutilise plus facilement par une IA générative.

[source]: https://luwiz.io/glossaire/tokenisation

---

La tokenisation est l'étape invisible mais décisive qui précède tout traitement par un modèle de langage. Avant de comprendre, de résumer ou de citer votre contenu, une IA le transforme en une suite de tokens. Maîtriser ce mécanisme permet d'écrire des contenus que les modèles ingèrent et réutilisent sans friction.

## Comment ça marche

Un modèle ne lit pas des mots, mais des identifiants numériques. Le tokeniseur applique un algorithme — le plus souvent le Byte Pair Encoding (BPE) — qui apprend les séquences de caractères les plus fréquentes et les regroupe en tokens. Les mots courants deviennent un seul token, tandis que les mots rares, les noms propres ou les termes techniques sont fragmentés en plusieurs morceaux. Cette suite de tokens est ensuite convertie en vecteurs (voir l'[embedding](/glossaire/embedding)) que le modèle manipule.

## Pourquoi c'est important

La tokenisation a trois conséquences directes. D'abord le **coût** : les API de LLM facturent au [token](/glossaire/token), en entrée comme en sortie. Ensuite la **fenêtre de contexte** : un modèle plafonne à un nombre maximal de tokens, ce qui limite la quantité de texte traitable en une fois. Enfin la **compréhension** : un texte mal structuré, surchargé de jargon ou de caractères inhabituels, se tokenise de façon irrégulière et devient plus difficile à segmenter proprement.

<Callout label="À retenir">Écrire pour l'IA, c'est écrire pour la tokenisation : des phrases courtes, des faits autonomes, un vocabulaire clair se découpent en tokens nets et se citent mieux.</Callout>

## Exemple concret

Le mot « référencement » peut être découpé en deux ou trois tokens selon le tokeniseur, alors que « SEO » en occupe un seul. Cela n'a rien d'anecdotique : une page dense en termes rares consomme plus de tokens et offre des frontières de découpage moins nettes. En structurant vos contenus en passages factuels et autosuffisants, vous facilitez à la fois le [chunking](/glossaire/chunking) et l'extraction de citations par les moteurs génératifs.