Le coût caché de la langue en IA — et ce que vous pouvez faire
Voici une question qui mérite qu’on s’y attarde : si vous écrivez un prompt en français à un assistant IA, obtenez-vous la même qualité de résultat qu’un collègue qui tape exactement la même demande… en anglais ?
La réponse, structurellement, est non.
Pas parce que l’IA serait moins capable — mais à cause de quelque chose d’encastré au cœur de ces systèmes : le token.
Cet article explique ce qu’est un token, pourquoi la langue compte beaucoup plus qu’on ne le pense, et surtout quelles habitudes concrètes adopter pour tirer le meilleur de l’IA, quelle que soit votre langue de travail.

Qu’est-ce qu’un token ?
Les modèles de langage ne lisent pas le texte comme vous. Ils ne traitent pas des mots ou des phrases entières. À la place, ils découpent le texte en petites unités appelées tokens — très grossièrement, un token correspond à un morceau d’environ 4 caractères en anglais, ce qui se traduit souvent par un bout de mot, un petit mot complet, ou une terminaison fréquente.

Le mot « Apple » en anglais ? 1 token. Le mot français « Élégance » ? Il se fragmente en 2 tokens : « Élég » + « ance ». Le salut hindi « नमस्ते » (en devanagari) ? Jusqu’à 6–10 tokens, parce que le tokenizer doit décomposer caractère par caractère.
(Ces comptes sont indicatifs — la tokenisation exacte dépend du modèle et de la version du tokenizer.)
Ce n’est pas aléatoire. Les tokenizers sont entraînés majoritairement sur de l’anglais — par exemple, Meta indique que Llama 3 a utilisé ~95% d’anglais et de code dans son dataset d’entraînement. Résultat : un vocabulaire très riche et très efficace pour l’anglais… et moins efficace pour beaucoup d’autres langues.

Les tokenizers plus récents (comme o200k_base de GPT-4o et Tekken chez Mistral) commencent à corriger ce déséquilibre — on y revient plus loin.
La « taxe token » : un vrai écart d’efficacité
Les chercheurs qui ont mesuré la consommation de tokens selon les langues utilisent une expression parlante : la « token tax » (la taxe token). Les langues non-anglophones portent une inflation structurelle — elles coûtent plus de tokens pour exprimer le même contenu sémantique.
Pensez-y comme à un taux de change où l’anglais serait toujours la monnaie de réserve.

Sources : Petrov et al., « Language Model Tokenizers Introduce Unfairness Between Languages » (NeurIPS 2023) ; Ahia et al., « Do All Languages Cost the Same? » (2023). Chiffres approximatifs, variables selon modèles et versions de tokenizers. Note : « tokens/mot » est une mesure imparfaite pour le chinois (absence de frontières de mots) ; la mesure courante pour les langues CJK est plutôt les tokens par caractère.
Pourquoi le chinois n’échappe-t-il pas à la taxe ?

Le chinois est une langue très dense : un seul caractère peut condenser un concept entier. Et pourtant, il paie une prime.
La raison tient à ce qu’on peut appeler le paradoxe d’encodage UTF-8 : un caractère latin occupe 1 octet en mémoire, tandis qu’un caractère chinois standard en occupe 3.
Or les tokenizers (souvent basés sur du byte-pair encoding) apprennent à partir de représentations en bytes et de la fréquence dans les corpus. Un caractère très fréquent peut être 1 token ; un caractère plus rare peut se fragmenter en 2 ou 3. En pratique, la densité sémantique est en partie compensée — mais pas annulée.
Pourquoi ça compte vraiment : la fenêtre de contexte
Les tokens semblent abstraits… jusqu’au moment où vous comprenez que chaque modèle possède une fenêtre de contexte : une limite dure sur le nombre de tokens qu’il peut garder en « mémoire » à un instant donné.
Ce n’est pas seulement votre prompt — cela inclut aussi la réponse, les documents fournis, et l’historique de conversation.
Une fenêtre de 128 000 tokens — une taille courante aujourd’hui — permet à un utilisateur anglophone de charger l’équivalent d’un roman entier. La même fenêtre, remplie d’un document en arabe ou en hindi, peut n’en contenir qu’un tiers à un cinquième — et pour certaines langues très « low-resource », la littérature documente des écarts allant jusqu’à 15×. Même mémoire. Capacité très différente.


Cela a un effet concret sur la qualité du raisonnement. Les tâches complexes — analyse juridique, synthèse, aide à la décision multi-étapes — reposent sur la capacité du modèle à conserver suffisamment de contexte pour raisonner de manière cohérente.
Dans les langues « inflationnistes », le contexte se remplit plus vite : le modèle est forcé de tronquer, compresser, ou raisonner plus superficiellement.
Vous payez, de facto, plus de calcul pour moins d’intelligence.
Un exemple concret
Imaginez que vous uploadiez une note de politique publique de 20 pages en français et demandiez une analyse détaillée. Comparée au même document en anglais, la version française consommera plus de fenêtre de contexte juste pour être lue — laissant moins de place à la couche de raisonnement. Le résultat peut devenir plus générique.
Ce que vous pouvez faire : des stratégies pratiques
Comprendre la taxe token n’est pas un argument pour abandonner votre langue de travail. C’est un argument pour être délibéré : faire de la langue un paramètre de prompt engineering.

Voici quatre stratégies concrètes :
1) Prompter en anglais pour les tâches de raisonnement complexes
Pour les tâches qui demandent un raisonnement structuré, multi-étapes — rédaction, analyse, classification, génération de code — prompter en anglais est souvent l’approche la plus efficace en tokens.
La recherche (dont une étude EPFL 2024 sur Llama-2) suggère que les modèles raisonnent souvent via une représentation interne « proche de l’anglais », même quand on les interroge dans une autre langue.
La nuance importante : l’écart se réduit avec les modèles récents, en particulier pour des langues européennes « high-resource » comme le français.

Vous pouvez ensuite demander une réponse en français :
Exemple de prompt :
"Analyze this document and identify the three main risks. Respond in French."
Vous gardez une meilleure qualité de raisonnement, avec une sortie en français.
2) Rester concis dans les langues non-anglophones

Chaque mot en plus, dans une langue « chère », consomme davantage de fenêtre de contexte.
Soyez particulièrement concis en allemand, arabe, ou dans d’autres langues morphologiquement complexes.
Enlevez les politesses, le contexte redondant, les longues introductions.
Allez droit à l’instruction.
3) Résumer les documents longs avant une analyse en profondeur

Si vous devez travailler sur un document long dans une langue non-anglaise, demandez d’abord une synthèse concise — puis utilisez cette synthèse comme base pour l’analyse. Ce « two-step » réduit fortement la consommation de tokens avant même que le raisonnement ne commence.
4) Utiliser l’anglais pour les prompts « chain-of-thought »

Les techniques type « réfléchis étape par étape » sont très gourmandes en tokens — elles demandent au modèle de raisonner à voix haute.
Elles sont souvent plus efficaces en anglais, où elles épuisent moins vite le budget de contexte.
Les modèles européens réduisent l’écart
La taxe token n’est pas une fatalité. Des modèles d’origine européenne réduisent ce biais en entraînant leurs tokenizers sur des corpus mieux équilibrés. Un modèle « né » en Europe peut apprendre à reconnaître davantage de mots français comme unités fréquentes, réduisant la fragmentation.
C’est une raison concrète pour laquelle l’infrastructure IA européenne compte au-delà des débats politiques : l’efficacité linguistique est une décision d’infrastructure.
Correction de marché : les modèles européens ripostent
EuroLLM — conçu dès le départ pour les 24 langues de l’UE

Origine : consortium de recherche financé par l’UE (Unbabel, University of Edinburgh, Instituto Superior Técnico, Université Paris-Saclay, etc.). Open source, licence Apache 2.0.
Lancé en septembre 2024 et entraîné sur EuroHPC (MareNostrum 5, Barcelone), EuroLLM vise une couverture native des 24 langues officielles de l’UE.
Le tokenizer EuroLLM utilise un vocabulaire SentencePiece BPE (byte-fallback) de 128 000 sous-mots, entraîné sur l’ensemble du corpus multilingue. Résultat : une fertilité médiane de 1,2–1,4 tokens par mot sur les langues de l’UE — proche de l’anglais.
Nuance : EuroLLM reste « research-grade » — pas encore au niveau des meilleurs modèles commerciaux pour le raisonnement général. Sa force : couverture multilingue et équité de tokenisation.
Sources : EuroHPC JU (2024) ; HuggingFace EuroLLM-22B blog (2025) ; Martins et al., EuroLLM (2024).
Mistral AI — réduire l’écart pour les langues européennes
Avec Mistral NeMo (2024), Mistral introduit Tekken, un tokenizer entraîné sur 100+ langues avec un vocabulaire 10× plus large.
Tekken est ~30% plus efficace sur plusieurs langues (dont français, allemand, espagnol, italien) et 2× à 3× sur le coréen et l’arabe, comparé au tokenizer précédent.
Conséquence : l’écart de coût tokens entre anglais et français se réduit fortement sur les modèles Mistral récents.
Source : mistral.ai/news/mistral-nemo (2024).
À retenir

- Les modèles traitent du texte en tokens, pas en mots — et l’anglais est structurellement plus « compact ».
- Les langues non-anglaises paient une taxe token : plus de contexte consommé, et parfois moins de profondeur de raisonnement.
- L’UTF-8 explique pourquoi le chinois n’est pas totalement épargné.
- Astuce clé : prompter en anglais pour les tâches complexes, tout en demandant une réponse en français.
- Les modèles européens commencent à corriger l’asymétrie via des tokenizers mieux adaptés.
- Testez : prenez un prompt habituel, réécrivez l’instruction en anglais avec « Respond in French », puis comparez.
