Sous le capot de l’IA, des tokens par milliers

par Patrick Meyer - Artificial Intelligence Senior Architect & Technical Director, Sopra Steria
| minutes de lecture

Que se passerait-il si nous rencontrions une espèce extraterrestre qui ne comprendrait que les chiffres ? Comment communiquer avec elle ? Chacun de nos mots devrait d'abord être traduit en code numérique avant d'être traité par nos interlocuteurs. Cette métaphore illustre parfaitement le

défi auquel font face les systèmes d'intelligence artificielle aujourd'hui. La solution à cette situation complexe réside dans un processus fondamental : la tokenisation.

Quand nous interagissons avec ChatGPT, posons des questions à un assistant virtuel ou utilisons n'importe quel outil d'IA conversationnelle, nous assistons au résultat final d'un processus de traduction complexe qui convertit le langage humain en séquences numériques compréhensibles par les machines et inversement. Au cœur de cette transformation se trouvent les tokens (jeton ou unité lexicale) : les briques élémentaires qui font le pont entre communication humaine et intelligence artificielle.

Lost in translation

La première confusion qu’il convient de dissiper concerne la nature même des tokens. Contrairement à l'intuition, tokens et mots ne sont pas synonymes. La tokenisation constitue un processus d'encodage spécifique à l'IA, car les réseaux de neurones ne fonctionnent qu'avec des nombres, jamais avec des mots. Cette transformation numérique s'avère donc indispensable pour permettre aux machines de traiter le langage humain.

Cette conversion débute pendant la phase d'entraînement des modèles d'IA, au cours de laquelle d'énormes volumes de texte subissent un traitement par des algorithmes statistiques. Dans ma pratique, j'observe souvent des équipes qui sous-estiment cette étape, alors qu'elle détermine la qualité finale du système. Le processus consiste à nettoyer le texte (suppression de la ponctuation, normalisation), puis à déployer des algorithmes qui comptabilisent les occurrences de groupes de lettres selon leur fréquence d'apparition.

Le Larousse de la machine

Cette analyse statistique génère ce que nous appelons un "dictionnaire de tokens". Il s’agit d’un référentiel qui associe chaque élément linguistique (caractère, groupe de caractères ou mot entier) à un identifiant numérique unique. Imaginez une gigantesque table de correspondance où "le" pourrait devenir "1", "chat" devenir "247", et "intelligence" devenir "15892". Cette base de données peut contenir entre 50 000 et 100 000 entrées, chacune représentant un fragment de langage que le modèle pourra reconnaître et manipuler.

L'efficacité de cette approche dépend entièrement de la représentativité du corpus d'entraînement. Plus un mot ou une séquence apparaît fréquemment dans les données d'apprentissage, plus elle obtient un token spécifique et sera correctement traitée par le système. À l'inverse, les termes rares risquent d'être fragmentés en unités plus petites, perdant ainsi une partie de leur sens contextuel.

All you need is... English

Cette approche statistique révèle un déséquilibre majeur dans l'écosystème actuel de l'IA. La prédominance de l'anglais dans les corpus d'entraînement (environ 90% des données) crée un dictionnaire optimisé pour cette langue au détriment des autres. Cette situation n'est pas anodine : elle reflète la domination culturelle et économique des pays anglophones dans la production de contenu numérique.

Les conséquences pratiques de ce biais se manifestent immédiatement dans les coûts d'utilisation. Le français, par exemple, nécessite en moyenne 20% de tokens supplémentaires par rapport à l'anglais pour exprimer le même concept. Cette différence s'explique par une segmentation moins efficace : là où l'anglais dispose d'un token unique pour un mot courant, le français voit ce même concept découpé en plusieurs fragments, multipliant les coûts de traitement.

Au-delà de l'aspect financier, cette asymétrie introduit des biais culturels et linguistiques dans les réponses générées. Les modèles privilégient naturellement les tournures et références anglo-saxonnes, appauvrissant la richesse des expressions françaises ou d'autres langues.

SAP, CRM, ERP : l'IA face à la langue corporate

L'adaptation aux terminologies d'entreprise représente un défi complexe. Les dictionnaires de tokens, construits sur des corpus publics, ignorent par définition les vocabulaires spécialisés : acronymes internes, noms d'applications propriétaires, jargon sectoriel. Cette lacune génère des dysfonctionnements systématiques.

Prenons l'exemple d'une application d'entreprise nommée "COMPTA-RH-2024". Un système d'IA standard fragmentera cette désignation en multiples tokens : "COM", "PT", "A", "-R", "H", "-", "202", "4", soit au minimum huit éléments distincts. Cette fragmentation dilue le sens et multiplie les coûts de traitement, tout en augmentant le risque d'hallucinations ou d'interprétations erronées.

Pour pallier cette limitation, nous développons des stratégies de fine-tuning qui enrichissent le vocabulaire de base avec la terminologie client. Cette approche permet d'améliorer significativement la précision des réponses tout en optimisant les coûts d'exploitation.

Des fenêtres de contexte pour aérer sa mémoire

La compréhension des limites de tokens devient cruciale lors d'implémentations d'IA à grande échelle. Chaque modèle dispose d'une "fenêtre de contexte", c’est-à-dire une limite maximale du nombre de tokens qu'il peut traiter simultanément. Dépasser cette limite peut provoquer soit un rejet de la requête, soit un traitement tronqué sans avertissement explicite.

Plus pernicieux encore, la recherche révèle un phénomène appelé "perte au milieu" : les modèles accordent plus d'importance aux informations situées au début et à la fin du contexte, négligeant relativement le contenu central. Cette caractéristique suit une courbe en U qui invalide l'approche naïve consistant à "tout envoyer au modèle pour qu'il résume".

Face à cette contrainte, nous développons des méthodologies de contournement : techniques de map-reduce (résumé par blocs puis synthèse des résumés), approches itératives (résumé progressif avec conservation des éléments essentiels), ou segmentation intelligente du contenu selon l'importance contextuelle.

Recommandations stratégiques pour les entreprises

Pour les entreprises qui souhaitent se doter d’une IA conversationnelle, nous pouvons formuler plusieurs préconisations essentielles :

  • Maîtrise conceptuelle : La distinction entre mots et tokens conditionne toute approche rationnelle de l'IA. Cette compréhension doit irriguer les équipes techniques comme les décideurs business, car elle impacte directement les budgets et les performances.
  • Conscience linguistique : L'asymétrie de traitement entre langues nécessite une planification budgétaire adaptée. Les organisations multilingues doivent intégrer ces surcoûts dans leurs modèles économiques et envisager des stratégies de fine-tuning ciblées.
  • Optimisation des prompts : La tentation de maximiser l'utilisation des fenêtres de contexte s'avère contre-productive. Une approche structurée, segmentée et progressive génère de meilleurs résultats qu'un déversement massif d'informations.
  • Surveillance opérationnelle : La mise en place d'outils de monitoring des tokens, en entrée comme en sortie, permet un pilotage fin des coûts et des performances. Cette supervision technique doit devenir un réflexe organisationnel.

Demain, tous bilingues ? L'IA post-tokens

L'écosystème de la tokenisation évolue vers plus de sophistication. Les approches émergentes explorent la tokenisation au niveau caractère, les représentations multimodales (texte, image, audio dans un espace unifié), ou encore les architectures qui s'affranchissent partiellement des contraintes de tokens traditionnels.

Cependant, ces innovations restent aujourd’hui l'apanage des grands laboratoires de recherche. Pour les organisations qui déploient l'IA, la maîtrise des mécanismes actuels demeure prioritaire car comprendre la tokenisation, c'est décrypter les fondements économiques et techniques de l'intelligence artificielle contemporaine.

Search

artificial-intelligence

Contenus associés

L’IA en première ligne dans la lutte d’Iberpay contre la fraude financière

Iberpay intègre l’IA à son service anti-fraude et offre aux banques des données clés pour lutter contre la criminalité financière. 

TradSNCF : L’IA au service des agents de gare pour l’accueil des voyageurs

Découvrez TradSNCF, l'outil de traduction de la SNCF alimenté par l'IA qui améliore l'expérience voyage de millions de passagers du monde entier.

La technologie au service de la lutte contre l’analphabétisme

Comment Norad et Sopra Steria utilisent l'IA et la technologie cloud pour lutter contre l'analphabétisme infantile.