Pas le temps de lire l'article ? Voici ce qu'il faut retenir.
L'entreprise Intuz explique que les machines ne comprennent pas les mots, mais plutôt une suite de chiffres, et que le texte doit être converti en une forme exploitable par la tokenisation.
1
Tokenisation — Le processus de découpage du texte en petits bouts appelés tokens, qui peuvent être des mots entiers, des bouts de mots ou des signes de ponctuation.
2
Coût en tokens — Un mot courant en anglais passe en un seul token, tandis qu'un mot équivalent en français peut être découpé en plusieurs morceaux, augmentant ainsi le coût en tokens.
3
Surcoût linguistique — Une étude de chercheurs d'Oxford chiffre à environ 50 % le surcoût pour traiter un texte en allemand ou en italien par rapport à l'anglais.
💡
Pourquoi c'est important : La compréhension de la tokenisation et du coût en tokens est essentielle pour évaluer l'efficacité et le coût des modèles d'intelligence artificielle.