Символи на токен у різних моделях LLM

Символи на токен у різних моделях LLM для різних мов

Мова / МодельGPT-4o (2024-08-06)GPT-4o-mini (2024-07-18)GPT-4Claude-3-5-Sonnet (2024-06-20)
EnglishSymbols: 4.63Symbols: 4.60Symbols: 4.77Symbols: 4.41
Words: 0.77Words: 0.77Words: 0.79Words: 0.74
FrenchSymbols: 3.65Symbols: 3.65Symbols: 3.29Symbols: 2.81
Words: 0.71Words: 0.71Words: 0.64Words: 0.55
RomanianSymbols: 3.75Symbols: 3.75Symbols: 3.36Symbols: 3.34
Words: 0.59Words: 0.59Words: 0.53Words: 0.52
RussianSymbols: 3.93Symbols: 3.90Symbols: 2.57Symbols: 2.74
Words: 0.55Words: 0.55Words: 0.36Words: 0.39
UkrainianSymbols: 2.59Symbols: 2.59Symbols: 1.64Symbols: 2.12
Words: 0.45Words: 0.45Words: 0.28Words: 0.37

Готуючи презентацію для співробітників, мені довелося проаналізувати поточну “виразність” токенів для різних мов. Висновки такі:

  • Відповіді на деяких мовах коштують у три рази дорожче, ніж англійською.
  • Порівнювати моделі за ціною за токен можна тільки для англійської мови. Для інших мов вартість потрібно перераховувати в ціну за символ, слово або речення.
  • У деяких випадках може бути вигідніше перекласти запит і відповідь на англійську. Однак це потрібно ретельно розраховувати, особливо для відповідей.
  • Важко передбачити, яка мова “дорожча”, а яка “дешевша”. Необхідні розрахунки.

Ці висновки допоможуть нам краще розуміти та оптимізувати витрати на використання різних мов у наших моделях.

  1. Ефективність токенів і лінгвістична структура.
  2. Вплив дизайну моделі на багатомовну обробку.
  3. Наслідки для вартості та швидкості в багатомовних додатках.
  4. Алфавіт і механізми токенізації.
  5. Морфологічна складність vs. токенізація.