Символов на токен в разных моделях LLM для разных языков

Language / ModelGPT-4o (2024-08-06)GPT-4o-mini (2024-07-18)GPT-4Claude-3-5-Sonnet (2024-06-20)
EnglishSymbols: 4.63Symbols: 4.60Symbols: 4.77Symbols: 4.41
Words: 0.77Words: 0.77Words: 0.79Words: 0.74
FrenchSymbols: 3.65Symbols: 3.65Symbols: 3.29Symbols: 2.81
Words: 0.71Words: 0.71Words: 0.64Words: 0.55
RomanianSymbols: 3.75Symbols: 3.75Symbols: 3.36Symbols: 3.34
Words: 0.59Words: 0.59Words: 0.53Words: 0.52
RussianSymbols: 3.93Symbols: 3.90Symbols: 2.57Symbols: 2.74
Words: 0.55Words: 0.55Words: 0.36Words: 0.39
UkrainianSymbols: 2.59Symbols: 2.59Symbols: 1.64Symbols: 2.12
Words: 0.45Words: 0.45Words: 0.28Words: 0.37

При подготовке презентации для сотрудников мне пришлось проанализировать текущую «выразительность» токенов для разных языков. Выводы следующие:

  • Ответы на некоторых языках стоят в три раза дороже, чем на английском.
  • Сравнение моделей по цене за токен возможно только для английского языка. Для других языков стоимость необходимо пересчитывать в цену за символ, слово или предложение.
  • В некоторых случаях может быть более рентабельным переводить запрос и ответ на английский язык. Однако это необходимо тщательно рассчитывать, особенно для ответов.
  • Трудно предсказать, какой язык «дороже», а какой «дешевле». Необходимы расчеты.

Эти выводы помогут нам лучше понимать и оптимизировать затраты на использование различных языков в наших моделях.

  1. Эффективность токенов и лингвистическая структура

Понимание: Английский язык показывает, что LLM обрабатывают его более эффективно по сравнению с русским и украинским. Языки с более сложной морфологией требуют больше токенов. Разработчики ИИ должны учитывать морфологическую и алфавитную сложность для разных языков.

  1. Влияние дизайна модели на многоязычную обработку

Понимание: Claude-3-5-Sonnet может токенизировать текст на меньшие единицы, что приводит к более высокому количеству токенов для сложных словоформ. Модели могут выиграть от стратегий оптимизации для эффективной токенизации в морфологически богатых языках.

  1. Последствия для стоимости и скорости ИИ в многоязычных приложениях

Понимание: Различия в плотности символов указывают на более высокое потребление токенов для украинского или русского, что ведет к более высоким затратам на обработку. Разработчики должны учитывать стоимостные последствия использования токенов для разных языков.

  1. Алфавит и механизмы токенизации

Понимание: Языки, использующие кириллицу, имеют низкое соотношение символов к токенам. LLM обрабатывают кириллические символы менее эффективно. Инженеры должны изучить тонкую настройку алгоритмов токенизации для кириллических символов.

  1. Морфологическая сложность vs. токенизация

Понимание: Французский и румынский показывают схожие соотношения символов к токенам. Языки с более простыми морфологическими структурами токенизируются более эффективно. Стратегии токенизации должны учитывать морфологические особенности языков.