Символов на токен в разных моделях LLM для разных языков
| Language / Model | GPT-4o (2024-08-06) | GPT-4o-mini (2024-07-18) | GPT-4 | Claude-3-5-Sonnet (2024-06-20) |
|---|---|---|---|---|
| English | Symbols: 4.63 | Symbols: 4.60 | Symbols: 4.77 | Symbols: 4.41 |
| Words: 0.77 | Words: 0.77 | Words: 0.79 | Words: 0.74 | |
| French | Symbols: 3.65 | Symbols: 3.65 | Symbols: 3.29 | Symbols: 2.81 |
| Words: 0.71 | Words: 0.71 | Words: 0.64 | Words: 0.55 | |
| Romanian | Symbols: 3.75 | Symbols: 3.75 | Symbols: 3.36 | Symbols: 3.34 |
| Words: 0.59 | Words: 0.59 | Words: 0.53 | Words: 0.52 | |
| Russian | Symbols: 3.93 | Symbols: 3.90 | Symbols: 2.57 | Symbols: 2.74 |
| Words: 0.55 | Words: 0.55 | Words: 0.36 | Words: 0.39 | |
| Ukrainian | Symbols: 2.59 | Symbols: 2.59 | Symbols: 1.64 | Symbols: 2.12 |
| Words: 0.45 | Words: 0.45 | Words: 0.28 | Words: 0.37 |
При подготовке презентации для сотрудников мне пришлось проанализировать текущую «выразительность» токенов для разных языков. Выводы следующие:
- Ответы на некоторых языках стоят в три раза дороже, чем на английском.
- Сравнение моделей по цене за токен возможно только для английского языка. Для других языков стоимость необходимо пересчитывать в цену за символ, слово или предложение.
- В некоторых случаях может быть более рентабельным переводить запрос и ответ на английский язык. Однако это необходимо тщательно рассчитывать, особенно для ответов.
- Трудно предсказать, какой язык «дороже», а какой «дешевле». Необходимы расчеты.
Эти выводы помогут нам лучше понимать и оптимизировать затраты на использование различных языков в наших моделях.
- Эффективность токенов и лингвистическая структура
Понимание: Английский язык показывает, что LLM обрабатывают его более эффективно по сравнению с русским и украинским. Языки с более сложной морфологией требуют больше токенов. Разработчики ИИ должны учитывать морфологическую и алфавитную сложность для разных языков.
- Влияние дизайна модели на многоязычную обработку
Понимание: Claude-3-5-Sonnet может токенизировать текст на меньшие единицы, что приводит к более высокому количеству токенов для сложных словоформ. Модели могут выиграть от стратегий оптимизации для эффективной токенизации в морфологически богатых языках.
- Последствия для стоимости и скорости ИИ в многоязычных приложениях
Понимание: Различия в плотности символов указывают на более высокое потребление токенов для украинского или русского, что ведет к более высоким затратам на обработку. Разработчики должны учитывать стоимостные последствия использования токенов для разных языков.
- Алфавит и механизмы токенизации
Понимание: Языки, использующие кириллицу, имеют низкое соотношение символов к токенам. LLM обрабатывают кириллические символы менее эффективно. Инженеры должны изучить тонкую настройку алгоритмов токенизации для кириллических символов.
- Морфологическая сложность vs. токенизация
Понимание: Французский и румынский показывают схожие соотношения символов к токенам. Языки с более простыми морфологическими структурами токенизируются более эффективно. Стратегии токенизации должны учитывать морфологические особенности языков.