Символи на токен у різних моделях LLM
Символи на токен у різних моделях LLM для різних мов
| Мова / Модель | GPT-4o (2024-08-06) | GPT-4o-mini (2024-07-18) | GPT-4 | Claude-3-5-Sonnet (2024-06-20) |
|---|---|---|---|---|
| English | Symbols: 4.63 | Symbols: 4.60 | Symbols: 4.77 | Symbols: 4.41 |
| Words: 0.77 | Words: 0.77 | Words: 0.79 | Words: 0.74 | |
| French | Symbols: 3.65 | Symbols: 3.65 | Symbols: 3.29 | Symbols: 2.81 |
| Words: 0.71 | Words: 0.71 | Words: 0.64 | Words: 0.55 | |
| Romanian | Symbols: 3.75 | Symbols: 3.75 | Symbols: 3.36 | Symbols: 3.34 |
| Words: 0.59 | Words: 0.59 | Words: 0.53 | Words: 0.52 | |
| Russian | Symbols: 3.93 | Symbols: 3.90 | Symbols: 2.57 | Symbols: 2.74 |
| Words: 0.55 | Words: 0.55 | Words: 0.36 | Words: 0.39 | |
| Ukrainian | Symbols: 2.59 | Symbols: 2.59 | Symbols: 1.64 | Symbols: 2.12 |
| Words: 0.45 | Words: 0.45 | Words: 0.28 | Words: 0.37 |
Готуючи презентацію для співробітників, мені довелося проаналізувати поточну “виразність” токенів для різних мов. Висновки такі:
- Відповіді на деяких мовах коштують у три рази дорожче, ніж англійською.
- Порівнювати моделі за ціною за токен можна тільки для англійської мови. Для інших мов вартість потрібно перераховувати в ціну за символ, слово або речення.
- У деяких випадках може бути вигідніше перекласти запит і відповідь на англійську. Однак це потрібно ретельно розраховувати, особливо для відповідей.
- Важко передбачити, яка мова “дорожча”, а яка “дешевша”. Необхідні розрахунки.
Ці висновки допоможуть нам краще розуміти та оптимізувати витрати на використання різних мов у наших моделях.
- Ефективність токенів і лінгвістична структура.
- Вплив дизайну моделі на багатомовну обробку.
- Наслідки для вартості та швидкості в багатомовних додатках.
- Алфавіт і механізми токенізації.
- Морфологічна складність vs. токенізація.