Символи на токен у різних моделях LLM

date: 2024-09-22

draft: false

---

Символи на токен у різних моделях LLM для різних мов

Мова / Модель	GPT-4o (2024-08-06)	GPT-4o-mini (2024-07-18)	GPT-4	Claude-3-5-Sonnet (2024-06-20)
English	Symbols: 4.63	Symbols: 4.60	Symbols: 4.77	Symbols: 4.41
	Words: 0.77	Words: 0.77	Words: 0.79	Words: 0.74
French	Symbols: 3.65	Symbols: 3.65	Symbols: 3.29	Symbols: 2.81
	Words: 0.71	Words: 0.71	Words: 0.64	Words: 0.55
Romanian	Symbols: 3.75	Symbols: 3.75	Symbols: 3.36	Symbols: 3.34
	Words: 0.59	Words: 0.59	Words: 0.53	Words: 0.52
Russian	Symbols: 3.93	Symbols: 3.90	Symbols: 2.57	Symbols: 2.74
	Words: 0.55	Words: 0.55	Words: 0.36	Words: 0.39
Ukrainian	Symbols: 2.59	Symbols: 2.59	Symbols: 1.64	Symbols: 2.12
	Words: 0.45	Words: 0.45	Words: 0.28	Words: 0.37

Готуючи презентацію для співробітників, мені довелося проаналізувати поточну “виразність” токенів для різних мов. Висновки такі:

Відповіді на деяких мовах коштують у три рази дорожче, ніж англійською.
Порівнювати моделі за ціною за токен можна тільки для англійської мови. Для інших мов вартість потрібно перераховувати в ціну за символ, слово або речення.
У деяких випадках може бути вигідніше перекласти запит і відповідь на англійську. Однак це потрібно ретельно розраховувати, особливо для відповідей.
Важко передбачити, яка мова “дорожча”, а яка “дешевша”. Необхідні розрахунки.

Ці висновки допоможуть нам краще розуміти та оптимізувати витрати на використання різних мов у наших моделях.