
Оновив дані з урахуванням популярних моделей і додав розрахунок ефективності не за символами на токен, а за токенами на текст. Скрипт: https://github.com/korchasa/tldr/tree/master/llm/tokens-size
Неочікувані висновки
• Англійська дає найменшу середню кількість токенів (≈260.9) і найбільшу кількість символів на токен (≈4.26).
• Українська дає найбільшу середню кількість токенів (≈447.1).
• Корейська має найменшу кількість символів на токен (≈1.58), тобто токенізатор найгірше «пакує» символи.
• meta-llama/llama-4-maverick — найкраща за обома метриками; microsoft/phi-4-reasoning-plus — найгірша за обома.
• meta-llama/llama-4-maverick — явний аутлайєр для корейської: 302 токени і ≈2.08 символів/токен, значно краще, ніж у інших моделей для цієї мови.
• Серед моделей українська > російська за кількістю токенів на одному й тому ж контенті (≈447.1 проти ≈377.2).
Приховані закономірності
• Стабільність ранжування: англійська — мова з найменшою кількістю токенів у 11/11 моделей; мова з найбільшою кількістю токенів по моделі — українська 7/11, фінська 2/11, корейська 2/11. • Варіативність зумовлена мовою: стандартне відхилення токенів по мовах варіюється від ≈21.7 до ≈89.4, і це домінує над варіацією всередині моделі. • Ефект скрипта: алфавітні латинські/кириличні мови пакують більше символів на токен, ніж корейська, у всіх моделях.
Резюме — найбільш і найменш ефективні
• За загальною ефективністю (менше токенів): • Мова — найбільш ефективна: англійська; найменш: українська • Модель — найбільш ефективна: meta-llama/llama-4-maverick; найменш: microsoft/phi-4-reasoning-plus
• За ефективністю токенізатора (більше символів на токен): • Мова — найбільш ефективна: англійська; найменш: корейська • Модель — найбільш ефективна: meta-llama/llama-4-maverick; найменш: microsoft/phi-4-reasoning-plus