Оновив дані з урахуванням популярних моделей і додав розрахунок ефективності не за символами на токен, а за токенами на текст. Скрипт: https://github.com/korchasa/tldr/tree/master/llm/tokens-size

Сирі дані: https://github.com/korchasa/tldr/blob/master/llm/tokens-size/results/token_results.md#tokenization-testing-results

Неочікувані висновки

• Англійська дає найменшу середню кількість токенів (≈260.9) і найбільшу кількість символів на токен (≈4.26). • Українська дає найбільшу середню кількість токенів (≈447.1). • Корейська має найменшу кількість символів на токен (≈1.58), тобто токенізатор найгірше «пакує» символи. • meta-llama/llama-4-maverick — найкраща за обома метриками; microsoft/phi-4-reasoning-plus — найгірша за обома. • meta-llama/llama-4-maverick — явний аутлайєр для корейської: 302 токени і ≈2.08 символів/токен, значно краще, ніж у інших моделей для цієї мови. • Серед моделей українська > російська за кількістю токенів на одному й тому ж контенті (≈447.1 проти ≈377.2).

Приховані закономірності

• Стабільність ранжування: англійська — мова з найменшою кількістю токенів у 11/11 моделей; мова з найбільшою кількістю токенів по моделі — українська 7/11, фінська 2/11, корейська 2/11. • Варіативність зумовлена мовою: стандартне відхилення токенів по мовах варіюється від ≈21.7 до ≈89.4, і це домінує над варіацією всередині моделі. • Ефект скрипта: алфавітні латинські/кириличні мови пакують більше символів на токен, ніж корейська, у всіх моделях.

Резюме — найбільш і найменш ефективні

• За загальною ефективністю (менше токенів): • Мова — найбільш ефективна: англійська; найменш: українська • Модель — найбільш ефективна: meta-llama/llama-4-maverick; найменш: microsoft/phi-4-reasoning-plus

• За ефективністю токенізатора (більше символів на токен): • Мова — найбільш ефективна: англійська; найменш: корейська • Модель — найбільш ефективна: meta-llama/llama-4-maverick; найменш: microsoft/phi-4-reasoning-plus