Обновил данные, с учетом популярных моделей и добавил расчет эффективности не по символам на токен, а по токенам на текст. Скрипт https://github.com/korchasa/tldr/tree/master/llm/tokens-size

Сырые данные: https://github.com/korchasa/tldr/blob/master/llm/tokens-size/results/token_results.md#tokenization-testing-results

Неожиданные выводы

• Английский язык дает наименьшее среднее количество токенов (≈260.9) и наибольшее количество символов на токен (≈4.26).
• Украинский язык дает наибольшее среднее количество токенов (≈447.1).
• Корейский язык имеет наименьшее количество символов на токен (≈1.58), что указывает на наименьшую эффективность токенизатора по упаковке символов.
meta-llama/llama-4-maverick является лучшим по обоим метрикам; microsoft/phi-4-reasoning-plus - худшим по обоим.
meta-llama/llama-4-maverick является явным аутсайдером для корейского: 302 токена и ≈2.08 символов на токен, значительно лучше, чем у других моделей для этого языка.
• Среди моделей украинский > русский по количеству токенов на одном и том же содержании (≈447.1 против ≈377.2).

Скрытые закономерности

• Стабильность ранжирования: английский - язык с наименьшим количеством токенов в 11/11 моделей; язык с наибольшим количеством токенов по модели - украинский 7/11, финский 2/11, корейский 2/11.
• Вариативность обусловлена языком: стандартное отклонение токенов по языкам варьируется от ≈21.7 до ≈89.4, что доминирует над вариацией внутри модели.
• Эффект скрипта: алфавитные латинские/кириллические языки упаковывают больше символов на токен, чем корейский, во всех моделях.

Резюме - наиболее и наименее эффективные

• По общей эффективности (меньше токенов):
• Язык - наиболее эффективный: английский; наименее: украинский
• Модель - наиболее эффективная: meta-llama/llama-4-maverick; наименее: microsoft/phi-4-reasoning-plus

• По эффективности токенизатора (больше символов на токен):
• Язык - наиболее эффективный: английский; наименее: корейский
• Модель - наиболее эффективная: meta-llama/llama-4-maverick; наименее: microsoft/phi-4-reasoning-plus