Обнових данните с популярни модели и добавих оценка на ефективността не по символи на токен, а по токени на текст. Скрипт: https://github.com/korchasa/tldr/tree/master/llm/tokens-size

Сурови данни: https://github.com/korchasa/tldr/blob/master/llm/tokens-size/results/token_results.md#tokenization-testing-results

Неочаквани изводи

• Английският дава най-нисък среден брой токени (≈260.9) и най-висок брой символи на токен (≈4.26). • Украинският дава най-висок среден брой токени (≈447.1). • Корейският има най-нисък брой символи на токен (≈1.58), което показва най-слаба „опаковка“ на символи от токенизатора. • meta-llama/llama-4-maverick е най-добър и по двете метрики; microsoft/phi-4-reasoning-plus е най-лош и по двете. • meta-llama/llama-4-maverick е ясен аутлайър за корейски: 302 токена и ≈2.08 символа/токен, значително по-добре от другите модели за този език. • При моделите украински > руски по брой токени за едно и също съдържание (≈447.1 срещу ≈377.2).

Скрити закономерности

• Стабилност на ранжирането: английският е езикът с най-малко токени при 11/11 модела; езикът с най-много токени за модел е украински при 7/11, фински при 2/11, корейски при 2/11. • Вариативността се определя от езика: стандартното отклонение на токените по езици варира от ≈21.7 до ≈89.4, което доминира над вариацията вътре в модела. • Ефект на писмеността: азбучните латински/кирилични езици „пакетират“ повече символи на токен от корейския, при всички модели.

Резюме — най- и най-малко ефективни

• По обща ефективност (по-малко токени): • Език — най-ефективен: английски; най-неефективен: украински • Модел — най-ефективен: meta-llama/llama-4-maverick; най-неефективен: microsoft/phi-4-reasoning-plus

• По ефективност на токенизатора (повече символи на токен): • Език — най-ефективен: английски; най-неефективен: корейски • Модел — най-ефективен: meta-llama/llama-4-maverick; най-неефективен: microsoft/phi-4-reasoning-plus