Символи на токен в различни LLM модели

Символи на токен в различни LLM модели за различни езици

Език / МоделGPT-4o (2024-08-06)GPT-4o-mini (2024-07-18)GPT-4Claude-3-5-Sonnet (2024-06-20)
EnglishSymbols: 4.63Symbols: 4.60Symbols: 4.77Symbols: 4.41
Words: 0.77Words: 0.77Words: 0.79Words: 0.74
FrenchSymbols: 3.65Symbols: 3.65Symbols: 3.29Symbols: 2.81
Words: 0.71Words: 0.71Words: 0.64Words: 0.55
RomanianSymbols: 3.75Symbols: 3.75Symbols: 3.36Symbols: 3.34
Words: 0.59Words: 0.59Words: 0.53Words: 0.52
RussianSymbols: 3.93Symbols: 3.90Symbols: 2.57Symbols: 2.74
Words: 0.55Words: 0.55Words: 0.36Words: 0.39
UkrainianSymbols: 2.59Symbols: 2.59Symbols: 1.64Symbols: 2.12
Words: 0.45Words: 0.45Words: 0.28Words: 0.37

Докато подготвях презентация за служителите, трябваше да анализирам текущата “експресивност” на токените за различни езици. Заключенията са следните:

  • Отговорите на някои езици струват три пъти повече от тези на английски.
  • Сравняването на модели по цена на токен е възможно само за английски език. За други езици цената трябва да се преизчисли в цена на символ, дума или изречение.
  • В някои случаи може да бъде по-рентабилно да се преведат заявката и отговорът на английски. Това обаче трябва да се изчисли внимателно, особено за отговорите.
  • Трудно е да се предвиди кой език е “по-скъп” и кой “по-евтин”. Необходими са изчисления.

Тези заключения ще ни помогнат да разберем и оптимизираме по-добре разходите за използване на различни езици в нашите модели.

  1. Ефективност на токените и лингвистична структура.
  2. Влияние на дизайна на модела върху многоезичната обработка.
  3. Последици за разходите и скоростта в многоезичните приложения.
  4. Азбука и механизми за токенизация.
  5. Морфологична сложност срещу токенизация.