Символи на токен в различни LLM модели
Символи на токен в различни LLM модели за различни езици
| Език / Модел | GPT-4o (2024-08-06) | GPT-4o-mini (2024-07-18) | GPT-4 | Claude-3-5-Sonnet (2024-06-20) |
|---|---|---|---|---|
| English | Symbols: 4.63 | Symbols: 4.60 | Symbols: 4.77 | Symbols: 4.41 |
| Words: 0.77 | Words: 0.77 | Words: 0.79 | Words: 0.74 | |
| French | Symbols: 3.65 | Symbols: 3.65 | Symbols: 3.29 | Symbols: 2.81 |
| Words: 0.71 | Words: 0.71 | Words: 0.64 | Words: 0.55 | |
| Romanian | Symbols: 3.75 | Symbols: 3.75 | Symbols: 3.36 | Symbols: 3.34 |
| Words: 0.59 | Words: 0.59 | Words: 0.53 | Words: 0.52 | |
| Russian | Symbols: 3.93 | Symbols: 3.90 | Symbols: 2.57 | Symbols: 2.74 |
| Words: 0.55 | Words: 0.55 | Words: 0.36 | Words: 0.39 | |
| Ukrainian | Symbols: 2.59 | Symbols: 2.59 | Symbols: 1.64 | Symbols: 2.12 |
| Words: 0.45 | Words: 0.45 | Words: 0.28 | Words: 0.37 |
Докато подготвях презентация за служителите, трябваше да анализирам текущата “експресивност” на токените за различни езици. Заключенията са следните:
- Отговорите на някои езици струват три пъти повече от тези на английски.
- Сравняването на модели по цена на токен е възможно само за английски език. За други езици цената трябва да се преизчисли в цена на символ, дума или изречение.
- В някои случаи може да бъде по-рентабилно да се преведат заявката и отговорът на английски. Това обаче трябва да се изчисли внимателно, особено за отговорите.
- Трудно е да се предвиди кой език е “по-скъп” и кой “по-евтин”. Необходими са изчисления.
Тези заключения ще ни помогнат да разберем и оптимизираме по-добре разходите за използване на различни езици в нашите модели.
- Ефективност на токените и лингвистична структура.
- Влияние на дизайна на модела върху многоезичната обработка.
- Последици за разходите и скоростта в многоезичните приложения.
- Азбука и механизми за токенизация.
- Морфологична сложност срещу токенизация.