---
title:
opus 4.7: зміни в токенізаторі та зростання витрат
date:
2026-04-17
draft:
false
---
В opus 4.7 антропіки оновили токенізатор. В офіційному анонсі вказано, що обсяг вхідних даних у токенах зріс у 1.0–1.35 рази. Я сподівався, що вони знизили language tax і покращили виразність для нелатинських мов, але, схоже, це просто скорочення словника.
Результати тестів
Порівняння Opus 4.6, 4.7 і Haiku 4.5 на 53 мовах і 12 типах даних показало:
- Без змін: російська, арабська, іврит, хінді, мови CJK, цифри, пробіли та JSON.
- Зростання кількості токенів:
- Англійська проза: +31%
- Програмний код: +22%
- Markdown: +21%
- Змінні в camelCase (наприклад,
getUserByEmail): +51%
Схоже, що зі словника видалили довгі ланцюжки англійських слів (BPE-мерджі). Тепер замість одного складного токена модель використовує кілька коротких.
Судячи з того, що для жодної мови чи популярного формату показники не покращилися, причина в чомусь іншому. Гіпотези:
- Мультимодальність: резерв слотів під обробку зображень (вхід розширений у 3 рази) та аудіо.
- Архітектура: зменшення фізичного розміру словника для оптимізації ваг моделі.
У підсумку
- Зростання вартості: робота з англійським текстом і кодом подорожчала на 20–28%. Ціна за 1 млн токенів залишилася тією ж ($5/$25), але для обробки того ж обсягу тексту тепер потрібно більше токенів.
- Стиснення контексту: ефективний обсяг контекстного вікна скоротився на 20%. Текст англійською мовою, який раніше займав 200 000 токенів, тепер займає близько 240 000.
Заодно оновив бенчмарки по токенізаторах https://tokenizers.korchasa.dev/