---
title:

opus 4.7: зміни в токенізаторі та зростання витрат

date: 2026-04-17
draft: false
---

В opus 4.7 антропіки оновили токенізатор. В офіційному анонсі вказано, що обсяг вхідних даних у токенах зріс у 1.0–1.35 рази. Я сподівався, що вони знизили language tax і покращили виразність для нелатинських мов, але, схоже, це просто скорочення словника.

Результати тестів

Порівняння Opus 4.6, 4.7 і Haiku 4.5 на 53 мовах і 12 типах даних показало:

  • Без змін: російська, арабська, іврит, хінді, мови CJK, цифри, пробіли та JSON.
  • Зростання кількості токенів:
    • Англійська проза: +31%
    • Програмний код: +22%
    • Markdown: +21%
    • Змінні в camelCase (наприклад, getUserByEmail): +51%

Схоже, що зі словника видалили довгі ланцюжки англійських слів (BPE-мерджі). Тепер замість одного складного токена модель використовує кілька коротких.

Судячи з того, що для жодної мови чи популярного формату показники не покращилися, причина в чомусь іншому. Гіпотези:

  1. Мультимодальність: резерв слотів під обробку зображень (вхід розширений у 3 рази) та аудіо.
  2. Архітектура: зменшення фізичного розміру словника для оптимізації ваг моделі.

У підсумку

  1. Зростання вартості: робота з англійським текстом і кодом подорожчала на 20–28%. Ціна за 1 млн токенів залишилася тією ж ($5/$25), але для обробки того ж обсягу тексту тепер потрібно більше токенів.
  2. Стиснення контексту: ефективний обсяг контекстного вікна скоротився на 20%. Текст англійською мовою, який раніше займав 200 000 токенів, тепер займає близько 240 000.

Заодно оновив бенчмарки по токенізаторах https://tokenizers.korchasa.dev/