---
title:

opus 4.7: изменения в токенизаторе и рост расходов

date: 2026-04-17
draft: false
---

В opus 4.7 антропики обновили токенизатор. В официальном анонсе указано, что объем вводимых данных в токенах вырос в 1.0–1.35 раза. Я надеялся, что они понизили language tax и улучшили выразительность для нелатинских языков, но, похоже, что это просто сокращение словаря.

Результаты тестов

Сравнение Opus 4.6, 4.7 и Haiku 4.5 на 53 языках и 12 типах данных показало:

  • Без изменений: русский, арабский, иврит, хинди, языки CJK, цифры, пробелы и JSON.
  • Рост количества токенов:
    • Английская проза: +31%
    • Программный код: +22%
    • Markdown: +21%
    • Переменные в camelCase (например, getUserByEmail): +51%

Похоже, что из словаря удалили длинные цепочки английских слов (BPE-мерджи). Теперь вместо одного сложного токена модель использует несколько коротких.

Судя по тому, что ни для одного языка или популярного формата показатели не улучшились, причина в чем-то другом. Гипотезы:

  1. Мультимодальность: резерв слотов под обработку изображений (вход расширен в 3 раза) и аудио.
  2. Архитектура: уменьшение физического размера словаря для оптимизации весов модели.

В итоге

  1. Рост стоимости: работа с английским текстом и кодом подорожала на 20–28%. Цена за 1 млн токенов осталась прежней ($5/$25), но для обработки того же объема текста теперь требуется больше токенов.
  2. Сжатие контекста: эффективный объем контекстного окна сократился на 20%. Текст на английском языке, который раньше занимал 200 000 токенов, теперь занимает около 240 000.

Заодно обновил бенчмарки по токенизаторам https://tokenizers.korchasa.dev/