---
title:
opus 4.7: изменения в токенизаторе и рост расходов
date:
2026-04-17
draft:
false
---
В opus 4.7 антропики обновили токенизатор. В официальном анонсе указано, что объем вводимых данных в токенах вырос в 1.0–1.35 раза. Я надеялся, что они понизили language tax и улучшили выразительность для нелатинских языков, но, похоже, что это просто сокращение словаря.
Результаты тестов
Сравнение Opus 4.6, 4.7 и Haiku 4.5 на 53 языках и 12 типах данных показало:
- Без изменений: русский, арабский, иврит, хинди, языки CJK, цифры, пробелы и JSON.
- Рост количества токенов:
- Английская проза: +31%
- Программный код: +22%
- Markdown: +21%
- Переменные в camelCase (например,
getUserByEmail): +51%
Похоже, что из словаря удалили длинные цепочки английских слов (BPE-мерджи). Теперь вместо одного сложного токена модель использует несколько коротких.
Судя по тому, что ни для одного языка или популярного формата показатели не улучшились, причина в чем-то другом. Гипотезы:
- Мультимодальность: резерв слотов под обработку изображений (вход расширен в 3 раза) и аудио.
- Архитектура: уменьшение физического размера словаря для оптимизации весов модели.
В итоге
- Рост стоимости: работа с английским текстом и кодом подорожала на 20–28%. Цена за 1 млн токенов осталась прежней ($5/$25), но для обработки того же объема текста теперь требуется больше токенов.
- Сжатие контекста: эффективный объем контекстного окна сократился на 20%. Текст на английском языке, который раньше занимал 200 000 токенов, теперь занимает около 240 000.
Заодно обновил бенчмарки по токенизаторам https://tokenizers.korchasa.dev/