---
title:
opus 4.7: промени в токенизатора и ръст на разходите
date:
2026-04-17
draft:
false
---
В opus 4.7 антропиките обновиха токенизатора. В официалното съобщение е посочено, че обемът на входните данни в токени е нараснал с 1.0–1.35 пъти. Надявах се, че са намалили language tax и са подобрили изразителността за нелатински езици, но изглежда, че това е просто свиване на речника.
Резултати от тестовете
Сравнение на Opus 4.6, 4.7 и Haiku 4.5 на 53 езика и 12 типа данни показа:
- Без промени: руски, арабски, иврит, хинди, езици CJK, цифри, интервали и JSON.
- Ръст на броя токени:
- Английска проза: +31%
- Програмен код: +22%
- Markdown: +21%
- Променливи в camelCase (например
getUserByEmail): +51%
Изглежда, че от речника са премахнати дългите вериги от английски думи (BPE-мерджове). Сега вместо един сложен токен моделът използва няколко къси.
Съдейки по това, че за нито един език или популярен формат показателите не са се подобрили, причината е в нещо друго. Хипотези:
- Мултимодалност: резервиране на слотове за обработка на изображения (входът е разширен 3 пъти) и аудио.
- Архитектура: намаляване на физическия размер на речника за оптимизация на теглата на модела.
В крайна сметка
- Ръст на цената: работата с английски текст и код поскъпна с 20–28%. Цената за 1 млн токена остава същата ($5/$25), но за обработката на същия обем текст сега са нужни повече токени.
- Свиване на контекста: ефективният обем на контекстния прозорец намаля с 20%. Текст на английски, който преди заемаше 200 000 токена, сега заема около 240 000.
Заодно обнових бенчмарките по токенизатори https://tokenizers.korchasa.dev/