---
title:

opus 4.7: промени в токенизатора и ръст на разходите

date: 2026-04-17
draft: false
---

В opus 4.7 антропиките обновиха токенизатора. В официалното съобщение е посочено, че обемът на входните данни в токени е нараснал с 1.0–1.35 пъти. Надявах се, че са намалили language tax и са подобрили изразителността за нелатински езици, но изглежда, че това е просто свиване на речника.

Резултати от тестовете

Сравнение на Opus 4.6, 4.7 и Haiku 4.5 на 53 езика и 12 типа данни показа:

  • Без промени: руски, арабски, иврит, хинди, езици CJK, цифри, интервали и JSON.
  • Ръст на броя токени:
    • Английска проза: +31%
    • Програмен код: +22%
    • Markdown: +21%
    • Променливи в camelCase (например getUserByEmail): +51%

Изглежда, че от речника са премахнати дългите вериги от английски думи (BPE-мерджове). Сега вместо един сложен токен моделът използва няколко къси.

Съдейки по това, че за нито един език или популярен формат показателите не са се подобрили, причината е в нещо друго. Хипотези:

  1. Мултимодалност: резервиране на слотове за обработка на изображения (входът е разширен 3 пъти) и аудио.
  2. Архитектура: намаляване на физическия размер на речника за оптимизация на теглата на модела.

В крайна сметка

  1. Ръст на цената: работата с английски текст и код поскъпна с 20–28%. Цената за 1 млн токена остава същата ($5/$25), но за обработката на същия обем текст сега са нужни повече токени.
  2. Свиване на контекста: ефективният обем на контекстния прозорец намаля с 20%. Текст на английски, който преди заемаше 200 000 токена, сега заема около 240 000.

Заодно обнових бенчмарките по токенизатори https://tokenizers.korchasa.dev/