Terminal Bench2
Вийшов Terminal-Bench 2.0: суворіший бенчмарк для масштабної оцінки та вдосконалення ШІ-агентів у терміналі.
Terminal-Bench 2.0 — ускладнена та краще верифікована версія стандартного бенчмарка для термінальних завдань. Складніші завдання та посилена перевірка якості (ручна та за допомогою LM), виправлено нестабільні кейси з 1.0 (наприклад, залежність від мінливого антибот-захисту YouTube). Акцент на відтворюваності та надійності.
Для мене він передусім цікавий тим, що завдання ближчі до інфраструктурних, ніж в інших бенчмарках, хоча б через інтерфейс та інструменти.
Поточний топ можна переглянути на сторінці: https://www.tbench.ai/leaderboard/terminal-bench/2.0
З цікавого:
- для однієї і тієї ж моделі вибір агентного фреймворку дає до +10–16 в.п., що можна порівняти з «стрибком» на клас моделі вгору чи вниз.
- у Codex CLI gpt-5 на 10% (49 проти 44) виграє у gpt-5-codex. У інших, навпаки, виграє gpt-5-codex.
- вендорський агент ≠ найкращий:
- OpenAI: так, Codex CLI дійсно топ.
- Anthropic та Google: ні, їхні рідні агенти (Claude Code, Gemini CLI) систематично програють Terminus (автори бенчмарка)/OpenHands/Mini-SWE.
- Межа можливостей сьогодні — це зв’язка [велика закрита модель] + [сильний фреймворк]. Все інше — по суті компроміс за бюджетом/латентністю.
- GPT-OSS-20B/120B та невеликі моделі сильно не дотягують до GPT-5/Claude навіть при хорошому агенті: максимум 18–19% проти 40–50%.
- Для «середнього класу» (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) вибір агента ще критичніший: там модель сама по собі слабша, і хороший стек витягує її в діапазон 25–30% замість 15–20%.