Terminal Bench2

Вийшов Terminal-Bench 2.0: суворіший бенчмарк для масштабної оцінки та вдосконалення ШІ-агентів у терміналі.

Terminal-Bench 2.0 — ускладнена та краще верифікована версія стандартного бенчмарка для термінальних завдань. Складніші завдання та посилена перевірка якості (ручна та за допомогою LM), виправлено нестабільні кейси з 1.0 (наприклад, залежність від мінливого антибот-захисту YouTube). Акцент на відтворюваності та надійності.

Для мене він передусім цікавий тим, що завдання ближчі до інфраструктурних, ніж в інших бенчмарках, хоча б через інтерфейс та інструменти.

Поточний топ можна переглянути на сторінці: https://www.tbench.ai/leaderboard/terminal-bench/2.0

З цікавого:

  • для однієї і тієї ж моделі вибір агентного фреймворку дає до +10–16 в.п., що можна порівняти з «стрибком» на клас моделі вгору чи вниз.
  • у Codex CLI gpt-5 на 10% (49 проти 44) виграє у gpt-5-codex. У інших, навпаки, виграє gpt-5-codex.
  • вендорський агент ≠ найкращий:
    • OpenAI: так, Codex CLI дійсно топ.
    • Anthropic та Google: ні, їхні рідні агенти (Claude Code, Gemini CLI) систематично програють Terminus (автори бенчмарка)/OpenHands/Mini-SWE.
  • Межа можливостей сьогодні — це зв’язка [велика закрита модель] + [сильний фреймворк]. Все інше — по суті компроміс за бюджетом/латентністю.
  • GPT-OSS-20B/120B та невеликі моделі сильно не дотягують до GPT-5/Claude навіть при хорошому агенті: максимум 18–19% проти 40–50%.
  • Для «середнього класу» (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) вибір агента ще критичніший: там модель сама по собі слабша, і хороший стек витягує її в діапазон 25–30% замість 15–20%.