Вийшов Terminal-Bench 2.0: більш строгий бенчмарк для масштабної оцінки й покращення AI‑агентів у терміналі

Terminal-Bench 2.0 — ускладнена і краще верифікована версія стандартного бенчмарка для термінальних задач. Більш складні завдання та посилена перевірка якості (ручна і LM‑асистована), виправлені нестабільні кейси з 1.0 (наприклад, залежність від антибот‑захисту YouTube, що постійно змінюється). Акцент на відтворюваності та надійності.

Для мене він цікавий насамперед тим, що задачі ближчі до інфраструктурних, ніж у більшості інших бенчмарків — хоча б через інтерфейс і інструменти.

Поточний топ: https://www.tbench.ai/leaderboard/terminal-bench/2.0

З цікавого:

  • Для однієї й тієї ж моделі вибір агентного фреймворку дає до +10–16 п.п., що співмірно з «стрибком» на клас моделі вгору або вниз.
  • У Codex CLI GPT-5 на 10% (49 проти 44) виграє у GPT-5-Codex. В інших, навпаки, виграє GPT-5-Codex.
  • Вендорський агент ≠ найкращий:
    • OpenAI: так, Codex CLI справді топ.
    • Anthropic і Google: ні, їхні рідні агенти (Claude Code, Gemini CLI) систематично програють Terminus (автори бенчмарка) / OpenHands / Mini-SWE.
  • Межа можливостей сьогодні — це зв’язка [велика закрита модель] + [сильний фреймворк]. Усе інше — по суті компроміс за бюджетом/латентністю.
  • GPT-OSS-20B / 120B і невеликі моделі сильно не дотягують до GPT-5 / Claude навіть із хорошим агентом: максимум 18–19% проти 40–50%.
  • Для «середнього класу» (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) вибір агента ще критичніший: там модель сама по собі слабша, і хороший стек витягує її в діапазон 25–30% замість 15–20%.