Вышел Terminal-Bench 2.0: более строгий бенчмарк для масштабной оценки и улучшения ИИ-агентов в терминале.

Terminal-Bench 2.0 - усложнённая и лучше верифицированная версия стандартного бенчмарка для терминальных задач. Более сложные задачи и усиленная проверка качества (ручная и LM‑ассистированная), исправлены нестабильные кейсы из 1.0 (например, зависимость от меняющейся антибот‑защиты YouTube). Упор на воспроизводимость и надёжность.

Для меня он прежде всего интересен тем, что задачи более близки к инфраструктурным, чем другие бенчмарки, хотя бы из-за интерфейса и инструментам.

Текущий топ можно посмотреть на странице: https://www.tbench.ai/leaderboard/terminal-bench/2.0

Из интересного:

  • для одной и той же модели выбор агентного фреймворка даёт до +10–16 п.п., что сопоставимо с «прыжком» на класс модели вверх или вниз.
  • у Codex cli gpt-5 на 10%(49 против 44) выигрывает у gpt-5-codex. У других, наоборот, выигрывает gpt-5-codex.
  • вендорский агент ≠ лучший:
    • OpenAI: да, Codex CLI действительно топ.
    • Anthropic и Google: нет, их родные агенты (Claude Code, Gemini CLI) систематически проигрывают Terminus(авторы бенчмарка)/OpenHands/Mini-SWE.
  • Граница возможностей сегодня — это связка [крупная закрытая модель] + [сильный фреймворк]. Всё остальное — по сути компромисс по бюджету/латентности.
  • GPT-OSS-20B/120B и небольшие модели сильно не дотягивают до GPT-5/Claude даже при хорошем агенте: максимум 18–19% против 40–50%.
  • Для «среднего класса» (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) выбор агента ещё критичнее: там модель сама по себе слабее, и хороший стек вытягивает её в диапазон 25–30% вместо 15–20%.