Вышел Terminal-Bench 2.0: более строгий бенчмарк для масштабной оценки и улучшения ИИ-агентов в терминале
Terminal-Bench 2.0 — усложнённая и лучше верифицированная версия стандартного бенчмарка для терминальных задач. Более сложные задачи и усиленная проверка качества (ручная и LM‑ассистированная), исправлены нестабильные кейсы из 1.0 (например, зависимость от меняющейся антибот‑защиты YouTube). Упор на воспроизводимость и надёжность.
Для меня он прежде всего интересен тем, что задачи более близки к инфраструктурным, чем другие бенчмарки, хотя бы из-за интерфейса и инструментам.
Текущий топ можно посмотреть на странице: https://www.tbench.ai/leaderboard/terminal-bench/2.0
Из интересного:
- для одной и той же модели выбор агентного фреймворка даёт до +10–16 п.п., что сопоставимо с «прыжком» на класс модели вверх или вниз.
- у Codex CLI GPT-5 на 10% (49 против 44) выигрывает у GPT-5-Codex. У других, наоборот, выигрывает GPT-5-Codex.
- вендорский агент ≠ лучший:
- OpenAI: да, Codex CLI действительно топ.
- Anthropic и Google: нет, их родные агенты (Claude Code, Gemini CLI) систематически проигрывают Terminus (авторы бенчмарка) / OpenHands / Mini-SWE.
- Граница возможностей сегодня — это связка [крупная закрытая модель] + [сильный фреймворк]. Всё остальное — по сути компромисс по бюджету / латентности.
- GPT-OSS-20B / 120B и небольшие модели сильно не дотягивают до GPT-5 / Claude даже при хорошем агенте: максимум 18–19% против 40–50%.
- Для «среднего класса» (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) выбор агента ещё критичнее: там модель сама по себе слабее, и хороший стек вытягивает её в диапазон 25–30% вместо 15–20%.