Вийшов Terminal-Bench 2.0: більш строгий бенчмарк для масштабної оцінки й покращення AI‑агентів у терміналі
Terminal-Bench 2.0 — ускладнена і краще верифікована версія стандартного бенчмарка для термінальних задач. Більш складні завдання та посилена перевірка якості (ручна і LM‑асистована), виправлені нестабільні кейси з 1.0 (наприклад, залежність від антибот‑захисту YouTube, що постійно змінюється). Акцент на відтворюваності та надійності.
Для мене він цікавий насамперед тим, що задачі ближчі до інфраструктурних, ніж у більшості інших бенчмарків — хоча б через інтерфейс і інструменти.
Поточний топ: https://www.tbench.ai/leaderboard/terminal-bench/2.0
З цікавого:
- Для однієї й тієї ж моделі вибір агентного фреймворку дає до +10–16 п.п., що співмірно з «стрибком» на клас моделі вгору або вниз.
- У Codex CLI GPT-5 на 10% (49 проти 44) виграє у GPT-5-Codex. В інших, навпаки, виграє GPT-5-Codex.
- Вендорський агент ≠ найкращий:
- OpenAI: так, Codex CLI справді топ.
- Anthropic і Google: ні, їхні рідні агенти (Claude Code, Gemini CLI) систематично програють Terminus (автори бенчмарка) / OpenHands / Mini-SWE.
- Межа можливостей сьогодні — це зв’язка [велика закрита модель] + [сильний фреймворк]. Усе інше — по суті компроміс за бюджетом/латентністю.
- GPT-OSS-20B / 120B і невеликі моделі сильно не дотягують до GPT-5 / Claude навіть із хорошим агентом: максимум 18–19% проти 40–50%.
- Для «середнього класу» (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) вибір агента ще критичніший: там модель сама по собі слабша, і хороший стек витягує її в діапазон 25–30% замість 15–20%.