Излезе Terminal-Bench 2.0: по-строг бенчмарк за мащабна оценка и подобряване на AI агенти в терминала

Terminal-Bench 2.0 е по-сложна и по-добре верифицирана версия на стандартния бенчмарк за терминални задачи. По-трудни задачи и по-силна проверка на качеството (ръчна и LM‑асистирана), поправени са нестабилните кейсове от 1.0 (например зависимост от постоянно променящата се антибот защита на YouTube). Фокусът е върху възпроизводимост и надеждност.

За мен е интересен най-вече защото задачите са по-близки до инфраструктурните от други бенчмаркове — поне заради интерфейса и инструментите.

Класация: https://www.tbench.ai/leaderboard/terminal-bench/2.0

Няколко интересни неща:

  • За един и същ модел изборът на агентен фреймворк може да даде до +10–16 п.п., което е сравнимо със „скок“ с един клас модел нагоре или надолу.
  • В Codex CLI GPT-5 печели срещу GPT-5-Codex с 10% (49 срещу 44). При други е обратното: печели GPT-5-Codex.
  • Vendor агент ≠ най-добрият агент:
    • OpenAI: да, Codex CLI наистина е топ.
    • Anthropic и Google: не — техните собствени агенти (Claude Code, Gemini CLI) систематично губят от Terminus (авторите на бенчмарка) / OpenHands / Mini-SWE.
  • Днешната граница на възможностите е [голям затворен модел] + [силен фреймворк]. Всичко останало е компромис по бюджет/латентност.
  • GPT-OSS-20B / 120B и малките модели са далеч зад GPT-5 / Claude дори с добър агент: максимум 18–19% срещу 40–50%.
  • За „средния клас“ (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) изборът на агент е още по-критичен: самият модел е по-слаб и добрият стек го вдига до 25–30% вместо 15–20%.