Terminal Bench2

Излезе Terminal-Bench 2.0: по-строг бенчмарк за мащабна оценка и подобряване на ИИ агентите в терминала.

Terminal-Bench 2.0 е по-сложна и по-добре верифицирана версия на стандартния бенчмарк за терминални задачи. По-сложни задачи и засилена проверка на качеството (ръчна и с помощта на LM), коригирани нестабилни случаи от 1.0 (например зависимост от променящата се антибот защита на YouTube). Фокус върху възпроизводимостта и надеждността.

За мен той е интересен преди всичко с това, че задачите са по-близки до инфраструктурните, отколкото в други бенчмаркове, поне заради интерфейса и инструментите.

Текущият топ може да бъде разгледан на страницата: https://www.tbench.ai/leaderboard/terminal-bench/2.0

Интересни моменти:

  • за един и същ модел изборът на агентна рамка дава до +10–16 процентни пункта, което е съпоставимо със „скок“ с един клас модел нагоре или надолу.
  • при Codex CLI gpt-5 печели с 10% (49 срещу 44) пред gpt-5-codex. При други, напротив, печели gpt-5-codex.
  • вендорски агент ≠ най-добрият:
    • OpenAI: да, Codex CLI наистина е топ.
    • Anthropic и Google: не, техните собствени агенти (Claude Code, Gemini CLI) систематично губят от Terminus (авторите на бенчмарка)/OpenHands/Mini-SWE.
  • Границата на възможностите днес е комбинацията от [голям затворен модел] + [силна рамка]. Всичко останало е по същество компромис с бюджета/латентността.
  • GPT-OSS-20B/120B и малките модели силно не достигат нивата на GPT-5/Claude дори при добър агент: максимум 18–19% срещу 40–50%.
  • За „средната класа“ (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) изборът на агент е още по-критичен: там моделът сам по себе си е по-слаб и добрият стек го изтегля в диапазона 25–30% вместо 15–20%.