Terminal Bench2
Излезе Terminal-Bench 2.0: по-строг бенчмарк за мащабна оценка и подобряване на ИИ агентите в терминала.
Terminal-Bench 2.0 е по-сложна и по-добре верифицирана версия на стандартния бенчмарк за терминални задачи. По-сложни задачи и засилена проверка на качеството (ръчна и с помощта на LM), коригирани нестабилни случаи от 1.0 (например зависимост от променящата се антибот защита на YouTube). Фокус върху възпроизводимостта и надеждността.
За мен той е интересен преди всичко с това, че задачите са по-близки до инфраструктурните, отколкото в други бенчмаркове, поне заради интерфейса и инструментите.
Текущият топ може да бъде разгледан на страницата: https://www.tbench.ai/leaderboard/terminal-bench/2.0
Интересни моменти:
- за един и същ модел изборът на агентна рамка дава до +10–16 процентни пункта, което е съпоставимо със „скок“ с един клас модел нагоре или надолу.
- при Codex CLI gpt-5 печели с 10% (49 срещу 44) пред gpt-5-codex. При други, напротив, печели gpt-5-codex.
- вендорски агент ≠ най-добрият:
- OpenAI: да, Codex CLI наистина е топ.
- Anthropic и Google: не, техните собствени агенти (Claude Code, Gemini CLI) систематично губят от Terminus (авторите на бенчмарка)/OpenHands/Mini-SWE.
- Границата на възможностите днес е комбинацията от [голям затворен модел] + [силна рамка]. Всичко останало е по същество компромис с бюджета/латентността.
- GPT-OSS-20B/120B и малките модели силно не достигат нивата на GPT-5/Claude дори при добър агент: максимум 18–19% срещу 40–50%.
- За „средната класа“ (Haiku, Gemini Flash, Kimi Instruct, Grok, Qwen, GLM) изборът на агент е още по-критичен: там моделът сам по себе си е по-слаб и добрият стек го изтегля в диапазона 25–30% вместо 15–20%.