Пренаписах правилата на Cursor в скилове и добавих бенчмаркове

date: 2026-01-27

tags: [#cursor, #skills, #benchmark, #ai, #agents ]

draft: false

---

Пренаписах набора от правила за cursor в скилове. Същевременно започнах да добавям бенчмаркове. Трябваше да повторя (е, почти) контекста на cursor, за да бъдат тестовете близки до реалността. Но сега вече мога да пиша скилове не по усещане, а с llm-as-a-judge.

AssistFlow Benchmarks е система за автоматизирано тестване на AI агенти в изолирани Docker пясъчници, която проверява качеството на изпълнение на задачите не по текста на отговора, а по реалните промени в проекта (файлове, git логове, статус). Процесът включва автоматично събиране на контекст (като в Cursor), изпълнение на bash команди от агента в затворена среда и последваща оценка на резултата от независим LLM съдия въз основа на зададен в сценария списък за проверка, с генериране на детайлен интерактивен отчет trace.html за анализ на всяка итерация.