---
title:
Пренаписах правилата на Cursor в скилове и добавих бенчмаркове
date:
2026-01-27
draft:
false
---
Пренаписах набора от правила за cursor в скилове. Същевременно започнах да добавям бенчмаркове. Трябваше да повторя (е, почти) контекста на cursor, за да бъдат тестовете близки до реалността. Но сега вече мога да пиша скилове не по усещане, а с llm-as-a-judge.
AssistFlow Benchmarks е система за автоматизирано тестване на AI агенти в изолирани Docker пясъчници, която проверява качеството на изпълнение на задачите не по текста на отговора, а по реалните промени в проекта (файлове, git логове, статус). Процесът включва автоматично събиране на контекст (като в Cursor), изпълнение на bash команди от агента в затворена среда и последваща оценка на резултата от независим LLM съдия въз основа на зададен в сценария списък за проверка, с генериране на детайлен интерактивен отчет trace.html за анализ на всяка итерация.