Переписав правила Cursor на скіли та додав бенчмарки

date: 2026-01-27

tags: [#cursor, #skills, #benchmark, #ai, #agents ]

draft: false

---

Переписав набір правил для cursor на скіли. Заодно почав додавати бенчмарки. Довелося повторити (ну майже) контекст cursor, щоб тести були близькими до реальності. Зате тепер можна писати скіли не за відчуттями, а з llm-as-a-judge.

Бенчмарки AssistFlow — це система автоматизованого тестування AI-агентів в ізольованих Docker-пісочницях, яка перевіряє якість виконання завдань не за текстом відповіді, а за реальними змінами в проєкті (файли, git-логи, статус). Процес включає автоматичну збірку контексту (як у Cursor), виконання агентом bash-команд у закритому оточенні та подальшу оцінку результату незалежним LLM-суддею на основі заданого в сценарії чек-листа, з генерацією детального інтерактивного звіту trace.html для аналізу кожної ітерації.