---
title:

Переписал правила Cursor на скиллы и добавил бенчмарки

date: 2026-01-27
draft: false
---

Переписал набор правил для cursor на скилы. Заодно начал добавлять бенчмарки. Пришлось повторить(ну почти) контекст cursor, чтобы тесты были близки к реальности. Зато теперь можно писать скилы не по ощущениям, а с llm-as-a-judge.

Бенчмарки AssistFlow — это система автоматизированного тестирования AI-агентов в изолированных Docker-песочницах, которая проверяет качество выполнения задач не по тексту ответа, а по реальным изменениям в проекте (файлы, git-логи, статус). Процесс включает автоматическую сборку контекста (как в Cursor), выполнение агентом bash-команд в закрытом окружении и последующую оценку результата независимым LLM-судьей на основе заданного в сценарии чек-листа, с генерацией детального интерактивного отчета trace.html для анализа каждой итерации.