Контекстная инженерия: 3 уровня сложности и лучшие практики для AI-агентов
Большая часть более-менее интуитивна после первых ошибок, но зачем их делать, если можно прочитать заранее? Несколько объектов для разных данных, ContextBuilder, сжатие с экстракцией есть в любом более-менее сложном “долгоживущем” агенте. Даже, в https://github.com/korchasa/severin/tree/main/src/agent/context.
https://www.kdnuggets.com/context-engineering-explained-in-3-levels-of-difficulty
TL;DR
Контекстное окно LLM — это не бездонная корзина, а управляемый ресурс. Для надежных AI-агентов недостаточно просто «запихнуть всё в контекст». Нужен системный подход к тому, что попадает в окно, как оно сжимается и когда вытесняется.
3 уровня сложности контекстной инженерии
Level 1: Понимание bottleneck-а
У любой модели есть лимит. В агентных сценариях (много шагов, API-ответы, документы) контекст быстро забивается «шумом». Модель начинает терять инструкции, галлюцинировать или «плыть» в логике. Управление контекстом — единственный способ сделать сложные системы стабильными.
Level 2: Практики оптимизации
- Token budgeting: Разделение окна на компоненты (инструкции, схемы инструментов, история, retrieval). Это позволяет осознанно жертвовать историей ради точности данных.
- Сжатие (Compression): Вместо наивного суммаризирования используется семантическое или экстрактивное сжатие — сохранение ключевых фактов, обязательств и интентов пользователя.
- On-demand retrieval: Использование Model Context Protocol (MCP) для подключения источников данных только тогда, когда агент сам запросит информацию.
Level 3: Production-архитектура
- Многослойная память:
- Working: текущее окно.
- Episodic: сжатое состояние прошлых шагов.
- Semantic: база знаний (факты).
- Procedural: динамические инструкции.
- Умный Retrieval: Гибридный поиск (Dense + BM25) с мета-фильтрами. Техника Contextual Retrieval от Anthropic (добавление контекста к фрагментам перед эмбеддингом) радикально снижает промахи поиска.
- Token-level профилирование: Упрощение схем (JSON вместо OpenAPI), дедупликация и иерархический синтез (сначала выжимки из документов, потом общий ответ).