Контекстная инженерия: 3 уровня сложности и лучшие практики для AI-агентов

date: 2026-01-08

tags: [#llm, #context-engineering, #agents, #mcp, #retrieval, #best-practices ]

draft: false

---

Большая часть более-менее интуитивна после первых ошибок, но зачем их делать, если можно прочитать заранее? Несколько объектов для разных данных, ContextBuilder, сжатие с экстракцией есть в любом более-менее сложном “долгоживущем” агенте. Даже, в https://github.com/korchasa/severin/tree/main/src/agent/context.

https://www.kdnuggets.com/context-engineering-explained-in-3-levels-of-difficulty

TL;DR

Контекстное окно LLM — это не бездонная корзина, а управляемый ресурс. Для надежных AI-агентов недостаточно просто «запихнуть всё в контекст». Нужен системный подход к тому, что попадает в окно, как оно сжимается и когда вытесняется.

3 уровня сложности контекстной инженерии

Level 1: Понимание bottleneck-а

У любой модели есть лимит. В агентных сценариях (много шагов, API-ответы, документы) контекст быстро забивается «шумом». Модель начинает терять инструкции, галлюцинировать или «плыть» в логике. Управление контекстом — единственный способ сделать сложные системы стабильными.

Level 2: Практики оптимизации

Token budgeting: Разделение окна на компоненты (инструкции, схемы инструментов, история, retrieval). Это позволяет осознанно жертвовать историей ради точности данных.
Сжатие (Compression): Вместо наивного суммаризирования используется семантическое или экстрактивное сжатие — сохранение ключевых фактов, обязательств и интентов пользователя.
On-demand retrieval: Использование Model Context Protocol (MCP) для подключения источников данных только тогда, когда агент сам запросит информацию.

Level 3: Production-архитектура

Многослойная память:
- Working: текущее окно.
- Episodic: сжатое состояние прошлых шагов.
- Semantic: база знаний (факты).
- Procedural: динамические инструкции.
Умный Retrieval: Гибридный поиск (Dense + BM25) с мета-фильтрами. Техника Contextual Retrieval от Anthropic (добавление контекста к фрагментам перед эмбеддингом) радикально снижает промахи поиска.
Token-level профилирование: Упрощение схем (JSON вместо OpenAPI), дедупликация и иерархический синтез (сначала выжимки из документов, потом общий ответ).