Контекстна інженерія: 3 рівні складності та найкращі практики для AI-агентів
Більша частина цього досить інтуїтивна після перших помилок, але навіщо їх робити, якщо можна прочитати заздалегідь? Кілька об’єктів для різних типів даних, ContextBuilder, стиснення з екстракцією є в будь-якому більш-менш складному “довгоживучому” агенті. Навіть у https://github.com/korchasa/severin/tree/main/src/agent/context.
https://www.kdnuggets.com/context-engineering-explained-in-3-levels-of-difficulty
TL;DR
Контекстне вікно LLM — це не бездонний кошик, а керований ресурс. Для надійних AI-агентів недостатньо просто «запхати все в контекст». Потрібен системний підхід до того, що потрапляє у вікно, як воно стискається і коли витісняється.
3 рівні складності контекстної інженерії
Level 1: Розуміння bottleneck-у
Будь-яка модель має ліміт. В агентних сценаріях (багато кроків, API-відповіді, документи) контекст швидко забивається «шумом». Модель починає втрачати інструкції, галюцинувати або «плавати» в логіці. Управління контекстом — єдиний спосіб зробити складні системи стабільними.
Level 2: Практики оптимізації
- Token budgeting: Поділ вікна на компоненти (інструкції, схеми інструментів, історія, retrieval). Це дозволяє усвідомлено жертвувати історією заради точності даних.
- Стиснення (Compression): Замість наївного сумаризування використовується семантичне або екстрактивне стиснення — збереження ключових фактів, зобов’язань та інтентів користувача.
- On-demand retrieval: Використання Model Context Protocol (MCP) для підключення джерел даних лише тоді, коли агент сам запитає інформацію.
Level 3: Production-архітектура
- Багатошарова пам’ять:
- Working: поточне вікно.
- Episodic: стиснутий стан минулих кроків.
- Semantic: база знань (факти).
- Procedural: динамічні інструкції.
- Розумний Retrieval: Гібридний пошук (Dense + BM25) з мета-фільтрами. Техніка Contextual Retrieval від Anthropic (додавання контексту до фрагментів перед ембеддінгом) радикально знижує промахи пошуку.
- Token-level профілювання: Спрощення схем (JSON замість OpenAPI), дедуплікація та ієрархічний синтез (спочатку витяжки з документів, потім загальна відповідь).