Контекстна інженерія: 3 рівні складності та найкращі практики для AI-агентів

date: 2026-01-08

tags: [#llm, #context-engineering, #agents, #mcp, #retrieval, #best-practices ]

draft: false

---

Більша частина цього досить інтуїтивна після перших помилок, але навіщо їх робити, якщо можна прочитати заздалегідь? Кілька об’єктів для різних типів даних, ContextBuilder, стиснення з екстракцією є в будь-якому більш-менш складному “довгоживучому” агенті. Навіть у https://github.com/korchasa/severin/tree/main/src/agent/context.

https://www.kdnuggets.com/context-engineering-explained-in-3-levels-of-difficulty

TL;DR

Контекстне вікно LLM — це не бездонний кошик, а керований ресурс. Для надійних AI-агентів недостатньо просто «запхати все в контекст». Потрібен системний підхід до того, що потрапляє у вікно, як воно стискається і коли витісняється.

3 рівні складності контекстної інженерії

Level 1: Розуміння bottleneck-у

Будь-яка модель має ліміт. В агентних сценаріях (багато кроків, API-відповіді, документи) контекст швидко забивається «шумом». Модель починає втрачати інструкції, галюцинувати або «плавати» в логіці. Управління контекстом — єдиний спосіб зробити складні системи стабільними.

Level 2: Практики оптимізації

Token budgeting: Поділ вікна на компоненти (інструкції, схеми інструментів, історія, retrieval). Це дозволяє усвідомлено жертвувати історією заради точності даних.
Стиснення (Compression): Замість наївного сумаризування використовується семантичне або екстрактивне стиснення — збереження ключових фактів, зобов’язань та інтентів користувача.
On-demand retrieval: Використання Model Context Protocol (MCP) для підключення джерел даних лише тоді, коли агент сам запитає інформацію.

Level 3: Production-архітектура

Багатошарова пам’ять:
- Working: поточне вікно.
- Episodic: стиснутий стан минулих кроків.
- Semantic: база знань (факти).
- Procedural: динамічні інструкції.
Розумний Retrieval: Гібридний пошук (Dense + BM25) з мета-фільтрами. Техніка Contextual Retrieval від Anthropic (додавання контексту до фрагментів перед ембеддінгом) радикально знижує промахи пошуку.
Token-level профілювання: Спрощення схем (JSON замість OpenAPI), дедуплікація та ієрархічний синтез (спочатку витяжки з документів, потім загальна відповідь).