---
title:

Контекстна інженерія: 3 рівні складності та найкращі практики для AI-агентів

date: 2026-01-08
draft: false
---

Більша частина цього досить інтуїтивна після перших помилок, але навіщо їх робити, якщо можна прочитати заздалегідь? Кілька об’єктів для різних типів даних, ContextBuilder, стиснення з екстракцією є в будь-якому більш-менш складному “довгоживучому” агенті. Навіть у https://github.com/korchasa/severin/tree/main/src/agent/context.

https://www.kdnuggets.com/context-engineering-explained-in-3-levels-of-difficulty

TL;DR

Контекстне вікно LLM — це не бездонний кошик, а керований ресурс. Для надійних AI-агентів недостатньо просто «запхати все в контекст». Потрібен системний підхід до того, що потрапляє у вікно, як воно стискається і коли витісняється.


3 рівні складності контекстної інженерії

Level 1: Розуміння bottleneck-у

Будь-яка модель має ліміт. В агентних сценаріях (багато кроків, API-відповіді, документи) контекст швидко забивається «шумом». Модель починає втрачати інструкції, галюцинувати або «плавати» в логіці. Управління контекстом — єдиний спосіб зробити складні системи стабільними.

Level 2: Практики оптимізації

  • Token budgeting: Поділ вікна на компоненти (інструкції, схеми інструментів, історія, retrieval). Це дозволяє усвідомлено жертвувати історією заради точності даних.
  • Стиснення (Compression): Замість наївного сумаризування використовується семантичне або екстрактивне стиснення — збереження ключових фактів, зобов’язань та інтентів користувача.
  • On-demand retrieval: Використання Model Context Protocol (MCP) для підключення джерел даних лише тоді, коли агент сам запитає інформацію.

Level 3: Production-архітектура

  • Багатошарова пам’ять:
    • Working: поточне вікно.
    • Episodic: стиснутий стан минулих кроків.
    • Semantic: база знань (факти).
    • Procedural: динамічні інструкції.
  • Розумний Retrieval: Гібридний пошук (Dense + BM25) з мета-фільтрами. Техніка Contextual Retrieval від Anthropic (додавання контексту до фрагментів перед ембеддінгом) радикально знижує промахи пошуку.
  • Token-level профілювання: Спрощення схем (JSON замість OpenAPI), дедуплікація та ієрархічний синтез (спочатку витяжки з документів, потім загальна відповідь).