---
title:

Контекстная инженерия: 3 уровня сложности и лучшие практики для AI-агентов

date: 2026-01-08
draft: false
---

Большая часть более-менее интуитивна после первых ошибок, но зачем их делать, если можно прочитать заранее? Несколько объектов для разных данных, ContextBuilder, сжатие с экстракцией есть в любом более-менее сложном “долгоживущем” агенте. Даже, в https://github.com/korchasa/severin/tree/main/src/agent/context.

https://www.kdnuggets.com/context-engineering-explained-in-3-levels-of-difficulty

TL;DR

Контекстное окно LLM — это не бездонная корзина, а управляемый ресурс. Для надежных AI-агентов недостаточно просто «запихнуть всё в контекст». Нужен системный подход к тому, что попадает в окно, как оно сжимается и когда вытесняется.


3 уровня сложности контекстной инженерии

Level 1: Понимание bottleneck-а

У любой модели есть лимит. В агентных сценариях (много шагов, API-ответы, документы) контекст быстро забивается «шумом». Модель начинает терять инструкции, галлюцинировать или «плыть» в логике. Управление контекстом — единственный способ сделать сложные системы стабильными.

Level 2: Практики оптимизации

  • Token budgeting: Разделение окна на компоненты (инструкции, схемы инструментов, история, retrieval). Это позволяет осознанно жертвовать историей ради точности данных.
  • Сжатие (Compression): Вместо наивного суммаризирования используется семантическое или экстрактивное сжатие — сохранение ключевых фактов, обязательств и интентов пользователя.
  • On-demand retrieval: Использование Model Context Protocol (MCP) для подключения источников данных только тогда, когда агент сам запросит информацию.

Level 3: Production-архитектура

  • Многослойная память:
    • Working: текущее окно.
    • Episodic: сжатое состояние прошлых шагов.
    • Semantic: база знаний (факты).
    • Procedural: динамические инструкции.
  • Умный Retrieval: Гибридный поиск (Dense + BM25) с мета-фильтрами. Техника Contextual Retrieval от Anthropic (добавление контекста к фрагментам перед эмбеддингом) радикально снижает промахи поиска.
  • Token-level профилирование: Упрощение схем (JSON вместо OpenAPI), дедупликация и иерархический синтез (сначала выжимки из документов, потом общий ответ).