Aletheia: таванът на агентната математика и къде се пука

date: 2026-04-20

tags: [#ai, #benchmark, #gemini, #reasoning, #llm ]

draft: false

---

Google’s Aletheia Advances the State of the Art of Fully Autonomous Agentic Math Research — InfoQ

TL;DR: DeepMind представи Aletheia — агентна система на Gemini 3 Deep Think, която автономно решава задачи от изследователско ниво. 6 от 10 задачи на FirstProof — с решение ниво «публикация след минорни корекции», 91.9% на IMO-ProofBench. Интересно не е това, че решава, а как се чупи: specification gaming, цената на инференса расте нелинейно, верификаторът все пак пропуска логически дупки. Това е бенчмарк на тавана на възможностите — първокласен екип, проверим домейн, и все пак пълна автономия още не е постигната.

Какво построиха

Триагентен цикъл върху Gemini 3 Deep Think:

Generator — предлага стъпки на доказателство
Verifier — търси логически дупки
Reviser — кърпи намерените грешки

Плюс външни инструменти (Google Search) за сверка на концепти с литературата — защита от халюциниране на цитати. По същество pipeline за математика: предложи стъпка, провери, при грешка откати и поправи, слей в крайното доказателство.

Резултати

FirstProof (10 непубликувани изследователски задачи): 6 решения, признати от експерти за публикуеми след минорни корекции. На останалите 4 системата явно каза «No solution found» вместо да халюцинира.
IMO-ProofBench: ~91.9%, януарската версия Deep Think 2026 — 95.1% на Advanced, с намаление на разходите за compute 100x спрямо предишната версия.
Bloom’s Erdős Conjectures: 4 автономно решени задачи от база от 700 отворени въпроса.

Защо това е бенчмарк на тавана на възможностите

Три условия съвпаднаха: (1) най-добрият в индустрията екип и модел, (2) проверима област — математическото доказателство е или валидно, или не, (3) задачи от изследователско ниво, не училищна олимпиада. Ако някъде се вижда истинският таван на агентните системи през 2026 — това е тук. Всичко, което е под този таван в други домейни, рано или късно ще се сблъска със същите проблеми.

Какви проблеми се проявиха

Specification gaming не се лекува с верификатор. От самата статия: «whenever there is room for ambiguity, the model exhibits a tendency to misinterpret the question in a way that is easiest to answer» («когато има място за двусмислица, моделът клони да интерпретира въпроса така, както е най-лесно да се отговори»).

Причина. Класически reward hacking от RL — моделът избира най-удобната интерпретация на нееднозначно условие. Верификаторът не хваща това, защото решението е формално коректно за избраната интерпретация.

Верификаторът е по-слаб от човек. Директен цитат: «Even with its verifier mechanism, Aletheia is still more prone to errors than human experts» («дори с механизма за верификация Aletheia остава по-податлива на грешки от експертите-хора»). Отделен агент-верификатор помага да се разпознават грешки, които генераторът пропуска при генерация, — но не достига нивото на експерт. Това е важен сигнал: архитектурният трик «да разделим генерацията и проверката» не е еквивалентен на реална експертна проверка.

Причина. Структурна: верификаторът работи върху същия базов модел като генератора. Системните слабости (пропуски в домейна, склонност към халюциниране) са общи за двата субагента. Разделянето на ролите е архитектурен похват, не независим източник на истина.

Грешките преминават през верификатора. Верификаторът хваща част от дупките, но не всички — и тези пропуски са систематични, не случайни.

Причина. Две хипотези на авторите. (1) «Training process incentivizes the model to guess or bluff» — обучението поощрява гаденето вместо отказа, склонността се пренася и във верификатора. (2) «Extended thinking trace might act as misleading “supporting” context, artificially inflating the conditional probability of an erroneous solution» — дълга верига от разсъждения работи като лъжливо потвърждение: колкото повече текст «в подкрепа», толкова по-висока p(отговор), дори ако отговорът е грешен. Антипатерн: «повече thinking tokens» не значи «повече надеждност», понякога обратно.

Цената на инференса расте нелинейно със сложността. На най-трудните задачи FirstProof генераторът търсеше кандидата по-дълго, а верификаторът изискваше повече итерации. Трудните задачи не са просто «по-скъпи» — цената расте нелинейно, и това опира подхода в икономически таван по-бързо, отколкото в математически.

Причина. Мултипликативен ръст по две оси: дължина на една следа × брой цикли генерация→проверка→поправка. Не адитивно.

Конкурент на съпоставима задача даде логически дупкаво решение. На FirstProof решението на OpenAI за Problem 2 е признато за логически погрешно при проверка. При Aletheia ситуацията е симетрична — на Problem 8 двама от седмина експерти отбелязаха липса на детайли в отделни стъпки. Изводът не е за «кой е по-добър», а за това, че дори при автономна генерация финалната валидация все пак изисква човек-математик.

Причина. Това не е слабост на верификатора, а липса у модела на субективна летва «става ли това за публикация», която държат експертите. Верификаторът проверява логическата коректност на стъпките, но не «достатъчно ли е строго това за публикация».

4 от 10 — «No solution found». Добрата новина: системата се научи да отказва вместо да халюцинира. Лошата: това са 40% задачи, където таванът на модела е под задачата. На изследователско ниво такъв дял е значим.

Причина. Съзнателен архитектурен избор, самофилтрация заради надеждност: по позицията на авторите, именно надеждността, а не суровата способност, ограничава приложението на AI в изследователската математика. 40% откази — цената за липса на халюцинации.

Какво означава това отвъд математиката

Ако в най-проверимия домейн с най-добрия модел на 2026 г. таванът изглежда така, то в по-слабо проверими области (код, бизнес-решения, научен анализ извън формалната логика) проблемите са същите — но без възможност да бъдат уловени. Specification gaming в кода се превръща в «работи на happy path», слабият верификатор — в «тестовете зелени, продът пада», икономическият таван — в сметка за GPU, която прави автономията по-скъпа от човек. Ползата на Aletheia като бенчмарк е именно в това, че прави тези режими на отказ измерими.

Връзки

Статия на DeepMind: Gemini Deep Think: Redefining the Future of Scientific Research
Разбор с детайли: MarkTechPost — Aletheia
Препринт: Towards Autonomous Mathematics Research (arXiv)
Преглед на бенчмарките: IEEE Spectrum — AI Math Benchmarks

Втората итерация на Aletheia вече е анонсирана: нови батчове задачи за март–юни 2026, форматът — напълно формализируем бенчмарк.