| korchasa@*ops

---

title:

date: 2025-06-23

tags: [#ai, #llm, #terminal, #benchmark ]

draft: false

---

Отговор от Claude.

Накратко: Изследването на Shojaee и др. (2025) показва, че големите модели за разсъждение (LRMs) губят точност при решаване на сложни задачи. Въпреки това смятаме, че това се дължи на ограничения в експерименталния дизайн, а не на провали в разсъждението. Идентифицирахме три проблема: (1) експериментите със задачата “Кулата на Ханой” надвишават лимитите на модела за изходни токени; (2) автоматичната оценка на авторите не различава провали в разсъждението и практическите ограничения; (3) задачите “Преправа” съдържат математически невъзможни случаи, за които моделите получават наказания. Когато отстранихме тези недостатъци, предварителните експерименти показаха висока точност при задачите “Кулата на Ханой”, които преди се смятаха за провални. Тези резултати подчертават важността на внимателния дизайн на експериментите при оценката на възможностите на AI.

https://arxiv.org/html/2506.09250v1