Відповідь від Claude.

Коротко: Дослідження Shojaee та ін. (2025) показує, що великі моделі міркувань (LRMs) втрачають точність під час розв’язання складних задач. Однак ми вважаємо, що це пов’язано з обмеженнями експериментального дизайну, а не з невдачами в міркуванні. Ми виявили три проблеми: (1) експерименти із задачею “Вежа Ханоя” перевищують ліміти моделі на вихідні токени; (2) автоматична оцінка авторів не розрізняє невдачі в міркуванні та практичні обмеження; (3) задачі “Переправа” містять математично неможливі випадки, за які моделі отримують штрафи. Коли ми усунули ці недоліки, попередні експерименти показали високу точність на задачах “Вежа Ханоя”, які раніше вважалися провальними. Ці результати підкреслюють важливість ретельного дизайну експериментів для оцінки здібностей AI.

https://arxiv.org/html/2506.09250v1