Ответ от Claude.

Вкратце: Исследование Shojaee и др. (2025) показывает, что большие модели рассуждений (LRMs) теряют точность при решении сложных задач. Однако мы считаем, что это связано с ограничениями экспериментального дизайна, а не с неудачами в рассуждении. Мы выявили три проблемы: (1) эксперименты с задачей “Башня Ханоя” превышают лимиты модели на выходные токены; (2) автоматическая оценка авторов не различает неудачи в рассуждении и практические ограничения; (3) задачи “Переправа” содержат математически невозможные случаи, за которые модели получают штрафы. Когда мы устранили эти недостатки, предварительные эксперименты показали высокую точность на задачах “Башня Ханоя”, ранее считавшихся провальными. Эти результаты подчеркивают важность тщательного дизайна экспериментов для оценки способностей AI.

https://arxiv.org/html/2506.09250v1