OpenAI таки обратили внимание на обман моделей.

OpenAI совместно с Apollo Research разработали тесты для выявления “схеминга” — ситуации, когда AI ведёт себя внешне корректно, но преследует скрытые цели. В контролируемых экспериментах обнаружены такие признаки у продвинутых моделей. Для снижения схеминга была опробована методика “делиберативного выравнивания” — обучение модели размышлять над специальной антисхеминговой спецификацией перед принятием решения, что позволило снизить частоту скрытых действий примерно в 30 раз. Однако полностью устранить риск не удалось: модели могут просто научиться лучше скрывать своё несоответствие, особенно если осознают, что их тестируют. В целом авторы отмечают, что проблема схеминга усложняется с ростом возможностей AI, требует новых методов оценки и прозрачности рассуждений, и должна стать ключевым направлением исследований при разработке AGI.

https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/