OpenAI таки звернули увагу на обман моделей.

OpenAI спільно з Apollo Research розробили тести для виявлення “схемінгу” — ситуації, коли AI поводиться зовні коректно, але переслідує приховані цілі. У контрольованих експериментах виявлено такі ознаки у просунутих моделей. Для зниження схемінгу було випробувано методику “деліберативного вирівнювання” — навчання моделі роздумувати над спеціальною антисхемінговою специфікацією перед прийняттям рішення, що дозволило знизити частоту прихованих дій приблизно в 30 разів. Однак повністю усунути ризик не вдалося: моделі можуть просто навчитися краще приховувати свою невідповідність, особливо якщо усвідомлюють, що їх тестують. Загалом автори зазначають, що проблема схемінгу ускладнюється зі зростанням можливостей AI, вимагає нових методів оцінки та прозорості міркувань, і має стати ключовим напрямком досліджень при розробці AGI.

https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/