OpenAI най-накрая обърнаха внимание на измамите на моделите.

OpenAI съвместно с Apollo Research разработиха тестове за откриване на „схеминг“ — ситуация, при която ИИ се държи външно коректно, но преследва скрити цели. В контролирани експерименти са открити такива признаци при напреднали модели. За намаляване на схеминга е тествана методиката „делиберативно изравняване“ — обучение на модела да размишлява върху специална антисхеминг спецификация преди вземане на решение, което е позволило намаляване на честотата на скритите действия около 30 пъти. Рискът обаче не е напълно елиминиран: моделите могат просто да се научат да крият по-добре своето несъответствие, особено ако осъзнават, че биват тествани. Като цяло авторите отбелязват, че проблемът със схеминга се усложнява с нарастването на възможностите на ИИ, изисква нови методи за оценка и прозрачност на разсъжденията и трябва да се превърне в ключова посока на изследванията при разработването на AGI.

https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/