Изследователи идентифицираха значим феномен, при който увеличаването на дълбочината при трансформаторните модели не винаги гарантира по-добра производителност. Това проучване показва, че прекомерното трупане на слоеве може да попречи на ефективността на обучението, което предполага, че разработчиците трябва да се съсредоточат върху архитектурния баланс, а не върху простото мащабиране.