Исследователи выявили значительный феномен, при котором увеличение глубины моделей-трансформеров не всегда гарантирует повышение производительности. Это исследование показывает, что чрезмерное наслоение уровней может препятствовать эффективности обучения, предполагая, что разработчикам следует сосредоточиться на архитектурном балансе, а не на простом масштабировании.