在他新系列的第一篇文章中,Anindya Dey详细探讨了一种对ViT的特殊修改,这种修改涉及“将层归一化(LayerNorm)—变压器的默认归一化技术—替换为批归一化(BatchNorm)。” https://towardsdatascience.com/speeding-up-the-vision-transformer-with-batch-normalization-d37f13f20ae7