热门

最新

红包

立Flag

投票

同城

我的

发布
techsavvyak
_akhaliq
10 月前
truetechsavvyak

论文页面: https://huggingface.co/papers/2407.11633

CSDN App 扫码分享
分享
1
20
  • 复制链接
  • 举报
下一条:
扩展扩散变压器至160亿参数在本文中,我们介绍了DiT-MoE,这是一种稀疏版本的扩散变压器,可扩展并且在推理时具有高度优化的性能,与密集网络相比具有竞争力。DiT-MoE包含两个简单的设计:共享专家路由和专家级平衡损失,从而捕捉到常识并减少不同路由专家之间的冗余。当应用于条件图像生成时,对专家专业化的深入分析得出了一些有趣的观察:(i) 专家选择显示出对空间位置和去噪时间步长的偏好,而对不同的类条件信息不敏感;(ii) 随着MoE层的加深,专家的选择逐渐从特定的空间位置转向分散和平衡。(iii) 专家专业化在早期时间步长趋于更集中,然后在中途逐渐均匀化。我们将其归因于扩散过程,首先建模低频空间信息,然后是高频复杂信息。基于上述指导,系列DiT-MoE在实验中实现了与密集网络相当的性能,但在推理期间所需的计算负载要少得多。更令人鼓舞的是,我们展示了DiT-MoE在合成图像数据方面的潜力,扩展了160亿参数的扩散模型,在512x512分辨率设置下实现了新的SoTA FID-50K得分1.80。
立即登录