热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
5
1
打赏
- 复制链接
- 举报
下一条:
Mixture of Depths(MoD)基于 Transformer 的语言模型中动态分配计算利用类似于专家混合(MoE)变压器的方法,其中动态token路由决策是在整个网络深度上做出的。与 MoE 不同,我们选择对token应用计算(就像标准变压器的情况),或者通过剩余连接传递它(保持不变并节省计算)。与 MoE 不同的是,我们将此路由应用于前向 MLP 和多头注意力。由于这也会影响我们处理的密钥和查询,因此路由不仅决定要更新哪些token,还决定哪些令牌可供处理。我们将此策略称为深度混合(MoD),以强调各个token如何通过变压器的深度穿过不同数量的层或块。作者发现每第二层路由 ⅛ token效果最好。他们还观察到,这些层的注意力成本呈二次方下降,因此这可能是一种有趣的方式,可以使超长上下文长度更快。对训练时间没有影响,但每次前传可以“快 50%”。https://arxiv.org/pdf/2404.02258.pdf?utm_source=ainews&utm_medium=email&utm_campaign=ainews-mixture-of-depths-dynamically-allocating