热门
最新
红包
立Flag
投票
同城
我的
发布
上线日忙不(单选)
19 人已经参与 已结束
忙
13人
不忙
6人
成就一亿技术人!
码友杂谈区
长沙市岳麓区
CSDN App 扫码分享
3
5
打赏
- 复制链接
- 举报
下一条:
「HyperRouter:高效训练和稀疏专家混合的推断方法」链接:https://news.miracleplus.com/share_link/13117 通过将输入的token路由到仅几个分割专家中,Sparse Mixture-of-Experts实现了大规模语言模型的高效训练。最近的研究表明,固定路由器可以通过缓解崩溃问题(即所有专家最终学习类似的表示)来实现竞争性的性能。然而,这种策略有两个关键限制:(一)从随机路由器导出的策略可能是次优的,(二)在训练和评估过程中需要大量资源,导致效率提升有限。本文引入了“超级路由器(HyperRouter)”,通过固定的超网络和可训练的嵌入来动态生成路由器的参数,以在训练路由器和冻结路由器之间实现平衡,从而学习到改进的路由策略。广泛的实验证明了超级路由器相比现有的路由方法在性能和效率上的优势。我们的实现公开可 https://github.com/giangdip2410/HyperRouter.

