DeepSeekV2使用了162位专家，而不是像Mixtra-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_40852426

DeepSeek V2使用了162位专家，而不是像Mixtral通常使用的8位。这种方法将专家细分为更细的粒度，以实现更高的专业化和更准确的知识获取。每个令牌只激活少部分专家，从而实现高效处理。

CSDN App 扫码分享

分享

1

21

复制链接
举报

下一条：

DeepSeekV2是一个重要的进展。不仅因为它在Transformer的两个关键组成部分：注意力层和前馈神经网络层上都有显著的改进。它还完全颠覆了中国的大型语言模型市场，并迫使竞争对手将价格降至原价的1%。⬇️