DeepSeekV2是一个重要的进展。不仅因为它在Transformer的两个关键组成部分:注意力层和前馈神经网络层上都有显著的改进。它还完全颠覆了中国的大型语言模型市场,并迫使竞争对手将价格降至原价的1%。⬇️