Travis_1965的动态-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

3 年前

trueweixin_46243090

全面认识MOS管，一篇文章就够了

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

黑客 George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成: GPT-4每个head都有2200亿参数，是一个8路的混合模型。所以，混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次，他们有一些小技巧。他们实际上进行了16次推断。他特别强调，OpenAI做了8个混合专家模型，任何人可以花8倍资金都能训练出来。也就是说，人们能够训练更小模型更长时间，微调后，就能找到这些技巧。OpenAI曾经发表类似关于让计算量不变的情况下，让训练更好的算法，比较像BatchNorm和NoBatchNorm。https://zhuanlan.zhihu.com/p/638677243