黑客GeorgeHotz爆料GPT-4由8个MoE模型组成:-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

3 年前

trueuniverssky2015

黑客 George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成: GPT-4每个head都有2200亿参数，是一个8路的混合模型。所以，混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次，他们有一些小技巧。他们实际上进行了16次推断。
他特别强调，OpenAI做了8个混合专家模型，任何人可以花8倍资金都能训练出来。

也就是说，人们能够训练更小模型更长时间，微调后，就能找到这些技巧。

OpenAI曾经发表类似关于让计算量不变的情况下，让训练更好的算法，比较像BatchNorm和NoBatchNorm。

https://zhuanlan.zhihu.com/p/638677243

人工智能时代

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条：

合宙air001開箱