热门

最新

红包

立Flag

投票

同城

我的

发布
universsky2015
光子AI
3 年前
trueuniverssky2015

黑客 George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成: GPT-4每个head都有2200亿参数,是一个8路的混合模型。所以,混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次,他们有一些小技巧。他们实际上进行了16次推断。
他特别强调,OpenAI做了8个混合专家模型,任何人可以花8倍资金都能训练出来。

也就是说,人们能够训练更小模型更长时间,微调后,就能找到这些技巧。

OpenAI曾经发表类似关于让计算量不变的情况下,让训练更好的算法,比较像BatchNorm和NoBatchNorm。

https://zhuanlan.zhihu.com/p/638677243

人工智能时代
CSDN App 扫码分享
分享
评论
1
打赏
  • 复制链接
  • 举报
下一条:
合宙air001開箱
立即登录