热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_37071892
诏曰5G
1 年前
trueweixin_37071892

这周学到一些超级有趣的东西

如果你训练GPT-2进行乘法运算,你甚至无法训练它去乘四位数(30%的准确率)

但如果你使用一个非常聪明(且有点复杂)的训练方案,GPT-2能够泛化到20位数的乘法(100%的准确率)

事实证明,GPT-2无法乘四位数的原因并不是层数不够、隐藏维度太小或是训练数据不好。这些都没问题。问题出在学习算法本身

更好的模型是通过在常规训练中的一个巧妙技巧构建的 —— 首先使用链式思维,然后在模型学会用越来越少的步骤解决问题后逐步移除标记

这告诉我,我们的标准模型训练方法是次优的(监督学习 + SGD + Adam)

这些实验来自这篇论文:《From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step》。这篇论文才几个月

虽然隐式链式思维非常酷,但它的见解更具普遍性:这是我们当前优化方式不是最佳的一个证明

显然有一种更好的学习算法在那里

CSDN App 扫码分享
分享
13
149
  • 复制链接
  • 举报
下一条:
q
立即登录