这周学到一些超级有趣的东西
如果你训练GPT-2进行乘法运算,你甚至无法训练它去乘四位数(30%的准确率)
但如果你使用一个非常聪明(且有点复杂)的训练方案,GPT-2能够泛化到20位数的乘法(100%的准确率)
事实证明,GPT-2无法乘四位数的原因并不是层数不够、隐藏维度太小或是训练数据不好。这些都没问题。问题出在学习算法本身
更好的模型是通过在常规训练中的一个巧妙技巧构建的 —— 首先使用链式思维,然后在模型学会用越来越少的步骤解决问题后逐步移除标记
这告诉我,我们的标准模型训练方法是次优的(监督学习 + SGD + Adam)
这些实验来自这篇论文:《From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step》。这篇论文才几个月
虽然隐式链式思维非常酷,但它的见解更具普遍性:这是我们当前优化方式不是最佳的一个证明
显然有一种更好的学习算法在那里