这周学到一些超级有趣的东西如果你训练GPT-2进行乘法运算，-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_37071892

这周学到一些超级有趣的东西

如果你训练GPT-2进行乘法运算，你甚至无法训练它去乘四位数（30%的准确率）

但如果你使用一个非常聪明（且有点复杂）的训练方案，GPT-2能够泛化到20位数的乘法（100%的准确率）

事实证明，GPT-2无法乘四位数的原因并不是层数不够、隐藏维度太小或是训练数据不好。这些都没问题。问题出在学习算法本身

更好的模型是通过在常规训练中的一个巧妙技巧构建的 —— 首先使用链式思维，然后在模型学会用越来越少的步骤解决问题后逐步移除标记

这告诉我，我们的标准模型训练方法是次优的（监督学习 + SGD + Adam）

这些实验来自这篇论文：《From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step》。这篇论文才几个月

虽然隐式链式思维非常酷，但它的见解更具普遍性：这是我们当前优化方式不是最佳的一个证明

显然有一种更好的学习算法在那里

CSDN App 扫码分享

分享

13

149

复制链接
举报

下一条：