锯齿状智能
我用来描述这一(奇怪的、不直观的)现象的词:最先进的LLM(大型语言模型)可以同时执行极其令人印象深刻的任务(例如解决复杂的数学问题),但同时在一些非常愚蠢的问题上挣扎。
例如,两天前的例子——哪个数字更大,9.11还是9.9?错了。
https://x.com/karpathy/status/1815549255354089752
或者在玩井字棋时失败:做出无意义的决定:
https://x.com/polynoamial/status/1755717284650176591
或另一个常见的例子:无法计数,例如“barrier”这个词中字母“r”出现的次数,ChatGPT-4o说是2:
https://x.com/karpathy/status/1816160802765955186
同样的情况也适用于其他模式。最先进的LLM可以合理地识别成千上万种狗或花的种类,但例如无法判断两个圆是否重叠:
https://x.com/fly51fly/status/1812599708134916218
锯齿状智能。有些事情做得非常好(按人类标准),而有些事情却完全失败(按人类标准),并且并不总是显而易见哪种情况会发生,尽管随着时间的推移你可以培养一些直觉。不同于人类,人类的许多知识和问题解决能力都是高度相关的,并且从出生到成年一起线性改善。
我个人认为这些不是根本性的问题。它们需要整个堆栈的更多工作,包括不仅仅是扩展。我认为重要的是当前缺乏“认知自知”,这需要在模型后训练中采用更复杂的方法,而不是仅仅“模仿人类标注者并使其变大”的简单解决方案,这些解决方案大多让我们走到了今天。关于我所说的例子的一个例子,请参阅Llama 3.1论文中关于缓解幻觉的章节:
https://x.com/karpathy/status/1816171241809797335
目前,这是需要注意的,尤其是在生产环境中。将LLM用于它们擅长的任务,但要注意那些锯齿状的边缘,并让人类介入。
- 复制链接
- 举报