ChatGPT的能力发展
目前,主要可以从下面四个维度来衡量LLM模型的能力
1、Know Knowns:LLM知道它知道的东西。
2、Know Unknowns:LLM知道它不知道哪些东西。
3、Unknow Knowns:LLM不知道它知道的东西。
4、Unknow Unknowns:LLM不知道它不知道的东西。

从上图中GPT-3到ChatGPT的能力发展过程可以看到:ChatGPT通过更大规模的预训练,得到了更多的知识,即knowns范围扩大。事实上,模型在应用时并不能完全解锁自己的所有知识储备,正如我们在CoT章节中介绍的,当我们直接给模型一个复杂数学题时,他并不能给出正确答案,而当我们在prompt中加入“Let’s think step by step”,模型则可以给出求解思路,并抽取出正确答案。这种情况我们认为是模型本身潜在地包含了这些知识,只是由于提示不足而没有解锁这部分能力,称为unknow knowns,即knowns包含know knowns 和 unknow knowns。而ChatGPT则通过较强的思维链能力,解锁了一部分Unknow Knowns,进一步扩大know knowns的占比。因此,邱锡鹏老师也在报告中提到,解锁unknow knowns的关键是CoT技术。有研究发现,ChatGPT的思维链能力可能一定程度上来源于在代码数据上的预训练(如上文中提到的Program-aided Reasoning),但这部分的研究还需要进一步开展。同时,配合指令学习和人工反馈,ChatGPT可以使得自己的回答更符合人类预期,即增强Know knowns/Unknowns的能力,例如,当人们提问“2026年世界杯冠军是哪个国家”时,ChatGPT会老实的回答自己没有预测能力,而不会胡说八道(这会降低人们的使用好感度)。通过上述三部分的增强,最终的Unknow Unknowns部分也相对变得很小。
另外,ChatGPT还关注了伦理问题,通过类似解决Know Unknowns的方式,利用人工标注和反馈,拒绝回答一些包含伦理问题的请求。