评估目标:处理复杂目标的能力评估思路:人类解决复杂目标时往往需要将目标拆分为一系列可实现的步骤,并根据已知信息寻找如何完成它们的方法。如果没有足够的信息,人类会通过一系列的可能性尝试来获取实现步骤的信息。同时,人类在拟定处理复杂目标的实现步骤时,会为无法实现某个步骤所带来的中断情况制定备选步骤,并为实现过程中出现的异常情况设计解决方案。只要一个语言模型能够达到以上处理复杂目标的能力,那么它就可以解决任何问题。即使当前模型缺乏一定的信息,它也知道如何获取该信息并实现目标。我们可以通过设计测试,针对已知目标解决实现步骤和未知目标解决实现步骤,来确定模型的能力。