快速简便的评估技巧:角色提示是生成LLM文本的有用技巧,但将角色提示与LLM作为评审结合使用可能会出现问题...
总结:如果我们在系统消息中告诉LLM评审它是某一领域的“专家”,那么LLM作为评审输出的评分会变得更加苛刻/更低,评估质量(即与人工评估的相关性)因此会有所下降。
什么是角色提示?这个概念指的是一个提示,要求语言模型扮演某个角色,例如数学专家、诗人、海盗等。一旦扮演了这个角色,LLM会相应地调整其回应。例如,被告知是海盗的LLM可能会说“Ahoy”,而被告知是数学专家的LLM可能会更准确地进行算术运算。
我们为什么要使用这个?角色提示是一种有趣的技巧,对于测试LLM的指令遵循能力非常有用。然而,它也会对LLM生成的文本质量产生不可忽视的影响。例如,当LLM被角色提示为某一领域的专家时,在解决特定领域问题(例如数学、推理、写作等)时,其生成的文本质量往往会有所提高。
什么是LLM作为评审?LLM作为评审是一种简单但强大的评估技术,它使用LLM对另一个LLM的输出进行评分或评估。使用LLM作为评审的最简单方法是编写一个提示,要求LLM(例如GPT-4)对某个模型对某个提示的响应进行1-10分的评分(见下图)。我们还可以传递响应对并询问哪一个更好(即,成对评分而非逐点评分)。
角色提示+LLM作为评审。由于上述原因,角色提示在生成LLM文本时非常有用。然而,在将角色提示与LLM作为评审结合使用时,我们应非常小心。特别是,如果我们告诉LLM评审它是某一领域的“专家”(例如数学或诗歌),它在评分时会更加苛刻。事实上,许多评分会低到最低分(即1分)。