热门
最新
红包
立Flag
投票
同城
我的
发布
元宇宙交流区
CSDN App 扫码分享
评论
4
打赏
- 复制链接
- 举报
下一条:
模型训练方式在训练方式上,ChatGPT沿用了InstructGPT的训练方式,即基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),区别仅在于ChatGPT将训练数据改为对话的形式(由于ChatGPT并没有公开论文,该观点来自作者的博客,链接如下,https://openai.com/blog/chatgpt/)。因此我们在这里介绍一下InstructGPT是如何应用RLHF来训练模型的。由于文本生成的优劣很多情况下是很主观的,取决于人类的偏好和价值观。因此现有的文本生成评价指标很难衡量人们对于文本生成优劣的感知。RLHF的目的就是通过人类对生成文本的反馈(即人工标注数据)来训练模型,使得模型生成的文本更符合人类的期待。RLHF的训练方式如下所示:第一步:首先从大量的包含人类真实意图的指令集合中采样指令作为输入数据,并聘请专职标注员标注这些指令的输出,这部分相对而言是一个高质量的小数据集。数据收集完成后,使用GPT-3.5在该数据集上进行有监督的微调(supervised fine-tuning)。第二步:得到上一步微调好的GPT-3.5之后,再次从指令集合中采样指令作为输入数据,从GPT-3.5得到多个不同的结果,并聘请专职标注员标注这些输出的好坏顺序,例如输出D>输出C>输出A>输出B。由于只需要标注模型不同输出的好坏,这部分标注的成本会降低很多,因此数据规模也会较大。得到这些人工标注的输出顺序之后,可以训练得到一个打分(reward)模型。第三步,获得打分模型之后,接着从指令集合中采样一些新的指令作为输入数据,并结合打分模型,使用PPO(一种强化学习算法)方式来训练得到最终的ChatGPT。