热门

最新

红包

立Flag

投票

同城

我的

发布
fanxingd
fanxingd
2 年前
truefanxingd

mystrcpy

带着小C出发
CSDN App 扫码分享
分享
1
1
打赏
  • 复制链接
  • 举报
下一条:
我们使用来自人类反馈的强化学习(RLHF)训练了这个模型,使用与InstructGPT相同的方法,但在数据收集设置上略有不同。我们使用监督微调训练了一个初始模型:人类人工智能训练师提供对话,他们在其中扮演双方——用户和人工智能助手。我们让培训师可以访问模型编写的建议,以帮助他们撰写答案。我们将这个新的对话数据集与 InstructGPT 数据集混合,并将其转换为对话格式。为了创建强化学习的奖励模型,我们需要收集比较数据,其中包括两个或多个按质量排名的模型响应。为了收集这些数据,我们进行了人工智能培训师与聊天机器人的对话。我们随机选择了一个模型编写的消息,抽样了几个替代完成,并让AI培训师对它们进行排名。使用这些奖励模型,我们可以使用近端策略优化来微调模型。我们执行了此过程的多次迭代。
立即登录