我对于利用预训练模型（如语言模型）结合人类反馈来交互式地学习-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueweixin_26854555

我对于利用预训练模型（如语言模型）结合人类反馈来交互式地学习人类对齐的决策表示感到非常兴奋。

CSDN App 扫码分享

分享

评论

12

复制链接
举报

下一条：

重要的是，当面对“模糊”偏好时，语言模型能够对自己的不确定性进行建模，并在查询的偏好具有高熵时主动询问用户的真实偏好。