热门
最新
红包
立Flag
投票
同城
我的
发布
洛胭
1 年前
trueweixin_26854555
我对于利用预训练模型(如语言模型)结合人类反馈来交互式地学习人类对齐的决策表示感到非常兴奋。
下一条:
重要的是,当面对“模糊”偏好时,语言模型能够对自己的不确定性进行建模,并在查询的偏好具有高熵时主动询问用户的真实偏好。
立即登录