热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40436573
徐易杭
2 年前
trueweixin_40436573

我们发现多语言偏好优化从越来越多的多语言偏好数据中受益,表现出跨语言传递,并且在线优化(RLOO)优于离线优化(DPO)。

CSDN App 扫码分享
分享
1
21
  • 复制链接
  • 举报
下一条:
RLHF 是否有效用于对齐多语言 LLM?🤔我们的工作研究了多语言偏好优化,以训练一个新的 SOTA(最先进的)多语言 LLM,推动对齐技术的前沿,覆盖全球一半人口的 23 种语言 🌎!https://arxiv.org/abs/2407.02552
立即登录