热门
最新
红包
立Flag
投票
同城
我的
发布
徐易杭
2 年前
trueweixin_40436573
我们发现多语言偏好优化从越来越多的多语言偏好数据中受益,表现出跨语言传递,并且在线优化(RLOO)优于离线优化(DPO)。
下一条:
RLHF 是否有效用于对齐多语言 LLM?🤔我们的工作研究了多语言偏好优化,以训练一个新的 SOTA(最先进的)多语言 LLM,推动对齐技术的前沿,覆盖全球一半人口的 23 种语言 🌎!
https://arxiv.org/abs/2407.02552
立即登录