RLHF 是否有效用于对齐多语言 LLM?🤔我们的工作研究了多语言偏好优化,以训练一个新的 SOTA(最先进的)多语言 LLM,推动对齐技术的前沿,覆盖全球一半人口的 23 种语言 🌎!https://arxiv.org/abs/2407.02552