AI指数报告指出,由于强化学习人类反馈(RLHF)在大型语言模型中的广泛使用,直接偏好优化(DPO)现在受到关注:https://arxiv.org/abs/2305.18290https://aiindex.stanford.edu/report/