Twitter原文:How Important is the Reference Model in Direct Preference Optimization DPO? An Empirical Study on Optimal KL-Divergence Constraints and Necessity
来自耶鲁大学、上海交通大学和艾伦人工智能研究所的研究人员对DPO对参考策略的依赖性进行了全面分析。他们探讨了KL散度约束的最佳强度,并评估了参考策略在指令微调中的必要性。该研究涉及对约束强度的变化进行实验,以确定在不依赖参考模型的情况下,最大化DPO性能的最佳平衡。研究旨在提供关于参考策略的混淆角色的见解,并为未来的研究提供最佳实践指导。
该方法提出了对DPO中使用的不同KL散度约束强度的详细调查。研究人员使用开源的预训练LLM,Tulu 2和Mistral,在AlpacaEval基准上进行了实验。他们分析了序列级和标记级的性能,以了解不同约束强度如何影响模型的准确性和稳定性。实验表明,较小的KL散度约束通常会提高性能,直到约束过小,导致性能下降。此外,他们通过将DPO与替代学习目标进行比较,检验了参考策略的必要性,结果显示DPO与适当的参考模型结合使用时更具优势。
快速阅读:https://www.marktechpost.com/2024/07/31/how-important-is-the-reference-model-in-direct-preference-optimization-dpo-an-empirical-study-on-optimal-kl-divergence-constraints-and-necessity/
论文:https://arxiv.org/abs/2407.13709
GitHub:https://github.com/yale-nlp/refdpo
- 复制链接
- 举报