热门
最新
红包
立Flag
投票
同城
我的
发布
重新思考LLM训练:逆向强化学习技术的潜力
DeepMind研究人员提出了一项关于基于RL的优化的深入研究,特别关注IRL的分布匹配视角,用于微调大型语言模型。该方法旨在提供一种比标准MLE更有效的替代方案。研究涵盖了对抗性和非对抗性方法,以及离线和在线技术。一个关键创新是扩展了逆向软Q学习,以建立与经典行为克隆或MLE的原则性联系。研究评估了从250M到3B参数的模型,包括编码-解码T5和仅解码PaLM2架构。通过检查任务表现和生成多样性,研究旨在展示IRL在模仿学习中相对于行为克隆的优势。此外,研究还探索了通过IRL获得的奖励函数在与RLHF后期阶段的衔接潜力。
阅读我们关于这篇论文的完整文章:https://www.marktechpost.com/2024/09/16/rethinking-llm-training-the-promise-of-inverse-reinforcement-learning-techniques/
论文:https://arxiv.org/abs/2409.01369
@头秃搞学习
CSDN App 扫码分享
评论
9
- 复制链接
- 举报