热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_40912980
exploit-cat
1 年前
trueweixin_40912980

重新思考LLM训练:逆向强化学习技术的潜力

DeepMind研究人员提出了一项关于基于RL的优化的深入研究,特别关注IRL的分布匹配视角,用于微调大型语言模型。该方法旨在提供一种比标准MLE更有效的替代方案。研究涵盖了对抗性和非对抗性方法,以及离线和在线技术。一个关键创新是扩展了逆向软Q学习,以建立与经典行为克隆或MLE的原则性联系。研究评估了从250M到3B参数的模型,包括编码-解码T5和仅解码PaLM2架构。通过检查任务表现和生成多样性,研究旨在展示IRL在模仿学习中相对于行为克隆的优势。此外,研究还探索了通过IRL获得的奖励函数在与RLHF后期阶段的衔接潜力。

阅读我们关于这篇论文的完整文章:
https://www.marktechpost.com/2024/09/16/rethinking-llm-training-the-promise-of-inverse-reinforcement-learning-techniques/

论文:https://arxiv.org/abs/2409.01369

@头秃搞学习

CSDN App 扫码分享
分享
评论
9
  • 复制链接
  • 举报
下一条:
在这篇博客中,我们将探讨LLM幻觉——不是那种迷幻、万花筒般的幻觉,而是更为微妙的东西。 https://hubs.li/Q02NPLLj0
立即登录