热门
最新
红包
立Flag
投票
同城
我的
发布
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
如果你从事强化学习(RL)的工作,你可能会认为基于模型的RL(Model-Based RL)在样本效率上非常高。然而,我们有不同的结论:OBAC,我们新发现的**无模型**RL算法,不仅超越了强基线BAC(https://jity16.github.io/BEE/),而且达到了基于模型的RL方法TD-MPC2(https://www.tdmpc2.com/)的样本效率。在墙钟时间方面,它的速度快了很多倍。感兴趣吗?查看我们的新论文 https://arxiv.org/pdf/2405.18520v1 和我们的代码 https://github.com/Roythuly/OBAC。与Yu @Wenguang Liu、Tianying @May Wei、Fuchun Sun、Jianwei Zhang、Xianyuan Zhan的合作研究。