🔔新论文 - PWM: 使用大世界模型进行策略学习与 @周招福 @0 @以太创服 的联合工作PWM 是一种多任务强化学习方法,通过世界模型和一阶梯度优化,在每个任务少于 10 分钟的时间内解决 80 个不同体现形式的任务🧵