我们还在 dm_control 和 MetaWorld 的30和80多任务设置上测试了 PWM。在训练了一个大型多任务世界模型后,我们使用 PWM 在每个任务上提取策略的时间不到10分钟。我们分别比 TD-MPC2 超过了 27% 和 8%,而且无需在线规划! 🧵