HARP(人类辅助重组与置换不变评论员):一种通过最小化人类干预来改善动态分组和性能的多智能体强化学习框架
来自西北工业大学和乔治亚大学的研究人员引入了一种名为 HARP(Human-Assisted Regrouping with Permutation Invariant Critic)的新框架。这种创新方法允许智能体在部署过程中动态重组,并且只需少量的人类干预。HARP 的独特之处在于它使非专家人类用户能够在部署期间提供有用的反馈,而无需持续的专家级指导。HARP 的主要目标是在训练过程中减少对人类专家的依赖,同时在部署期间允许战略性的人类输入,有效地弥合自动化和人类引导优化之间的差距。
HARP 的关键创新在于其在训练阶段的自动分组和部署阶段的人类辅助重组的结合。在训练期间,智能体自主学习形成小组,优化其协作任务的完成。在部署时,当有必要时,它们会主动寻求人类的协助,使用置换不变群体评论员来根据人类建议评估和改进分组。这种方法使智能体在面对复杂环境时能够更加适应,因为人类输入被整合以在智能体遇到挑战时纠正或增强小组动态。HARP 的独特之处在于它允许非专家人类提供有意义的贡献,因为系统通过重新评估来完善他们的建议。该方法基于 Q 值评估和智能体性能动态调整小组组成。
阅读全文: https://www.marktechpost.com/2024/09/22/harp-human-assisted-regrouping-with-permutation-invariant-critic-a-multi-agent-reinforcement-learning-framework-for-improving-dynamic-grouping-and-performance-with-minimal-human-intervention/
论文: https://arxiv.org/abs/2409.11741
- 复制链接
- 举报