「反思」是一个框架，它为代理提供动态记忆和自我反思的能力，以-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

3 年前

trueuniverssky2015

「反思」是一个框架，它为代理提供动态记忆和自我反思的能力，以提高它的推理技能。反思采用标准的强化学习设置，其中奖励模型提供简单的二元奖励，行动空间遵循 ReAct 中的设置，同时特定任务的行动空间通过语言来增强复杂的推理步骤。在每个行动at之后，Agent会计算一个启发式值ht，并根据自我反思的结果决定是否重置环境以开始新的试验。启发式函数用于判断LLM的行动轨迹什么时候开始低效或者包含幻觉，并在这个时刻停止任务。低效计划是指花费了大量时间但没有没有成功的路径。幻觉的定义为LLM遇到了一系列连续的相同动作，这些动作导致LM在环境中观察到了相同的结果。通过向LLM展示两个例子来创建自我反思，每个例子都是一个pair对（失败的轨迹，用于指导未来计划变化的理想反思）。然后将反思添加到代理的工作记忆中，反省的数量最多三个，主要用作查询 LLM 的上下文。

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

组件一：计划复杂的任务通常涉及许多步骤。代理需要知道具体的任务是什么并开始提前计划。任务分解「思维链（CoT，Chain of thought）」已成为一种标准prompting技术，用于增强复杂任务上的模型性能。指示该模型“逐步思考”，以利用更多的测试时间计算将困难任务分解为更小，更简单的步骤。COT将重大任务转换为多个可管理的任务，并将注意力放到对模型思考过程的可解释性中。「思维树（Tree of Thoughts）」通过探索每个步骤的多种推理可能性来扩展COT。它首先将问题分解为多个思考步骤，并且每个步骤都生成多个想法，从而可以创建一个树形结构。思维树的搜索过程可以是BFS（广度优先搜索）或DFS（深度优先搜索），每个状态都由分类器（通过prompt）或多数投票决定。拆解任务可以使用三种方式：（1）使用简单的提示让LLM拆解，例如：“XYZ的步骤”，“实现XYZ的子目标是什么？”。（2）使用特定任务的指令，例如“写一个故事大纲。”用于写小说。（3）人类自己拆解。另一种截然不同的方法是 LLM+P，它涉及依赖外部经典规划器来进行长期规划。该方法利用规划领域定义语言（PDDL）作为描述规划问题的中间接口。在此过程中，LLM (1) 将问题转化为“问题PDDL”，然后 (2) 请求经典规划器基于现有的“领域 PDDL”生成 PDDL规划，最后 (3) 将 PDDL 规划转化回自然语言。本质上，规划步骤被外包给外部工具，假设特定领域的PDDL和合适的规划器都是可用的，这种假设在某些机器人设置中很常见，但在许多其他领域并不常见。