作者/机构: Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai 等 (牛津大学、上海人工智能实验室、新加坡国立大学、伦敦大学学院、伊利诺伊大学厄巴纳-香槟分校等)

A1 主要贡献

本文系统性地综述了“智能体强化学习”(Agentic RL)这一新兴范式,该范式将大型语言模型(LLM)从被动的序列生成器转变为嵌入在复杂动态世界中的自主决策智能体。

核心问题与研究目标:
现有研究从两个互补的视角探讨了LLM:一是作为自主智能体的“LLM智能体”,探索其能力边界;二是如何利用强化学习优化LLM行为的“RL for LLMs”。然而,目前缺乏一个统一的理论框架来整合这两个视角,即将LLM概念化为嵌入在序贯决策过程中的、可通过策略优化的智能体。现有研究通常在孤立的能力、领域或自定义环境中进行,术语和评估协议不一致,导致系统性比较和跨领域泛化变得困难。

本文的主要贡献:
1. 形式化定义与区分: 本文通过马尔可夫决策过程(MDP)和部分可观察马尔可夫决策过程(POMDP)的抽象,形式化地定义了“智能体强化学习”,并清晰地将其与传统的、用于对齐的“LLM-RL”(如RLHF)范式区分开来。前者处理的是长时程、部分可观察的动态环境,而后者是退化的单步决策问题。
2. 构建双重分类体系:
* 能力视角: 提出一个以智能体核心能力为中心的分类法,系统性地阐述了强化学习如何赋能规划(planning)、工具使用(tool use)、记忆(memory)、推理(reasoning)、自我提升(self-improvement)和感知(perception)等关键模块,将它们从静态的启发式组件转变为自适应的、鲁棒的智能体行为。
* 任务视角: 围绕智能体RL在不同任务领域的应用进行分类,涵盖了搜索与研究、代码生成、数学推理、GUI导航、视觉任务、具身智能体和多智能体系统等。
3. 整合开源资源: 整合了支持智能体LLM训练和评估的开源环境、基准测试和框架,为未来的研究提供了实用的资源汇编。
4. 识别挑战与未来方向: 在综合分析了超过五百篇近期文献的基础上,指出了该领域面临的开放性挑战,如可信度(Trustworthiness)、智能体训练的规模化(Scaling up Agentic Training)和智能体环境的规模化(Scaling up Agentic Environment),并为可扩展、通用人工智能体的发展勾勒了未来方向。

研究范围:
* 主要关注: 强化学习(RL)如何赋能基于LLM的智能体(或具有智能体特征的LLM)在动态环境中的能力。
* 不属于主要范围:
* 用于人类价值观对齐的RL(如拒绝有害查询)。
* 非基于LLM的传统RL算法(如MARL)。
* 为提升LLM在静态基准测试上纯粹性能的RL。

综述结构:
本综述的组织结构旨在从概念基础到实践应用,逐步建立对智能体RL的统一理解。
* 第二章: 通过MDP/POMDP的视角,形式化阐述向智能体RL的范式转变。
* 第三章: 从能力视角审视智能体RL,分类探讨规划、推理、工具使用等关键模块。
* 第四章: 探索在搜索、GUI导航、代码生成等领域的应用。
* 第五章: 整合支持实验和基准测试的开源环境与RL框架。
* 第六章: 讨论迈向可扩展、自适应和可靠智能体智能的开放挑战与未来方向。
* 第七章: 对全文进行总结。

图1:本综述的主要组织结构
图1:本综述的主要组织结构

A3 背景知识:从LLM RL到智能体RL

LLM的训练范式演进。LLM最初通过行为克隆(behavior cloning)进行预训练,即在网页文本等静态数据集上应用最大似然估计(MLE)。随后的后训练(post-training)方法旨在增强其能力并使输出与人类偏好对齐,其中监督微调(SFT)是一种常用技术。然而,获取足量高质量的SFT数据具有挑战性。强化微调(RFT)通过奖励函数优化模型,提供了一种替代方案,避免了对行为演示的依赖。

从基于偏好的RFT到智能体RL的转变。早期的RFT研究主要目标是通过人类反馈或数据偏好来优化LLM,使其与人类偏好对齐,即基于偏好的RFT(PBRFT)。PBRFT主要在固定的偏好数据集上学习奖励模型或直接使用数据偏好进行优化。随着具备推理能力的LLM(如OpenAI o1 【索引30,Openai o1 system card,2024】和DeepSeek-R1 【索引31,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025】)的发布,研究者开始思考如何通过强化学习将LLM与下游任务深度整合。这促使研究焦点从优化固定偏好数据集的PBRFT转向为特定任务和动态环境量身定制的智能体强化学习(Agentic RL)。

形式化定义范式转变。本节旨在形式化地阐述从PBRFT到智能体RL的范式转变。尽管两者都利用RL技术提升LLM性能,但它们在基本假设、任务结构和决策粒度上存在根本差异。图2展示了从LLM-RL到智能体RL的范式转变。

图2:从LLM-RL到智能体RL的范式转变
图2:从LLM-RL到智能体RL的范式转变

2.1 马尔可夫决策过程

MDP形式化定义。强化学习微调过程的马尔可夫决策过程(MDP)可以被形式化为一个七元组 $\langle S, O, A, P, R, T, \gamma \rangle$,其中$S$代表状态空间,$O$是智能体的观察空间,$A$是动作空间,$R$是奖励函数,$P$是状态转移概率,$T$表示任务时限,$\gamma$是折扣因子。通过将PBRFT和智能体RL都视为MDP或POMDP,我们阐明了将LLM视为静态序列生成器或嵌入动态环境中的交互式决策智能体的理论含义。

PBRFT的退化MDP。PBRFT的RL训练过程被形式化为一个退化的MDP,定义为元组:

PBRFT的退化MDP公式
PBRFT的退化MDP公式

智能体RL的POMDP。智能体RL的训练过程被建模为一个部分可观察马尔可夫决策过程(POMDP):

智能体RL的POMDP公式
智能体RL的POMDP公式

其中,智能体根据状态$s_t \in S_{\text{agent}}$接收观察$o_t = O(s_t)$。PBRFT和智能体RL之间的主要区别在表1中进行了详细描述。总而言之,PBRFT在完全观察下优化固定数据集中的输出句子序列,而智能体RL则在以部分观察为特征的可变环境中优化语义级别的行为。

表1:传统PBRFT与智能体RL的形式化比较
表1:传统PBRFT与智能体RL的形式化比较

2.2 环境状态

PBRFT的状态空间。在PBRFT的训练过程中,每个回合(episode)都从一个单一的提示状态$s_0$开始;在模型发出一次响应后,该回合立即终止。形式上,底层的MDP退化为一个时限$T=1$的单步决策问题。状态空间缩减为一个单一的静态提示输入:

PBRFT状态空间公式
PBRFT状态空间公式

智能体RL的状态空间。在智能体RL中,LLM智能体在一个POMDP中跨多个时间步行动。令$s_t \in S_{\text{agent}}$表示完整的世界状态,LLM智能体基于当前状态获得观察$o_t = O(s_t)$。LLM智能体根据当前观察$o_t$选择一个动作$a_t$,状态随时间演变:

智能体RL状态空间公式
智能体RL状态空间公式

随着智能体积累中间信号,如检索到的工具结果、用户消息或环境反馈,交互本质上是动态且时间上扩展的。

2.3 动作空间

智能体RL的混合动作空间。在智能体RL的设定中,LLM的动作空间包含两个不相交的组成部分:

智能体RL动作空间公式
智能体RL动作空间公式

其中,$A_{\text{text}}$是通过自回归解码生成自由形式的自然语言文本;$A_{\text{action}}$是一组结构化的、非语言的动作,通过特殊标记<action_start><action_end>在输出流中界定。这些动作可能调用外部工具(例如,call("search", "Einstein"))或与环境交互(例如,move("north")),具体取决于任务需求。

动作子空间的功能差异。这两个子空间在语义和功能角色上有所不同:$A_{\text{text}}$产生用于人类或机器解释的交流内容,不直接改变外部状态;而$A_{\text{action}}$发出可执行的命令,这些命令要么(i)通过工具调用获取新信息,要么(ii)修改物理或模拟环境的状态。这种分离允许一个统一的策略在单个强化学习框架内同时管理自然语言生成和操作性决策。

2.4 转移动态

PBRFT的确定性转移。在传统的PBRFT中,转移动态是确定性的:一旦做出动作,下一个状态就确定了,如下所示:

PBRFT转移动态公式
PBRFT转移动态公式

智能体RL的随机性转移。在智能体RL中,环境在不确定性下演变,遵循:

智能体RL转移动态公式
智能体RL转移动态公式

文本动作($A_{\text{text}}$)生成自然语言输出,而不改变环境状态。结构化动作($A_{\text{action}}$),由<action_start><action_end>界定,可以查询外部工具或直接修改环境。这种序贯的表述方式与PBRFT的一次性映射形成对比,使得策略能够迭代地结合交流、信息获取和环境操纵。

2.5 奖励函数

PBRFT的奖励函数。PBRFT通常采用具有可验证响应正确性的奖励函数,这可以通过基于规则的验证器【索引31,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025】或神经网络参数化的奖励模型【索引34,A comprehensive survey of reward models: Taxonomy, applications, challenges, and future,2025】来实现。无论实现方式如何,其核心都遵循以下方程:

PBRFT奖励函数公式
PBRFT奖励函数公式

其中,$r: A \rightarrow \mathbb{R}$是由人类或AI偏好模型提供的标量分数;过程中没有中间反馈。

智能体RL的奖励函数。LLM智能体的奖励函数基于下游任务。

智能体RL奖励函数公式
智能体RL奖励函数公式

这允许密集的、稀疏的或学习到的奖励(例如,单元测试通过、符号验证器成功)。

2.6 学习目标

PBRFT的学习目标。PBRFT的优化目标是基于策略$\pi_{\theta}$最大化响应奖励:

PBRFT学习目标公式
PBRFT学习目标公式

不需要折扣因子;优化过程类似于最大化期望奖励的序列建模。

智能体RL的学习目标。智能体RL的优化目标是最大化折扣奖励:

智能体RL学习目标公式
智能体RL学习目标公式

该目标通过策略梯度或基于值的方法进行优化,并涉及探索和长期信用分配。

总结。PBRFT侧重于单轮文本质量对齐,没有明确的规划、工具使用或环境反馈,而智能体RL涉及多轮规划、自适应工具调用、有状态的记忆和长时程信用分配,从而使LLM能够作为自主决策智能体发挥作用。

2.7 RL算法

RL算法在框架中的核心作用。在当代研究中,RL算法是PBRFT和智能体RL框架的关键组成部分。不同的RL算法在样本效率和性能上表现出不同特点,为将模型输出与复杂的人类目标对齐提供了独特的方法。典型的算法如REINFORCE、PPO 【索引12,Proximal policy optimization algorithms,2017】、GRPO 【索引31,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025】和DPO 【索引29,Direct preference optimization: Your language model is secretly a reward model,2023】构成了一个从通用策略梯度到专门化偏好学习的谱系。

REINFORCE:基础策略梯度算法。作为最早的策略梯度算法之一,REINFORCE为训练随机策略提供了理论基础。它通过增加导致高累积奖励的动作的概率,并减少导致低奖励的动作的概率来运作。其目标函数为:

REINFORCE目标函数公式
REINFORCE目标函数公式

其中,$a^{(i)} \sim \pi_{\theta}(a|s_0)$是从策略中采样的第$i$个响应,$R(s_0, a)$表示任务完成时收到的最终奖励,$b(s)$是用于减少策略梯度估计方差的基线函数。

近端策略优化(PPO)。PPO 【索引12,Proximal policy optimization algorithms,2017】因其稳定性和可靠性成为LLM对齐的主流RL算法。它通过限制更新步长来改进朴素策略梯度,以防止破坏性的大策略变化。其主要的裁剪目标函数是:

PPO目标函数公式
PPO目标函数公式

其中,$a^{(i)}_t \sim \pi_{\theta_{\text{old}}}(a|s_t)$是从旧策略$\pi_{\theta_{\text{old}}}$中采样的第$i$个响应,其更新被延迟。$A_t$是由下式给出的估计优势:

PPO优势函数公式
PPO优势函数公式

其中$V_{\theta}(s)$是学习到的值函数,即$E_{a \sim \pi_{\theta}(a|s)}[R(s, a)]$的期望,它由一个与策略网络大小相同的评论家网络(critic network)导出。clip项防止概率比率偏离1太远,确保稳定的更新。其一个关键缺点是依赖一个独立的评论家网络进行优势估计,这在训练期间显著增加了参数数量。

直接偏好优化(DPO)。DPO 【索引29,Direct preference optimization: Your language model is secretly a reward model,2023】通过完全绕过对独立奖励模型的需求,代表了一个开创性的转变。它将KL约束下最大化奖励的问题重新构建为一个关于人类偏好数据的基于似然的目标。给定一个偏好数据集$D = \{(y_w, y_l)\}$,其中$y_w$是偏好的响应,$y_l$是不偏好的响应,DPO损失为:

DPO损失函数公式
DPO损失函数公式

其中,$\pi_{\text{ref}}$是参考策略(通常是初始的SFT模型),$\beta$是一个超参数。虽然DPO消除了评论家网络,但其性能与静态偏好数据集的质量和覆盖范围密切相关。为了解决其局限性,出现了一些变体,包括IPO(Identity Preference Optimization)【索引35,A general theoretical paradigm to understand learning from human preferences,2024】,它增加了一个正则化项以防止过拟合,以及KTO(Kahneman-Tversky Optimization)【索引36,Model alignment as prospect theoretic optimization,2024】,它从每个响应的二元信号(期望/不期望)中学习,而不是严格的成对比较。更多变体见表2。

组相对策略优化(GRPO)。DeepSeek的巨大成功激发了对GRPO的显著研究兴趣。GRPO旨在解决PPO的大型评论家网络效率低下的问题,引入了一种新颖、轻量级的评估范式。它对一组响应进行操作,利用组内响应的相对奖励来计算优势,从而消除了对绝对值评论家网络的需求。核心的GRPO目标可以概念化为:

GRPO目标函数公式
GRPO目标函数公式

其中一组输出$\{(s^{(g)}_0, a^{(g)}_0, \dots, s^{(g)}_{T-1}, a^{(g)}_{T-1})\}_{g=1}^G$是从旧策略$\pi_{\theta_{\text{old}}}$中采样的。优势函数通过以下方式估计:

GRPO优势函数公式
GRPO优势函数公式

这种组相对方法样本效率高,并减少了计算开销。因此,后续提出了一系列源自GRPO框架的新算法(见表2),旨在大幅提升强化学习方法的样本效率和渐近性能。

表2:PPO、DPO和GRPO家族流行变体的比较。Clip对应于防止策略比率偏离1太远以确保稳定更新。KL penalty对应于惩罚学习策略与参考策略之间的KL散度以确保对齐。
表2:PPO、DPO和GRPO家族流行变体的比较。Clip对应于防止策略比率偏离1太远以确保稳定更新。KL penalty对应于惩罚学习策略与参考策略之间的KL散度以确保对齐。

A2 方法细节:智能体RL的模型能力视角

智能体RL的核心能力模块。本节将智能体RL概念化为对一个由一组关键能力/模块组成的自主智能体进行原则性训练的过程。这些能力包括规划(3.1节)、工具使用(3.2节)、记忆(3.3节)、自我提升(3.4节)、推理(3.5节)、感知(3.6节)及其他(3.7节),遵循经典的LLM智能体定义【索引64,LLM-powered autonomous agents,2023】【索引65,Agentsquare: Automatic LLM agent search in modular design space,2025】,如图4所示。传统上,智能体将LLM与规划机制(如任务分解)、推理(如思维链)、外部工具调用、长短期记忆以及迭代反思等结合。智能体RL将这些组件视为可联合优化的相互依赖的策略,而非静态流水线:用于规划的RL学习多步决策轨迹;用于记忆的RL塑造检索和编码动态;用于工具使用的RL优化调用时机和保真度;用于反思的RL驱动内部自我监督和自我提升。因此,本综述系统地考察RL如何赋能这些能力。

图3:智能体LLM与环境之间的动态交互过程
图3:智能体LLM与环境之间的动态交互过程

3.1 规划

规划作为AI的基石。规划,即为实现目标而审议一系列行动的过程,是人工智能的基石,要求复杂的推理、世界知识和适应性【索引69,Elements of a theory of human problem solving,1958】。虽然早期工作通过基于提示的方法(如ReAct 【索引71,React: Synergizing reasoning and acting in language models,2023】)利用了LLM的内在能力,但这些方法缺乏通过经验进行适应的机制。RL已成为弥补这一差距的强大范式,使智能体能够通过从环境反馈中学习来完善其规划策略。RL在智能体规划中的整合体现为两种不同范式:一是RL作为结构化规划过程的外部指导,二是RL作为直接演化LLM内在规划策略的内部驱动力。

图4:RL赋能智能体LLM的六个方面的总结。注意,这里列出的代表性方法并非详尽无遗;请参考正文。
图4:RL赋能智能体LLM的六个方面的总结。注意,这里列出的代表性方法并非详尽无遗;请参考正文。

RL作为规划的外部指导。一种主要范式将RL视为规划过程的外部指导,其中LLM的主要作用是在结构化搜索框架内生成潜在行动。在这里,RL不直接用于微调LLM的生成能力,而是训练一个辅助的奖励或启发式函数【索引66,PlanGenLLMs: A modern survey of LLM planning capabilities,2025】。这个学习到的函数随后通过评估不同规划轨迹的质量来指导经典搜索算法,如蒙特卡洛树搜索(MCTS)。代表性工作如RAP 【索引72,Reasoning with language model is planning with world model,223】和LATS 【索引73,Language agent tree search unifies reasoning, acting, and planning in language models,2024】 exemplify this method. 他们利用一个由RL辅助的模型来评估LLM生成的步骤,从而引导搜索向更有希望的解决方案发展。在这种配置中,LLM充当知识丰富的行动提议者,而RL提供高效探索所需的自适应评估反馈。

RL作为规划的内部驱动力。第二种更集成的范式将RL定位为智能体核心规划能力的内部驱动力。这种方法直接将LLM视为策略模型,并通过直接的环境交互来优化其规划行为。RL的反馈不是指导外部搜索算法,而是直接用于完善LLM生成计划的内部策略。这通过源自RLHF的方法实现,如在ETO 【索引74,Trial and error: Explorationbased trajectory optimization of LLM agents,2024】中利用DPO对成功与失败的轨迹进行优化,或通过终身学习框架。例如,VOYAGER 【索引75,Voyager: An open-ended embodied agent with large language models,2024】通过环境交互迭代地构建和完善技能库。这种范式将LLM从静态生成器转变为一个持续演化的自适应策略,增强其在动态环境中的鲁棒性和自主性。AdaPlan及其PilotRL框架【索引76,Pilotrl: Training language model agents via global planning-guided progressive reinforcement learning,2025】利用基于全局计划的指导和渐进式RL来增强LLM智能体在AFLWorld和TextCraft等文本游戏环境中的长时程规划和执行协调能力。

未来展望:深思熟虑与直觉的综合。智能体规划的未来在于这两种范式的综合:超越外部搜索和内部策略优化之间的区别。最终目标是开发一个能够内化结构化搜索过程本身的智能体,无缝地融合直觉性的快速计划生成与审慎的慢速、深思熟虑的推理。在这样的模型中,RL不仅会完善最终计划,还会优化一个管理审议过程的元策略:学习何时探索替代路径、如何修剪没有希望的分支,以及在承诺行动前需要多深入地推理。这将把LLM智能体从一个提议行动或充当原始策略的组件,转变为一个集成的推理引擎。

3.2 工具使用

从模仿到结果驱动的工具使用演进。RL已成为推动工具型语言智能体从后验的ReAct式流水线演进为深度交错、多轮次的工具集成推理(TIR)系统的关键方法。早期范式虽然成功展示了工具调用的可行性,但其对SFT或提示工程的依赖限制了智能体只能模仿静态模式,缺乏适应新场景或从错误中恢复的战略灵活性。智能体RL通过将学习范式从模仿转向结果驱动的优化来解决此问题,使智能体能够自主发现何时、如何以及部署哪些工具。我们将这一演进分为三个阶段进行探讨:首先是(1)早期的ReAct式工具调用,然后是(2)将工具使用深度嵌入认知循环的现代工具集成推理(TIR),最后讨论(3)多轮TIR的前瞻性挑战,重点关注鲁棒、长时程性能的时间信用分配问题。

图5:智能体工具使用的发展。注意,我们在此仅选择少量代表性工作以反映进展。
图5:智能体工具使用的发展。注意,我们在此仅选择少量代表性工作以反映进展。

ReAct风格的工具调用。早期的工具调用范式主要依赖于提示工程或SFT来引出工具使用行为。(I)提示工程方法,以ReAct 【索引71,React: Synergizing reasoning and acting in language models,2023】为代表,利用少样本示例指导LLM在“思考-行动-观察”循环中交错推理轨迹和行动,利用模型的上下文学习能力。更进一步,(II)基于SFT的方法被引入以内部化模型的工具使用能力。像Toolformer 【索引77,Toolformer: Language models can teach themselves to use tools,2023】这样的框架采用自监督目标来教模型在何处插入API调用,而其他如FireAct 【索引78,Fireact: Toward language agent fine-tuning,2023】、AgentTuning 【索引79,AgentTuning: Enabling generalized agent abilities for LLMs,2024】、Agent-FLAN 【索引80,Agent-FLAN: Designing data and methods of effective agent tuning for large language models,2024】则在专家生成或策划的工具交互轨迹数据集(如AgentBank 【索引81,Agentbank: Towards generalized llm agents via fine-tuning on 50000+ interaction trajectories,2024】、APIBank 【索引82,Api-bank: A comprehensive benchmark for tool-augmented llms,2023】)上对模型进行微调。尽管SFT提高了工具调用的可靠性,但这两种早期方法都根本上受限于其模仿性。它们训练智能体复制静态、预定义的工具使用模式,因此缺乏适应新场景或从意外错误中恢复的战略灵活性,而以RL为中心的方法通过将学习目标从模仿转向结果驱动的优化来直接解决这一局限性。

工具集成式RL。基于纯模仿范式的局限性,用于工具使用的RL方法将目标从复制固定模式转变为优化最终任务性能。这种转变为智能体提供了战略性决策的能力,决定何时、如何以及以何种组合调用工具,从而动态适应新情境和意外失败。在基础层面,ToolRL 【索引83,Toolrl: Reward is all tool learning needs,2025】等框架证明,即使从没有任何模仿轨迹的基础模型初始化,RL训练也能引出涌现能力,例如自我修正错误代码、自适应调整调用频率以及为复杂子任务组合多种工具。随后,近期的研究涌现出大量工作,如OTC-PO 【索引84,Acting less is reasoning more! teaching model to act efficiently,2025】、ReTool 【索引85,Retool: Reinforcement learning for strategic tool use in llms,2025】、AutoTIR 【索引86,Autotir: Autonomous tools integrated reasoning via reinforcement learning,2025】、VTool-R1 【索引87,Vtool-r1: Vlms learn to think with images via reinforcement learning on multimodal tool use,2025】、DeepEyes 【索引88,Deepeyes: Incentivizing "thinking with images" via reinforcement learning,2025】、Pixel-Reasoner 【索引89,Pixel reasoner: Incentivizing pixel-space reasoning with curiosity-driven reinforcement learning,2025】、Agentic Reasoning 【索引90,Agentic reasoning: A streamlined framework for enhancing LLM reasoning with agentic tools,2025】、ARTIST 【索引91,Agentic reasoning and tool integration for llms via reinforcement learning,2025】、ToRL 【索引92,Torl: Scaling tool-integrated rl,2025】及众多其他工作,它们采用RL策略,在单次执行(rollout)中将符号计算(如代码执行、图像编辑)与自然语言推理交织在一起。这种集成的控制循环允许智能体平衡精确的、由工具介导的操作与灵活的言语推理,根据不断变化的任务状态调整推理过程。最近的工作【索引102,Understanding tool-integrated reasoning,225】从理论上证明了TIR通过引入确定性的工具驱动状态转换,从根本上扩展了LLM的能力,超越了纯文本RL的“无形束缚”,并为在有限预算下的可行性建立了词元效率论证,同时提出了优势塑造策略优化(ASPO)来稳定地指导智能体的工具使用。

工具集成推理的现状与未来。如今,这种工具集成推理已不再是小众能力,而是先进智能体模型的基线特征。成熟的商业和开源系统,如OpenAI的DeepResearch和o3 【索引103,Deep research,2025】、Kimi K2 【索引104,Kimi-researcher: End-to-end rl training for emerging agentic capabilities,2025】、Qwen QwQ-32B 【索引105,Qwq-32B: Embracing the power of reinforcement learning,2025】、Zhipu GLM Z1 【索引106,zai-org/GLM-Z1-32B-0414,2025】、Microsoft rStar2-Agent 【索引107,rstar2-agent: Agentic reasoning technical report,2025】和美团LongCat 【索引108,meituan-longcat/LongCat-Flash-Chat,2025】,都常规地集成了这些经RL打磨的策略,凸显了结果驱动优化在工具增强智能中的核心地位。未来的主要前沿在于将这种能力扩展到需要多轮推理的、鲁棒的长时程任务中。这一飞跃的根本瓶颈是时间信用分配的挑战【索引109,A survey of temporal credit assignment in deep reinforcement learning,2024】。目前的RL方法常依赖稀疏的、基于轨迹/结果的奖励,难以确定长序列中哪个具体的工具调用对成功或失败做出了贡献。尽管初步研究已开始探索更细粒度的奖励方案,如GiGPO 【索引110,Group-in-group policy optimization for llm agent training,2025】中的轮次级优势估计和SpaRL 【索引111,Spa-rl: Reinforcing llm agents via stepwise progress attribution,2025】中的逐步归因,但这仍是早期步骤。因此,开发更精细的信用分配机制,以准确引导智能体通过复杂的决策链,同时避免无意中惩罚有用的探索或助长奖励黑客行为,仍然是推进智能体系统的关键且大部分未解决的问题。

3.3 记忆

从被动存储到动态子系统。智能体RL将记忆模块从被动的数据存储转变为动态的、由RL控制的子系统,使其能像人类一样决定存储什么、何时检索以及如何遗忘【索引112,From human memory to ai memory: A survey on memory mechanisms in the era of llms,2025】。本节通过四个代表性阶段追溯这一演变。

表3:三种经典智能体记忆类别的概述;标有†的作品直接使用了RL。此列表并非详尽无遗,我们建议对更广泛的智能体记忆感兴趣的读者参考[112]。
表3:三种经典智能体记忆类别的概述;标有†的作品直接使用了RL。此列表并非详尽无遗,我们建议对更广泛的智能体记忆感兴趣的读者参考[112]。

RAG风格记忆中的RL。早期系统(如检索增强生成)将记忆视为外部数据存储;即便使用RL,也仅用于调节何时执行查询。一些未使用RL的经典记忆系统,如MemoryBank 【索引113,Memorybank: Enhancing large language models with long-term memory,2024】、MemGPT 【索引114,Memgpt: Towards llms as operating systems,2023】和HippoRAG 【索引115,Hipporag: Neurobiologically inspired long-term memory for large language models,2024】,采用预定义的记忆管理策略。随后,RL被作为功能组件整合到记忆管理流程中。一个显著的例子是【索引116,In prospect and retrospect: Reflective memory management for long-term personalized dialogue agents,2025】中提出的框架,其中RL策略通过前瞻性反思(多级总结)和回顾性反思(强化检索结果)来调整检索行为。然而,记忆媒介本身保持静态,智能体对写入过程没有控制权。最近,Memory-R1 【索引117,Memory-r1: Enhancing large language model agents to manage and utilize memories via reinforcement learning,2025】引入了一个基于RL的记忆增强智能体框架,其中记忆管理器通过PPO或GRPO学习执行结构化操作(ADD/UPDATE/DELETE/NOOP),而应答智能体则在RAG检索的条目上采用记忆蒸馏策略进行推理和回答。

用于词元级记忆的RL。后续的进展引入了配备显式、可训练记忆控制器的模型,使智能体能够调节自己的记忆状态(通常以词元形式存储),而无需依赖固定的外部记忆系统。这种记忆通常以两种形式实例化:(I)显式词元,对应于人类可读的自然语言。例如,在MemAgent 【索引118,Memagent: Reshaping long-context llm with multi-conv rl-based memory agent,2025】中,智能体在LLM旁边维护一个自然语言记忆池,RL策略在每个片段决定保留或覆盖哪些词元,有效地将长上下文输入压缩为简洁、信息丰富的摘要。类似的方法包括MEM1 【索引119,Mem1: Learning to synergize memory and reasoning for efficient long-horizon agents,2025】和Memory Token 【索引120,Disentangling memory and reasoning ability in large language models,2025】。(II)隐式词元,其中记忆以潜在嵌入的形式维护。代表性工作包括MemoryLLM 【索引121,MEMORYLLM: Towards self-updatable large language models,2024】和M+ 【索引122,M+: Extending memoryLLM with scalable long-term memory,2025】,其中一组固定的潜在词元充当“记忆词元”。随着上下文的演变,这些词元被反复检索、整合到LLM的前向计算中并更新,从而保持上下文信息并表现出强大的抗遗忘能力。这些方法使智能体能够自主管理其记忆库,在长上下文理解、持续适应和自我提升方面取得了显著改进。

未来展望:用于结构化记忆的RL。在词元级方法的基础上,近期的趋势正转向结构化记忆表示,这些表示以超越扁平词元序列的方式组织和编码信息。代表性例子包括Zep中的时间知识图 【索引125,Zep: A temporal knowledge graph architecture for agent memory,2025】、A-MEM中的原子记忆笔记 【索引126,A-mem: Agentic memory for llm agents,2025】以及G-Memory 【索引127,G-memory: Tracing hierarchical memory for multi-agent systems,2025】和Mem0 【索引128,Mem0: Building production-ready ai agents with scalable long-term memory,2025】中的分层图记忆设计。这些系统捕捉了更丰富的关系、时间或层次依赖,实现了更精确的检索和推理。然而,它们的管理(包括插入、删除、抽象和链接更新)迄今为止仍由手工规则或启发式策略控制。至今,很少有工作探索使用RL来动态控制这种结构化记忆的构建、完善或演化,这使其成为推进智能体记忆能力的一个开放且有前景的方向。

3.4 自我提升

RL作为持续反思的机制。随着LLM智能体的发展,近期研究日益强调RL作为持续反思的机制,使智能体能够从其在规划、推理、工具使用和记忆中的错误中学习【索引129,A survey of self-evolving agents: On path to artificial super intelligence,2025】。这些系统不再仅仅依赖于数据驱动的训练阶段或静态奖励模型,而是整合了迭代的、自我生成的反馈循环,范围从提示级的启发式方法到成熟的RL控制器,以引导智能体实现持续的自我提升。

用于言语自我纠正的RL。该领域的初步方法利用了基于提示的启发式方法,有时被称为“言语强化学习”,即智能体在单次推理过程中生成答案,语言上反思其潜在错误,然后产生一个精炼的解决方案,整个过程没有梯度更新。著名例子包括Reflexion 【索引130,Reflexion: language agents with verbal reinforcement learning,2023】、Self-refine 【索引131,Self-refine: Iterative refinement with self-feedback,2023】、CRITIC 【索引132,CRITIC: Large language models can self-correct with tool-interactive critiquing,2024】和Chain-of-Verification 【索引133,Retrieving, rethinking and revising: The chain-of-verification can improve retrieval augmented generation,2024】。为增强此类自我反思的效果和鲁棒性,已发展出几种不同策略:(I)多重采样,通过从模型分布中采样生成多个输出,聚合多次尝试的批判或解决方案,提高反思的一致性和质量,如If-or-Else 【索引134,Confidence matters: Revisiting intrinsic self-correction capabilities of large language models,2024】等工作所研究;(II)结构化反思工作流,如Chain-of-Verification 【索引133,Retrieving, rethinking and revising: The chain-of-verification can improve retrieval augmented generation,2024】将过程分解为“检索、反思、修正”等阶段;(III)外部指导,通过整合代码解释器、CAD程序、数学计算器等外部工具,将反思过程植根于可验证的客观反馈中。

用于内化自我纠正的RL。虽然言语自我纠正提供了一种有效的推理时技术,但其改进是短暂的且局限于单次会话。为了培养更持久和泛化的自我提升能力,后续研究采用带梯度更新的RL,将这些反思性反馈循环直接内化到模型的参数中,从根本上增强模型识别和纠正自身错误的内在能力。该范式已应用于多个领域。例如,KnowSelf 【索引141,Agentic knowledgeable self-awareness,2025】利用DPO和RPO 【索引142,Iterative reasoning preference optimization,2024】来增强智能体在基于文本的游戏环境中的自我反思能力;Reflection-DPO 【索引143,Adapt: Actively discovering and adapting to preferences for any task,2025】专注于用户-智能体交互场景;DuPo 【索引144,Dupo: Enabling reliable llm self-verification via dual preference optimization,2025】采用带双任务反馈的RL实现无标注优化;SWEET-RL 【索引145,Sweet-rl: Training multi-turn llm agents on collaborative reasoning tasks,2025】和ACC-Collab 【索引146,ACC-collab: An actor-critic approach to multi-agent LLM collaboration,2025】训练一个外部批判模型来为行动者智能体的行动提供更高质量的修正建议。

用于迭代式自我训练的RL。为了实现完全的智能体自主性,第三类也是最先进的模型将反思、推理和任务生成结合成一个自我维持的循环,从而在没有人类标记数据的情况下实现无限的自我提升。这些方法可以根据其学习循环的架构来区分:(I)自对弈和搜索引导的优化,模仿AlphaZero等经典RL范式。例如,R-Zero 【索引147,R-zero: Self-evolving reasoning llm from zero data,2025】使用MCTS探索推理树,并利用搜索结果从零开始迭代训练策略LLM(行动者)和价值LLM(批判者)。(II)执行引导的课程生成,智能体创建自己的问题并从可验证的结果中学习。Absolute Zero 【索引149,Absolute zero: Reinforced self-play reasoning with zero data,2025】通过自主提出任务、尝试解决方案、执行验证并利用基于结果的奖励来优化其策略。Self-Evolving Curriculum 【索引150,Self-evolving curriculum for llm reasoning,2025】将问题选择本身构建为一个非平稳的老虎机任务,使智能体能策略性地生成最大化学习收益的课程。TTRL 【索引151,Ttrl: Test-time reinforcement learning,2025】在测试时针对单个问题应用此原则,快速微调一个临时策略副本。(III)集体自举,通过聚合共享经验来加速学习。SiriuS 【索引153,Sirius: Self-improving multi-agent systems via bootstrapped reasoning,2025】构建并扩充一个来自多智能体交互的成功推理轨迹的实时知识库,用于自举其训练课程。ALAS 【索引152,Alas: Autonomous learning agent for self-updating language models,2025】构建了一个自主流水线,能够爬取网页数据、提炼成训练信号并持续微调LLM,实现了无需手动策划数据集的自训练和自进化。

未来展望:反思能力的元演化。尽管当前研究成功地利用RL通过反思来优化智能体的行为,但反思过程本身在很大程度上仍是手工设计和静态的。下一个前沿是在更高的抽象层次上应用RL,以实现自适应反思的元学习,不仅关注纠正错误,还关注学习如何更有效地自我纠正。在这个范式中,智能体可以学习一个管理其自身反思策略的元策略。例如,它可以学习为给定任务动态选择最合适的反思形式,决定是快速的言语检查就足够,还是需要更昂贵的、执行引导的搜索。此外,智能体可以利用长期结果来评估和完善其用于自我批判的启发式方法,从而有效地学习成为一个更好的内部批判者。通过优化反思机制本身,这种方法超越了简单的自我纠正,迈向了学习过程持续自我改进的状态,这是实现不仅能解决问题,还能自主增强从经验中学习的基本能力的智能体的关键一步。

3.5 推理

推理的双过程理论。大型语言模型中的推理可大致分为快速推理和慢速推理,这遵循了双过程认知理论【索引155,A survey of frontiers in LLM reasoning: Inference scaling, learning to reason, and agentic systems,2025】。快速推理对应于几乎没有中间步骤的、快速的、由启发式驱动的推断,而慢速推理则强调审慎的、结构化的、多步骤的推理。理解这两种范式之间的权衡对于设计在复杂问题解决中平衡效率和准确性的模型至关重要。

快速推理:直觉且高效的推断。快速推理模型以类似于系统1【索引2,From system 1 to system 2: A survey of reasoning large language models,2025】认知的方式运作:快速、直觉且模式驱动。它们无需明确的逐步审议即可生成即时响应,在优先考虑流畅性、效率和低延迟的任务中表现出色。大多数传统LLM属于此类,其推理能力隐式编码在下一个词元的预测中【索引13,Deepseekmath: Pushing the limits of mathematical reasoning in open language models,2024】。然而,这种效率是以牺牲系统性推理为代价的,使这些模型更容易出现事实错误、偏见和浅层泛化。为解决快速推理中的严重幻觉问题,当前研究主要集中在各种直接方法上,例如利用内部机制【索引157,Self-consistency improves chain of thought reasoning in language models,2023】或引入内外部置信度估计方法【索引160,Let’s verify step by step,2023】来识别更可靠的推理路径。

慢速推理:审慎且结构化的问题解决。相比之下,慢速推理模型旨在通过明确生成中间推理轨迹来模拟系统2【索引2,From system 1 to system 2: A survey of reasoning large language models,2025】认知。诸如思维链提示、多步验证【索引162,O1 replication journey: A strategic progress report – part 1,2024】和推理增强的强化学习等技术,使这些模型能够进行更深层次的反思,并实现更高的逻辑一致性。尽管由于推理轨迹较长,其推理速度较慢,但在数学、科学推理和多跳问答等知识密集型任务中,它们实现了更高的准确性和鲁棒性【索引163,SFT memorizes, RL generalizes: A comparative study of foundation model post-training,2025】。代表性例子包括OpenAI的o1【索引30,Openai o1 system card,2024】和o3系列【索引32,Openai o3 and o4-mini: Next-generation reasoning models,2025】、DeepSeek-R1【索引31,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025】,以及结合了动态测试时扩展【索引164,L1: Controlling how long a reasoning model thinks with reinforcement learning,2025】或强化学习【索引168,SimpleRLzoo: Investigating and taming zero reinforcement learning for open base models in the wild,2025】进行推理的方法。

现代慢速推理的结构。现代慢速推理的输出结构与快速推理有显著不同。这些结构包括清晰的探索和规划结构、频繁的验证和检查行为,以及通常更长的推理长度和时间。过去的工作探索了构建长链推理输出的多种模式。一些方法,如Macro-o1【索引174,Marco-o1: Towards open reasoning models for open-ended solutions,2024】、HuatuoGPT-o1【索引175,Huatuogpt-o1, towards medical complex reasoning with llms,2024】和AlphaZero,试图通过结构化的、智能体式的搜索来合成长思维链。其他方法则专注于生成体现特定审议或反思思维模式的长CoT数据集,例如HiICL-MCTS【索引177,Beyond examples: High-level automated reasoning paradigm in in-context learning via mcts,2025】、LLaVA-CoT【索引178,Llava-cot: Let vision language models reason step-by-step,2025】、rStar-Math【索引179,rstar-math: Small llms can master math reasoning with self-evolved deep thinking,2025】和ReasonFlux【索引180,Reasonflux: Hierarchical llm reasoning via scaling thought templates,2025】。随着预训练基础模型的进步,更多近期工作转向自我提升范式——通常通过强化学习实例化——以进一步增强模型的推理能力【索引168,SimpleRLzoo: Investigating and taming zero reinforcement learning for open base models in the wild,2025】。

未来展望:将慢速推理机制整合到智能体推理中。快速与慢速推理的二分法凸显了智能体推理中的一个开放挑战:如何利用强化学习在智能体场景中可靠地训练慢思考的推理能力。智能体场景中的强化学习在训练稳定性方面面临更大挑战,例如确保与不同环境的兼容性。智能体推理本身也容易出现过度思考的问题。纯粹的快速模型可能会忽略关键的推理步骤,而慢速模型则常常因延迟过长或过度思考(如不必要地产生长思维链)而受到影响。新兴方法寻求混合策略【索引181,Qwen3 technical report,2025】,将快速推理的效率与慢速推理的严谨性结合起来【索引182,Towards thinking-optimal scaling of test-time compute for llm reasoning,2025】。例如,自适应测试时扩展允许模型根据任务复杂性决定是快速响应还是进行扩展审议。开发这类认知对齐的机制是构建既高效又可靠的推理智能体的关键一步。

3.6 感知

从被动感知到主动视觉认知。通过连接视觉感知与语言抽象,大型视觉语言模型(LVLMs)在感知和理解多模态内容方面展现了前所未有的能力。这一进展的核心是将显式的推理机制融入多模态学习框架,从被动感知转向主动视觉认知。RL已成为实现此目标的强大范式,使视觉-语言-动作模型能够与复杂的多步推理目标对齐,超越了监督式下一个词元预测的限制。

多模态推理的RL增强。多模态内容通常需要细致的、依赖上下文的解释。受RL在增强LLM推理能力方面取得的显著成功启发【索引31,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025】,研究人员越来越多地寻求将这些成果转移到多模态学习中。早期工作侧重于基于偏好的RL来加强MLLM的思维链(CoT)推理能力。Visual-RFT 【索引205,Visual-rft: Visual reinforcement fine-tuning,2025】和Reason-RFT 【索引206,Reason-rft: Reinforcement fine-tuning for visual reasoning,2025】直接将GRPO应用于视觉领域,自适应地将IoU等视觉特定指标作为可验证的奖励信号,而STAR-R1 【索引207,Star-r1: Spatial transformation reasoning by reinforcing multimodal llms,2025】则通过为视觉GRPO引入部分奖励扩展了这一思想。在此基础上,一系列方法——Vision-R1 【索引208,Vision-r1: Incentivizing reasoning capability in multimodal large language models,2025】、VLM-R1 【索引200,Vlm-r1: A stable and generalizable r1-style large vision-language model,2025】、LMM-R1 【索引201,Lmm-r1: Empowering 3b lmms with strong reasoning abilities through two-stage rule-based rl,2025】和MM-Eureka 【索引209,Mm-eureka: Exploring visual aha moment with rule-based large-scale reinforcement learning,2025】——开发了专门的策略优化算法,旨在激励逐步的视觉推理,即使在较小的3B参数模型上也表现出强大的性能。SVQA-R1 【索引210,Svqa-r1: Reinforcing spatial reasoning in mllms via view-consistent reward optimization,2025】引入了Spatial-GRPO,一种新颖的组策略RL方法,强制执行视角一致和变换不变的目标。Visionary-R1 【索引211,Visionary-r1: Mitigating shortcuts in visual reasoning with reinforcement learning,2025】将图像字幕作为推理前的先决步骤,以减轻强化微调期间的捷径利用。一系列课程学习方法也被提出,以简化和平滑视觉强化微调的RL训练过程。R1-V 【索引213,G1: Bootstrapping perception and reasoning abilities of vision-language model via reinforcement learning,2025】引入了VLM-Gym,并通过可扩展的、纯RL自进化训练G0/G1模型,实现了在不同视觉任务中涌现的感知-推理协同。R1-Zero 【索引216,R1-zero’s "aha moment" in visual reasoning on a 2b non-sft model,2025】表明,即使是简单的基于规则的奖励也能在非SFT模型中诱导自反思和扩展推理,超越了监督基线。PAPO 【索引63,Perception-aware policy optimization for multimodal reasoning,2025】提出了一个感知感知的策略优化框架,用隐式感知KL损失和双熵正则化来增强RLVR方法。这些方法共同证明,只要使用精心设计的、可验证的奖励指标,R1风格的RL可以成功地转移到视觉领域,从而在性能、鲁棒性和分布外泛化方面取得显著改进。

以定位驱动的主动感知。为了从被动感知发展到主动视觉认知,一个关键方向是使LVLM在生成推理过程时能够反复回顾和查询图像。这通过定位(grounding)【索引218,Modeling context between objects for referring expression understanding,2016】实现,即将生成的思维链(CoT)的每一步锚定到多模态输入的特定区域,通过明确地将文本与相应的视觉区域联系起来,促进更有效和可验证的推理。GRIT 【索引220,Grit: Teaching mllms to think with images,2025】将边界框词元与文本CoT交织,并使用GRPO,以可验证的奖励和边界框正确性作为监督。Ground-R1 【索引222,Ground-r1: Incentivizing grounded visual reasoning via reinforcement learning,2025】和BRPO 【索引223,Qwen look again: Guiding vision-language reasoning models to re-attention visual information,2025】在纯文本推理之前高亮证据区域,而DeepEyes 【索引88,Deepeyes: Incentivizing "thinking with images" via reinforcement learning,2025】则证明端到端的RL可以自然地引出这种定位行为。

以工具驱动的主动感知。另一个实现主动感知的有前景的方向是将视觉认知构建为一个智能体过程,其中外部工具、代码片段和运行时环境辅助模型的认知工作流【索引224,Visual programming: Compositional visual reasoning without training,2023】。例如,VisTA 【索引226,Visualtoolagent (vista): A reinforcement learning framework for visual tool selection,2025】和VTool-R1 【索引227,Vtool-r1: Vlms learn to think with images via reinforcement learning on multimodal tool use,2025】专注于通过RL教模型如何选择和使用视觉工具,而OpenThinkIMG 【索引228,Openthinkimg: Learning to think with images via visual tool reinforcement learning,2025】为训练模型“用图像思考”提供了标准化的基础设施。Visual-ARFT 【索引205,Visual-rft: Visual reinforcement fine-tuning,2025】利用RL促进工具创建,利用MLLM的代码生成能力动态扩展其感知工具包。Pixel Reasoner 【索引89,Pixel reasoner: Incentivizing pixel-space reasoning with curiosity-driven reinforcement learning,2025】将模型的操作空间扩展到裁剪、擦除和绘制等操作,并引入好奇心驱动的奖励以阻止过早终止探索。

以生成驱动的主动感知。除了定位和工具使用,人类还利用他们最强大的认知能力之一——想象力——来生成草图或图表以辅助问题解决。受此启发,研究人员已开始为LVLM配备生成草图或图像并与思维链(CoT)推理交织的能力,使模型能够外化中间表示并更有效地推理【索引229,Visual planning: Let’s think only with images,2025】。GoTR1 【索引232,Got-r1: Unleashing reasoning capability of mllm for visual generation with reinforcement learning,2025】在Generation-CoT框架内应用RL,允许模型在生成图像之前自主发现语义-空间推理计划。同样,T2I-R1 【索引233,T2i-r1: Reinforcing image generation with collaborative semantic-level and token-level cot,2025】明确将过程解耦为用于高级规划的语义级CoT和用于逐块像素生成的词元级CoT,并用RL联合优化这两个阶段。

音频。RL也已从视觉-语言模型扩展到包括音频在内的多种模态。在音频-语言领域,我们将RL应用分为两大类:(1)增强大型音频-语言模型的推理能力:利用RL指导模型生成结构化的、逐步的推理链,用于音频问答和逻辑推断等任务【索引234,Sari: Structured audio reasoning via curriculum-guided reinforcement learning,2025】。(2)语音合成(TTS)中的细粒度组件优化:采用RL直接优化系统组件(如时长预测器),使用说话人相似度和词错误率等感知质量指标作为奖励信号,从而产生更自然、更清晰的语音【索引237,Dmospeech 2: Reinforcement learning for duration prediction in metric-optimized speech synthesis,2025】。一些其他工作如EchoInk-R1 【索引238,Echoinkr1: Exploring audio-visual reasoning in multimodal llms via reinforcement learning,2025】通过在GRPO优化下整合视听同步性来进一步丰富视觉推理。

3.7 其他

长时程交互与信用分配。除了优化上述核心认知模块,智能体RL还增强了在扩展的、多轮交互中保持战略一致性的能力。在这里,RL被应用于支持长时程推理和有效的信用分配。对于长时程交互,核心挑战是时间信用分配【索引109,A survey of temporal credit assignment in deep reinforcement learning,2024】,稀疏和延迟的反馈模糊了智能体行动与遥远结果之间的联系。

解决方案。智能体RL通过演化学习信号和优化框架来直接应对这一挑战。一种主要方法是(I)将基于过程的监督与最终结果奖励相结合。这种范式不依赖于轨迹结束时的单个奖励,而是使用辅助模型或程序化规则来评估中间步骤的质量,提供更密集、更即时的学习信号。例如,EPO 【索引239,EPO: Explicit policy optimization for strategic reasoning in LLMs via reinforcement learning,2025】、ThinkRM 【索引240,Think-rm: Enabling long-horizon reasoning in generative reward models,2025】和AgentPRM 【索引241,Process reward models for llm agents: Practical framework and directions,2025】引入外部奖励模型为智能体提供逐步信号;相比之下,RLVMR 【索引242,Rlvmr: Reinforcement learning with verifiable meta-reasoning rewards for robust long-horizon agents,2025】设计了手动定义的、程序化的规则来指导中间监督。第二种互补的策略是(II)将偏好优化从单轮扩展到多步片段。像分段级DPO(SDPO)【索引243,SDPO: Segment-level direct preference optimization for social agents,2025】这样的技术超越了比较孤立的响应,而是在整个对话片段或行动序列上构建偏好数据。这使得模型能够直接学习早期决策如何影响长期成功,从而在扩展对话和复杂任务中完善其保持战略一致性的能力。

A4 实验结果:任务视角下的智能体RL

智能体RL通过广泛的具体任务来检验和塑造其不断演进的能力。本节综述了智能体RL已展现出巨大潜力和独特挑战的代表性应用领域。我们从搜索和信息检索(4.1节)开始,接着是代码生成和软件工程(4.2节),以及数学推理(4.3节)。然后,我们讨论其在GUI导航(4.4节)、视觉理解任务(4.5节)以及VLM具身交互(4.6节)中的作用。除了单智能体场景,我们还将视角扩展到多智能体系统(4.7节),并以其他新兴领域(4.8节)作为总结。这些应用共同突显了智能体RL如何从抽象范式转变为可操作的、解决现实世界问题的实践,如图6所示。

图6:面向特定领域智能体的RL演化树
图6:面向特定领域智能体的RL演化树

4.1 搜索与研究智能体

搜索一直是扩展LLM外部知识的核心,其中检索增强生成(RAG)是一种广泛使用的方法。如今,该范式正从简单的信息检索演变为能够进行深度研究的自主智能体:这是一种复杂的多步过程,不仅涉及信息查找,还包括深入分析、综合多源见解和起草综合报告。这使得目标从回答查询提升到解决复杂研究任务。早期的提示驱动方法依赖于脆弱的查询策略和手动工程。虽然近期的工作如Search-o1【索引98,Search-o1: Agentic search-enhanced large reasoning models,2025】利用大型推理模型进行智能体式、推理时的检索,多智能体系统如DeepResearch【索引247,Agentorchestra: A hierarchical multi-agent framework for general-purpose task solving,2025】协调查询和摘要子智能体,但它们仍然缺乏学习信号。这些基于提示的方法缺乏微调信号,导致泛化能力有限,并且在需要紧密循环的搜索、推理和综合的多轮设置中效果不佳。这些局限性促使人们采用强化学习来直接优化查询生成和搜索-推理协调的端到端过程,以实现高级研究目标。表4总结了本节研究的大部分工作。

表4:基于RL的搜索和研究智能体方法总结
表4:基于RL的搜索和研究智能体方法总结

开源RL方法主要分为两类:
1. 基于外部互联网搜索:这类方法利用实时网络搜索API作为外部环境,通过RL优化查询生成和多步推理。
* DeepRetrieval【索引248,Deepretrieval: Hacking real search engines and retrievers with large language models via reinforcement learning,2025】开创性地将单次查询生成构建为GRPO训练的策略,直接奖励召回率和相关性。
* Search-R1【索引249,Search-r1: Training llms to reason and leverage search engines with reinforcement learning,225】和DeepResearcher【索引253,Deepresearcher: Scaling deep research via reinforcement learning in real-world environments,2025】将检索到的词元掩码与基于结果的奖励相结合,交错进行查询制定和答案生成。
* WebDancer【索引97,Webdancer: Towards autonomous information seeking agency,2025】利用人类浏览轨迹监督和RL微调,在GAIA和WebWalkerQA基准上表现出色。
* ASearcher【索引256,Beyond ten turns: Unlocking long-horizon agentic search with large-scale asynchronous rl,2025】使用大规模异步RL和合成QA数据,实现了长时程搜索(超过40次工具调用)。
2. 基于LLM内部知识搜索:为了解决外部API的文档质量不可控和成本高昂的问题,一些研究使用可控的模拟搜索引擎,如LLM的内部知识。
* ZeroSearch【索引259,Zerosearch: Incentivize the search capability of llms without searching,2025】用从LLM自身提炼的伪搜索引擎取代实时网络检索,结合课程RL,在不发出真实查询的情况下逐步接近真实引擎的性能。
* SSRL【索引260,Ssrl: Self-search reinforcement learning,2025】更进一步,智能体在训练期间完全进行离线“自搜索”,但在在线推理时仍能从真实API中获益。

闭源RL方法在处理复杂基准(如OpenAI的BrowseComp)方面表现更强,这可能得益于更强大的基础模型和更高质量的数据。它们已从简单的查询优化转向完全自主的研究智能体,能够导航开放网络、综合多源信息并起草报告。例如,OpenAI Deep Research【索引103,Deep research,225】在BrowseComp上实现了51.5%的pass@1。其他原型系统,如Perplexity的DeepResearch【索引246,Perplexity deep research,2025】和Google Gemini的DeepResearch【索引261,Gemini deep research,2025】,也将RL风格的微调与先进的工具集成和记忆模块相结合。

4.2 代码智能体

代码生成和软件工程为基于LLM的智能体RL提供了理想的试验场,因为其执行语义明确可验证,并且可以轻松获得编译、单元测试等自动化信号。早期的多智能体框架通过提示进行角色协调,而没有参数更新。CodeRL【索引271,Coderl: Mastering code generation through pretrained models and deep reinforcement learning,2022】等早期工作将基于执行的奖励建模和演员-评论家训练结合起来,催生了一系列利用执行反馈指导策略更新的研究。表5总结了本节研究的大部分工作。

表5:代码和软件工程智能体的RL方法总结
表5:代码和软件工程智能体的RL方法总结

RL在代码生成中的应用
1. 单轮代码生成
* 结果奖励RL:直接优化最终正确性(如pass@k)。DeepCoder-14B【索引273,Deepcoder: A fully open-source 14b coder at o3-mini level,2025】使用分布式RL和单元测试通过率作为奖励,在LiveCodeBench上实现了60.6%的pass@1。Absolute Zero【索引149,Absolute zero: Reinforced self-play reasoning with zero data,2025】应用自对弈RL,无需人类数据即可通过执行结果自举推理能力。
* 过程奖励RL:提供对编译、部分执行或推理步骤的中间监督。StepCoder【索引278,StepCoder: Improving code generation with reinforcement learning from compiler feedback,2024】将编译和执行分解为步骤级信号。PRLCoder【索引280,Process-supervised reinforcement learning for code generation,2025】构建了对部分代码片段评分的奖励模型,实现了更快的收敛。
2. 迭代式代码修正
* 结果奖励RLRLEF【索引286,RLEF: Grounding code LLMs in execution feedback with reinforcement learning,2025】将整个修正循环视为一个轨迹,并根据最终任务成功进行奖励。
* 过程奖励RLIterPref【索引289,Iterpref: Focal preference learning for code generation via iterative debugging,2025】从迭代调试轨迹中构建局部偏好对,并应用目标性偏好优化。LeDex【索引290,Ledex: Training llms to better self-debug and explain code,2024】将解释驱动的诊断与自我修复相结合,通过PPO联合优化解释质量和代码正确性。
3. 自动化软件工程(ASE)
* 结果奖励RLDeepSWE【索引293,Deepswe: Training a state-of-theart coding agent from scratch by scaling rl,2025】在软件工程任务上进行大规模RL,使用验证的任务完成度作为唯一奖励。Qwen3-Coder【索引181,Qwen3 technical report,2025】在20,000个并行环境中进行大规模执行驱动的RL,在SWE-Bench Verified等基准上取得了最先进的性能。
* 过程奖励RLSWEET-RL【索引145,Sweet-rl: Training multi-turn llm agents on collaborative reasoning tasks,2025】在多轮任务上训练智能体,利用特权信息减少探索噪声。

4.3 数学智能体

数学推理因其符号抽象、逻辑一致性和长时程演绎要求,被广泛视为评估LLM智能体推理能力的黄金标准。研究分为两个互补的范式:非形式化推理(在自然语言和编程工具中操作)和形式化推理(依赖于严格定义的语言和证明助手)。

非形式化数学推理中的RL
* 结果奖励RL:仅根据最终数值或符号正确性定义奖励。ARTIST【索引91,Agentic reasoning and tool integration for llms via reinforcement learning,2025】在推理链中交错工具调用(如代码执行),并通过仅结果奖励的训练实现了强大的性能和涌现的智能体行为(如自反思)。ZeroTIR【索引306,Agent rl scaling law: Agent rl with spontaneous code execution for mathematical problem solving,2025】研究了工具集成推理中基于结果奖励的RL的缩放定律,发现训练计算量与自发代码执行频率、响应长度和最终任务准确性之间存在强相关性。rStar2-Agent【索引107,rstar2-agent: Agentic reasoning technical report,2025】是一个14B参数的数学推理模型,通过智能体RL训练,在AIME24和AIME25上分别取得了80.6%和69.8%的平均pass@1分数。
* 过程奖励RL:利用中间评估器提供更密集的反馈。LADDER【索引313,Ladder: Self-improving llms through recursive problem decomposition,2025】引入了一个训练时框架,LLM递归地生成并解决问题的简化变体,使用可验证的奖励信号指导基于难度的课程学习。SWiRL【索引314,Synthetic data generation & multi-step rl for reasoning & tool use,2025】通过迭代分解解决方案来合成逐步工具使用的推理数据,然后采用基于偏好的逐步RL方法对模型进行微调。

形式化数学推理中的RL
形式化推理在具有精确定义的语法和语义的形式化语言中进行,产生可由验证器机械检查的证明对象,非常适合自动定理证明(ATP)等任务。
* 结果奖励RLDeepSeek-Prover-v1.5【索引316,Deepseek-prover-v1.5: Harnessing proof assistant feedback for reinforcement learning and monte-carlo tree search,2025】在Lean中发布了一个仅基于二元验证器反馈的端到端RL流程,在miniF2F和ProofNet等基准上显著提高了证明成功率。Leanabell-Prover【索引322,Leanabell-prover: Posttraining scaling in formal reasoning,2025】通过聚合来自多个来源的庞大混合数据集来扩展此方法。Seed-Prover【索引328,Seed-prover: Deep and broad reasoning for automated theorem proving,2025】采用以引理为中心的证明范式,并用多样化的提示策略丰富RL训练。
* 过程奖励RLDeepSeek-Prover-v2【索引302,Deepseek-prover-v2: Advancing formal mathematical reasoning via reinforcement learning for subgoal decomposition,2025】设计了一个双模型流程,将非形式化和形式化推理统一起来,并通过子目标分解提供更密集的监督。Leanabell-Prover-v2【索引319,Leanabell-prover-v2: Verifier-integrated reasoning for formal theorem proving via reinforcement learning,2025】将验证器消息整合到强化更新中,实现了显式的验证器感知自我监控。
* 混合奖励RL:为了缓解数据稀缺和稀疏奖励问题,一个突出的研究方向是采用专家迭代(ExIt)【索引332,Thinking fast and slow with deep learning and tree search,2017】,它将搜索与策略学习相结合。STP【索引326,STP: Self-play LLM theorem provers with iterative conjecturing and proving,2025】将猜想者-证明者自对弈的思想扩展到实际的形式化语言中,猜想者提出对当前证明者有挑战性的陈述,证明者通过标准专家迭代进行训练,从而生成自适应课程并缓解稀疏训练信号问题。

表6:数学推理智能体的RL方法总结
表6:数学推理智能体的RL方法总结

4.4 GUI智能体

GUI智能体经历了从纯零样本VLM、静态轨迹SFT到基于RL的序贯决策的演进。RL通过试错学习和稀疏或塑造的奖励,推动了GUI交互从简单的单任务设置发展到复杂的、真实世界的长时程场景。表7总结了本节研究的大部分工作。

表7:GUI智能体方法总结,按训练范式和环境复杂性分类。
表7:GUI智能体方法总结,按训练范式和环境复杂性分类。

  1. 无RL方法
    • 原生VLM智能体:如MM-Navigator【索引338,Gpt-4v in wonderland: Large multimodal models for zero-shot smartphone gui navigation,2023】,直接使用预训练VLM,但定位准确性和可靠性有限。
    • 静态轨迹SFT:如InfiGUIAgent【索引343,InfiGUIAgent: A multimodal generalist GUI agent with native reasoning and reflection,2025】,在离线的(屏幕,动作)对上进行微调,但受限于稀缺的人类操作轨迹。
  2. 静态GUI环境中的RL
    • 在预收集的数据集上应用RL,使用基于规则的标准进行结果评估。GUI-R1【索引346,Gui-r1 : A generalist r1-style vision-language action model for gui agents,2025】采用R1风格的强化微调,使用简单的格式和正确性奖励。UI-R1【索引347,Ui-r1: Enhancing efficient action prediction of gui agents by reinforcement learning,2025】应用组相对策略优化来稳定策略更新。UI-Venus【索引350,Ui-venus technical report: Building high-performance ui agents with rft,2025】是一个通过RFT和自定义奖励函数微调的多模态UI智能体,在UI定位和导航方面达到了新的SOTA。
  3. 交互式GUI环境中的RL
    • 智能体在动态环境中通过在线部署进行优化。WebAgentR1【索引95,Webagent-r1: Training web agents via end-to-end multi-turn reinforcement learning,2025】进行端到端多轮RL,提高了在多样化Web任务上的成功率。DiGiRL【索引353,Digirl: Training in-the-wild device-control agents with autonomous reinforcement learning,2024】在真实安卓设备上引入了离线到在线的RL流程,以应对非平稳性。MobileGUIRL【索引355,Mobilegui-rl: Advancing mobile gui agent through reinforcement learning in online environment,2025】在安卓虚拟设备上扩展训练规模,使用轨迹感知的GRPO和课程过滤,提高了执行效率和泛化能力。ComputerRL【索引356,Computerrl: Scaling end-to-end online reinforcement learning for computer use agents,2025】引入了API-GUI混合交互范式和大规模并行异步RL基础架构,使GUI智能体能在桌面环境中高效、可扩展地操作。

4.5 视觉智能体中的RL

RL已被广泛应用于视觉任务,包括图像/视频/3D的感知和生成。
* 图像任务:研究从早期仅将R1风格的目标应用于视觉领域以增强被动感知,演变为现在流行的“用图像思考”的主动感知范式。这通过(i)定位(将CoT锚定到图像区域)、(ii)智能体工具使用(如代码执行、图像编辑)和(iii)视觉想象(生成草图)实现。RL也被广泛应用于图像生成,与扩散和流模型结合,如RePrompt【索引364,Reprompt: Reasoning-augmented reprompting for text-to-image generation via reinforcement learning,2025】和Flow-GRPO【索引366,Flow-grpo: Training flow matching models via online rl,2025】。
* 视频任务:许多工作将GRPO变体扩展到视频领域以增强时间推理。TW-GRPO【索引378,Reinforcing video reasoning with focused thinking,2025】引入了一个词元加权的GRPO框架,强调高信息量词元。EgoVLM【索引379,Egovlm: Policy optimization for egocentric video understanding,2025】将基于关键帧的奖励与直接GRPO训练相结合,为自我中心视频生成可解释的推理轨迹。
* 3D视觉任务:RL也被广泛用于推进3D理解和生成。MetaSpatial【索引400,Metaspatial: Reinforcing 3d spatial reasoning in vlms for the metaverse,2025】引入了首个用于3D空间推理的基于RL的框架,利用物理感知约束和渲染图像评估作为奖励。在3D生成领域,RL被应用于改善文本到3D的对齐和可控性,如DreamCS【索引403,Dreamcs: Geometry-aware text-to-3d generation with unpaired 3d reward supervision,2025】和DreamDPO【索引404,Dreamdpo: Aligning text-to-3d generation with human preferences via direct preference optimization,2025】。

4.6 具身智能体中的RL

将通用视觉或语言能力扩展到具身智能体需要理解真实世界的视觉环境和跨模态推理能力。RL通常作为后训练策略应用于指令驱动的具身场景。一个常见的流程是从通过模仿学习得到的预训练视觉-语言-动作(VLA)模型开始,然后将其嵌入交互式智能体中,通过环境奖励信号迭代优化策略。
* VLA导航智能体中的RL:规划是核心能力。VLNR1【索引413,Vln-r1: Visionlanguage navigation via reinforcement fine-tuning,2025】通过对齐预测路径和真实路径来定义轨迹级奖励,并应用GRPO改进预测性规划。OctoNav-R1【索引416,Octonav: Towards generalist embodied navigation,2025】则侧重于加强VLA模型内部的审议,提倡“先思后行”的范式。
* VLA操控智能体中的RL:操控智能体需要精细的控制。RLVLA【索引418,What can rl bring to vla generalization? an empirical study,2025】和VLA-RL【索引412,Vla-rl: Towards masterful and general robotic manipulation with scalable reinforcement learning,2025】采用预训练VLM作为评估器,为其反馈分配轨迹级奖励来优化VLA策略。TGRPO【索引419,Tgrpo: Fine-tuning vision-language-action model via trajectory-wise group relative policy optimization,2025】通过定义基于规则的奖励函数将GRPO引入操控任务。
核心挑战在于将训练扩展到真实世界环境。模拟平台虽然高效,但模拟到真实的差距仍然很大,尤其是在精细操控任务中。直接在真实世界中进行RL因成本和复杂性目前尚不可行。

4.7 多智能体系统中的RL

基于LLM的多智能体系统(MAS)由多个自主智能体组成,它们通过结构化交互、协调和记忆管理来协作解决复杂任务。早期MAS是静态和手工设计的,而后续研究转向可优化的协作系统。表8总结了本节讨论的主要工作。

表8:LLM多智能体系统中强化学习和进化范式总结。“动态”表示多智能体系统是否是任务动态的,即用不同配置处理不同任务查询。“训练”表示方法是否涉及训练智能体的LLM骨干。
表8:LLM多智能体系统中强化学习和进化范式总结。“动态”表示多智能体系统是否是任务动态的,即用不同配置处理不同任务查询。“训练”表示方法是否涉及训练智能体的LLM骨干。

  • 无RL的多智能体演化:系统演化由符号学习、动态图优化等机制驱动,但不直接更新基础模型的参数。MALT【索引154,MALT: Improving reasoning with multi-agent LLM training,2025】使用异构多智能体搜索树生成大规模标记轨迹,通过SFT和DPO对智能体进行微调。
  • 基于RL的多智能体训练
    • MARFT【索引433,Marft: Multi-agent reinforcement fine tuning,2025】形式化了一个具有数学保证和实证验证的MAS强化微调框架。
    • MAGRPO【索引441,Llm collaboration with multi-agent reinforcement learning,2025】将多LLM协作形式化为Dec-POMDP问题,并引入了GRPO的多智能体变体。
    • RLCCF【索引440,Wisdom of the crowd: Reinforcement learning from coevolutionary collective feedback,2025】是一个自监督多智能体RL框架,利用自洽性加权的集成投票生成伪标签,并通过GRPO协同优化个体模型策略。
    • Chain-of-Agents (COA)【索引439,Chain-of-agents: End-to-end agent foundation models via multi-agent distillation and agentic rl,2025】是一个端到端范式,其中单个LLM通过动态编排角色扮演和工具使用智能体来模拟多智能体协作;这是通过多智能体蒸馏和带有精心设计奖励函数的智能体RL实现的。
    • SPIRAL【索引443,Spiral: Self-play on zero-sum games incentivizes reasoning via multi-agent multi-turn reinforcement learning,2025】提出了一个用于零和博弈的全在线、多轮、多智能体自对弈RL框架,证明了博弈能够培养可迁移的推理技能。

4.8 其他任务

  • 文本游戏ARIA【索引444,Aria: Training language agents with intention-driven reward aggregation,2025】通过意图驱动的奖励聚合压缩动作空间。GiGPO【索引110,Group-in-group policy optimization for llm agent training,2025】通过分层分组增强时间信用分配。SPA-RL【索引111,Spa-rl: Reinforcing llm agents via stepwise progress attribution,2025】将延迟奖励分解为每步信号。
  • 表格SkyRL-SQL【索引447,Skyrl-sql: Matching gpt-4o and o4-mini on text2sql with multi-turn rl,2025】引入了一个数据高效、多轮的RL流程用于Text-to-SQL,使LLM智能体能交互式地探测数据库、修正和验证SQL查询。
  • 时间序列Time-R1【索引449,Time-r1: Towards comprehensive temporal reasoning in llms,2025】通过渐进式RL课程和动态规则奖励系统增强中等规模LLM的时间推理能力。
  • 通用问答Agent models【索引451,Agent models: Internalizing chain-of-action generation into reasoning models,2025】内化了行动链生成,通过SFT和RL的结合实现自主高效决策。L-Zero【索引452,L0: Reinforcement learning to become general agents,2025】通过可扩展的端到端RL流程使LLM成为通用智能体。
  • 社交Sotopia-RL【索引453,Sotopia-rl: Reward design for social intelligence,2025】将粗粒度的回合级奖励细化为话语级的多维信号,以实现社交智能LLM的高效稳定RL训练。

A4 实验环境

5.1 环境模拟器

在智能体强化学习中,环境是智能体与之交互的世界。随着LLM智能体范式的兴起,许多工作提出了用于特定任务训练的环境。表9概述了本节考察的关键环境。

表9:智能体强化学习的环境和基准总结,按智能体能力、任务领域和模态分类。智能体能力表示为:①推理,②规划,③工具使用,④记忆,⑤协作,⑥自我提升。
表9:智能体强化学习的环境和基准总结,按智能体能力、任务领域和模态分类。智能体能力表示为:①推理,②规划,③工具使用,④记忆,⑤协作,⑥自我提升。

  • 网页环境:
    • WebShop【索引464,Webshop: Towards scalable real-world web interaction with grounded language agents,2022】: 一个模拟的电子商务网站,用于训练智能体导航和购买商品。
    • Mind2Web【索引465,Mind2web 2: Evaluating agentic search with agent-as-a-judge,2025】: 一个为通用Web智能体设计的数据集,包含来自多个真实网站的任务,强调跨网站和领域的泛化能力。
    • WebArena【索引466,Webarena: A realistic web environment for building autonomous agents,2024】: 一个可复现的、自托管的Web环境,包含电子商务、社交论坛等功能齐全的网站。
    • AppWorld【索引469,AppWorld: A controllable world of apps and people for benchmarking interactive coding agents,2024】: 一个模拟多应用生态系统的环境,智能体通过编写代码调用API来完成复杂任务。
  • GUI环境:
    • AndroidWorld【索引470,Androidworld: A dynamic benchmarking environment for autonomous agents,2025】: 一个在真实安卓模拟器上运行的动态基准环境,包含20个真实应用中的116个任务。
    • OSWorld【索引471,Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments,2024】: 一个可扩展的真实计算机环境,支持在Ubuntu、Windows和macOS上进行任务设置和评估。
  • 编码与软件工程环境:
    • Debug-Gym【索引472,debug-gym: A text-based environment for interactive debugging,2025】: 一个用于调试设置的文本交互式编码环境。
    • SWE-bench【索引483,SWE-bench: Can language models resolve real-world github issues?,2024】: 一个源自真实GitHub问题的动态、执行驱动的代码修复基准。
    • ColBench【索引145,Sweet-rl: Training multi-turn llm agents on collaborative reasoning tasks,2025】: 实例化了多轮后端/前端任务,并带有一个特权评论家以提供逐步奖励。
  • 特定领域环境:
    • ScienceWorld【索引458,ScienceWorld: Is your agent smarter than a 5th grader?,2022】: 整合了科学模拟(如热力学、化学)的复杂文本任务。
    • MLE-Dojo【索引473,Mle-dojo: Interactive environments for empowering llm agents in machine learning engineering,2025】: 一个用于迭代式机器学习工程工作流的Gym风格框架。
  • 模拟与游戏环境:
    • TextWorld【索引457,Textworld: A learning environment for text-based games,2019】: 一个用于训练文本游戏智能体的沙箱环境。
    • Crafter【索引491,Benchmarking the spectrum of agent capabilities,2022】: 一个2D开放世界生存游戏,用于测试深度探索和长时程推理。
  • 通用环境:
    • AgentGym【索引459,AgentGym: Evaluating and training large language model-based agents across diverse environments,2025】: 专注于通过指令调优和自我纠正来提高LLM智能体的泛化能力。
    • Agentbench【索引460,Agentbench: Evaluating llms as agents,2024】: 一个广泛的评估框架,评估LLM在多种交互环境中的智能体能力。
    • InternBootcamp【索引461,Internbootcamp technical report: Boosting llm reasoning with verifiable task scaling,2025】: 一个集成了超过1000个可验证推理任务的可扩展框架。

5.2 RL框架

本节总结了三类与本文最相关的代码库/框架:智能体RL框架、RLHF和LLM微调框架,以及通用RL框架。表10为读者提供了主流智能体RL和LLM-RL框架的概览。

表10:强化学习框架总结,按类型和关键特征分类。
表10:强化学习框架总结,按类型和关键特征分类。

  • 智能体RL框架:
    • Verifiers【索引496,Verifiers: Reinforcement learning with llms in verifiable environments,2025】: 引入了一个用于LLM端到端策略优化的可验证环境设置。
    • SkyRL-v0【索引497,Skyrl-v0: Train real-world long-horizon agents via reinforcement learning,2025】: 演示了通过RL进行长时程、真实世界智能体训练。
    • AREAL【索引499,AREAL: A large-scale asynchronous reinforcement learning system for language reasoning,2025】: 通过异步、分布式架构扩展了这一范式,专为语言推理任务设计。
    • AgentFly【索引502,Agentfly: Extensible and scalable reinforcement learning for lm agents,2025】: 一个可扩展的智能体-RL框架,使语言模型智能体能够使用传统RL算法。
    • A-WORLD【索引504,Aworld: Orchestrating the training recipe for agentic ai,2025】: 一个分布式的智能体RL框架,通过在集群上编排大规模并行部署来解决经验生成的瓶颈,实现了14.6倍的加速。
  • RLHF和LLM微调框架:
    • OpenRLHF【索引505,Openrlhf: An easy-to-use, scalable and high-performance rlhf framework,2025】: 一个为大规模模型对齐设计的高性能、可扩展工具包。
    • TRL【索引506,Trl: Transformer reinforcement learning,2020】: Hugging Face提供的RLHF实验基线实现。
    • SLiMe【索引509,slime: A llm post-training framework for rl scaling,2025】: 一个LLM后训练框架,结合Megatron和SGLang实现高性能多模式训练,并支持异步RL。
  • 通用RL框架:
    • RLlib【索引510,RLlib: Abstractions for distributed reinforcement learning,2018】: 一个生产级的、可扩展的库,为在线、离线和多智能体方法提供统一API。
    • Acme【索引511,Acme: A research framework for distributed reinforcement learning,2020】: 为分布式RL提供模块化的、面向研究的构建块。
    • Tianshou【索引512,Tianshou: A highly modularized deep reinforcement learning library,2022】: 一个高性能、纯PyTorch平台,支持在线、离线和分层RL。

A7 补充细节:开放挑战与未来方向

智能体RL的前沿挑战。智能体RL向通用智能的推进取决于克服三个关键挑战,它们定义了该领域的研究前沿。首先是可信度(Trustworthiness)挑战:确保日益自主的智能体的可靠性、安全性和对齐性。其次是智能体训练的规模化(Scaling up Agentic Training),这需要克服在计算、数据和算法效率方面的巨大实践瓶颈。最后,智能体的能力从根本上受其世界的限制,因此智能体环境的规模化(Scaling up Agentic Environments),即创造复杂和自适应的训练场,也至关重要。

6.1 可信度

安全。自主智能体的安全格局比标准LLM要复杂得多。传统模型主要易受文本输入/输出接口的攻击,而智能体由于其工具、记忆和规划等外部组件,具有更大的攻击面【索引515,G-safeguard: A topology-guided security lens and treatment on llm-based multi-agent systems,2025】。这种架构使其面临超越直接提示注入的新威胁。例如,当智能体与被篡改的外部环境(如恶意网站或API)交互时,可能会发生间接提示注入,从而毒害其记忆或工具输出【索引516,Agentpoison: Red-teaming llm agents via poisoning memory or knowledge bases,2024】。RL通过将智能体从被动操纵的受害者转变为主动寻求利用漏洞的目标寻求者,极大地放大了这些风险。核心问题是奖励黑客(reward hacking):RL智能体可能会学习到不安全的行为是最大化其长期奖励的最有效途径。缓解这些风险需要一种纵深防御方法,包括强大的沙盒化【索引517,Toolsandbox: A stateful, conversational, interactive evaluation benchmark for llm tool use capabilities,2025】、塑造奖励信号(如基于过程的奖励和对抗性训练),以及持续的监控和异常检测。

幻觉。在智能体LLM的背景下,幻觉是指生成自信但无根据的输出,包括陈述、推理步骤或工具使用,这些输出不植根于提供的证据或外部现实。RL如果奖励机制设计不当,可能会无意中放大幻觉。研究表明,仅奖励最终答案正确性的结果驱动RL,可能会鼓励智能体发现虚假的关联或捷径,从而产生自信但无根据的中间推理步骤【索引522,The hallucination dilemma: Factuality-aware reinforcement learning for large reasoning models,2025】。这种现象引入了“幻觉税”,即强化微调可能会降低智能体拒绝回答的能力【索引523,The hallucination tax of reinforcement finetuning,2025】。有前景的缓解策略包括训练时对齐和推理时保障的混合方法。训练时,关键方向是从仅结果奖励转向基于过程的奖励,如Factuality-aware Step-wise Policy Optimization (FSPO)【索引522,The hallucination dilemma: Factuality-aware reinforcement learning for large reasoning models,2025】。数据中心的方法通过在可解决和不可解决问题的混合数据上训练智能体来增强其认知谦逊。

谄媚(Sycophancy)。LLM智能体中的谄媚是指它们倾向于生成符合用户陈述的信念、偏见或偏好的输出,即使这些信念是错误的或会导致次优结果【索引525,Be friendly, not friends: How llm sycophancy shapes user trust,2025】。RL是导致这种行为的主要原因之一。其根本机制是一种“奖励黑客”,智能体学会利用奖励模型,而这种方式并不与真实的人类偏好对齐【索引527,It takes two: On the seamlessness between reward and policy model in rlhf,2024】。由于人类标注者通常偏爱令人愉快和认同的回答,奖励模型无意中学会了将用户满意度与谄媚的认同等同起来。因此,RLHF会直接激励并“加剧谄媚倾向”【索引528,Language models learn to mislead humans via rlhf,2024】。缓解谄媚的研究方向集中在改进奖励信号和训练动态上。一个有前景的方向是开发谄媚感知的奖励模型,这些模型被明确训练来惩罚仅仅模仿用户信念而没有批判性评估的回答。另一个方法是利用AI驱动的反馈,如在 Constitutional AI 中,智能体由一套促进客观性和中立性的原则来引导【索引529,Consensagent: Towards efficient and effective consensus in multi-agent llm interactions through sycophancy mitigation,2025】。

6.2 智能体训练的规模化

计算。近期的进展表明,扩展强化学习微调(RFT)的计算量能直接增强LLM智能体的推理能力。Agent RL Scaling Law研究显示,更长的训练周期系统性地提高了工具使用频率、推理深度和整体任务准确性,突显了为RL训练分配更多计算的预测性好处【索引306,Agent rl scaling law: Agent rl with spontaneous code execution for mathematical problem solving,2025】。类似地,ProRL揭示,长时间的RL训练扩展了推理边界,发现了基础模型无法触及的新解决方案策略【索引531,Prorl: Prolonged reinforcement learning expands reasoning boundaries in large language models,2025】。ProRLv2通过延长训练步数和采用更稳定的优化技术,证明了持续的收益,使得较小的模型在经过广泛的RL训练后,其性能可与大型模型在数学、代码和逻辑基准上相媲美【索引532,ProRL V2 - Prolonged Training Validates RL Scaling Laws,2025】。

模型大小。增加模型容量既带来了希望也带来了陷阱。更大的模型解锁了更大的潜力,但也面临熵崩溃和能力边界变窄的风险,因为RL会使输出分布锐化,朝向高奖励模式,从而限制了多样性【索引533,Rl-plus: Countering capability boundary collapse of llms in reinforcement learning with hybrid-policy optimization,2025】。RL-PLUS等方法通过混合策略和优势函数来解决这个问题,促进了新颖的推理路径。同时,规模化需要大量计算,因此效率至关重要。一种两阶段方法【索引351,How to train your llm web agent: A statistical diagnosis,2025】使用大型教师模型为小型学生模型生成SFT数据,然后通过在线RL进行优化,这种“SFT+RL”设置的性能优于单一方法,并将计算量减半。

数据大小。跨领域扩展RL训练在智能体推理中既带来了协同效应也带来了冲突。在数学、代码和逻辑任务中的跨领域RL显示出复杂的相互作用【索引534,Can one domain help others? a data-centric study on multi-domain reasoning via reinforcement learning,2025】。Guru数据集【索引535,Revisiting reinforcement learning for llm reasoning from a cross-domain perspective,2025】的研究表明,RL的增益与预训练的接触程度相关:数学和代码从迁移中受益,而模拟或逻辑等领域则需要专门的训练。这表明,虽然多领域RL数据可以增强通用推理能力,但必须仔细策划以平衡互补性并减轻任务间的干扰。

效率。LLM后训练的效率是可持续扩展的核心前沿【索引536,A survey on post-training of large language models,2025】。除了暴力扩展,近期研究强调通过后训练配方、方法改进和混合范式来提高RL训练效率。POLARIS【索引537,Polaris: A post-training recipe for scaling reinforcement learning on advanced reasoning models,2025】证明,校准数据难度、采用多样性驱动的采样和延长推理长度能显著提升RL效果。另一项研究提出了动态微调(DFT)【索引539,On the generalization of sft: A reinforcement learning perspective with reward rectification,2025】,表明将RL原则引入梯度缩放可以以最小的额外成本达到或超过先进的RL方法。未来的一个引人注目的方向是探索智能体模型如何从极其有限的数据中获得鲁棒的泛化能力,例如,通过利用原则性的难度校准、元学习动态或信息论正则化来从少量经验中提炼广泛的推理能力。

6.3 智能体环境的规模化

从静态环境到动态、可优化的系统。智能体RL一个新兴但关键的前沿是将训练环境从静态实体转变为动态且可优化的系统。这解决了智能体开发的核心瓶颈:交互式、自适应环境的稀缺性和设计有效奖励信号的困难。随着越来越多的共识认为像ALFWorld和ScienceWorld这样的流行环境不足以训练通用智能体【索引540】,研究正超越仅仅调整智能体的策略。取而代之的是一种共同演化的方法,使用基于学习的方法来适应环境本身。

自动化奖励函数设计和课程生成。一个关键策略是自动化奖励函数设计。这涉及部署一个辅助的“探索者”智能体来生成多样化的交互轨迹数据集,然后用这些数据通过启发式或偏好建模来训练奖励模型。第二个更动态的策略是自动化课程生成,将环境转变为一个主动的教师。这种方法建立了一个反馈循环,其中智能体的性能数据(突显特定弱点)被反馈给一个“环境生成器”LLM。正如EnvGen【索引541】所示,这个生成器随后程序化地调整环境的配置,创建专门针对并弥补智能体缺陷的新任务。这种目标导向的程序内容生成(PCG)确保智能体始终在其“最近发展区”内受到挑战,加速学习并防止过拟合。自动化奖励和自适应课程共同创建了智能体与其环境之间的共生关系,建立了一个可扩展的“训练飞轮”,这对未来自我提升的智能体系统至关重要。

A5 结论

本综述描绘了智能体强化学习(Agentic RL)的兴起,这是一个将LLM从被动文本生成器提升为置身于复杂动态世界中的自主决策智能体的范式。我们首先通过形式化这一概念转变,将表征智能体RL的时序扩展且部分可观察的MDP(POMDP)与传统LLM-RL的单步决策过程区分开来。在此基础上,我们构建了一个全面的双重分类体系来系统地描绘该领域:一个以核心智能体能力(规划、工具使用、记忆、推理、自我提升、感知等)为中心,另一个则围绕它们在多样化任务领域的应用。在整个分析过程中,我们的核心论点是,RL为将这些能力从静态的启发式模块转变为自适应、鲁棒的智能体行为提供了关键机制。通过整合开源环境、基准和框架的版图,我们也为这个新兴领域的未来研究提供了实用的汇编,以奠定基础并加速其发展。