文章标题: Search-R1: 通过强化学习训练大语言模型进行推理并利用搜索引擎
作者/机构: Bowen Jin et al. / 伊利诺伊大学厄巴纳-香槟分校，马萨诸塞大学阿默斯特分校，谷歌云AI研究中心

A1 主要贡献

本文旨在解决大型语言模型（LLMs）在处理复杂推理和获取最新外部信息时面临的挑战。现有的方法，如检索增强生成（RAG）或将搜索引擎视为工具的提示方法，通常是次优的，因为模型并未经过优化以学习如何与搜索引擎有效交互。

为应对这些挑战，本文提出了SEARCH-R1，一个新颖的强化学习（RL）框架，它通过以下创新使LLMs能够在其推理过程中自主地与搜索引擎进行交错式交互：
1. 分析了在LLM推理中应用强化学习以改进搜索引擎使用的挑战和视角。本文指出了将搜索引擎集成到RL框架中存在的三个关键挑战：框架集成与稳定性、多轮交错推理与搜索、以及奖励函数设计。
2. 提出了SEARCH-R1框架。这是一个支持LLM直接与搜索引擎进行rollout和优化的新颖RL框架。其核心特性包括：
* 检索Token屏蔽（Retrieved Token Masking）：在计算RL损失时，仅考虑LLM生成的Token，忽略从搜索引擎检索到的Token，从而稳定训练过程。
* 多轮交错推理与搜索：模型能够通过生成特殊的<search>和</search> Token来多次调用搜索引擎，并将检索到的信息（包裹在<information>和</information>中）用于后续的逐步推理（包裹在<think>和</think>中），以解决复杂问题。
* 简单的结果导向奖励函数：采用简单的基于最终答案正确性的奖励函数，避免了设计复杂的过程奖励，并证明了其在搜索-推理场景中的有效性。
3. 进行了系统的实验验证。在七个问答数据集上进行的实验表明，SEARCH-R1的性能显著优于多种基线方法。在相同实验设置下，Qwen2.5-7B和Qwen2.5-3B模型相较于RAG基线分别取得了41%和20%的平均相对性能提升。此外，本文还提供了关于RL方法选择（PPO vs. GRPO）、不同LLM选择（基础模型 vs. 指令微调模型）以及响应长度动态变化的经验性见解。

A3 背景知识

2.1 大型语言模型与检索

尽管大型语言模型（LLMs）【60, A survey of large language models, 2023, arXiv】【45, Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context, 2024, arXiv】【1, Gpt-4 technical report, 2023, arXiv】在推理【10, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv】和编码【9, Deepseek-coder: When the large language model meets programming–the rise of code intelligence, 2024, arXiv】方面展现出卓越的能力，但它们通常缺乏特定领域的知识【35, A study of generative large language model for medical research and healthcare, 2023, NPJ digital medicine】【29, Large language models in finance: A survey, 2023, Proceedings of the fourth ACM international conference on AI in finance】，并且容易产生幻觉【59, Siren’s song in the ai ocean: a survey on hallucination in large language models, 2023, arXiv】。为缓解这些限制，搜索引擎【61, Dense text retrieval based on pretrained language models: A survey, 2024, ACM Transactions on Information Systems】被广泛集成以提供外部信息。主要有两种集成方式：（1）检索增强生成（RAG）【7, Retrieval-augmented generation for large language models: A survey, 2023, arXiv】和（2）将搜索引擎视为工具【39, Toolformer: Language models can teach themselves to use tools, 2023, Advances in Neural Information Processing Systems】。RAG【26, Retrieval-augmented generation for knowledge-intensive nlp tasks, 2020, Advances in neural information processing systems】【58, Inference scaling for long-context retrieval augmented generation, 2024, arXiv】【53, Rag-gym: Optimizing reasoning and search agents with process supervision, 2025, arXiv】通常遵循检索和序贯生成的流程，搜索引擎根据输入查询获取相关信息，然后与查询拼接后输入LLM。然而，这可能面临检索到不相关信息【18, Long-context llms meet rag: Overcoming challenges for long inputs in rag, 2024, The Thirteenth International Conference on Learning Representations】和无法提供足够有用上下文【17, Active retrieval augmented generation, 2023, Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing】的挑战。另一种方法是“搜索即工具”，通过提示或微调使LLM与搜索引擎交互。IRCoT【46, Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions, 2022a, arXiv】和ReAct【56, React: Synergizing reasoning and acting in language models, 2023, International Conference on Learning Representations (ICLR)】使用提示引导迭代推理和搜索引擎调用，而Toolformer【39, Toolformer: Language models can teach themselves to use tools, 2023, Advances in Neural Information Processing Systems】则利用监督微调来增强搜索能力。然而，这些方法依赖于高质量的标注轨迹，难以大规模获取。最近的研究【10, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv】表明，RL仅用结果奖励就能使LLM发展出高级推理技能，但其在搜索引擎调用场景中的潜力仍未被充分探索。

2.2 大型语言模型与强化学习

强化学习（RL）【20, Reinforcement learning: A survey, 1996, Journal of artificial intelligence research】是一种学习范式，代理通过与环境交互并以奖励形式接收反馈来学习做出序贯决策，旨在最大化长期累积奖励【44, Reinforcement learning, 1999, Journal of Cognitive Neuroscience】。Ouyang等人【33, Training language models to follow instructions with human feedback, 2022, Advances in neural information processing systems】通过基于人类反馈的强化学习（RLHF）【22, A survey of reinforcement learning from human feedback, 2023, arXiv】将RL引入LLM调优。该方法首先使用人类偏好数据【25, Rewardbench: Evaluating reward models for language modeling, 2024, arXiv】训练一个奖励模型，然后该模型通过RL（通常是近端策略优化，PPO）来指导策略LLM的调优。然而，PPO涉及多轮LLM优化，实现起来具有挑战性。为了简化基于RL的调优，直接优化方法如直接偏好优化（DPO）【38, Direct preference optimization: Your language model is secretly a reward model, 2023, Advances in Neural Information Processing Systems】和SimPO【32, Simpo: Simple preference optimization with a reference-free reward, 2024, Advances in Neural Information Processing Systems】被提出。LeRet【14, Grounding by trying: Llms with reinforcement learning-enhanced retrieval, 2024, arXiv】也采用了类似方法，训练LLM探索多样化查询以增强信息检索效果。虽然这些方法计算效率高，但存在离策略问题【34, Iterative reasoning preference optimization, 2024, Advances in Neural Information Processing Systems】，且性能不总能与纯RL方法相媲美。替代方案包括组相对策略优化（GRPO）【42, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv】，它通过从组得分中估计基线来消除对评论家模型的需求；以及RLOO【2, Back to basics: Revisiting reinforce style optimization for learning from human feedback in llms, 2024, arXiv】，它引入了一个简化的REINFORCE风格【51, Simple statistical gradient-following algorithms for connectionist reinforcement learning, 1992, Machine learning】优化框架。尽管取得了这些进展，但RL在LLM驱动的搜索引擎交互和推理中的应用在很大程度上仍未被探索。

A2 方法细节

3.1 包含搜索引擎的强化学习

RL目标函数: 我们将利用搜索引擎R的RL目标函数公式化如下：

其中，$ \pi_{\theta} $是策略LLM，$ \pi_{\text{ref}} $是参考LLM，$ r_{\phi} $是奖励函数，$ D_{\text{KL}} $是KL散度度量。$ x $表示从数据集D中抽取的输入样本，$ y $表示与搜索引擎调用结果交错生成的输出，从参考策略$ \pi_{\text{ref}}(y | x) $中采样并从搜索引擎R中检索。与先前主要依赖策略LLM$ \pi_{\theta}(\cdot | x) $生成rollout序列的RL方法【38, Direct preference optimization: Your language model is secretly a reward model, 2023, Advances in Neural Information Processing Systems】【33, Training language models to follow instructions with human feedback, 2022, Advances in neural information processing systems】不同，我们的框架通过$ \pi_{\theta}(\cdot | x; R) $显式地融入了交错检索的推理，这可以看作是$ \pi_{\theta}(\cdot | x) \mathbb{N} R $，其中$ \mathbb{N} $表示交错的检索与推理。这使得在需要外部信息检索的推理密集型任务中能进行更有效的决策。rollout过程的图示和公式1的解释在3.2节和附录A中提供。我们的方法建立在两种成熟的策略梯度RL方法之上：近端策略优化（PPO）【41, Proximal policy optimization algorithms, 2017】和组相对策略优化（GRPO）【42, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv】【10, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv】，利用它们各自的优势来优化检索增强的推理。

图1：使用搜索引擎进行PPO和GRPO训练（SEARCH-R1）的演示。在rollout期间，LLMs可以与搜索引擎进行多轮交互。

检索Token的损失屏蔽: 在PPO和GRPO中，token级别的损失是针对整个rollout序列计算的。在SEARCH-R1中，rollout序列由LLM生成的token和从外部段落中检索到的token组成。虽然优化LLM生成的token能增强模型与搜索引擎交互和执行推理的能力，但对检索到的token应用相同的优化可能导致意外的学习动态。为了解决这个问题，我们引入了对检索到的token进行损失屏蔽，确保策略梯度目标仅在LLM生成的token上计算，从而将检索到的内容从优化过程中排除。这种方法在稳定训练的同时，保留了搜索增强生成的灵活性。

含搜索引擎的PPO: 近端策略优化（PPO）【41, Proximal policy optimization algorithms, 2017】是一种流行的行动者-评论家RL方法，常用于LLMs【33, Training language models to follow instructions with human feedback, 2022, Advances in neural information processing systems】。对于我们涉及搜索引擎调用的推理场景，它通过最大化以下目标来优化LLMs：

其中$ \pi_{\theta} $和$ \pi_{\text{old}} $分别代表当前和先前的策略模型。$ I(y_t) $是token损失屏蔽操作，如果$ y_t $是LLM生成的token，则$ I(y_t) = 1 $；如果是检索到的token，则$ I(y_t) = 0 $。$ \epsilon $是PPO中为稳定训练而引入的与裁剪相关的超参数。优势估计$ A_t $使用广义优势估计（GAE）【40, Highdimensional continuous control using generalized advantage estimation, 2015, arXiv】，基于未来的奖励$ \{r_{\geq t}\} $和一个学习到的价值函数$ V_{\phi} $。

含搜索引擎的GRPO: 为了提高策略优化的稳定性并避免需要额外的价值函数近似，Shao等人【42, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv】引入了组相对策略优化（GRPO）。GRPO与PPO的不同之处在于，它利用多个采样输出的平均奖励作为基线，而不是依赖于一个学习到的价值函数。具体来说，对于每个输入问题x，GRPO从参考策略$ \pi_{\text{ref}} $中采样一组响应$ \{y_1, y_2, \dots, y_G\} $。然后通过最大化以下目标函数来优化策略模型：

其中$ \epsilon $和$ \beta $是超参数，$ \hat{A}_{i,t} $表示优势，基于每个组内输出的相对奖励计算得出。这种方法避免了在计算$ \hat{A}_{i,t} $时引入额外的复杂性。此外，GRPO不是将KL散度作为奖励函数中的惩罚项，而是通过将训练策略与参考策略之间的KL散度直接添加到损失函数中来进行正则化。在计算KL散度损失$ D_{\text{KL}} $时，也应用了检索token屏蔽。

3.2 带有多轮搜索引擎调用的生成

交错式生成流程: 在本节中，我们描述了LLM响应生成的rollout过程，该过程带有交错的多轮搜索引擎调用，其公式为：$ y \sim \pi(\cdot | x; R) = \pi(\cdot | x) \mathbb{N} R $。我们的方法遵循一个迭代框架，其中LLM在文本生成和外部搜索引擎查询之间交替进行。具体来说，系统指令会引导LLM在需要外部检索时，将其搜索查询封装在两个指定的搜索调用token之间，即<search>和</search>。当在生成的序列中检测到这些token时，系统会提取搜索查询，查询搜索引擎，并检索相关结果。然后，检索到的信息被包裹在特殊的检索token <information>和</information>之间，并附加到正在进行的rollout序列中，作为下一步生成的额外上下文。这个过程会迭代进行，直到满足以下任一条件：（1）达到最大操作次数，或（2）模型生成最终响应，该响应被包裹在指定的答案token <answer>和</answer>之间。完整的工作流程在算法1中概述。

3.3 训练模板

模板结构: 为了训练SEARCH-R1，我们首先构建了一个简单的模板，指导初始LLM遵循我们预定义的指令。如表1所示，该模板以迭代方式将模型的输出结构化为三个部分：首先是推理过程，然后是搜索引擎调用功能，最后是答案。我们有意将约束限制在这种结构格式上，避免任何特定内容的偏见，例如强制进行反思性推理和搜索引擎调用或支持特定的问题解决方法。这确保了模型在RL过程中的自然学习动态是可观察且无偏的。

模板内容: 回答给定的问题。每次获得新信息时，你必须首先在<think>和</think>内进行推理。推理后，如果你发现缺少某些知识，可以通过<search> query </search>调用搜索引擎，它将在<information>和</information>之间返回排名靠前的搜索结果。你可以根据需要搜索多次。如果你发现不需要进一步的外部知识，可以直接在<answer>和</answer>内提供答案，无需详细说明。例如，<answer> xxx </answer>。问题：[question]。

3.4 奖励建模

基于结果的奖励函数: 奖励函数作为主要的训练信号，指导RL中的优化过程。为了训练SEARCH-R1，我们采用了一个基于规则的奖励系统，该系统仅包含最终结果奖励，用于评估模型响应的正确性。例如，在事实推理任务中，可以使用基于规则的标准（如精确字符串匹配）来评估正确性：

其中$ a_{\text{pred}} $是从响应y中提取的最终答案，$ a_{\text{gold}} $是基准答案。与Guo等人【10, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv】不同，我们没有引入格式奖励，因为我们学习到的模型已经表现出很强的结构遵循能力。我们将更复杂的格式奖励的探索留给未来的工作。此外，我们遵循Guo等人【10】的做法，避免训练神经奖励模型。这个决定是出于LLM在大规模RL中对特定奖励形式的敏感性，以及重新训练这些模型所带来的额外计算成本和复杂性。

A4 实验环境与结果

实验环境

数据集: 在七个基准数据集上评估SEARCH-R1，分为两类：(1) 通用问答: NQ【24, Natural questions: a benchmark for question answering research, 2019, Transactions of the Association for Computational Linguistics】、TriviaQA【19, Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension, 2017, arXiv】和PopQA【31, When not to trust language models: Investigating effectiveness and limitations of parametric and non-parametric memories, 2022, arXiv】。(2) 多跳问答: HotpotQA【55, Hotpotqa: A dataset for diverse, explainable multi-hop question answering, 2018, arXiv】、2WikiMultiHopQA【12, Constructing a multi-hop qa dataset for comprehensive evaluation of reasoning steps, 2020, arXiv】、Musique【47, Musique: Multihop questions via single-hop question composition, 2022b, Transactions of the Association for Computational Linguistics】和Bamboogle【36, Measuring and narrowing the compositionality gap in language models, 2022, arXiv】。训练数据由NQ和HotpotQA的训练集合并而成。
模型架构: 使用Qwen-2.5-3B (Base/Instruct) 和 Qwen-2.5-7B (Base/Instruct) 模型【54, Qwen2.5 technical report, 2024, arXiv】。附录中还报告了Qwen2.5-14B模型的结果。
硬件配置: 在一个配备8个H100 GPU的单节点上进行训练。
软件配置:
- 知识源: 2018年维基百科转储【21, Dense passage retrieval for open-domain question answering, 2020, EMNLP (1)】。
- 检索器: E5【48, Text embeddings by weakly-supervised contrastive pre-training, 2022, arXiv】。
- 实现细节: 使用vLLM进行高效的LLM rollout。采用完全分片数据并行（FSDP）与CPU offloading以及梯度检查点来优化GPU内存使用。
- 关键参数: 检索段落数设为3。总批大小为512，最大序列长度为4096。PPO和GRPO有各自的学习率和超参数设置（详见附录B）。

实验结果

主要性能比较（表2）
* SEARCH-R1的优越性: SEARCH-R1在所有七个数据集上始终优于强大的基线方法。使用Qwen2.5-7B和Qwen2.5-3B模型，相较于RAG基线分别实现了24%和20%的平均相对性能提升。这些提升在域内（NQ, HotpotQA）和域外（其他数据集）评估中都成立。
* 与无检索RL的比较: SEARCH-R1的性能超过了不使用检索的RL推理训练方法（R1），这符合预期，因为将搜索整合到LLM推理中提供了相关的外部知识，从而提高了整体性能。
* 模型适应性: SEARCH-R1对基础模型和指令微调模型均有效，表明基于结果奖励的RL方法可以成功应用于带搜索的推理场景。
* 模型规模效应: 较大的模型（7B）在学习如何进行搜索方面表现更好，与次优模型（如RAG）相比，其性能差距更大。

表2：主要结果。最佳性能以粗体显示。†/⋆分别代表域内/域外数据集。

不同RL方法的比较：PPO vs. GRPO（表3，图2(a)）
* 收敛速度: GRPO比PPO收敛更快，因为PPO依赖的评论家模型需要预热。
* 训练稳定性: PPO表现出更高的训练稳定性。GRPO在训练多步后可能导致奖励崩溃，而PPO保持稳定。
* 最终性能: 尽管在收敛速度和稳定性上存在差异，两种方法最终达到的训练奖励和性能相当，表明两者都适用于优化SEARCH-R1。但PPO因其稳定性而成为更优选的选择。

表3：SEARCH-R1使用PPO和GRPO在七个数据集上的性能结果。

基础模型 vs. 指令微调LLM（图2(b)）
* 指令微调模型收敛更快，初始性能更高。
* 然而，经过训练后，两种模型的最终训练奖励非常相似。这表明虽然指令微调加速了学习，但RL最终可以弥合性能差距，使基础模型达到相当的水平。

响应长度和有效搜索研究（图2(c)，图2(d)）
* 响应长度: 训练过程中，响应长度呈现出“减少-增加-稳定”的趋势。早期阶段（前100步）长度急剧下降，模型学习消除冗余词。后期阶段，随着模型学会频繁调用搜索引擎，响应长度和训练奖励都显著增加。
* 有效搜索: 随着训练的进行，LLM学会了更频繁地调用搜索引擎。

检索Token损失屏蔽研究（表4）
* 实验证明，对检索到的token应用损失屏蔽可以带来更大的LLM性能提升，减轻了意外的优化效应，并确保了更稳定的训练。与不使用屏蔽的变体相比，使用屏蔽的SEARCH-R1性能始终更优。

表4：有无检索token损失屏蔽的SEARCH-R1性能。使用检索token损失屏蔽训练的LLM性能始终更优。（LLM: Qwen2.5-7b-base; RL: PPO）

图2：(a) PPO vs. GRPO：GRPO通常收敛更快，但在训练一定步数后可能表现出不稳定性，而PPO提供更稳定的优化但收敛速度较慢。(b) 基础 vs. 指令微调LLM研究：指令微调的LLM收敛更快，但两种模型的最终性能非常相似。(c) 响应长度研究：响应长度在整个训练过程中呈现出减少-增加-稳定的趋势，与LLM的整体性能轨迹一致。(d) 有效搜索次数研究：随着训练的进行，LLM学会了更多地调用搜索。

A5 结论

本文介绍了SEARCH-R1，一个新颖的RL框架，使LLMs能够将自我推理与实时的搜索引擎交互交错进行。与依赖大量提示进行多轮检索的类RAG方法或需要大规模监督训练数据的工具使用方法不同，SEARCH-R1通过RL优化LLM的rollout，允许模型自主生成查询并策略性地利用检索到的信息。通过在七个数据集上的广泛实验，我们证明了SEARCH-R1显著增强了LLM处理需要实时外部知识的复杂推理任务的能力。我们的分析也为搜索增强推理的RL训练策略提供了关键见解。展望未来，工作可以探索扩展SEARCH-R1以支持更广泛的搜索策略，包括更复杂的奖励机制、基于不确定性的动态检索调整、与多样化工具集的结合，以及与搜索之外的多种信息源的集成。研究其在多模态推理任务中的适用性也很有前景。

A6 附录

A 包含搜索引擎的强化学习公式

经典RL框架: 训练LLM的经典RL框架公式如下【38, Direct preference optimization: Your language model is secretly a reward model, 2023, Advances in Neural Information Processing Systems】【33, Training language models to follow instructions with human feedback, 2022, Advances in neural information processing systems】:

其中x是提示，y是策略模型$ \pi_{\theta} $生成的响应，$ \pi_{\text{ref}} $是参考模型。$ r_{\phi}(x, y) $量化响应质量，KL散度项约束更新后的策略接近参考模型以保证稳定性。
扩展RL框架: 然而，该公式假设整个输出序列y完全由策略LLM生成，这在我们的设定中不成立。为适应内部推理和外部信息检索的混合行为，我们将RL目标扩展以包含外部搜索引擎R：

在这个修正的目标中，轨迹$ y \sim \pi_{\theta}(\cdot | x; R) $包含了交错的推理步骤和检索内容，反映了LLM与搜索引擎之间的多轮交互。KL散度是在给定提示和检索增强上下文的联合响应分布上计算的，确保学习到的策略即使在存在外部信息时也与参考模型保持一致。

B 实验设置

基线说明: 最近的一些工作如Re2G【8, Re2g: Retrieve, rerank, generate, 2022, arXiv】和RetroLLM【27, Retrollm: Empowering large language models to retrieve fine-grained evidence within generation, 2024, arXiv】探索了复杂的RAG流程，但它们依赖任务特定的工程或重型流程，限制了通用性。本文关注更轻量和通用的方法，因此未将它们作为直接基线。
详细设置:
- PPO设置: 策略LLM学习率1e-6，价值LLM学习率1e-5，训练500步。使用GAE，其中$ \lambda = 1 $和$ \gamma = 1 $。KL散度正则化系数$ \beta $为0.001，裁剪率$ \epsilon $为0.2。
- GRPO设置: 策略LLM学习率1e-6，每个提示采样5个响应。KL散度系数$ \beta $和裁剪率$ \epsilon $与PPO相同。
- 通用设置: 在8xH100 GPU上训练，总批大小512，最大序列长度4096。使用vLLM进行rollout，温度1.0，top-p 1.0。最大操作预算B为4，默认检索top 3段落。
- 评估: 奖励使用精确匹配（EM）计算。若训练发散，则评估最近的稳定检查点；否则使用最终检查点。

C 14B LLM上的主要结果

性能表现: 在Qwen2.5-14B模型上进行的实验结果见表5。SEARCH-R1在所有评估指标上持续优于所有基线方法。此外，观察到增加模型尺寸会带来SEARCH-R1性能的持续提升，凸显了LLM规模缩放在我们方法中的好处。

表5：主要结果。最佳性能以粗体显示。†/⋆分别代表域内/域外数据集。

D 检索Token损失屏蔽研究

稳定性与性能: 为了评估3.1节中提出的检索token损失屏蔽策略的影响，我们在Qwen2.5-3b/7b-base模型上进行了实验。如图3所示，加入屏蔽机制带来了更稳定的优化和更好的模型性能。表6中的量化结果进一步证实，使用损失屏蔽训练的SEARCH-R1始终优于未屏蔽的对应版本。

图3：检索Token损失屏蔽研究
表6：有无检索token损失屏蔽的SEARCH-R1性能。使用检索token损失屏蔽训练的LLM性能始终更优。(RL: PPO)

E 基础 vs. 指令微调LLMs

训练动态: 我们研究了SEARCH-R1在基础和指令微调LLM（Qwen2.5-3B和Qwen2.5-7B）上的训练动态。如图4所示，指令微调模型表现出更快的收敛速度和更高的初始性能。尽管有此早期优势，两种模型类型的最终性能在训练后收敛到相似水平。这些结果表明，虽然指令微调有助于在推理加搜索任务的早期阶段更有效地学习，但强化学习能够弥合性能差距，最终使基础模型达到相当的结果。

图4：SEARCH-R1在基础和指令微调LLM上的研究。指令模型收敛更快，初始性能更好。然而，两种模型的最终性能非常相似。

F PPO和GRPO在SEARCH-R1中的比较

算法对比: 我们评估了SEARCH-R1在PPO和GRPO两种RL算法下的效果。如图5所示，主要观察如下：（1）GRPO收敛更快，因其不依赖需要预热的价值函数（评论家）。（2）PPO训练更稳定，GRPO在长时间训练后会遇到奖励崩溃，而PPO保持稳定。（3）最终性能相当，表明两种方法均有效，但存在收敛速度和稳定性之间的权衡。

图5：SEARCH-R1在四种LLM上使用PPO和GRPO作为基础RL方法的训练动态。GRPO通常收敛更快，但在训练一定步数后可能表现出不稳定性，而PPO提供更稳定的优化但收敛速度较慢。PPO和GRPO实现了相当的最终奖励性能。

G SEARCH-R1训练中检索段落数量的研究

Top-k影响: 我们研究了检索段落数（top-k）对SEARCH-R1训练动态的影响。实验设置k为1、3和5。如图6所示，k=5在初期收敛最快，但在后期奖励下降且不稳定。k=1和k=3表现出更持续的改进，其中k=3在500步后达到最高奖励。表7的评估结果显示k=3的整体性能最佳。推测原因是：k=1召回率低，而k=5引入了更多噪声，可能影响了RL训练，使模型不愿利用不准确的检索内容。

图6：不同检索段落数量下SEARCH-R1的训练动态。(LLM: Qwen2.5-7b-base, RL: PPO)
表7：SEARCH-R1训练中检索段落数量的研究。(LLM: Qwen2.5-7b-base; RL: PPO)

H SEARCH-R1 (GRPO) 训练中的组大小研究

组大小影响: 我们对GRPO中的组大小进行了消融研究，设置组大小为1、3和5。当组大小为1时，GRPO退化为标准的REINFORCE算法【51, Simple statistical gradient-following algorithms for connectionist reinforcement learning, 1992, Machine learning】。如图7所示，更大的组大小通常导致更快的收敛，但也增加了因RL不稳定性而崩溃的风险。表8的评估结果显示，虽然大组能加速收敛，但小组（如size=1）能实现更稳定的训练和更好的泛化能力，这体现在未见任务上表现更优，揭示了学习速度和稳定性之间的权衡。

图7：不同组大小下SEARCH-R1 (GRPO)的训练动态。(LLM: Qwen2.5-7b-base)
表8：SEARCH-R1 (GRPO)在七个数据集上的组大小研究。(LLM: Qwen2.5-7bbase)

I R1与SEARCH-R1的比较：一个案例研究

案例分析: 为了深入了解SEARCH-R1，我们使用Qwen2.5-7B-Base进行案例研究，将其行为与不带搜索引擎的RL（R1）【10, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv】进行比较。结果揭示了以下关键观察：
* 交错推理与检索增强问题分析: SEARCH-R1通过多轮检索进行深度推理，而R1仅依赖模型内部知识。通过整合检索段落，SEARCH-R1使LLM能迭代地完善其推理，从而得出更明智、更准确的响应。
* 通过迭代检索进行自我验证: 我们观察到，在第二轮检索后，LLM已收集到足够信息来回答问题。然而，SEARCH-R1执行了额外的检索步骤来自我验证其结论，进一步增强了对最终答案的信心。这一现象与无检索的LLM推理RL的发现【10】一致，突显了RL即使在搜索增强设置中也能鼓励验证驱动的推理。

问题: Curious是一款女士香水，其代言歌手出生在哪个城市和州？
基准答案: McComb, Mississippi

R1的回答:
<think> 歌手是碧昂丝，她出生在德克萨斯州休斯顿。 </think>
<answer> Houston </answer>

SEARCH-R1的回答:
<think> 我需要找出女士香水“Curious”的代言歌手出生在哪个城市和州。 </think>
<search> Curious香水信息 </search>
<information> 文档1(标题: "Curious (香水)") Curious是布兰妮·斯皮尔斯为伊丽莎白·雅顿代言的一款女士香水，也是布兰妮·斯皮尔斯代言的第一款香水，在其"Fantasy"之前。据报道，斯皮尔斯从这次代言中赚了5200万美元。"Curious"于2004年9月发布，在国际上非常成功。它是2004年百货商店销量第一的香水，并在2005年被香水基金会授予最佳女士香水奖。这款香水是白色花香调。其香调包括路易斯安那木兰、金色安茹梨、莲花、晚香玉、星形茉莉、粉色仙客来、香草浸泡的麝香、檀香和金色木材。伊丽莎白·雅顿... </information>
<think> 我需要找出“Curious”香水背后的歌手布兰妮·斯皮尔斯出生在哪个城市和州。 </think>
<search> 布兰妮·斯皮尔斯出生地 </search>
<information> 文档1(标题: "布兰妮·斯皮尔斯") 2000年代最畅销的女性专辑艺人。2004年，她与伊丽莎白·雅顿公司合作推出了一个香水品牌，销售额超过15亿美元。斯皮尔斯出生于密西西比州的麦库姆，是林恩·艾琳·布里奇斯和詹姆斯·帕内尔·斯皮尔斯的第二个孩子。她的外祖母莉莲·波特尔是英国人（出生于伦敦），斯皮尔斯的一位外曾曾祖父是马耳他人。她的兄弟姐妹是布莱恩·詹姆斯和杰米·林恩。布兰妮出生在圣经地带，那里社会保守的福音派新教是特别强大的宗教影响。斯皮尔斯受洗加入美南浸信会，但后来学习了... </information>
<think> 既然布兰妮·斯皮尔斯出生在密西西比州的麦库姆，我需要找出那是哪个城市和州。 </think>
<search> McComb, Mississippi 位置 </search>
<information> 文档1(标题: "McComb, Mississippi") 麦库姆是美国密西西比州派克县的一座城市，位于杰克逊以南约...。根据2010年人口普查，该市总人口为12,790。它是密西西比州麦库姆都市统计区的主要城市。麦库姆成立于1872年，当时新奥尔良、杰克逊和大哥伦布铁路公司（伊利诺伊中央铁路的前身，现为加拿大国家铁路的一部分）的亨利·辛普森·麦库姆决定将铁路的维修车间从路易斯安那州新奥尔良迁走，以避免该市沙龙的诱惑。铁路公司在派克县购买了土地... </information>
<think> 我已经发现布兰妮·斯皮尔斯出生在密西西比州的麦库姆。既然问题问的是城市和州，我只需要确认州，我从之前的搜索中已经知道了。 </think>
<answer> McComb, Mississippi </answer>

J 更多SEARCH-R1的案例研究

为了更深入地了解训练后LLM的行为和能力，我们对SEARCH-R1进行了额外的案例研究。具体来说，我们分析了使用近端策略优化（PPO）从Qwen2.5-7B-Base微调的模型。

成功案例（表10, 12, 13, 15, 17, 18, 19）:
- 多步推理与自我验证（表10）: 模型能够进行多步推理和搜索，并进行自我验证，最终正确回答问题。
- 单次搜索解决问题（表12）: 如果相关信息能通过一次搜索找到，模型可以轻松回答问题。
- 辅助信息搜索（表13）: 模型能够构建正确的查询来搜索先前搜索未提供的辅助信息。
- 多跳推理（表15）: 在检索到充分且准确的上下文时，模型能轻松回答需要多跳推理的问题。
- 补充信息搜索（表17）: 模型能编写查询以搜索不充分的信息。
- 逐步解决问题（表18）: 即使第一个查询意义不大，模型也能在此基础上逐步构建查询并解决问题。
- 学会停止搜索（表19）: 当发现外部知识源不足以回答问题时，模型学会了停止搜索。
失败案例（表11, 14, 16, 20）:
- 问题分解失败（表11, 16）: 有时模型无法分解复杂问题，或一开始就未能编写正确的查询来分解问题，可能被不相关的搜索段落误导。
- 信息不足或误导（表14, 20）: 当检索到的信息不足或具有误导性时，模型会失败。
  
  附录中的表10至表20提供了这些案例的详细轨迹，此处不一一列出图片。

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning