QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

作者/机构: Weizhou Shen∗, Ziyi Yang∗, Chenliang Li∗, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan† (Tongyi Lab, Alibaba Group)

A1 主要贡献

本文介绍了 QwenLong-L1.5，这是一个通过系统的后训练创新实现卓越长上下文推理能力的模型。该模型建立在 Qwen3-30B-A3B-Thinking 之上，并通过内存机制进行增强，以处理超出其物理窗口的长输入任务。其核心贡献是一套完整的后训练方案，统一了数据合成、训练方法和智能体架构。

核心问题与研究目标:
当前长上下文推理领域在后训练阶段存在明显差距，缺乏成熟的端到端系统。具体而言，该领域缺少一套全面的后训练方案，该方案应包括：
1. 一个可扩展的流程，用于合成具有挑战性、高价值的长上下文推理数据。
2. 针对长上下文推理细微差别的强化学习（RL）方法。
3. 为处理超出上下文容量的信息流而设计的智能体架构。

创新点:
本文提出了三大技术突破来解决上述问题：

长上下文数据合成流水线：开发了一个系统化的合成框架，用于生成需要对全局分布的证据进行多跳（multi-hop）定位的挑战性推理任务。该方法通过将文档解构为原子事实及其潜在关系，然后以编程方式组合可验证的推理问题，大规模地创建高质量的训练数据。这显著超越了简单的信息检索任务（如“大海捞针”），旨在实现真正的长程推理能力。
用于长上下文训练的稳定强化学习：为了克服长上下文强化学习中的关键不稳定性，本文引入了以下创新：
- 任务平衡采样与任务特定优势估计：旨在缓解多任务训练中的奖励偏差。
- 自适应熵控制策略优化（Adaptive Entropy-Controlled Policy Optimization, AEPO）：动态调节探索-利用的权衡。
  这些创新使得在逐渐增加长度的序列上进行稳定训练成为可能。
用于超长上下文的内存增强架构：认识到即使扩展的上下文窗口也无法容纳任意长的序列，本文开发了一个内存管理框架。该框架采用多阶段融合的强化学习训练方法，无缝集成了单遍推理（在256K上下文窗口内）与基于内存的迭代处理，以应对超过400万（4M）词元（token）的任务。

主要成果:
* 性能提升：基于 Qwen3-30B-A3B-Thinking，QwenLong-L1.5 在长上下文推理基准测试中平均得分比基线高出9.90分，性能与 GPT-5 和 Gemini-2.5-Pro 等顶级模型相当。
* 超长任务表现：在100万到400万词元的超长任务上，QwenLong-L1.5 的内存-智能体框架比智能体基线高出9.48分。
* 泛化能力：获得的长上下文推理能力也转化为在科学推理、内存工具使用和扩展对话等通用领域的性能提升，表明增强模型的长上下文推理能力为其在扩展信息序列上保持连贯性和推理能力提供了基础性提升。

图1：QwenLong-L1.5 在六个长上下文推理基准上的总体结果。从 Qwen3-30B-A3B-Thinking 开始，QwenLong-L1.5-30B-A3B 实现了平均 9.9 分的提升，超过了 DeepSeek-R1-0528、Gemin2.5-Flash-Thinking、Qwen3-Max-Thinking，并与 Gemini-2.5-Pro 相当。

A3 背景知识

2.1 长上下文强化学习

RL问题公式化。我们将长上下文推理任务构建为一个强化学习（RL）问题。给定一组 $n$ 个文档 $\{c_i\}_{i=1}^n$ 和一个问题 $q$，长上下文RL的目标是优化一个策略模型 $\pi_\theta$ 以生成一个响应 $y$，从而最大化奖励函数 $r_\phi(c, q, y)$。标准目标是最大化经过KL正则化的期望奖励，该方法由Schulman等人提出【索引26，Equivalence between policy gradients and soft q-learning，2017a，arXiv】并由Wan等人采用【索引40，Qwenlong-l1: Towards long-context large reasoning models with reinforcement learning，2025，arXiv】。

$$ \max_{\pi_\theta} \mathbb{E}_{c,q \sim \mathcal{D}, y \sim \pi_\theta(\cdot|c,q)} \left[ r_\phi(c, q, y) \right] - \beta \mathbb{D}_{\text{KL}} \left[ \pi_\theta(y \mid c, q) \parallel \pi_{\text{ref}}(y \mid c, q) \right], $$

其中 $c = \text{Concat}(c_1, c_2, \dots, c_n)$，$D$ 是训练数据集，$\pi_\text{ref}$ 表示一个参考策略，$\beta$ 控制KL正则化的强度，以防止与参考策略产生大的偏差。

2.2 组相对策略优化 (GRPO)

GRPO的采用。对于长上下文输入，注意力机制的二次复杂度使得依赖价值网络进行广义优势估计（GAE）【索引25，High-dimensional continuous control using generalized advantage estimation，2015，arXiv】的PPO算法【索引27，Proximal policy optimization algorithms，2017b，arXiv】在计算上变得不可行。因此，我们采用GRPO【索引28，Deepseekmath: Pushing the limits of mathematical reasoning in open language models，2024，arXiv】来优化方程式(1)中的目标。对于每个输入 $(c, q)$，GRPO首先从旧策略 $\pi_{\theta_\text{old}}$ 中采样一组 $G$ 个候选响应 $\{y_i\}_{i=1}^G$。然后，它通过组级别的奖励z-score归一化来估计优势，从而无需一个单独的价值网络。形式上，目标是：

$$ \mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{c, q \sim \mathcal{D}, \{y_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}(\cdot|c,q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \left( \min(\rho_{i,t}(\theta)A_i, \operatorname{clip}(\rho_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon)A_i) - \beta \mathbb{D}_{\text{KL}}(\pi_{\theta}||\pi_{\text{ref}}) \right) \right], $$

其中 $\rho_{i,t}(\theta) = \frac{\pi_\theta(y_{i,t}|c,q,y_{i,<t})}{\pi_{\theta_\text{old}}(y_{i,t}|c,q,y_{i,<t})}$ 是序列 $i$ 中词元 $t$ 的重要性采样比。组相对优势 $A_i$ 在第 $i$ 个序列的所有词元中共享，并通过对序列级奖励 $\{r_i\}_{i=1}^G$ 进行归一化来计算：</p>

$$A_i = \frac{r_i - \text{mean}\left(\left\{r_k\right\}_{k=1}^{G}\right)}{\text{std}\left(\left\{r_k\right\}_{k=1}^{G}\right)}.$$

优化与简化。为了增强稳定性和实际性能，我们整合了解耦裁剪和动态采样策略优化（DAPO）【索引44，Dapo: An open-source llm reinforcement learning system at scale，2025b，arXiv】中的一项关键技术。具体来说，我们采用一种词元级策略梯度损失，该损失通过组内词元总数来归一化每个词元的贡献。这种方法确保同一组中的每个词元对最终目标的贡献相等，从而防止高质量长响应中有价值词元的学习信号被稀释，同时确保有效惩罚低质量长输出中的不良模式。

目标函数的最终形式。与最近的研究结果一致，即移除KL正则化可以改善探索并加速收敛【索引11，Open-reasonerzero: An open source approach to scaling up reinforcement learning on the base model，2025，arXiv；索引44，Dapo: An open-source llm reinforcement learning system at scale，2025b，arXiv；索引40，Qwenlong-l1: Towards long-context large reasoning models with reinforcement learning，2025，arXiv】，我们设置 $\beta = 0$。此外，我们严格在在线策略（on-policy）设置下操作，每批样本只执行一次梯度更新。这种设计选择意味着正在更新的策略 $\pi_\theta$ 与生成数据的策略 $\pi_{\theta_\text{old}}$ 保持相同。由于重要性采样比 $\rho_{i,t}(\theta)$ 严格等于1，裁剪函数变得不活跃，我们可以从目标中移除它。注意，优势 $A_i$ 与 $t$ 无关，方程式(2)中的训练目标简化为：

$$\mathcal{J}_{\mathrm{GRPO}}(\theta)=\mathbb{E}_{c, q \sim \mathcal{D},\left\{y_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{\text {old }}}}\left[\frac{1}{\sum_{j=1}^{G}\left|y_{j}\right|} \sum_{i=1}^{G} A_{i} \sum_{t=1}^{\left|y_{i}\right|} \rho_{i, t}(\theta)\right]$$

2.3 内存智能体

引入内存智能体范式。为了将推理能力扩展到全注意力机制在计算上不可行的超长上下文，我们采用了Yu等人【索引43，Memagent: Reshaping long-context llm with multi-conv rl-based memory agent，2025a，arXiv】提出的内存智能体范式。如图2所示，该框架将阅读理解任务重构为一个顺序决策过程，而不是单遍推理。

顺序内存处理。给定一个长上下文和一个查询，我们首先将用户查询分解为一个核心问题 $q_\text{core}$ 和格式化指令 $q_\text{inst}$。这种分离防止了格式约束（例如JSON模式）干扰迭代内存更新期间的灵活推理。$q_\text{inst}$ 被保留用于最终生成以确保格式合规，而 $q_\text{core}$ 则指导推理过程以保持对回答问题的专注。文档被划分为块 $\{x_1, \dots, x_K\}$。在每一步 $t$，策略 $\pi_\theta$ 观察当前块 $x_t$ 和历史状态来更新内存 $m_t$。我们通过引入一个显式的规划机制来增强模型：除了内存更新，智能体还生成一个导航计划 $p_t$ 来指导对后续块 $x_{t+1}$ 的注意力和信息提取。状态转换被形式化为：

$(m_t, p_t) \sim \pi_{\theta}(\cdot \mid m_{t-1}, p_{t-1}, x_t, q_{\text{core}}).$

这种循环机制有效地将全局上下文“折叠”成一个紧凑的表示，同时主动规划推理路径。

通过RL进行内存优化。在处理完最后一个块 $x_K$ 后，模型通过将累积的内存 $m_K$ 与原始的格式化指令相结合来生成最终答案 $y$：

$y \sim \pi_{\theta}(\cdot \mid m_{K}, q_{\text{core}}, q_{\text{inst}}).$

策略优化过程。为了优化策略 $\pi_\theta$，我们采用基于轨迹级奖励的GRPO策略。具体来说，对于每个问题 $(q_\text{core}, q_\text{inst})$ 和文档块 $x = \{x_1, \dots, x_K\}$，我们采样 $G$ 个不同的轨迹 $\{\tau_1, \dots, \tau_G\}$。每个轨迹遵循以下模式：在步骤 $t \leq K$，智能体处理块 $x_t$ 以生成内存更新 $m_{i,t}$ 和下一个块的导航计划 $p_{i,t}$；最后生成答案 $y_i$。因此：

$$\tau_i = \{(m_{i,1}, p_{i,1}), \dots, (m_{i,K}, p_{i,K}), y_i\}$$

轨迹级奖励 $R(\tau_i)$ 是根据 $y_i$ 的正确性计算的。我们通过方程式(3)计算轨迹级优势，并将其作为一致的学习目标广播到轨迹中的所有动作。策略根据方程式(4)进行端到端的更新。

A2 方法细节

3 长上下文数据构建

RL数据规模化。对于QwenLong-L1.5，我们对专为长上下文场景设计的RL数据进行了全面的规模化扩展。我们的工作重点是增强数据集的规模、多样性和复杂性。经过严格的多阶段难度过滤、去重和测试集净化流程，我们从最初的42.7k个合成样本中筛选出了14.1k个高质量的训练样本。如表1所示，这与其前身QwenLong-L1‡相比，在规模上有了显著的扩展。此外，我们的数据集涵盖了更广泛的领域和问题类型，包括多跳推理、数值计算、长上下文学习、时序分析、观点分析和对话记忆。如图3所示，我们还通过大幅增加超过64K词元的训练数据量来挑战输入长度的极限，从而提高了训练数据的整体复杂性。

表1：QwenLong-L1和QwenLong-L1.5的RL训练数据特征比较。

图3：QwenLong-L1和QwenLong-L1.5训练样本输入长度分布的比较。

数据合成流程。我们RL数据构建的一个关键方法论决策是采用大规模数据合成流水线。我们观察到，对于复杂的长上下文任务，人类标注者既难以构建需要广泛推理的挑战性问题，也难以在超过32k词元的上下文中详尽地验证答案。为了克服这些限制，我们利用大型语言模型来构建我们的RL数据集。如图4所示，我们的端到端流水线如下进行：

语料库收集：我们汇集了一个庞大而多样的长文档库，来源包括网络爬取和公共开源语料库，随后进行多阶段质量过滤以保留高质量内容。
问答合成：我们采用专门的方法来生成问答对。这里的主要目标是通过增加任务难度并确保必要信息分散在整个长上下文中，而不是容易定位，从而生成具有高学习价值的任务。为此，我们开发了三种技术：从结构化数据（通过知识图谱或知识表）合成任务，以及优化较简单的问题（通过多智能体自进化框架）。随后，我们通过策略性地插入不相关文档，将上下文进一步扩展到我们的目标长度。这一步显著增加了长上下文推理的难度，迫使模型在更大的上下文中识别和利用稀疏分布的信息。
数据验证：最后，所有合成样本都经过两个关键的验证检查，以确保其质量和与长上下文推理的相关性：(1) 知识定位检查：我们暂时移除源文档，测试模型是否仍能回答问题。能够被正确回答的样本（即依赖模型内部知识）被过滤掉，以确保数据专门测试上下文推理。(2) 上下文鲁棒性检查：我们用不相关的文档扩展上下文，并验证模型的答案。任何答案准确率（pass@k）降至零的样本都被丢弃。这确保了问题及其答案对上下文变化具有鲁棒性而非脆弱性。

这个结构化且严格的流水线使我们能够生成一个大规模、高质量且具有挑战性的数据集，该数据集为长上下文RL训练进行了优化。

3.1 语料库收集与预处理

语料库来源。我们数据合成流水线的基础是一个多源、异构的长文档语料库。我们从五个主要类别收集材料，以确保主题和格式的广泛覆盖：

代码仓库：高星级、高质量的开源代码仓库，主要为Python。
学术文献：来自STEM、医学、法律和社会科学等学科的学术论文和教科书，以及来自arXiv的最新AI研究论文。
专业文档：公司年报、财务报表、产品手册、医学教科书和政府出版物。
通用知识与文学：经典小说、侦探故事和全面的维基百科页面。
对话数据：一小部分由大型语言模型模拟的多轮对话，以覆盖会话场景。

预处理过程。收集后，所有文档都经过了细致的基于规则和以LLM为评判者的过滤，以确保高质量、事实准确性和连贯性。这个过程最终产生了一个包含82,175份高质量文档的存储库，总计约92亿词元。这个精心策划的语料库成为我们后续问答合成工作的丰富原材料。

3.2 问答合成

核心策略。我们认识到，培养LLM高级长上下文推理能力的一个关键先决条件是能够捕捉分散的上下文信息，并在多跳和计算密集型问题上进行长程推理。因此，我们的问答合成流水线旨在高效地扩展针对并要求这些能力的训练数据。具体来说，我们的总体策略是首先从长文档中挖掘显著的局部信息及其相互联系，然后利用它们的关联来构建更复杂的问答任务。我们设计了三种不同的方法来处理不同类型的信息和关系结构，对应于三个关键问题类别：

深度多跳推理问答。为了连接文档内分散的信息并捕捉它们之间的长程依赖关系，我们利用知识图谱的优势来挖掘复杂的推理路径，并在此基础上构建具有挑战性的多跳问题。具体来说，我们采用一个由知识图谱引导的框架，通过三阶段过程来合成深度推理问答。首先，知识图谱构建涉及从不同领域的文档中提取三元组以形成初始知识图谱。通过领域级聚合将其扩展为复杂的跨文档知识图谱，并使用实体和关系聚类进一步提炼以确保图的质量。其次，对于推理路径采样，我们通过采样以目标实体为中心的关系相关子图来生成具有挑战性的多跳路径。长程路径使用随机游走（Random Walk）和广度优先搜索（BFS）等策略得出。为了强制进行严格的跨文档信息综合，路径节点被有意地稀疏分布在多个文档中。此外，通过信息扰动来增加路径的复杂性，包括对实体的模糊化处理（例如，时间：“20世纪末以5结尾的年份”或机构：“北京一所著名的理科大学”）。最后，在问题生成中，我们基于提取的路径合成多跳问答对，采用跨越多事实推理、时序推理、因果分析和假设情景的多范式方法。我们通过调节路径长度来严格控制复杂性，并通过盲知识筛选和稀有知识验证来确保质量。

语料库级数值推理问答。跨多个分散文档构建高质量、复杂的数值推理问题通常需要手动编写和验证。为减少对人工的依赖，受Tongyi-Zhiwen团队【索引36，Corpusqa: A 10 million token benchmark for corpus-level analysis and reasoning，2025，https://github.com/Tongyi-Zhiwen/CorpusQA】的启发，我们引入了一个结构化表格数据引擎，旨在规模化地合成语料库级的数值推理问题。该过程始于文档收集，其中非结构化文档经过解析和后续过滤，以确保达到预定的词元量并包含丰富的统计表格。随后，我们执行模式提取以严格形式化底层数据结构和关系模式。这种形式化的结构接着使得数据表聚合成为可能，将分散的内容转换为统一、结构化的跨文档语料库表格。与此同时，通过基于LLM从初始模板进行扩展，生成了多样化的自然语言查询池。这些查询随后在NL2SQL执行阶段被翻译成可执行的SQL语句。通过对聚合后的表格执行SQL，我们精确地模拟了复杂的计算过程，如统计聚合和数值计算，从而得出基准答案。最后，相关的源文档被连接起来形成长上下文问答对。这些问答对专门设计用于处理涉及统计聚合、数值计算和时序推理的复杂场景，这些场景本身就需要高级的全局信息整合和复杂数值推理能力。

通用长上下文推理。对于其他通用的长上下文任务，如观点分析和长上下文学习，我们遵循Yang等人【索引42，Spell: Self-play reinforcement learning for evolving long-context language models，2025b，arXiv】的方法，引入了多智能体自进化（MASE）数据合成框架。该框架通过三个不同智能体的协作，自动合成长上下文任务并提升其难度。此方法从文档中提出简单的种子问题开始，并迭代地增加其复杂性和深度，覆盖了广泛的通用推理挑战。如图5所示，我们的MASE框架迭代进行：给定一个包含 $n$ 个文档的集群 $C = \{c_i\}_{i=1}^n$ 和一个任务类型 $\tau$，提议者智能体首先生成新问题，然后解决者智能体尝试解决它们，最后验证者智能体验证生成的问答对的正确性。

提议者智能体。提议者智能体在一个迭代课程中生成新的问答对。在第一次迭代中，它以所有 $n$ 个原始文档为条件生成一个对 $(q, a)$。在每个经过验证的对创建后，我们将其附加到一个历史缓冲区 $H$ 中，该缓冲区存储与当前文档集对应的有效问答对。在后续迭代中，提议者以原始文档和存储的问答对为条件。这些示例可以防止冗余，并通过提示推动提议者生成比已提出的问题更难、更多样化的问题。

解决者与验证者智能体。然后，解决者智能体尝试根据文档解决生成的问题，我们采用基于规则的方法从响应中提取最终预测 $y$。最后，验证者智能体估计解决者的预测 $y$ 和提议者的参考答案 $a$ 之间的语义等价性。经过验证的任务被存储到RL数据集中，相应的问答对被保存到历史缓冲区。

4 长上下文后训练

我们在4.1节介绍了我们基于强化学习的长上下文推理整体后训练范式。在4.2至4.4节中，我们详细阐述了在长上下文推理强化学习中遇到的挑战，如数据混合的领域不平衡和训练崩溃，并提出了一系列针对长上下文推理RL的优化策略及消融实验结果。

多阶段长度扩展。为了避免因从传统的短输入直接推理突然过渡到长上下文推理所需的多跳定位模式而引起的训练不稳定性，我们采用了QwenLong-L1【索引40，Qwenlong-l1: Towards long-context large reasoning models with reinforcement learning，2025，arXiv】的方法，采用多阶段长度扩展的范式来逐步增强模型的长上下文推理能力。此外，我们观察到随着输入上下文长度的增加，推理内容的长度呈现出普遍的正增长趋势。因此，为了适应不同输入长度任务的输出长度要求，在QwenLong-L1.5中，我们同步扩展了每个RL阶段的最大生成长度。具体来说，我们采用了三种不同的设置：（1）20K词元输入，12K词元输出；（2）60K词元输入，20K词元输出；以及（3）120K词元输入，50K词元输出。在不同RL阶段之间转换时，我们采用了QwenLong-L1的难度感知回顾性采样策略，使用后续阶段的输入输出长度设置对训练数据进行难度过滤。

内存能力集成。如2.3节所述，QwenLong-L1.5还集成了内存管理能力。然而，我们发现将内存管理训练数据和单遍全上下文处理训练数据混合在一起，会对整体RL训练基础设施的效率和模型训练的稳定性造成相当大的损害。因此，我们采用了一种先训练专门专家再进行模型合并的范式。具体来说，经过3个阶段的全上下文RL训练后，我们基于QwenLong-L1.5-RL-Stage3继续进行内存管理RL训练，以获得一个专门从事内存管理的专家模型，并利用SCE算法【索引39，Fusechat: Knowledge fusion of chat models，2024，arXiv】将这个专家模型与QwenLong-L1.5-RL-Stage3合并。然后，我们在合并后的模型上进行第四阶段的全上下文训练，最终获得了QwenLong-L1.5模型。我们的整体训练流程如图6所示。在5.5节中，我们比较了不同阶段模型的性能，发现模型的长上下文推理能力通过多阶段训练不断演进，最终得到一个既具备长上下文能力又具备内存管理能力的模型。

4.2 多任务强化学习

任务平衡采样。如第3节所述，长上下文数据由于其多样的问题类型和上下文领域，相比传统的短输入数据更容易出现分布漂移。如图7所示，与数学和代码等推理任务的传统RL训练数据相比，长上下文数据呈现出多簇分布，不同簇之间存在显著的差异。基于这一特性，对RL训练的一个自然启示是，传统的随机采样器可能导致每个训练批次内部的分布不平衡，从而损害训练的稳定性。这具体表现为基线模型的瞬时熵快速增加（如图8所示），进而阻碍了训练过程的有效扩展。为此，我们在RL框架内实施了若干策略以确保训练样本的平衡：

训练前平衡：在训练开始前，我们对来自不同领域和任务类型的训练数据进行平衡采样。我们首先使用基础模型对每个来源的数据进行预推理。然后，我们根据得到的pass@k分数将数据分层到均匀的箱中。最后，从每个箱中均匀采样相同数量的训练样本。
训练中平衡：在训练过程中，我们将RL框架中的常规随机采样器替换为任务平衡采样器。在每个训练批次的采样过程中，该采样器从五个指定的任务类型中抽取相同数量的样本：多项选择、文档多跳推理、通用阅读理解、对话记忆和语料库级数值计算。

任务特定优势估计。在GRPO中，用于优势估计的组级奖励标准差归一化可能会引入有偏估计【索引18，Understanding r1-zero-like training: A critical perspective，2025a，Conference on Language Modeling (COLM)】。因此，有人提出了批次级归一化来减轻这种偏差【索引10，Reinforce++: A simple and efficient approach for aligning large language models，2025，arXiv；索引19，Part i: Tricks or traps? a deep dive into rl for llm reasoning，2025b，arXiv】。然而，考虑到我们的任务平衡采样策略，这种批次级归一化反过来可能因不同任务间的奖励分布差异而给优势估计引入潜在的噪声。因此，我们在估计优势时采用一种任务感知的方法来计算奖励标准差。具体来说，对于策略模型的第i个响应，我们将方程式(3)中的组级标准差修改为当前训练批次 $B^\text{task}$ 中属于同一任务的所有样本的奖励标准差：

$$A_{i}^{\text {task }}=\frac{r_{i}^{\text {task }}-\operatorname{mean}\left(\left\{r_{k}^{\text {task }}\right\}_{k=1}^{G}\right)}{\operatorname{std}\left(r^{\text {task }} | r^{\text {task }} \in \mathcal{B}^{\text {task }}\right)}, \quad \text { task } \in\{\mathrm{mc}, \text { qa, niah, } \ldots\}$$

与组级方法相比，这种任务级方法减少了由噪声样本引起的偏差。与批次级标准误差估计相比，它隔离了具有密集奖励（例如，奖励范围在0到1之间的NIAH任务）和稀疏奖励（例如，奖励范围在0和1之间的qa或多项选择任务）的任务，从而为不同任务提供了更准确的估计。

图7：三个数据集（Open-R1 Codeforces (Bakouch et al.)、DAPO-Math-17K (Yu et al., 2025b) 和 QwenLong-L1.5 训练集）使用 Qwen3-30B-A3BThinking-2507 嵌入的二维 UMAP 投影 (McInnes et al., 2018)。

表2：多任务强化学习策略的消融实验。

图8：训练动态比较。通过整合任务平衡采样和任务特定优势估计，我们的方法实现了与GRPO基线相似的奖励增长，同时确保了更稳定的训练动态，这通过稳定的熵和受控的响应长度增长得以证明。

实验。我们在Qwen3-4B-Thinking上进行实验，比较我们提出的两种增强方法与传统GRPO。图8展示了训练动态，表2展示了在多个长上下文基准上的评估结果。将任务平衡采样与GRPO结合，相比基线带来了更稳定的熵动态。然而，这种组合仍然表现出响应长度的显著增长，导致整体性能提升有限。当任务平衡采样与任务特定优势估计进一步结合时，训练过程变得更加稳定。这种组合实现了与GRPO基线相当的奖励增长，同时显著稳定了熵并有效控制了响应长度的增加。我们将这种改进归因于两个主要因素：（1）任务特定的标准差估计通常产生一个更大的归一化分母，这可以防止过度的梯度更新。(2) 按任务批次分别计算奖励方差，适应了不同任务间独特的奖励分布，为具有密集奖励和稀疏奖励的任务提供了更准确和隔离的优势估计。这种组合方法相比GRPO基线实现了平均2.55分的提升。值得注意的是，在MRCR这个具有密集奖励的任务上，改进尤为明显。

4.3 负梯度裁剪

动机与方法。与短上下文任务（如数学）不同，长上下文任务要求模型首先在上下文中定位与任务相关的信息，然后进行推理【索引15，Fundamental capabilities and applications of large language models: A survey，2025，ACM Comput. Surv.；索引33，Solopo: Unlocking long-context capabilities in llms via short-to-long preference optimization，2025，arXiv】。这种约束迫使所有响应都必须基于相同的上下文，导致正确和不正确的推理路径之间具有更高的相似性。如表3所示，模型正确与不正确响应之间的短语级重叠（通过ROUGE-L量化）在DocMath上远大于AIME24/25。这种高相似性意味着不正确的响应包含了许多正确的步骤（见图13和图14中的案例），进一步加剧了RL中的奖励信用分配问题【索引34，Reinforcement learning: An introduction，1998，IEEE Trans. Neural Networks；索引1，An information-theoretic perspective on credit assignment in reinforcement learning，2021，ArXiv】，最终导致训练不稳定。

梯度裁剪策略。为了缓解这个问题，我们尝试裁剪由负面响应产生的部分负梯度。首先，如图9所示，在长上下文RL期间，高熵词元与其对应的梯度范数之间存在强相关性。这种现象表明，高熵词元倾向于产生大梯度，这可能增加参数更新的方差并破坏优化稳定性。此外，高熵词元通常反映了推理过程中的探索行为【索引41，Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for llm reasoning，2025b，arXiv】，避免过度惩罚有助于保持模型探索和潜在纠正原先错误路径的能力。基于这些考虑，我们建议裁剪高熵的负面响应或负面响应中的高熵词元来稳定训练过程：

$$ \mathcal{J}_{\mathrm{GRPO}}(\theta)=\mathbb{E}_{c, q \sim \mathcal{D},\left\{y_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{\text {old }}}}\left[\frac{1}{\sum_{j=1}^{G}\left|y_{j}\right|} \sum_{i=1}^{G} A_{i} \sum_{t=1}^{\left|y_{i}\right|} \rho_{i, t}(\theta) \mathbb{I}(t, i)\right], $$

其中 $I(i, t)$ 是一个指示函数，定义为：

$$\begin{aligned} \mathbb{I}(i, t)=\left\{\begin{array}{ll}0 & \text { if } A_{i}<0 \text { and }\left(\left(P_{\text {token_level }} \wedge H(t \mid i)>\tau_{\text {token }}\right.\right. \\& \left.\vee\left(\neg P_{\text {token_level }} \wedge \bar{H}(i)>\tau_{\text {sequence }}\right)\right) \\1 & \text { otherwise }\end{array}\right. \end{aligned}$$

这里，$H(t|i) = - \sum_{v \in V} \pi_\theta(y_{i,t}|c, q, y_{i,<t}) \log \pi_\theta(y_{i,t}|c, q, y_{i,<t})$ 和 $\bar{H}(i) = \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} H(t|i)$ 分别表示响应 $i$（在位置 $t$）的词元级和序列级熵。$\tau_\text{token}$ 和 $\tau_\text{sequence}$ 是它们对应的阈值。$P_\text{token\_level}$ 是一个布尔参数，用于在词元级（True）和序列级（False）裁剪之间进行选择。</p>

表3：短上下文和长上下文设置中正确与不正确响应之间的相似性。

实验。我们在Qwen3-4B-Thinking上进行实验，比较不同裁剪策略对训练稳定性和性能的影响。图10展示了训练过程中的熵动态，表4报告了在多个长上下文基准上的评估结果。在词元级设置中，裁剪高熵或低熵词元都有助于稳定训练，但裁剪低熵词元会产生较低的最终性能，这表明惩罚负面轨迹中的高置信度行为的重要性【索引40，Qwenlong-l1: Towards long-context large reasoning models with reinforcement learning，2025，arXiv】。特别是在MRCR上，裁剪低熵词元比裁剪高熵词元导致了10分的下降。在序列级方法中，两种裁剪策略都能稳定训练并可能提升性能。然而，移除过多的负梯度信号可能导致熵崩溃，减少探索，并最终降低结果。例如，对于低熵序列裁剪，性能在第30步到第40步之间下降了。

结论。考虑到在探索和利用之间取得适当平衡的情况下，序列级裁剪能更好地稳定模型优化并提供额外的性能增益，我们将在4.4节中进一步提出一个基于序列级负梯度裁剪的迭代训练范式。

图9：负向生成中词元熵与梯度范数之间的相关性。Spearman's ρ = 0.96 (p < 0.0001)

（a）词元级。裁剪低熵或高熵词元都会降低模型的整体熵，但表4的结果显示裁剪高熵词元会带来更大的收益。
（b）序列级。裁剪低熵或高熵序列都会降低模型熵，并且熵下降速度比词元级裁剪更快，因为移除了更多的负梯度。
图10：不同负梯度裁剪策略下的熵动态。

表4：负梯度裁剪策略的消融实验

4.4 自适应熵控制策略优化 (AEPO)

AEPO算法。基于4.3节的发现，即负优势与高熵的结合是长上下文RL不稳定的主要来源，我们提出了自适应熵控制策略优化（AEPO）算法。AEPO在在线RL训练期间，根据策略熵动态地屏蔽与负优势相关的生成序列。策略熵量化了策略模型生成词元的内在随机性。给定一个策略模型 $\pi_\theta$ 和一个训练批次 $B$，批次级熵定义为：

$$H(\pi_\theta, \mathcal{B}) = -\frac{1}{|\mathcal{B}|}\sum_{i=1}^{|\mathcal{B}|} \frac{1}{|y_i|}\sum_{t=1}^{|y_i|} \sum_{v \in V} \pi_\theta(v|c, q, y_i,_{<t}) \log \pi_\theta(v|c, q, y_i,_{<t}),$$ <p>其中 $V$ 表示策略模型的词汇空间。

动态熵控制机制。我们为策略建立一个目标熵范围，由下界 $H_\text{low}$ 和上界 $H_\text{high}$ 定义。在训练期间，如果平均批次熵超过 $H_\text{high}$，AEPO会屏蔽所有具有负优势的样本。模型仅使用正样本进行更新，这相当于一种优势加权的在线拒绝采样微调，有效降低了模型的熵。相反，当熵低于 $H_\text{low}$ 时，负梯度被重新引入优化过程，以防止熵崩溃。

效果与稳定性。通过这种动态熵控制，AEPO取得了显著的改进。如表5所示，该方法在Qwen3-4B-Thinking-2507上比GRPO基线平均性能提升了3.29分。如图11所示，当应用于我们的主要模型Qwen3-30B-A3B-Thinking时，AEPO在探索（有负梯度）和利用（无负梯度）之间保持了最佳平衡。这种稳定性对于将RL训练扩展到更多步骤而不出现性能下降至关重要。

A4 实验环境

5.1 实验设置

训练细节
* 模型架构: 基础模型选用 Qwen3-30B-A3B-Thinking-2507 【索引38，Qwen3 technical report，2025a，arXiv】。
* 软件配置: 强化学习框架使用 VeRL 【索引29，Hybridflow: A flexible and efficient rlhf framework，2025，EuroSys】实现。采用混合奖励机制，规则验证失败时使用 gpt-oss-120b 【索引22，gpt-oss-120b & gpt-oss-20b model card，2025，OpenAI】作为外部评判者。
* 训练参数: 采用纯在线策略（on-policy）RL训练，批处理大小为128，学习率为恒定的 2 × 10⁻⁶。生成时，采样温度为0.7，top-p值为0.95。为平衡 rollout 的多样性和计算效率，使用组大小 G = 8。

表5：AEPO算法在Qwen3-4B-Thinking-2507上的消融实验。

评估基准
我们使用一系列成熟的基准来评估模型的长上下文理解和推理能力，分为三类：
* 多项选择: LongBench-V2 【索引3，LongBench v2: Towards deeper understanding and reasoning on realistic long-context multitasks，2025，ACL】，包含503个问题，评估六个方面的深度理解能力。
* 大海捞针 (NIAH): MRCR (Michelangelo) 【索引38，Michelangelo: Long context evaluations beyond haystacks via latent structure queries，2024，arXiv】，测试模型在多轮合成对话中找到并区分多个隐藏信息的能力。
* 多跳问答 (QA):
* Frames 【索引14，Fact, fetch, and reason: A unified evaluation of retrieval-augmented generation，2025，NAACL】，包含824个关于维基百科主题的问题。
* LongBench的五个子集【索引2，LongBench: A bilingual, multitask benchmark for long context understanding，2024，ACL】：2WikiMultihopQA 【索引8，Constructing a multi-hop qa dataset for comprehensive evaluation of reasoning steps，2020，COLING】、HotpotQA 【索引41，Hotpotqa: A dataset for diverse, explainable multi-hop question answering，2018，EMNLP】、Musique 【索引37，Musique: Multihop questions via single-hop question composition，2022，TACL】、NarrativeQA 【索引13，The narrativeqa reading comprehension challenge，2018，TACL】、Qasper 【索引6，A dataset of informationseeking questions and answers anchored in research papers，2021，NAACL】。
* DocMath 【索引45，Docmath-eval: Evaluating math reasoning capabilities of llms in understanding long and specialized documents，2024，ACL】，专注于财务报告中的数值推理。
* CorpusQA 【索引36，Corpusqa: A 10 million token benchmark for corpus-level analysis and reasoning，2025，Tongyi-Zhiwen Team】，挑战模型对分散在大型文档语料库中的证据进行全局推理。

评估配置

模型输入/输出: 所有模型评估时最大输入长度为128K词元，最大生成长度为50K词元。对于超出最大上下文窗口的提示，采用 Bai 等人【索引2，LongBench: A bilingual, multitask benchmark for long context understanding，2024，ACL】的中间截断策略。
生成参数: 所有实验均使用采样温度0.7和top-p值0.95。
评分方法:
- 多项选择任务：报告标准准确率。
- MRCR：报告SequenceMatcher比率。
- 多跳QA任务：报告覆盖精确匹配（CEM）【索引32，R1-searcher++: Incentivizing the dynamic knowledge acquisition of llms via reinforcement learning，2025，arXiv】和LLM-as-a-judge【索引46，Judging llm-as-a-judge with mt-bench and chatbot arena，2023，NeurIPS】中的最大值，后者使用 DeepSeek-V3【索引16，Deepseek-v3 technical report，2024，arXiv】评估模型预测与标准答案的语义等价性。评估提示见表6。

表6：LLM-as-a-judge 用于比较预测答案和标准答案语义等价性的提示模板，修改自 QwenLong-L1【索引40，Qwenlong-l1: Towards long-context large reasoning models with reinforcement learning，2025，arXiv】。

# LLM 评判提示

你是一位验证两个答案是否相同的专家。

你的输入是一个问题和两个答案，答案1和答案2。你需要检查它们是否等价。你的任务是确定两个答案是否等价，而无需尝试解决原始问题。比较答案以验证它们是否代表相同的值或含义，即使它们以不同的形式或符号书写。
你的输出必须遵循以下格式：
1) 提供一个解释，说明为什么答案等价或不等价。
2) 然后以以下形式提供你的最终答案：[[是]] 或 [[否]]
问题：{问题}
答案1：{预测答案}
答案2：{标准答案}

A4 实验结果

5.2 整体长上下文结果

实验内容:
为了评估QwenLong-L1.5的长上下文推理能力，我们将其与顶级的旗舰推理模型（如GPT-5、Gemini-2.5-Pro）以及多种轻量级推理模型（包括其直接基线Qwen3-30B-A3B-Thinking-2507）进行了全面的基准测试。

实验结果 (表7):

整体性能: QwenLong-L1.5-30B-A3B在所有评估基准上取得了71.82的平均分，显著优于其他模型，如DeepSeek-R1-0528（68.67）和Gemini-2.5-Flash-Thinking（68.73），并大幅超越其基线模型（61.92）。其性能与顶级的Gemini-2.5-Pro（72.40）相当，并在MRCR基准上取得了82.99分的当前最佳成绩。
特定任务类别性能: QwenLong-L1.5-30B-A3B的性能增益在需要复杂推理和信息整合的任务上最为显著，这与我们的合成数据生成策略的目标一致。
- 多跳推理: 在Longbench-V2、Frames和LongBench-V1-QA等基准上，模型性能与旗舰模型相当，并超过其他轻量级模型。
- 信息聚合与密集计算: 在CorpusQA这类需要聚合分散信息进行计算或综合的任务上，QwenLong-L1.5-30B-A3B得分81.25，与GPT-5（81.56）的得分具有竞争力。
对长上下文性能的影响: 相比基线模型，QwenLong-L1.5-30B-A3B的平均分提升了9.90分。性能增益主要集中在平均上下文长度较长的基准上，例如MRCR（+31.72，平均36.5K词元）、CorpusQA（+9.69，平均92.8K词元）和LongBench-V2（+6.16，平均85.5K词元）。

分析结论:
* 本文提出的方法使一个30B-A3B模型能够达到以往只有更大规模系统才能达到的性能水平。
* 我们的数据合成流水线有效地增强了模型在长上下文中进行多跳推理的能力，而不仅仅是简单的信息检索。
* 性能提升与上下文长度之间的相关性表明，我们提出的方法在应对长上下文推理的挑战方面特别有效。

表7：长上下文推理基准测试的主要结果。MRCR和CorpusQA∗∗的结果对应于0-128K词元子集。LBV2和LBV1-QA的详细分解在附录A中提供。我们高亮了前1名和前3名的性能。∆表示与基础模型相比的性能增益和下降。

5.3 长上下文增强带来的泛化效益

实验内容:
为了评估在长上下文后训练中获得的技能是否能泛化到其他领域，我们将QwenLong-L1.5-30B-A3B与其基线模型Qwen3-30B-A3B-Thinking-2507进行了比较。评估涵盖三个领域：通用能力（MMLU-PRO、AIME24/25、GPQA-Diamond）、智能体记忆（BFCL-V4记忆子集）和对话记忆（LongMemEval）。

实验结果 (表8):
1. 通用能力: 模型在通用知识和推理任务上避免了性能下降，甚至在推理密集型任务如AIME25（+3.65）和GPQA-Diamond（+0.90）上有所提升。
2. 智能体记忆: 在BFCL-V4基准的大多数子任务上表现出性能提升，特别是在Memory-KV（+5.80）上增益显著。
3. 对话记忆: 在LongMemEval基准上取得了巨大的+15.60分的增益。

分析结论:
* 我们的方法能够诱导正向泛化而非灾难性遗忘。如图12所示，训练数据与这些评估集处于不同的语义空间，表明RL策略有效正则化了训练过程，防止了基础能力的遗忘。
* 长上下文训练中获得的信息整合技能是可迁移的，增强了模型在其他长篇推理任务中保持专注和整合关键信息的能力。
* 在长文档中识别和分析关键信息的能力可以迁移到管理智能体操作的结构化、顺序历史记录中，从而提高其整体效能。
* 在对话记忆上的显著提升直接证实了我们的方法在其预定应用领域的成功。这些发现共同表明，通过我们提出的方法增强长上下文处理能力，可以带来模型认知能力的广泛和根本性改进。

表8：Qwen3-30B-A3B-Thinking-2507和QwenLong-L1.5在通用、智能体记忆和对话记忆基准上的比较。

图12：AIME24/25、GPQA-Diamond、MMLU-Pro和QwenLong-L1.5训练集的二维UMAP投影。

5.4 通过内存管理进行长度扩展

实验内容:
我们在具有挑战性的基准上评估超长上下文性能。具体来说，我们使用MRCR中上下文超过128K词元的子集来测试复杂检索，并使用CorpusQA来衡量对分散信息的多跳定位能力，其中一些实例的长度高达400万词元。我们将QwenLong-L1.5-30B-A3B在我们的内存智能体框架下的表现与其他基于智能体的方法和领先的全上下文模型进行比较。

实验结果 (表9):
1. 性能优势: 在内存智能体框架内，QwenLong-L1.5-30B-A3B在MRCR (128K~512K)子集上得分为34.87，比基线高18.32分。在512K~1M范围内，其得分22.53，同样比基线高出超过18分。
2. 可扩展性: 在4M词元规模的CorpusQA子集上，QwenLong-L1.5-30B-A3B取得了14.29分，展示了其在极端规模下进行推理的能力。
3. 竞争力: 尽管像Gemini-2.5-Pro这样的领先专有模型目前在这些任务上表现最强，但QwenLong-L1.5-30B-A3B优于其他基于智能体的方法，并超过了部分全上下文模型，如Qwen-Flash-Thinking-1M。

分析结论:
* QwenLong-L1.5-30B-A3B学习到的内存压缩和规划能力是有效的，这体现在其在超长上下文任务中与基线相比持续的性能差距上。
* 内存智能体框架在处理当前全上下文方法无法处理的4M词元规模任务时显示出其优势，证明了其鲁棒性和可扩展性。
* 我们的方法具有良好的上下文扩展性，为未来的优化工作奠定了坚实的基础。

表9：在超过128K词元长度的MRCR和CorpusQA子集上的结果。

5.5 渐进式长上下文后训练的性能动态

实验内容:
为了分析我们多阶段后训练策略的贡献，我们在表10中进行了一项消融研究，展示了模型在不同训练阶段后的性能。

实验结果 (表10):
1. 渐进式改进: 随着训练阶段的推进，平均得分持续提高。最终版本的QwenLong-L1.5-30B-A3B（71.82）优于使用朴素GRPO方法训练的基线（67.24）。
2. 第一阶段的重要性: 性能的大部分增益在第一阶段（全上下文RL Stage-1）后就已实现，平均分从61.92提高到69.59。
3. 不同任务的性能演变:
* 对于平均输入长度较短、信息密度较低的基准（如DocMath, Frames, LBV1-QA），性能在第一阶段的提升后保持稳定。
* 对于上下文更长、需要全局信息聚合的任务（如MRCR, CorpusQA），性能从第1阶段到第3阶段持续改善（例如MRCR得分从76.35升至82.69）。

内存能力的演变: 专门的内存RL训练阶段对于进一步提升内存智能体能力是必要的，但这会导致全上下文推理性能的暂时下降。模型合并阶段有效地解决了这一冲突，恢复了全上下文能力，同时进一步提高了内存智能体得分。后续的全上下文RL训练不仅没有降低这种专业能力，反而进一步增强了它。

分析结论:
* 我们提出的RL策略是有效的。第一阶段的合成数据激活了模型对长文档进行定位和推理的基础能力。
* 我们的渐进式长度扩展策略对于发展处理信息密集型任务所需的高级全上下文推理技能是必要的。
* 多阶段训练过程，包括专门的内存训练和模型合并，成功地产生了一个统一的模型，既擅长通过全上下文推理进行直接的长上下文推理，又能作为内存增强的智能体运作。

表10：QwenLong-L1.5-30B-A3B在不同后训练阶段的性能。

A5 结论

本文介绍了QwenLong-L1.5，一套全面的后训练方案，将长上下文推理能力提升至顶级专有模型的水平。我们的核心贡献是一个完整的后训练系统，它统一了可扩展的数据合成流水线、量身定制的强化学习方法论以及一个内存增强的智能体架构。我们的综合评估显示，QwenLong-L1.5的性能与GPT-5和Gemini-2.5-Pro等旗舰模型相当，在需要多跳推理和信息聚合的任务上取得了显著的进步。我们观察到，这些性能提升随着上下文长度和复杂度的增加而逐步扩展，验证了我们数据合成和RL策略的有效性。至关重要的是，我们的研究结果表明，在长上下文训练期间发展的复杂推理技能并非孤立的；它们能有效泛化，提升了在数学、工具使用智能体和长篇对话等领域外基准上的表现。此外，通过多阶段融合范式优化的内存管理框架的集成，将模型的能力扩展到了100万至400万词元的范围，成功地将其单遍推理能力和迭代式内存智能体能力统一到一个连贯的模型中。总的来说，这些结果表明，我们整合了数据、训练和智能体框架的方法，为提升开放LLM的长上下文推理能力提供了一条鲁棒且可扩展的路径。

A7 补充细节

7 局限性与未来工作

虽然QwenLong-L1.5在长上下文推理方面取得了显著进展，但我们确定了几个未来研究的方向。这些机会主要集中在扩展我们的数据合成系统和完善强化学习框架上。

7.1 数据覆盖与合成

扩展数据多样性与任务复杂性。现实世界的应用不仅涉及长输入，还涉及长篇输出，例如章节级的文档修订、从源材料生成报告以及由自主智能体协调的复杂任务。我们当前的数据合成流水线尚未针对这些场景进行优化。一个关键的未来方向是扩展我们的任务分类法，以覆盖这些长输入、长输出问题。此外，我们当前的数据完全是基于文本的。我们计划将我们的框架扩展到包含多模态数据，这对顺序推理提出了一个重大而令人兴奋的挑战。

开发闭环数据飞轮。尽管我们的数据合成流水线是自动化的，但其实际可扩展性受到实际瓶颈的限制，即专有模型的API配额和为生成长上下文数据而服务大型开源模型的计算成本。为减轻这些资源依赖，我们建议开发一个闭环数据飞轮。核心思想是利用一个经过我们训练方法增强的模型，使其自身成为数据生成器。这个强大的长上下文模型随后可以用来创造大量新的问答对，以及至关重要的，它们对应的思维轨迹。这样一个自我改进的循环将大大减少对外部资源的依赖，并以成本效益高的方式加速数据规模化。

7.2 强化学习算法

对思维轨迹的精细化信用分配。如4.3节所讨论，我们发现GRPO的奖励分配可能导致训练不稳定。虽然我们提出的AEPO方法通过梯度裁剪等技术有效缓解了这个问题，但它更多地是作为一个鲁棒的稳定机制，而不是信用分配问题的根本解决方案。核心挑战依然存在：我们当前的方法为一个完整的推理步骤分配一个统一的优势信号。我们未来研究的一个主要焦点将是开发思维轨迹内的词元级信用分配机制。这将使模型能够区分生成的一个想法或计划中每个词元的贡献，从而实现更精确和高效的学习。

奖励模型的复杂化。我们当前的实现依赖于一个结合了简单的基于规则的检查和以LLM为评判者的范式的奖励函数。这种方法对于具有明确正确性标准的任务（如问答）是有效的。然而，对于更开放和主观的任务，其效力会减弱，因为“正确性”是多方面的。为了解决这个问题，一个重要的未来方向是研究和开发更复杂的奖励系统。具体来说，我们旨在探索基于LLM的评分标准奖励模型，其中模型被训练来根据一个详细、多方面的评分标准对响应进行评分。这样的模型可以提供更丰富、更细致的奖励信号，从而在现实世界场景中更好地将智能体的行为与复杂的人类偏好对齐。

A6 附录

A LongBench-V2 和 LongBench-V1 QA 子集的详细结果

为了进一步分析QwenLong-L1.5的性能，我们在表11和表12中提供了其在LongBench-V2和LongBench-V1 QA子集上的详细分解结果。这种细粒度的分析表明，性能增益集中在我们后训练策略所关注的特定领域。

在LongBench-V2上，QwenLong-L1.5在所有子维度上都显示出比其基线有所提升，包括难度和上下文长度。最大的增益出现在中等长度子集（+10.23）。该子集对应于32K~128K词元范围，这是我们合成数据生成的重点区域。这种相关性表明，我们有针对性的数据合成流水线在提升该上下文窗口内的性能方面是有效的。

LongBench-V1 QA的结果显示，QwenLong-L1.5在几个关键推理任务上的性能与Gemini-2.5-Pro相当。在专为多跳推理设计的基准Musique上，+7.00分的提升指明了我们数据合成流水线的有效性。同样，在LongBench-V1套件中上下文最长的基准之一NarrativeQA上，+9.00分的增益表明了在扩展文档上信息整合能力的提升。尽管在Qasper上观察到轻微的性能下降（-3.00），但总体趋势支持了我们的方法论增强了特定推理模式和通用长上下文处理能力的结论。

表11：LongBench-V2子集的详细结果。∆表示与基础模型相比的性能增益。

表12：LongBench-V1 QA子集的详细结果。∆表示与基础模型相比的性能增益和下降。

B QwenLong-L1.5 合成数据案例

本节列出了我们在长上下文数据合成流水线中构建的RL训练数据的详细案例，包括数值计算、长上下文学习、观点分析、多事实推理、假设情景、时序推理、因果分析等。

问题：
根据CECONY截至12月31日的十二个月财务数据，2013年电力部门的总运营费用与2014年燃气部门的总运营费用之间的差额是多少（以百万美元计）？将总运营费用定义为“运营收入”和“运营利润”之间列出的所有明细成本的总和。

答案： 5129

文档：
ABIOMED, INC. AND SUBSIDIARIES 合并财务报表附注——（续）附注12。
股票奖励计划和基于股票的薪酬（续）限制性股票下表总结了截至2009年3月31日的财政年度的限制性股票活动：

|| 2009年3月31日|
||股份数（千股）| 授予日公允价值|
|2008年3月31日的限制性股票奖励|54|$11.52| |授予|666|16.75| |归属|-167|14.65| |没收|-73|17.53| |2009年3月31日的限制性股票奖励|480|$16.77|

截至2009年3月31日，限制性股票奖励的剩余未确认薪酬费用为460万美元。
截至2009年3月31日和2008年，限制性股票奖励的加权平均剩余合同寿命分别为1.8年和2.4年。
2008年5月，向公司的某些高级管理人员和某些高级管理层成员发行了260,001股限制性股票，其中130,002股在达到规定的业绩里程碑后归属。
2008年9月，公司达到了规定的业绩里程碑，所有这些基于业绩的股票均已归属。
与这些股票归属相关，这些员工通过返还价值70万美元的39,935股股票支付了应缴的预扣税。
这些股票已于2009年3月31日记为库存股。
剩余的129,999股限制性股票奖励在授予日起的四年内按比例归属。

[中间文档文本已缩略]

这种结构是我们下面讨论的可报告分部信息的基础。

管理层根据分部营业利润来评估运营分部的业绩，该利润不包括与全球运营和公司费用相关的运营费用、基于股份的薪酬费用、结算、某些索赔、收购、整合和其他费用、存货升值、在研研发冲销和无形资产摊销费用。
全球运营包括研究、开发工程、医学教育、品牌管理、公司法律、财务和人力资源职能，以及美国和波多黎各的制造运营和物流。
公司间交易已从分部营业利润中剔除。
管理层按可报告分部审查应收账款、存货、物业、厂房和设备、商誉和无形资产，不包括美国和波多黎各的制造运营和物流以及公司资产。

问题：
一位开发者正在对一个维度（‘dim’）为3584，前馈中间层大小（‘hidden_size’）为9984的定制Llama类模型进行量化。他们首先使用‘scripts/http://convert_hf_checkpoint.py’转换Hugging Face检查点，然后通过运行‘python http://quantize.py –mode int4-gptq –groupsize 256’来量化生成的‘model.pth‘。考虑到‘convert_hf_checkpoint_llama’中的逻辑、‘WeightOnlyInt4GPTQQuantHandler’的实现以及‘WeightOnlyInt4Linear’模块的定义（假设默认‘inner_k_tiles=8’和‘padding=True’），以下两个层的‘weight’和‘scales_and_zeros’张量在最终量化检查点中保存时的确切最终形状是什么？

组合注意力投影层（‘wqkv’）。
前馈下投影层（‘w2’）。

假设‘find_multiple(k, n)’是一个函数，返回大于等于k的最小n的倍数。

(A) 1. ‘wqkv‘层: - ‘weight‘形状: ‘(1344, 28, 32, 4)‘ - ‘scales_and_zeros‘形状: ‘(14, 10752, 2)‘ 2. ‘w2‘层: - ‘weight‘形状: ‘(448, 78, 32, 4)‘ - ‘scales_and_zeros‘形状: ‘(39, 3584, 2)‘
(B) 1. ‘wqkv‘层: - ‘weight‘形状: ‘(448, 32, 32, 4)‘ - ‘scales_and_zeros‘形状: ‘(16, 3584, 2)‘ 2. ‘w2‘层: - ‘weight‘形状: ‘(448, 80, 32, 4)‘ - ‘scales_and_zeros‘形状: ‘(40, 3584, 2)‘
(C) 1. ‘wqkv‘层: - ‘weight‘形状: ‘(1344, 32, 32, 4)‘ - ‘scales_and_zeros‘形状: ‘(16, 10752, 2)‘ 2. ‘w2‘层: - ‘weight‘形状: ‘(448, 80, 32, 4)‘ - ‘scales_and_zeros‘形状: ‘(40, 3584, 2)‘
(D) 1. ‘wqkv‘层: - ‘weight‘形状: ‘(672, 32, 32, 4)‘ - ‘scales_and_zeros‘形状: ‘(10752, 16, 2)‘ 2. ‘w2‘层: - ‘weight‘形状: ‘(224, 80, 32, 4)‘ - ‘scales_and_zeros‘形状: ‘(3584, 40, 2)‘

答案：
(C)

文档：

### 文件：scripts/prepare.sh
python scripts/download.py --repo_id \$1
### 文件：mixtral-moe/scripts/convert_hf_checkpoint.py
import glob   
import json   
import re   
import sys   
from pathlib import Path   
from typing import Optional   
import torch   
wd = Path(__file__).parent.parent.resolve()   
sys.path.append(str(wd))   
[后续文档文本已缩略]

问题：
这个问题的正确答案是什么：当索菲亚提出布伦达和劳伦斯可能合谋杀害亚里斯蒂德时，查尔斯认为这个推论“有点牵强”，原因如下：选项：

(A) 布伦达同情劳伦斯。
(B) 布伦达对财富和舒适生活有心理上的渴望。
(C) 索菲亚的家人对布伦达不公平。
(D) 布伦达非常害怕。

答案：
(C)

文档：
“谁有动机？”“没有人——没有人会想杀他！”“您需要律师在场吗？”塔弗纳问道。“我没有。我也不需要。我没有什么可隐瞒的——什么都没有……”“您应该知道，您说的话可以作为证据？”

“我是无辜的。我发誓——我是无辜的。”

“我没有暗示任何事情。”

这时，塔弗纳停顿了一下，换了个话题。“列奥尼迪斯的妻子比她丈夫年轻得多，不是吗？”

“我——我想是的——我是说，他们年龄相差不少。”

“她有时一定感到非常孤独。”

劳伦斯·布朗没有回答，只是用舌头舔了舔干燥的嘴唇。

“有一个同龄的伴侣肯定会让她非常高兴吧？”

“我——我不是——我是说——我不知道。”

“在我看来，你们俩产生相互依赖是很自然的。”

年轻人激烈地抗议道。

“不，根本不是！没有那样的事！我知道你在想什么，但根本没有！列奥尼迪斯太太一直对我很好——我非常尊敬她——但仅此而已——没有别的——太荒谬了，太荒谬了！我不会杀任何人——更不用说做换药之类的事了。我非常敏感，容易激动。我——我甚至无法想象有杀人的念头——分配员很清楚这一点——我的宗教禁止杀戮。他们让我去医院锅炉房工作——工作太累了——我跟不上——所以他们让我当家教。我尽力教尤斯塔斯和约瑟芬——约瑟芬很聪明，但有点难教。这里的每个人都对我很好——列奥尼迪斯先生、列奥尼迪斯太太和伊迪丝·德·哈弗兰小姐都是好人。现在发生了这么可怕的事……你却怀疑我！”

塔弗纳探长用一种冷漠的表情看着他。

“我没那么说，”他告诉布朗。

“但你那么想了。我知道你那么想了！他们都那么想！我能从他们的眼神里看出来。我——我不能再跟你谈下去了。我感觉不舒服。”

他匆忙地走出了阅览室。塔弗纳慢慢地转过头看着我。

“你觉得他怎么样？”

“他吓坏了，”我回答。

“我的意思是，你认为他是凶手吗？”

“如果你问我，”兰姆侦探插话道，“我会说他没有那个胆量。”

“他不会用东西砸人的头或者开枪打人，”总督察插话道，“但这种犯罪应该是可以做到的，对吧？只要摆弄几个药瓶……这只是帮助一个老人无痛地离开这个世界。”

“一种简单实用的安乐死方法！”兰姆侦探督察评论道，“尘埃落定后，他甚至可能娶到一个继承了十万英镑免税遗产的女人。那个女人已经有大约那个数额的资产，还有一些大的红蓝宝石。这绝对值得一试。”“但这只是猜测和推测！”塔弗纳叹了口气，“我确实试着吓唬他，但这证明不了什么。即使他是无辜的，他也会被吓成这样。事实上，我不认为是他干的。我更怀疑那个女人——但我不知道她为什么没有扔掉或洗掉那个胰岛素瓶。”“管家说他们关系很亲密。”

“有证据吗？”

“她是从列奥尼迪斯太太给他端咖啡时，列奥尼迪斯先生看她的眼神判断出来的。”
“这可不能拿到法庭上！还有别的吗？”
[后续文档文本已缩略]

问题：
请确定一位来自另一个游戏系列的角色，其服装在最后一部《刺客信条》中作为可解锁的外观道具出现，而该游戏的其中一位原创者曾担任创意总监。这部作品的直接前作是一款可以在2014年育碧设定在芝加哥的游戏中看到角色们正在玩的游戏。而这款以芝加哥为背景的游戏，又包含一个涉及Abstergo娱乐公司虚构CEO的支线任务，该角色首次出现在一个以海盗黄金时代为中心的作品中，其叙事发生在与阿诺·多里安的冒险同时发布的游戏事件之前。

答案： 雷电（Raiden）。

推理链： (阿诺·多里安)-[是...的主角]-(刺客信条：大革命)-[与...同时发布]-(刺客信条：叛变)-[故事设定在...事件之间]-(刺客信条IV：黑旗)-[...中首次引入]-(奥利维尔·加诺)-[包含关于...的支线任务]-(看门狗)-[...中的角色在玩]-(刺客信条II)-[是...的续作]-(刺客信条)-[由...创作]-(帕特里斯·德西莱)-[曾担任...的创意总监]-(刺客信条：兄弟会)-[包含...的服装]-(雷电)

文档：
文档1：
标题：刺客信条
内容：刺客信条是一个历史动作冒险视频游戏系列和媒体特许经营权，由育碧发行，主要由其工作室育碧蒙特利尔使用Anvil游戏引擎及其更高级的衍生产品开发。该系列由帕特里斯·德西莱、婕德·雷蒙德和科里·梅创作，描绘了为和平与自由意志而战的刺客兄弟会与渴望通过秩序和控制实现和平的圣殿骑士团之间一场虚构的千年斗争。

文档2：
标题：Game of Throw-ins
内容：Game of Throw-ins是爱尔兰作家保罗·霍华德于2016年出版的书，是罗斯·奥卡罗尔-凯利系列的第十六部小说。
书名指的是电视剧《权力的游戏》和橄榄球中的界外球。
==情节==
罗斯加入了一支苦苦挣扎的Seapoint橄榄球队。罗南与一个竞争对手的《爱/恨》旅游运营商展开地盘争夺战。奥诺爱上了一个长得像贾斯汀·比伯的人。菲奥努拉正在嫁给一个92岁的亿万富翁。…

[N份完整文档已缩略]

文档N：
标题：西雅图无核
内容：西雅图无核是爱尔兰作家保罗·霍华德于2015年出版的书，是罗斯·奥卡罗尔-凯利系列的第十五部小说。
书名指的是1993年的电影《西雅图夜未眠》。
==情节==
罗斯的父亲要去阿根廷寻找他失踪的女儿埃里卡。罗斯正在应对菲昂的新个性，与女儿为敌，当他被发现写下“去他妈的清单”时，这对索查来说是最后一根稻草。她坚持罗斯去做输精管结扎手术。
…

问题：
设想一个假设情景：一部在18世纪中叶出版并对启蒙思想家的观点产生重要影响的综合性哲学史，选择强调了1693年的一个事件，即一位著名的英国博学家遭受了神经衰弱，并向他的一位杰出的哲学家朋友发送了疯狂、指责性的信件。如果这部有影响力的文本成功地将这位博学家主要描绘成一个精神不稳定的人物，那么在他纪念碑的石棺铭文上（该纪念碑在他去世13年后完成，早于该书出版），哪个特定的拉丁短语会与这种历史描绘形成最直接和讽刺的矛盾？

答案： Qui, animi vi prope divinâ. (意为：他以近乎神圣的心智力量...)

推理链： (约翰·雅各布·布鲁克)-[撰写]-(哲学批判史)-[定位为核心哲学人物]-(牛顿)-[向...发送指责信]-(约翰·洛克)-[影响了]-(艾萨克·牛顿)-[...的纪念碑由...建造]-(牛顿纪念碑)-[...上刻有]-(石棺)

文档：
文档1：
标题：艾萨克·牛顿
内容：艾萨克·牛顿爵士（1643年1月4日[旧历12月25日] – 1727年3月31日[旧历3月20日]）是一位英国博学家，活跃于数学家、物理学家、天文学家、炼金术士、神学家和作家领域。牛顿是科学革命及其后启蒙运动的关键人物。他的著作《自然哲学的数学原理》（Philosophiæ Naturalis Principia Mathematica）于1687年首次出版，实现了物理学的第一次伟大统一，并建立了经典力学。牛顿还对光学做出了开创性贡献，并与德国数学家戈特弗里德·威廉·莱布尼茨共享创立微积分的荣誉，尽管他比莱布尼茨早几年发展了微积分。牛顿对科学方法做出了贡献并加以完善，他的工作被认为是推动现代科学发展的最具影响力的。

文档2：
标题：弗朗西斯·罗纳尔兹
内容：弗朗西斯·罗纳尔兹爵士 FRS（1788年2月21日 – 1873年8月8日）是一位英国科学家和发明家，可以说是第一位电气工程师。他因创造了第一个能远距离工作的电报而被封为爵士。1816年，他在母亲的花园里，在木架之间铺设了8英里（13公里）长的铁丝，并使用静电发生器发送脉冲。他还以在1814年创造了第一台电钟而闻名。

[N份完整文档已缩略]

文档N：
标题：乔治·亚当斯（科学家，卒于1795年）
内容：小乔治·亚当斯（1750–1795）是一位英国科学家、光学仪器制造商和科学作家。他是英国国王乔治三世的数学仪器制造商，接替其父乔治·亚当斯的职位。他还制作地球仪。
大约在1770年，亚当斯发明了幻灯显微镜，这是一种投影显微镜，图像通过一个大型油灯投射到屏幕上，以便于绘制或描摹图像。
在政治上，亚当斯是托利党人，因此在宫廷受到乔治三世的青睐。他于1795年8月14日在南安普敦去世，其业务和国王数学仪器制造商的职位由其弟达德利·亚当斯继承。
…

问题：
计算以下两个年份之间相隔了多少年：一位以在WrestleMania上拥有漫长连胜纪录而闻名的摔角手，为报复上个月的干扰，让对手在一场冠军赛中失利的那一年；以及他首次在该旗舰赛事中面对一位十年后誓言要打破他连胜纪录的对手的那一年。如果将这个时间跨度加到那场初始比赛的年份上，计算出的年份比NFL球队首次也是唯一一次在16场比赛赛制下完成完美常规赛季的年份早了多少年？

答案： 1年。

推理链： (迪塞尔)-[比赛被...干扰]-(送葬者)-[与...比赛]-(Triple H)-[誓言要终结]-(连胜纪录)-[发生在]-(WrestleMania)

文档：
文档1：
标题：完美赛季
内容：完美赛季是指一个体育赛季，包括任何必要的季后赛部分，球队在整个赛季中保持不败且不平。这一壮举在任何团队运动的职业级别都极为罕见，但在美国的大学和学校级别则更常见。完美常规赛季（在美国以外有其他名称）是指不包括任何季后赛的赛季，球队保持不败且不平；它比完整的完美赛季要少见，但仍然是例外。

一个完美赛季可能是一个跨赛季连胜的一部分，甚至是连续完美赛季的连胜。表演赛通常不计入成绩。例如，1972年的迈阿密海豚队（见下文）在季前赛（1972年NFL术语中的“表演赛”）中输掉了三场比赛，但仍被认为拥有一个完美赛季。

文档2：
标题：戈德堡连胜纪录
内容：戈德堡连胜纪录是美国职业摔角手戈德堡在1997年9月22日于WCW Monday Nitro首次亮相后建立的一系列漫长胜利。这场前所未有的连胜纪录对于将戈德堡打造成世界摔角锦标赛（WCW）的突破性明星至关重要，使这位新秀摔角手在他第一场比赛后的一年内就登上了主赛事的地位，并成为其他摔角联盟用来将年轻明星培养成主赛事选手的工具。

[N份完整文档已缩略]

文档N：
标题：连胜纪录（职业摔角）
内容：连胜纪录是职业摔角手送葬者（马克·卡拉威）在WWE年度旗舰赛事WrestleMania上的一系列21场连续胜利。它始于1991年的WrestleMania VII，当时他击败了吉米·斯努卡，最后一场胜利是在2013年的WrestleMania 29对阵CM Punk；送葬者因伤缺席了1994年的WrestleMania X和WrestleMania 2000。总的来说，他在连胜纪录期间击败了18位对手，其中包括与Triple H的三场比赛和与凯恩及肖恩·迈克尔斯的各两场比赛，以及在WrestleMania XIX对阵A-Train和Big Show的一场让步赛。
连胜纪录成为WrestleMania的基石，在该赛事上战胜送葬者被描述为比赢得WWE冠军更伟大的荣誉。多年来，关于谁（如果有人）应该打破连胜纪录的辩论一直存在，许多著名摔角手都发表了评论。在2014年的WrestleMania XXX上，送葬者被布洛克·莱斯纳压制输掉比赛，从而结束了连胜纪录。

问题：
一位1570年代出生于肯特郡的杰出英国医生，虽然自己并非成员，却为一个神秘运动辩护，该运动的宣言在17世纪初在欧洲广泛流传。该运动的思想被认为影响了一个后来推广一位英国哲学家科学观点的思辨性兄弟会组织。这位哲学家反过来又公开批评了一位德国文艺复兴时期的瑞士医生，这位医生也被称为“毒理学之父”。这位被批评的瑞士医生的一项关键贡献是什么具体的、创新的医疗实践，它代表了与当时盛行的体液学说的重大偏离？

答案： 临床诊断和施用高度特异性的药物。

推理链： (乌尔苏拉·舒拉科夫斯卡)-[撰写了关于...的文章]-(Utriusque Cosmi...)-[是...的代表作]-(弗拉德)-[不是]-(玫瑰十字会成员)-[影响了]-(共济会)-[推广了...的观点]-(弗朗西斯·培根)-[诋毁了]-(帕拉塞尔苏斯)-[开创了]-(临床诊断)

文档：
文档1：
标题：帕拉塞尔苏斯
内容：帕拉塞尔苏斯（约1493年 – 1541年9月24日），本名西奥弗拉斯图斯·冯·霍恩海姆（全名菲利普斯·奥里欧勒斯·西奥弗拉斯图斯·邦巴斯图斯·冯·霍恩海姆），是德国文艺复兴时期的一位瑞士医生、炼金术士、平信徒神学家和哲学家。
他是文艺复兴时期“医学革命”多个方面的先驱，强调观察与既有智慧相结合的价值。他被誉为“毒理学之父”。帕拉塞尔苏斯作为一位预言家或占卜师也产生了巨大影响，他的“预言”在17世纪被玫瑰十字会成员研究。帕拉塞尔苏斯主义是早期现代医学运动，受其著作研究的启发。

文档2：
标题：罗伯特·弗拉德
内容：罗伯特·弗拉德，又名Robertus de Fluctibus（1574年1月17日 – 1637年9月8日），是一位杰出的英国帕拉塞尔苏斯派医生，对科学和神秘学都有兴趣。他以占星家、数学家、宇宙学家、卡巴拉学者和玫瑰十字会成员而闻名。
弗拉德以其在神秘哲学方面的汇编而最为人所知。他与约翰内斯·开普勒就科学和赫尔墨斯主义的知识方法进行过著名的观点交流。
==早年生活==
他于1573/4年1月17日出生于肯特郡贝尔斯特德的米尔盖特庄园。他是托马斯·弗拉德爵士的儿子，后者是一位高级政府官员（伊丽莎白一世女王在欧洲的战争财务主管）和国会议员。他的母亲是伊丽莎白·安德鲁斯·弗拉德。在他右肩上方的画中展示了弗拉德祖先的12个纹章拼贴画。他的父系纹章可追溯到Rhirid Flaidd，其名字源于威尔士语，意为血腥或红狼。

[N份完整文档已缩略]

文档N：
标题：罗伯特·弗拉德
内容：罗伯特·弗拉德，又名Robertus de Fluctibus（1574年1月17日 – 1637年9月8日），是一位杰出的英国帕拉塞尔苏斯派医生，对科学和神秘学都有兴趣。他以占星家、数学家、宇宙学家、卡巴拉学者和玫瑰十字会成员而闻名。
弗拉德以其在神秘哲学方面的汇编而最为人所知。他与约翰内斯·开普勒就科学和赫尔墨斯主义的知识方法进行过著名的观点交流。
==早年生活==
他于1573/4年1月17日出生于肯特郡贝尔斯特德的米尔盖特庄园。他是托马斯·弗拉德爵士的儿子，后者是一位高级政府官员（伊丽莎白一世女王在欧洲的战争财务主管）和国会议员。他的母亲是伊丽莎白·安德鲁斯·弗拉ഡ്。在他右肩上方的画中展示了弗拉德祖先的12个纹章拼贴画。他的父系纹章可追溯到Rhirid Flaidd，其名字源于威尔士语，意为血腥或红狼。

C.1 AIME 2025 推理案例分析

如对AIME 2025问题的分析所示，QwenLong-L1.5-30B-A3B与Qwen3-30B-A3B-Thinking相比，在推理能力上表现出显著提升，其特点是假设修正和策略调整。Qwen3-30B-A3B-Thinking陷入了一种涉及局部极值区间的定性微积分方法。由于未能通过解析方法解决问题，它最终诉诸于启发式近似。相比之下，QwenLong-L1.5-30B-A3B识别出“局部最小值”（通常意味着连续的解区间）的标准解释与问题明确要求恰好三个离散值的约束之间的逻辑矛盾。这种差异触发了假设修正，导致模型将条件重新解释为在两个不同点同时达到全局最小值（即 $f(a) = f(b)$）。因此，模型将其策略从图形符号图分析转向代数综合。它构建了多项式恒等式 $P(x) - mx = (x-a)^2(x-b)^2$，从而能够解析求解参数。这一转变凸显了模型在自我修正方面的进化能力及其运用高级代数建模以满足复杂几何约束的能力。

问题 (AIME 2025 id29): 令 $f(x) = \frac{(x-18)(x-72)(x-98)(x-k)}{x}$。存在恰好三个正实数值的k，使得f在恰好两个实数值x处有最小值。求这三个k值的和。

参考答案: 240

C.2 高熵负面响应

为了确定从Eagle Crest、Three Hickory和Centura土地物业销售中收到的总现金收益，以及它们对2011年投资活动提供的净现金的贡献百分比，我们...首先，我们需要确定这三笔销售的现金收益：

1. Eagle Crest销售：...
* 收到的现金 = 销售价格 - 承担的抵押贷款 = $380万 - $240万 = $140万美元 * 这次销售包括一个仓库（一个创收物业），因此在合并现金流量表中的“来自创收物业销售的收益”下报告。 **2. Three Hickory土地销售：**... * 收到的现金 = 销售价格（因为没有提到抵押贷款金额，我们假设收到了全部130万美元）。 * 这是一次纯土地销售，因此在“来自土地销售的收益”下报告。 **3. Centura土地销售：**... * 收到的现金 = 销售价格 - 承担的抵押贷款 = $1300万 - $720万 = $580万美元
* 这是一次纯土地销售，因此在“来自土地销售的收益”下报告。
总现金收益 = $140万（Eagle Crest）+ $130万（Three Hickory）+ $580万（Centura）= $850万美元。

这些数字代表了现金流量表中从这些销售类别中实际收到的现金。
* Three Hickory和Centura（土地）= $1,210千美元 * 总计 = $1,892 + $1,210 = $3,102千美元（$310.2万美元）。

2011年投资活动提供的净现金为$2,128千美元。现在，要找出这些特定物业销售占投资活动提供的净现金的百分比：

Percentage $= \left(\frac{3,102}{2,128}\right) \times 100 = 145.7\%$

这个百分比超过了100%，这是不可能的。错误的原因可能是问题本意是要求...四舍五入到最接近的整数，这是55%。
因此，答案是55。

图13：一个高熵负向生成的例子。这个例子展示了一个高熵的负面响应，其中一个最初正确的推理路径被一个最终错误的自我修正突然推翻，导致了错误的答案。

长上下文RL中多文档问答的高熵负向生成案例

正确响应
我们需要使用一系列涉及所提供文本中各种日期、年龄、数量和事件的步骤来计算一个最终年份。让我们一步一步来分解。

第一步：法国第一部国家反兴奋剂法的年份
...
第二步：丹麦自行车手Knud Enemark Jensen去世时的年龄
...
第三步：世界无药物力量举重联合会（WDFPF）的成立年份
...
第四步：加上Ilona Slupianek被禁赛的月数
...
第五步：从这一年减去，从禁止“boosting”到IPC在2008年北京奥运会上对其使用情况进行调查之间的年数
...
第六步：加上电视剧“The Games Affair”中的反派数量
...

$$2004 + 3 = 2007$$

...
第七步：最后，减去漫画“Asterix at the Olympic Games”的专辑编号
...
现在相减：2007 - 12 = 1995
因此，答案是（1995）。

错误响应
我们需要根据所提供文章中的信息进行一系列计算。让我们开始
图14：一个高熵负向生成的例子。一个高熵负向生成的例子，其中推理过程与正确解决方案的推理过程非常相似。在过程接近尾声时，模型成功地识别出先前的计算错误，但未能纠正它，最终导致了错误的答案。

我们需要计算截至2013年3月31日专利的估计剩余使用年限，使用以下信息：
$图15：一个高熵负向生成的例子。响应在得出正确答案后，在推理过程中频繁出现‘\n\n’，这降低了推理质量，并最终导致了错误的最终答案。$

D 提示模板

# 提示模板：内存智能体更新

<problem>   
{question}   
</problem>   
<previous_memory>   
{memory}   
</previous_memory>   
<section>   
{chunk}   
</section>

你是一个具备信息记忆能力的助手。根据提供的<problem>、<previous_memory>（包括<memory>和<plan>）以及一篇长文章的<section>，你将按原始顺序遍历文章的各个部分。仔细阅读每个部分，并用有助于回答问题的新信息更新内存，同时保留先前内存中的所有相关细节。输出更新后的内存后，做一些简单的规划，记录下回答问题所需的计划，以及现有内存。

# [重要提示]

1. 你看不到完整的文章；只专注于信息记忆。在此阶段你不需要直接回答<problem>。
2. 确保内存是自包含的——即最终的内存本身，无需额外上下文，就应包含足以完全回答<problem>的信息。
3. 认识到<previous_memory>.<memory>和<previous_memory>.<plan>都可能包含不准确之处或对于当前任务并非最优。因此，• 密切关注<problem>，批判性地评估现有的内存和计划，并根据当前<section>中找到的信息对内存进行适当的更新和调整。• 你的首要指令是服务于<problem>，即使这意味着纠正先前的内存或计划。

. 这是一个严格的单向阅读过程。你不能返回重读之前的部分。因此，• 当你确定要为内存提取信息时，你必须直接、完整地将目标内容整合到<memory>部分。• 不要简单地标记或引用关键信息；确保将完整的相关片段纳入其中。

5. 仔细评估提取的内存信息是否真正服务于<problem>的目标要求。
• 避免被包含相似实体或语义信息但对回答<problem>没有直接贡献的内容误导。
• 优先考虑事实相关性和对整体解决方案的贡献。

# [输出格式示例]

更新后的内存：
<memory>   
（你更新和整合后的内存在此。确保它是自包含的，并且足以回答<problem>。）
</memory>

# <plan>

（你为下一阶段内存提取制定的简要计划，指明你将在后续部分中寻找与<problem>相关的何种类型的信息。）

# [示例结束]

更新后的内存：

# 提示模板：内存智能体最终答案

你收到了一个问题和一份先前的内存。请根据先前的内存回答问题。

<problem> {question} </problem> <memory> {memory} </memory>

你的答案：

PaperCache

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

A1 主要贡献

A3 背景知识

2.1 长上下文强化学习

2.2 组相对策略优化 (GRPO)

2.3 内存智能体

A2 方法细节

3 长上下文数据构建

3.1 语料库收集与预处理

3.2 问答合成

4 长上下文后训练

4.2 多任务强化学习

4.3 负梯度裁剪

4.4 自适应熵控制策略优化 (AEPO)

A4 实验环境

5.1 实验设置

A4 实验结果

5.2 整体长上下文结果

5.3 长上下文增强带来的泛化效益

5.4 通过内存管理进行长度扩展

5.5 渐进式长上下文后训练的性能动态

A5 结论

A7 补充细节

7 局限性与未来工作

7.1 数据覆盖与合成

7.2 强化学习算法

A6 附录

A LongBench-V2 和 LongBench-V1 QA 子集的详细结果

B QwenLong-L1.5 合成数据案例

C.1 AIME 2025 推理案例分析

C.2 高熵负面响应

D 提示模板

💬 评论讨论

QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

A1 主要贡献

A3 背景知识

2.1 长上下文强化学习

2.2 组相对策略优化 (GRPO)

2.3 内存智能体

A2 方法细节

3 长上下文数据构建

3.1 语料库收集与预处理

3.2 问答合成

4 长上下文后训练

4.2 多任务强化学习

4.3 负梯度裁剪

4.4 自适应熵控制策略优化 (AEPO)

A4 实验环境

5.1 实验设置

A4 实验结果

5.2 整体长上下文结果

5.3 长上下文增强带来的泛化效益

5.4 通过内存管理进行长度扩展

5.5 渐进式长上下文后训练的性能动态

A5 结论

A7 补充细节

7 局限性与未来工作

7.1 数据覆盖与合成

7.2 强化学习算法

A6 附录

A LongBench-V2 和 LongBench-V1 QA 子集的详细结果

B QwenLong-L1.5 合成数据案例

C.1 AIME 2025 推理案例分析

C.2 高熵负面响应

D 提示模板

💬 评论讨论

登录

注册

忘记密码

重发验证邮件