Hierarchical Reasoning Model

文章标题：分层推理模型
作者/机构：Guan Wang1,†, Jin Li1, Yuhao Sun1, Xing Chen1, Changling Liu1, Yue Wu1, Meng Lu1,†, Sen Song2,†, Yasin Abbasi Yadkori1,†
1Sapient Intelligence, Singapore

A1 主要贡献

核心问题：目前的深度学习模型，特别是大型语言模型（LLMs），其核心架构在计算上是“浅”的，这限制了它们进行复杂推理的能力。它们无法解决需要多项式时间复杂度的算法问题，也不是图灵完备的。尽管“思维链”（Chain-of-Thought, CoT）提示技术被广泛用于增强LLMs的推理能力，但这种方法存在任务分解脆弱、需要大量训练数据且延迟高的问题。此外，简单地堆叠更多层会导致梯度消失问题，而传统的循环架构（RNN）则面临过早收敛和训练时需要反向传播（BPTT）带来的高计算和内存成本。

研究目标：为了克服上述限制，本文旨在设计一种新型的神经网络架构，该架构能够实现显著的计算深度，同时保持训练的稳定性和效率，从而在无需大量数据或CoT监督的情况下，解决复杂的推理任务。

创新点：
本文提出了一种名为分层推理模型（Hierarchical Reasoning Model, HRM）的新型循环架构，其灵感来源于人脑中的分层和多时间尺度处理机制。
1. 分层循环结构：HRM包含两个相互依赖的循环模块：一个用于缓慢、抽象规划的高层模块（H-module）和一个处理快速、细节计算的低层模块（L-module）。这种结构通过一种名为“分层收敛”的过程，避免了标准循环模型的过早收敛问题，从而显著增加了模型的有效计算深度。
2. 高效的训练方法：本文提出了一种一步梯度近似（one-step gradient approximation）方法来训练HRM，该方法无需使用计算和内存密集型的BPTT。其反向传播过程中的内存占用为常数级别（O(1)），相比BPTT的O(T)大大提高，使得模型更具可扩展性和生物学合理性。
3. 自适应计算时间（ACT）：HRM集成了一个自适应停止策略，允许模型根据任务的复杂性动态调整其计算资源，实现了类似人类“快思慢想”的能力。
4. 卓越的小样本学习性能：仅用2700万参数和约1000个训练样本，HRM在没有预训练或CoT监督的情况下，在多个复杂的推理任务上取得了卓越的性能。它在极难的数独谜题（Sudoku-Extreme）和大型迷宫（Maze-Hard）的最优路径寻找任务上达到了近乎完美的准确率，而现有CoT模型在这些任务上完全失败。在衡量通用人工智能能力的关键基准——抽象与推理语料库（ARC）上，HRM也显著超越了参数量和上下文窗口远大于它的模型。

这些结果表明，HRM为开发具有通用计算能力的下一代人工智能推理系统提供了一个有前景的方向。

图1：左图：HRM的灵感来源于大脑中的分层处理和时间分离。它有两个在不同时间尺度上运行的循环网络协同解决任务。右图：仅用约1000个训练样本，HRM（约2700万参数）在归纳基准（ARC-AGI）和具有挑战性的符号树搜索谜题（Sudoku-Extreme, Maze-Hard）上超越了最先进的CoT模型，而在这些任务上CoT模型完全失败。HRM是随机初始化的，它直接从输入解决任务，无需思维链。

图2：复杂推理对深度的必要性。左图：在需要大量树搜索和回溯的Sudoku-Extreme Full任务上，增加Transformer的宽度没有性能增益，而增加深度至关重要。右图：标准架构会饱和，无法从增加的深度中受益。HRM克服了这一根本限制，有效地利用其计算深度实现了近乎完美的准确率。

A3 设计原则

我们提出的HRM模型，其灵感来源于大脑中观察到的三个基本神经计算原则：
* 分层处理：大脑通过皮层区域的层次结构来处理信息。高层区域在更长的时间尺度上整合信息并形成抽象表示，而低层区域则处理更即时、更详细的感觉和运动加工【索引20, John D Murray等，《A hierarchy of intrinsic timescales across primate cortex》，2014年，Nature neuroscience】【索引22, Julia M Huntenburg等，《Large-scale gradients in human cortical organization》，2018年，Trends in cognitive sciences】【索引21, Roxana Zeraati等，《Intrinsic timescales in the visual cortex change with selective attention and reflect spatial connectivity》，2023年，Nature communications】。
* 时间分离：大脑中的这些层次结构在各自固有的不同时间尺度上运行，这体现在神经节律上（例如，慢速的theta波，4–8 Hz，和快速的gamma波，30–100 Hz）【索引30, György Buzsáki，《Gamma, alpha, delta, and theta oscillations govern cognitive processes》，2000年，International Journal of Psychophysiology】【索引31, György Buzsáki，《Rhythms of the Brain》，2006年，Oxford university press】。这种分离使得稳定的高层指导能够引导快速的低层计算【索引32, Anja Pahor和Norbert Jaušovec，《Theta–gamma cross-frequency coupling relates to the level of human intelligence》，2014年，Intelligence】【索引33, Adriano BL Tort等，《Theta–gamma coupling increases during the learning of item–context associations》，2009年，Proceedings of the National Academy of Sciences】。
* 循环连接：大脑具有广泛的循环连接。这些反馈回路能够实现迭代优化，以额外的处理时间为代价，产生更准确、更具上下文敏感性的表示。此外，大脑在很大程度上避免了与BPTT相关的棘手的深层信用分配问题【索引19, Timothy P Lillicrap和Adam Santoro，《Backpropagation through time and the brain》，2019年，Current Opinion in Neurobiology】。

A2 方法细节

HRM模型结构与动态过程。HRM模型由四个可学习的组件构成：一个输入网络$f_I(·; \theta_I)$，一个低层循环模块$f_L(·; \theta_L)$，一个高层循环模块$f_H(·; \theta_H)$，以及一个输出网络$f_O(·; \theta_O)$。模型的动态在一个前向传播过程中展开，该过程包含$N$个高层周期，每个周期包含$T$个低层时间步。我们将一个前向传播的总时间步索引为$i = 1, . . . , N \times T$。模块$f_L$和$f_H$各自维持一个隐藏状态——$f_L$的状态为$z_i^L$，$f_H$的状态为$z_i^H$——它们分别由向量$z_0^L$和$z_0^H$初始化。

HRM的映射流程。HRM将输入向量$x$映射到输出预测向量$\hat{y}$的过程如下。首先，输入$x$通过输入网络被投影到一个工作表示$\tilde{x}$中：

$$\tilde{x}=f_{I}(x ; \theta_{I})$$

在每个时间步$i$，L-模块根据其自身的上一状态、H-模块的当前状态（在整个周期内保持不变）以及输入表示来更新其状态。H-模块每个周期只更新一次（即每$T$个时间步），使用该周期结束时L-模块的最终状态进行更新：

$$\begin{aligned} \begin{aligned} z_{L}^{i} & =f_{L}\left(z_{L}^{i-1}, z_{H}^{i-1}, \tilde{x} ; \theta_{L}\right), \\ z_{H}^{i} & = \begin{cases}f_{H}\left(z_{H}^{i-1}, z_{L}^{i-1} ; \theta_{H}\right) & \text { if } i \equiv 0(\bmod T), \\ z_{H}^{i-1} & \text { otherwise } .\end{cases} \end{aligned} \end{aligned}$$

最后，在$N$个完整周期之后，从H-模块的隐藏状态中提取一个预测$\hat{y}$：

$$\hat{y}=f_{O}(z_{H}^{N T} ; \theta_{O}).$$

这整个$N \times T$时间步的过程构成了HRM的一次前向传播。一个停止机制（本节稍后详述）决定模型是应该终止（此时$\hat{y}$将作为最终预测），还是继续进行额外的前向传播。

分层收敛机制。虽然收敛对于循环网络至关重要，但标准RNN的根本限制在于它们倾向于过早收敛。随着隐藏状态趋于一个不动点，更新的幅度会缩小，这实际上会使后续的计算停滞，从而限制了网络的有效深度。为了保持计算能力，我们实际上希望收敛过程非常缓慢——但设计这种渐进的方式很困难，因为将收敛推得太远会使系统趋于不稳定。

图3：前向残差和PCA轨迹的比较。HRM显示出分层收敛：H-模块稳定收敛，而L-模块在周期内反复收敛，然后被H重置，导致残差出现尖峰。循环神经网络表现出快速收敛，残差迅速接近于零。相比之下，深度神经网络经历梯度消失，显著的残差主要出现在初始（输入）和最终层。

HRM克服过早收敛的设计。HRM通过我们称之为“分层收敛”的过程来明确地对抗这种过早收敛。在每个周期中，L-模块（一个RNN）会稳定地收敛到一个局部均衡点。然而，这个均衡点取决于该周期内提供的高层状态$z_H$。在完成$T$个步骤后，H-模块会整合子计算的结果（即最终的L状态$z_L$）并执行自身的更新。这个$z_H$的更新为L-模块建立了一个新的上下文，实质上是“重启”了其计算路径，并启动了一个向不同局部均衡点的新收敛阶段。

分层收敛的优势。这个过程使得HRM能够执行一系列独特、稳定且嵌套的计算，其中H-模块指导整体的问题解决策略，而L-模块则执行每一步所需的密集搜索或精化。尽管一个标准的RNN可能在$T$次迭代内接近收敛，但分层收敛受益于$N \times T$步的增强有效深度。如图3的经验性展示，这种机制使得HRM既能在多个步骤中保持高计算活动（前向残差）（与标准RNN的活动迅速衰减形成对比），又能享有稳定的收敛性。这转化为在任何计算深度下都具有更好的性能，如图2所示。

近似梯度以替代BPTT。循环模型通常使用随时间反向传播（BPTT）来计算梯度。然而，BPTT需要在前向传播中存储隐藏状态，然后在后向传播中将它们与梯度结合，这对于$T$个时间步需要$O(T)$的内存。这种沉重的内存负担迫使使用更小的批量大小，并导致GPU利用率低下，尤其对于大规模网络。此外，由于在时间上保留完整的历史轨迹在生物学上是不合理的，大脑不太可能实现BPTT【索引19, Timothy P Lillicrap和Adam Santoro，《Backpropagation through time and the brain》，2019年，Current Opinion in Neurobiology】。

单步梯度近似法。幸运的是，如果一个循环神经网络收敛到一个不动点，我们可以通过在该均衡点上单步应用反向传播来避免展开其状态序列。此外，这样的机制在生物学上可能是可行的，仅使用局部学习规则即可实现【索引34, Benjamin Scellier和Yoshua Bengio，《Equilibrium propagation: Bridging the gap between energy-based models and backpropagation》，2016年，Frontiers in Computational Neuroscience】【索引35, Guillaume Bellec等，《A solution to the learning dilemma for recurrent networks of spiking neurons》，2020年，Nature Communications】。基于这一发现，我们提出了HRM梯度的一步近似法——使用每个模块最后一个状态的梯度，并将其他状态视为常数。因此，梯度路径为：输出头 → H-模块的最终状态 → L-模块的最终状态 → 输入嵌入。

近似梯度的优点与实现。上述方法需要$O(1)$的内存，不需要在时间上展开，并且可以很容易地用PyTorch等自动求导框架实现，如图4所示。鉴于每个模块只需要通过其最近的局部突触活动来反向传播误差，这种方法与皮层信用分配依赖于短程、时间局部机制而非全局活动模式重放的观点非常吻合。

图4：上图：带有近似梯度的HRM示意图。下图：在PyTorch中使用深度监督训练的HRM伪代码。

理论基础：深度均衡模型（DEQ）。单步梯度近似在理论上基于深度均衡模型（DEQ）【索引36, Shaojie Bai等，《Deep equilibrium models》，2019年，Advances in Neural Information Processing Systems】的数学原理，该模型利用隐函数定理（IFT）来绕过BPTT。考虑一个理想化的HRM行为，在高层周期$k$中，L-模块重复更新直到其状态$z^L$收敛到一个局部不动点$z^L_\star$。这个不动点在给定当前高层状态$z^H_{k-1}$的情况下，可以表示为：

$$z_L^\star = f_L(z_L^\star, z_H^{k-1}, \tilde{x}; \theta_L).$$

然后，H-模块使用这个收敛的L状态执行一次更新：

$$z_{H}^{k}=f_{H}(z_{H}^{k-1},z_{L}^{\star};\theta_{H})$$

隐函数定理的应用。通过一个合适的映射$F$，高层状态的更新可以写成更紧凑的形式$z^H_k = F(z^H_{k-1}; \tilde{x}, \theta)$，其中$\theta = (\theta_I, \theta_L)$，不动点可以写成$z^H_\star = F(z^H_\star; \tilde{x}, \theta)$。令$J_F = \frac{\partial F}{\partial z^H}$为$F$的雅可比矩阵，并假设矩阵$I - J_F$在$z^H_\star$处是可逆的，并且映射$F$是连续可微的。那么，隐函数定理允许我们在没有显式反向传播的情况下，计算不动点$z^H_\star$相对于参数$\theta$的精确梯度：

$$\frac{\partial z_{H}^{\star}}{\partial \theta}=\left(I-\left.J_{\mathcal{F}}\right|_{z_{H}^{\star}}\right)^{-1} \left.\frac{\partial \mathcal{F}}{\partial \theta}\right|_{z_{H}^{\star}}$$

1步梯度近似的推导。计算上述梯度需要评估和求逆矩阵$(I - J_F)$，这在计算上可能非常昂贵。考虑到诺伊曼级数展开：

$$(I-J_{\mathcal{F}})^{-1}=I+J_{\mathcal{F}}+J_{\mathcal{F}}^{2}+J_{\mathcal{F}}^{3}+\ldots,$$

所谓的1步梯度【索引37, Zhengyang Geng等，《On training implicit models》，2021年，ArXiv】通过仅考虑该级数的第一项来近似，即$(I - J_F)^{-1} \approx I$，从而得到对公式(1)的如下近似：

$$\frac{\partial z_{H}^{*}}{\partial \theta_{H}} \approx \frac{\partial f_{H}}{\partial \theta_{H}}, \quad \frac{\partial z_{H}^{*}}{\partial \theta_{L}} \approx \frac{\partial f_{H}}{\partial z_{L}^{*}} \cdot \frac{\partial z_{L}^{*}}{\partial \theta_{L}}, \quad \frac{\partial z_{H}^{*}}{\partial \theta_{I}} \approx \frac{\partial f_{H}}{\partial z_{L}^{*}} \cdot \frac{\partial z_{L}^{*}}{\partial \theta_{I}} .$$

低层不动点的梯度，$\frac{\partial z_\star^L}{\partial \theta}$和$\frac{\partial z_\star^L}{\partial \theta}$，也可以通过再次应用1步梯度来近似：

$$\frac{\partial z_{L}^{*}}{\partial \theta_{L}} \approx \frac{\partial f_{L}}{\partial \theta_{L}}, \quad \frac{\partial z_{L}^{*}}{\partial \theta_{I}} \approx \frac{\partial f_{L}}{\partial \theta_{I}} .$$

通过将公式(3)代入公式(2)，我们得到了最终简化的梯度。

深度监督与自适应计算时间。在定义我们的损失函数之前，我们必须首先介绍我们提出的方法的两个关键要素：深度监督和自适应计算时间。

深度监督机制。受大脑中周期性神经振荡调节学习发生时间的原则启发【索引38, Katarina Begus和Elizabeth Bonawitz，《The rhythm of learning: Theta oscillations as an index of active learning in infancy》，2020年，Developmental Cognitive Neuroscience】，我们将深度监督机制融入到HRM中，具体如下。

深度监督的训练流程。对于一个数据样本$(x, y)$，我们运行HRM模型的多次前向传播，每次我们称之为一“段”（segment）。设$M$为终止前执行的总段数。对于每一段$m \in \{1, . . . , M\}$，令$z^m = (z_{mNT}^H, z_{mNT}^L)$表示第$m$段结束时的隐藏状态，包含高层和低层状态分量。在每一段$m$，我们按如下步骤应用深度监督：
1. 给定上一段的状态$z^{m-1}$，通过HRM模型的一次前向传播计算下一状态$z^m$及其相关的输出$\hat{y}^m$：

$$(z^m, \hat{y}^m) \leftarrow \text{HRM}(z^{m-1}, x; \theta)$$

2. 计算当前段的损失：

$$L^m \leftarrow \text{LOSS}(\hat{y}^m, y)$$

3. 更新参数：

$$\theta \leftarrow \mathrm{OPTIMIZERSTEP}(\theta, \nabla_{\theta} L^m)$$

深度监督的关键特性。这个过程的关键在于，隐藏状态$z^m$在被用作下一段的输入状态之前，会从计算图中“分离”（detached）。因此，来自第$m+1$段的梯度不会反向传播通过第$m$段，这实际上创建了递归深度监督过程梯度的一步近似【索引39, Shaojie Bai等，《Deep Equilibrium Optical Flow Estimation》，2022年，2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)】【索引40, Zaccharie Ramzi等，《Shine: Sharing the inverse estimate from the forward pass for bi-level optimization and implicit models》，2021年，ArXiv】。这种方法为H-模块提供了更频繁的反馈，并作为一种正则化机制，与更复杂的基于雅可比矩阵的正则化技术相比，在深度均衡模型中表现出更优的经验性能和增强的稳定性【索引39, Shaojie Bai等，《Deep Equilibrium Optical Flow Estimation》，2022年，2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)】【索引41, Shaojie Bai等，《Stabilizing equilibrium models by jacobian regularization》，2021年，International Conference on Machine Learning】。图4展示了深度监督训练的伪代码。

自适应计算时间（ACT）。大脑在自动思维（“系统1”）和审慎推理（“系统2”）之间动态切换【索引42, Daniel Kahneman和P Egan，《Thinking, fast and slow (farrar, straus and giroux, new york)》，2011年】。神经科学证据表明，这些认知模式共享重叠的神经回路，特别是在前额叶皮层和默认模式网络等区域内【索引43, Matthew D Lieberman，《Social cognitive neuroscience: a review of core processes》，2007年，Annu. Rev. Psychol.】【索引44, Randy L Buckner等，《The brain’s default network: anatomy, function, and relevance to disease》，2008年，Annals of the new York Academy of Sciences】。这表明大脑根据任务复杂性和潜在回报动态地调节这些回路的“运行时间”【索引45, Marcus E Raichle，《The brain’s default mode network》，2015年，Annual review of neuroscience】【索引46, Andrew Westbrook和Todd S Braver，《Cognitive effort: A neuroeconomic approach》，2015年，Cognitive, Affective, & Behavioral Neuroscience】。

ACT的实现机制。受上述机制启发，我们在HRM中集成了一个自适应停止策略，使其能够实现“快思慢想”。这种集成利用了深度监督，并使用Q学习算法【索引47, Richard S. Sutton和Andrew G. Barto，《Reinforcement Learning: An Introduction》，2018年，MIT Press】来自适应地决定段的数量。一个Q-head使用H-模块的最终状态来预测“停止”（halt）和“继续”（continue）动作的Q值$\hat{Q}^m = (\hat{Q}_{m_{halt}}, \hat{Q}_{m_{continue}})$：

$$\hat{Q}^m = \sigma(\theta_Q^\top z_H^{mNT}),$$

其中$\sigma$表示逐元素应用的sigmoid函数。停止或继续的动作是使用一个随机化策略来选择的，具体如下。设$M_{max}$为最大段数（一个固定的超参数），$M_{min}$为最小段数（一个随机变量）。$M_{min}$的值是随机确定的：以概率$\epsilon$，它从集合$\{2, \dots, M_{max}\}$中均匀采样（以鼓励更长的思考），以概率$1 - \epsilon$，它被设置为1。停止动作在两个条件下被选择：当段数超过最大阈值$M_{max}$时，或者当估计的停止值$\hat{Q}_{halt}$超过估计的继续值$\hat{Q}_{continue}$且段数至少达到最小阈值$M_{min}$时。

Q-head的更新。Q-head通过Q学习算法进行更新，该算法定义在以下的情节式马尔可夫决策过程（MDP）上。在第$m$段，MDP的状态是$z^m$，动作空间是{停止, 继续}。选择“停止”动作会终止该情节，并返回一个表示预测正确性的二元奖励，即$1\{\hat{y}^m = y\}$。选择“继续”则产生0的奖励，状态转移到$z^{m+1}$。因此，两个动作的Q学习目标$\hat{G}^m = (\hat{G}_{m_{halt}}, \hat{G}_{m_{continue}})$由下式给出：

$$\begin{aligned} \begin{aligned} \hat{G}_{\text {halt }}^m & =\mathbf{1}\left\{\hat{y}^m=y\right\}, \\ \hat{G}_{\text {continue }}^m & = \begin{cases}\hat{Q}_{\text {halt }}^{m+1}, & \text { if } m \geq N_{\max }, \\ \max \left(\hat{Q}_{\text {halt }}^{m+1}, \hat{Q}_{\text {continue }}^{m+1}\right), & \text { otherwise }.\end{cases} \end{aligned} \end{aligned}$$

整体损失函数。我们现在可以定义我们学习过程的损失函数。每个监督段的总体损失结合了Q-head损失和序列到序列损失：

$$L_{\mathrm{ACT}}^{m}=\operatorname{LOSS}\left(\hat{y}^{m}, y\right)+\operatorname{BINARYCROSSENTROPY}\left(\hat{Q}^{m}, \hat{G}^{m}\right)$$

最小化上述损失可以同时实现准确的预测和近乎最优的停止决策。

批量处理。选择“停止”动作会结束监督循环。在实践中，序列是分批处理的，这可以通过将批次中任何已停止的样本替换为来自数据加载器的新样本来轻松处理。

ACT的有效性。图5展示了两种HRM变体的性能比较：一种集成了ACT，另一种采用与ACT的$M_{max}$参数等效的固定计算步数。它表明ACT能根据任务复杂性有效调整其计算资源，在对性能影响最小的情况下，实现了显著的计算节省。

图5：自适应计算时间（ACT）在Sudoku-Extreme-Full上的有效性。(a) 使用ACT的模型与使用固定计算步数（M）的模型所用的平均计算步数。即使最大限制（Mmax）增加，ACT也能保持较低且稳定的平均计算步数。(b) 准确率比较。ACT模型在平均使用显著更少计算步数的情况下，实现了与固定计算模型相当的性能。(c) 推理时可扩展性。使用特定Mmax训练的模型可以在推理时泛化到更高的计算限制，从而提高准确率。例如，一个用Mmax=8训练的模型，在推理时使用Mmax=16运行时，准确率仍会继续提升。

推理时扩展性。一个有效的神经模型应该能够在推理时利用额外的计算资源来提升性能。如图5-(c)所示，HRM通过简单地增加计算限制参数$M_{max}$，无需进一步训练或修改架构，就能无缝地实现推理时扩展。

推理时扩展的应用场景。额外的计算对于需要更深层次推理的任务尤其有效。在数独——一个通常需要长期规划的问题上——HRM表现出很强的推理时扩展性。另一方面，我们发现在ARC-AGI挑战中，额外的计算资源带来的增益很小，因为解决方案通常只需要几次转换。

ACT中Q学习的稳定性。我们ACT机制所依赖的深度Q学习以其不稳定性而闻名，通常需要诸如重放缓冲区和目标网络等稳定技术【索引48, Volodymyr Mnih等，《Playing atari with deep reinforcement learning》，2013年，ArXiv】，而我们的设计中并未包含这些。然而，我们的方法通过模型和训练过程的内在属性实现了稳定性。Gallici等人最近的理论工作【索引49, Matteo Gallici等，《Simplifying deep temporal difference learning》，2025年】表明，如果网络参数有界，训练中加入权重衰减，并实现后归一化层，Q学习可以实现收敛。我们的模型通过其采用RMSNorm（一种层归一化变体）的Post-Norm架构和AdamW优化器满足了这些条件。AdamW已被证明可以解决一个$L_\infty$约束的优化问题，确保模型参数保持在$1/\lambda$的有界范围内【索引50, Shuo Xie和Zhiyuan Li，《Implicit bias of adamw: L inf norm constrained optimization》，2024年，ArXiv】。

架构细节。我们为HRM采用了一个序列到序列的架构。输入和输出都表示为词元序列：$x = (x_1, \dots, x_l)$和$y = (y_1, \dots, y_{l'})$。模型包括一个将离散词元转换为向量表示的嵌入层$f_I$，以及一个将隐藏状态转换为词元概率分布$\hat{y}$的输出头$f_O(z; \theta_O) = \text{softmax}(\theta_O z)$。对于小样本实验，我们用stablemax【索引51, Lucas Prieto等，《Grokking at the edge of numerical stability》，2025年，The Thirteenth International Conference on Learning Representations】替换softmax以提高泛化性能。序列到序列的损失是在所有词元上取平均的，$LOSS(\hat{y}, y) = \frac{1}{l'} \sum_{i=1}^{l'} \log p(y_i)$，其中$p(y_i)$是分布$\hat{y}_i$赋给词元$y_i$的概率。初始隐藏状态$z_0$通过从标准差为1、截断值为2的截断正态分布中采样来初始化，并在整个训练过程中保持固定。

模块实现与优化器。低层和高层循环模块$f_L$和$f_H$都使用具有相同架构和维度的仅编码器Transformer【索引52, Ashish Vaswani等，《Attention is all you need》，2017年，Advances in neural information processing systems】块实现。这些模块接受多个输入，我们使用简单的逐元素相加来组合它们，尽管更复杂的融合技术如门控机制可能会提高性能，这留待未来工作。对于本文中所有的Transformer块——包括基线模型中的——我们都集成了现代LLM（基于Llama 53架构）中的增强功能。这些改进包括旋转位置编码（Rotary Positional Encoding）【索引54, Jianlin Su等，《Roformer: Enhanced transformer with rotary position embedding》，2024年，Neurocomputing】，门控线性单元（Gated Linear Units）【索引55, Noam M. Shazeer，《Glu variants improve transformer》，2020年，ArXiv】，RMSNorm【索引56, Biao Zhang和Rico Sennrich，《Root mean square layer normalization》，2019年，ArXiv】，以及从线性层中移除偏置项。

初始化与优化。此外，HRM和循环Transformer模型都实现了一个Post-Norm架构，其权重通过截断的LeCun正态初始化【索引57, Günter Klambauer等，《Selfnormalizing neural networks》，2017年，Neural Information Processing Systems】【索引58, JAX Developers，《jax.nn.initializers.lecun_normal》，2025年，Google Research】【索引59, Yann LeCun等，《Efficient backprop》，2002年，Neural networks: Tricks of the trade】进行初始化，而缩放和偏置参数则从RMSNorm中排除。所有参数都使用Adam-atan2优化器【索引60, Katie E Everett等，《Scaling exponents across parameterizations and optimizers》，2024年，Forty-first International Conference on Machine Learning】进行优化，这是一种Adam【索引61, Diederik P. Kingma和Jimmy Ba，《Adam: A method for stochastic optimization》，2017年】的尺度不变变体，并结合了包含线性预热的恒定学习率。

A4 实验环境

基准数据集

ARC-AGI挑战赛：该基准通过类似智商测试的谜题来评估通用的流体智力，这些谜题需要归纳推理能力。每个任务提供少量（通常2-3个）输入-输出演示对和一个测试输入，模型有两次机会生成正确的输出网格。ARC-AGI-2版本通过提供更全面、更精细的任务集合，扩展了基准，强调更深的组合推理、多步逻辑、上下文规则应用和符号抽象。
Sudoku-Extreme：这是一个9×9的逻辑谜题。本文构建了一个更具挑战性的数据集Sudoku-Extreme，它不仅包含了如Kaggle和17-clue等相对简单的数据集，还包含了数独社区公认的对人类玩家极具挑战性的谜题。该数据集经过严格的90/10训练-测试集划分，并确保测试集谜题无法通过训练样本的等价变换得到。主实验使用的Sudoku-Extreme包含1000个训练样本，用于小样本学习场景。分析实验则使用完整的Sudoku-Extreme-Full数据集，包含3,831,994个样本。谜题难度通过一个智能数独求解器tdoku所需的搜索回溯次数来衡量，Sudoku-Extreme的平均回溯次数为22次，远高于现有数据集。
Maze-Hard：该任务要求在30×30的迷宫中找到最优路径。实例生成过程遵循Lehnert等人【索引71, Lucas Lehnert等，《Beyond a*: Better planning with transformers via search dynamics bootstrapping》，2024年，First Conference on Language Modeling】的方法，但增加了筛选条件，只保留难度（最短路径长度）超过110的实例。训练集和测试集各包含1000个样本。

模型与硬件

模型架构：HRM模型参数量约为2700万。作为基线的“Direct pred”模型采用了一个与HRM大小相同的8层Transformer架构。所有Transformer模块都集成了现代LLM的改进，如旋转位置编码、门控线性单元和RMSNorm。
硬件配置：论文未明确提及具体的硬件配置（如GPU型号、数量等）。

软件配置

实现：模型训练基于PyTorch框架。
优化器：使用Adam-atan2优化器，配合包含线性预热的恒定学习率。
权重初始化：采用截断的LeCun正态初始化。
数据增强：
- ARC-AGI：对谜题应用平移、旋转、翻转和颜色排列进行增强。
- Sudoku：应用行列带置换和数字置换进行增强。
- Maze：不使用数据增强。

A4 实验结果

主要性能比较

HRM模型均使用随机权重初始化，在各个基准上仅使用输入-输出对进行序列到序列的训练，每个任务约1000个训练样本，且没有预训练或CoT标签。结果如图1所示。

ARC-AGI挑战赛：
- 在ARC-AGI-2上，HRM取得了40.3%的准确率，显著超过了o3-mini-high（34.5%）和Claude 3.7 8K（21.2%）等基于CoT的先进模型。
- 一个有趣的发现是，在ARC-AGI-1上，同样在无预训练条件下直接预测的基线模型“Direct pred”的性能与Liao和Gu【索引73, Isaac Liao和Albert Gu，《Arc-agi without pretraining》，2025年】精心设计的领域特定等变网络相当。而将Transformer架构替换为HRM的分层框架并实施ACT后，性能提升超过两倍。
Sudoku-Extreme 和 Maze-Hard：
- 在这两个需要长推理链条的基准上，HRM与基线方法的性能差距巨大。HRM在Sudoku-Extreme上达到55.6%的准确率，在Maze-Hard上达到74.5%，而所有基线方法几乎都完全失败（0%准确率）。
- 仅有1000个训练样本时，“Direct pred”基线完全无法解决这些问题。但在使用更大的Sudoku-Extreme-Full数据集训练时，“Direct pred”能够解决一些简单的数独谜题，准确率达到16.9%（如图2所示）。
- Lehnert等人【索引71】的研究表明，一个1.75亿参数的大型Transformer模型，在100万个样本上训练后，在30x30迷宫任务上的成功率也很低（使用pass@64评估指标，准确率低于20%）。

中间时间步可视化

为了探究HRM神经网络实际实现了何种底层推理算法，本文对模型在推理过程中的状态轨迹和相应的解的演变进行了可视化分析。具体来说，在每个时间步$i$，通过对当时的高低层状态$(z_i^L, z_i^H)$进行一次初步的前向传播，得到解码后的预测$y_i$，并将其可视化在图7中。

Maze任务：HRM似乎首先同时探索多条潜在路径，随后消除被阻塞或低效的路线，接着构建一个初步的解决方案轮廓，并进行多次迭代优化。
Sudoku任务：策略类似于深度优先搜索，模型似乎会探索潜在的解决方案，并在遇到死胡同时进行回溯。
ARC任务：HRM采用不同的方法，对棋盘进行增量调整，并迭代改进直至找到解决方案。与数独涉及频繁回溯不同，ARC的解决路径更像是一种稳步前进的爬山优化。

结论：这些可视化结果表明，HRM能够根据不同任务的特性，自适应地选择有效的推理策略。

图7：HRM在基准任务上中间预测的可视化。上：Maze-Hard——蓝色单元格表示预测的路径。中：Sudoku-Extreme——粗体单元格表示初始给定的数字；红色高亮表示违反数独约束的单元格；灰色阴影表示与前一时间步相比发生变化的单元格。下：ARC-AGI-2任务——左：提供的示例输入-输出对；右：解决测试输入的中间步骤。

A7 补充细节

与大脑的对应关系

核心神经科学原理。系统神经科学的一个关键原理是，大脑区域的功能多样性——其处理多样化和复杂任务的能力——与其神经表示的维度密切相关【索引75, Mattia Rigotti等，《The importance of mixed selectivity in complex cognitive tasks》，2013年，Nature】【索引76, Valerio Mante等，《Context-dependent computation by recurrent dynamics in prefrontal cortex》，2013年，Nature】。负责复杂推理和决策的高阶皮层区域必须处理各种任务，这要求更灵活和依赖于上下文的处理【索引77, Earl K. Miller和Jonathan D. Cohen，《An integrative theory of prefrontal cortex function》，2001年，Annual Review of Neuroscience】。在动力系统中，这种灵活性通常通过更高维度的状态空间轨迹来实现，这允许更丰富的潜在计算【索引78, Wolfgang Maass，《Real-time computing without stable states: a new framework for neural computation based on perturbations》，2002年，Neural Computation】。这一原理产生了一个可观察到的维度层次结构，即一个区域在处理层次结构中的位置与其有效维度相关。

参与率（PR）作为维度度量。为了量化这一现象，我们可以考察参与率（Participation Ratio, PR），它是衡量高维表示有效维度的标准方法【索引79, Ege Altan等，《Estimating the dimensionality of the manifold underlying multi-electrode neural recordings》，2021年，PLoS Computational Biology】。PR的计算公式为：

$$\mathrm{PR}=\frac{(\sum_{i}\lambda_{i})^{2}}{\sum_{i}\lambda_{i}^{2}},$$

其中$\{\lambda_i\}$是神经轨迹协方差矩阵的特征值。直观地说，较高的PR值表示方差更均匀地分布在许多维度上，对应于更高维度的表示。相反，较低的PR值表示方差集中在少数几个主成分中，反映了一个更紧凑、更低维的结构。

图8：HRM和鼠脑皮层的分层维度组织。(a,b)改编自Posani等人[74]。(a) 鼠脑皮层区域的解剖图，按功能模块着色。(b) 参与率（PR，一种有效神经维度的度量）与不同鼠脑皮层区域层次位置之间的相关性。层次中较高的位置（如MOs, ACAd）比较低的感官区域（如SSp-n）表现出显著更高的PR值，斯皮尔曼相关系数为ρ = 0.79 (P = 0.0003)。(c,d) 训练后的HRM。(c) 训练后的HRM的PR随任务多样性扩展。高层模块(zH)的维度随着分析中包含的独特任务（轨迹）数量的增加而扩展，表明其表示能力的自适应扩展。相比之下，低层模块(zL)的维度保持稳定。(d) 训练后HRM的低层(zL, PR = 30.22)和高层(zH, PR = 89.95)模块的PR值，由100个独特的数独解决轨迹中的神经活动计算得出。观察到清晰的维度层次，高层模块在维度高得多的空间中运作。(e,f) 未训练网络分析。为验证维度层次是训练的涌现特性，对一个具有随机权重的未训练HRM进行了相同的分析。(e) 与(c)中训练模型的扩展相反，未训练模型中两个模块的维度都保持低且稳定，未能随任务数量扩展。(f) 类似地，与(d)中清晰的分离形成对比，未训练模型模块的PR值(zL, PR = 42.09; zH, PR = 40.75)很低且几乎相同，没有显示出层次分离的证据。这证实了观察到的维度分层组织是训练中涌现出的学习属性，而不是模型架构的产物。

HRM中的维度层次。我们在Sudoku-Extreme Full数据集上训练HRM后，计算了其两个循环模块的PR。结果显示出与生物学发现惊人的相似之处。低层模块的状态($z_L$)占据了一个相对较小的子空间，参与率为30.22，而高层模块的状态($z_H$)在一个大得多的子空间中运行，参与率为89.95，如图8(c)所示。此外，图8(d)显示，将独特任务（轨迹）的数量从10增加到100时，$z_H$的维度相应地扩大，而$z_L$的维度保持稳定。这些结果表明，模块之间出现了与其功能角色平行的表示能力的涌现分离。

训练的涌现属性。为了证实这种分层组织是训练的涌现属性，而不是网络架构的产物，我们使用一个相同但未经训练、权重随机的网络进行了控制分析。结果如图8(e,f)所示，未训练网络的高层和低层模块没有表现出层次分离，其PR值很低且几乎无法区分。这一控制分析证实了维度层次是模型学习执行复杂推理时出现的涌现属性。

与神经坍塌的对比。HRM中的高低层PR比率($z_H/z_L \approx 2.98$)与在鼠脑皮层中测得的(≈ 2.25)非常接近。相比之下，传统的深度网络通常表现出神经坍塌现象，即最后一层的特征收敛到一个低维子空间【索引80, Vardan Papyan等，《Prevalence of neural collapse during the terminal phase of deep learning training》，2020年，Proceedings of the National Academy of Sciences】【索引81, Cong Fang等，《Exploring deep neural networks via layer–peeled model: Minority collapse in imbalanced training》，2021年，Proceedings of the National Academy of Sciences】【索引82, Zhihui Zhu等，《A geometric analysis of neural collapse with unconstrained features》，2021年，Advances in Neural Information Processing Systems】。因此，HRM脱离了坍塌模式，反而在其高层模块中培育了一个高维表示。这一点意义重大，因为这种表示被认为是认知灵活性的关键，并且是像前额叶皮层（PFC）这样的高阶大脑区域的标志，PFC对复杂推理至关重要。

讨论

HRM的图灵完备性。与包括通用Transformer【索引95, Mostafa Dehghani等，《Universal transformers》，2018年，arXiv preprint arXiv:1807.03819】在内的早期神经推理算法一样，在给予足够内存和时间限制的情况下，HRM是计算上通用的。换句话说，它属于可以模拟任何图灵机的模型类别，克服了引言中讨论的标准Transformer的计算限制。鉴于早期的神经算法推理器是作为循环神经网络进行训练的，它们遭受过早收敛和内存密集型BPTT的困扰。因此，在实践中，它们的有效计算深度仍然有限，尽管仍比标准Transformer更深。通过解决这两个挑战并配备自适应计算，HRM可以在长的推理过程上进行训练，解决需要密集深度优先搜索和回溯的复杂谜题，并向实用的图灵完备性迈进。

使用思维链的强化学习。除了使用人类标注的CoT进行微调外，强化学习（RL）是另一种被广泛采用的训练方法。然而，最近的证据表明，RL主要解锁了现有的类CoT能力，而不是发现了全新的推理机制【索引96, Yiping Wang等，《Reinforcement learning for reasoning in large language models with one training example》，2025年】【索引97, Niklas Muennighoff，《s1: Simple test-time scaling》，2025年，arXiv preprint arXiv:2502.23456】【索引98, Liang Wen等，《Light-r1: Curriculum sft, dpo and rl for long cot from scratch and beyond》，2025年】【索引99, Xuefeng Li等，《Limr: Less is more for rl scaling》，2025年】。此外，使用RL进行CoT训练以其不稳定性和数据效率低下而闻名，通常需要大量的探索和精心的奖励设计。相比之下，HRM从密集的基于梯度的监督中获取反馈，而不是依赖稀疏的奖励信号。此外，HRM自然地在连续空间中运行，这在生物学上是合理的，并且避免了为每个词元分配相同的计算资源，尽管词元在推理和规划复杂性上有所不同【索引16, Xuan Shen等，《Training large language models to reason in a continuous latent space》，2024年，arXiv preprint arXiv:2412.07423】。

线性注意力。循环不仅因其在通用计算中的能力而被探索，也被用作替代Transformer中注意力机制的一种手段，该机制存在二次时间和内存复杂度【索引100, Tri Dao和Albert Gu，《Transformers are ssms: Generalized models and efficient algorithms through structured state space duality》，2024年，ArXiv】。循环替代方案通过顺序处理输入词元并在每个时间步预测下一个词元，提供了一种更高效的设计，类似于早期的基于RNN的语言模型。一些线性注意力变体，如对数线性注意力（Log-linear Attention）【索引101, Han Guo等，《Log-linear attention》，2025年，arXiv preprint arXiv:2506.04761】，共享一个类似RNN的状态更新，可以解释为传播多时间尺度的摘要统计信息，从而在没有标准自注意力二次内存增长的情况下保留长程上下文。然而，仅替换注意力机制并不能改变Transformer仍然是固定深度的事实，并且需要CoT作为补偿机制。值得注意的是，线性注意力可以在扩展的上下文中以减少的键值缓存运行，使其更适合部署在资源受限的边缘设备上。

A5 结论

本文介绍了分层推理模型（HRM），这是一种受大脑启发的架构，它利用分层结构和多时间尺度处理来实现显著的计算深度，同时不牺牲训练的稳定性和效率。仅用2700万参数和在1000个样本上进行训练，HRM就能有效解决诸如ARC、数独和复杂迷宫导航等具有挑战性的推理问题——这些任务通常对当代的LLM和思维链模型构成重大困难。

尽管大脑在很大程度上依赖分层结构来实现大多数认知过程，但这些概念在很大程度上仍局限于学术文献，而未转化为实际应用。主流的人工智能方法继续偏爱非分层模型。我们的研究结果挑战了这一既定范式，并表明分层推理模型是当前占主导地位的思维链推理方法的一个可行替代方案，向着能够实现图灵完备通用计算的基础框架迈进。

PaperCache

Hierarchical Reasoning Model

Hierarchical Reasoning Model

A1 主要贡献

A3 设计原则

A2 方法细节

A4 实验环境

基准数据集

模型与硬件

软件配置

A4 实验结果

主要性能比较

中间时间步可视化

A7 补充细节

与大脑的对应关系

相关工作

讨论

A5 结论

💬 评论讨论

Hierarchical Reasoning Model

A1 主要贡献

A3 设计原则

A2 方法细节

A4 实验环境

基准数据集

模型与硬件

软件配置

A4 实验结果

主要性能比较

中间时间步可视化

A7 补充细节

与大脑的对应关系

相关工作

讨论

A5 结论

💬 评论讨论

登录

注册

忘记密码

重发验证邮件