作者/机构: Shunyu Yao (普林斯顿大学计算机科学系), Jeffrey Zhao (谷歌研究院, Brain 团队), Dian Yu (谷歌研究院, Brain 团队), Nan Du (谷歌研究院, Brain 团队), Izhak Shafran (谷歌研究院, Brain 团队), Karthik Narasimhan (普林斯顿大学计算机科学系), Yuan Cao (谷歌研究院, Brain 团队)

A1 主要贡献

本文探讨了如何利用大型语言模型（LLMs）以交错的方式生成推理轨迹和任务特定动作，从而实现两者之间更大的协同作用。核心问题在于，现有工作中，LLMs 的推理能力（如思维链提示）和行动能力（如动作计划生成）主要被作为独立主题研究，限制了模型的性能和应用范围。具体来说，仅有推理能力的模型（如思维链）是静态的黑盒，无法与外部世界互动以更新知识，容易导致事实幻觉和错误传播；而仅有行动能力的方法则缺乏对高层目标的抽象推理能力。

研究目标是提出一个通用范式，将推理和行动结合起来，使模型能够：
1. 通过动态推理来创建、维护和调整高级行动计划（推理以驱动行动）。
2. 通过与外部环境（如维基百科）互动，将额外信息融入推理过程（行动以辅助推理）。

为此，本文提出了 ReAct (Reason+Act) 范式。ReAct 通过提示（prompting）LLMs，使其以交错的方式生成口头推理轨迹（verbal reasoning traces）和具体行动（actions）。这种推理与行动的紧密协同，使人类能够快速学习新任务并进行稳健的决策或推理，即使在面对前所未见的情况或信息不确定性时也是如此。

图1：(1) 对比四种提示方法：(a) 标准提示 (Standard), (b) 思维链 (CoT, 仅推理), (c) 仅行动 (Act-only), 和 (d) ReAct (推理+行动)，解决一个 HotpotQA 问题。(2) 对比 (a) 仅行动和 (b) ReAct 提示方法解决一个 AlfWorld 游戏。在这两个领域中，我们都省略了提示中的上下文示例，只展示了模型生成的任务解决轨迹（Act, Thought）和环境反馈（Obs）。

核心贡献如下：
1. 提出 ReAct 范式：一个新颖的、基于提示的范式，用于协同大型语言模型中的推理与行动，以解决通用任务。
2. 广泛的实验验证：在四个不同的基准测试（HotpotQA、Fever、ALFWorld、WebShop）上进行了大量实验，展示了 ReAct 在少样本学习设置下，相对于孤立进行推理或行动生成方法的优势。
3. 系统的消融分析：进行了系统的消融实验和分析，以理解在推理任务中行动的重要性，以及在交互任务中推理的重要性。
4. 潜力和局限性分析：分析了 ReAct 在提示设置下的局限性，并通过初步的微调实验展示了 ReAct 通过额外训练数据改进的潜力。

A2 方法细节

第2节 REAC T：协同推理+行动

通用交互设置与挑战。在一个通用的任务解决设置中，智能体在时间步 t 从环境中接收一个观察 $o_t \in O$，并根据某个策略 $\pi(a_t|c_t)$ 采取一个动作 $a_t \in A$，其中 $c_t = (o_1, a_1, \dots, o_{t-1}, a_{t-1}, o_t)$ 是智能体的上下文。当上下文 $c_t$ 到动作 $a_t$ 的映射非常隐晦并需要大量计算时，学习一个策略是具有挑战性的。例如，图1(1c) 中展示的智能体无法生成正确的最终动作 (Act 4) 来完成问答任务，因为它需要对轨迹上下文（问题、Act 1-3、Obs 1-3）进行复杂的推理。类似地，图1(2a) 中展示的智能体无法从上下文中理解 sinkbasin 1 不包含 peppershaker 1，因此持续产生幻觉动作。

ReAct 的核心思想。ReAct 的思想很简单：我们将智能体的动作空间 A 扩充为 $\hat{A} = A \cup L$，其中 L 是语言空间。语言空间中的一个动作 $\hat{a}_t \in L$，我们称之为思考（thought）或推理轨迹（reasoning trace），它不影响外部环境，因此不会导致观察反馈。相反，一个思考 $\hat{a}_t$ 旨在通过对当前上下文 $c_t$ 进行推理来组合有用的信息，并更新上下文 $c_{t+1} = (c_t, \hat{a}_t)$ 以支持未来的推理或行动。如图1所示，思考可以有多种有用的类型，例如：分解任务目标并创建行动计划（图2b, Act 1；图1d, Thought 1），注入与任务解决相关的常识知识（图2b, Act 1），从观察中提取重要部分（图1d, Thought 2, 4），跟踪进度并转换行动计划（图2b, Act 8），处理异常并调整行动计划（图1d, Thought 3）等。

ReAct 的实现方式。由于语言空间 L 是无限的，在这个扩充的动作空间中学习是困难的，并且需要强大的语言先验知识。在本文中，我们主要关注使用一个冻结的大型语言模型 PaLM-540B【索引6, Palm: Scaling language modeling with pathways, 2022】，通过少样本上下文示例进行提示，以生成特定领域的动作和自由形式的语言思考来解决任务（图1 (1d), (2b)）。每个上下文示例都是一个人类解决任务实例的动作、思考和环境观察的轨迹。对于推理至关重要的任务（图1(1)），我们交替生成思考和动作，使得任务解决轨迹包含多个“思考-动作-观察”步骤。相反，对于可能涉及大量动作的决策任务（图1(2)），思考只需要在轨迹的最相关位置稀疏地出现，因此我们让语言模型自行决定思考和动作的异步出现。

ReAct 的特性。由于决策和推理能力被集成到一个大型语言模型中，ReAct 享有几个独特的特性：
- A) 直观且易于设计：设计 ReAct 提示很直接，因为人类标注者只需在他们采取的行动之上用语言写下他们的想法。本文没有使用任何特定的格式选择、思考设计或示例选择。
- B) 通用且灵活：由于灵活的思考空间和思考-动作出现格式，ReAct 适用于具有不同动作空间和推理需求的各种任务，包括但不限于问答、事实核查、文本游戏和网页导航。
- C) 高效且稳健：ReAct 在仅从一到六个上下文示例中学习时，对新任务实例表现出强大的泛化能力，在不同领域中始终优于仅有推理或行动的基线方法。
- D) 人类对齐且可控：ReAct 承诺提供一个可解释的顺序决策和推理过程，人类可以轻松地检查推理和事实的正确性。此外，人类还可以通过编辑思考来即时控制或纠正智能体的行为，如第4节图5所示。

第3节知识密集型推理任务

方法概述。我们从知识密集型的推理任务开始，如多跳问答和事实核查。如图1(1d)所示，通过与维基百科API互动，ReAct 能够检索信息以支持推理，同时利用推理来确定下一步要检索的内容，展示了推理和行动的协同作用。

3.1 设置

领域。我们考虑两个对知识检索和推理具有挑战性的数据集：(1) HotPotQA【索引35, Hotpotqa: A dataset for diverse, explainable multi-hop question answering, 2018】，一个需要对两个或更多维基百科段落进行推理的多跳问答基准。(2) FEVER【索引31, Fever: a large-scale dataset for fact extraction and verification, 2018】，一个事实核查基准，其中每个声明根据是否存在维基百科段落来验证，被标注为支持（SUPPORTS）、反驳（REFUTES）或信息不足（NOT ENOUGH INFO）。在这项工作中，我们对这两个任务都采用仅问题（question-only）的设置，即模型只接收问题/声明作为输入，无法访问支持段落，必须依赖其内部知识或通过与外部环境互动来检索知识以支持推理。

动作空间。我们设计了一个简单的维基百科网页API，包含三种类型的动作来支持交互式信息检索：(1) search[entity]，如果存在相应的实体维基页面，则返回前5个句子，否则从维基百科搜索引擎建议前5个相似实体；(2) lookup[string]，返回页面中包含该字符串的下一句，模拟浏览器上的Ctrl+F功能；(3) finish[answer]，用答案结束当前任务。我们注意到，这个动作空间主要只能根据确切的段落名称检索一小部分内容，这比最先进的词汇或神经检索器要弱得多。其目的是模拟人类与维基百科互动的方式，并迫使模型通过明确的语言推理来进行检索。

3.2 方法

ReAct 提示。对于 HotpotQA 和 Fever，我们分别从训练集中随机选择6个和3个案例，并手动编写 ReAct 格式的轨迹，用作提示中的少样本范例。与图1(d)类似，每个轨迹都包含多个“思考-动作-观察”步骤（即密集思考），其中自由形式的思考用于各种目的。具体来说，我们使用了多种思考的组合，包括：分解问题（“我需要搜索x，找到y，然后找到z”）、从维基百科观察中提取信息（“x始于1844年”，“该段落没有告诉我们x”）、进行常识推理（“x不是y，所以z必须是……”）或算术推理（“1844 < 1989”）、指导搜索重构（“也许我可以搜索/查找x”），以及综合最终答案（“……所以答案是x”）。

基线方法。我们系统地对 ReAct 轨迹进行消融，为多个基线构建提示（格式如图1(1a-1c)所示）：
- (a) 标准提示 (Standard)：移除 ReAct 轨迹中的所有思考、动作和观察。
- (b) 思维链提示 (CoT)【索引34, Chain of thought prompting elicits reasoning in large language models, 2022】：移除动作和观察，作为一个仅推理的基线。我们还构建了一个自洽性基线 (CoT-SC)【索引32, Self-consistency improves chain of thought reasoning in language models, 2022a; 索引33, Rationale-augmented ensembles in language models, 2022b】，通过在推理期间以解码温度0.7采样21个CoT轨迹，并采纳多数答案，这种方法被发现能持续提升CoT的性能。
- (c) 仅行动提示 (Act)：移除 ReAct 轨迹中的思考，这大致类似于 WebGPT【索引23, Webgpt: Browser-assisted question-answering with human feedback, 2021】与互联网互动回答问题的方式，尽管它在不同的任务和动作空间上操作，并使用模仿和强化学习而非提示。

结合内部和外部知识。我们观察到 ReAct 展示的问题解决过程更具事实性和依据性，而 CoT 在构建推理结构方面更准确，但容易受到幻觉事实或思考的影响。因此，我们提议结合 ReAct 和 CoT-SC，并让模型根据以下启发式规则决定何时切换到另一种方法：
- A) ReAct → CoT-SC：当 ReAct 在给定步数内未能返回答案时，回退到 CoT-SC。我们为 HotpotQA 和 FEVER 分别设置了7步和5步。
- B) CoT-SC → ReAct：当 n 个 CoT-SC 样本中的多数答案出现次数少于 n/2 次时（即内部知识可能不足以自信地支持任务），回退到 ReAct。

微调。由于大规模手动标注推理轨迹和动作的挑战，我们考虑了一种类似于 Zelikman 等人【索引38, Star: Bootstrapping reasoning with reasoning, 2022】的自举方法，使用由 ReAct（也包括其他基线）生成的3000个带有正确答案的轨迹来微调较小的语言模型（PaLM-8/62B），以在给定输入问题/声明的条件下解码轨迹（所有思考、动作、观察）。

第4节决策制定任务

方法概述。我们还在两个基于语言的交互式决策任务——ALFWorld 和 WebShop 上测试了 ReAct。这两个任务都具有复杂的环境，要求智能体在长时程和稀疏奖励下行动，因此需要通过推理来有效行动和探索。

ALFWorld。ALFWorld【索引27, Alfworld: Aligning text and embodied environments for interactive learning, 2020b】是一个与具身 ALFRED 基准【索引26, Alfred: A benchmark for interpreting grounded instructions for everyday tasks, 2020a】对齐的合成文本游戏。它包含6种任务类型，智能体需要通过文本动作（如 go to coffeetable 1）在模拟家庭环境中导航和互动，以实现一个高级目标（如 examine paper under desklamp）。一个任务实例可能包含超过50个地点，专家策略需要超过50步才能解决，这对智能体规划和跟踪子目标以及系统性探索（如逐一检查所有桌子寻找台灯）提出了挑战。ALFWorld 的一个内在挑战是需要确定常见家居物品的可能位置（例如，台灯可能在书桌、架子或梳妆台上），这使得该环境非常适合LLMs利用其预训练的常识知识。为了提示 ReAct，我们为每种任务类型从训练集中随机标注了三个轨迹，每个轨迹都包含稀疏的思考，这些思考用于：(1) 分解目标，(2) 跟踪子目标完成情况，(3) 确定下一个子目标，以及 (4) 通过常识推理来判断在哪里找到一个物体以及如何处理它。

WebShop。为了验证 ReAct 是否能与嘈杂的真实世界语言环境进行交互以用于实际应用，我们研究了 WebShop【索引37, Webshop: Towards scalable real-world web interaction with grounded language agents, 2022】，这是一个最近提出的在线购物网站环境，拥有118万个真实世界产品和1.2万条人类指令。与 ALFWorld 不同，WebShop 包含大量结构化和非结构化文本（如从亚马逊爬取的产品标题、描述和选项），并要求智能体根据用户指令（如“我正在寻找一个带抽屉的床头柜。它应该是镍面漆，价格低于140美元”）通过网络交互（如搜索“床头柜抽屉”，选择按钮如“颜色：现代镍白色”或“返回搜索”）来购买产品。该任务通过平均得分（所选产品覆盖期望属性的百分比在所有回合中的平均值）和成功率（所选产品满足所有要求的回合百分比）在500个测试指令上进行评估。我们构建了包含搜索、选择产品、选择选项和购买等动作的 Act 提示，而 ReAct 提示则额外增加了推理部分，以确定探索什么、何时购买以及哪些产品选项与指令相关。

内部推理与外部反馈的价值比较。据我们所知，ReAct 是首次在一个闭环系统中，使用 LLM 结合推理和行动应用于交互式环境的演示。最接近的先前工作可能是 Huang 等人【索引14, Inner monologue: Embodied reasoning through planning with language models, 2022b】的 Inner Monologue (IM)，其中具身智能体的行动由同名的“内心独白”驱动。然而，IM 的“内心独白”仅限于对环境状态的观察和为满足目标需要完成的任务。相比之下，ReAct 用于决策的推理轨迹是灵活和稀疏的，允许为不同任务引出不同类型的推理。为了展示 ReAct 和 IM 之间的差异，并突显内部推理相对于简单响应外部反馈的重要性，我们进行了一项消融实验，使用了一种由类似 IM 的密集外部反馈组成的思考模式（ReAct-IM）。

A4 实验环境

模型架构:
- 主要提示实验使用 PaLM-540B【索引6, Palm: Scaling language modeling with pathways, 2022】。
- 微调实验使用 PaLM-8B 和 PaLM-62B。
- 为了可复现性，附录中提供了使用 GPT-3 (text-davinci-002)【索引5, Language models are few-shot learners, 2020】的额外实验。
数据集/基准测试:
- HotpotQA【索引35, Hotpotqa: A dataset for diverse, explainable multi-hop question answering, 2018】: 多跳问答数据集，用于评估知识密集型推理能力。采用“仅问题”设置。
- FEVER【索引31, Fever: a large-scale dataset for fact extraction and verification, 2018】: 事实核查数据集，用于评估知识检索和验证能力。采用“仅问题”设置。
- ALFWorld【索引27, Alfworld: Aligning text and embodied environments for interactive learning, 2020b】: 文本交互式决策游戏。在134个未见过的评估游戏上进行评估。
- WebShop【索引37, Webshop: Towards scalable real-world web interaction with grounded language agents, 2022】: 真实世界的网页交互环境，用于在线购物。在500个测试指令上进行评估。
硬件配置:
- 论文未明确提供硬件细节，但 PaLM 模型在 Google 的内部基础设施上运行。
软件配置:
- 主要实验在 PaLM 模型上进行。
- 提供了 GPT-3 实验的代码以增强可复现性，代码库位于 https://react-lm.github.io/">https://react-lm.github.io/。
- 依赖一个为 HotpotQA 和 FEVER 任务设计的简单维基百科 API。

A4 实验结果

知识密集型推理任务 (HotpotQA & FEVER)

ReAct 优于 Act: 如表1所示，ReAct 在 HotpotQA 和 FEVER 两个任务上都优于仅行动的 Act 基线，证明了推理在指导行动（尤其是在综合最终答案时）中的价值。微调实验的结果也证实了推理轨迹对更明智的行动的益处。

表1: PaLM-540B 在 HotpotQA 和 Fever 上的提示结果。
ReAct 与 CoT 的比较: ReAct 在 Fever 上的表现优于 CoT（60.9% vs. 56.3%），但在 HotpotQA 上略逊于 CoT（27.4% vs. 29.4%）。这可能是因为 Fever 的声明验证对准确和最新的知识检索至关重要。
定性分析 (表2):
- 幻觉问题: 幻觉是 CoT 的一个严重问题，导致其在成功案例中的假阳性率远高于 ReAct（14% vs. 6%），并且是其主要失败模式（占56%）。相比之下，ReAct 的解决轨迹更加扎实、以事实为驱动且值得信赖。
- 推理错误: ReAct 交错推理、行动和观察的结构性约束降低了其制定推理步骤的灵活性，导致其推理错误率高于 CoT。ReAct 特有的一个常见错误模式是模型重复生成之前的思考和动作，被归类为“推理错误”。
- 搜索效果: 对 ReAct 而言，通过搜索成功检索到信息丰富的知识至关重要。“信息量不足的搜索”占错误案例的23%，会使模型推理偏离轨道。
表2: ReAct 和 CoT 在 HotpotQA 上的成功和失败模式类型，以及它们在随机抽样研究中的百分比。
ReAct + CoT-SC 组合方法效果最佳: 表1显示，在 HotpotQA 和 Fever 上，最佳的提示方法分别是 ReAct → CoT-SC 和 CoT-SC → ReAct。图2进一步表明，这两种组合方法在不同数量的 CoT-SC 样本下都显著且持续地优于 CoT-SC，仅用3-5个样本就能达到 CoT-SC 使用21个样本的性能。这表明了将模型内部知识与外部知识适当结合的价值。

图2: PaLM-540B 提示结果与所用 CoT-SC 样本数量的关系。
微调结果 (图3):
- 对于较小的模型（PaLM-8/62B），通过提示学习 ReAct 比较困难，表现最差。
- 然而，仅用3000个例子进行微调后，ReAct 成为四种方法中最好的。微调后的 PaLM-8B ReAct 优于所有 PaLM-62B 的提示方法，微调后的 PaLM-62B ReAct 优于所有 540B 的提示方法。
- 结论是，微调 ReAct 或 Act 教会模型如何（推理和）行动以从维基百科获取信息，这是一种比记忆（可能产生幻觉的）知识事实更具泛化性的技能。
图3: ReAct（我们的方法）及基线在 HotpotQA 上提示和微调的扩展结果。

决策制定任务 (ALFWorld & WebShop)

ALFWorld 结果 (表3): ReAct 在 ALFWorld 上的表现显著优于 Act。最佳的 ReAct 试验达到了71%的平均成功率，远超 Act（45%）和先前SOTA的模仿学习基线 BUTLER（37%）。即使是表现最差的 ReAct 试验（48%）也优于其他方法的最佳试验。ReAct 相对于 Act 的优势在六个受控试验中保持一致，相对性能提升幅度从33%到90%不等，平均为62%。定性分析表明，没有思考的 Act 无法正确分解目标或跟踪环境状态。

表3: AlfWorld 任务特定成功率（%）。BUTLER 和 BUTLERg 的结果来自 Shridhar 等人 (2020b) 的表4。除 BUTLER 使用波束搜索外，所有方法均使用贪婪解码。
WebShop 结果 (表4): 在 WebShop 上，单样本的 Act 提示已经能与模仿学习（IL）和模仿+强化学习（IL+RL）方法相媲美。而增加了稀疏推理的 ReAct 取得了显著更好的性能，成功率绝对提升了10%。分析发现，ReAct 通过推理能更好地识别与指令相关的产品和选项。尽管如此，现有方法仍远未达到人类专家的水平。

表4: Webshop 上的得分和成功率（SR）。IL/IL+RL 数据取自 Yao 等人 (2022)。
内部推理 vs. 外部反馈消融实验 (表3): ReAct（71%）在 ALFWorld 上的表现显著优于模仿 Inner Monologue 风格的 ReAct-IM 基线（53%），并且在六个任务中的五个上都有一致的优势。定性观察发现，由于缺乏高层次的目标分解，ReAct-IM 常常在判断子目标是否完成或下一个子目标应该是什么时犯错。此外，由于缺乏常识推理，许多 ReAct-IM 轨迹难以确定物品可能的位置。这些都表明了 ReAct 中灵活、高层次的内部推理的重要性，而不仅仅是简单地复述外部环境状态。

A5 结论

本文提出了 ReAct——一种简单而有效的方法，用于协同大型语言模型中的推理和行动。通过在多跳问答、事实核查和交互式决策任务等一系列多样化的实验中，我们证明了 ReAct 能够带来卓越的性能和可解释的决策轨迹。尽管我们的方法很简单，但具有大动作空间的复杂任务需要更多的演示才能学好，而不幸的是，这很容易超出上下文学习的输入长度限制。我们在 HotpotQA 上探索了微调方法并取得了初步的有希望的结果，但从更多高质量的人类标注中学习将是进一步提高性能的理想选择。通过多任务训练扩展 ReAct，并将其与强化学习等互补范式相结合，可能会产生更强大的智能体，从而进一步释放大型语言模型在更多应用中的潜力。

A6 附录

A.1 GPT-3 实验

实验目的与设置。为了确认 ReAct 提示性能在不同大型语言模型间的普适性，我们使用 GPT-3 (text-davinci-002, 贪婪解码) 进行了额外实验。在 HotpotQA 上，我们随机抽取了500个验证问题子集。在 ALFWorld 上，我们使用了全部134个未见过的验证任务实例，并使用了根据 PaLM-540B 确定的最佳提示集。

实验结果与结论。如表5所示，GPT-3 在 HotpotQA 和 ALFWorld 上的表现一致优于 PaLM-540B，这可能是因为它经过了人类指令的微调。这表明 ReAct 提示在不同大型语言模型和不同任务上都是有效的。

表5: 使用 PaLM-540B 与 GPT-3 (text-davinci-002, 贪婪解码) 的 ReAct 提示结果。

A.2 REAC T 在 HOTPOTQA 上获取最新知识

观察与案例分析。在检查轨迹时，我们发现 ReAct 有时不同意数据集的标签，因为标签本身可能已经过时。例如，图4中的问题询问一家酒店的规模，该规模自 HotpotQA 数据集构建以来已经增加了。Standard 和 CoT 因幻觉给出错误答案，Act 尽管可以访问真实世界的网络互动，但由于缺乏指导如何与互联网互动进行问答的推理而失败。只有 ReAct 能够从互联网检索到最新信息并提供合理的答案。

结论。因此，更好地融合推理能力可能有助于最近的互联网增强语言模型（如【索引23, Nakano et al., 2021】; 【索引17, Lazaridou et al., 2022】; 【索引29, Shuster et al., 2022a】）进行最新的任务解决。

图4: 另一个 HotpotQA 问题示例，其中原始标签已过时。只有 ReAct 凭借真实世界的网络互动加上推理，才能获得最新的答案。

A.3 在 ALFWORLD 上的人在环行为修正

概念与方法。我们还探索了 ReAct 的人在环交互，允许人类检查和编辑 ReAct 的推理轨迹。

案例分析与优势。图5显示，通过简单地删除 Act 17 中一个产生幻觉的句子，并在 Act 23 中添加一些提示，就可以使 ReAct 的行为发生巨大变化，以符合这些人类的思维编辑并成功完成任务。从人类的角度来看，解决这类任务变得显著更容易，从输入数十个动作变为仅编辑几个思考，这为新型的人机协作提供了可能。我们注意到，这种即时策略编辑对于 Act 和之前的强化学习方法来说是困难的，因为人类无法改变模型参数，改变少数几个动作也可能无法改变模型的其余行为。这种范式也超越了像 Huang 等人【索引14, 2022b】中那样通过人类对话来更新目标或子目标——虽然编辑 ReAct 的思考可以做到这些，但它还可以修改模型的内部信念、推理风格或灵活思考空间支持的任何内容，以更好地解决任务。

未来展望。我们认为这是人类对齐的一个激动人心的方向，并将更系统的研究留作未来工作。

图5: 在 AlfWorld 中使用 ReAct 的人在环行为修正示例。(a) ReAct 轨迹因一个幻觉思考 (Act 17) 而失败。(b) 通过人类简单编辑两个思考 (Act 17, 23)，ReAct 轨迹产生了期望的推理轨迹和动作并成功。

B 实验细节

B.1 HOTPOTQA 微调细节。对于所有微调，我们使用64的批量大小。在 PaLM-8B 上，我们对 ReAct 和 Act 方法微调4000步，对 Standard 和 CoT 方法微调2000步。在 PaLM-62B 上，我们对 ReAct 和 Act 方法微调4000步，对 Standard 和 CoT 方法微调1000步。我们发现 ReAct 和 Act 方法通常受益于更多的训练步数（和更多的训练数据），而 Standard 和 CoT 方法在微调后很快性能下降。

B.2 ALFWORLD IM 风格细节。对于 IM 风格的消融实验，ReAct 中使用的相同专家轨迹被重新标注了密集的外部反馈思考，这些思考限制 ReAct-IM 只能思考 (1) 分解当前目标和 (2) 需要完成的当前子目标。特别地，ReAct-IM 缺乏以下思考：(1) 确定子目标何时完成，(2) 确定下一个子目标应该是什么，(3) 引导 LLM 参考其内部预训练知识来识别物品在环境中的位置。

C 提示

以下为论文中用于各项任务的提示（prompt）示例截图。

C.1 HotpotQA 提示

C.2 FEVER 提示

C.3 WebShop 提示

表10: 由 Act 和 ReAct 预测的 Webshop 示例轨迹。与 Act 相比，ReAct 使用推理来找到满足所有目标属性的产品。

C.4 ALFWorld 提示

表9: ALFWorld 清洁任务上的一个 ReAct-IM 提示。

参考文献引用说明

以下是本文在方法细节部分引用的关键文献及其描述：

[6] Chowdhery, A., Narang, S., Devlin, J., et al. (2022). Palm: Scaling language modeling with pathways.
- 引用位置: 第2节，第3段
- 引用内容: 描述了 ReAct 的实现方式，即使用一个冻结的大型语言模型 PaLM-540B，通过少样本上下文示例进行提示。
[35] Yang, Z., Qi, P., Zhang, S., et al. (2018). Hotpotqa: A dataset for diverse, explainable multi-hop question answering.
- 引用位置: 第3.1节，第1段
- 引用内容: 介绍了实验使用的知识密集型推理任务数据集之一 HotPotQA。
[31] Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). Fever: a large-scale dataset for fact extraction and verification.
- 引用位置: 第3.1节，第1段
- 引用内容: 介绍了实验使用的另一个知识密集型推理任务数据集 FEVER。
[34] Wei, J., Wang, X., Schuurmans, D., et al. (2022). Chain of thought prompting elicits reasoning in large language models.
- 引用位置: 第3.2节，第2段
- 引用内容: 描述了作为仅推理基线的思维链提示（CoT）方法。
[32] Wang, X., Wei, J., Schuurmans, D., et al. (2022a). Self-consistency improves chain of thought reasoning in language models.
- 引用位置: 第3.2节，第2段
- 引用内容: 描述了 CoT 的一个增强基线——自洽性（CoT-SC）方法。
[33] Wang, X., Wei, J., Schuurmans, D., et al. (2022b). Rationale-augmented ensembles in language models.
- 引用位置: 第3.2节，第2段
- 引用内容: 与文献 [32] 共同作为 CoT-SC 方法的引用。
[23] Nakano, R., Hilton, J., Balaji, S., et al. (2021). Webgpt: Browser-assisted question-answering with human feedback.
- 引用位置: 第3.2节，第2段
- 引用内容: 在描述仅行动（Act）基线时，将其与 WebGPT 的工作进行类比。
[38] Zelikman, E., Wu, Y., Mu, J., & Goodman, N. D. (2022). Star: Bootstrapping reasoning with reasoning.
- 引用位置: 第3.2节，第4段
- 引用内容: 描述微调方法时，提到了其采用了类似于 STaR 的自举（bootstrapping）方法。
[27] Shridhar, M., Yuan, X., Côté, M. A., et al. (2020b). Alfworld: Aligning text and embodied environments for interactive learning.
- 引用位置: 第4节，第2段
- 引用内容: 介绍了实验使用的决策制定任务环境 ALFWorld。
[26] Shridhar, M., Thomason, J., Gordon, D., et al. (2020a). Alfred: A benchmark for interpreting grounded instructions for everyday tasks.
- 引用位置: 第4节，第2段
- 引用内容: 说明了 ALFWorld 是与具身基准 ALFRED 对齐的。
[37] Yao, S., Chen, H., Yang, J., & Narasimhan, K. (2022). Webshop: Towards scalable real-world web interaction with grounded language agents.
- 引用位置: 第4节，第3段
- 引用内容: 介绍了实验使用的另一个决策制定任务环境 WebShop。
[14] Huang, W., Xia, F., Xiao, T., et al. (2022b). Inner monologue: Embodied reasoning through planning with language models.
- 引用位置: 第4节，第4段
- 引用内容: 在讨论内部推理与外部反馈的价值时，将 ReAct 与最接近的先前工作 Inner Monologue (IM) 进行了比较和区分。

REAC T: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

A1 主要贡献