UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

文章标题：UI-TARS-2 技术报告：利用多轮强化学习推进 GUI 智能体
作者/机构：ByteDance Seed

A1 主要贡献

本文介绍了 UI-TARS-2，一个以原生图形用户界面（GUI）为中心的智能体模型，旨在解决开发鲁棒 GUI 智能体面临的四大挑战：
1. 数据稀缺性：大规模收集包含详细推理、动作、环境状态和反馈的轨迹数据成本极高。
2. 可扩展的多轮强化学习（RL）：在交互环境中，奖励稀疏或延迟、优化不稳定以及长序列动作的信用分配困难，阻碍了模型的扩展和稳定提升。
3. 纯 GUI 操作的局限性：许多现实世界的工作流（如数据处理、软件开发）需要文件系统、终端或外部工具的配合，纯 GUI 交互不足以应对。
4. 环境的可扩展性和稳定性：大规模部署 RL 环境存在工程瓶颈，环境脆弱、资源密集且易于崩溃，使得大规模稳定训练变得困难。

为了应对这些挑战，UI-TARS-2 提出了一套系统的训练方法论，其核心贡献包括：
1. 数据飞轮（Data Flywheel）：设计了一个可扩展的数据飞轮，通过持续预训练、监督微调、拒绝采样和多轮 RL，共同演进模型及其训练语料库。这个框架确保了模型和数据在自我增强的循环中迭代改进。
2. 稳定的多轮 RL 框架：设计了一个在长时程设置下稳定优化的训练框架。这包括使用有状态环境进行异步部署以保留上下文、流式更新以避免长尾轨迹瓶颈，以及增强的近端策略优化（PPO）算法，结合了奖励塑造、自适应优势估计和价值预训练。
3. 混合 GUI 中心环境：构建了一个混合环境，将屏幕操作与文件系统、终端和外部工具等互补资源访问相结合，使智能体能够解决更广泛的现实工作流。
4. 统一的沙箱平台：建立了一个统一的沙箱平台，能够在一致的 API 下编排异构环境（从用于 GUI 交互的云虚拟机到用于游戏的基于浏览器的沙箱），实现了可复现、稳定且高吞吐量的大规模交互部署。

通过这些创新，UI-TARS-2 在多个基准测试中取得了显著优于其前身 UI-TARS-1.5 和其他强基线的性能，并展示了其在不同交互领域的强大泛化能力。
图1 UI-TARS-2 的一个演示轨迹。

A2 方法细节

本节介绍 UI-TARS-2 的方法论，这是一个用于构建先进的以 GUI 为中心的智能体的统一框架。该方法集成了多个组件，包括形式化的智能体定义、一体化沙箱环境、数据飞轮管道、多轮强化学习以及跨垂直智能体的参数插值。

2.1 形式化定义

采用原生智能体视角进行建模。本文采纳了原生智能体视角【49, Ui-tars: Pioneering automated gui interaction with native agents, 2025, arXiv preprint arXiv:2501.12326】，将智能体建模为一个参数化策略，该策略将历史上下文、记忆状态和当前环境映射为行为输出。在时间步 t，智能体遵循 ReAct 范式【79, React: Synergizing reasoning and acting in language models, 2023, International Conference on Learning Representations (ICLR)】，该范式在一个结构化循环中交错进行推理、行动和观察：
* 推理 (tt)：内部认知处理，包括上下文分析、记忆回忆、规划和自我反思。
* 行动 (at)：外部交互，如 GUI 操作、系统命令或工具调用。
* 观察 (ot)：来自环境的反馈，用于更新智能体的状态。

定义了跨多类别的动作空间。我们的动作空间涵盖多种操作类别：
* GUI 动作：遵循 UI-TARS 【49, Ui-tars: Pioneering automated gui interaction with native agents, 2025, arXiv preprint arXiv:2501.12326】的直接界面操作，例如用于元素选择的点击、用于文本输入的键入以及用于导航的滚动。游戏交互也复用这些相同的基本操作。
* 预定义的 SDK 函数：超越 GUI 操作的补充性操作，包括用于文件管理和软件开发的直接终端命令，以及用于编排外部服务和多工具推理的 MCP 工具调用。

将一个完整的 ReAct 循环定义为一个步骤。一个完整的 ReAct 循环 (tt, at, ot) 被定义为一个步骤。一个长度为 T 的轨迹则被形式化为：
$\tau = \{ (t_0, a_0, o_0), (t_1, a_1, o_1), \ldots, (t_T, a_T, o_T) \}.$
此形式化定义的一个关键组成部分是分层记忆状态：
$\mathcal{M}_t = (\mathcal{W}_t, \mathcal{E}_t),$
其中，工作记忆 $W_t$ 高保真地存储最近的步骤 $(t_{t-k}, a_{t-k}, o_{t-k})$ 用于短期推理，而情景记忆 $E_t$ 维护过去情节的语义压缩摘要，保留关键意图和结果。为了在长轨迹下保持高效，我们将直接上下文限制为 $W_t$ 中的最后 N 个步骤，同时依赖 $E_t$ 进行长期回忆。在每个时间步，策略预测下一个思考和行动为：
$P(t_n, a_n | \text{instruction}, W_n, o_n, \mathcal{E}_n).$
这凸显了智能体行为并非源于孤立的预测，而是源于一个不断演进的推理、行动、反馈和记忆整合的循环。

2.2 环境：一体化 GUI 沙箱

通用计算机智能体对环境的严苛要求。训练一个能无缝集成多种计算能力的通用计算机智能体，对环境提出了极高的要求。与单领域模拟器不同，这类新环境必须支持多样化的任务类型，集成异构工具，并在复杂的、多步骤的交互中保持长期的状态。

构建通用沙箱以应对挑战。为了应对这些挑战，我们设计了一个通用沙箱，它将 GUI 操作和 SDK 函数（例如，文件系统和工具调用）融合到一个统一且多功能的平台中。一个核心创新是共享文件系统，它允许 GUI 智能体在同一个容器化实例中，例如，通过浏览器下载文件后立即使用 shell 命令处理它。该沙箱保持了复杂任务所必需的稳定性和可复现性，并且不仅支持在分布式计算骨干上的高吞吐量训练，还为标注、评估和推理提供了一致的环境。下面我们重点介绍 GUI 和游戏沙箱的设计。

GUI 环境：云虚拟机。为了支持 GUI 智能体的大规模训练和评估，我们开发了一个分布式虚拟机（VM）平台，该平台运行主流的桌面操作系统（Windows 和 Ubuntu）以及 Android 移动操作系统。该平台集成了 PyAutoGUI 和 ADB 接口，从而以最小的适配开销实现跨设备操作。一个统一的 SDK 标准化了整个交互流程——从 VM 分配和初始化到智能体交互、观察收集（例如，截图和录屏）以及任务评估——使得该系统适用于手动数据标注、OSWorld 基准测试和在线强化学习等多种用例。

GUI 环境的基础设施。在基础设施层面，VM 集群由数千个实例组成，由一个能够维持数千 QPS（每秒查询次数）吞吐量并处理高并发执行的 VM 管理器进行集中管理。每个会话通过会话 ID 与任务-环境映射进行跟踪，以确保多轮交互中的状态一致性。为了进行监控和控制，所有会话都可以通过 VNC（虚拟网络计算）/ RTC（实时通信）进行实时可视化。一个基于租约的生命周期机制在任务完成或失败后自动释放资源，而过期的会话则被回收以防止浪费。
图2 浏览器沙箱（容器）架构。

GUI 环境的功能扩展。除了 GUI 交互，该平台还通过工具调用和编码支持扩展了智能体的能力，实现了网页浏览、文件操作和软件开发等跨领域工作流。一个集成的端点预加载了浏览、文件访问和终端使用的基本本地服务，确保工具开箱即用。该沙箱还通过允许从终端启动的服务通过代理 URL 暴露出来，增强了编码环境，使 GUI 智能体能够预览前端和后端组件。为了支持人在环路中的调试和标注，该环境还直接在浏览器中提供了 VNC、远程 VS Code 编辑器、Jupyter 和终端预览。

游戏环境：硬件加速的浏览器沙箱。为了支持在基于网络的小游戏上进行多轮强化学习的高吞吞吐量部署（rollouts），我们构建了一个浏览器沙箱，作为执行和观察的主干。由于这些小游戏完全在 HTML5/WebGL 中运行，浏览器环境是忠实执行它们并捕获其完整交互状态的唯一实用方法。该沙箱暴露了统一的“页面管理 + 页面交互”API：客户端发出动作（例如，键盘/鼠标输入）并接收同步的观察（截图、分数、关卡），从而完成了标准的动作到状态的循环。

游戏环境的并发与稳定性设计。如图 2 所示，通过在每个容器中运行多个浏览器实例并采用弹性调度来实现并发。系统监控主进程并执行自动崩溃恢复，以确保长期运行的稳定性。页面控制层管理页面的创建和删除，维护会话与页面的映射关系，跟踪页面状态并执行命令，同时通过检查点机制确保可复现性。事件处理器持续向管理器报告浏览器/页面事件，而垃圾回收器则回收空闲会话以防止资源泄漏。

游戏环境的编程接口与效率。为了实现编程访问，该沙箱与 Chrome DevTools 协议和 Playwright 等流行驱动程序兼容，从而实现了可编排、可调试和可审计的交互。基于 GPU 的硬件加速减少了截图开销，而重新实现的窗口计时 API 允许在启动时进行时间加速和暂停，从而在不改变游戏逻辑的情况下提高了采样效率和可复现性。总而言之，该沙箱的功能类似于标准的 RL 环境，但专为 Web 技术栈设计，平衡了高并发性、确定性和可复现性。

2.3 数据飞轮概述

数据飞轮的自我强化循环。如图 3 所示，我们引入了数据飞轮，通过重复的训练周期持续改进模型能力和数据质量。在每个周期中，最新的模型会生成新的智能体轨迹，这些轨迹经过筛选后被重新分配到最合适的训练阶段。高质量的输出被提升到后期阶段（如 SFT），而质量较低的输出则被回收到早期阶段（如 CT）。经过连续迭代，这种动态的重新分配确保了每个阶段都能使用最优匹配的数据进行操作，从而形成一个自我强化的循环：更好的模型产生更好的数据，而更好的数据又产生更好的模型。

训练阶段的划分。从 Seed1.6 【11, Seed-thinking-1.6, 2025, https://seed.bytedance.com/zh/seed1_6】的预训练检查点开始，飞轮通过三个阶段运作：持续预训练（CT）——从大规模、多样化的数据中获取广泛知识；监督微调（SFT）——高质量、任务特定的指令调整；以及强化学习——在可验证的交互式任务上进行端到端优化。在每次迭代中，当前的 RL 模型会生成新的轨迹。高质量的输出被附加到 SFT 数据集中，质量较低的则被路由到 CT，然后模型在更新后的 CT、SFT 和 RL 阶段上依次重新训练。

冷启动数据源。飞轮由两个初始数据集进行引导。对于 CT，我们收集任务教程、教学视频、来自互联网的演示以及我们的内部数据（2.4.1节）来构成基础知识集 $D^{(0)}_{CT}$。对于 SFT，我们通过合成数据生成和人工标注来构建 $D^{(0)}_{SFT}$。在 CT 和 SFT 期间，智能体特定数据与通用数据（包括聊天和推理领域）混合。智能体特定数据仅占 CT 的一小部分，CT 强调广泛的知识获取。相比之下，智能体数据在 SFT 中占比较大，SFT 专注于高质量、任务特定的智能体轨迹。

迭代式数据流。初始的 RL 模型训练完成后，它成为下一次迭代的主要数据生成器。在每次迭代 t 中，它通过拒绝采样（RFT）或交互式标注（2.4.2节）产生新的轨迹。每个样本都由一个验证函数 $V(s) \rightarrow \{0, 1\}$ 进行评估。验证为高质量的样本（$V(s) = 1$）被添加到下一次迭代的 SFT 数据集中，即 $D^{(t+1)}_{SFT} = D^{(t)}_{SFT} \cup D^{(t)}_{RFT,high}$；而质量较低的样本（$V(s) = 0$）则被路由到 CT 数据集，即 $D^{(t+1)}_{CT} = D^{(t)}_{CT} \cup D^{(t)}_{RFT,low}$。这确保了 SFT 总是接收到最新的、经过验证的高质量数据，而 CT 则通过更广泛、未经打磨的知识持续扩展，而不会污染监督信号。需要注意的是，SFT 和 RL 的执行频率高于 CT。还应指出，在每个周期中，我们观察到从通用 RL 到智能体特定领域的显著迁移。随着迭代的进行，改进后的模型 $M^{(t+1)}$ 会产生更高比例的高质量输出，即 $P(V(s) = 1 | t) > P(V(s) = 1 | t - 1)$，从而加速了能力的增长。由于每个生成的样本都在适当的阶段被重用，因此没有数据被浪费，从而创建了一个可持续的循环，其中模型和数据质量共同演进，推动持续的性能提升。

2.4 CT & SFT 数据准备

智能体训练数据的稀缺性。与智能体相关的训练数据在现有的人类语料库中非常稀缺，特别是对于需要持续推理和工具操作的多轮交互任务。与人类语料库中丰富的数学或编码数据不同，智能体交互轨迹稀少且难以大规模获取。为了解决这一关键瓶颈，我们开发了一个系统性的数据构建流程，该流程结合了交互式人工标注和自动化数据合成。

2.4.1 用于持续预训练的原位标注

GUI 领域的数据构建方法。我们的持续预训练框架涵盖了多个智能体领域。这里我们以 GUI 领域为例来说明我们的方法论。作为冷启动的 GUI CT 数据集 $D^{(0)}_{CT, GUI}$，我们包含了互联网、开源的智能体轨迹、我们内部的标注数据等。尽管初始化数据多样，我们很快遇到了几个限制。首先，公开可用的数据本身就稀缺且容易耗尽，无法满足大规模训练的覆盖需求。特别是，我们观察到中文应用程序的内容明显不足，这阻碍了开发真正通用的智能体。其次，许多可用数据只提供程序性动作，而忽略了其背后的认知推理过程。仅用这类资源训练的模型倾向于模仿表层动作，而没有内化逻辑，导致推理链出现虚假或不稳定的情况。最终，持续预训练的核心挑战在于如何系统地扩展高质量、富含认知内容的数据，以支持智能体的长期改进。
图3 我们为UI-TARS-2策划了一个数据飞轮，建立了一个自我强化的循环，不断提高数据质量和模型能力。

为解决数据缺陷而开发的原位标注系统。为了解决现有 GUI 数据集的不足，我们开发了一个大规模、以人为中心的标注系统，旨在收集真实的认知过程。我们平台的一个关键特性是其原位（in-situ）部署：标注工具直接安装在标注员的个人电脑上，并在他们正常使用时在后台 unobtrusively 运行。这种设计使得数据可以在真实的日常环境中持续收集，而不会干扰自然的工作流程。

采用“出声思考”的标注协议。一项初步的试点研究试图为已记录的动作追溯性地添加推理轨迹，但效果不佳，因为几乎不可能重建标注员最初的思维过程。受 Deitke 等人【15, Molmo and pixmo: Open weights and open data for state-of-the-art multimodal models, 2024, arXiv e-prints】的启发，我们转而采用了一种“出声思考”协议，即标注员在完成任务时通过音频口述他们的想法。这些口述的想法会自动与相应的 UI 交互对齐，从而产生既捕获推理链又捕获落地动作的数据。为了进一步丰富覆盖范围，我们招募了两组标注员：（1）专家，他们提供复杂任务的演示；（2）新手，他们被要求通过探索、试错和外部资源（如网络搜索）来解决不熟悉的任务。新手轨道捕获了在缺乏先验知识时解决问题和适应能力的宝贵数据。

任务设计与数据采集流程。为了在现实环境中增强 GUI 智能体的能力，我们提出了一个可复现的数据采集流程。我们使用公开可用的指标，从行业覆盖、用户参与度和市场渗透率三个维度来选择候选应用程序，从而得到一个具有代表性的主流网站和桌面应用程序集合。对于每项服务，我们构建一个分层的任务图，并使用标准化的使用频率、用户收益和跨场景可移植性度量来得出任务重要性分数。我们采用人机协作（human-LLM collaborative）的工作流，为每个子功能生成多层次的查询集，涵盖从新手到专家的技能水平，以及单应用和多应用场景。基于步骤数、跨页面操作、前置条件和异常处理的难度分级标准确保了在不同难度级别上的均衡覆盖。

数据管理与增强流程。所有收集到的数据都经过严格的质量控制，包括可执行性验证、去重和双标注员审查。音频记录的想法首先通过自动语音识别（ASR）转录，然后由大语言模型（LLMs）进行提炼，以产生连贯、高质量的推理文本。这些处理过的推理轨迹与屏幕上的动作精确同步，从而产生时间上对齐的推理-动作轨迹。为了进一步提高训练效用，我们以编程方式增强语言多样性并丰富推理链，最终得到一个适合持续预训练的高保真数据集。
图4 交互式标注平台的四层架构。

2.4.2 用于监督微调的交互式标注

传统 SFT 数据存在的问题。在从人类生成的 SFT 数据中训练智能体时，一个关键挑战是这些数据通常是离策略的（off-policy）：它不反映模型在与环境交互时实际会采取的动作分布。因此，用这些数据训练的模型可能无法泛化，因为它们在部署过程中从未遇到或纠正自己的错误。先前的方法通过让标注员纠正预先收集的轨迹中的错误来缓解这个问题【49, Ui-tars: Pioneering automated gui interaction with native agents, 2025, arXiv preprint arXiv:2501.12326】。然而，这个过程本质上仍然是离线的和低效的：它只在任务失败后才暴露模型的弱点，而无法在交互过程中进行实时干预或纠正。由于智能体训练发生在交互式环境中，动作直接影响后续状态，这种缺乏在策略（on-policy）监督的情况造成了显著的差距。为了弥合这一差距，我们提出了一个新颖的人在环路框架，用于在线、交互式的数据标注。

交互式标注平台的系统设计。我们的交互式标注平台建立在一个四层架构之上。最顶层是交互层，它呈现用户界面，使标注员能够与系统实时互动。在其下方，服务层处理标注请求，协调模型生成的命令执行和人工干预。平台层提供特定场景的执行环境——例如计算机使用、手机使用或工具使用——为不同类别的任务量身定制。最后，存储层安全地记录标注数据和完整的交互轨迹，用于下游的训练和分析。整体设计如图 4 所示，描绘了各层之间的模块化分离及其控制流。接下来，我们以 GUI 和游戏为例来说明标注过程。

在线监督的交互式标注流程。我们的交互式标注平台使人类标注员能够在智能体的部署过程中直接提供在线监督。标注员被分配在受控的虚拟环境中完成任务（见图 5），该环境由云端托管的虚拟机或浏览器沙箱支持，以确保可复现性和一致的执行。在每个决策点，最新的 UI-TARS-2 模型会提出候选动作及其推理轨迹。标注员可以选择接受其中一个建议，或者用一个更好的想法和动作来覆盖它，从而允许人类专业知识实时引导轨迹。我们还通过命令自动补全、实时虚拟机视频流和屏幕坐标可视化等功能进一步简化了工作流程，减少了延迟并提高了标注准确性。
图5 交互式标注工作流。

保证数据在策略（on-policy）并提升效率。由于标注发生在实时环境中，标注员可以从系统中获得即时反馈，并跟踪不断演变的轨迹，避免了事后校正的低效。这种设计确保了所有监督都严格保持在策略（on-policy）：数据反映了当前模型访问的实际状态分布。为了进一步提高效率，标注模型和任务池都会定期刷新，确保数据收集始终针对最新智能体的弱点。

2.5 多轮强化学习

采用基于 RLVR 的多轮 RL 框架。为了训练能够进行长时程推理和交互式决策的智能体，我们采用了一个基于 RLVR（带可验证奖励的强化学习）【21, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv preprint arXiv:2501.12948】的多轮 RL 框架。我们构建了特定领域的流程，可以自动合成跨多个领域的大规模、可验证的任务。在 RL 期间，我们的模型与环境进行实时的多轮交互，持续观察状态转换和环境反馈，直到任务完成。然后，模型利用可验证的奖励，通过迭代的策略改进来优化其决策轨迹。虽然我们的 RL 框架应用于多个领域，使用由 GUI 操作和 GUI-SDK 函数定义的不同工具，但在下文中，我们选择三个代表性案例来描述我们的框架：（1）GUI-Browsing，针对基于 GUI 的信息检索任务；（2）GUI-General，涵盖更广泛的网页操作任务；（3）游戏，专注于在浏览器沙箱中执行的轻量级网页小游戏。

2.5.1 任务设计

端到端 RL 任务数据的稀缺性。高质量、足够具有挑战性且可验证的端到端 RL 任务数据仍然极其稀缺。接下来，我们介绍如何设计形式多样且配备可靠验证信号的训练任务。

GUI-Browsing 任务的自动化合成。为了在复杂的推理场景中实现自主探索，我们设计了一个自动化流程，用于合成大规模、可验证的 GUI 浏览任务。这些任务在概念上类似于深度研究任务【43, Introducing deep research - openai, 2025, https://openai.com/index/introducing-deep-research/】，不同之处在于智能体必须仅通过分析截图来满足信息检索需求，而无法访问搜索 API。我们的合成框架包括两种主要方法：
1. 多条件混淆：我们首先从权威知识源（如维基百科）中提取核心实体及其属性特征。每个特征都由一个 LLM 进行独特性评分。高辨识度的属性被移除，而其余的属性则由 LLM 重写，以增加抽象度并降低特异性。这个过程产生了由多个间接约束定义的复杂问题，要求模型结合和推理模糊的信号以找出正确答案。例如，我们从维基百科页面生成了以下混淆问题：“这个团体由音乐与歌舞人才机构的一位代表发现，其创始阵容——最初使用另一个名字——包括来自德雷霍恩和欧文的成员，外加一名主音吉他手和一名鼓手。主唱是在一位创始成员推荐下加入的，该成员曾看过他们在基尔莫尔斯的一支乐队中表演，而他们的主音吉他手在1975年底之前离开，组建了另一个乐团。这个团体与哪家唱片公司签约？”
2. 多跳链式条件：我们从一个实体的网页开始，跟随其超链接来识别结构上相关的实体。对于每个链接的实体，我们提取并混淆其描述性特征，从而创建以链接实体为答案的任务。然后，我们将该链接实体的页面作为新的起点，并递归地重复此过程，为更深层次生成任务。在每一步，前一跳的答案都会嵌入到新问题中，形成一个连贯的推理链。最后，这些原子步骤被语义地整合成一个单一的多跳问题，要求模型综合中间答案，这模仿了知识在网络上传播的分层性质，并显著增加了对深度、顺序推理的需求。为确保难度，我们通过丢弃那些可以利用先验知识或单轮搜索轻易解决的实例来筛选合成数据，只保留真正具有挑战性且可验证的任务用于训练。

GUI-General 任务的数据集构建。为了评估通用的交互能力，我们使用一个以通用网站为中心的离线合成流程构建了一个 GUI-General 任务数据集。我们首先从公共收藏中筛选候选网站，剔除无法访问的页面、需要登录的服务以及静态信息页面或休闲游戏等简单类别。对于每个选定的网站，我们使用 VLM 来识别和提取其核心功能。基于这些功能，我们通过一个结构化过程在单页面级别合成任务：移除过于简单的功能，组合可执行的指令，合并前置子任务，并优化任务描述以确保其清晰、客观和可验证。最终得到的数据集提供了一个多样化的、可执行的、以 GUI 交互为重点的任务池，作为 RL 训练的查询，涵盖了 690 个网站，涉及广泛的领域。

Gameplay 任务的 RL 数据集构建。对于游戏领域，我们通过两个互补的来源构建 RL 数据集。首先，我们收集了可以直接在浏览器沙箱中运行的公开可用的 HTML5/WebGL 小游戏。其次，为了进一步扩大覆盖范围，我们使用 LLMs 合成新游戏，这些模型生成轻量级的代码实现，保留了核心游戏机制，同时暴露了明确的状态接口。对于真实和合成的游戏，我们都创建了简洁的 JavaScript 验证脚本，用于查询运行时变量（例如，分数、关卡索引、剩余生命值）并提供时间对齐的状态属性。这些观察结果建立了从智能体动作到环境转换和奖励信号的可靠映射。最后，所有交互记录被整合到一个统一的 JSON 模式中，包含标量奖励、终止标志和元数据（例如，游戏版本和验证校验和）。

2.5.2 奖励设计

可靠奖励系统的重要性。一个可靠的奖励系统对于稳定的策略优化至关重要，它需要在异构环境中提供既一致又可信的反馈信号。我们根据智能体输出的正确性是否可以被确定性地验证来对我们的奖励设计进行分类：

可确定性验证的任务。在那些可以使用基于函数的自动验证器（例如游戏）的领域中，我们直接计算二元正确性信号作为奖励。对于 GUI-Browsing 任务，答案可以与参考的真实答案进行匹配，我们则采用 LLM-as-Judge 【20, A survey on llm-as-a-judge, 2024, arXiv preprint arXiv:2411.15594】的方法来评估智能体的预测与目标答案的一致性。

不可验证的任务。在更开放的场景中，例如 GUI-General 任务，既不存在形式化的验证器，也没有参考答案。为了解决这个问题，我们使用 UI-TARS-2 作为一个生成式结果奖励模型（ORM），它根据智能体的轨迹产生标量奖励。ORM 的输入是完整的文本历史记录以及最后五张截图（以适应上下文窗口），并输出一个表示任务成功与否的分数。为了实现这一点，我们通过有针对性的数据标注和单轮 RL 专门增强了 UI-TARS-2 的 ORM 能力，确保其奖励预测对于下游的多轮 RL 是准确、一致且鲁棒的。

2.5.3 通过有状态环境实现异步智能体部署

传统批量部署方法的瓶颈。传统的基于批量的部署方法经常因复杂的长尾问题而成为瓶颈，这降低了训练效率并导致了离策略分布漂移。我们的多轮 RL 训练基础设施（图 6）旨在实现两个核心目标：（1）增强训练稳定性；（2）优化多轮部署交互和训练样本组织的效率。UI-TARS-2 实现了几个关键特性：
图6 UI-TARS-2 的多轮强化学习训练基础设施。

基于服务器部署的异步推理。我们采用了一个完全异步的推理系统，利用在线服务器模式进行处理。通过将策略推理封装在异步服务器架构中，我们将智能体推理框架的实现与策略推理的执行解耦。这种设计显著增强了框架的可用性，支持轻松开发新的智能体交互处理器，同时通过异步推理提高了模型推理效率。

使用部分填充的部署池进行流式训练。传统的批处理模式部署要求在训练开始前完成整个批次的推理，这可能会因为长尾案例而产生瓶颈，从而延迟后续的训练周期。我们的系统维护一个动态的部署池，一旦完成的轨迹达到最小批量大小的阈值，训练更新就会开始。未完成的部署轨迹会保留在池中，用于后续的训练迭代，从而确保学习的持续进行。这个特性在概念上类似于 Kimi-Researcher 【39, Kimi-researcher: End-to-end rl training for emerging agentic capabilities, 2025, https://moonshot.ai/blog/kimi-researcher】。

有状态的智能体环境集成。我们实现了有状态的智能体环境，这些环境在多次工具调用之间保留执行状态，从而实现连续的状态转换，并在扩展的问题解决会话中保持上下文。这种方法支持需要持久环境记忆的复杂、多步骤的推理过程。

2.5.4 强化学习训练算法

PPO 目标函数。UI-TARS-2 使用近端策略优化（PPO）进行训练，其策略根据以下目标函数进行更新：
$J_{\text{PPO}}(\theta) = \mathbb{E}_{(q,a)\sim D, o_{\leq t}\sim \pi_{\theta_{\text{old}}}(\cdot|q)} \left[ \min \left( \frac{\pi_{\theta}(o_t|q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t|q, o_{<t})} \hat{A}_t, \text{clip}\left( \frac{\pi_{\theta}(o_t|q, o_{<t})}{\pi_{\theta_{\text{old}}}(o_t|q, o_{<t})}, 1-\epsilon_{\text{low}}, 1+\epsilon_{\text{high}} \right) \hat{A}_t \right) \right],$
其中 $\pi_{\theta}$ 是策略模型，$\pi_{\theta_{old}}$ 是先前的策略模型。

PPO 算法的增强技术。遵循 VAPO 【83, Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks, 2025, arXiv preprint arXiv:2504.05118】和 VC-PPO 【82, What’s behind ppo’s collapse in long-cot? value optimization holds the secret, 2025, arXiv preprint arXiv:2503.01491】的方法，UI-TARS-2 集成了几项关键增强功能，以扩大探索空间并提高稳定性，尤其是在长时程设置中：
* 奖励塑造（Reward Shaping）：为了促进更具策略性的智能体行为，奖励信号主要根据最终结果的正确性来确定。在某些情况下，我们采用格式奖励和长度惩罚来阻止过早终止或无限持续。
* 解耦 GAE（Decoupled GAE）：为了解决长序列中价值估计偏差的挑战，我们采用了分离式广义优势估计（Decoupled-GAE）【82, What’s behind ppo’s collapse in long-cot? value optimization holds the secret, 2025, arXiv preprint arXiv:2503.01491】，允许策略和价值函数的优势计算使用不同的系数。具体来说，我们设置 $\lambda_{policy}$ 和 $\lambda_{critic}$ 不同。这种方法可以防止在处理长 token 序列时评论家（critic）的价值估计衰减，从而在长时程训练中提高稳定性。
* 长度自适应 GAE（Length-Adaptive GAE）：为了缓解不同长度序列优势估计不一致的问题，我们采用了长度自适应广义优势估计（Length-Adaptive GAE）【83, Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks, 2025, arXiv preprint arXiv:2504.05118】技术，根据序列长度调整 GAE 参数 $\lambda_{policy}$。具体来说，我们在长度自适应公式 $\lambda_{policy} = 1 - \frac{1}{\alpha l}$ 中设置 $\alpha = 0.05$，以控制整体的偏差-方差权衡。
* 价值预训练（Value Pretraining）：为了减轻价值初始化偏差，我们采用了价值预训练【83, Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks, 2025, arXiv preprint arXiv:2504.05118】，这包括在固定策略下离线训练价值模型至收敛。具体而言，我们从一个固定的策略（例如 $\pi_{sft}$）中持续采样响应，并使用 $\lambda = 1.0$ 的 GAE（等同于蒙特卡洛回报）来更新价值模型，从而提供稳定可靠的优化。训练持续进行，直到价值损失和解释方差等关键指标达到足够低的水平，表明有效收敛。得到的价值模型检查点随后用作后续实验的初始化，确保从一开始就进行更准确和校准的价值估计。
* 更高裁剪（Clip Higher）：为了进一步促进探索，我们根据 DAPO 【80, Dapo: An open-source llm reinforcement learning system at scale, 2025, arXiv preprint arXiv:2503.14476】的建议，解耦了 PPO 的裁剪参数，引入了不同的下限（$\epsilon_{low}$）和上限（$\epsilon_{high}$）裁剪边界。增加 $\epsilon_{high}$ 为提高低概率动作的可能性提供了更大的灵活性，从而扩大了探索空间。相反，$\epsilon_{low}$ 保持在一个较低的值，以避免过早地消除 tokens，因为这可能会导致潜在输出多样性的崩溃。

2.6 通过参数插值合并垂直智能体

统一数字智能体的目标与挑战。UI-TARS-2 的一个核心目标是开发一个统一的数字智能体，它不仅能处理结构化的桌面和网页界面，还能扩展到动态环境。一个自然的方法是在所有环境和任务上进行联合强化学习。然而，这在实践中具有挑战性：不同领域在动作/状态空间、任务时长和部署复杂性上差异巨大，使得大规模联合优化不稳定且计算成本过高。

采用参数插值策略。我们采用了一种更简单但有效的策略，该策略利用了这样一个观察：从同一个预训练检查点微调的模型在参数空间中保持近似的线性模式连接【48, Exploring mode connectivity for pre-trained language models, 2022, Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing】。这一特性使我们能够为不同领域独立训练专门的智能体，然后通过参数插值将它们合并，从而在不增加多领域联合训练成本的情况下整合它们的优势。

参数插值的具体实现。具体来说，我们从一个共享的 SFT 初始化开始，针对不同环境进行多次 RL 运行——例如，专注于信息检索的 GUI-Browsing 任务，涵盖更广泛网页操作的 GUI-General 任务，以及基于交互式小游戏的 Game 环境——同时还有在其他领域和相应工具（例如 GUI-SDK）上训练的附加变体。然后，我们通过插值它们的参数来合并这些训练好的模型：

$$\theta^{(\text{merge})} = \sum_{k \in \{\text{GUI-Browsing, GUI-General, Game, GUI-SDK,...}\}} \alpha_k \cdot \theta^{(k)}, \text{ s.t. } \sum_k \alpha_k = 1, \alpha_k \ge 0,$$

其中 $\theta^{(k)}$ 表示每个领域专业化模型的参数。经验证明，这种插值策略保留了每个专业垂直领域的性能，同时实现了强大的跨领域泛化。在需要来自多个领域技能的复合任务上，合并后的模型在每个相关领域的表现几乎与最佳专业模型相当，且无需额外的优化成本。

A3 实验环境

UI-TARS-2 的训练和评估基于以下环境配置：
- 模型与架构：
- 初始化：从预训练的 Seed-thinking-1.6 【11, Seed-thinking-1.6, 2025, https://seed.bytedance.com/zh/seed1_6】检查点开始，并利用其所有后训练数据。
- 视觉编码器：包含一个 5.32 亿参数的视觉编码器。
- 语言模型：一个拥有 230 亿活跃参数（总计 2300 亿）的混合专家（MoE）大语言模型。
- 训练流程：在基础模型上进行多轮迭代训练，包括监督微调（SFT）、强化学习（RL）和拒绝采样微调（RFT）。

基准测试集：
- GUI 基准：
  - 计算机使用：OSWorld 【75, Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments, 2024, Advances in Neural Information Processing Systems】（369个任务，跨Ubuntu, Windows, macOS），WindowsAgentArena 【10, Windows agent arena: Evaluating multi-modal os agents at scale, 2024】（超过150个Windows特定任务），TerminalBench 【66, Terminal-bench: A benchmark for ai agents in terminal environments, 2025, https://github.com/laude-institute/terminal-bench】（命令行环境能力），以及 SWE-Bench 【28, SWE-bench: Can language models resolve real-world github issues?, 2023, arXiv preprint arXiv:2310.06770】（仓库级软件工程任务）。
  - 移动设备使用：AndroidWorld 【52, Androidworld: A dynamic benchmarking environment for autonomous agents, 2024, https://arxiv.org/abs/2405.14573】（116个任务，跨20个移动应用）。
  - 浏览器使用：Online-Mind2Web 【77, An illusion of progress? assessing the current state of web agents, 2025, https://arxiv.org/abs/2504.01382】（300个真实任务，跨136个网站），BrowseComp-en 【73, Browsecomp: A simple yet challenging benchmark for browsing agents, 2025, arXiv preprint arXiv:2504.12516】和 BrowseComp-zh 【88, Browsecomp-zh: Benchmarking web browsing ability of large language models in chinese, 2025, arXiv preprint arXiv:2504.19314】（高难度多跳问题）。
- 游戏基准：
  - 15 Games Collection：从自建游戏池中挑选15款游戏，用于衡量领域内性能。
  - LMGame-Bench 【24, lmgame-bench: How good are llms at playing games?, 2025, https://arxiv.org/abs/ 2505.15146】：一个域外（OOD）基准，评估LLM智能体在6款经典游戏中的表现。
硬件与软件：
- 执行环境：
  - GUI 任务在云虚拟机（Windows, Ubuntu, Android）或浏览器沙箱中执行。
  - 游戏任务在硬件加速的浏览器沙箱中执行，仅使用截图作为视觉输入。
- 动作空间：智能体通过类似人类的动作（鼠标点击、按键、滚动）与环境交互。
对比基线：
- GUI基准：与业界领先的专有模型进行比较，包括 Claude 4 【3, Claude 3.7 sonnet system card, 2025】、OpenAI-o3 【44, Openai o3 and o4-mini system card, 2025, https://cdn.openai.com/pdf/ 2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf/】、OpenAI CUA-o3 【45, Computer-using agent (cua), 2025, https://openai.com/index/computer-using-agent/】以及先前的 UI-TARS 版本。
- 游戏基准：与 Claude (Computer Use) 【2, Developing a computer use model, 2024, https://www.anthropic.com/news/developing-computer-use】、OpenAI CUA-o3、OpenAI-o3、Gemini-2.5 Pro 【14, Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities, 2025, arXiv preprint arXiv:2507.06261】以及 Claude 3.7/4 【3, Claude 3.7 sonnet system card, 2025】进行比较。

A4 实验结果

主要结果

GUI 主要结果 (Table 1):

全面超越基线：UI-TARS-2 在所有 GUI 智能体基准测试中均表现出色，优于之前的 UI-TARS 版本以及 OpenAI CUA-o3 和 Claude 4 等强基线。
显著性能提升：相较于 UI-TARS-1.5，UI-TARS-2 在所有报告的基准上均有提升，在 OSWorld 上达到 47.5%，WindowsAgentArena 上达到 50.6%，AndroidWorld 上达到 73.3%，Online-Mind2Web 上达到 88.2%，凸显了迭代训练和强化学习的优势。
GUI-SDK 带来的增益：通过集成扩展的 SDK 功能，UI-TARS-2 能够处理超越 GUI 表层交互的系统级任务。在此设置下，模型在 Terminal Bench 上准确率达到 45.3%，SWE-Bench 上达到 68.7%，BrowseComp-zh 上达到 50.5%，BrowseComp-en 上达到 29.6%。相比之下，仅限 GUI 操作时，在 BrowseComp-zh 和 BrowseComp-en 上的得分分别为 32.1% 和 7.0%，证明了 GUI-SDK 增强了模型复杂的推理和工具使用能力。
OOD 泛化能力：尽管 RL 训练主要集中在浏览器任务上，但模型表现出强大的 OOD 泛化能力。在 Online-Mind2Web 上，RL 将准确率从 83.7% 提升至 88.2%。更引人注目的是，模型的能力有效迁移到了非训练重点的领域：例如，OSWorld 提升了近 10.5%（从 43.0% 到 47.5%），AndroidWorld 提升了超过 8.7%（从 64.6% 到 73.3%）。

游戏主要结果 (Table 2 & Table 3):
- 域内游戏表现强劲：在 15 款内部游戏套件中，UI-TARS-2 的平均归一化分数为 59.8，接近人类水平的 60%，远超 OpenAI CUA（+35.0分）和 Claude Computer Use（+38.2分）。在多款游戏中（如 2048, Infinity-Loop, Shapes），模型表现已接近甚至超越人类水平。
- 域外游戏具有竞争力：在 OOD 的 LMGame-Bench 上，UI-TARS-2 与前沿通用模型相比仍具竞争力。例如，在 2048、Candy Crush 和 Super Mario Bros. 等游戏上表现出色。尽管在 Tetris 和 Sokoban 等长时程规划游戏中表现较弱，但总体结果表明模型能有效迁移到未见过的游戏机制和环境中。

表格与图表引用:
- Table 1 展示了模型在计算机使用、移动设备使用和浏览器使用基准上的性能。
- Table 2 展示了在 15 款游戏合集上的结果。
- Table 3 展示了在 LMGame 基准测试上的结果。

表1 在计算机使用、移动设备使用和浏览器使用基准测试上的性能。“-”表示不可用；✗表示缺乏能力；†表示使用包括GUI-SDK在内的扩展动作空间获得的结果。由于与我们内部环境的兼容性问题，Terminal Bench的结果是在80个任务中的75个上报告的。缩写：WAA (WindowsAgentArena), BC-en (BrowseComp-en), BC-zh (BrowseComp-zh), TB (Terminal Bench), SB (SWE-Bench)。
表2 15款游戏合集结果。最后一行报告了平均归一化分数，通过将每个游戏分数除以人类分数并在所有游戏中取平均值计算得出。

详细分析

训练奖励与熵 (Fig 7, Fig 8)：在 GUI-Browsing、GUI-General 和游戏任务中，RL 训练奖励均呈明显上升趋势，表明策略在持续改进。与推理任务中熵单调减少不同，GUI 和游戏实验中的熵经常上升，这表明模型在训练中维持甚至扩展了探索空间，以学习新的交互模式，而不是过早地陷入狭隘的利用。
VLM-as-Verifier 的可行性 (Fig 7)：尽管使用了生成式奖励模型或 GPT-4o-as-judge，但奖励并未出现明显的“奖励黑客”现象。这表明在智能体 RL 中使用 VLM 作为验证器是可行的，因为任务完成度可以被更具体地定义和客观地评估。在一个人力标注的 ORM 评估集上，UI-TARS-2 作为 ORM 的 F1 分数达到 83.8，证明了其鲁棒性。
平均思考长度 (Fig 9)：在 GUI 实验中，随着 RL 训练的进行，模型的平均单步思考长度持续下降，这可能是因为智能体通过与环境的直接交互获得奖励，减少了冗长思考的必要性。在游戏领域，思考长度呈现周期性模式，与游戏难度的逐步提升有关：进入新关卡时思考长度增加，熟悉后则减少。
环境交互轮数 (Fig 10a)：交互轮数与性能并非总是正相关。在 GUI-General 任务中，随着奖励增加，完成任务所需的步数反而减少，表明模型通过 RL 学习变得更高效。
价值模型预训练的影响 (Fig 10b)：引入价值模型预训练阶段后，价值模型引导策略学习的能力得到增强，从而在整个训练过程中获得持续更高的奖励。
推理时伸缩性 (Fig 11)：在游戏和 OSWorld 任务中，随着允许的最大步数增加，UI-TARS-2 的性能曲线稳步上升，没有出现不稳定的峰值，表明其能有效利用更多的计算预算来解锁新子目标，而基线模型则很快趋于平缓。
PPO vs. GRPO (Fig 12)：在初步评估中，PPO 的表现始终优于 GRPO，奖励更高且波动性更低，因此被选为主要的优化算法。
游戏 RL 中的行为分析 (Fig 13)：多个游戏在训练结束时达到或接近人类水平。一些从零开始学习的游戏也取得了不错的成绩，表明模型具备了真正的通用游戏推理能力。部分游戏出现平台期，暗示了模型骨干的推理能力上限。
GUI SDK RL 分析 (Fig 14)：在 GUI-SDK RL 期间，训练分数随步骤增加而上升，而熵则持续下降，表明模型在使用外部工具方面越来越熟练和自信。
混合智能体 RL (Fig 15)：通过混合训练（同时使用 GUI-only 和 GUI-SDK 接口）的模型，在纯 GUI 任务上的表现优于仅在 GUI 上训练的基线，证明了通过更强接口（GUI-SDK）学到的知识能有效迁移到受限接口。共享价值模型也提高了训练稳定性和奖励估计的准确性。
量化对延迟的优化：使用 W4A8 量化将 token 生成速率从 29.6 提升到 47 tokens/s，每轮交互的端到端延迟从 4.0 秒降至 2.5 秒，而在 OSWorld 上的准确率仅从 47.5 轻微下降到 44.4，显示了良好的效率-性能权衡。

图7 UI-TARS-2 中 GUI-Browsing、GUI-General 和游戏场景的训练奖励动态。
图8 UI-TARS-2 中 GUI-Browsing、GUI-General 和游戏场景的训练熵动态。
图9 UI-TARS-2 RL 训练中 GUI-Browsing、GUI-General 和游戏场景的平均单步思考长度的训练动态。
图10 (a) UI-TARS-2 RL 训练中 GUI-Browsing 和 GUI-General 场景的平均交互轮数训练动态；(b) GUI-Browsing 场景中价值模型预训练的影响。
图11 在 OSWorld 和游戏基准上的推理时伸缩性评估。

图13 15个游戏合集中每个游戏的训练奖励动态。
图14 GUI-SDK RL 的训练动态（训练集得分和熵）。

A7 补充细节

4 相关工作

早期 LLM 智能体。早期的基于大语言模型（LLM）的智能体主要是由提示配方驱动的通用系统，这些配方结合了推理和行动，或是通过工具增强的接口。代表性例子包括将思维链与环境行动交错的 ReAct 【79, React: Synergizing reasoning and acting in language models, 2023, International Conference on Learning Representations (ICLR)】，模块化的神经符号工具中心 MRKL 【29, MRKL systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning, 2022, arXiv preprint arXiv:2205.00445】，以及自监督调用外部工具 API 的 Toolformer 【54, Toolformer: Language models can teach themselves to use tools, 2023, arXiv preprint arXiv:2302.04761】。与此同时，DeepMind 的 Gato 展示了一个单一的多任务策略，能够跨多种具身形态行动【53, A generalist agent, 2022, arXiv preprint arXiv:2205.06175】。基于这些思想，研究很快专向了具有专用基准和交互环境的垂直领域。对于网页/GUI 交互，Mind2Web 【16, Mind2web: Towards a generalist agent for the web, 2023, NeurIPS Datasets and Benchmarks】和 WebArena 【89, Webarena: A realistic web environment for building autonomous agents, 2023, arXiv preprint arXiv:2307.13854】为网页智能体提供了现实的网站和任务，而 OSWorld 【75, Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments, 2024, Advances in Neural Information Processing Systems】则支持在桌面应用上进行基于执行的评估。对于软件工程，SWE-bench 【28, SWE-bench: Can language models resolve real-world github issues?, 2023, arXiv preprint arXiv:2310.06770】为端到端的仓库级错误修复设定了框架，并催生了一系列如带有智能体-计算机接口（ACI）的 SWE-agent 【78, Swe-agent: Agent-computer interfaces enable automated software engineering, 2024, https://arxiv.org/ abs/2405.15793】和用于仓库级文档和维护的 RepoAgent 【36, Repoagent: An llm-powered open-source framework for repository-level code documentation generation, 2024, https://arxiv. org/abs/2402.16667】等智能体系统。

GUI 智能体的发展。自早期的定位数据集如 ScreenSpot 【13, Seeclick: Harnessing gui grounding for advanced visual gui agents, 2024, arXiv preprint arXiv:2401.10935】发布以来，GUI 智能体的研究迅速发展。这些数据集很快达到饱和，促使研究焦点从定位单个元素转向开发能执行完整 GUI 任务的端到端智能体。开源项目率先推动了这一转变，如 CogAgent 【23, Cogagent: A visual language model for gui agents, 2024, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition】、OSAtlas 【74, Os-atlas: A foundation action model for generalist gui agents, 2024, arXiv preprint arXiv:2410.23218】和 Aguvis 【76, Aguvis: Unified pure vision agents for autonomous gui interaction, 2024, arXiv preprint arXiv:2412.04454】。行业巨头，包括 OpenAI 【46, Operator, 2025, https://openai.com/index/introducing-operator/】、Anthropic 【3, Claude 3.7 sonnet system card, 2025】和字节跳动【49, Ui-tars: Pioneering automated gui interaction with native agents, 2025, arXiv preprint arXiv:2501.12326】，也迅速加入，导致计算机使用智能体的快速普及。早期方法主要以数据驱动，依赖多样化的人类演示进行监督微调。这些方法虽催生了第一代 GUI 智能体，但在复杂环境中泛化能力有限且鲁棒性差。最近，强化学习（RL）已成为一个有前景的方向，如 ARPO 【35, Arpo: End-to-end policy optimization for gui agents with experience replay, 2025, arXiv preprint arXiv:2505.16282】和 Mobile-GUI-R1 【58, Mobilegui-rl: Advancing mobile gui agent through reinforcement learning in online environment, 2025, arXiv preprint arXiv:2507.05720】等系统应用了基于 RL 的训练。

游戏智能体的演进。游戏环境为研究交互式决策提供了天然的试验场，其中长时程控制和策略性探索至关重要。数字游戏因其复杂性、多样性和可控性，在人工智能研究中一直占据核心地位。开创性工作涵盖了从经典棋盘游戏如围棋【60, Mastering the game of go without human knowledge, 2017, nature】，到 Atari 基准【9, The arcade learning environment: An evaluation platform for general agents, 2013, Journal of artificial intelligence research】，再到大规模策略游戏如星际争霸II【37, Large language models play starcraft ii: Benchmarks and a chain of summarization approach, 2024, Advances in Neural Information Processing Systems】，以及开放式环境如 Minecraft 【17, Minedojo: Building open-ended embodied agents with internet-scale knowledge, 2022, Advances in Neural Information Processing Systems】。然而，这些工作的一个关键局限是其特异性：智能体通常针对单一游戏进行优化，使用量身定制的策略和参数，这阻碍了跨不同环境的泛化【8, Video pretraining (vpt): Learning to act by watching unlabeled online videos, 2022, Advances in Neural Information Processing Systems; 38, Human-level control through deep reinforcement learning, 2015, nature; 67, Grandmaster level in starcraft ii using multi-agent reinforcement learning, 2019, nature】。

通用游戏智能体的兴起。LLM 和 VLM 的出现将注意力转向了更通用的智能体【53, A generalist agent, 2022, arXiv preprint arXiv:2205.06175】。近期工作探索了它们在复杂游戏场景中的应用，如宝可梦【4, Claude’s extended thinking, 2025, https://www.anthropic.com/news/ visible-extended-thinking; 14, Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities, 2025, arXiv preprint arXiv:2507.06261】。为应对游戏的长时程和多模态特性，许多方法采用工作流式设计，为模型配备了显式的记忆【68, Voyager: An open-ended embodied agent with large language models, 2023, arXiv preprint arXiv:2305.16291; 72, Jarvis-1: Open-world multi-task agents with memory-augmented multimodal language models, 2024, IEEE Transactions on Pattern Analysis and Machine Intelligence】和规划【59, Reflexion: Language agents with verbal reinforcement learning, 2023, Advances in Neural Information Processing Systems; 81, Plan4mc: Skill reinforcement learning and planning for open-world minecraft tasks, 2023, arXiv preprint arXiv:2303.16563; 86, Proagent: building proactive cooperative agents with large language models, 2024, Proceedings of the AAAI Conference on Artificial Intelligence】模块，或在特定游戏上微调 VLM 以实现领域专业化【31, Jarvis-vla: Post-training large-scale vision language models to play visual games with keyboards and mouse, 2025, arXiv preprint arXiv:2503.16365; 51, Scaling instructable agents across many simulated worlds, 2024, arXiv preprint arXiv:2404.10179】。一个关键区别在于交互模态。大多数现有系统依赖于通过游戏 API 暴露的文本观察和预定义的语义动作【14, Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities, 2025, arXiv preprint arXiv:2507.06261; 68, Voyager: An open-ended embodied agent with large language models, 2023, arXiv preprint arXiv:2305.16291】。相比之下，我们的框架通过与 GUI 任务相同的模态——基于视觉输入的原生 GUI 动作——与游戏进行交互。这种统一的接口将游戏环境与通用计算机使用场景相结合，无需额外的手工模块，并凸显了构建能跨多种交互式数字环境泛化的智能体的潜力。

其他相关研究方向。除了 GUI 和游戏，另外两条研究路线为交互式智能体的设计提供了补充性见解。MCP 【1, Introducing the model context protocol, 2024, https://www.anthropic.com/news/ model-context-protocol】等协议引入了标准化的灵活工具集成机制，使智能体能够无缝地与搜索引擎、文件解析器或外部 API 交互。在此基础上，近期工作主要有两个方向：端到端强化学习【18, Retool: Reinforcement learning for strategic tool use in llms, 2025, https: //http://arxiv.org/abs/2504.11536; 33, Torl: Scaling tool-integrated rl, 2025, https://arxiv.org/abs/ 2503.23383; 61, R1-searcher++: Incentivizing the dynamic knowledge acquisition of llms via reinforcement learning, 2025, arXiv preprint arXiv:2505.17005; 69, Acting less is reasoning more! teaching model to act efficiently, 2025, https://arxiv.org/abs/2504.14870】，直接优化带工具调用的多步推理；以及基于工作流的方法【22, Owl: A large language model for it operations, 2024, https://arxiv.org/abs/2309.09298; 50, Alita: Generalist agent enabling scalable agentic reasoning with minimal predefinition and maximal self-evolution, 2025, https://arxiv.org/abs/2505.20286】，通过脚本化程序编排工具但通常缺乏灵活性。早期研究主要集中在简单的工具增强任务上，如 HotpotQA 或 MathQA 【19, Tora: A tool-integrated reasoning agent for mathematical problem solving, 2024, https://arxiv.org/abs/ 2309.17452; 32, Search-o1: Agentic search-enhanced large reasoning models, 2025, https://arxiv.org/abs/2501.05366】，而最近的努力引入了更难的基准，如 BrowseComp 【73, Browsecomp: A simple yet challenging benchmark for browsing agents, 2025, arXiv preprint arXiv:2504.12516】，其中信息被故意在网站间混淆。这些基准揭示了仅在简单数据上训练的模型的局限性【62, Simpledeepsearcher: Deep information seeking via web-powered reasoning trajectory synthesis, 2025, CoRR】并推动了关于合成高难度数据集【30, Websailor: Navigating super-human reasoning for web agent, 2025, https://arxiv.org/abs/2507.02592】和构建多智能体或基于规划的系统【12, Mindsearch: Mimicking human minds elicits deep ai searcher, 2024, https://arxiv.org/abs/2407.20183; 26, Manusearch: Democratizing deep search in large language models with a transparent and open multi-agent framework, 2025, https://arxiv.org/abs/2505.18105】的研究。

LLM 代码智能体的发展。与此同时，基于 LLM 的代码智能体改变了软件自动化。SWE-bench 【28, SWE-bench: Can language models resolve real-world github issues?, 2023, arXiv preprint arXiv:2310.06770】为仓库级问题解决设立了基准，并启发了如 SWE-agent 【78, Swe-agent: Agent-computer interfaces enable automated software engineering, 2024, https://arxiv.org/ abs/2405.15793】等系统。随后出现了更丰富的数据集，包括 SWE-Gym 【47, Training software engineering agents and verifiers with swe-gym, 2025, https://arxiv.org/abs/2412.21139】、SWE-Bench-Extra 【6, Scaling data collection for training software engineering agents, 2024, Nebius blog】、SWE-ReBench 【7, Swe-rebench: An automated pipeline for task collection and decontaminated evaluation of software engineering agents, 2025, https://arxiv.org/ abs/2505.20411】和 MultiSWE-RL 【84, Multi-swe-bench: A multilingual benchmark for issue resolving, 2025, https://arxiv.org/abs/2504.02605】，这些数据集扩大了任务覆盖和编程语言多样性。OpenHands 【71, Openhands: An open platform for ai software developers as generalist agents, 2025, https://arxiv.org/abs/2407.16741】等框架推进了带执行反馈的沙箱化智能体编码，而 Terminal Bench 【66, Terminal-bench: A benchmark for ai agents in terminal environments, 2025, https://github.com/laude-institute/terminal-bench】则强调了命令行熟练度作为一项关键技能。同时，专有模型（Gemini 【14, Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities, 2025, arXiv preprint arXiv:2507.06261】、Claude 【5, Introducing claude 4, 2025, https://www.anthropic.com/news/claude-4】、GPT-5 【42, Introducing gpt 5, 2025, https://openai.com/index/introducing-gpt-5/】）和开源项目（Qwen-3 Coder 【65, Qwen3 technical report, 2025, https://arxiv.org/abs/2505.09388】、Kimi-K2 【64, Kimi k2: Open agentic intelligence, 2025, https://arxiv.org/abs/2507.20534】、GLM-4.5 【85, Glm-4.5: Agentic, reasoning, and coding (arc) foundation models, 2025, arXiv preprint arXiv:2508.06471】）都越来越重视智能体编码能力。这些趋势表明，强化学习、交互式反馈和精选数据集正成为扩展代码智能体的核心。

A5 结论

本文介绍了 UI-TARS-2，一个以原生 GUI 为中心的智能体模型，旨在处理结构化的计算机使用任务和动态的、类似游戏的交互环境。该模型通过一个迭代流程进行训练，该流程结合了多轮强化学习、监督微调、拒绝采样和持续预训练，从而在异构领域实现持续改进。实验表明，虽然领域专业化的变体可以在单个基准测试上取得最高分，但 UI-TARS-2 在一个统一的系统中，在 GUI、浏览器、移动和游戏任务上均取得了平衡且具有竞争力的性能。除了基准测试结果，我们对训练动态和交互扩展的分析为多轮智能体强化学习提供了实用的见解。我们还证明了，在多样化环境中的训练促进了参数共享和能力迁移，从而催生了将图形交互与更复杂形式的推理和决策相结合的混合技能。总而言之，UI-TARS-2 代表了向更强大、更可靠、更多功能的计算机使用智能体迈出的一步，为未来的研究提供了经验证据和方法论原则。

引用文献汇总

【1, Introducing the model context protocol, 2024, https://www.anthropic.com/news/ model-context-protocol】: 在“相关工作”章节中引用，作为引入标准化工具集成机制的协议示例。
【2, Developing a computer use model, 2024, https://www.anthropic.com/news/developing-computer-use 】: 在“实验环境”章节中引用，作为游戏基准测试的对比基线之一。
【3, Claude 3.7 sonnet system card, 2025】: 在“实验环境”章节中引用，作为GUI和游戏基准测试的对比基线之一。在“相关工作”中引用，作为行业推动计算机使用智能体的例子。
【4, Claude’s extended thinking, 2025, https://www.anthropic.com/news/ visible-extended-thinking】: 在“相关工作”章节中引用，作为将LLM应用于复杂游戏场景（如宝可梦）的例子。
【5, Introducing claude 4, 2025, https://www.anthropic.com/news/claude-4 】: 在“相关工作”章节中引用，作为LLM代码智能体领域的一个专有模型。
【6, Scaling data collection for training software engineering agents, 2024, Nebius blog】: 在“相关工作”章节中引用，作为软件工程领域更丰富的数据集之一（SWE-Bench-Extra）。
【7, Swe-rebench: An automated pipeline for task collection and decontaminated evaluation of software engineering agents, 2025, https://arxiv.org/ abs/2505.20411】: 在“相关工作”章节中引用，作为软件工程领域更丰富的数据集之一（SWE-ReBench）。
【8, Video pretraining (vpt): Learning to act by watching unlabeled online videos, 2022, Advances in Neural Information Processing Systems】: 在“相关工作”章节中引用，说明传统游戏智能体优化的特异性，阻碍了跨环境泛化。
【9, The arcade learning environment: An evaluation platform for general agents, 2013, Journal of artificial intelligence research】: 在“相关工作”章节中引用，作为AI研究中重要的游戏基准（Atari）。
【10, Windows agent arena: Evaluating multi-modal os agents at scale, 2024】: 在“主要贡献”和“实验环境”章节中引用，作为评估UI-TARS-2性能的GUI基准之一。
【11, Seed-thinking-1.6, 2025, https://seed.bytedance.com/zh/seed1_6 】: 在“数据飞轮概述”和“实验环境”章节中引用，作为UI-TARS-2的初始化预训练检查点。
【12, Mindsearch: Mimicking human minds elicits deep ai searcher, 2024, https://arxiv.org/abs/2407.20183 】: 在“相关工作”章节中引用，作为构建多智能体或基于规划的系统的研究。
【13, Seeclick: Harnessing gui grounding for advanced visual gui agents, 2024, arXiv preprint arXiv:2401.10935】: 在“相关工作”章节中引用，作为GUI智能体研究早期的定位数据集（ScreenSpot）。
【14, Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities, 2025, arXiv preprint arXiv:2507.06261】: 在“实验环境”和“相关工作”章节中引用，作为游戏基准的对比基线，以及应用于复杂游戏场景和代码智能体领域的专有模型。
【15, Molmo and pixmo: Open weights and open data for state-of-the-art multimodal models, 2024, arXiv e-prints】: 在“用于持续预训练的原位标注”章节中引用，其提出的“出声思考”协议启发了本文的数据标注方法。
【16, Mind2web: Towards a generalist agent for the web, 2023, NeurIPS Datasets and Benchmarks】: 在“相关工作”章节中引用，作为为Web智能体提供真实网站和任务的基准。
【17, Minedojo: Building open-ended embodied agents with internet-scale knowledge, 2022, Advances in Neural Information Processing Systems】: 在“相关工作”章节中引用，作为AI研究中重要的开放式游戏环境（Minecraft）。
【18, Retool: Reinforcement learning for strategic tool use in llms, 2025, https: //http://arxiv.org/abs/2504.11536】: 在“相关工作”章节中引用，作为直接优化工具调用的端到端强化学习研究。
【19, Tora: A tool-integrated reasoning agent for mathematical problem solving, 2024, https://arxiv.org/abs/ 2309.17452】: 在“相关工作”章节中引用，作为早期简单的工具增强任务（MathQA）的研究。
【20, A survey on llm-as-a-judge, 2024, arXiv preprint arXiv:2411.15594】: 在“奖励设计”章节中引用，其LLM-as-Judge方法被用于评估GUI-Browsing任务中智能体的预测。
【21, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv preprint arXiv:2501.12948】: 在“多轮强化学习”章节中引用，其RLVR框架是本文多轮RL框架的基础。
【22, Owl: A large language model for it operations, 2024, https://arxiv.org/abs/2309.09298 】: 在“相关工作”章节中引用，作为基于工作流的工具编排方法。
【23, Cogagent: A visual language model for gui agents, 2024, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition】: 在“相关工作”章节中引用，作为推动GUI智能体发展的开源系统之一。
【24, lmgame-bench: How good are llms at playing games?, 2025, https://arxiv.org/abs/ 2505.15146】: 在“主要贡献”和“实验环境”章节中引用，作为评估UI-TARS-2性能的OOD游戏基准。
【25, Os agents: A survey on mllm-based agents for general computing devices use, 2025, arXiv preprint arXiv:2508.04482】: 在“引言”章节中引用，说明GUI智能体开发是人工智能的核心挑战。
【26, Manusearch: Democratizing deep search in large language models with a transparent and open multi-agent framework, 2025, https://arxiv.org/abs/2505.18105 】: 在“相关工作”章节中引用，作为构建多智能体或基于规划的系统的研究。
【27, Openai o1 system card, 2024, arXiv preprint arXiv:2412.16720】: 在“引言”章节中引用，说明大规模预训练和强化学习在推理和聊天领域已证明有效。
【28, SWE-bench: Can language models resolve real-world github issues?, 2023, arXiv preprint arXiv:2310.06770】: 在“主要贡献”、“实验环境”和“相关工作”中多次引用，作为软件工程任务的重要基准。
【29, MRKL systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning, 2022, arXiv preprint arXiv:2205.00445】: 在“相关工作”章节中引用，作为早期LLM智能体的代表性例子。
【30, Websailor: Navigating super-human reasoning for web agent, 2025, https://arxiv.org/abs/2507.02592 】: 在“相关工作”章节中引用，作为合成高难度数据集的研究。
【31, Jarvis-vla: Post-training large-scale vision language models to play visual games with keyboards and mouse, 2025, arXiv preprint arXiv:2503.16365】: 在“相关工作”章节中引用，作为通过微调VLM实现游戏领域专业化的例子。
【32, Search-o1: Agentic search-enhanced large reasoning models, 2025, https://arxiv.org/abs/2501.05366 】: 在“相关工作”章节中引用，作为早期简单的工具增强任务（HotpotQA）的研究。
【33, Torl: Scaling tool-integrated rl, 2025, https://arxiv.org/abs/ 2503.23383】: 在“相关工作”章节中引用，作为直接优化工具调用的端到端强化学习研究。
【34, Advances and challenges in foundation agents: From brain-inspired intelligence to evolutionary, collaborative, and safe systems, 2025, arXiv preprint arXiv:2504.01990】: 在“引言”章节中引用，说明传统方法采用模块化流水线。
【35, Arpo: End-to-end policy optimization for gui agents with experience replay, 2025, arXiv preprint arXiv:2505.16282】: 在“相关工作”章节中引用，作为应用RL训练的GUI智能体系统。
【36, Repoagent: An llm-powered open-source framework for repository-level code documentation generation, 2024, https://arxiv. org/abs/2402.16667】: 在“相关工作”章节中引用，作为软件工程领域的智能体系统。
【37, Large language models play starcraft ii: Benchmarks and a chain of summarization approach, 2024, Advances in Neural Information Processing Systems】: 在“相关工作”章节中引用，作为AI研究中的大规模策略游戏（星际争霸II）。
【38, Human-level control through deep reinforcement learning, 2015, nature】: 在“相关工作”章节中引用，说明传统游戏智能体优化的特异性。
【39, Kimi-researcher: End-to-end rl training for emerging agentic capabilities, 2025, https://moonshot.ai/blog/kimi-researcher 】: 在“通过有状态环境实现异步智能体部署”章节中引用，其流式训练概念与本文类似。
【40, Gui agents: A survey, 2024, arXiv preprint arXiv:2412.13501】: 在“引言”章节中引用，说明GUI智能体开发是人工智能的核心挑战。
【41, OpenAI: Introducing ChatGPT, 2022, https://openai.com/blog/chatgpt 】: 在“引言”章节中引用，说明大规模预训练和强化学习在推理和聊天领域已证明有效。
【42, Introducing gpt 5, 2025, https://openai.com/index/introducing-gpt-5/ 】: 在“相关工作”章节中引用，作为LLM代码智能体领域的专有模型。
【43, Introducing deep research - openai, 2025, https://openai.com/index/introducing-deep-research/ 】: 在“任务设计”章节中引用，本文的GUI浏览任务在概念上与其类似。
【44, Openai o3 and o4-mini system card, 2025, https://cdn.openai.com/pdf/ 2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf/】: 在“实验环境”章节中引用，作为GUI基准测试的对比基线。
【45, Computer-using agent (cua), 2025, https://openai.com/index/computer-using-agent/ 】: 在“实验环境”章节中引用，作为GUI基准测试的对比基线。
【46, Operator, 2025, https://openai.com/index/introducing-operator/ 】: 在“相关工作”章节中引用，作为行业推动计算机使用智能体的例子。
【47, Training software engineering agents and verifiers with swe-gym, 2025, https://arxiv.org/abs/2412.21139 】: 在“相关工作”章节中引用，作为软件工程领域更丰富的数据集之一（SWE-Gym）。
【48, Exploring mode connectivity for pre-trained language models, 2022, Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing】: 在“通过参数插值合并垂直智能体”章节中引用，其关于模型在参数空间中保持线性模式连接的观察是本文参数插值策略的基础。
【49, Ui-tars: Pioneering automated gui interaction with native agents, 2025, arXiv preprint arXiv:2501.12326】: 在“引言”、“形式化定义”、“用于监督微调的交互式标注”和“相关工作”中多次引用，作为本文工作的基础和原生智能体视角的来源。
【50, Alita: Generalist agent enabling scalable agentic reasoning with minimal predefinition and maximal self-evolution, 2025, https://arxiv.org/abs/2505.20286 】: 在“相关工作”章节中引用，作为基于工作流的工具编排方法。
【51, Scaling instructable agents across many simulated worlds, 2024, arXiv preprint arXiv:2404.10179】: 在“相关工作”章节中引用，作为通过微调VLM实现游戏领域专业化的例子。
【52, Androidworld: A dynamic benchmarking environment for autonomous agents, 2024, https://arxiv.org/abs/2405.14573 】: 在“主要贡献”和“实验环境”章节中引用，作为评估UI-TARS-2性能的移动设备使用基准。
【53, A generalist agent, 2022, arXiv preprint arXiv:2205.06175】: 在“相关工作”章节中引用，作为通用智能体研究的代表（Gato）。
【54, Toolformer: Language models can teach themselves to use tools, 2023, arXiv preprint arXiv:2302.04761】: 在“相关工作”章节中引用，作为早期LLM智能体的代表性例子。
【55, Proximal policy optimization algorithms, 2017, arXiv preprint arXiv:1707.06347】: 在“引言”章节中引用，作为本文RL框架中使用的近端策略优化（PPO）算法的来源。
【56, Ui-tars-1.5, 2025, https://seed-tars.com/1.5 】: 在“主要贡献”章节中引用，作为UI-TARS-2的前身版本进行比较。
【57, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, https://arxiv.org/abs/2402.03300 】: 在“实验结果”章节中引用，其GRPO算法被用作与PPO的对比。
【58, Mobilegui-rl: Advancing mobile gui agent through reinforcement learning in online environment, 2025, arXiv preprint arXiv:2507.05720】: 在“相关工作”章节中引用，作为应用RL训练的GUI智能体系统。
【59, Reflexion: Language agents with verbal reinforcement learning, 2023, Advances in Neural Information Processing Systems】: 在“相关工作”章节中引用，作为为模型配备规划模块的例子。
【60, Mastering the game of go without human knowledge, 2017, nature】: 在“相关工作”章节中引用，作为AI研究中经典的棋盘游戏（围棋）。
【61, R1-searcher++: Incentivizing the dynamic knowledge acquisition of llms via reinforcement learning, 2025, arXiv preprint arXiv:2505.17005】: 在“相关工作”章节中引用，作为直接优化工具调用的端到端强化学习研究。
【62, Simpledeepsearcher: Deep information seeking via web-powered reasoning trajectory synthesis, 2025, CoRR】: 在“相关工作”章节中引用，说明复杂基准揭示了仅在简单数据上训练的模型的局限性。
【63, A survey on (m) llm-based gui agents, 2025, arXiv preprint arXiv:2504.13865】: 在“引言”章节中引用，说明GUI智能体开发是人工智能的核心挑战。
【64, Kimi k2: Open agentic intelligence, 2025, https://arxiv.org/abs/2507.20534 】: 在“相关工作”章节中引用，作为LLM代码智能体领域的开源项目。
【65, Qwen3 technical report, 2025, https://arxiv.org/abs/2505.09388 】: 在“相关工作”章节中引用，作为LLM代码智能体领域的开源项目。
【66, Terminal-bench: A benchmark for ai agents in terminal environments, 2025, https://github.com/laude-institute/terminal-bench 】: 在“主要贡献”、“实验环境”和“相关工作”中引用，作为评估命令行熟练度的基准。
【67, Grandmaster level in starcraft ii using multi-agent reinforcement learning, 2019, nature】: 在“相关工作”章节中引用，说明传统游戏智能体优化的特异性。
【68, Voyager: An open-ended embodied agent with large language models, 2023, arXiv preprint arXiv:2305.16291】: 在“相关工作”章节中引用，作为为模型配备记忆模块以及依赖文本观察和预定义动作的例子。
【69, Acting less is reasoning more! teaching model to act efficiently, 2025, https://arxiv.org/abs/2504.14870 】: 在“相关工作”章节中引用，作为直接优化工具调用的端到端强化学习研究。
【70, Gui agents with foundation models: A comprehensive survey, 2024, arXiv preprint arXiv:2411.04890】: 在“引言”章节中引用，说明GUI智能体开发是人工智能的核心挑战。
【71, Openhands: An open platform for ai software developers as generalist agents, 2025, https://arxiv.org/abs/2407.16741 】: 在“相关工作”章节中引用，作为推进沙箱化智能体编码的框架。
【72, Jarvis-1: Open-world multi-task agents with memory-augmented multimodal language models, 2024, IEEE Transactions on Pattern Analysis and Machine Intelligence】: 在“相关工作”章节中引用，作为为模型配备记忆模块的例子。
【73, Browsecomp: A simple yet challenging benchmark for browsing agents, 2025, arXiv preprint arXiv:2504.12516】: 在“主要贡献”、“实验环境”和“相关工作”中引用，作为高难度信息检索基准。
【74, Os-atlas: A foundation action model for generalist gui agents, 2024, arXiv preprint arXiv:2410.23218】: 在“相关工作”章节中引用，作为推动GUI智能体发展的开源系统之一。
【75, Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments, 2024, Advances in Neural Information Processing Systems】: 在“主要贡献”、“实验环境”和“相关工作”中多次引用，作为评估GUI智能体性能的重要基准。
【76, Aguvis: Unified pure vision agents for autonomous gui interaction, 2024, arXiv preprint arXiv:2412.04454】: 在“相关工作”章节中引用，作为推动GUI智能体发展的开源系统之一。
【77, An illusion of progress? assessing the current state of web agents, 2025, https://arxiv.org/abs/2504.01382 】: 在“主要贡献”和“实验环境”章节中引用，作为评估浏览器使用能力的基准。
【78, Swe-agent: Agent-computer interfaces enable automated software engineering, 2024, https://arxiv.org/ abs/2405.15793】: 在“相关工作”章节中引用，作为软件工程领域的智能体系统。
【79, React: Synergizing reasoning and acting in language models, 2023, International Conference on Learning Representations (ICLR)】: 在“形式化定义”和“相关工作”中引用，其ReAct范式是本文智能体行动循环的基础。
【80, Dapo: An open-source llm reinforcement learning system at scale, 2025, arXiv preprint arXiv:2503.14476】: 在“强化学习训练算法”章节中引用，其关于解耦PPO裁剪参数的建议被本文采纳。
【81, Plan4mc: Skill reinforcement learning and planning for open-world minecraft tasks, 2023, arXiv preprint arXiv:2303.16563】: 在“相关工作”章节中引用，作为为模型配备规划模块的例子。
【82, What’s behind ppo’s collapse in long-cot? value optimization holds the secret, 2025, arXiv preprint arXiv:2503.01491】: 在“强化学习训练算法”章节中引用，其VC-PPO和Decoupled-GAE技术被本文用于增强PPO。
【83, Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks, 2025, arXiv preprint arXiv:2504.05118】: 在“强化学习训练算法”章节中引用，其VAPO、Length-Adaptive GAE和Value-Pretraining技术被本文用于增强PPO。
【84, Multi-swe-bench: A multilingual benchmark for issue resolving, 2025, https://arxiv.org/abs/2504.02605 】: 在“相关工作”章节中引用，作为软件工程领域更丰富的数据集之一（MultiSWE-RL）。
【85, Glm-4.5: Agentic, reasoning, and coding (arc) foundation models, 2025, arXiv preprint arXiv:2508.06471】: 在“相关工作”章节中引用，作为LLM代码智能体领域的开源项目。
【86, Proagent: building proactive cooperative agents with large language models, 2024, Proceedings of the AAAI Conference on Artificial Intelligence】: 在“相关工作”章节中引用，作为为模型配备规划模块的例子。
【87, Large language model-brained gui agents: A survey, 2024, arXiv preprint arXiv:2411.18279】: 在“引言”章节中引用，说明GUI智能体开发是人工智能的核心挑战。
【88, Browsecomp-zh: Benchmarking web browsing ability of large language models in chinese, 2025, arXiv preprint arXiv:2504.19314】: 在“实验环境”章节中引用，作为评估浏览器使用能力的中文基准。
【89, Webarena: A realistic web environment for building autonomous agents, 2023, arXiv preprint arXiv:2307.13854】: 在“相关工作”章节中引用，作为为Web智能体提供真实网站和任务的基准。

PaperCache

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

A1 主要贡献

A2 方法细节

2.1 形式化定义

2.2 环境：一体化 GUI 沙箱

2.3 数据飞轮概述

2.4 CT & SFT 数据准备

2.4.1 用于持续预训练的原位标注

2.4.2 用于监督微调的交互式标注

2.5 多轮强化学习

2.5.1 任务设计

2.5.2 奖励设计

2.5.3 通过有状态环境实现异步智能体部署

2.5.4 强化学习训练算法

2.6 通过参数插值合并垂直智能体

A3 实验环境

A4 实验结果

主要结果

详细分析

A7 补充细节

4 相关工作

A5 结论

引用文献汇总

💬 评论讨论

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

A1 主要贡献

A2 方法细节

2.1 形式化定义

2.2 环境：一体化 GUI 沙箱

2.3 数据飞轮概述

2.4 CT & SFT 数据准备

2.4.1 用于持续预训练的原位标注

2.4.2 用于监督微调的交互式标注

2.5 多轮强化学习

2.5.1 任务设计

2.5.2 奖励设计

2.5.3 通过有状态环境实现异步智能体部署

2.5.4 强化学习训练算法

2.6 通过参数插值合并垂直智能体

A3 实验环境

A4 实验结果

主要结果

详细分析

A7 补充细节

4 相关工作

A5 结论

引用文献汇总

💬 评论讨论

登录

注册

忘记密码

重发验证邮件