Seed1.8 Model Card: Towards Generalized Real-World Agency
Seed1.8 Model Card: Towards Generalized Real-World Agency
作者/机构: Bytedance Seed
A1 主要贡献
近期大型语言模型(LLM)和视觉语言模型(VLM)的进展使其在自然语言理解、推理、代码生成和多模态感知等基础能力上表现出色。然而,许多现实世界的应用要求模型超越单轮预测,在涉及工具使用、环境反馈和多步任务执行的交互式环境中运行。
Seed1.8 旨在支持通用的现实世界智能体(agency)。该模型在保留核心 LLM 和 VLM 能力的同时,将这些能力扩展到多轮交互和任务执行中。Seed1.8 强调在单一模型内集成感知、推理和行动,而非引入任务特定的智能体流程。其设计遵循以下考量:
- 强大的基础能力:Seed1.8 在标准的 LLM 和 VLM 基准测试中保持了有竞争力的性能,包括推理、复杂指令遵循、知识覆盖和多模态理解。这些能力为下游的智能体行为提供了基础。
- 统一的智能体交互和多步执行:Seed1.8 在一个统一的智能体接口内支持搜索、代码生成与执行以及图形用户界面(GUI)交互。模型被设计为在多个步骤中进行迭代决策,其中来自检索、代码执行和环境交互的中间结果会为后续行动提供信息。搜索能力支持从外部来源收集信息和综合证据,而以代码为中心的执行支持结构化计算、程序修改和工具编排。原生的视觉感知能力进一步使模型能够解释和与视觉界面(如截图、文档、图表和视频)进行交互,从而在没有程序化API时能够直接在软件环境中操作。
- 延迟和成本感知的推理:交互式部署对响应时间和计算开销带来了限制,特别是对于多模态和长上下文输入。Seed1.8 提供可配置的思维模式以平衡推理深度和延迟,并集成了优化的视觉编码以减少图像和视频输入的 token 消耗。
- 与实际应用对齐的评估:模型的开发和验证结合了公开基准测试和源自高价值应用领域的内部评估。这些评估涵盖了基础能力、多模态理解和智能体工作流,从而能够在一系列真实使用模式下进行评估。
本报告的其余部分将详细介绍覆盖基础 LLM 和 VLM 能力、智能体性能以及在公开基准和受现实世界启发的工作流中的效率的全面评估。
A2 方法细节
虽然已有的学术基准在衡量核心能力(如推理、知识和指令遵循)方面仍然具有信息价值,但现实世界的部署还依赖于多模态感知、工具使用和在延迟及交互约束下的端到端任务完成能力。在本节中,我们报告了对 Seed1.8 在三个类别下的综合评估。首先,我们总结了基础的 LLM 能力——推理、复杂指令遵循和知识——以及几个旨在模拟高价值应用模式的内部基准(表1)。其次,我们评估了多模态(VLM)能力,包括图像和视频理解,以及在不同推理预算下的效率分析(表2和表3)。第三,我们评估了需要与外部资源进行多轮交互的智能体能力——搜索、编码与工具使用、写作和基于 GUI 的执行(表4、表5、表7和表6)。Seed1.8 支持四种思维模式:no_think、think-low、think-medium 和 think-high,它们在测试时分配的计算量上有所不同,并允许在任务中对延迟、计算成本和解决方案质量进行可控的权衡。在第2.1、2.2和2.3节中,我们报告了 Seed1.8 使用 think-high 模式的得分。我们还在第2.4节中展示了不同思维模式的性能和成本比较。
2.1 基础语言能力
评估范围。本节评估 Seed1.8 的基础能力,包括推理、复杂指令遵循和知识。此外,我们构建了旨在反映高价值现实世界应用的内部基准,并展示了 Seed1.8 的经济效用。我们将结果与 GPT-5-high、Claude-Sonnet-4.5、Gemini-2.5-pro 和 Gemini-3-pro 进行比较。具体来说,我们在 AIME-25【4, MathArena: Evaluating LLMs on Uncontaminated Math Competitions, 2025, arXiv】, HMMT-25(Feb)【4, MathArena: Evaluating LLMs on Uncontaminated Math Competitions, 2025, arXiv】, BeyondAIME【7, BeyondAIME: Advancing Math Reasoning Evaluation Beyond High School Olympiads, 2025, Hugging Face】, AMO-Bench【3, AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, 2025, arXiv】, IMOAnswerBench【42, Towards Robust Mathematical Reasoning, 2025, EMNLP】, AetherCode【75, AetherCode: Evaluating LLMs’ Ability to Win in Premier Programming Competitions, 2025, arXiv】, LiveCodeBench(v6)【32, LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, 2024, arXiv】, LiveCodeBench pro【93, LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, 2025, arXiv】, GPQA-Diamond【57, GPQA: A Graduate-Level Google-Proof Q&A Benchmark, 2024, CoLM】, PHYBench【55, PhyBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models, 2025, arXiv】, BioBench, KOR-Bench【43, KOR-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks, 2024, arXiv】, ARC-AGI-1【53, ARC AGI: The $1 Million Artificial General Intelligence Prize, 2024, http://arcprize.org】, Inverse IFEval【90, Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, 2025, arXiv】, MARS-Bench【81, MARS-Bench: A Multi-Turn Athletic Real-World Scenario Benchmark for Dialogue Evaluation, 2025, arXiv】, MultiChallenge【17, MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs, 2025, ACL Findings】, Collie-Hard【84, Collie: Systematic Construction of Constrained Text Generation Tasks, 2024, ICLR】, EIFBench【99, EIFBench: Extremely Complex Instruction Following Benchmark for Large Language Models, 2025, arXiv】, MMLU【27, Measuring Massive Multitask Language Understanding, 2020, arXiv】, MMLU-pro【72, MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, 2024, NeurIPS】, SuperGPQA【19, SuperGPQA: Scaling LLM Evaluation Across 285 Graduate Disciplines, 2025, arXiv】, LPFQA【97, LPFQA: A Long-Tail Professional Forum-Based Benchmark for LLM Evaluation, 2025, arXiv】, 以及六个为高价值现实世界任务设计的内部基准上评估 Seed1.8。 **推理能力**。我们将推理分为编码、数学、STEM 和通用推理。这些能力是现实世界效用的基础。我们优先考虑模型的鲁棒性和泛化能力,确保它能在不同环境中可靠地解决复杂问题。Seed1.8 在编码和数学方面达到了与顶尖模型相媲美的性能,并在 BeyondAIME【7, BeyondAIME: Advancing Math Reasoning Evaluation Beyond High School Olympiads, 2025, Hugging Face】, AMO-Bench【3, AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, 2025, arXiv】和 IMO-AnswerBench【42, Towards Robust Mathematical Reasoning, 2025, EMNLP】上取得了第二高的分数。此外,在 STEM 和通用推理方面,Seed1.8 与 GPT-5 High、Claude-Sonnet-4.5 和 Gemini-3-pro 等顶尖 LLM 相当,并在 KOR-Bench【43, KOR-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks, 2024, arXiv】和 ARC-AGI-1【53, ARC AGI: The $1 Million Artificial General Intelligence Prize, 2024, http://arcprize.org】上取得了第二好的性能。
复杂指令遵循能力。执行复杂指令和遵守明确用户约束的能力对于现实世界的实用性至关重要。Seed1.8 在各种指令遵循(IF)基准测试中展现了强大的能力。值得注意的是,它在 Inverse IFEval【90, Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, 2025, arXiv】上取得了第二好的分数,并在 MARS-Bench【81, MARS-Bench: A Multi-Turn Athletic Real-World Scenario Benchmark for Dialogue Evaluation, 2025, arXiv】, MultiChallenge【17, MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs, 2025, ACL Findings】, Collie-Hard【84, Collie: Systematic Construction of Constrained Text Generation Tasks, 2024, ICLR】和 EIFBench【99, EIFBench: Extremely Complex Instruction Following Benchmark for Large Language Models, 2025, arXiv】上保持了有竞争力的地位。这些结果共同验证了模型的精确可控性,证实了其在复杂智能体工作流中的可靠性。
知识能力。广泛的领域覆盖和高事实准确性对于在开放领域应用中建立用户信任至关重要。对于通用知识,Seed1.8 在 MMLU【27, Measuring Massive Multitask Language Understanding, 2020, arXiv】和 MMLU-pro【72, MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, 2024, NeurIPS】上的表现与顶尖 LLM 相当。此外,该模型在长尾知识方面也表现出有竞争力的性能,为各种现实世界任务确保了坚实的基础。
高经济价值领域。除了推理、指令遵循和知识等基础能力外,我们优先考虑高价值的现实世界应用。我们设计了专门的内部基准,以严格验证 Seed1.8 的发展与实际经济效用保持一致。具体而言,我们的内部基准包括:
表1 Seed1.8 在各种基准测试中的评估结果。我们在这些基准测试中报告 Pass@1。每个基准测试的最高分用粗体标记,第二高分用下划线标记。标有 * 的结果来源于其技术报告。默认情况下,在这些设置中不使用工具。
- 教育。评估在教学场景中的表现,包括问题解决、评分、解释和问题生成,涵盖K-12阶段的核心科目。
- 客户支持问答。评估使用企业知识库解决用户问题的能力,例如在电子商务、政府服务、电信、互联网平台和人力资源等领域回答与政策相关的问题。
- 信息处理。衡量分析和综合非结构化数据的能力,例如从大量用户生成内容中总结观点和识别整体情绪。
- 意图识别。评估基于不同文本来源的意图分类能力,包括对话、会议记录、社交媒体帖子和文章(例如,从客户服务互动中推断购买意图)。
- 信息提取。评估从异构文档(包括会议记录、法律文本、合同、产品描述和企业知识库)中结构化提取相关元素(如单词、句子或字段)的能力。
表2 Seed1.8 在公开视觉语言基准测试中与先前模型的性能比较。我们在这些基准测试中报告 Pass@1。对于 FSC-147 和 OmniDocBench 1.5,使用平均绝对误差 (MAE) 和归一化编辑距离 (NED) 作为度量标准。每个基准测试的最佳得分用粗体标记,次佳得分用下划线标记。对于标有 ◦ 的得分,模型被允许使用“crop-box”工具来详细检查特定区域。标有 * 的结果来源于其技术报告。
- 复杂工作流。评估遵循预定义标准操作程序(SOP)的逐步任务执行能力,例如在客户支持、教育、销售、医疗保健和人力资源等领域的多轮售后服务流程。
内部基准性能总结。Seed1.8 在教育和客户支持问答基准上取得了最佳性能。它在信息处理、意图识别、信息提取和复杂工作流方面也保持了有竞争力的性能。这些结果证实了 Seed1.8 已准备好在高影响力的商业场景中部署。
表3 Seed1.8 在公开视频理解基准测试中与先前模型的性能比较。每个基准测试的最高分用粗体标记,第二高分用下划线标记。标有 * 的结果来源于其技术报告。标有 † 的基准测试以主动方式进行评估。对于标有 ‡ 的基准测试,我们包含字幕进行评估。
2.2 视觉能力
视觉任务评估。我们在全面的公开图像基准上广泛评估了 Seed1.8 的性能,并将其与现有的多模态模型进行比较,包括 Claude-Sonnet-4.5、GPT-5.1 (High)、Gemini 2.5 Pro、Gemini 3 Pro 和 Seed1.5-VL。总体而言,Seed1.8 在视觉任务上比其前身 Seed1.5-VL 有显著的性能提升,展现出极具竞争力的能力,接近当前最先进(SOTA)的模型 Gemini 3 Pro。值得注意的是,Seed1.8 在几个具有挑战性的基准测试【58, ZeroBench: An impossible visual benchmark for contemporary large multimodal models, 2025, arXiv】【68, Vision Language Models are Biased, 2025, arXiv】【83, MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence, 2025, arXiv】上超过了 Gemini 3 Pro,展示了其卓越的感知和推理能力。
多模态推理能力。在多模态推理方面,Seed1.8 在十个基准测试中取得了优异的成绩。它在 ZeroBench【58, ZeroBench: An impossible visual benchmark for contemporary large multimodal models, 2025, arXiv】(主测试集)上以 11.0 的 $Pass@1$ 分数获得了 SOTA 地位,超过了 Gemini 3 Pro 的 10.0。在其他九个基准测试中的七个——包括 MMMU【85, MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, 2024, CVPR】, MathVista【41, MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts, 2023, arXiv】和 MathVision【70, Measuring Multimodal Mathematical Reasoning with Math-Vision Dataset, 2024, NeurIPS】——Seed1.8 取得了第二高的分数,紧随 Gemini 3 Pro 之后,同时优于所有其他竞争对手。在通用视觉问答(VQA)方面,Seed1.8 展现了出色的鲁棒性和性能。它在 VLMsAreBiased【68, Vision Language Models are Biased, 2025, arXiv】上以 62.0 的分数获得了 SOTA,大幅超过 Gemini 3 Pro 的 50.6,并在多图像理解(MUIRBench【69, MuirBench: A Comprehensive Benchmark for Robust Multi-Image Understanding, 2024, arXiv】)上排名第一,超过了 Gemini 3 Pro 和 GPT-5.1 High。对于所有其他 VQA 基准,Seed1.8 均位居第二,凸显了其强大的感知能力【25, HallusionBench: an advanced diagnostic suite for entangled language hallucination and visual illusion in large vision-language models, 2024, CVPR】【56, Vision Language Models are Blind, 2024, ACCV】【68, Vision Language Models are Biased, 2025, arXiv】,强大的通用视觉熟练度【12, Are We on the Right Way for Evaluating Large Vision-Language Models?, 2024, NeurIPS】【37, MMBench: Is your multi-modal model an all-around player?, 2024, ECCV】【89, MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity, 2025, arXiv】和一致的多图像理解性能【66, Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs, 2024, CVPR】【69, MuirBench: A Comprehensive Benchmark for Robust Multi-Image Understanding, 2024, arXiv】。
专业任务能力。Seed1.8 在一系列专业任务中也保持了卓越的性能。在 GUI Grounding(GUI 智能体的基础定位能力)方面,Seed1.8(64.3)在具有挑战性的 ScreenSpot-Pro【34, ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use, 2025, ACM Multimedia】基准上比 Seed-1.5-VL(60.9)有所提升,并且在使用“crop-box”工具详细检查特定区域时,达到了新的 SOTA 分数 73.1。它在两个计数任务【2, Open-World Text-Specified Object Counting, 2023, arXiv】【49, Teaching CLIP to Count to Ten, 2023, ICCV】上也取得了优异的成绩,性能非常接近 SOTA 模型 Gemini 3 Pro。在 2D 和 3D 空间理解方面,Seed1.8 在两个关键基准上创造了新的 SOTA 性能:DA-2K【82, Depth Anything V2, 2024, NeurIPS】(90.7 $Pass@1$)和 MMSIBench【83, MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence, 2025, arXiv】(circular, 25.8 $Pass@1$),超过了 Gemini 3 Pro(分别为 82.1 和 25.4)。在文档与图表理解方面,Seed1.8 取得了强大的性能,并有显著的效率提升。在 OmniDocBench 1.5【48, OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, 2025, CVPR】(以归一化编辑距离 NED 为指标)上,Seed1.8 取得了 0.106 的成绩,超过了 Gemini 3 Pro 的 0.115,并比 Seed1.5-VL(0.152)显著提升了 0.046。在多模态长上下文理解方面,Seed1.8 在 MMLB-NIAH【74, MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly, 2025, arXiv】(128k 上下文长度)上以 72.2 的 $Pass@1$ 取得了 SOTA 性能,超过了 Gemini 3 Pro 的 70.5。它还在 DUDE【67, Document Understanding Dataset and Evaluation (DUDE), 2023, ICCV】和 MMLB-VRAG 上排名第二,比 Seed1.5-VL 有了实质性的改进。
视频任务评估。我们从四个维度评估 Seed1.8 的视频理解能力:知识与推理、运动与感知、长视频和流媒体视频理解。如表3所示,Seed1.8 在所有维度上都比 Seed1.5-VL 有了显著的进步,尤其在运动与感知领域达到了 SOTA 性能。
* 知识与推理:该维度评估视频知识和推理能力。Seed1.8 在综合推理基准 VCRBench【54, VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning, 2025, CoRR】和 VideoHolmes【13, Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?, 2025, CoRR】上取得了领先的成绩。该模型在强调状态转换推理的任务 VideoReasonBench【39, VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?, 2025, CoRR】上也比 Seed-1.5-VL 有了显著的提升。尽管在推理方面表现出色,Seed1.8 目前在学科知识基准(VideoMMMU【29, Video-MMMU: Evaluating Knowledge Acquisition From Multi-Discipline Professional Videos, 2025, arXiv】, MMVU【92, MMVU: Measuring Expert-Level Multi-Discipline Video Understanding, 2025, CVPR】, VideoSimpleQA【8, Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models, 2025, CoRR】)上落后于 Gemini-2.5/3-Pro,这指出了需要进一步改进的领域。
* 运动与感知:专注于细粒度的视觉感知和时间动态,Seed1.8 表现出卓越的能力。它在6个评估任务中的5个上取得了 SOTA 性能,突显了其精确的视频感知能力。值得注意的是,虽然 Seed1.8 在具有挑战性的 TOMATO【60, TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models, 2025, ICLR】基准上取得了 60.6 的分数,但与人类表现(95.2)相比仍有较大差距。未来的工作将致力于缩小这一差距,以实现人类水平的运动感知。
* 长视频:对于长视频评估,我们选择了四个代表性基准:VideoMME【21, Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-Modal LLMs in Video Analysis, 2025, CVPR】, CGBench【10, CG-Bench: Clue-Grounded Question Answering Benchmark for Long Video Understanding, 2025, ICLR】, LongVideoBench【79, LongVideoBench: A Benchmark for Long-Context Interleaved Video-Language Understanding, 2024, NeurIPS】和 LVBench【71, LVBench: An Extreme Long Video Understanding Benchmark, 2024, CoRR】。Seed1.8 表现出比 Seed1.5-VL 显著的改进。此外,Seed1.8 展示了高效的长上下文保留能力,在最大视频 token 限制为 81,920 的情况下,与 Gemini-2.5/3-Pro 表现相当。
* 流媒体:在流媒体领域,Seed1.8 在 OVBench【31, Online Video Understanding: OVBench and VideoChat-Online, 2025, CVPR】, LiveSports3K【11, LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale, 2025, CVPR】和 OVOBench【46, OVO-Bench: How Far Is Your Video-LLMs from Real-World Online Video Understanding?, 2025, CVPR】上取得了 SOTA 性能。除了标准的理解能力,我们还显著增强了模型的主动响应能力——这是现实世界应用中的一个重要特性。这使得模型能够在没有明确触发的情况下,在连续的视频流中自主识别干预或响应的最佳时机。因此,Seed1.8 在以交互性为重点的基准测试如 StreamingBench【36, StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding, 2024, CoRR】和 OmniMMI【73, OmniMMI: A Comprehensive Multi-Modal Interaction Benchmark in Streaming Video Contexts, 2025, CVPR】上比 Seed1.5-VL 有了显著的提升。关于这种视觉主动性的定性示例,请参见第3.6节。
2.3 智能体能力
评估套件设计。为了严格评估 Seed1.8 在现实世界场景中的能力,我们设计了一个全面的评估套件,优先考虑智能体能力,包括通用智能体搜索、视觉搜索、智能体编码、智能体写作、工具使用和 GUI 操作。我们还设计了模拟高价值现实世界工作流的内部基准,明确验证 Seed1.8 在复杂智能体任务中的经济效用。
评估基准。具体来说,我们在 GAIA【44, Gaia: a benchmark for general AI assistants, 2023, ICLR】, BrowseComp-en【77, BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, 2025, arXiv】, BrowseComp-zh【95, BrowseComp-zh: Benchmarking Web Browsing Ability of Large Language Models in Chinese, 2025, arXiv】, MM-BrowseComp【35, MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, 2025b, arXiv】, WideSearch【78, WideSearch: Benchmarking Agentic Broad Info-Seeking, 2025, arXiv】, HLE【51, Humanity’s Last Exam, 2025, arXiv】, SWE-Bench Verified【47, Introducing SWE-bench Verified, 2024, OpenAI Blog】, Multi-SWE-Bench【87, Multi-SWE-Bench: A Multilingual Benchmark for Issue Resolving, 2025, arXiv】, AInstein-SWE-Bench, Terminal Bench 2.0【64, Introducing Terminal-Bench 2.0 and Harbor, 2025, http://tbench.ai】, U-Artifacts (内部), DeepConsult【62, DeepConsult: A Deep Research Benchmark for Consulting and Business Queries, 2025, GitHub】, DeepResearchBench【18, DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents, 2025, arXiv】, DiscoX【91, DiscoX: Benchmarking Discourse-Level Translation Task in Expert Domains, 2025, arXiv】, BFCL-v4【50, The Berkeley Function Calling Leaderboard (BFCL): From Tool Use to Agentic Evaluation of Large Language Models, 2025, ICML】, and τ 2-Bench【5, τ 2-Bench: Evaluating Conversational Agents in a Dual-Control Environment, 2025, arXiv】上评估 Seed1.8。我们设计了三个反映专家级和日常生活工作流的基准,包括 FinSearchComp【30, FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, 2025, arXiv】, XpertBench (内部) 和 World Travel (内部) 基准。结果总结在表4中。
表4 Seed1.8 在各种智能体任务中的评估。除非另有说明,我们在这些基准测试中报告 Pass@1。每个基准测试的最高分用粗体标记,第二高分用下划线标记。标有 * 的结果来源于其技术报告。
¹ 我们在此使用完整集得分。 ² 我们在此报告 best-of-5 (Bo5) 得分。
智能体搜索。在现实世界的智能体任务中,快速可靠的搜索能力对于做出良好决策至关重要。Seed1.8 建立在业界领先的搜索和信息处理能力之上,这为其整体智能体自主性提供了强大的基础。Seed1.8 在 GAIA【44, Gaia: a benchmark for general AI assistants, 2023, ICLR】上取得了最高分(93.2),超过了 GPT-5-high(76.7)。我们还在专门的搜索任务中看到了强劲的结果(BrowseComp-en【77, BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, 2025, arXiv】上 67.6,BrowseComp-zh【95, BrowseComp-zh: Benchmarking Web Browsing Ability of Large Language Models in Chinese, 2025, arXiv】上 78.5,WideSearch【78, WideSearch: Benchmarking Agentic Broad Info-Seeking, 2025, arXiv】上 63.8,HLE (text-only)【51, Humanity’s Last Exam, 2025, arXiv】上 40.9)。这些共同证实了 Seed1.8 在现实世界问题解决所需的复杂搜索和信息处理方面的卓越性能。除了基于文本的检索,Seed1.8 还集成了卓越的视觉能力,直接增强了其在多模态任务中的智能体规划和执行。它在多模态搜索基准上取得了极具竞争力的性能,在 MM-BrowseComp【35, MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, 2025b, arXiv】上得分为 46.3,在 HLE-VL【51, Humanity’s Last Exam, 2025, arXiv】上得分为 31.5。这一性能验证了智能体在综合视觉输入(图表、界面元素)以指导搜索决策和引导复杂多步导航方面的卓越能力。
智能体编码、工具使用与写作。Seed1.8 在 AInstein-SWE-Bench 和 Terminal Bench 2.0【64, Introducing Terminal-Bench 2.0 and Harbor, 2025, http://tbench.ai】上得分第二,并在其他智能体编码和工具使用基准测试中(如 SWE-bench Verified【47, Introducing SWE-bench Verified, 2024, OpenAI Blog】, Multi-SWE-Bench【87, Multi-SWE-Bench: A Multilingual Benchmark for Issue Resolving, 2025, arXiv】, U-Artifacts, BFCL-v4【50, The Berkeley Function Calling Leaderboard (BFCL): From Tool Use to Agentic Evaluation of Large Language Models, 2025, ICML】和 τ 2-Bench【5, τ 2-Bench: Evaluating Conversational Agents in a Dual-Control Environment, 2025, arXiv】)与领先的 LLM 表现相当。这验证了其在复杂环境中实现代码更改和使用工具的能力。此外,由于写作占在线用户互动的大部分【9, How People Use ChatGPT, 2025, NBER Working Paper】,我们评估了 Seed1.8 在三个智能体写作基准上的表现,结果显示其与顶级 LLM 的性能相当。
表5 不同模型在公开基准测试中的性能比较。非 Seed 模型的结果来自其技术报告。
将能力转化为经济价值。智能体能力的最终衡量标准是其在专业领域中转化为切实的经济价值和高投资回报率(ROI)。
* 金融市场熟练度:在测试金融数据中复杂检索和综合能力的 FinSearchComp【30, FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, 2025, arXiv】上,Seed1.8 得分 56.2,证实了其与专有领导者的竞争性能。这验证了模型在处理核心任务(如详细的财务报告和关键市场情报)方面的可靠性,在这些任务中,准确性直接驱动决策支持。
* 专家工作负载自动化:XpertBench 的结果证实了 Seed1.8 已准备好应对专家级工作负载,尤其在金融(62.0)和法律(55.2)领域表现出色。这些特定领域的熟练度使得能够立即自动化具有挑战性的工作流——如合同审查、法规分析和复杂数据解释——为企业带来直接的成本节约和运营效率提升。第3.2节详细介绍了一些示例。
* 日常生活规划:Seed1.8 在 WorldTravel 基准(多模态设置)上取得了最佳性能,展示了其在多模态信息收集、现实世界调度和日常后勤方面的实用价值。
GUI 智能体。表5中汇编的实证结果清楚地表明,Seed1.8 模型在 GUI 智能体这一复杂领域具有极具竞争力的、最先进的能力。Seed1.8 在四个关键的公开基准——OSWorld、Realbench、Online-Mind2web 和 AndroidWorld——上取得了最佳性能,验证了其在跨越计算机、网络和移动等多种 GUI 平台自动化任务方面的强大泛化能力和卓越效能。至关重要的是,这一卓越的性能概况为 Seed 模型家族建立了一个新的、显著提升的基线,标志着其相对于前身 Seed1.5-VL 的重大进步。Seed1.8 版本的一个关键重点是其显著增强的移动使用能力,这体现在内部移动评估集上持续优越的性能。该模型在处理移动环境特有的复杂、多步任务方面表现出先进的能力,包括改进的指令遵循和意图理解,并能主动判断何时需要用户协助以确保任务的稳健完成。第3.5节详细介绍了一些展示这种复杂任务处理的代表性案例研究。
带有工具使用的智能体视频理解。Seed1.8 支持视频工具使用,以实现视频片段的高帧率(HFR)播放,捕捉视频中的局部细节,从而增强视频理解和推理能力。具体来说,Seed1.8 集成了 VideoCut 工具:Seed1.8 指定要重播的片段的开始和结束时间戳以及所需的 FPS(范围从1到5),VideoCut 工具会重新采样视频帧,并提供给模型进行进一步推理。利用 VideoCut,Seed1.8 可以重新访问长视频中的信息性片段,并通过增加 FPS 实现慢动作播放,以捕捉更多细节和运动动态。
表6 Seed1.8 使用视频工具在长视频理解和推理方面的性能。我们比较了 Seed1.8 在不同基准测试中使用 VideoCut 工具的性能。值得注意的是,使用 VideoCut 的 Seed1.8 可以进一步提高长视频理解的准确性。
图1 对比先前模型在文本推理任务上的思维效率。
图2 对比先前模型在多模态推理任务上的思维效率。
视频工具使用评估。我们在表6中评估了 Seed1.8 使用 VideoCut 工具的性能。值得注意的是,Seed1.8 在长视频理解基准测试,即 CGBench【10, CG-Bench: Clue-Grounded Question Answering Benchmark for Long Video Understanding, 2025, ICLR】和 LVBench【71, LVBench: An Extreme Long Video Understanding Benchmark, 2024, CoRR】上,通过该工具取得了显著的性能提升。此外,在我们内部的高难度基准 ZeroVideo 上——该基准包含101个极具挑战性的视频问题,涵盖长视频推理、多跳推理、高帧率运动理解和反直觉场景——Seed1.8 在使用该工具时取得了显著的性能增益,超过了 Gemini-2.5-Pro 和 Gemini-3-Pro。我们在第3.6节中展示了来自 ZeroVideo 基准的几个示例,以展示我们的视频工具使用能力。
图3 在几个长视频理解基准测试中(即 CGBench [10], LVBench [71] 和 VideoMME [21]),随着最大视频 token 数量的增加,Seed1.8 与 Seed1.5-VL 的 token 效率比较。
2.4 效率
Seed1.8 的思维效率。我们评估了 Seed1.8 与前沿模型(包括 GPT-5.1 和 Gemini-3-Pro)及其前身 Seed-1.6(我们首次引入各种思维模式的模型)在不同推理预算下的表现。图1和图2展示了在文本和多模态推理任务中,推理计算与模型性能之间的权衡,显示出与 Seed-1.6 相比,推理效率有了显著提升。在 BeyondAIME 和 KORBench 上,与上一代相比,Seed1.8 在相同的推理 token 使用水平上取得了稳定且持续的进步。对于多模态推理任务,在 MMMU-Pro【86, MMMU-Pro: A More Robust Multi-Discipline Multimodal Understanding Benchmark, 2025, ACL】上,Seed1.8 在“NoThink”模式下达到 65.4,比 Seed-1.6(61.0)有显著提升,并大幅超过 GPT-5.1(43.5);这一巨大差距表明其内化知识更强,使模型能够以最小的开销解决中等难度的问题。此外,该模型的扩展轨迹比其前身陡峭得多,能有效地利用额外的测试时计算来解锁更高的性能上限,而 Seed-1.6 则趋于平稳。这在具有挑战性的 Mathvision【70, Measuring Multimodal Mathematical Reasoning with Math-Vision Dataset, 2024, NeurIPS】基准上最为明显,其中 Seed1.8 的峰值达到 81.3,比 Seed-1.6 绝对提升了 9.5%,并决定性地领先于 GPT-5.1 的 77.2。至关重要的是,Seed1.8 在 token 效率方面主导了帕累托前沿;在 EMMA【26, Can MLLMs Reason in Multimodality? EMMA: An Enhanced Multimodal Reasoning Benchmark, 2025, arXiv】上,其“No-Think”性能(50.1)已经超过了上一代完全扩展的“High”计算性能(48.1)。
Seed1.8 的多模态 Token 效率。Seed1.8 能够以高 token 效率处理多模态输入。特别是对于消耗大量输入 token 的视频理解任务,Seed1.8 能够以最小的 token 预算实现令人印象深刻的结果。如图3所示,我们通过采用不同的 token 预算,评估了 Seed1.5-VL 和 Seed1.8 在三个具有挑战性的长视频测试集(CGBench【10, CG-Bench: Clue-Grounded Question Answering Benchmark for Long Video Understanding, 2025, ICLR】, LVBench【71, LVBench: An Extreme Long Video Understanding Benchmark, 2024, CoRR】, VideoMME【21, Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-Modal LLMs in Video Analysis, 2025, CVPR】)上的性能。如图3所示,随着“最大视频 token 数量”的增加,Seed1.8 和 Seed1.5-VL 在长视频理解方面的性能都有显著提升;然而,即使在 32K token 预算下,Seed1.8 也能提供卓越的准确性——在所有三个评估基准上都明显优于 Seed1.5-VL(后者使用 80K token 预算),从而展示了其在多模态任务,特别是长视频输入方面的更强 token 效率。
通过增加测试时计算进行思考。Seed1.8 支持在推理过程中分配额外的计算来处理更复杂的任务。通过增加测试时计算并启用并行推理路径,模型可以探索替代的解决方案轨迹并聚合中间结果。这种设置在数学、竞赛编程、STEM 和视觉推理等具有挑战性的推理任务上带来了性能提升,如表7所示。
智能体执行效率。Seed1.8 展示了显著更强的智能体执行效率,尤其是在长程任务设置中。这种效率使得智能体能够分配更少的步骤进行探索,同时保持对目标相关行动的强烈关注,从而实现更有效和稳定的整体决策。这一优势在图4的 BrowseComp 基准测试中得到了清晰展示。在低和中等推理强度下,模型分别以少于50个执行步骤达到了45.0和55.0的得分。当切换到无限制模式时,Seed1.8 表现出明显的扩展行为:随着步骤数的增加,性能持续稳步提升,在150步时达到了67.6的得分。
表7 Seed1.8 和采用并行思维的 Seed1.8 在推理基准上的性能。表中报告了 Human Last’s Exam (HLE) 的完整集和两个子集(文本、视觉)。所有性能报告均未使用工具。
图4 在不同推理强度下,对 Browsecomp 的智能体执行效率进行评估。
A4 实验环境
- 模型: Seed1.8。模型架构的关键参数未在报告中提供。
-
评估基准/数据集:
- 语言能力: AIME-25, HMMT-25, BeyondAIME, AMO-Bench, IMOAnswerBench, AetherCode, LiveCodeBench, GPQA-Diamond, PHYBench, BioBench, KOR-Bench, ARC-AGI-1, Inverse IFEval, MARS-Bench, MultiChallenge, Collie-Hard, EIFBench, MMLU, MMLU-pro, SuperGPQA, LPFQA。以及六个内部基准(教育、客户支持问答、信息处理、意图识别、信息提取、复杂工作流)。
- 视觉能力: MMMU, MathVista, MathVision, ZeroBench, VLMsAreBiased, MUIRBench, ScreenSpot-Pro, CountBench, FSC-147, DA-2K, MMSIBench, OmniDocBench 1.5, MMLB-NIAH, DUDE, VideoMMMU, MMVU, VCRBench, VideoHolmes, VideoReasonBench, TOMATO, CGBench, LongVideoBench, LVBench, VideoMME, OVBench, LiveSports3K, OVOBench, StreamingBench, OmniMMI。
- 智能体能力: GAIA, BrowseComp, MM-BrowseComp, WideSearch, HLE, SWE-Bench, Multi-SWE-Bench, AInstein-SWE-Bench, Terminal Bench 2.0, U-Artifacts, DeepConsult, DeepResearchBench, DiscoX, BFCL-v4, τ 2-Bench, FinSearchComp, XpertBench, World Travel。
- 安全性: AIR-Bench, XSTest,以及内部安全基准。
-
硬件与软件配置: 报告中未提供训练或评估所用的硬件(如GPU型号/数量、网络配置)和软件(如代码库、操作系统)信息。
A4 实验结果
基础语言能力
根据表1,Seed1.8 在基础语言能力方面表现出色。在推理方面,它在编码和数学基准(如BeyondAIME, AMO-Bench)上与GPT-5 High和Gemini-3-pro等顶级模型不相上下,通常位列前两名。在复杂指令遵循和知识基准(如Inverse IFEval, MMLU-pro)上也展现了强大的竞争力。特别是在为高经济价值领域设计的内部基准中,Seed1.8 在“教育”和“客户支持问答”方面排名第一,并在信息处理、意图识别等其他领域保持领先,证明了其在实际应用中的价值。
视觉能力
- 图像理解:如表2所示,Seed1.8 的视觉能力相较于前代Seed1.5-VL有显著提升,在多个基准上接近甚至超越了Gemini 3 Pro等SOTA模型。它在多模态推理(如ZeroBench SOTA)、通用视觉问答(如VLMsAreBiased SOTA)、GUI定位(ScreenSpot-Pro)、空间理解(如DA-2K SOTA)和长上下文理解(如MMLB-NIAH SOTA)等多样化任务中均表现优异。
- 视频理解:根据表3,Seed1.8 在视频理解的四个维度(知识与推理、运动与感知、长视频、流媒体)上均超越了前代。尤其在运动与感知方面,它在6个任务中的5个上取得了SOTA成绩。在流媒体视频任务中,它同样获得了SOTA,并展示了在现实应用中至关重要的主动响应能力。
智能体能力
- 通用智能体任务:如表4和表5所示,Seed1.8 在智能体任务中表现卓越。它在通用搜索基准GAIA上以93.2分远超其他模型,并在网页浏览(BrowseComp)、多模态搜索(MM-BrowseComp)和视觉搜索(HLE-VL)中表现强劲。在智能体编码方面,它在AInstein-SWE-Bench和Terminal Bench 2.0上排名第二。
- GUI智能体:Seed1.8 在跨平台(桌面、网页、移动)的GUI自动化任务中取得了SOTA性能,在OSWorld、Realbench、Online-Mind2web和AndroidWorld等多个基准上得分领先。
- 视频工具使用:如表6所示,通过集成VideoCut工具,Seed1.8 在长视频理解和复杂推理任务(如CGBench, LVBench, ZeroVideo)上的性能得到显著增强,能够通过高帧率回放捕捉关键细节,从而解决更具挑战性的问题。
效率
- 思维效率:图1和图2显示,与前代Seed-1.6及竞争对手相比,Seed1.8 在文本和多模态推理任务上实现了更高的计算效率,即在相同推理成本下达到更高的性能。其“No-Think”模式下的基线性能已相当强大,并且性能随计算投入的增加而更有效地扩展。
- Token效率:图3表明,Seed1.8 在处理多模态输入,特别是长视频时,具有更高的token效率。它用更少的token预算(如32K)就能达到甚至超过前代模型使用更多token(如80K)时的性能。
- 执行效率:图4显示,Seed1.8 在长程智能体任务(如BrowseComp)中表现出更高的执行效率,能用更少的步骤达到高成功率,并且性能随着执行步骤的增加而稳定提升。此外,如表7所示,增加测试时计算量能够进一步提升其在复杂推理任务上的性能。
A7 补充细节
3 Seed1.8 用例
本节通过各种现实世界示例展示 Seed1.8 的实用价值。
3.1 旅行规划辅助
任务描述。旅行规划是日常生活中常见但要求很高的任务。用户通常需要在多个平台间处理碎片化信息,同时平衡时间、预算和个人偏好。这不仅涉及文本处理,还包括与复杂的视觉界面交互,如在动态日历上检查可用性或在预订页面上比较价格。我们使用合成网页(图5,顶部)设计了 WorldTravel 基准来模拟这些任务。
示例分析。图5展示了一个多约束规划场景,一个访问柏林的家庭需要在一个固定预算内制定一个最佳的全天行程。为实现此目标,智能体必须综合来自不同网络来源的信息,包括旅行聚合器、预订门户和餐厅菜单。凭借先进的推理、工具使用和对网页界面的视觉解释能力,Seed1.8 成功生成了一个严格遵守所有用户约束的全面计划。
图5 旅行规划辅助任务(多模态设置)。顶部:模型为收集信息而处理的网页。底部:Seed1.8 的示例输入和生成的输出。
3.2 专家级任务
任务验证。现实世界的专家任务验证了智能体作为专业助手的能动性。我们展示了 Seed1.8 如何有效处理在实际专业环境中遇到的复杂、领域特定的挑战。如表8所示,Seed1.8 能够处理与各领域现实专业工作流程高度相似的专家级任务。这些任务超越了简单的查询,要求智能体综合深厚的领域知识并执行人类专家典型的复杂多步程序。Seed1.8 的完整回答见附录 C.2。
3.3 科研任务
能力展示。基于先进的视觉和推理能力,Seed1.8 可以直接从视觉输入解决复杂的科学问题。这里我们展示一个来自我们内部 BIOBench 的生物研究任务的具体例子。
生物研究任务示例。光遗传学是一种通过光控制细胞内蛋白质功能的技术,利用光敏蛋白与目标蛋白的结合,在特定波长的光下激活或抑制这些蛋白质。为了精确控制细胞死亡过程,本研究采用了一种植物来源的光敏蛋白 Cry2olig,它在蓝光照射下会迅速聚集,从而激活与之融合的效应蛋白,如 caspases。利用这种光遗传学工具,研究人员可以在体外和体内模型中选择性地诱导各种类型的程序性细胞死亡,研究不同死亡模式对细胞及其邻近细胞的影响。该技术在单细胞清除、组织修复和免疫应答等应用中具有广泛的潜力,为研究细胞死亡机制和开发新的治疗策略提供了新的方法和途径。已知 LPS 可以激活 caspase-1 和 caspase-11。
问题 1:研究人员对 Caspase-5 进行了光遗传学改造,得到了如图所示的结果:
和
根据这些实验结果,Caspase-5 结构的哪一部分可以在改造过程中省略?在这四种改造中,哪一种效果最差?已知 2-435 是指将 mCherry 标记的 Cry2olig 添加到 caspase-5 的氨基酸 2-435 的 N 端。假设 CARD 结构域对应于氨基酸 2-92,p20 结构域对应于氨基酸 139-300,p10 结构域对应于氨基酸 330-435。
问题 2:研究人员在显微镜下观察了转染了光控凋亡系统的细胞,得到了如图所示的结果:
已知该图像使用了荧光试剂 A(通过死细胞膜与 DNA 结合)和荧光标记的 Annexin V(一种常用于凋亡流式细胞术检测的试剂)来处理细胞。图像中荧光试剂 A 呈现什么颜色?用于标记 Annexin V 的荧光是什么颜色?
问题 3:该图显示了通过免疫印迹(Western blot)检测到的几种重要蛋白质及其裂解形式。在免疫印迹结果中,Caspase-4 显示了未经处理的全长(FL)蛋白条带,也显示了处理后的片段(如 p43 和 p32,它们是裂解产物,表明激活)。类似地,Caspase-5 显示了全长蛋白(FL)和处理后的产物(如 p50 和 p30,表明激活)。这些处理后的片段代表了在细胞焦亡过程中 caspase 的激活和靶蛋白的裂解。GSDMD 的激活发生在 caspase-4/5 激活的下游,激活后被裂解形成 p31(N-term)。图中显示了来自不同处理的八个条带。前四列对应于转染了光控 caspase-4 的细胞,后四列对应于转染了光控 caspase-5 的细胞。两组中后三列的实验程序相同,对应于:A. 10分钟蓝光处理;B. 30分钟蓝光处理;C. LPS 添加。请将 A、B 和 C 与后三列(表示为 (1)、(2) 和 (3))进行匹配。
注意:所有图片均来自【61, Optogenetic activators of apoptosis, necroptosis, and pyroptosis, 2022, Journal of Cell Biology】。
结果。基于其强大的视觉处理、推理能力和坚实的知识基础,Seed1.8 成功解决了这一系列生物研究问题。Seed1.8 的完整回答见附录 C.3。
3.4 科学软件工程任务
任务背景。我们现在转向需要坚实的科学背景知识和智能体编码能力的科学软件工程任务。我们在下面展示一个来自我们内部 AInstein-SWE-Bench 的具体任务。数值相对论(NR)是广义相对论(GR)的一个研究分支,使用数值方法求解爱因斯坦方程以及流体动力学和电磁学等物质方程。通过将四维时空明确分解为三维空间和一维时间,它将广义相对论表述为一个初值问题【24, 3+1 Formalism in General Relativity, 2012, Springer】。EisnsteinToolkit 是一系列用于数值相对论模拟的 C/C++/Fortran 代码集合【1, Solving Einstein’s equations on supercomputers, 1999, Computer】【40, The Einstein Toolkit: A Community Computational Infrastructure for Relativistic Astrophysics, 2012, Classical and Quantum Gravity】。Cactus 计算语言(CCL)用于管理模拟。一次模拟会涉及多个可执行文件(由多个 C/C++/Fortran 代码集合编译而成),其操作方式由 ccl 文件定义。我们通过在一个 Docker 容器中移除部分源代码来削弱 EinsteinToolkit 的一个功能,从而定义一个问题,并要求 LLM 通过补全缺失的代码来实现缺失的功能。
科学软件工程任务示例。你获得一个位于 /opt/Cactus 的 C++ 代码仓库。该仓库包含 Cactus thorn IDAnalyticBH,它为数值相对论模拟提供黑洞时空的解析初始数据。该 thorn 声明支持 Brill–Lindquist 黑洞初始数据;然而,相应的实现是不完整的。具体来说,例程 BrillLindquist 在 IDAnalyticBH.h 中声明,在 schedule.ccl 中调度,在 make.code.defn 中引用,在 doc/documentation.tex 中记录,并通过 param.ccl 中的参数进行配置,但实现该例程的源文件缺失或未完成。你的任务是通过补全以下文件中的代码来实现 IDAnalyticBH 的全部功能:repos/einsteininitialdata/IDAnalyticBH/src/BrillLindquist.c。
具体而言,你必须实现函数 void BrillLindquist(CCTK_ARGUMENTS)。该实现应支持一到四个 Brill–Lindquist 黑洞,计算共形因子
正确处理 metric_type = “static conformal” 和 metric_type = “physical” 两种情况,当通过 conformal_storage 请求时计算共形因子的一阶和二阶导数,并产生具有零外在曲率的时间对称初始数据。你应该对仓库进行最小的改动,不要修改任何测试文件,并确保现有的 Brill–Lindquist 测试参数文件在你的实现后能正确运行。
结果。经过仔细的数学推导、数值稳定性考虑和工具辅助的代码探索,Seed1.8 成功解决了这个问题。完整回答的摘要见附录 C.4。
3.5 GUI 智能体
能力展示。为了更好地说明 Seed1.8 在 GUI 任务中的实际能力和先进机制,我们在图6中展示了一个代表性的用例。该案例关注一个长程的比较购物任务,要求智能体跨多个不同的网络服务聚合信息。该任务要求智能体在三个不同的电子商务平台上查找并比较特定商品的价格。Seed1.8 成功完成了这一复杂目标,总共需要 122 个顺序步骤才能完成。这一表现展示了该模型在长期任务分解、多站点导航和综合从不同来源收集的信息方面的卓越能力,这对于现实世界的自动化规划至关重要。
第3步:点击屏幕(淘宝)
第38步:澄清需求(京东)
第82步:拖放(拼多多)
第122步:任务完成
行动与思考:
第3步:
点击 [0.35 0.118]
我现在在淘宝首页。搜索框里还显示着之前的结果。我需要输入关于40/40裸缸养雷龙鱼所需的用品信息,包括过滤器、防跳网和加热棒,寻找优质且性价比高的产品。首先,需要在搜索框里输入精确的关键词,比如“40/40裸缸雷龙鱼过滤器防跳网加热棒优质性价比高”来精确搜索相关商品。点击搜索框使其激活,然后输入这些关键词。
第38步:
在京东上这款防跳网的规格页面,我发现没有现成的40x40尺寸;只有一个定制选项。我需要和用户确认他们是想定制这款防跳网还是选择其他产品,因为用户需要的是40x40的缸,而这款产品的现成尺寸不匹配。我需要确认用户的选择。
第82步:
滑动 [0.501 0.895], [0.501, 0.3]
我已经在拼多多的搜索结果页上找到了防跳网和过滤器。接下来,我需要找加热棒。由于当前页面只显示了防跳网和过滤器,我需要向上滑动查看更多商品,找到加热棒。这样我才能筛选出我需要的三件物品。之后,我就可以比较三个平台的性价比,找到最佳选择。
第122步:
完成 [报告关于 .......]
防跳网:
淘宝:4040尺寸,价格27.85元(或更低,如11.67元)。
京东:可定制,价格7元(请联系客服)。
拼多多:4040尺寸,价格7.98元。
过滤器:
淘宝:未找到合适产品
京东:未找到合适产品
拼多多:10W功率,价格22.78元。
加热棒:
淘宝:E50W规格,价格66.57元(或更低,如46.55元等)。
京东:未找到合适产品
拼多多:50W功率,价格13.84元。
目前最划算的方案是拼多多的组合:防跳网7.98元,过滤器22.78元,加热棒13.84元,总计44.6元。它还提供全面的保障,销量和好评都不错。现在,生成结果报告以完成任务。
图6 任务指令 - “我有一个40×40的裸缸,想养一条雷龙鱼。请帮我在各种购物应用上挑选性价比最高的过滤器、防跳网和加热棒。”
3.6 智能体视频交互
带有工具使用的智能体视频推理。在图7和图8中,我们展示了来自 ZeroVideo 的示例。与传统视频基准相比,ZeroVideo 强调长视频推理,专注于极具挑战性的多跳推理和高帧率感知。我们还在图7和图8中报告了 Seed1.8 使用工具的推理轨迹。值得注意的是,Seed1.8 支持小时级视频输入,并展示了强大的时间定位和长视频检索能力,我们认为这是视频推理模型的基础能力。对于多跳问题,Seed1.8 可以理清线索之间的关系,并在这些线索的引导下,采用 VideoCut 来重播相关片段中的细粒度细节。通过反复回顾关键时刻,Seed1.8 可以得出正确答案。最后,跨越不同场景的示例表明,Seed1.8 的视频工具使用具有广泛的适用性,并能支持更复杂的视频推理任务。
流媒体视频理解与交互。为了进一步解释模型在现实世界流媒体场景中的能力,我们在图9中展示了一个示例。模型以 1 FPS 的速度处理连续的视频流,同时生成响应。如图所示,模型展现了多功能的交互状态,能够在三种模式之间切换:对明确的用户查询提供即时响应,保持静默推理以跟踪上下文,以及由视觉事件触发发起主动的视觉响应。值得一提的是,模型的响应生成可能会被新的视频帧抢占。一旦被打断,模型会动态评估更新后的上下文。如果暂停的响应与更新后的视觉上下文一致,模型会无缝地恢复正在进行的生成,确保在离散的视觉输入下对话的连贯性。
4 安全性
安全优先。安全性是 Seed1.8 的首要任务。我们建立了严格的指导方针,以确保我们的模型拒绝有害内容,并遵守道德和法律标准。图10展示了 Seed1.8 在两个开源基准上的表现:AIR-Bench【88, AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies, 2024, arXiv】和 XSTest【59, XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models, 2024, NAACL】。结果表明,Seed1.8 在 AIR-Bench 上有很大提升,同时在 XSTest 上保持了高水平。
ZeroVideo 示例 1:长视频对象检索
提示:当跟在车牌号为 CY・659XP 的车辆后面行驶时,你经过一家名为 "REGINA" 的商店,然后在路的同一侧发现一个戴墨镜的男人在遛狗。这条狗是什么品种?
Seed1.8:<思考>用户现在需要回答在跟随车牌号为 CY・659XP 的车辆行驶时看到的狗的品种。首先,调用 VIDEOCUT 查看 2519 - 2530 秒左右的片段,fps 设置为 5,以便能清楚地识别狗的品种。</思考>
<VideoCut>{"timestamps": 2519 - 2530, "fps": 5}</VideoCut>
Seed1.8:<思考>刚才观看的片段中没有看到狗。时间戳可能有误。我们需要检查后面的片段,比如从 2530 秒到 2550 秒的片段,fps 设置为 5,继续寻找那个戴墨镜男人遛的狗。</思考>
<VideoCut>{“timestamps”: 2530 - 2550, "fps": 5}</VideoCut >
Seed1.8:<思考>现在看到了。戴墨镜男人遛的狗是一只柴犬,其特征是红棕色的毛和卷曲的尾巴,这与柴犬的外观相符。我们需要通过检查 2544 秒左右的镜头来确认——画面中的狗确实是一只柴犬。</思考> 这只狗是柴犬,具有典型的品种特征,如红棕色的毛和卷曲的尾巴。
图7 ZeroVideo 示例 1:长视频对象检索。此示例要求模型从长达一小时的驾驶视频中确定狗的品种,需要对长视频进行多跳推理和时间定位;由于车辆在移动,它还依赖于强大的高帧率识别能力。在这种情况下,Seed1.8 首先定位到提示中提到的车牌对应的确切时间戳,然后反复调用 VideoCut 工具来细化相关片段,最终确定狗是柴犬。
提示:以视频拍摄者的视角为参考,从 BURGER KING 商店到第一家 UNIQLO 商店的途中,你需要在红绿灯路口过几次马路?
Seed1.8:<思考>用户现在需要回答从 BURGER KING 到第一家 UNIQLO 商店的途中过了几次马路。首先,检查视频中的时间段:BURGER KING 大约在 643 秒出现,然后 UNIQLO 大约在 1143 秒出现。我们需要计算期间在红绿灯路口过马路的次数。首先,调用 VIDEOCUT 查看 640 到 1150 秒的片段,fps 设置为 1,以便能清楚地追踪行进路线。</思考>
Seed1.8:<思考>现在让我们数一下视频中这个人过街的次数:初看,第一次过街大约在 760 秒,第二次在 860 秒左右,第三次在 955 秒左右。不,不对。让我们再看一遍……。</思考> 为了确定从 BURGER KING 商店到第一家 UNIQLO 商店的过马路次数,我们需要梳理沿途在红绿灯路口的过马路情况:
1. 大约在 755 秒,在 Shake Shack 附近的红绿灯路口完成了第一次过马路。
2. 大约在 855 秒,在有双层巴士的红绿灯路口完成了第二次过马路。
3. 大约在 955 秒,在 GAP 附近的回旋处红绿灯路口完成了第三次过马路。 因此,从 BURGER KING 商店到第一家 UNIQLO 商店的途中,总共需要过 3 次红绿灯路口。
图8 ZeroVideo 示例 2:使用视频进行城市导航。此示例要求模型从城市旅游视频中推断出行进路线,这取决于其在长视频上进行多跳定位和推理的能力,以及其导航能力。Seed1.8 使用 VideoCut 来确定大致的时间窗口,然后仔细分析每次过马路,展示了模型令人印象深刻的长视频理解能力。
图9 实时流媒体视频理解与交互的定性演示。在连续的视频流中,模型以1FPS的速度接收帧,时间戳和用户指令在顶部标出。模型的逐帧行为在底部描述,包括对用户指令的即时响应(💬)、静默推理(🧠)和视觉主动响应(💡)。值得注意的是,生成过程可能会被传入的帧打断;在接收到新帧后,模型会动态决定是否恢复被暂停的内容(用...表示)。
图10 模型在安全基准测试上的性能。
内部基准。此外,我们构建了内部基准来评估 Seed1.8 的安全性,其中我们关注各种类型的风险内容,包括公民规范、色情、非法行为、版权、医疗安全、身份等。如下表9所示,Seed1.8 在这些领域始终拒绝不安全的输入,并提供负责任的响应。
表9 安全评估和风险响应示例
表9 - 续前页
A5 结论
本报告介绍了 Seed1.8,一个为支持通用现实世界智能体而开发的基础模型。该模型旨在将强大的基础 LLM 和 VLM 能力与多模态感知、工具使用和在实际部署约束下的多步任务执行支持相结合。模型开发以评估为导向,这些评估超越了静态的学术基准,包括了面向现实世界的工作流和智能体任务。通过纳入源自实际用例的基准,我们的目标是在更接近交互式和应用使用的环境中评估模型行为。Seed1.e8 的发布旨在为研究和开发者社区提供进一步的实验和开发支持。我们期望其能力将在各种应用中得到探索、调整和扩展,并且下游使用的反馈将为模型的未来迭代提供信息。
A6 附录
A Seed 评估体系
图11 ChatGPT 的用例分布 [9]。
图12 用例与我们的基准类别之间的映射关系。
评估理念的转变。随着我们进入“人工智能的下半场”,我们的评估理念已经发生了转变。我们认为基准分数必须成为实际价值的可靠代表。Seed 团队不再仅仅依赖合成任务,而是建立了一个全面的评估体系,旨在弥合模型能力与现实世界效用之间的差距。该体系遵循三个主要原则:优先考虑用户体验、向现实世界场景过渡、以及推动智能的前沿。
A.1 优先考虑用户体验
分析用户需求。我们首先分析现实世界的用户需求。为了理解典型的用例,我们研究了 ChatGPT 的用例分布【9, How People Use ChatGPT, 2025, NBER Working Paper】作为一般使用模式的代表性基线。如图11所示,信息搜索、文本编辑和辅导是排名前三的类别。结合这些见解和智能体 LLM 的标准基准,我们构建了一个覆盖关键热门用例的评估体系(见图12)¹,从而更好地与 C 端用户需求对齐。
A.2 向现实世界场景过渡
关注应用导向。我们正将焦点从合成的、孤立的任务转向现实的、以应用为导向的场景。在标准基准上的高性能并不总能转化为实际价值。因此,我们设计了具有高经济价值的任务,这些任务反映了现实世界的复杂性,并被组织在“高经济价值领域”类别下。我们的目标是确保评估分数的提高直接对应于实际使用场景中的有形价值。
A.3 推动智能的前沿
推进通用智能。在优先考虑现实世界可用性的同时,我们仍然致力于推进通用智能。我们认为,强大的推理能力是处理复杂用户指令的基础。为了衡量这些上限,除了标准基准外,我们还设计了涵盖高级推理、数学和编码的新基准。这些具有挑战性的任务使我们能够评估模型的巅峰性能,并确保我们对可用性的关注不会牺牲核心智能。
B 内部基准详情
本节我们介绍我们内部基准的详情。
B.1 智能体任务
背景。除了像 BrowseComp【77, BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, 2025, arXiv】, SWE-bench verified【47, Introducing SWE-bench Verified, 2024, OpenAI Blog】和 τ 2-Bench【5, τ 2-Bench: Evaluating Conversational Agents in a Dual-Control Environment, 2025, arXiv】这样的标准基准外,我们还发布了新的高质量、开源的智能体搜索和编码基准。
B.1.1 MM-BrowseComp
简介。MM-BrowseComp【35, MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, 2025b, arXiv】旨在评估 LLM 在模拟网页浏览环境中的复杂长上下文推理和基于工具的检索能力,特别针对包括文本、图像和视频的多模态内容。虽然当前的智能体系统在以文本为中心的任务上表现良好,但像 BrowseComp【77, BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, 2025, arXiv】这样的现有基准在很大程度上忽略了网络上普遍存在的视觉组件。为了解决这一差距,MM-BrowseComp 包含 224 个人工设计并验证的挑战性样本,其中提示通常包含图像,关键信息嵌入在网页视觉或视频中,需要跨模态整合而不仅仅是简单的文本处理。在评估过程中,每个问题都配有一个经过验证的清单,以便对智能体的推理路径进行细粒度分析,并区分真正的推断和随机猜测。
B.1.2 Wide Search
简介。WideSearch【78, WideSearch: Benchmarking Agentic Broad Info-Seeking, 2025, arXiv】旨在评估 LLM 智能体的广泛信息搜索能力。与现有基准专注于寻找单一、难以找到的事实不同,WideSearch 评估智能体处理需要收集大量分散但易于查找的信息的任务的能力。这里的主要挑战不是复杂的推理,而是一致性:智能体必须在漫长、重复的任务中保持彻底和准确。这反映了实际场景,例如金融分析师为某个行业中的每家公司收集数据,或者求职者列出所有符合其需求的职位空缺。该基准包含 200 个精心设计的任务(100 个英文和 100 个中文)。
B.1.3 AInstein-SWE-Bench
简介。面向科学研究的基准仍然稀缺,因为大多数现有评估要么关注高级科学推理,要么关注通用的软件工程任务,而没有捕捉到现实科学研究是如何通过代码进行的。AInstein-SWE-Bench 是一个内部基准,旨在评估模型和智能体是否能够参与研究级别的科学编码:理解特定领域的科学概念,浏览大型多语言代码库,以及通过代码工具修改算法。该基准由从量子化学、量子计算、天体物理学、分子动力学和 HPC 模拟等生产科学仓库中提取的任务组成。每个实例都将一个真实的科学问题或功能请求与历史仓库快照和容器化环境中的测试驱动的“失败到通过”评估相结合。这种设置使我们能够评估智能体通过阅读、推理和编码来进行科学研究的能力——这正反映了科学家在实践中如何进行计算研究。
B.1.4 Multi-SWE-Bench
简介。Multi-SWE-bench【87, Multi-SWE-Bench: A Multilingual Benchmark for Issue Resolving, 2025, arXiv】旨在评估 LLM 在 Java、TypeScript、JavaScript、Go、Rust、C 和 C++ 中的问题解决能力。该数据集包含 1,632 个通过严格的人工参与注释过程挑选的高质量实例。一个由 68 名专家组成的团队审查了 2,456 个候选实例,验证了每个实例,以便在复杂的非 Python 开发环境中准确衡量模型性能。
B.1.5 U-Artifacts
简介。U-Artifacts 是一个内部基准,旨在从真实的、非专业用户的角度评估 LLM 生成的产物,包括代码、设计和交互。为确保结构严谨性和场景多样性,它集成了用于合成已验证交互案例的自动化流程和用于人工编写场景的手动流程。该基准分为四个任务族:固定交互性、自由交互性、界面美学和需求满足。U-Artifacts 包含 13 个主题的 199 个案例,利用基于 GUI 的智能体动态模拟用户行为,提供了一个统一的评估框架。
B.1.6 DiscoX
简介。DiscoX【91, DiscoX: Benchmarking Discourse-Level Translation Task in Expert Domains, 2025, arXiv】旨在评估篇章级和专家级的汉英翻译。它解决了专家领域对语篇连贯性和术语精度的要求,超越了片段级的准确性指标。该数据集由 7 个领域的 200 篇专业策划的文本组成,平均文档长度超过 1,700 个 token。为评估性能,该基准利用了 Metric-S,这是一个无参考的系统,提供对准确性、流畅性和适宜性的自动评估。
B.2 复杂指令遵循
背景。指令遵循对于许多现实世界任务至关重要。除了标准基准外,我们还引入了专门设计用于测试复杂指令遵循的新数据集。
B.2.1 Inverse IFEval
简介。Inverse IFEval【90, Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, 2025, arXiv】评估 LLM 中的“认知惯性”,即即使在明确指示下也倾向于依赖训练期间学到的标准模式。尽管 LLM 通常能力很强,但它们常常无法遵循与其监督微调(SFT)习惯相矛盾的指令。为了解决这个问题,Inverse IFEval 测试模型处理反直觉任务的能力。该基准包含 8 种特定的约束类型,例如生成故意的文本错误、编写无注释的代码以及反事实推理。该数据集包含 23 个领域的 1,012 个经过验证的中英文问题,并通过优化的“LLM-as-a-Judge”方法对模型进行评估。
B.2.2 MARS-Bench
简介。MARS-Bench【81, MARS-Bench: A Multi-Turn Athletic Real-World Scenario Benchmark for Dialogue Evaluation, 2025, arXiv】是一个真实世界的多轮对话基准,旨在针对 LLM 在长而复杂的对话中的弱点。当前 LLM 在处理意图频繁转变和复杂跨轮依赖的对话时,鲁棒性通常有限,而现有基准未能充分反映此类问题。为了解决这个问题,MARS-Bench 使用由句子级评论构建的真实对话。它专门评估三个关键维度:超长交互、交互式多轮处理和跨轮任务执行。
B.3 前沿推理
背景。我们设计了能够反映智能前沿的新基准。
B.3.1 Beyond AIME
简介。BeyondAIME【7, BeyondAIME: Advancing Math Reasoning Evaluation Beyond High School Olympiads, 2025, Hugging Face】是一个精心策划的基准,旨在评估难度超过美国数学邀请赛(AIME)的高级数学推理能力。为确保严格评估,该数据集基于严格的原则构建。问题选自高中和大学竞赛,难度与 AIME 11-15 题相当或更高。为抵制数据污染,每个问题都经过手动改编以确保独特性,防止从标准预训练语料库中泄露。该基准优先考虑纯粹的推理而非晦涩的知识,仅需标准的大学水平数学知识。此外,它通过重构问题来避免“伪证明”,确保猜测与解决一样困难。最后,所有答案都是正整数,以便进行明确且 100% 准确的自动评估。
B.3.2 SuperGPQA
简介。SuperGPQA【19, SuperGPQA: Scaling LLM Evaluation Across 285 Graduate Disciplines, 2025, arXiv】评估了跨 285 个学科的研究生水平知识和推理能力。为确保数据质量,该基准采用了人-LLM 协同过滤机制。该过程根据 LLM 输出和专家反馈迭代地优化问题,有效消除了琐碎或模糊的样本。
B.3.3 BIOBench
简介。BIOBench 是一个内部多模态基准,旨在评估奥林匹克级别的生物学知识。该数据集包含 150 个高难度问题,分为 80% 的多模态任务和 20% 的纯文本任务。为确保数据质量,每个问题都经过领域专家的严格注释和审查,保证准确性并防止数据污染。
B.3.4 LPFQA
简介。LPFQA【97, LPFQA: A Long-Tail Professional Forum-Based Benchmark for LLM Evaluation, 2025, arXiv】针对在标准预训练数据中通常代表性不足的专家级、长尾实践知识。与仅限于教科书或理想化场景的基准不同,LPFQA 源自专业技术论坛,捕捉了现实世界问题解决的分散和高度专业化的性质。该数据集涵盖了计算机科学、工程、医学和金融等 20 个学术领域,确保任务反映了真实的用户需求。通过收集、自动质量控制和专家验证三个严格阶段构建,该基准包含 502 个复杂问题,旨在评估模型在实际、特定领域任务上的性能。
B.4 VLM 任务
B.4.1 MME-CC
简介。MME-CC【89, MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity, 2025, arXiv】是一个具有挑战性的、以视觉为基础的基准,用于评估多模态大型语言模型的认知能力。它专注于视觉信息是核心且不能仅通过文本先验知识解决的推理任务。MME-CC 将视觉认知分为空间推理、几何推理和视觉知识推理,涵盖 11 种任务类型和 1,173 个专家注释的问题。每个任务都具有复杂的约束、多视角一致性和严格的指令遵守。实验结果表明,当前最先进的模型在空间和几何推理方面的表现仍远低于人类水平,这使得 MME-CC 成为诊断和推进以视觉为中心的推理能力的严格测试平台。
B.5 高经济价值领域
背景。随着 LLM 的发展,我们优先考虑高价值的、现实世界的任务,其中基准性能直接与实际效用挂钩。为此,我们引入了九个专为具有重要经济意义的领域设计的基准。前六个基准评估基础 LLM(如表1所示),后三个则侧重于智能体任务(如表4所示)。
B.5.1 教育
这是一个内部基准,旨在覆盖 K-12 教育的核心场景。一个任务示例如下:
B.5.2 客户支持问答
这是一个内部基准,涵盖各种客户支持问答场景。一个示例如下:
B.5.3 信息处理
这是一个针对在线用户经常请求的复杂信息处理的内部基准。示例如下:
你是一个高级邮件助手。根据用户需求,你将帮助用户一键整理特定时间段的邮件内容。
- 你将首先收到一批邮件,然后用户会输入一个具体的时间范围。你需要首先根据这个时间范围提取出所有在该时间范围内的邮件。随后,对这些邮件进行分组并总结整理。
- 你需要输出用户选定的特定时间范围内邮件的总数。
- 邮件类型分类:你将根据邮件文本内容(不包括附件)对用户定义的特定时间内的邮件进行分类;同时,你必须在分类后输出该邮件类型的数量。
常见的邮件类型有:
- 个人邮件:指个人之间的通信。这些邮件通常是朋友或家人之间的私人对话,包括问候、分享个人信息或计划等。
- 商务邮件:这类邮件主要涉及公司内部或与合作伙伴的商务活动。它们主要用于商务沟通,可能包括商业提案、客户联系、供应商谈判、合同讨论等。
- 营销邮件:这些邮件的目的是推广产品或服务。常用于向用户发布促销活动、新产品发布、限时优惠、用户体验调查等信息,以吸引客户购买或参与。
注意事项:
- 每封邮件只需匹配一个最相关的邮件类型。
- 如果一封邮件无法归类到特定类别,请直接将其归为“其他”,并在“其他”类别中输出数量和内容摘要。
- 如果是空邮件或仅包含附件,请归为“其他”。
- 邮件分类时间范围的单位是“天”,并以“YYYY-MM-DD(开始时间)–YYYY-MM-DD(结束时间)”的格式输出,例如“2023-01-01–2023-01-30”。
B.5.4 意图识别
这是一个针对复杂意图识别的内部基准,这对于在线平台至关重要。示例如下:
你扮演一个房地产销售办公室用户咨询的标签和路由助手。你将获得一组意图。根据用户的来电,你必须识别并输出所有相关的意图。
工作流程:你必须以 JSON 格式输出结果。JSON 示例:{“Intents”: [“询问户型”, “询问面积”]}。注意:只输出 JSON。不要包含任何其他内容。
意图标签集:[’询问价格’, ’询问户型’, ’询问面积’, ’询问公摊比例’, ’询问得房率’, ..., ’要求看房’, ’拒绝看房’]
待分析对话:
用户:你好,是花园城售楼处吗?
客服:是的,这里是花园城售楼处。有什么可以帮您?
用户:我想了解一下你们项目的基本库存情况。
客服:当然。我们是融创开发的高端住宅项目。均价28000元起。我们有超过200套可售房源,户型从70到140平米不等。
用户:现在还不是谈价格的时候。能把详细的项目信息发到我微信吗?
客服:可以,但我建议您先来看房。我们可以安排专车接送,现场讲解会更清楚。
用户:先加微信吧;我不想现场看房。
客服:好的,我的微信号是xxxxx。请加我并备注“客服”。
用户:顺便问一下,你们小区的物业管理费是多少?
客服:我们的物业费是3.5元/平米/月。是五星级物业服务。
用户:水电和网费是怎么收的?
客服:水电是民用价。水是2.5元/吨,电是0.57元/度,阶梯定价。
用户:开发商的资质如何?
客服:融创是全国百强房企,在本地有多个成熟社区。
用户:地下停车位怎么收费?
客服:地下一层15万/个,二层13万/个。一次性付款有折扣。
用户:有哪些付款方式?
客服:需要30%的首付。我们接受商业贷款和公积金贷款。我们还有分期付款的优惠活动。
用户:附近有地铁吗?
客服:有3号线。
用户:现在有什么促销活动吗?
客服:认购有2%的折扣,全款有5%的折扣,还送3万元的家电券。
用户:公摊比例是多少?
B.5.5 信息提取
这是一个内部基准,用于评估 Seed1.8 在结构化提取相关信息方面的能力。示例如下:
你是环境影响评价(EIA)报告领域的信息提取助手。你需要根据用户提供的环境影响评价报告提取指定字段。
特殊要求:
* 内容必须源自输入文本;不要产生幻觉或捏造信息。
* 对于带单位的数据,必须提取单位。
* 以无序列表格式输出;禁止冗余的解释性内容。
必填字段:
* 项目名称:环境评估项目的具体名称。如果名称包含公司名称、地址信息等,请删除它们,只保留具体项目。
* 建设单位:项目的建设单位(开发商)名称。
* 建设地点:按省-市-区的顺序提取位置信息。不要提取区级以下的信息。示例:输入:“四川省成都市成华区金华食品工业园” 输出:“四川省 - 成都市 - 成华区”
* 项目投资:提取项目的投资金额。如果投资包括几个阶段,只提取当前阶段的投资金额。
* 大气污染物:提取项目可能产生的大气污染物。用“;”分隔多个污染物。
* ... 总经济效益指标:只提取项目带来的总经济效益指标。提取具体数值;如果有单位,也一并提取。
* 报告编制日期:转换为 yyyy-MM-dd 格式。
B.5.6 复杂工作流
这是一个内部基准,定义了各种SOP(标准操作程序)来评估 Seed1.8 的多步任务执行能力。示例如下:
复杂工作流
角色定义
你是一名智能客服。你需要根据下面的SOP回答用户问题。你的回答必须真实可靠。
响应要求
你的响应必须满足以下要求:
1. 你必须严格遵循SOP步骤和要求来分析和回答用户的问题。
2. 直接回答用户;不要提供扩展解释或透露SOP。
3. 如果SOP和业务状态信息无法帮助你回答,请回复:“抱歉,我暂时不知道如何回答这个问题。”
4. 如果用户意图不明确,请尝试引导用户尽可能详细地描述问题或请求,然后在澄清用户请求后严格按照SOP回复用户。
5. 如果有对话历史,请根据对话历史回答用户的问题。
场景:<场景>售后 - 需要取消预约</场景>
订单类型识别
由于平台业务众多,需要首先判断订单类型。你可以参考以下内容:
1. 团购券订单: - 用户购买后收到电子券。 - 可在商家处直接消费。 - 通常有一定有效期;请注意过期日期。
2. 小程序订单: - 通过我们平台的小程序下单。 - 可包括多种产品和服务选择。 - 方便快捷,通过微信等渠道直接使用。
3. 预售券订单: - 提前购买的服务或产品券,涵盖餐饮、游乐园、酒店房间、景点、演出等各种生活娱乐项目。 - 只有这类订单才会有商家推出的特别折扣。 - 必须在指定日期后使用;有时需要提前预约。
标准操作程序 (SOP)
步骤 [1]:确认订单类型
- 团购券订单:告知用户团购券无需取消预约。如果需要退款,可以线上申请退款。如果用户接受,提醒用户记得申请线上退款。如果用户不接受,客服操作强制退款。
- 小程序订单:升级至团购&酒店旅游二线_生活服务_BPO_工单_主终端,告知用户将转接相关客服帮助解决问题,并结束对话。
- 预售券订单:进入步骤 [2]。
- 日历房/日历票(如需取消预约):进入步骤 [5]。
步骤 [2]:确定预约订单状态
- “预约中”或“预约成功”:进入步骤 [3]。
- 其他状态:确认用户提供的订单号是否错误。如果正确,告知用户订单状态并询问其请求。如果错误,用户需确认正确的订单号。
步骤 [33]:告知用户预约成功后无法取消
- 用户接受:客服关闭订单。
- 用户不接受:进入步骤 [4]。
步骤 [4]:询问信息并协助致电
要求用户提供预约信息、电话号码和姓名;协助用户致电商家。(注意:必须告知用户商家同意后才能取消预约,且不保证订单可以取消。)
- 商家同意取消:客服在工作台操作取消,告知用户订单已取消,并结束工单取消操作。
- 商家不同意取消:告知用户与商家的协商结果和商家拒绝的原因;给予强力安抚并在第一线闭环。
- 商家联系不上:升级至团购&酒店旅游二线_生活服务_BPO_工单_主终端,告知用户将转接相关客服帮助解决问题,并结束对话。
步骤 [5]:询问订单详情
要求用户提供订单详情;用户发送后进入步骤 [6]。
步骤 [6]:检查订单是否已过日历日期
- 如果订单未超过预定日期:建议用户直接申请退款,并告知他们相应的违约金计算规则和具体金额:如果在预定日期前一周以上申请退款,全额退款;如果在预定日期前不到一周申请退款,将扣除订单价格的20%作为违约金。用户确认无疑问后,提醒用户记得直接申请退款并结束对话。
- 如果订单已过日历日期:告知用户无法退款。
B.5.7 FinSearchComp
简介。FinSearchComp【30, FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, 2025, arXiv】评估模型在现实金融场景中执行复杂搜索和数据处理任务的能力。开放领域的金融搜索是专业人士的关键工作流程,是分析报告、估值建模和投资决策的基础。该评估要求模型从非结构化报告中提取关键数据,为计算执行多步检索,并严格区分精确的金融定义(例如,名义 GDP 与实际 GDP)。通过模拟专业分析师日常工作的高难度和特定要求,该基准评估了模型在提供高质量、可信赖的金融信息检索方面的可靠性。
B.5.8 XpertBench
简介。XpertBench 是一个内部专家级基准,由 200 多名领域专家通过 Xpert 专家平台协同开发,旨在评估 LLM 在高价值、现实世界场景中能否提供与人类专业人士相当的输出。该数据集涵盖法律、金融、教育、人文社科和科学工程五大领域,包含了 140 多种真实的任务类型。每个任务都源自复杂的、现实世界的情况,要求核心的专业能力,包括推理、上下文分析和决策制定。为确保严格评估,XpertBench 提供了经过多轮专家审查的提示(包含上下文、问题和要求)和详细的评分标准(包括标准、重要性级别、标签和权重),精确反映了专业评估者的标准。
B.5.9 World Travel
简介。World Travel 是一个内部基准,将旅行规划形式化为一个“多模态 × 运筹学级别”的优化问题。它旨在评估 VLM 和工具使用能力,通过引入现实复杂性超越了传统的纯文本基准。该数据集包含 150 个人工设计的“专家级”难度任务,其中智能体必须处理来自视觉来源(如预订界面、地图和时间表)的碎片化信息。每个任务都涉及高度耦合的约束(从 10 到 20 多个),通常只有一个可行的解决方案。这要求智能体执行 OCR、空间推理和跨模态整合。由于任务平均需要人类专家 1.5 小时才能完成,World Travel 使用一个“难解决、易验证”的自动评估系统来确保严格遵守所有约束。
C Seed1.8 对用例的完整回答
C.1 旅行规划辅助
这里我们展示 Seed1.8 对旅行规划任务的完整回答,格式已为便于阅读调整。
Seed1.8 对旅行规划任务的完整回答
日期:8月20日
* 00:00 -- 08:00:从酒店出发 – 地点:柏林洲际酒店
参考信息:hotel_list.png
* 08:30 -- 08:45:交通(出租车) – 路线:柏林洲际酒店 → 自然历史博物馆
– 费用:€ 10.00
– 参考信息:route_intercontinental_museum.png
* 09:30 -- 13:30:景点参观 – 地点:自然历史博物馆
– 费用:€ 18.00
– 参考信息:museum_guide.png, museum_ticket.png
* 13:30 -- 13:36:交通(出租车) – 路线:自然历史博物馆 → Facil 餐厅
– 费用:€ 9.10
– 参考信息:route_museum_facil.png
* 13:45 -- 15:15:餐厅用餐
– 地点:Facil 餐厅
– 费用:€ 238.00
– 参考信息:facil_guide.png, facil_reservation.png
* 15:15 -- 15:26:交通(出租车) – 路线:Facil 餐厅 → 柏林电视塔
– 费用:€ 10.10
– 参考信息:route_facil_tvtower.png
* 17:00 -- 18:30:景点参观 – 地点:柏林电视塔
– 费用:€ 188.00
– 参考信息:tvtower_guide.png, tvtower_ticket.png
* 18:30 -- 18:41:交通(出租车) – 路线:柏林电视塔 → Rutz 餐厅
– 费用:€ 9.00
– 参考信息:route_tvtower_rutz.png
* 19:00 -- 21:00:餐厅用餐 – 地点:Rutz 餐厅
– 费用:€ 350.00
– 参考信息:rutz_guide.png, rutz_reservation.png
* 21:00 -- 21:15:交通(出租车) – 路线:Rutz 餐厅 → 柏林洲际酒店
– 费用:€ 16.10
– 参考信息:route_rutz_intercontinental.png
* 21:15 -- ...:返回酒店 – 地点:柏林洲际酒店
– 参考信息:hotel_list.png
C.2 专家级任务
这里我们展示 Seed1.8 对表8中专家级任务的完整回答。
Seed1.8 对法律任务的完整回答
问题分析与解答
I. 个人无限连带责任保证的法律效力及保证责任的承担
(1) 法律依据
– 本案发生于2017年6月。当时,《中华人民共和国民法总则》(自2017年10月1日起施行)尚未生效,应适用《中华人民共和国民法通则》。第十三条第二款规定:“不能完全辨认自己行为的精神病人是限制民事行为能力人,可以进行与他的精神健康状况相适应的民事活动;其他民事活动由他的法定代理人代理,或者征得他的法定代理人的同意。”《中华人民共和国合同法》第四十七条规定:“限制民事行为能力人订立的合同,经法定代理人追认后,该合同有效,但纯获利益的合同或者与其年龄、智力、精神健康状况相适应而订立的合同,不必经法定代理人追认。”
– 《中华人民共和国担保法》第五条规定,担保合同是主合同的从合同。主合同有效时,担保合同的效力取决于担保人的民事行为能力和意思表示的真实性。
(2) 类似判例分析:最高人民法院(2020)最高法民终881号案与本案高度相似。在该案中,李某平于2016年6月出具《个人无限连带责任保证书》,为2.5亿元贷款提供担保。2017年,李某被法院宣告为限制民事行为能力人(阿尔兹海默症)。司法鉴定意见表明,其至少自2016年8月起即为限制民事行为能力人。结合其2016年3月的病历(显示器质性脑病变、智力受损),法院推定其在签订合同时已处于限制民事行为能力状态。法院认为,为巨额债务签订保证协议属于重大复杂的民事行为,与李某平的智力、精神健康状况不相适应,且法定代理人拒绝追认,故保证合同无效,李某平不承担保证责任。
(3) 本案具体分析:
– 张某于2017年6月出具保证时,已有病历诊断其患有阿尔兹海默型痴呆(早老型)。后续的司法鉴定意见也确认其目前为限制民事行为能力人。考虑到阿尔兹海默症的进行性特征,可推定其在签订合同时已不能完全辨认自己的行为,构成限制民事行为能力人。
– 个人无限连带责任保证要求保证人以其全部个人财产为他人债务承担连带清偿责任,属于对保证人权利义务有重大影响的重大民事行为,明显与张某的精神健康状况不相适应。现有证据未显示张某的法定代理人对该保证进行了追认。依据《合同法》第四十七条,该保证应属无效,张某无需承担保证责任。
II. 保证无效后的赔偿责任
(1) 法律依据
– 《中华人民共和国担保法》第五条第二款规定:“担保合同被确认无效后,债务人、担保人、债权人有过错的,应当根据其过错各自承担相应的民事责任。”
– 《最高人民法院关于适用<中华人民共和国担保法>若干问题的解释》第七条规定:“主合同有效而担保合同无效,债权人无过错的,担保人与债务人对主合同债权人的经济损失,承担连带赔偿责任;债权人、担保人有过错的,担保人承担民事责任的部分,不应超过债务人不能清偿部分的二分之一。”
(2) 裁判规则与案例适用:在上述(2020)最高法民终881号案中,最高人民法院明确,因保证人无行为能力导致保证合同无效的,保证人对保证行为的性质、后果缺乏认识能力,不存在过错,故不应承担赔偿责任。理由如下:
– 《民法总则》(本案应适用《民法通则》)关于限制民事行为能力人的规定,系为保护弱势群体的特别规定,应优先于《担保法解释》第七条的一般规定。
– 合同无效后的赔偿责任属于缔约过失责任,以存在过错为前提。限制民事行为能力人对其行为缺乏认知能力,主观上并无过错,故不应承担赔可承担赔偿责任。
(3) 本案分析:张某作为阿尔兹海默症患者,在出具保证时无法理解无限连带责任保证的法律意义和后果,对保证合同的无效不存在过错。因此,即使保证无效,张某也无需承担因保证无效而产生的赔偿责任,除非银行能够证明张某在签订时故意隐瞒病情或存在其他过错。但鉴于阿尔兹海默症的特点,此种证明极为困难。
III. 银行律师应补充的证据方面
(1) 反驳张某在签订时为限制民事行为能力人的主张。
* 行为能力证据:收集张某在2017年6月左右的日常行为证据,如正常参与公司经营决策、签署其他重要文件、独立处理个人事务的记录,以证明其当时精神状态正常,能够辨认自己的行为。
* 对司法鉴定的挑战:对张某提交的《精神疾病司法鉴定意见书》提出异议并申请重新鉴定,重点挑战其“截至2017年6月已为限制民事行为能力”的结论,或提供证据显示其当时病情尚未达到影响认知能力的程度。
* 签订过程证据:提供银行与张某面签的录像、录音或亲笔签署记录,证明张某在签订时表达清晰,对保证条款理解准确,能够独立表达意愿。
(2) 证明银行已尽到合理审查义务。
* 审查程序证据:提供银行对保证人的尽职调查报告、客户访谈记录、健康状况问卷等文件,证明银行已按照行业惯例对张某的民事行为能力进行了合理审查,且张某未如实告知病情。
* 不知情证据:证明张某的病历非公开信息,银行通过正常渠道无法获知其病情,银行已尽到善意相对人的注意义务。
(3) 其他补充证据。
* 追认证据:寻找张某的法定代理人在签订后对该保证进行追认的证据,如书面确认函或后续沟通记录。
* 利益关联证据:若张某从该担保中获得了直接利益(如公司提供的报酬或股权),可主张该担保属于与其利益相关的民事活动,可认定有效(但无限连带责任保证通常为纯粹的义务性行为,此点难以证明)。
结论
1. 张某出具的《个人无限连带责任保证书》因其在签订时为限制民事行为能力人且未经法定代理人追认,应属无效,张某无需承担保证责任。
2. 因张某对保证合同无效不存在过错,根据法律及最高院裁判规则,其无需承担因保证无效而产生的赔偿责任。
3. 银行律师应重点补充反驳张某签订时民事行为能力和证明银行已尽审查义务两方面证据,以维护银行的合法权益。
Seed1.8 对金融任务的完整回答
2025年1-9月中国前五大单一国家出口市场
- 美国:中国对美国出口额为22.77万亿元人民币,同比下降16.2%,占中国总出口额的11.42%。尽管在4月特朗普实施“对等关税”后出现明显收缩,美国仍是中国最大的单一国家出口市场。
- 中国香港:中国对香港出口额为17.13万亿元人民币,同比增长13.6%,占中国总出口额的8.59%。作为重要的转口贸易枢纽,香港的出口继续保持较快增长,凸显了转口贸易的韧性。
- 越南:中国对越南出口额达到10.36万亿元人民币,同比激增23.4%,占中国总出口额的5.19%。作为东盟核心成员国之一,越南成为中国前五大出口目的地中增长最快的市场之一,反映了中国对东南亚新兴市场出口的强劲势头。
- 日本:中国对日本出口额为8.36万亿元人民币,同比增长5.3%,占中国总出口额的4.19%。对日出口保持稳定增长,显示出双边贸易合作的相当韧性。
- 韩国:中国对韩国出口额为7.71万亿元人民币,同比仅微增0.6%,占中国总出口额的3.87%。对韩出口增长相对缓慢,表明双边贸易扩张动力有所不足。
2025年以来中国出口的主要趋势和特点
- 对美出口面临下行压力:自美国于4月推出“对等关税”后,中国对美出口从第二季度起连续数月录得两位数下降,前三季度累计同比下降16.2%。这凸显了中美贸易摩擦对双边贸易的重大影响。尽管美国仍是中国最大的传统出口市场,但其份额有所下降。
- 新兴市场成为主要增长引擎:以越南为代表的东南亚和“一带一路”沿线国家等新兴市场出口增长强劲。对越南出口增长23.4%,远超7.1%的整体出口增速,有效抵消了传统市场的疲软,展示了中国出口市场多元化战略的成效。
- 转口贸易韧性持续:对中国香港的出口增长13.6%,反映了香港作为全球主要转口贸易枢纽的独特作用,以及中国通过香港拓展全球市场的持续活力。
- 出口市场结构加速调整:在对美出口下降的背景下,中国的出口市场持续多元化。对东盟、非洲和拉丁美 America 等新兴市场的出口份额稳步增加,导致出口结构更加优化,减少了对单一市场的依赖。
- 出口产品结构持续升级:根据此前发布的数据,前三季度机电产品出口增长9.6%,高新技术产品出口增长11.9%。所谓的“新三样”绿色产品录得两位数增长,凸显了中国出口向更高端、更智能、更绿色产品持续转变,同时产业竞争力稳步增强。
两个堆叠在斜面上的立方体的受力图分析
I. 绘制受力图(FBDs)的说明
1. 整体场景设置
* 斜面:绘制一个与水平面成30°角的斜面。底边水平,斜边向上倾斜。
* 大立方体:一个边长为2厘米的立方体。其底面与斜面完全接触。底面的两条边分别平行于斜面的底边和斜坡方向(即平面内的两个垂直方向)。立方体的高度方向垂直于斜面,立方体稳定放置在平面上。
* 小立方体:一个边长为1厘米的立方体。其底面与大立方体顶面的中心接触。其高度方向也垂直于斜面,位于大立方体正上方(中心沿垂直于斜面的方向对齐)。
-
小立方体($m_1$ = 0.05kg)受力分析(g = 9.8m/s²)
-
大立方体($m_2$ = 0.1kg)受力分析(g = 9.8m/s²)
II. 力平衡分析
1. 小立方体($m_1$)的平衡条件(坐标系:x轴沿斜面向上,y轴垂直斜面向上)
– 沿斜面(x轴):
– 垂直斜面(y轴):
- 大立方体($m_2$)的平衡条件
– 沿斜面(x轴):(注意 $f'_{1}$ 向下)$$\sum F_{x}=0 \Rightarrow f_{2}=G_{2} \sin 30^{\circ}+f_{1}^{\prime}=\left(m_{2}+m_{1}\right) g \sin 30^{\circ}$$– 垂直斜面(y轴):(注意 $N'_{1}$ 向下)$$\sum F_y=0 \Rightarrow N_2=G_2 \cos 30^{\circ}+N_1^{\prime}=\left(m_2+m_1\right) g \cos 30^{\circ}$$
III. 视觉辅助(基于文本的绘图指南)
1. 绘制场景:绘制30°斜面。将大立方体(2cm边长)放在斜面上。将小立方体(1cm边长)放在大立方体顶部的中心。
2. 小立方体($m_1$):绘制 $G_1$ 垂直向下(从中心);$N_1$ 垂直斜面向上(从底部中心);$f_1$ 沿斜面向上(从底部中心)。
3. 大立方体($m_2$):绘制 $G_2$ 垂直向下(从中心);$N_2$ 垂直斜面向上(从底部中心);$f_2$ 沿斜面向上(从底部中心)。绘制来自 $m_1$ 的反作用力:$N'_{1}$ 垂直斜面向下(从顶部中心);$f'_{1}$ 沿斜面向下(从顶部中心)。
Seed1.8 对人文学科任务的完整回答
杏坛对话:孔子与苏格拉底的交谈
第一幕:杏坛晚风
时间:春秋末期,鲁哀公十六年(公元前479年),日暮时分
地点:曲阜杏坛庭院;竹简堆积如小山,弟子们围坐整理典籍
人物:孔子(73岁,须发全白,手持《易经》竹简,神态安详),颜回、子贡等弟子(孔子正在讲解泰卦——“天地交,万物通也。”突然,庭院中光影扭曲。一位身着雅典囚服、脚戴镣铐的老者出现在石桌旁,手持一杯毒堇。)
颜回(惊起):来者何人?
苏格拉底(放下杯子,拱手为礼,汉语略显生硬但清晰):我是雅典的苏格拉底,正等待城邦的判决。此地似乎是异域的学堂?
孔子(放下竹简,起身回礼):老朽鲁国曲阜孔丘。先生神色安详,不似赴死,倒像赴宴?
苏格拉底(微笑):死亡本身就是一场灵魂的盛宴。我听说东方有位圣人,通晓生死之道,特来求教。我听说夫子曾言:“未知生,焉知死?”难道死亡真的不值得探究吗?
第二幕:生之责任
孔子(示意弟子们继续整理典籍,自己与苏格拉底在石桌旁对坐):先生误解了。我并非说死不可知,而是生的道理尚未通晓,何谈研究死亡?人生一世,当尽人事:孝敬父母,忠于君主,信于朋友,并将仁道推及天下。我周游列国十四年,虽知大道难行,仍坚持不退,正是因为生的责任重于泰山。若连现世的道德都无法践行,空谈死后又有何益?
苏格拉底(轻叩杯沿):夫子的“仁道”令人敬佩,但我认为,死亡恰恰是生命意义之所在。我一生在雅典街头与人辩论,追问何为正义,何为美德,并非为了世俗荣光,而是为了让灵魂从肉体的束缚中解脱出来。肉体是灵魂的监狱,感官遮蔽真理,而死亡正是灵魂获得自由的时刻。就像我此刻:虽被城邦判处死刑,我却毫无畏惧,因为我即将与先贤的灵魂对话,真正地接近真理。
孔子(摇头):先生将灵魂与肉体对立,恐怕过于割裂。我华夏文化讲求“天人合一”,生死是自然循环的一部分,如同四季更替。“天地之大德曰生。”人当珍惜生命,在有限的生命里修养品性,传承礼乐文明。我晚年整理《诗》、《书》、《礼》、《乐》,正是为了将先王之道传于后世,使生命意义通过文化传承而延续。死非灵魂的解放,而是生命的完成——如落叶归根,回归天地。
子贡(插话):我曾问老师关于“死”的问题,老师只说“未知生,焉知死?”老师认为人应专注于现世的修养——“朝闻道,夕死可矣。”只要明白了真理,即便是当天死去也了无遗憾。
第三幕:死之意义
苏格拉底(点头):“朝闻道,夕死可矣”——此言我深为赞同。但我认为,“道”并非只存在于现世,而是永恒的真理。我被判死刑,正因我坚持告诉雅典人,他们所以为的知识,其实是无知。我本可认罪逃脱,但那将是对正义的背叛。一个稍有价值的人,不会计较生死,唯一关心的,是自己的行为是否正义。若我逃走,便等于承认我的教诲有罪——那比死亡更可怕。
孔子(叹息):先生以死明志,令人动容。我也曾遭遇匡人之围,险些丧命,但我坚信“天之未丧斯文也,匡人其如予何?”我之所以坚持,是相信文化传承的使命。我并非不怕死,而是认为死必有其价值。“杀身以成仁”、“舍生而取义”,此乃君子对死的态度。若为苟活而弃道义,则生不如死。然我也主张“危邦不入,乱邦不居”,保全自身,方能继续推行大道。这不是怯懦,而是对使命的责任。
苏格拉底(举杯):夫子的“杀身成仁”与我的“舍生取义”本质相同——都是为了坚守内心的真理。但我认为死亡并非终点,而是灵魂的启程。我常梦见有人对我说:“苏格拉底,练习音乐吧。”我想,哲学就是最高的音乐,而死亡,正是哲学实践的最终成就。一个真正的哲学家,一生都在练习死亡,因他每时每刻都在寻求让灵魂摆脱肉体欲望,专注于真理。
孔子(轻抚竹简):我不语怪力乱神,不揣测死后世界。我只知生时要做有意义的事,死时要问心无愧。我的弟子子路战死沙场,临死前仍正其冠。我虽悲痛万分,也为他骄傲。他用生命践行了“君子死,冠不免”的礼。这便是生命意义在死亡中的体现。死亡并非实践的目标,而是生命价值的最终证明。
第四幕:大道之合
(夕阳沉下地平线,庭院中燃起油灯。)
苏格拉D底(起身,举起毒堇酒杯):感谢夫子的指教。我们理解生死的路径虽有不同——你由生观死,我由死观生——但我们都在追求一种超越生死的真理。你通过文化传承使生命不朽,我通过灵魂解放接近真理。最终,都指向永恒。
孔子(起身相送):你以死践行哲学,老朽以生传承文化。异曲同工。愿先生此行,得见真理之光。
苏格拉底(饮尽毒药,微笑;身体逐渐变得透明):保重,夫子。愿你的大道,泽被后世。(光影再次扭曲,苏格拉底消失,庭院恢复平静。)
颜回(轻声):老师,您以为这位异邦君子之言如何?
孔子(望向苏格拉底消失之处,缓缓道):生死之事,各有其道。他以死为乐,我以生为责,皆为大道服务。“逝者如斯夫,不舍昼夜。”生死不过是自然循环,重要的是,活着的时候,无愧于心,无愧于道。(孔子拾起竹简,与弟子们继续整理典籍。油灯的光芒在竹简上跳跃,照亮了千古传承的文明光辉。)
C.3 科研任务
这里我们展示 Seed1.8 对生物研究任务的完整回答。
Seed1.8 对生物研究任务的完整回答
回答 1:
* 1. 可以省略的部分:CARD 结构域是氨基酸 2-92。51-435 构建体去除了氨基酸 2-50(部分 CARD 结构域),90-435 去除了大部分 CARD 结构域(2-89),两者仍然保持与 130-435(去除了整个 CARD 结构域,因为 130 在 CARD 结构域结束的 92 之后开始)相当的高焦亡诱导活性。所有这些截短的版本在蓝光下都工作良好,因此 CARD 结构域可以在改造过程中被省略。
* 2. 效果最差的改造:2-435 保留了完整的 CARD 结构域。与其他构建体相比,它在光照条件下每个时间点的焦亡细胞百分比最低。所以 2-435 是效果最差的改造。
回答 2:
* 1. 荧光试剂 A(与 DNA 结合的死细胞染料):在图像中它显示为绿色,在光照后垂死细胞的细胞核中可见。
* 2. Annexin V 荧光:在图像中它是蓝色的,染色了正在经历细胞死亡的细胞膜上外翻的磷脂酰丝氨酸。
回答 3:每组中的第一列是未经处理的对照组(无光照,无 LPS)。
* 1. 第 (1) 列:C(添加 LPS):LPS 是已知的 caspase-4/5 激活剂,但激活水平低于长时间的蓝光处理。与蓝光处理相比,caspase-4/5 和 GSDMD 的裂解较弱。
* 2. 第 (2) 列:A(10 分钟蓝光处理):caspase-4/5 和 GSDMD 有中度裂解,处理后的片段比 LPS 处理多,但比 30 分钟的光照少。
* 3. 第 (3) 列:B(30 分钟蓝光处理):这显示了最强的 caspase 裂解(caspase-4 的 p43/p32 和 caspase-5 的 p50/p30 最为显著)和最高量的裂解 GSDMD p31,因为更长的光照暴露导致更多的 Cry2olig 聚集和 caspase 激活。
C.4 科学软件工程任务
由于完整的智能体轨迹过长,我们在表11中总结了 Seed1.8 的响应。
表11 对3.4节中科学软件工程任务的 Seed1.8 完整响应的结构化总结。
💬 评论讨论
欢迎在这里分享您的想法和见解!