HunyuanOCR Technical Report
HunyuanOCR Technical Report
作者/机构: Tencent Hunyuan Vision Team
A1 主要贡献
本文介绍了一款名为 HunyuanOCR 的商用级、开源、轻量级(1B参数)的视觉语言模型(VLM),专用于光学字符识别(OCR)任务。该模型旨在解决传统 OCR 系统和通用 VLM 在实际应用中遇到的问题。
核心问题与研究目标:
传统的OCR系统通常采用基于流水线的框架(如 PaddleOCR, EasyOCR),这种方法虽然模块化程度高,但存在错误传播和开发维护成本高的问题。近年来,虽然出现了一些专门用于OCR的视觉语言模型(如 MonkeyOCR, Dots.OCR),但它们中的许多模型仍然依赖于预处理的布局分析模块,未能完全实现端到端的联合推理。此外,通用的VLM(如Gemini, Qwen-VL)虽然OCR能力强大,但其巨大的模型参数导致推理成本高、延迟大,不适用于许多实际业务场景。因此,研究目标是开发一个轻量、高效、功能全面且真正端到端的OCR模型,以克服现有方法的局限性。
创新点与主要贡献:
HunyuanOCR 在三个关键方面取得了突破:
1. 统一了多功能性与效率:在一个轻量级框架内,实现了对文本定位(spotting)、文档解析(parsing)、信息抽取(IE)、视觉问答(VQA)和翻译等核心能力的全面支持。这解决了传统“OCR专家模型”功能狭窄和“通用VLM”效率低下的问题。
2. 简化的端到端架构:采用纯粹的端到端范式,完全消除了对布局分析等预处理模块的依赖。这从根本上解决了传统流水线中常见的错误传播问题,并简化了系统部署。
3. 数据驱动与强化学习策略:研究证实了高质量数据在模型训练中的关键作用,并在业界首次证明了强化学习(RL)策略能够为OCR任务带来显著的性能提升。
性能优势:
HunyuanOCR 在多个基准测试中表现出色,其性能优于领先的商业API、传统流水线方法以及更大的模型。
- 综合能力: 如表1所示,HunyuanOCR在文本定位、解析、信息抽取、视觉问答和翻译等多个任务上均表现出色,功能覆盖全面。
- 高推理效率: 模型仅有1B参数,具有低延迟特性,适合资源受限的环境。
- 卓越性能: 在文档解析基准 OmniDocBench 上超越了 MinerU2.5 和 PaddleOCR-VL。在文本图像翻译和信息抽取任务上优于 Qwen3-VL-4B。在文本定位任务上优于 PaddleOCR 3.0 和部分商业云OCR API。
- 易用性: 端到端架构允许通过自然语言指令完成多种OCR任务,无需复杂的模型级联和后处理。
下表总结了 HunyuanOCR 与其他 VLM 和 OCR 系统在多任务上的性能对比:
表 1: 不同 VLM 和 OCR 系统在多任务上的性能比较。⭐ 表示支持且性能优异,🌟 表示支持但性能中等,🌙 表示支持但性能不佳。否则表示不支持。
A3 背景知识
OCR技术的发展经历了几个阶段。早期(1950-1980年代)主要基于模板匹配和特征工程。1990年代,随着机器学习理论的成熟,隐马尔可夫模型(HMMs)【【14】,Hidden markov models,1996】和支持向量机(SVMs)【【9】,Support-vector networks,1995】等统计方法被广泛采用,显著提高了识别准确率。进入21世纪,深度学习的快速发展催生了OCR的范式转变,系统架构从传统的模块化框架逐步过渡到当前由视觉语言模型赋能的统一处理范式。
2.1 传统OCR系统
传统OCR系统的模块化流水线架构。这类系统通常采用高度模块化的流水线架构,根据具体应用场景的需求,整合了多个功能独立的处理模块,主要包括基于深度学习的文本检测、文本识别、文档布局分析、命名实体识别以及可选的文本翻译模块。在过去几十年中,大量的研究工作致力于此方向,通过持续创新,开发了众多模型【【63】,EAST: an efficient and accurate scene text detector,2017】【【22】,Textboxes: A fast text detector with a single deep neural network,2017】【【23】,Real-time scene text detection with differentiable binarization and adaptive scale fusion,2022】【【44】,An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition,2017】【【45】,ASTER: An attentional scene text recognizer with flexible rectification,2018】【【30】,Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes,2018】【【18】,TrOCR: Transformer-based optical character recognition with pre-trained models,2023】【【32】,MaskOCR: Scene text recognition with masked vision-language pre-training,2024b】【【19】,Strucrtext: Structured text understanding with multi-modal transformers,2021】【【59】,StrucTextV2: Masked visual-textual prediction for document image pre-training】,极大地提升了各功能模块的准确性和鲁棒性。
传统OCR系统的局限性。尽管取得了显著进展,传统OCR系统仍存在两个亟待解决的根本性局限。首先,在架构层面,这些解决方案通常依赖于级联多个独立的功能模块,导致系统结构高度复杂。以一个典型的文档解析任务为例,一个功能完备的系统通常需要集成至少五个关键子系统:高精度文本检测模块、多语种文本识别引擎、细粒度布局分析组件、专门的数学公式识别模块和结构化表格识别单元。这种模块堆叠的设计不仅增加了部署复杂度和维护成本,还需要专业人员对各组件进行协同调优。其次,在推理过程中,多阶段的级联处理流程会导致通过“流水线效应”逐步放大错误。具体而言,文本检测的不准确会降低后续识别模块的输入质量,而布局分析的错误可能导致文本块的排序不正确。这些早期阶段的不准确性最终会损害系统最终输出的准确性和可用性。因此,传统OCR系统在处理诸如文本重叠或非标准布局的复杂场景时,往往无法满足实际需求。
2.2 视觉语言模型
视觉语言模型的兴起与优势。随着深度学习的快速发展,大型语言模型(LLMs)【【12】,Bert: Pre-training of deep bidirectional transformers for language understanding,2019】【【40】,Language models are unsupervised multitask learners,2019】【【7】,Language models are few-shot learners,2020】【【24】,Deepseek-v3 technical report,2024a】【【49】,Qwen3 technical report,2025】【【8】,Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities,2025】在自然语言处理(NLP)领域取得了显著突破。随后,跨多模态信息对齐的视觉语言模型(VLMs)【【25】,Visual instruction tuning,2023】【【2】,Gpt-4 technical report,2023】【【4】,Qwen2. 5-vl technical report,2025】【【8】,Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities,2025】【【55】,Internvl3. 5: Advancing open-source multimodal models in versatility, reasoning, and efficiency,2025b】在跨模态理解和生成方面展现了卓越的能力。这些模型通常采用统一的神经网络架构,能够高效处理视觉识别、文本理解和多模态推理等复杂的认知任务。这种范式的优势体现在两个方面。首先,在架构上,统一的网络设计支持协同的多任务处理,使得单个模型能够以端到端的方式执行多样化的任务。其次,通过利用LLMs固有的推理能力,该架构在认知密集型应用中实现了显著的性能提升。
2.2.1 通用视觉语言模型
通用VLM的OCR能力与局限。当前主流的通用视觉语言模型,如Gemini【【8】,Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities,2025】和Qwen-VL【【4】,Qwen2. 5-vl technical report,2025】,已经展示出强大的OCR能力。这些模型表现出鲁棒的文本感知能力,能够准确识别印刷体和手写文本,并有效处理涉及不规则布局、低分辨率图像和多语言内容的复杂场景。然而,它们庞大的参数规模在实际应用中带来了两个显著的限制。首先,推理需要大量的GPU内存和计算资源。其次,它们往往无法满足现实业务场景中严格的低延迟要求。
2.2.2 专用OCR视觉语言模型
专用OCR-VLM的发展与挑战。为了解决上述技术限制,开发轻量级、专用的OCR视觉语言模型已成为一个有前景的解决方案。诸如Nougat【【6】,Nougat: Neural optical understanding for academic documents,2023】和StructText-V3【【31】,Structextv3: An efficient vision-language model for text-rich image perception, comprehension, and beyond,2024a】等开创性方法尝试在统一模型内实现文档解析和信息抽取的端到端处理。随后的模型,包括Dolphin【【15】,Dolphin: Document image parsing via heterogeneous anchor prompting,2025】、MonkeyOCR【【20】,Monkeyocr: Document parsing with a structure-recognition-relation triplet paradigm,2025】、Dots.OCR【【13】,dots.ocr: Multilingual document layout parsing in a single vision-language model,2024】、MinerU2.5【【33】,Mineru2. 5: A decoupled vision-language model for efficient high-resolution document parsing,2025】和PaddleOCR-VL【【10】,Paddleocr-vl: Boosting multilingual document parsing via a 0.9 b ultra-compact vision-language model,2025a】,则从传统OCR流水线中汲取了灵感。这些方法通常首先使用专用模型或 repurposed 的视觉语言模型进行布局检测【【62】,Doclayout-yolo: Enhancing document layout analysis through diverse synthetic data and global-to-local adaptive perception,2024】【【48】,Pp-doclayout: A unified document layout detection model to accelerate large-scale data construction,2025】,随后对文本块、公式和表格进行统一识别。虽然这些方法通过利用视觉语言模型的泛化能力,相比传统流水线降低了系统复杂性并提高了准确性,但它们仍然容易受到布局分析阶段的错误传播影响,未能充分利用端到端优化的优势。
HunyuanOCR的优势。相比之下,本文提出的HunyuanOCR模型在技术架构和应用效果上,从三个关键维度展现出显著优势:
1. 完全端到端的架构:HunyuanOCR采用纯粹的端到端设计,消除了级联处理带来的错误累积。该架构通过系统优化的训练范式,最大限度地发挥了端到端学习的潜力。从工程角度看,该模型在单次推理中完成整个工作流,显著提升了在实际应用中的操作效率。
2. 全面的功能覆盖:利用视觉语言模型的统一任务处理能力,HunyuanOCR不仅支持基本的文档解析和文本定位,还支持信息抽取、视觉问答和跨语言翻译等高级功能。值得注意的是,它为全球数百种语言提供了广泛的多语言支持,使其成为现有功能最完备的专业OCR解决方案之一。
3. 卓越的性能基准:HunyuanOCR取得了卓越的性能,其关键指标显著超越了当前最先进的模型,并达到或超过了领先商业OCR API的标准。
A2 方法细节
3 模型设计
HunyuanOCR的整体架构。HunyuanOCR采用了一个由三个核心模块协作的架构:原生分辨率视觉编码器、自适应MLP连接器和轻量级语言模型。
原生分辨率视觉编码器(Hunyuan-ViT)。该编码器基于SigLIP-v2-400M预训练模型【【51】,Siglip 2: Multilingual vision-language encoders with improved semantic understanding, localization, and dense features,2025】构建。通过结合生成-判别混合的联合训练策略,它显著增强了模型理解复杂视觉语义的能力。编码器通过一种自适应的切片(patching)机制原生支持任意输入分辨率,并保留原始的宽高比,这使其特别适用于处理长文本文件等极端宽高比的挑战性场景。图像根据其原始比例被分割成补丁(patches),所有补丁都由带有全局注意力的Vision Transformer(ViT)进行处理。这种设计避免了图像失真和细节损失,从而在处理长文本行、大篇幅文档和低质量扫描件等困难案例时,显著提高了文本识别的准确性。
自适应MLP连接器。该模块作为视觉和语言领域之间的桥梁,实现了一种核心的可学习池化操作。它采用空间维度上的自适应内容压缩,以减少视觉编码器高分辨率特征图生成的令牌序列长度,从而有效最小化冗余。在此过程中,该模块保留了来自关键区域(如文本密集区域)的重要语义信息,从而实现了视觉特征到语言模型输入空间的高效和精确投影。
轻量级语言模型。该模型基于密集架构的Hunyuan-0.5B模型【【50】,Hunyuan-0.5b,2025】。它融合了XD-RoPE技术,该技术将传统的RoPE【【47】,Roformer: Enhanced transformer with rotary position embedding,2024】分解为四个独立的子空间:文本、高度、宽度和时间。这种设计建立了一种原生对齐机制,桥接了一维文本序列、二维页面布局和三维时空信息,使模型能够处理复杂布局解析(如多栏识别)和需要逻辑推理的跨页文档分析。
端到端优化。与其他专业的视觉语言OCR模型相比,HunyuanOCR在训练和推理上都采用了完全端到端的范式。通过扩展高质量、面向应用的数据并利用强化学习优化,该系统无需后处理,从而避免了流水线架构中常见的错误累积。它在处理混合布局文档理解等挑战性场景时表现出卓越的鲁棒性。
4 数据构建
4.1 任务设计
统一任务范式。HunyuanOCR利用视觉语言模型的架构优势,将各种OCR任务集成到一个统一的范式中。这使得单个模型能够处理OCR领域内的多种高频任务。
4.1.1 文本定位(Spotting)
文本定位任务的实现。作为一项基础的OCR能力,文本定位要求精确地定位和识别图像中的文本。HunyuanOCR为此任务采用了标准化的指令模板,使用固定的提示语:“Detect and recognize text in the image, and output the text coordinates in a formatted manner.”(检测并识别图中的文字,将文本坐标格式化输出)。该指令引导模型输出行级文本内容和相应的坐标信息。为了确保响应是机器可解析的,定义了一种结构化的输出格式:<ref>text</ref><quad>(x1,y1),(x2,y2)</quad>。其中,<ref> 和 </ref> 标签内的文本表示识别出的内容,而 <quad> 和 </quad> 标签内的坐标序列使用其左上角和右下角顶点指定文本区域的边界框。所有坐标都被归一化到[0, 1000]的范围内,以在不同分辨率的输入图像间保持一致性。
4.1.2 文档解析(Parsing)
文档解析的核心地位。文档解析是一项核心的OCR能力,其战略重要性随着大型语言模型(LLMs)的快速发展而日益凸显。它不仅是构建高质量训练数据集的关键预处理工具,也是检索增强生成(RAG)系统中必不可少的上游组件。HunyuanOCR提供了一个全面的文档解析解决方案,支持细粒度的元素级解析和完整的端到端文档解析。
细粒度元素解析。它支持独立识别和提取专门的文档元素,包括数学公式、化学公式、表格和图表。HunyuanOCR采用标准化的指令模板来引导不同文档元素的解析:
* 公式解析:使用提示语“Identify the formula in the image and represent it using LaTeX format.”(识别图中的公式,并用LaTeX格式表示),模型返回数学或化学公式相应的LaTeX代码。
* 表格解析:使用提示语“Parse the table in the image into HTML.”(将图中的表格解析为HTML),模型返回表格的HTML代码。
* 图表解析:使用提示语“Parse the chart in the image, use Mermaid format for flowcharts and Markdown for other charts.”(解析图中的图表,对于流程图使用Mermaid格式,其他图表使用Markdown格式),模型根据图表类型自适应地使用Mermaid语法或Markdown来描述图表。
端到端文档解析。HunyuanOCR能够对包含多种复杂元素类型的文档进行集成的、整页的解析。我们使用提示语:“Extract all information from the main body of the document image and represent it in markdown format, ignoring headers and footers. Tables should be expressed in HTML format, formulas in the document should be represented using LaTeX format, and the parsing should be organized according to the reading order.”(提取文档图像正文中的所有信息,并以markdown格式表示,忽略页眉和页脚。表格应以HTML格式表示,文档中的公式应使用LaTeX格式表示,并按照阅读顺序组织解析)。该指令引导模型对文档图像进行综合分析,按自然阅读顺序输出所有文本内容,同时智能地将识别出的表格和公式分别转换为HTML和LaTeX格式,并输出图像中图形或图表的空间位置及相应标题。此外,我们引入了一个名为“Extract the text in the image”(提取图中的文本)的通用提示语。它专为多样化的现实世界场景设计,引导模型按自然阅读顺序读取任何图像,如海报、街景、产品包装或UI屏幕。检测到的表格被转换为Markdown格式,公式转换为LaTeX,为广泛的下游应用生成干净和结构化的输出。
4.1.3 信息抽取(IE)与视觉问答(VQA)
文档理解能力。HunyuanOCR通过强大的信息抽取(IE)和先进的视觉问答(VQA)能力,提供了全面的文档理解。
IE能力。作为一项核心OCR功能,IE需要精确的感知定位和深入的语义关联。HunyuanOCR提供了鲁棒的结构化抽取能力,其优势体现在两个主要方面:
* 领域适应性:HunyuanOCR被设计用于开放世界中任意字段的抽取,展现出强大的领域适应性,同时针对超过30种常见文档类型进行了精确优化。这些类型包括30种卡证和票据,详细类别列于表8。
* 指令驱动控制:HunyuanOCR允许通过自然语言指令进行精细控制。它支持针对性的单字段抽取(例如,“Please output the value of < Key >”),也支持基于用户提供的键列表并行抽取多字段到结构化的JSON(例如,“Extract [’key1’,’key2’,. . . ] and return in JSON format”),从而实现对多样化应用场景的无缝适应。
* 视频字幕提取:响应指令“Extract the subtitles from the image”(提取图中的字幕),HunyuanOCR从标准视频截图中提取字幕,能够鲁棒地处理不同分辨率、宽高比(横屏/竖屏)以及屏幕上水平和垂直方向的文本。
VQA能力。HunyuanOCR展示了强大的开放领域文档问答性能,能够有效处理关于图像文本的开放式查询并生成准确的预测。其关键能力包括:
* 多格式输入支持:模型处理多样化的输入,包括裁剪的文本行、数学公式、文档、图表和街景图像,以进行感知和理解。
* 高级推理:除了基础识别外,它还能基于视觉和文本内容执行复杂的任务,如空间和属性理解、逻辑推理以及数值计算。
4.1.4 文本图像翻译
翻译功能概述。HunyuanOCR集成了一个全面的端到端图像到文本翻译模块,支持超过14种源语言——包括法语、德语、日语、韩语以及许多其他广泛使用或区域性重要语言——并将它们翻译成中文或英文。此外,该系统支持中英文之间的直接双向翻译,覆盖了通用翻译场景和具有复杂布局的以文档为中心的翻译任务。
多场景鲁棒性。除了语言覆盖范围,HunyuanOCR还为多场景鲁棒性而设计,能够处理面向文档的输入——如扫描页面、结构化布局、表格、表单和密集段落——以及包含嵌入文本、标牌、海报、字幕和其他视觉多样化内容的通用场景。这使得模型能够在布局复杂性、图像质量、光照、失真和多语言内容分布等变化下进行可靠的翻译。
提示语设计。为了在不同用例中充分激活模型的翻译能力,我们设计了两种互补的提示语范式:
* 通用翻译提示:“Extract all text from the image and translate it into Chinese/English.”(提取图像中的所有文本并将其翻译成中文/英文)。此提示语针对通用场景文本翻译,不假设任何文档结构。
* 面向文档的翻译提示:“First parse the document, then translate its content into Chinese. Ignore headers and footers; represent equations in LATEX; and render tables in HTML format.”(首先解析文档,然后将其内容翻译成中文。忽略页眉和页脚;用LATEX表示方程;用HTML格式渲染表格)。
该提示语专为需要结构化解析的英译中文档图像翻译而设计。
4.2 数据流水线
数据构建概述。为了系统地增强HunyuanOCR在不同场景、语言和布局下的感知与理解能力,我们构建了与上述核心任务对齐的大规模、高质量训练数据。除了聚合公共基准数据集,我们还通过网络爬虫收集了广泛的真实世界数据,并使用专有的合成工具生成了高质量的合成样本。通过一个完整的数据生产和清洗流水线(图3),我们构建了一个包含超过2亿图像-文本对的语料库,涵盖了九个主要的真实世界场景——街景、文档、广告、手写文本、截图、卡证/证书/发票、游戏界面、视频帧和艺术字体——并覆盖了超过130种语言,形成了一个高质量的多模态训练资源。
4.2.1 图像数据合成
合成流水线特点。在SynthDog框架的基础上,我们扩展了其能力,为长文档解析和翻译任务生成高质量的合成数据。该系统支持超过130种语言的段落级渲染,并全面处理双向文本布局(LTR/RTL)以及复杂的草书脚本(图3(a)-(b))。所提出的合成流水线展现出以下核心特性。首先,它能够在渲染过程中对文本属性(如字体、颜色和方向)以及图像扰动(包括光照和阴影)进行细粒度控制。其次,它能准确模拟复杂的排版特征,如手写风格字体和混合字体排版。此外,该系统显著增强了对低资源语言的支持,有效提升了OCR和机器翻译的跨语言泛化能力。最后,通过一个统一的架构,它生成了适用于多种任务的图像-文本对齐数据,包括文本定位、长文档解析和跨语言翻译。
4.2.2 图像数据增强
增强模型鲁棒性。我们采用内部开发的Warping Synthesis Pipeline来模拟拍摄和自然场景文档中现实的成像缺陷,从而增强模型的鲁棒性(图3(c))。该流水线集成了三个关键功能:通过控制点操作进行几何变形以模拟折叠、弯曲和透视畸变;通过运动模糊、高斯噪声和压缩伪影进行成像降级;以及模拟全局/局部光照变化、阴影和反射的光照扰动。该流水线显著提升了核心OCR任务(如文本定位、文档解析和视觉问答)的鲁棒性。
4.2.3 问答对生成
自动化QA生成流程。我们开发了一个自动化流水线,集成了困难样本检索、问答生成和一致性验证,以生产高质量的VQA数据,同时最大化跨任务样本的复用。基于“单一来源,多种用途”的原则,该流水线对每个图像的文本定位、解析输出和VQA标注进行联合管理,从而实现了跨文本定位、文档解析和以文本为中心的VQA任务的统一训练。
困难样本检索。我们采用一种基于图像和标签的自动化筛选策略,从大规模数据集中识别具有挑战性的案例。优先选择清晰度低、包含复杂表格或公式、代码片段以及低资源语言文本的样本。这种方法确保了大量的训练能够有效提升模型在这些挑战性场景下的性能。
指令化QA生成。我们设计了统一的指令模板,利用高性能的视觉语言模型(VLM)为多种任务类型自动生成问答(QA)对。例如,该系统可以生成包含识别和转换代码片段、公式、表格和图表等元素到结构化格式(包括Markdown、HTML和JSON)的解析任务。此外,通过利用图像中存在的文本内容、图表属性、语义信息和数值数据,该方法生成了覆盖信息提取、数值计算、内容摘要和其他推理任务的多样化QA对。
一致性验证与数据精炼。我们采用多模型交叉验证机制来评估生成的问答(QA)对的置信度。通过验证的数据被直接纳入训练集以确保质量,而一部分失败的案例则经过人工验证,以补充模型难以处理的挑战性样本,从而增强数据集的多样性和覆盖范围。
5 训练方案
5.1 预训练
四阶段预训练策略。我们为HunyuanOCR的预训练采用了一个四阶段的训练策略,如表2所示。过程从第一阶段开始,该阶段对视觉-语言桥接部分进行预热。在第二阶段,所有模型参数被解锁,进行端到端的多模态学习。第三阶段将上下文窗口扩展到32k个令牌,以支持长文档的解析和理解。最后,第四阶段使用标准化的指令和归一化的输出进行面向应用的微调,为后续的强化学习奠定坚实的基础。
* 第一阶段:在第一阶段,我们仅训练视觉编码器(ViT)和一个可学习的MLP适配器,同时保持语言模型冻结,将视觉特征与文本语义空间对齐。训练语料主要由通用图像描述数据和专注于解析与识别任务的合成OCR数据组成,并辅以小部分纯文本(≤ 10%)以保留语言模型的核心语言能力。此阶段强调文本解析和识别,以增强模型对图像中文本内容的感知和结构化理解。训练使用了大约50B个令牌,学习率从$3 \times 10^{-4}$预热至峰值,然后衰减至$3 \times 10^{-5}$。
* 第二阶段:在第二阶段,所有模型参数被解冻,进行端到端的视觉-语言联合学习,重点是增强模型对文档、表格和图表等结构化内容的深度理解和认知推理能力。训练数据混合中增加了覆盖多种任务(包括文本解析、定位、翻译和VQA)的合成样本的比例,同时保留约(≤ 10%)的纯文本以维持指令遵循和语言泛化能力。训练使用了大约300B个令牌,采用预热-余弦学习率调度,从$2 \times 10^{-4}$衰减至$5 \times 10^{-5}$。
表 2: HunyuanOCR预训练的四阶段训练方案概述。
- 第三阶段:我们将模型的上下文长度扩展到32K,并使用Ring Attention机制进行训练,主要数据是长文档上下文解析任务和长篇纯文本数据。此阶段使用了大约80B个令牌,学习率从$8 \times 10^{-5}$衰减至$5 \times 10^{-6}$。
- 第四阶段:我们使用精心策划的、人工标注的真实世界数据,辅以小部分高质量的合成样本,进行退火训练,同时保持32K的上下文窗口,以增强在复杂场景下的感知鲁棒性。通过在不同任务中使用统一的指令模板和标准化的输出格式,我们确保了训练数据中响应模式的一致性。这种设计不仅降低了模型的学习难度,也为后续后训练阶段的奖励模型设计提供了便利。此阶段训练使用了24B个令牌,学习率从$2 \times 10^{-5}$线性衰减至$1 \times 10^{-6}$。
5.2 强化学习 (RL)
强化学习在(多模态)大模型中的应用。强化学习(RL)算法已成为一个强大的范式,在涉及大型语言模型(LLMs)和多模多态大型语言模型(MLLMs)的多个领域取得了显著成功。值得注意的应用包括数学推理【【43】,Deepseekmath: Pushing the limits of mathematical reasoning in open language models,2024】、图像分割【【28】,Seg-zero: Reasoning-chain guided segmentation via cognitive reinforcement,2025】以及全方位多模态LLMs【【61】,R1-omni: Explainable omni-multimodal emotion recognition with reinforcement learning,2025】。这种广泛的成功主要归功于RL能够将模型输出与可验证的指标【【57】,Reinforcement learning with verifiable rewards implicitly incentivizes correct reasoning in base llms,2025】或人类偏好【【36】,Omni-dpo: A dual-perspective paradigm for dynamic preference learning of llms,2025a】【【37】,Mitigating object hallucinations via sentence-level early intervention,2025b】对齐。
强化学习在轻量级OCR模型中的应用。虽然RL传统上应用于大规模推理模型,我们研究了其在优先考虑高效和准确文本理解的轻量级OCR模型上的应用。利用许多OCR任务的结构化性质和固有的可验证性,我们对文本定位和文档解析等封闭式任务采用带可验证奖励的强化学习(RLVR)。对于翻译和以文本为中心的VQA等更开放的任务,我们设计了基于“以LLM为评判者”方法的奖励机制。通过整合RLVR和以LLM为评判者的技术,我们证明了即使是轻量级模型也能实现显著的性能提升,为边缘和移动应用开辟了新的可能性。
5.2.1 数据整理
数据流水线的原则。我们的数据流水线强调质量、多样性和难度平衡。在质量方面,我们结合了高质量的开源和合成数据集,并使用基于LLM的评判进行过滤,以确保图像-文本的对齐并移除容易被利用的任务(例如,多项选择)。在多样性方面,我们涵盖了上文提到的广泛的OCR相关任务,并通过丢弃输出多样性低或奖励方差为零的样本来保持充分的探索。最后,为了平衡任务难度,我们基于模型样本采用通过率过滤,移除了过于简单和无法解决的例子。
5.2.2 奖励设计
能力自适应的奖励设计。我们采用一种能力自适应的奖励设计,其中每种OCR相关任务类型都有一个量身定制的奖励公式,以与其输出特性对齐。
* 文本定位 (Spotting):对于需要联合进行文本识别和边界框定位的文本定位任务,奖励计算如下。每个预测的边界框首先通过最大化交并比(IoU)被分配给一个基准真相框。然后,每个匹配对的奖励计算为1减去预测文本字符串与基准真相文本字符串之间的归一化编辑距离。任何未匹配的预测或基准真相框都会通过对平均奖励贡献零值而受到惩罚。最终奖励是所有评估对的平均得分,提供了一个对定位和识别准确性的均衡度量。
* 文档解析 (Document Parsing):文档解析旨在将文档图像转换为包含文本内容、数学公式和表格的结构化格式。评估强调结构完整性和内容准确性。奖励是根据模型输出与基准真相参考之间的归一化编辑距离计算的。
* 视觉问答 (VQA):奖励是二元的(1或0),基于模型的答案是否在语义上与参考答案匹配。评分模型仅评估内容的完整性和事实的正确性,容忍微小的风格差异,但对关键内容元素强制执行严格的对齐。
* 翻译 (Translation):我们使用一种软奖励方案,其中一个评分LLM将生成的输出与参考进行比较,并给出一个在[0, 5]范围内的分数。这个原始分数然后经过去偏置归一化处理到[0, 1]。关键是,这种归一化旨在扩展中档(2-4)的奖励粒度,使模型能够更好地捕捉翻译质量的细微改进和差异。
5.2.3 训练策略
GRPO算法。我们采用组相对策略优化(Group Relative Policy Optimization, GRPO)算法作为我们的主要强化学习框架。在每次训练迭代中,GRPO从旧策略($\pi_{\theta_{old}}$)中为给定查询($q$)采样一组响应($o_1, o_2, \cdots, o_G$),并通过最大化以下目标来更新当前策略($\pi_{\theta}$):
$$ \mathcal{L}_{\mathrm{GRPO}}(\theta) = \mathbb{E}_{\left[q \sim \mathcal{D},\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{\text {old }}}(\cdot \mid q)\right]}\left[\frac{1}{G} \sum_{i=1}^{G}\left[\min \left(\frac{\pi_{\theta}\left(o_{i} \mid q\right)}{\pi_{\theta_{\text {old }}}\left(o_{i} \mid q\right)} A_{i}, \operatorname{clip}\left(\frac{\pi_{\theta}\left(o_{i} \mid q\right)}{\pi_{\theta_{\text {old }}}\left(o_{i} \mid q\right)}, 1-\epsilon, 1+\epsilon\right) A_{i}\right)-\beta \mathbb{D}_{\mathrm{KL}}\left(\pi_{\theta} \| \pi_{\text {ref}}\right)\right]\right] $$其中,$A_i$ 是根据组奖励计算的优势函数,$D_{KL}$ 是用于正则化的KL散度项。$\epsilon$ 和 $\beta$ 分别控制裁剪和KL惩罚的强度。
稳定训练的约束。为确保稳定可靠的训练,我们在奖励计算过程中强制执行长度约束和严格的格式。具体来说,任何超过最大长度的输出都会立即被分配一个零奖励。同样,对于像文本定位和文档解析这样的结构化任务,未能遵循所需模式的输出也会直接被零奖励惩罚。这些约束帮助优化过程专注于有效、结构良好和可验证的输出,从而引导模型在受限条件下学习准确的推理和格式化行为。
A4 实验环境
-
数据集:
- 文本定位: 自建基准测试集,包含9个类别(艺术字、文档、游戏截图、手写字、广告、卡证票据、屏幕截图、街景、视频帧),共900张图片。
-
文档解析:
- OmniDocBench【【34】,Omnidocbench: Benchmarking diverse pdf document parsing with comprehensive annotations,2024】: 公开的综合性文档解析基准。
- Wild-OmniDocBench: 通过打印并重拍 OmniDocBench 文档创建的真实场景数据集。
- DocML: 内部构建的多语言解析数据集,涵盖14种非中/英文语言。
-
信息抽取与视觉问答:
- 自建卡证票据测试集,包含30个常见类别,共768个样本。
- 自建视频字幕数据集,包含1000个样本。
- OCRBench【【27】,Ocrbench: on the hidden mystery of ocr in large multimodal models,2024c】: 公开基准,包含1000个测试样本。
-
文本图像翻译:
- DoTA【【21】,Document image machine translation with dynamic multi-pre-trained models assembling,2024】: 英文复杂布局文档翻译数据集。
- 基于DocML的自建评估基准,标注了中英文翻译。
-
模型架构:
- HunyuanOCR: 1B参数,由一个0.4B参数的ViT和一个0.5B参数的LLM组成。
- 对比模型: PaddleOCR, BaiduOCR, Gemini-2.5-Pro, Qwen3-VL (2B, 4B, 8B, 235B), Seed-1.6-Vision, MonkeyOCR-pro, MinerU2.5, PaddleOCR-VL, Mistral-OCR, Deepseek-OCR, dots.ocr, Marker, PP-ChatOCR, PP-DocTranslation, InternVL3.5-2B, Mini-Monkey。
-
硬件与软件配置:
- 论文中未提供详细的硬件配置(如GPU型号/数量、CPU等)和软件配置(如操作系统、编程语言、核心依赖库版本等)。
- 部署方案提及了基于vLLM的高性能部署方案。
A4 实验结果
6.1 文本定位
实验内容:在一个包含9个类别共900张图片的自建基准上,将 HunyuanOCR 与传统流水线模型、领先的商业 API 和通用视觉语言模型(VLM)进行比较。
实验结果:如表3所示,HunyuanOCR 取得了70.92的最高综合得分,在艺术字、文档、游戏、手写、屏幕、场景和视频等多个类别中均表现最佳。
分析结论:作为端到端的VLM方案,HunyuanOCR 显著优于传统的流水线方法。与通用VLM相比,它以更少的参数实现了更高的准确性,展现了在计算效率和性能上的双重优势。
表 3: 在内部基准上对文本定位能力的综合评估。
6.2 文档解析
实验内容:在三个基准数据集上系统评估模型的文档解析性能:公开的 OmniDocBench、自建的真实场景 Wild-OmniDocBench,以及自建的多语言解析数据集 DocML。
实验结果:如表4所示,HunyuanOCR 在 OmniDocBench (得分94.10) 及其 Wild 变体 (得分85.21) 上的综合性能均排名第一。在 DocML 数据集上,HunyuanOCR 在所有14种语言中都取得了最先进的结果 (综合得分91.03)。
分析结论:HunyuanOCR 在多语言、多场景和真实世界条件下均能提供鲁棒且准确的文档解析,尽管其参数量仅为1B,但性能优于更大的专用OCR或基于VLM的解析模型。
表 4: 在多语言环境和多样化文档场景下评估的解析性能。
6.3 信息抽取与视觉问答
实验内容:在三个基准数据集上评估模型的信息抽取和开放式视觉问答性能:包含30种常见类别的自建卡证票据测试集、自建的视频字幕数据集,以及公开的 OCRBench 基准。
实验结果:如表5所示,HunyuanOCR 在卡证(92.29)、票据(92.53)和视频字幕(92.87)的信息抽取任务中均取得了最高的整体准确率,显著超过了参数量更大的VLM。在 OCRBench 上,HunyuanOCR (得分860) 的性能也远超同等规模的 DeepseekOCR (得分430),并与更大的 Qwen3-VL-2B-Instruct 模型 (得分858) 相当。
分析结论:HunyuanOCR 在信息抽取和VQA任务上表现出色,证明了其轻量级架构的有效性。
表 5: 信息抽取和视觉问答任务的评估。
6.4 文本图像翻译
实验内容:使用两个基准数据集评估模型的文本图像翻译能力:公开的 DoTA 数据集(评估英译中性能)和基于 DocML 的自建多语言评估基准。评估指标为 COMET。
实验结果:如表6所示,在 DoTA 数据集上,HunyuanOCR (得分83.48) 超过了参数量超过8B的VLM。在 DocML 多语言翻译评估中,HunyuanOCR 同样优于多个参数量超过4B的大型VLM。此外,模型在 ICDAR 2025 端到端文档图像机器翻译竞赛的小模型赛道中获得第一名。
分析结论:HunyuanOCR 为文本图像翻译提供了一个高效而强大的解决方案。尽管如此,作者指出,由于其语言模型相对较小,其翻译能力相较于其强大的文本检测、识别和文档解析性能仍有差距,对于要求更高翻译精度的应用,建议将解析模块与更强的翻译模型级联。
表 6: 图片翻译评估。我们还手动为DocML标注了高质量的英文和中文参考翻译,作为评估文本翻译性能的基准标签。
A5 结论
本文介绍了 HunyuanOCR,一个开源的专家级视觉语言模型,它在一个轻量级、端到端的架构中统一了多样化的 OCR 任务。研究工作表明,一个仅有1B参数的紧凑模型可以通过以数据为中心的训练策略和有针对性的强化学习方法,实现与更大型通用 VLM 和传统流水线系统相媲美的性能。HunyuanOCR 在文本定位、文档解析和信息抽取方面取得了最先进的结果,同时显著简化了部署流程。这些进展与在摘要中提出的平衡多功能性与效率的初衷相符。
未来工作:未来将继续通过令牌压缩和架构改进来优化推理效率,同时扩展模型处理更高分辨率和多页文档的能力。长期目标仍然是将 HunyuanOCR 适配于边缘设备部署,进一步普及强大的OCR智能技术以用于实际应用。
A6 附录
A 推荐指令
表7总结了HunyuanOCR支持的各项任务的推荐指令,并提供了中英双语参考。我们建议使用中文指令以确保基准测试结果的稳定性和可复现性。
表 7: 针对不同任务类型推荐的中英双语指令。
B 常见的支持IE类别
表8总结了30个IE任务所涵盖的常见卡证和票据类型。卡证方面包括身份证、银行卡、护照、社保卡、营业执照、驾驶证、行驶证等十余个类别。票据方面也涵盖了购物小票、出租车票、增值税发票、火车票、汽车票、行程单、银行水单等十余种类型。
表 8: IE任务的常见文档类别,分为卡证和票据两组。
C 强化学习详情
概述。本节提供了对HunyuanOCR强化学习(RL)阶段的补充细节,超出了正文第5.2节的描述。我们首先总结RL训练配置(C.1节),然后展示训练动态(C.2节),最后分析RL训练带来的性能提升(C.3节)。
C.1 训练配置
RL训练设置。RL的详细训练设置列于表9。我们采用恒定学习率调度和Adam优化器,使用大的全局批量大小和长上下文设置,以充分利用HunyuanOCR的长文档理解能力。RL期间没有应用显式的KL惩罚,允许策略在任务特定奖励的指导下更自由地调整。对于 rollout 生成,我们使用0.85的低温度,并为每个提示采样N=8个响应,以获得用于奖励评估和策略更新的多样化候选集。
表 9: 强化学习的训练设置。
C.2 训练动态
训练过程可视化。RL阶段的训练动态如图4所示,我们追踪了两个关键统计数据:每一步获得奖励为1的样本比例,以及平均奖励值。随着训练的进行,平均奖励稳步增加。这一持续的上升趋势表明,策略逐渐学会产生更能满足任务特定奖励标准的输出,验证了RL过程的有效性和稳定性。
C.3 各任务性能提升
RL训练后的性能增益。经过RL训练后,我们在多个OCR相关任务上观察到显著的增益。
文本定位(Spotting)。HunyuanOCR的定位能力显著提升,尤其是在艺术字和屏幕截屏场景中,分数提升超过2个点。我们将这些增益归因于为定位任务设计的基于规则的奖励,该奖励可以细粒度地评估预测输出与真实标注之间的差异。这鼓励模型同时提高预测边界框的准确性和识别文本的正确性。
文档解析(Parsing)。对于解析任务,在OmniDocBench上的分数从92.5提升到94.1。这一提升进一步证明了基于规则的奖励设计的有效性,它能精确地衡量模型输出与参考文本之间的内容一致性。
信息抽取、VQA和翻译。此外,信息抽取(IE)任务提升了约2个点,OCRBench上的平均分增加了3.3分,文本图像翻译任务也显示出明显的增益。这些结果表明,基于“LLM即评判者”的奖励设计能有效引导模型在更高级的理解任务中产生更忠实和语义更准确的输出。
讨论。总的来说,我们将RL在HunyuanOCR中的有效性主要归因于两个因素:
- 高质量的训练数据。精心策划和多样化的RL训练数据为模型学习跨越定位、解析、IE和翻译场景的鲁棒行为提供了坚实的基础。
- 细粒度的奖励设计。任务特定的、细粒度的奖励函数(包括基于规则的和基于“LLM即评判者”的)使模型能够在其输出的多个方面接收精确的反馈,从而在识别准确性、结构化解析和语义理解方面实现均衡的改进。
这些因素共同作用,使得RL阶段成为监督训练的有效补充,产生了一个能力更强、更可靠的HunyuanOCR模型。
D 定性示例
提示: 检测并识别图中的文字,文本坐标格式化输出。
图 5: HunyuanOCR 在艺术字体上的鲁棒文本定位结果。
HunyuanOCR: <ref>亲爱的</ref><quad>(22,160),(888,788)</quad>
提示: 检测并识别图中的文字,文本坐标格式化输出。
图 6: HunyuanOCR 在密集文档上的鲁棒文本定位结果。
HunyuanOCR:
<ref>上 海 保 利 大 剧 院 管 理 有 限 公 司</ref><quad>(291,90),(729,139)</quad><ref>舞 台 幕 布 管 理 制 度</ref><quad>(177,143),(319,171)</quad><ref>舞 台 木 地 板 管 理 制度</ref><quad>(428,156),(599,183)</quad><ref>舞 台 临 时 配 电 柜 管 理 制 度</ref><quad>(688,165),(858,191)</quad><ref>一 、 剧 院 所 有 幕 布 均 应 进 行 防 火 处 理 。</ref><quad>(146,179),(298,198)</quad><ref>二 、 使 用 剧 院 大幕、边沿幕、二道幕、天幕,不要</ref><quad>(144,197),(346,220)</quad><ref>一、为进一步加强剧院舞台地板的管理,提供一个平整、完好的舞台</ref><quad>(384,192),(635,212)</quad><ref>地板和演出场地,特制定剧院舞台地板使用管理制度,请服从剧</ref><quad>(401,207),(636,226)</quad><ref>一、使用舞台临时配电柜,应与剧院专职电工联系,</ref><quad>(683,202),(862,218)</quad><ref>拉扯、拖地、堆积幕布,以免损坏幕布。</ref><quad>(162,217),(324,237)</quad><ref>院工 作 人 员 的 管 理 , 自 觉 遵 守 以 下 规 定 。</ref><quad>(401,222),(550,239)</quad><ref>并 提 供 用 电 容 量 , 经 确 认 同 意 后 方 可 接 电 操 作 ,</ref><quad>(701,216),(864,233)</quad><ref>三 、 移 动 剧 院 幕 布 , 经 舞 台 机 械 主 管 人 员 的 同 意后</ref><quad>(142,236),(345,257)</quad><ref>二 、 操 作 人 员 须 持 有 效 低 压 电 工 操 作 证 书 , 严 格 执</ref><quad>(685,245),(863,262)</quad><ref>方 可 进 行 。</ref><quad>(160,256),(202,271)</quad><ref>后 舞 台 指 定区 域 。 禁 止 将 上 述 器 材 直 接 堆 放 在 主 舞 台 区 域 。 进 景</ref><quad>(402,253),(638,272)</quad><ref>行 国 家 有 关 低 压 电 操 作 规 程 , 严 禁 非 电 工 和 不</ref><quad>(703,261),(865,277)</quad><ref>四 、 移 动 或 拆 除 幕 布 时 , 要 在 剧 院 舞 台 机械 人 员 的</ref><quad>(139,276),(344,296)</quad><ref>期 间 , 主 舞 台 区 域 将 实 行 封 闭 管 理 , 谢 绝 穿 行 。</ref><quad>(402,269),(576,286)</quad><ref>规 范 操 作 。</ref><quad>(705,276),(742,289)</quad><ref>四 、接 电 完 成 后 请 不 要 合 闸 , 待 剧 院 专 职 电 工 检 查</ref><quad>(688,291),(868,307)</quad><ref>正 确 指 导 下 方 可 进 行 。</ref><quad>(157,297),(247,312)</quad><ref>(1)请 在 侧 舞 台 或 后 舞 台 进 行 拆 箱 、 组 景 、 取 灯 等 操作 。</ref><quad>(390,300),(593,317)</quad><ref>合 格 后 , 方 可 合 闸 通 电 。</ref><quad>(706,308),(792,322)</quad><ref>五 、 保 持 幕 布 与 灯 光 距 离 大 于50cm, 必 要 时 进 行</ref><quad>(135,316),(339,336)</quad><ref>(2)搬运 灯 具 、 景 片 时 , 应 抬 离 舞 台 地 面 后 再 移 动 , 禁 止 在 舞 台 地</ref><quad>(389,317),(639,335)</quad><ref>四 、 演 出 结 束 后 , 应 派 专 人 负 责 拉 闸 断 电 , 经 确 认</ref><quad>(690,322),(871,338)</quad><ref>吊 杆 悬 挂 相 应处 理 。</ref><quad>(154,337),(226,352)</quad><ref>板 上 拖 拉 , 避 免 由 于 搬 运 不 当 损 坏 舞 台 地 板 。</ref><quad>(400,334),(569,349)</quad><ref>无 误 后 方 可 离 去 。</ref><quad>(708,339),(770,351)</quad><ref>六 、不 要 在 幕 布 周 围60cm范 围 内 摆 放 烟 机 、 干 冰</ref><quad>(132,356),(337,376)</quad><ref>(3)在 舞 台 上 搭 装 平 台 或 放 置 重 物 时 , 应 在 与 舞 台 面 接 触 处 加 铺 防 护</ref><quad>(388,350),(641,367)</quad><ref>垫 ; 请 将 废 弃 的 铁 丝 、 钉 子等 硬 物 及 时 清 理 , 以 免 划 伤 舞 台 地 板 。</ref><quad>(399,366),(647,383)</quad><ref>机 、 雪 花 机 、 流 动 灯 具 等 , 以 免 损 坏 幕 布 。</ref><quad>(151,378),(327,396)</quad><ref>(4)舞 台 区 域 严 禁 使 用 大 力 胶 、 双 面 胶 、 透 明 胶 等 粘 性 较强 的 胶 带 ,</ref><quad>(388,382),(637,400)</quad><ref>注 意 事 项</ref><quad>(741,388),(835,412)</quad><ref>七 、 幕 布 如 有 破 损 , 尽 快 修 复 , 避 免 范 围 扩 大 。</ref><quad>(128,398),(326,417)</quad><ref>严禁 在 舞 台 地 板 上 钉 钉 子 。</ref><quad>(399,400),(499,414)</quad><ref>八 、 幕 布 储 藏 时 要 做 到 防 潮 、 防 火 、 防 虫 、 防 尘 。</ref><quad>(126,419),(335,438)</quad><ref>(5)演 出 使 用 的 灯 具 等 应 加 垫 石 棉 布 、 防 火 帆 布或 绝 缘 胶 垫 后 再 放 置</ref><quad>(387,416),(643,433)</quad><ref>一 、 吊 杆 等 舞 台 设 备 在 上 方 运 行 时 , 下 方 禁 止 站 人 或 走 动 ,</ref><quad>(691,424),(889,439)</quad><ref>在 舞 台 地 板 上 使 用 , 禁 止 直 接 放 置 在 舞 台 地 板上。</ref><quad>(399,433),(580,448)</quad><ref>以防发生 意外 。</ref><quad>(709,439),(760,451)</quad><ref>六、在舞台运输道具、景片时应使用 带 轮 运输工具,要求:运输工</ref><quad>(386,450),(645,466)</quad><ref>二、道 具 要 轻 拿 轻 放 , 以 免 划 伤 舞 台 地 板 。</ref><quad>(693,453),(830,467)</quad><ref>具 必 须 安 置 完 好 的 橡 胶 轮 , 轮 宽>2.5cm, 载 重 <150kg, 否 则 应 加 做 地</ref><quad>(398,467),(644,483)</quad><ref>三 、 如 需 使 用 剧 院 大 型 舞台 设 备 时 ( 乐 池 、 升 降 台 等 ) ,</ref><quad>(693,468),(886,482)</quad><ref>板 防 护 措 施 , 经 剧 院 舞 台 技 术 人 员 确 认 后 方 可 使 用 。</ref><quad>(398,484),(581,499)</quad><ref>要 做 好 相 应 安 全 措 施 并 签 订 大 型 设 备 使 用 安 全 协议 书 。</ref><quad>(711,482),(896,496)</quad><ref>四 、 舞 台 铺 设 电 缆 时 要 使 用 过 线 板 且 线 缆 铺 设 整 齐 固 定 ,</ref><quad>(695,497),(897,511)</quad><ref>(7)铺 地 胶 、 地 布 、 地 毯 前 , 应 将 预 铺 舞 台 区 域 打 扫 干 净 , 将 钉子、</ref><quad>(386,501),(642,518)</quad><ref>以免绊倒演员或其他工作人员。如因需要在观众席铺</ref><quad>(714,511),(896,525)</quad><ref>演出单位外加临时灯具管理制度</ref><quad>(120,509),(331,533)</quad><ref>铁丝 等 硬 物 清 理 出 舞 台 区 域 , 以 免 造 成 舞 台 地 板 或 所 铺 物 的 损 坏 ,</ref><quad>(397,519),(652,535)</quad><ref>设 线 路 时 , 请 靠 边 铺 设 整 齐 、 固 定 , 以 免 绊 倒 观 众 。</ref><quad>(713,526),(893,539)</quad><ref>并 使 用剧 院 指 定 胶 布 。</ref><quad>(397,537),(483,552)</quad><ref>五 、 舞 台 上 安 装 吊 挂 景 幕 大 型 设 备 时 一 定 要 固 定 牢 固 , 以</ref><quad>(698,540),(898,554)</quad><ref>一 、 演 出 单 位 外 加 临 时 灯 具 设 备 技 术 指 标 要 符 合国</ref><quad>(115,555),(330,571)</quad><ref>(8)严禁在主舞台区域进行喷漆、上胶、上色等。如确实需要,应在</ref><quad>(385,554),(649,570)</quad><ref>免伤人或带来财产损失。</ref><quad>(716,555),(800,568)</quad><ref>家的 安 全 生 产 标 准 , 并 了 解 安 装 位 置 及 数 量 。</ref><quad>(134,575),(326,592)</quad><ref>剧 院 指 定 的 施 工 地 点 进 行 作 业 。</ref><quad>(396,572),(519,587)</quad><ref>六 、 舞 台 下 方 全 是 电 气 设 备 , 请 您 勿 将 水 及 液 体 饮 料 带上</ref><quad>(699,570),(901,584)</quad><ref>二、外加临时灯具如要接入剧院灯光系统,应试亮</ref><quad>(111,597),(329,613)</quad><ref>(9)保持舞台清洁,请勿乱扔废弃物品。</ref><quad>(385,591),(537,606)</quad><ref>舞台 , 以 防 止 发 生 电 气 事 故 。</ref><quad>(718,586),(811,598)</quad><ref>七 、 如 团 方 自 带 音 响 设 备 , 请 你 提 供 一 路 信 号 给 剧 场 化 妆</ref><quad>(702,600),(904,614)</quad><ref>后 方 可 接 入 本 系 统 , 灯 具 单 台 功 率 不 得 超 过 剧院</ref><quad>(130,619),(329,635)</quad><ref>四 、 演 出 时 :</ref><quad>(375,611),(427,625)</quad><ref>间 使 用 , 以 免 耽 误 演 员 上 场 。</ref><quad>(720,616),(821,628)</quad><ref>标 准 (4kw) , 外 加 临 时 灯具 总 功 率 不 得 超 过</ref><quad>(128,640),(329,658)</quad><ref>(1)切 换 场 景 时 , 应 将 景 片 、 道 具 等 抬 离 舞 台 地 面 后 再 移 动 , 严 禁 在</ref><quad>(383,627),(652,644)</quad><ref>八 、 如 团 方 需 要 外 接 电 源 , 请 团 方 技 术 人 员 将 线 缆 铺设 至</ref><quad>(703,631),(907,645)</quad><ref>剧 院 用 电 安 全 范 围 。</ref><quad>(127,665),(213,680)</quad><ref>舞 台 地 板 上 拖 拉 , 以 免 损 坏 划 伤 舞 台 地 板 。</ref><quad>(395,646),(567,661)</quad><ref>舞 台两 侧 的 配 电 柜 , 请 团 方 提 供 用 电 功 率 , 由 剧 场 专</ref><quad>(721,648),(910,662)</quad><ref>(2)请 勿 将 松 香 、 饮 料 等 粘 性 物 质 直 接 倒 在 舞 台 地 板 上 , 应 在 剧 院 舞</ref><quad>(382,666),(654,681)</quad><ref>业 电 工 过 来 负 责 接 线 ,负 载 需 三 相 平 衡 , 接 完 由 团 方</ref><quad>(723,664),(912,678)</quad><ref>三 、 外 加 临 时 灯 具 设 备 的 挂 钩 、 保 险 链 承 重 应 与 之</ref><quad>(102,687),(326,704)</quad><ref>台 技 术 人 员 的 指 导 下 将 上 述 物 质 放 在 指 定 位 置 或 容 器 中 使用 。</ref><quad>(394,684),(641,700)</quad><ref>技 术 人 员 确 认 无 误 、 送 电 , 调 试 、 彩 练 、 演 出 期 间 由</ref><quad>(724,679),(914,694)</quad><ref>相 匹 配 。</ref><quad>(122,710),(158,726)</quad><ref>(3)烟机 、 干 冰 机 等 设 备 禁 止 在 主 舞 台 区 域 使 用 , 以 免 造 成 漏 油 、 漏 水</ref><quad>(380,703),(656,720)</quad><ref>团 方 技 术 人 员 负 责 检 查 配 电 柜 开 关 以 下 部 分 ( 包 括 线 缆</ref><quad>(725,696),(915,712)</quad><ref>九 、 剧 院 内 全 场 禁烟 , 包 含 卫 生 间 内 。 抽 烟 请 至 大 剧 院3号</ref><quad>(709,724),(922,739)</quad><ref>四 、 灯 具 灯 线 应 完 好 无 损 , 接 插 件 连 接 紧 密 , 接 插 件</ref><quad>(98,732),(324,750)</quad><ref>门 外 。 ( 烟 头 熄 灭 后 请 丢 到 垃 圾 桶 内 , 谢 谢 合作)</ref><quad>(728,741),(909,756)</quad><ref>符合灯具要求。</ref><quad>(118,757),(185,773)</quad><ref>(4)大提琴等乐器使用时应使用防滑垫,钢琴等自重较大的轮式乐器</ref><quad>(379,742),(659,759)</quad><ref>十、演出道具请码放整齐、不得堵塞消防通道。</ref><quad>(711,759),(885,774)</quad><ref>五、外加临时灯具设备与幕布、布景之间距离不得</ref><quad>(94,779),(323,798)</quad><ref>进入主舞台区域时,应使用钢琴运输车等工具,乐器定位后应尽</ref><quad>(392,762),(660,779)</quad><ref>十一、剧场内禁止动用明火、电焊、彩虹机、手持礼花炮及</ref><quad>(712,776),(932,791)</quad><ref>小于50cm。</ref><quad>(114,806),(166,821)</quad><ref>量避免在主舞台区域 地 面 移 动 。</ref><quad>(393,783),(522,799)</quad><ref>氧 气 、 氢 气 、 氮 气 等 设 备 。 确 需 使 用 请 联 系 保 安 保 洁 部 。</ref><quad>(731,792),(930,807)</quad><ref>五 、 拆 台 时 :</ref><quad>(369,806),(424,820)</quad><ref>到指 定 地 点 动 用 。</ref><quad>(731,809),(797,823)</quad><ref>六 、 所 有 线 路 走 线 排 列 整 齐 , 不 得 使 用 铁 丝 、 纸 胶</ref><quad>(90,827),(321,847)</quad><ref>(1)应 将 景 片 、 道 具 等 抬 离 舞 台 地 板 后 运 至 侧 舞 台 区 域 进 行 拆 卸 ,禁</ref><quad>(377,823),(662,841)</quad><ref>十 二 、 所 有 演 职 人 员 凭 《 上 海 保 利 大 剧 院 管 理 有 限 公 司 》 的</ref><quad>(715,825),(937,840)</quad><ref>带 等 绑 线 。</ref><quad>(110,854),(157,870)</quad><ref>止 在 主 舞 台区 域 进 行 拆 卸 操 作 。</ref><quad>(391,844),(523,861)</quad><ref>工 作 证 件 进 出 。</ref><quad>(734,843),(790,857)</quad><ref>十 三 、 食 品 、 饮 料 不 得 带 进 剧 场 内 。</ref><quad>(717,860),(851,875)</quad><ref>七 、 外 加 临时灯具设备安装 后, 核对数量 、功</ref><quad>(86,873),(319,897)</quad><ref>(2)灯具 拆 下后,应直接运 至 侧舞台进行装 箱 ,禁 止 在主舞台区域</ref><quad>(376,864),(664,884)</quad><ref>十四、演职人员不 得 擅 动 剧院内的消防设施设备。</ref><quad>(717,877),(903,892)</quad><ref>率并开灯检查总功率。</ref><quad>(106,902),(209,921)</quad><ref>(3)拆台结束后,请将舞台区域打扫干净,将废弃物清理干净。</ref><quad>(375,906),(641,928)</quad><ref>十五、团方 有问 题 需要帮助及时沟通及时给予解决。</ref><quad>(717,894),(922,910)</quad><ref>十六、以上制度事 项 请团方负责人认真阅读。</ref><quad>(719,913),(890,929)</quad><ref>(4) 对 于主办演出方使 用 不 当 原因造 成 剧院舞台地板划伤 或 损 坏 ,</ref><quad>(374,927),(666,949)</quad><ref>上 海 保 利 大 剧 院 管 理 有 限 公 司</ref><quad>(746,954),(931,979)</quad><ref>将 视 损 坏 程 度 予 以 经 济 赔 偿 。</ref><quad>(388,952),(504,971)</quad><ref>二 ○ 一 五 年 一 月 一日</ref><quad>(789,988),(904,1000)</quad>
提示: 检测并识别图中的文字,文本坐标格式化输出。
图 7: HunyuanOCR 在复杂文档场景中的鲁棒文本定位性能。
HunyuanOCR:
<ref>22:15</ref ><quad >(165,20),(245,33)</quad ><ref >HD</ref ><quad >(716,19),(737,25)</quad><ref >HD</ref ><quad >(770,19),(794,25)</quad ><ref >41</ref ><quad >(902,23),(926,31)</quad ><ref >6</ref><quad >(862,29),(874,34)</quad ><ref ></ref ><quad >(49,61),(72,79)</quad ><ref >台湾文献史料丛刊一...Anna’sArchive.pdf</ref ><quad >(194,61),(925,81)</quad ><ref > </ref ><quad >(837,281),(883,345)</quad ><ref >本「目」裁, 光帝即位 北 一年期,有二百七十日日有事</ref ><quad >(663,239),(694,785)</quad ><ref >在 「晚明史籍考」 著 录 ,今 据 珍藏 本整理排印, 实 一罕 见 之 本 。</ref ><quad >(710,239),(743,725)</quad ><ref >本「偏安剩纪日事 」,凡十四卷,不著 撰 人;按月排日 记 南明 弘 光朝事。考 </ref ><quad >(757,268),(791,785)</quad ><ref >;且全存原文, 具史料 价值。其中 关 於 弘 光北一事, 多 他 书 未 ,亦 </ref ><quad >(610,240),(647,785)</quad ><ref >。南都陷 后 , 书 亦不著。然</ref ><quad >(571,240),(600,438)</quad ><ref >不 幸 本通 篇 错 讹 , 「百出」, 几 不可读;今 据 原本 整理 校 ,事 误 处 均 加 按 下;</ref><quad>(526,267),(555,769)</quad ><ref >(一)卷二「(崇 祯 十七年)六月壬 辰」日下末 句「首 辅」 原有衍文「壬 辰 ( 二字,</ref><quad >(476,275),(510,785)</quad ><ref >原本 亦 然 ; 兹 添「见 上方)」十六字,今已 删 去。 粗 校 之 馀 , 不 免 疏</ref><quad >(385,238),(415,785)</quad ><ref > 。卷五「九月」末「吏部侍郎张捷署部事」及卷六「十月癸未」日下「起原任吏</ref ><quad >(378,238),(409,785)</quad ><ref >科都给事中安广居、通政司参议李若星 俱 为 都察院右 佥 都 御 史」 等 句 下「日」下分别附有按 语 ,</ref ><quad >(339,238),(370,785) </quad ><ref >说 明「原本」 何 以 讹 何 以 误,有 何 移改(文繁不,各 从其);足 见 「原本」,</ref><quad >(288,238),(322,785)</quad ><ref > 。因 此 上述「原本」,非 即 原本;而今 日 之 本, 亦 已 非 当 日 之本</ref ><quad>(237,238),(273,785)</quad ><ref >(二)卷四「(崇 祯 十七年)八月癸 酉」日下「吏部 尚书 张 石麒 为 政七 . . . . . . 」</ref ><quad>(150,272),(188,778)</quad ><ref >(卷七 「十一月辛丑」日下一 句 亦有 此 误 ,不 赘 )。</ref ><quad >(198,243),(230,562)</quad><ref >偏安剩纪日事</ref ><quad >(100,301),(126,366)</quad ><ref >目 录</ref ><quad >(100,923),(151,935)</quad ><ref > 打开方式 </ref ><quad >(323,923),(426,934)</quad ><ref >转存</ref ><quad >(598,923),(650,935)</quad ><ref >删除</ref ><quad >(848,923),(900,935)</quad >
提示: 提取文档图中正文的所有信息,用markdown格式表示,其中忽略页眉、页脚部分,图片用<pFig>图xx</pFig>的形式表示,表格用html格式表达,文档中公式用latex格式表示,按照阅读顺序组织进行解析。
HunyuanOCR:
二 :结合菱形的性质和图②中的已知条件进行求解.
<pFig> 10 题解图</pFig><quad>(204,50),(325,111)</quad>
## 二、填空题 (每小题 3分,共15分)
11.x ≥ −1且x ̸= 0
12.0【解析】由题意得,反比例函数y = 1+2m 的图象位于第一、三象限,∴ 1 + 2m>0, ∴ m> − 12 , ∴ m 的最小整数值为0.
13. 29 【解析】根据题意,画树状图如图,
<pFig> 13 题解图</pFig><quad>(145,291),(388,357)</quad>
由树状图知,共有9种等可能的结果,其中可以呈现青色的结果有2种,∴ P(可以呈现青色) = 29.
14.2√10 + √102 π 【解析】如图,连接OB,AC,由题意可知OA = OB = OC = √32 + 12 = √10, AC = √22 + 42 = 2√5,∴ OA2 + OC2 = AC2, ∴ ∠AOC = 90◦, ∴ 圆心角AOC所对的弧长为 90×π×√10180 = √102 π, ∴ 扇形AOC的周长为2√10 + √102 π.
<pFig> 14 题解图</pFig><quad>(362,436),(461,510)</quad>
知识精准回顾:n◦的圆心角所对的弧长计算公式为l = nπr180.
15. 4√33 或 8√33 【解析】当∠BDB′ = 120◦时, 分两种情况:① 当点B’在BC的下方时,如图①,设AB’与BC的交点为O,∵ ∠BAC =120◦, AB = AC, ∴ ∠B = ∠C = 30◦. 由折叠的性质可知∠B′ = ∠B = 30◦, ∵ ∠BDB′ = 120◦, ∴ ∠B′DO = 60◦, ∴ ∠DOB′ = 90◦, ∴ DO = 12 B′ D = 12 BD, ∴ BO = BD + DO = BD + 12 BD = 32 BD. ∵ 在Rt△ABO中,BO = AB · cos 30◦ = 2√3, ∴ 32 BD = 2√3, ∴ BD = 4√33 ; ② 当点B’在BC的上方时,如图②,由折叠得∠ADB′ = ∠ADB = 12 ∠BDB′ = 60◦, ∵ ∠B = 30◦, ∴ ∠BAD = 90◦, ∵ AB = 4, ∴ BD = ABcos 30◦ = 4√32 = 8√33 .
综上所述,BD的长为 4√33 或 8√33 .
<pFig> 15 题解图</pFig><quad>(516,188),(809,266)</quad><pFig>视频讲解
白卷·15题</pFig><quad>(639,289),(713,350)</quad>更多新考法实体见《难题新考法》P25 难题二
多解题
## 三、解答题 (本大题共8个小题,共75分)
16.解:(1) 原式=1+4+2·····3分=7;·····5分
(2) 原式=4x2 − 4 − (4x2 − 4x + 1) = 4x2 − 4 − 4x2 + 4x − 1·····3分= 4x − 5.·····5分
17.解:(1)40,78.5;·····4分
【解法提示】∵对A 款AI机器人评分抽取的样本容量为6+6+4+4=20,∴本次抽取的问卷共有20+20=40(份).∵对A 款AI机器人评分的这组款中位数为第10和11个数据的平均数,∴ 将70 ≤ x<80这一组的评分按从小到大的顺序排列为:74,75,78,78,79,79,∴ 第10和11个数据分别为78,79,∴中位数为 12 × (78 + 79) = 78.5分.
(2) 由(1)得对A 款AI机器人评分的中位数为78.5分, ∵78.5分<80分, ∴对A 款AI机器人感到满意的人数未超过一半;·····6分
(3) 由条形统计图得,对B 款AI机器人评分为非常满意的有2人, ∴ 300 × 220 = 30 (人) ,
答:估计此次问卷调查活动中对B 款AI机器人非
提示: 提取文档图中正文的所有信息,用markdown格式表示,其中忽略页眉、页脚部分,图片用<pFig>图xx</pFig>的形式表示,表格用html格式表达,文档中公式用latex格式表示,按照阅读顺序组织进行解析。
图 9: HunyuanOCR 在复杂表格场景中的鲁棒解析性能。
HunyuanOCR:
<table><caption>高一2407班下学期课表(2025年2月17日执行)</caption><tr><td>时间</td><td>节次</td><td>星期一</td><td>星期二</td><td>星期三</td><td>星期四</td><td>星期五</td><td>星期六</td><td>星期日</td></tr><tr><td>7:00</td><td colspan="7">到班</td><td rowspan="3">07:50 到班</td></tr><tr><td>07:00–07:20</td><td>晨读</td><td></td><td>英语</td><td>语文</td><td>英语</td><td>语文</td><td>语文</td></tr><tr><td>07:20–07:50</td><td>早自习</td><td>英语/升旗</td><td>语文</td><td>英语</td><td>语文</td><td>英语</td><td>英语</td></tr><tr><td>08:00–08:40</td><td>1</td><td>语文</td><td>英语</td><td>数学</td><td>英语</td><td>语文</td><td>英语</td><td rowspan="7">辅优</td></tr><tr><td>08:50–09:30</td><td>2</td><td>英语</td><td>数学</td><td>数学</td><td>英语</td><td>英语</td><td>英语</td></tr><tr><td>09:30–10:00</td><td colspan="7">大课间活动</td></tr><tr><td>10:00–10:40</td><td>3</td><td>物理</td><td>物理</td><td>语文</td><td>数学</td><td>数学</td><td>自习</td></tr><tr><td>10:40–10:50</td><td colspan="7">眼保健操</td></tr><tr><td>10:50–11:30</td><td>4</td><td>历史</td><td>语文</td><td>英语</td><td>语文</td><td>生物</td><td>语文</td></tr><tr><td>11:40–12:20</td><td>5</td><td>数学</td><td>语文</td><td>阅读</td><td>物理</td><td>物理</td><td>语文</td></tr><tr><td>12:20–13:05</td><td colspan="8">午餐+打扫卫生</td></tr><tr><td>13:05–13:20</td><td colspan="8">中/英文练字</td></tr><tr><td>13:20–14:00</td><td colspan="8">午休</td></tr><tr><td>14:10–14:50</td><td>6</td><td>生物</td><td>自习</td><td>化学</td><td>地理</td><td>体育</td><td>生物</td><td>化学</td></tr><tr><td>15:00–15:40</td><td>7</td><td>信息</td><td>生物</td><td>地理</td><td>美术</td><td>音乐</td><td>生物</td><td>化学</td></tr><tr><td>15:50–16:30</td><td>8</td><td>化学</td><td>化学</td><td>体育</td><td>历史</td><td>化学</td><td>数学</td><td>物理</td></tr><tr><td>16:40–17:20</td><td>9</td><td>心理单/校本双</td><td>听力</td><td>生物</td><td>劳动</td><td>听力</td><td>数学</td><td>物理</td></tr><tr><td>17:20–17:50</td><td colspan="6">晚餐</td><td rowspan="9">休息</td><td>晚餐</td></tr><tr><td>17:50–18:10</td><td colspan="6">活动+打扫卫生</td><td>活动</td></tr><tr><td>18:10–18:50</td><td colspan="6">晚提前</td><td>换座位</td></tr><tr><td>19:00–19:45</td><td>晚一</td><td>生物</td><td>物理</td><td>生物</td><td>物理</td><td>数学</td><td>班会</td></tr><tr><td>19:45–19:50</td><td colspan="6">眼保健操</td><td>眼保健操</td></tr><tr><td>20:00–20:45</td><td>晚二</td><td>数学</td><td>化学</td><td>数学</td><td>化学</td><td></td><td rowspan="2">自习</td></tr><tr><td>20:55–21:40</td><td>晚三</td><td></td><td>数学自习</td><td></td><td>数学自习</td><td></td></tr><tr><td>21:40–21:45</td><td colspan="6">放学</td><td></td></tr><tr><td>22:30</td><td colspan="6">熄灯睡觉</td><td></td></tr></table>
提示: 提取文档图中正文的所有信息,用markdown格式表示,其中忽略页眉、页脚部分,图片用<pFig>图xx</pFig>的形式表示,表格用html格式表达,文档中公式用latex格式表示,按照阅读顺序组织进行解析。
HunyuanOCR:
<table><caption></caption><tr><td colspan="5">分体落地式空调器</td></tr><tr><td colspan="2">整机型号</td><td colspan="3">KFR-51LW/DY-JN(E3)</td></tr><tr><td colspan="2">室内机型号</td><td colspan="3">KFR-51L/DY-JN(E3)</td></tr><tr><td colspan="2">室外机型号</td><td colspan="3">KFR-51W-M242</td></tr><tr><td colspan="2">制冷量</td><td colspan="3">5100W</td></tr><tr><td colspan="2">制热量</td><td colspan="3">5800W+1800W(电加热)</td></tr><tr><td colspan="2">EER/COP</td><td colspan="3">3.09/3.37</td></tr><tr><td colspan="2">循环风量</td><td colspan="3">1000m3/h</td></tr><tr><td colspan="2">制冷剂</td><td colspan="3">(见室外机铭牌)</td></tr><tr><td colspan="3">防水等级(室外机)</td><td colspan="2">IPX4</td></tr><tr><td colspan="3">防触电保护类型</td><td colspan="2">I类</td></tr><tr><td colspan="3">质量(室内机/室外机)</td><td colspan="2">39kg/(见室外机铭牌)</td></tr><tr><td rowspan="2" colspan="2">噪声</td><td colspan="2">室内侧(低风-高风-超强风) </td><td>38-41-44dB(A)</td></tr><tr><td colspan="2">室外侧</td><td>54dB(A)</td></tr><tr><td colspan="4">制冷系统允许压力</td><td>2.6MPa</td></tr><tr><td colspan="4">热交换器最大工作压力</td><td>2.6MPa</td></tr><tr><td colspan="4">额定电压/额定频率</td><td>220V /50Hz</td></tr><tr><td rowspan="2">额定电流</td><td rowspan="4" colspan="2">标准工况</td><td>制冷</td><td>7.8A</td></tr><tr><td>制热</td><td>8.0A+8.2A</td></tr><tr><td rowspan="2">额定功率</td><td>制冷</td><td>1650W</td></tr><tr><td>制热</td><td>1720W+1800W</td></tr><tr><td colspan="4">最大输入电流</td><td>21.4A</td></tr><tr><td colspan="4">最大输入功率</td><td>4000W</td></tr><tr><td colspan="4">电辅助加热输入电流</td><td>8.2A</td></tr><tr><td colspan="4">电辅助加热输入功率</td><td>1800W</td></tr><tr><td colspan="5"><pFig>图1</pFig><quad>(483,728),(608,800)</quad></td></tr><tr><td colspan="5">室内机出厂编号<br>室内机制造日期<br>(见机身条形码)<br></td></tr><tr><td colspan="5">广东美的制冷设备有限公司</td></tr></table>
生产日期2009年08月 机身编号:6UK4098118033325
提示: 提取文档图中正文的所有信息,用markdown格式表示,其中忽略页眉、页脚部分,图片用<pFig>图xx</pFig>的形式表示,表格用html格式表达,文档中公式用latex格式表示,按照阅读顺序组织进行解析。
图 11: HunyuanOCR 在 Wild-OmniDocBench 中的鲁棒解析性能。
HunyuanOCR:
Moore 仅有微弱意识(hp 1),无法提供更多信息。任何额外的问题都会得到语无伦次的回应,即使英雄们治愈了他的伤口。
暗门通向一个地下储藏室,里面装满了更多的肥料,以及各种各样的其他化学品。任何成功通过 DC 15 知识(物理科学)检定的英雄都会意识到,Moore 拥有的肥料远超这个规模的农场所需要的量。一次成功的 DC 15 爆破检定会揭示 Moore 拥有制造一枚巨大炸弹的所有材料。英雄们可能想在冒险的后期使用这些材料,或许是制造一枚炸弹来对付 O.S.C.A.R.(见下文)。
田野之外
僵尸们已经开辟出一条小径,使得穿过玉米地到达 O.S.C.A.R. 的地堡变得相对容易。当英雄们接近时,O.S.C.A.R. 已经开始处理另一个咒语。请大声朗读或转述以下内容。
黏滑的小径在玉米丛中蜿蜒前行,偶尔被闪电照亮。几百码后,玉米丛突然分开,露出一个类似电力公司小屋的低矮混凝土建筑。附近电塔的电线延伸连接到它上面。
离地堡大约二十码远,两个看起来由金属制成的人形生物正站在一个金属工具箱旁边。它们似乎正在修理里面的东西。
突然,雷声的沉闷轰鸣声之上叠加了一种愤怒的嗡嗡声,好像有人惊扰了黄蜂窝。
嗡嗡声是 O.S.C.A.R. 正在准备的下一个咒语 demolish 的魔法副作用。(这个咒语是用“种子:摧毁”创造的。参见《城市奥秘战役设定》第 3 章:法术和本冒险结尾的新咒语部分。)这个声音虽然响亮,但除了烦扰听到它的人之外没有其他效果。
生物:地堡旁边,O.S.C.A.R. 的两个仆从机器人在一个金属工具箱内工作。任何成功通过 DC 10 知识(技术)检定的角色都会认出这是一个用于高速互联网连接的工具箱。机器人正试图恢复 O.S.C.A.R. 与外界的 T3 连接。
仆从机器人 (2): hp 21, 21。详见本冒险结尾的新怪物描述。
战术:机器人还需要 2 小时的工作才能完成连接修复。如果它们受到任何阻碍,它们会转向入侵者并发起攻击,战斗直到被摧毁。发展:一次 DC 15 侦查检定会发现在每个机器人侧面都有一块牌子,上面写着“Armitage”。
一个小的混凝土掩体是 O.S.C.A.R. 主机的入口。建筑没有窗户,金属门用电子锁固定。(然而,由于所有电子设备都受到魔法风暴的影响,打开它的解除装置检定比正常情况要低;见下文)。建筑正面的一块小牌子上写着,“Armitage Industries 财产。禁止闯入。”
门上方的摄像头将图像传输给 O.S.C.A.R.。在 T3 连接被切断之前,它也把图像传回了 Armitage Industries。
门:硬度 10,120 hp,破坏 DC 35,解除装置 DC 15。
摄像头:硬度 5,2 hp。
1. 入口
当英雄们打开地堡的门时,大声朗读或转述以下内容。门打开,露出一个小的门厅,有一段陡峭的金属楼梯向下延伸。楼梯间的工业灯光闪烁不定,有时甚至会变色。
楼梯间的灯光因为 O.S.C.A.R. 的魔法效果而失灵。陷阱:入口的整个地板和楼梯的第一级台阶都被一个压力板覆盖,该压力板会触发一个陷阱。如果超过 5 公斤的重量被放在第一级台阶上,楼梯会翻转,形成一个陡坡。此时在楼梯上的任何人必须进行一次 DC 25 的反射豁免检定,否则会以每轮 50 英尺的速度滑下,掉进最后一个台阶下方打开的一个 30 英尺深的坑里。坠落造成 3d6 点伤害(反射 DC 13 减半)。门内侧的一个小隐藏开关(搜索 DC 25)可以停用压力板。如果陷阱已被触发,拨动开关可以使楼梯恢复正常并重置陷阱。楼梯底部的一个相同开关具有相同的功能。
2. 楼梯间
楼梯向下延伸 150 英尺,非常陡峭。如果角色们停用了陷阱(见上文),他们可以正常使用楼梯。
金属门用机械锁固定。门上的一块牌子写着“O.S.C.A.R.”。门:硬度 10,hp 120,破坏 DC 35,解除装置 DC 25。
3. 古籍储藏室
当英雄们进入这个区域时,大声朗读或转述以下内容。
这个房间由昏暗的红色灯泡照亮。墙壁上排列着从地板到天花板的金属架子,每个架子上都整齐地排列着一排排古老的书籍、卷册和卷轴。远处的墙上有一个窗户,可以看到隔壁房间里的一台高科技大型计算机。那个房间里的灯光像楼梯间的一样闪烁不定。一条传送带从这个房间通向有大型计算机的那个房间。
四个机器人站在这个房间的中央,彼此面对,它们的机械臂做着复杂的手势。
提示: 提取图中的文字。
HunyuanOCR: 静观茶舍JIN GUAN CHA SHE茶
提示: 提取图中的文字。
HunyuanOCR: 鱿鱼游戏
提示: 提取图中的文字。
HunyuanOCR: 旗開得勝
提示: 提取图中的文字。
HunyuanOCR: 清江浦河庫道袁首一天一堂製
提示: 提取图中的文字。
HunyuanOCR:
# Le Guide de l’Ado Hypersensible
Les 4 secrets pour s’epanouir avec une sensibilité hors norme
11-17 ans
+52 exercices +150 Astuces
提示: 提取图中的文字。
HunyuanOCR:
Professioni & Concorsi
TEORIA e TEST
### Concorso per
# 415 Assistenti Amministrativi (posti elevati a 569)
## AGENZIA DELLE DOGANE E DEI MONOPOLI
Manuale e quesiti per la prova scritta unica
Aggiornato alla Legge di bilancio 2025
Diritto costituzionale e amministrativo
Diritto tributario
Diritto dell’UE
Economia politica e Contabilita aziendale \`
Fini istituzionali, compiti e ordinamento dell’ADM
Normativa in materia di dogane, accise e giochi
Informatica
Lingua inglese
Competenze trasversali
ESTENSIONI ONLINE
Contenuti extra
Software di simulazione
EdiSES edizioni
提示: 提取图中的文字。
HunyuanOCR:
EN ESTA CASA VIVIO DE 1933 A 1969 EL JU- ´
RISTA JOSE CAST ´ AN TOBE ´ NAS Y EN ELLA ESCRIBI ˜ O VAR- ´
IOSES DE SUS LIBROS DE DERECHO CIVIL
Ayuntamiento de Madrid
1993
Blog Conmemorativos en Madrid @ Juan Alcor
http://conmemorativosenmadrid.blogspot.com.es/
提示: 解析图中的图表,对于流程图使用Mermaid格式表示,其他图表使用Markdown格式表示。
图 14: HunyuanOCR 在流程图场景中的鲁棒解析性能。
HunyuanOCR:
flowchart TD
A["开始"]
B["登陆与注册界面"]
C{"旧用户"}
D["注册账号"]
E["学习风格测量"]
F["测量结果发送到服务器"]
G["存储到数据库"]
H["登陆"]
I{"成功"}
J["服务器计算资源"]
K["发送数据包给客户端"]
L["客户端解析数据包,显示资源信息"]
M["结束"]
A -->B
B -->C
C -->|是| H
C -->|否| D
D -->E
E -->F
F -->G
G -->B
H -->I
I -->|是| J
I -->|否| B
J -->K
K -->L
L -->M
提示: 解析图中的图表,对于流程图使用Mermaid格式表示,其他图表使用Markdown格式表示。
HunyuanOCR:
| | 常住人口签约数(人) | 常住人口签约率(%) | |---|---|---| | 2017 | 589530863 | 43.2 | | 2018 | 596401340 | 43.35 | | 2019 | 592031696 | 42.81 | | 2020 | 622435854 | 44.69 | | 2021 | 663501119 | 47.34 | | 2022 | 711716293 | 50.51 | | 2023 | 796773939 | 56.52 | | 2024 | 859952675 | 61.02 |
提示: 解析图中的图表,对于流程图使用Mermaid格式表示,其他图表使用Markdown格式表示。
图 15: HunyuanOCR 在图表场景中的鲁棒解析性能。
HunyuanOCR:
| | 最小值 | Q1 | 中位数 | Q3 | 最大值 | |---|---|---|---|---|---| | 语文 | 61 | 67 | 75 | 88 | 100 | | 英语 | 69 | 78 | 85 | 95 | 99 | | 数学 | 63 | 66 | 71 | 77 | 100 | | 历史 | 62 | 70 | 85 | 90 | 96 | | 地理 | 66 | 76 | 80 | 91 | 100 |
提示: 先解析文档,再将文档内容翻译为中文,其中忽略页眉、页脚,公式用latex格式表示,表格用html格式表示。
图 16: HunyuanOCR的翻译性能。
HunyuanOCR:
翻译为中文
相对论构型中总角动量的分布
Michel Poirier*
CEA - 巴黎-萨克雷大学,“相互作用、动力学和激光”实验室,CE Saclay, F-91191 Gif-sur-Yvette, 法国
Jean-Christophe Pain†
CEA, DAM, DIF, F-91297 Arpajon, 法国和
巴黎-萨克雷大学, CEA, 极端条件下的物质实验室, F-91680 Bruyeres-le-Ch` atel,ˆ 法国
(2021年7月6日星期二)
本文致力于分析相对论构型中总角动量的分布。利用累积量和生成函数,该分析可以大致形式化为对具有N个有效角动量为j的电子的单个子壳层进行研究。为J分布的生成函数提供了n阶导数的简洁表达式,并建立了有效的递推关系。结果表明,该分布可以用一种类似Gram-Charlier的级数来表示,该级数来源于磁量子数分布的相应级数。当构型包含多个子壳层时,此展开的数值效率尚可,而当只涉及一个子壳层时,精度则较差。给出了奇数阶矩的解析表达式,而偶数阶矩则表示为级数,虽然不收敛,但提供了可接受的精度。此类表达式可用于获得旋轨道分裂阵列中跃迁数的近似值:结果表明,当保留的项数较少时,该近似通常是有效的,而某些复杂情况则需要包含更多项。
I. 引言
为了在恒星物理学或激光等离子体实验(例如惯性约束聚变研究)的背景下模拟热等离子体的发射和吸收光谱特性,需要适当地描述具有多个开放子壳层的多电子构型。特别是,实验地了解两种构型之间的谱线数量具有重要意义。电偶极子(E1)谱线的统计特性由Moszkowski [1]、Bauche和Bauche-Arnoult [2]以及最近由Gilleron和Pain [3]研究。谱线数量是不透明度代码的基石,用于决定是使用上述方法对跃迁阵列进行统计建模,还是需要涉及哈密顿量对角化的详细谱线计算 [4, 5]。当跃迁阵列的谱线数量超过特定值时,可以应用部分分辨跃迁阵列方法[6–8]及其对超构型的扩展[9, 10]作为替代方法。电四极子(E2)谱线的统计特性也得到了研究[11]。
在计数问题中,生成函数技术是一种强大的工具,无论是为了获得解析表达式、推导递推关系还是寻找近似公式。生成函数还能确定累积量,累积量是统计建模的重要组成部分,可以从中获得矩。在此框架下,我们最近发表了超构型中电子构型数量的解析公式和递推关系[12],以及基于累积量计算的统计分析。
总角动量性的确定最早由核物理学家[13]在壳模型[14, 15]框架内进行研究,后来由原子物理学家用于电子构型。考虑一个包含N个相同费米子的系统,问题归结为推导它们可以耦合的允许的总角动量J。由于泡利不相容原理导致的反对称性,某些J值是被禁止的,而另一些则出现多次。如Condon和Shortley指出的那样,具有角动量J的能级数Q(J)等于M = J的态的数量减去M = J +1的态的数量。在1936年的论文[13]中,Bethe通过Wigner型分布对角动量分布进行建模,该分布可以从P(M)分布的高斯形式推导出来。多年后,Bauche和Bauche-Arnoult推导出了Q(J)和两种电子构型之间谱线数量的解析公式,假设P(M)为四阶Gram-Charlier级数[2]。同期,Hirst和Wybourne使用统计群论来确定Wigner型近似公式的参数,并指出了与整数划分理论的联系[16]。
提示: 提取图中的:[‘单价’, ‘上车时间’, ‘发票号码’, ‘车牌前缀’, ‘总金额’, ‘发票代码’, ‘下车时间’, ‘里程数’] 的字段内容,并且按照JSON格式返回。
图 17: HunyuanOCR 在票据上的信息抽取(IE)性能。
HunyuanOCR:
{
"单价": "3.00",
"上车时间": "09:01",
"发票号码": "42609332",
"车牌前缀": "陕",
"总金额": "¥77.10元",
"发票代码": "161002018100",
"下车时间": "09:51",
"里程数": "26.1km"
}
提示: 提取图中的字幕。
HunyuanOCR: 对不起 我是诺曼.斯佩尔曼
Sorry, I’m Norm. Spellman.
提示: 提取图中的字幕。
HunyuanOCR: 知道一点近况也不奇怪
提示: 提取图中的字幕。
图 18: HunyuanOCR 的视频字幕提取性能。
HunyuanOCR: 它不是一个名词它是一个动词
提示: What is the factory name? (工厂名称是什么?)
HunyuanOCR: Fort Morgan
提示: What is the highest life expectancy at birth of male? (男性的最高出生时预期寿命是多少?)
HunyuanOCR: 80.7.
提示: What platform did Samsung have the largest market share in 2018? (2018年三星在哪个平台上拥有最大的市场份额?)
图 19: HunyuanOCR 的文档和图表视觉问答(VQA)性能。
HunyuanOCR: Tizen.
💬 评论讨论
欢迎在这里分享您的想法和见解!