When to Reason: Semantic Router for vLLM
When to Reason: Semantic Router for vLLM
作者/机构:
Xunzhuo Liu, Tencent
Chen Wang, IBM Research
Yuhan Liu, University of Chicago
Xiangxi Mo, UC Berkeley
Yue Zhu, IBM Research
Junchen Jiang, University of Chicago
Huamin Chen, Red Hat
A1 主要贡献
本文针对大型语言模型(LLM)在推理时面临的效率与准确性权衡问题,提出了一种语义路由器(semantic router)解决方案。
- 核心问题:尽管链式思考(chain-of-thought)等推理模式能显著提升LLM在复杂任务上的准确性,但它们会带来巨大的推理延迟和Token消耗,这对许多简单查询来说是不必要的开销。现有的开源推理引擎(如vLLM)虽然高效,但缺乏原生的语义路由能力来动态、选择性地应用推理。
- 研究目标:设计并实现一个与vLLM等开源推理引擎集成的语义路由器,该路由器能够根据查询的语义意图,智能地判断其是否需要复杂的推理过程,从而仅在必要时调用推理模式,以在保证高准确率的同时,大幅降低延迟和成本。
- 创新点与贡献:
- 识别并解决了开源推理引擎中缺乏推理感知能力的差距:明确指出了在vLLM这类系统中集成语义路由以实现自适应推理的必要性。
- 设计并开源了一个高性能、可扩展的语义路由器:该路由器与vLLM和云原生框架(Envoy/ext_proc)深度集成,实现了对推理过程的细粒度控制,并促进了其在云原生生态中的应用。该系统能够根据查询意图进行分类,并选择性地应用推理。
- 通过实验验证了方法的有效性:在MMLU-Pro基准测试上的评估结果表明,与直接使用vLLM进行推理相比,该语义路由器在准确率上提升了10.2个百分点,同时将响应延迟降低了47.1%,Token消耗减少了48.5%。这证明了语义路由是平衡开源LLM服务系统中准确性与效率的有效机制。
A3 背景知识
2.1 LLM系统中的路由器
利用路由器动态处理查询以提升效率和准确性。近期的研究工作探索了使用路由器来动态决定如何处理查询,从而提高LLM推理的效率和准确性。例如,FrugalGPT 【5,FrugalGPT: How to use large language models while reducing cost and improving performance, 2023, arXiv preprint arXiv:2305.05176】通过学习为不同查询调用哪些LLM组合,利用提示词自适应、近似和级联模型选择等方法,在商业API上实现了高达98%的成本降低。同样,RouteLLM 【15,RouteLLM: Learning to route llms from preference data, 2025, The Thirteenth International Conference on Learning Representations】训练路由器模型,在推理时根据人类偏好数据和增强数据在强弱LLM之间进行选择,从而在MT Bench、MMLU和GSM8K等基准测试中维持准确性的同时,大幅节省了成本。这些方法展示了基于路由器的技术在改善推理性能方面的潜力,但它们主要集中在模型级别的路由。
2.2 选择性推理的必要性
高级推理策略虽能提升准确性但并非普遍适用且成本高昂。虽然链式思考(CoT)等高级推理策略可以提高准确性,但最近的研究强调,推理并非对所有任务都有益,并且通常会带来巨大的计算开销。Wilhelm等人【5,FrugalGPT: How to use large language models while reducing cost and improving performance, 2023, arXiv preprint arXiv:2305.05176】的研究表明,对于知识型任务,CoT几乎没有带来好处,却可能使能源成本增加高达150倍。类似地,Aggarwal等人发现LLM经常对简单问题“过度思考”而对复杂问题“思考不足”【1,Optimalthinkingbench: Evaluating over and underthinking in llms, 2025, arXiv preprint arXiv:2508.13141】,导致效率低下。Sprague等人【17,To cot or not to cot? chain-of-thought helps mainly on math and symbolic reasoning, 2024, arXiv preprint arXiv:2409.12183】的元分析以及Wei等人【20,Chain-of-thought prompting elicits reasoning in large language models, 2022, Advances in neural information processing systems】最初的CoT研究进一步证实,CoT主要在数学和逻辑任务上提升性能,在其他领域的增益有限,甚至可能降低小型模型的准确性。为了缓解这些低效问题,近期的框架【6,Aware first, think less: Dynamic boundary self-awareness drives extreme reasoning efficiency in large language models, 2025, arXiv preprint arXiv:2508.11582】【24,Think in blocks: Adaptive reasoning from direct response to deep reasoning, 2025, arXiv preprint arXiv:2508.15507】【21,Stop spinning wheels: Mitigating llm overthinking via mining patterns for early reasoning exit, 2025, arXiv preprint arXiv:2508.17627】引入了自适应推理策略,动态调节推理深度,从而在保持准确性的同时减少Token使用量。
2.3 语义路由
一种基于语义而非关键词进行请求转发的新兴系统。语义路由器是一种新兴的LLM推理请求转发系统,其路由决策由输入的语义含义指导,而非明确的关键词或手动定义的规则【13,Semantic routing for enhanced performance of llm-assisted intent-based 5g core network management and orchestration, 2024, GLOBECOM 2024-2024 IEEE Global Communications Conference】【3,Semantic router, 2025, https://www.aurelio.ai/semantic-router】。该路由器通过将用户查询和候选路由话语编码为能够捕捉上下文含义的高维嵌入【23 ,Query routing for retrieval-augmented language models, 2025, arXiv preprint arXiv:2505.23052】,然后选择语义相似度最高的目标路径,通常使用余弦距离等指标进行度量。语义路由为查询级控制提供了一种轻量级且高效的机制,使其成为实现推理感知路由的一个有前景的基础。
A2 方法细节
3.1 系统设计
集成语义路由与推理模式选择器以实现效率与准确性的动态平衡。我们的系统集成了一个语义路由器和一个推理模式选择器,以在LLM推理中动态地平衡效率和准确性。如图1a所示,该过程首先将用户提示编码为高维语义嵌入,以捕捉输入的上下文含义。随后,这些嵌入被一个意图分类器处理,该分类器判断提示是简单的知识型查询还是需要密集推理的任务。基于此分类结果,路由器将输入导向最合适的推理路径:对于简单任务,采用非推理模型的轻量级推理;对于复杂查询,则采用启用了链式思考的模型的推理。最后,各个路径的输出被统一成最终响应。与FrugalGPT和RouteLLM等主要在模型选择层面权衡准确性与成本的先前路由方法不同,我们的设计侧重于基于语义意图的路由,并选择性地调用推理。这使得自适应推理成为可能,即仅在有益时才应用成本高昂的逐步推理,同时为直接的查询保持低延迟和高效率。
3.2 实现
一个集成了三个关键模块的统一架构。我们的意图感知语义路由器的实现集成了三个关键模块——用于意图分类的ModernBERT微调、一个基于Rust的高性能分类核心,以及用于Envoy集成的Golang-Rust绑定——形成一个统一的架构,如图1b所示。
3.2.1 用于意图分类的ModernBERT微调
微调ModernBERT模型以实现多任务意图分类。我们微调了ModernBERT模型【19,Smarter, better, faster, longer: A modern bidirectional encoder for fast, memory efficient, and long context finetuning and inference, 2024】用于多任务意图分类。选择该模型是因为它速度快、内存效率高、支持长上下文,并通过融合RoPE和FlashAttention等现代LLM创新技术实现了高准确率。训练流程使用了三个数据集:MMLU-Pro【18,Mmlu-pro: A more robust and challenging multi-task language understanding benchmark, 2024, Advances in Neural Information Processing Systems】(包含约14个领域的约1.2万个学术样本)、Microsoft Presidio【14,Presidio research: Data science utilities, evaluation tools and synthetic data generation for presidio, 2023, https://github.com/microsoft/presidio-research】(包含约5万个Token级别的个人身份信息(PII)示例)以及越狱安全数据集【4 ,Jailbreakbench: An open robustness benchmark for jailbreaking large language models, 2024, Advances in Neural Information Processing Systems】。该分类流程既可以使用CPU也可以使用GPU进行实时在线推理,从而简化了运行时环境的资源需求。
3.2.2 用于高性能分类的Rust核心
使用Rust和Candle框架实现高效的分类引擎。分类引擎采用Rust语言和Hugging Face的Candle框架【8,Candle: A minimalist machine learning framework for Rust, 2023, https://github.com/huggingface/candle】实现,该框架支持高效的零拷贝张量工作流、SIMD加速和优化的内存使用。它利用Rust的所有权模型来保证线程安全,从而运行多阶段的并行推理——包括类别分类、PII检测和越狱检测。该处理流程会对请求进行批处理,并利 用Hugging Face Tokenizers进行快速分词,支持大上下文窗口,并能链接多个分类任务,从而在商用硬件上无需使用昂贵的GPU即可支持高并发请求。
3.2.3 用于云原生Envoy集成的Golang + Rust (通过CGO)
通过CGO绑定将Rust核心封装到Golang层以支持Envoy集成。我们使用CGO绑定将基于Rust的分类核心封装在一个Golang层中,以支持Envoy的外部处理(ext_proc)过滤器接口【7,External processing filter (ext_proc), 2025, https://www.envoyproxy.io/docs/envoy/latest/configuration/http/http_filters/ext_proc_filter】。Envoy会拦截HTTP请求,并通过gRPC将其转发给外部处理器。外部处理器在响应到达后端服务之前,应用实时的分类和路由决策。CGO层被静态链接,最大限度地减少了运行时开销,同时实现了与Kubernetes、服务网格和API网关模式的无缝集成。这种设计模式促进了云原生生态系统的采纳 。
A4 实验环境
- 数据集: MMLU-Pro基准测试,覆盖14个学术领域,用于评估模型的准确性、Token使用量和延迟。
- 模型架构: Qwen/Qwen3-30B-A3B模型。
- 硬件配置:
- GPU: NVIDIA L4 GPU。
- 并行配置: 张量并行度(tensor parallelism degree)为4。
- 软件配置:
- 推理服务框架: vLLM v0.10.1。
- 对比基线: 与直接使用vLLM进行推理进行比较,涵盖了六种不同的执行模式:中性推理(Neutral Reasoning, NR)和显式链式思考(Explicit Chain-of-Thought, XC),每种模式下又分别配置了启用推理、禁用推理和基础模式。
A4 实验结果
实验评估了语义路由器在MMLU-Pro基准上相对于直接vLLM推理的性能,主要关注准确性、延迟和Token消耗。
-
总体性能提升: 如表1所示,与直接vLLM推理相比,语义路由器在整体性能上取得了显著提升。
- 准确率: 平均准确率提高了10.24个百分点(从48.33%提升至58.57%)。
- 延迟: 平均响应延迟降低了47.1%(从24.76秒降至13.09秒)。
- Token消耗: 平均Token使用量减少了48.5%(从1722.1个减少到887.5个)。
表1:语义路由器与直接vLLM推理在MMLU-Pro上的总体性能对比。 -
分领域准确性分析: 图2展示了在MMLU-Pro的14个领域中,语义路由器与各种vLLM直连模式的准确性对比。
- 结论: 路由器在大多数类别中表现出色,尤其在需要推理的领域(如经济学)领先,同时在以知识为中心的领域(如历史、法律)也保持了竞争力。这表明选择性推理在为复杂任务带来好处的同时,并未牺牲在简单事实型任务上的准确性。
图2:在14个MMLU-Pro领域中,直接vLLM模式与我们的语义路由器的各类别准确性对比。 -
综合分析:
- 语义路由器在14个领域中的11个都表现出稳健的改进,证明了其能够有效地为查询匹配适当推理策略的能力。
- 在知识密集型领域(如商业和经济学),准确率提升超过20个百分点,效果尤为显著。
- 在技术领域(如工程和计算机科学)的性能仍然面临挑战。
- 在推理密集型领域(如数学和生物学)的结果好坏参半,这表明路由策略还有进一步优化的空间。
- 总而言之,实验结果表明,语义路由为在生产环境中实现更准确、更具成本效益的LLM推理提供了一条可行的路径。
A5 结论
本文提出了一种语义路由器,它能够动态地在推理和非推理策略之间进行选择,以优化大型语言模型的推理过程。在MMLU-Pro基准测试上的评估结果表明,该路由器在准确率上提升了超过10个百分点,同时将Token使用量和延迟降低了近50%。该方法在商业、经济和物理等知识密集型领域尤其有效,尽管在技术和重推理领域仍存在挑战。通过与vLLM的集成,该路由器证明了语义路由是现实世界推理服务中一种实用且高效的解决方案。
A6 附录
附录 A. 额外的各类别结果
补充效率优势的分类数据。除了图3中报告的各类别准确性结果外,我们还提供了两个补充性的分类数据,以突显语义路由在效率方面的优势。
语义路由器在各领域均展现出一致的效率提升。图4和图5中的各类别细分数据证实,语义路由器在所有领域都持续提升了效率。在Token使用方面,与直接使用vLLM的执行模式相比,路由器将平均消耗减少了近一半,在知识密集型学科(如历史、法律和健康)中节省尤为显著,因为这些领域很少需要推理。同样,延迟结果显示,路由器在大多数类别中都保持了更快的响应时间,即使在数学和物理等对推理敏感的领域,延迟也减少了40%以上。这些结果表明,语义路由不仅提高了总体效率,还在各个领域实现了稳健的收益,从而在不牺牲准确性的前提下,提供了更快、更经济的推理。
引用文献汇总
- 【1】Aggarwal, P., et al. "Optimalthinkingbench: Evaluating over and underthinking in llms." (2025).
- 引用位置:A3 背景知识 - 2.2 选择性推理的必要性
- 引用描述:Aggarwal等人发现LLM经常对简单问题“过度思考”而对复杂问题“思考不足”,导致效率低下。
- 【3】http://Aurelio.ai. "Semantic router." (2025).
- 引用位置:A3 背景知识 - 2.3 语义路由
- 引用描述:用于说明语义路由器是一种新兴的LLM推理请求转发系统,其路由决策由输入的语义含义指导。
- 【4】Chao, P., et al. "Jailbreakbench: An open robustness benchmark for jailbreaking large language models." (2024).
- 引用位置:A2 方法细节 - 3.2.1 用于意图分类的ModernBERT微调
- 引用描述:作为微调ModernBERT模型所使用的三个数据集之一,提供了越狱安全相关的数据。
- 【5】Chen, L., et al. "Frugalgpt: How to use large language models while reducing cost and improving performance." (2023).
- 引用位置:A3 背景知识 - 2.1 LLM系统中的路由器, 2.2 选择性推理的必要性
- 引用描述:在2.1节中,作为路由器提升效率的例子,通过级联模型选择等方法实现成本降低;在2.2节中,引用其研究表明CoT会大幅增加能源成本但对知识型任务收益甚微。
- 【6】Chen, Q., et al. "Aware first, think less: Dynamic boundary self-awareness drives extreme reasoning efficiency in large language models." (2025).
- 引用位置:A3 背景知识 - 2.2 选择性推理的必要性
- 引用描述:作为引入自适应推理策略以缓解低效问题的近期框架之一。
- 【7】Envoy Proxy Contributors. "External processing filter (ext_proc)." (2025).
- 引用位置:A2 方法细节 - 3.2.3 用于云原生Envoy集成的Golang + Rust (通过CGO)
- 引用描述:说明系统通过CGO绑定支持Envoy的ext_proc过滤器接口,以实现云原生集成。
- 【8】Hugging Face. "Candle: A minimalist machine learning framework for Rust." (2023).
- 引用位置:A2 方法细节 - 3.2.2 用于高性能分类的Rust核心
- 引用描述:说明分类引擎是使用Hugging Face的Candle框架在Rust中实现的。
- 【9】Khattab, O., et al. "Dspy: Compiling declarative language model calls into state-of-the-art pipelines." (2024).
- 引用位置:A1 主要贡献 - 引言
- 引用描述:作为支持模块化路由策略的框架之一,但需要手动配置并与更高级的堆栈绑定。
- 【10】Kwon, W., et al. "Efficient memory management for large language model serving with pagedattention." (2023).
- 引用位置:A1 主要贡献 - 引言
- 引用描述:提及vLLM作为高效推理引擎的事实标准,但缺乏原生语义路由功能。
- 【11】LangChain Documentation. "How to route between sub-chains." (2025).
- 引用位置:A1 主要贡献 - 引言
- 引用描述:作为支持模块化路由策略的框架之一,但需要手动配置并与更高级的堆栈绑定。
- 【12】llm-d Contributors. "llm-d: A kubernetes-native high-performance distributed llm inference framework." (2025).
- 引用位置:A1 主要贡献 - 引言
- 引用描述:作为提供轻量级路由的相关系统之一,但不支持对推理的细粒度控制。
- 【13】Manias, D. M., et al. "Semantic routing for enhanced performance of llm-assisted intent-based 5g core network management and orchestration." (2024).
- 引用位置:A3 背景知识 - 2.3 语义路由
- 引用描述:用于说明语义路由器是一种新兴的LLM推理请求转发系统,其路由决策由输入的语义含义指导。
- 【14】Microsoft. "Presidio research: Data science utilities, evaluation tools and synthetic data generation for presidio." (2023).
- 引用位置:A2 方法细节 - 3.2.1 用于意图分类的ModernBERT微调
- 引用描述:作为微调ModernBERT模型所使用的三个数据集之一,提供了Token级别的个人身份信息(PII)示例。
- 【15】Ong, I., et al. "Routellm: Learning to route llms from preference data." (2025).
- 引用位置:A3 背景知识 - 2.1 LLM系统中的路由器
- 引用描述:作为路由器提升效率的例子,通过训练模型在强弱LLM之间进行选择来节省成本。
- 【16】Production Stack Contributors. "Production stack: Scalable inference infrastructure with vllm." (2025).
- 引用位置:A1 主要贡献 - 引言
- 引用描述:作为提供轻量级路由的相关系统之一,但不支持对推理的细粒度控制。
- 【17】Sprague, Z., et al. "To cot or not to cot? chain-of-thought helps mainly on math and symbolic reasoning." (2024).
- 引用位置:A3 背景知识 - 2.2 选择性推理的必要性
- 引用描述:其元分析证实CoT主要在数学和逻辑任务上提升性能,在其他领域增益有限。
- 【18】Wang, Y., et al. "Mmlu-pro: A more robust and challenging multi-task language understanding benchmark." (2024).
- 引用位置:A2 方法细节 - 3.2.1 用于意图分类的ModernBERT微调
- 引用描述:作为微调ModernBERT模型所使用的三个数据集之一,提供了跨多个领域的学术样本。
- 【19】Warner, B., et al. "Smarter, better, faster, longer: A modern bidirectional encoder for fast, memory efficient, and long context finetuning and inference." (2024).
- 引用位置:A2 方法细节 - 3.2.1 用于意图分类的ModernBERT微调
- 引用描述:说明系统微调了ModernBERT模型用于多任务意图分类。
- 【20】Wei, J., et al. "Chain-of-thought prompting elicits reasoning in large language models." (2022).
- 引用位置:A3 背景知识 - 2.2 选择性推理的必要性
- 引用描述:其最初的CoT研究证实CoT主要在数学和逻辑任务上提升性能。
- 【21】Wei, Z., et al. "Stop spinning wheels: Mitigating llm overthinking via mining patterns for early reasoning exit." (2025).
- 引用位置:A3 背景知识 - 2.2 选择性推理的必要性
- 引用描述:作为引入自适应推理策略以缓解低效问题的近期框架之一。
- 【22】Wilhelm, P., et al. "Beyond test-time compute strategies: Advocating energy-per-token in llm inference." (2025).
- 引用位置:A1 主要贡献 - 引言
- 引用描述:其研究表明,虽然推理能提高复杂任务的性能,但对许多简单查询是不必要的。
- 【23】Zhang, J., et al. "Query routing for retrieval-augmented language models." (2025).
- 引用位置:A3 背景知识 - 2.3 语义路由
- 引用描述:说明路由器通过将查询和候选路由编码为高维嵌入来工作。
- 【24】Zhu, Y., et al. "Think in blocks: Adaptive reasoning from direct response to deep reasoning." (2025).
- 引用位置:A3 背景知识 - 2.2 选择性推理的必要性
- 引用描述:作为引入自适应推理策略以缓解低效问题的近期框架之一。
💬 评论讨论
欢迎在这里分享您的想法和见解!