Let the LLM Stick to Its Strengths: Learning to Route Economical LLM

作者/机构: Yi-Kai Zhang, Shiyin Lu, Qing-Guo Chen, Weihua Luo, De-Chuan Zhan, Han-Jia Ye / 南京大学人工智能学院, 新型软件技术国家重点实验室, 阿里巴巴集团AI业务

A1 主要贡献

核心问题: 随着大型语言模型（LLMs）生态系统的迅速发展，模型在规模、功能和性能上呈现出多样性。大型或重推理的LLMs的能力常常远超某些下游任务的需求，导致不必要的成本。而小型LLMs足以处理简单任务，复杂任务则需要更大模型或链式思考（CoT）等技术。因此，核心问题是如何智能地将用户查询路由到最合适的LLM，以平衡性能和成本。

研究目标: 本文旨在通过将模型路由问题重新构建为一个全面的推荐系统（RecSys）任务，来解决上述挑战。研究目标是开发一个名为LLMRec的框架，该框架能够在不预先对候选LLM进行推理的情况下，为用户查询路由到最合适的LLM，从而在不牺牲准确性的前提下最小化成本，逼近成本与准确性之间的帕累托最优。

创新点:
1. 首次将推荐系统（RecSys）系统性地应用于模型路由：本文的核心洞见是，LLM对查询的适用性是一个复杂的潜在信号，类似于推荐系统中的用户-项目偏好。LLMRec开创性地将模型路由问题重构为推荐任务，实现了经济、高效和迭代的优化。

全面的特征工程范式：LLMRec系统地为模型、查询、上下文和行为序列构建了特征。
- 模型特征：包括内在属性（如架构、规模、来源）和能力分布（在标准基准和自建核心集上的表现）。
- 查询特征：包括通用语义嵌入和元维度信息（如答案难度、推理水平）。
- 上下文特征：允许用户指定推理类型（如自洽性、CoT）和成本阈值，以适应不同的服务等级目标。
- 行为序列特征：构建了基于候选LLM在核心任务集和查询的最近邻训练样本上表现的动态交互特征。
为LLM路由量身定制的评估指标：开发了一种基于成本预算的帕累托指标，用于评估路由策略在成本和准确性权衡中的表现。
大规模训练集和路由基准的构建：构建了一个包含超过10亿个模型-查询对的大规模训练数据集，并设计了一个全面的路由基准，其中包括对未见数据集和动态模型库的评估，以验证框架的泛化能力和适应性。

LLMRec框架具有通用性、高效性和对不断发展的LLM生态的适应性，为现实世界中的LLM API部署提供了一个可扩展的解决方案。

A3 背景知识

LLM路由中的关键元素。考虑一个场景，当使用LLM API时，系统提供一个候选LLM库 $M = (f_1, f_2, ..., f_M)$。用户提供一个由指令集 $D_{test} = \{(x_i, a_i)\}_{i=1}^N$ 组成的任务，其中LLM $f_m$ 使用推理模式 $I_j \in I$ 对输入 $x_i$ 产生输出 $o_i = f_m(x_i; I_j)$，正确答案为 $a_i$。准确率由 $Acc(o_i, a_i)$ 给出。本文专注于 $f_m$ 代表仅解码器的文本生成LLM的情况。如第1节所述，LLM路由的核心挑战是在不首先从每个候选模型生成实际输出 $o_i$ 的情况下，预测LLM $f_m \in M$ 对给定查询 $(x_i; I_j)$ 的适用性。这种适用性在概念上与推荐系统的基础一致，后者通过预测复杂的用户偏好来运作。

图1：不同规模、架构和任务下LLMs性能规律的比较。对于大多数LLM架构，小规模LLM可以高效完成大多数简单任务；路由到小规模LLM可以降低部署成本。

推荐系统简要背景。推荐系统的核心任务是学习用户和项目之间复杂的匹配关系。一个典型的过程始于收集用户和项目特征、它们的历史交互日志以及上下文信息。然后，模型学习用户在不同场景下对不同项目的偏好。推荐系统中的排序任务是估计用户点击每个项目的概率。

成本效益路由流程。我们的任务是为每个指令 $x_i$ 和推理模式 $I_j$ 选择一个LLM $f_m$，以在保持准确性的同时最小化成本。我们将一个LLM的每令牌成本定义为 $t_m$，目标是：

$$ \boldsymbol{f}^{*}=\underset{f^{m} \in \mathcal{M}, \mathbf{I}_{j} \in \mathcal{I}}{\arg \max } \mathbb{E}_{i}\left[\operatorname{Acc}\left(f^{m}\left(\mathbf{x}_{i} ; \mathbf{I}_{j}\right), \mathbf{a}_{i}\right)\right], \quad \text { s.t. } \sum_{i=1}^{n} t^{m} \cdot\left|\mathbf{o}_{i}\right| \leqslant \epsilon, $$

其中 $o_i = f_m(x_i; I_j)$。输入序列的成本被忽略（因为它对所有方法都是固定的）。$\epsilon$ 代表用户指定的成本阈值。在我们的公式中，超过成本阈值 $\epsilon$ 会产生一些惩罚，但这比损失准确性次要。LLM路由性能的上限取决于没有可用LLM能产生正确答案的指令数量。在实践中，直接将公式1作为硬约束问题进行优化是不可行的。预算 $\epsilon$ 是一个对整个数据集求和的全局约束，而路由器必须为每个查询 $x_i$ 做出局部决策。此外，一个为满足固定 $\epsilon$ 而训练的路由器是不灵活的；它无法在不重新训练的情况下适应用户指定的不同预算。为了克服这一点，我们通过将成本阈值 $\epsilon$ 视为一个动态输入特征来重构问题。这将硬约束转换为了一个可学习的条件。路由器学习一个策略，将不同的预算水平与相应的路由策略关联起来，使其能够根据用户的需求动态地平衡成本和准确性。我们正式将路由器 $f_{\text{router}}$ 定义为一个策略，它在给定输入 $x_i$、推理模式 $I_j$ 和成本阈值 $\epsilon$ 的情况下选择一个模型 $f_m \in M$。

基于成本区间的帕累托前沿定义。在实际应用中，服务提供商倾向于将准确性作为比成本更关键的性能指标。这种偏好源于他们希望获得可预测的性能结果，而不是在产生费用后得到不确定的准确性水平。因此，当LLM API服务提供商实施LLM路由时，他们通常解决上述公式优化问题的对偶问题。该对偶问题旨在在目标准确性约束下最小化成本。此时，我们引入帕累托支配的概念。对于任何两个路由解决方案，比如解决方案 $f_{\text{router}_a}$ 和解决方案 $f_{\text{router}_b}$，由它们各自的指标（例如，准确性和成本）来表征，我们称解决方案a帕累托支配解决方案b（表示为 $f_{\text{router}_a} \succ f_{\text{router}_b}$），当且仅当解决方案a在至少一个目标上严格优于解决方案b，而在其他目标上不差。如果一个解决方案的准确性较低但成本也较低，则没有哪个解决方案占主导地位。它们可能属于同一个帕累托前沿。如果两个解决方案都在用户可接受的成本和准确性范围内，则它们都被认为是相对最优的。

图2：利用预训练LLM库的不同方法的比较：集成和重排序方法需要所有候选LLM进行推理。集成方法结合多个LLM的输出，而重排序方法从所有生成的输出中选择最合适的响应。专家混合（MoE）在Transformer层结构中集成路由。我们的LLM路由设置将指令引导到候选LLM之一，而无需对所有LLM的目标指令进行推理。

相关工作。基于形式化的设定，我们回顾第1节中的关键特征：
* 无预推理模型交互。一些模型集成或级联策略旨在从所有候选模型中选择并综合最优响应，考虑输入-响应关系。一些评分策略已应用于基于强化学习的LLM训练。其他方法包括经典的机器学习技术【索引7，Stacked regressions，1996，Machine learning】、【索引40，Bagging, boosting, and C4.5，1996，AAAI】、【索引20，A decision-theoretic generalization of on-line learning and an application to boosting，1997，Journal of Computer and System Sciences】、【索引21，Greedy function approximation: A gradient boosting machine，2001，The Annals of Statistics】和多视角深度集成方法【索引35，Ensemble learning via negative correlation，1999，Neural networks】、【索引22，Ensemble deep learning: A review，2022，Eng. Appl. Artif. Intell.】。然而，这些方法会在LLM API中引入显著延迟，尤其是在候选模型规模较大时。在LLMRec中，为每个目标指令对每个模型进行推理是不可行的。
* 新场景下的泛化能力。LLMRec专为LLM API设计，重点关注路由器的可扩展性。虽然一些迁移学习方法【索引5，An information-theoretic approach to transferability in task transfer learning，2019，ICIP】、【索引29，Ranking neural checkpoints，2021，CVPR】、【索引59，Logme: Practical assessment of pre-trained models for transfer learning，2021，ICML】、【索引39，Transferability estimation using bhattacharyya class separability，2022，CVPR】使用基于标签分布匹配的代理源-目标度量，但它们受限于训练期间看到的目标集【索引9，Frugalgpt: How to use large language models while reducing cost and improving performance，2023，CoRR】。另一方面，LLM API具有灵活的自然语言输出空间，这意味着路由器应该能零样本泛化到未见过的用户指令。
* 对更新候选模型的扩展能力。一些特定应用的路由器框架【索引44，Fly-swat or cannon? cost-effective language model choice via meta-modeling，2024，ACM WSDM】、【索引3，Automix: Automatically mixing language models，2024，NeurIPS】、【索引14，Cost-effective online multi-llm selection with versatile reward models，2024，CoRR】已经解决了上述问题。然而，大多数方法固定候选模型库以稳定路由训练和部署场景【索引36，FLOWGEN: fast and slow graph generation，2022，CoRR】、【索引16，Hybrid LLM: cost-efficient and quality-aware query routing，2024，ICLR】、【索引17，Graphrouter: A graph-based router for LLM selections，2024，CoRR】、【索引46，Harnessing the power of multiple minds: Lessons learned from LLM routing，2024，CoRR】、【索引37，Routellm: Learning to route llms with preference data，2024，CoRR】。此外，一些专家混合（MoE）模型【索引45，Outrageously large neural networks: The sparsely-gated mixture-of-experts layer，2017】、【索引18，Mixture-of-loras: An efficient multitask tuning for large language models，2024，CoRR】、【索引31，Moe-llava: Mixture of experts for large vision-language models，2024，arXiv preprint】在Transformer块内使用MLP作为专家，并嵌入一个路由器在它们之间进行选择以降低推理成本。然而，这些方法将路由器和模型参数紧密耦合，因此当专家库更新时，路由器需要通过复杂的增量学习【索引41，icarl: Incremental classifier and representation learning，2017，CVPR】、【索引64，Class-incremental learning: A survey，2024，IEEE Trans. Pattern Anal. Mach. Intell.】来适应，这可能会引入超参数敏感性和灾难性遗忘等问题。

总结。总而言之，虽然现有方法在模型路由的特定方面取得了显著进展，但LLMRec通过提供一个整体解决方案，解决了预推理开销、对新指令的零样本泛化、对更新模型库的无缝扩展以及固有的成本效益等挑战。其新颖地使用推荐系统框架（如图3所示），基于模型和查询的可学习表示，允许在大型LLM API环境中进行动态和高效的路由。LLMRec通过创建一个通用的、可学习的模型表示，将LLM路由转变为学习模型和查询嵌入的问题，从而引入了一种可扩展的方法。模型表示编码了能力和行为，并使用动态嵌入词汇表进行优化。这种通用性使得新LLM在经过轻量级推理后能快速索引到嵌入中，不像Model Spider【索引63，Model spider: Learning to rank pre-trained models efficiently，2023，NeurIPS】中需要随机初始化和重新训练。最后，路由过程估计模型和查询表示之间的关系。

A2 方法细节

3.1 模型与查询的表示

构建模型表示的动机。对于路由器而言，模型是一个黑箱，决策必须在不推理所有候选模型的情况下做出，以最小化开销。直接从LLM的高维参数中提取特征是不可行的。为解决此问题，我们构建了一个结合了内在属性和能力分布的模型表示。这使得路由器能够学习模型的潜力如何影响其对新指令的泛化能力。为此，我们还构建了一个全面的、多样化的评估数据核心集。其优势在于，当一个新模型出现时，我们可以在这个核心集上以最小的开销评估其核心能力。

模型表示的构建。对于候选LLM $f_m$，我们将其表示分为内在属性和能力分布两类，每个维度都是可选的。
1. 内在属性 包括模型结构（例如，发布者、名称、架构、层数、层类型、总参数、训练细节、精度和特征描述）。附加信息可能包括HuggingFace下载量、开源许可证等。
2. 能力分布 分为在离线基准和在线核心集上的评估。
* (a) 鉴于大多数LLM在发布时会公布在标准基准上的性能，我们记录了模型在MMLU【索引24，Measuring massive multitask language understanding，2021，ICLR】、MMLU-Pro【索引51，Mmlu-pro: A more robust and challenging multi-task language understanding benchmark，2024，NeurIPS】、BBH【索引47，Challenging big-bench tasks and whether chain-of-thought can solve them，2023，ACL】、ARC-Challenge【索引6，Think you have solved direct-answer question answering? try arc-da, the direct-answer AI2 reasoning challenge，2021，CoRR】、TruthfulQA【索引32，Truthfulqa: Measuring how models mimic human falsehoods，2022，ACL】、Winogrande【索引43，Winogrande: An adversarial winograd schema challenge at scale，2020，AAAI】和HellaSwag【索引60，HellaSwag: Can a machine really finish your sentence?，2019，ACL】等基准上的性能。对于推理能力，我们考虑了数学（MATH【索引25，Measuring mathematical problem solving with the MATH dataset，2021，NeurIPS】、MMLU-STEM、GSM8K【索引12，Training verifiers to solve math word problems，2021，CoRR】）和代码生成（HumanEval【索引10，Evaluating large language models trained on code，2021，CoRR】、HumanEval+【索引34，Is your code generated by chatgpt really correct? rigorous evaluation of large language models for code generation，2023，NeurIPS】、MBPP【索引4，Program synthesis with large language models，2021，CoRR】、MBPP+【索引34，Is your code generated by chatgpt really correct? rigorous evaluation of large language models for code generation，2023，NeurIPS】）等领域。对于离线能力，我们关注这些数据集的平均性能，并且路由器不会明确知道当前用户查询属于哪个基准。
* (b) 为了扩展模型能力的评估，我们还创建了一个在线评估核心集：它充当了连接模型历史行为与未来预期性能的桥梁。通过从MMLU和MMLU-Pro的71个类别中各采样20个样本，我们形成了一个包含1,415个指令的核心集用于在线评估。同时，我们从数学、代码生成、医疗、法律和金融等专业领域进行选择。我们为每个类别提取5个关键词作为语义描述符，并计算类别中心嵌入。详细信息在第4节中提供。

查询表示的构建。我们将用户指令 $x_i$ 的表示分为通用语义表示和元维度信息。

通用语义嵌入：对于用户指令 $x_i$，我们使用3个通用编码器 $\psi$（例如，GTE-large【索引62，mgte: Generalized long-context text representation and reranking models for multilingual text retrieval，2024，arXiv preprint】（约0.33B）、Qwen2.5-0.5B-Instruct【索引57，Qwen2.5 technical report，2024，CoRR】和RoBERTa-Large）来提取嵌入。
元维度信息，例如答案难度、推理水平、内容多样性、时间稳定性、概念模糊性和领域专业知识，是通过编码器Qwen2.5-7B-Instruct【索引57，Qwen2.5 technical report，2024，CoRR】通过特定提示和少量推理步骤提取的。

上下文表示的构建。我们还构建了上下文特征，以使路由决策与服务级目标保持一致。这些特征包括用户指定的推理类型（例如，自洽性、CoT、思维树（ToT））和成本阈值，我们将其离散化为五个级别。

高阶交叉特征的引入。上述特征都是查询或模型侧的属性，在推荐系统中被称为一阶特征。我们注意到，任何这些特征维度都可以是可选的（在实现中，它们被空值填充）。然而，现代推荐系统会自动构建并学习大量的高阶交叉特征，以捕捉两侧之间复杂的、非线性的匹配关系。我们介绍了一些显式交叉特征的例子，例如以与当前查询相关的模型的历史行为序列为中心的特征。具体来说，我们考虑候选LLM在以下方面的性能：i) 我们的核心任务集，以及 ii) 当前查询的top-k最近邻训练样本。这些被作为动态能力特征引入，更能代表查询并与之相关。虽然模型的静态能力和查询的语义之间可能存在内在差距，但LLMRec框架，像现代推荐系统一样，旨在从所有可用的模型、查询、上下文和行为序列特征之间复杂的、高阶的关系中学习。

图3：LLMRec的流程图。构建了模型、查询、上下文和行为序列的表示。然后，LLMRec利用推荐系统内核学习特征关系，以路由到相应的LLM。

3.2 路由即推荐

将路由问题形式化为推荐排序。我们将路由问题形式化为推荐系统中的一个排序问题。在这种范式中，输入查询 ($x_i$) 和候选LLM ($f_m$) 分别映射到用户和项目。用户指定的上下文，如成本阈值和推理类型，为推荐提供了情境。核心目标是学习一个函数，该函数能预测任何给定（查询、模型、上下文）元组的适用性。这种适用性是通过高阶交叉特征学习到的复杂、非线性匹配，这对应于现代推荐系统中的核心挑战。LLMRec旨在利用已建立的架构原则来学习这些交互。

借鉴成熟的推荐系统架构。例如，像Wide & Deep【索引11，Wide & deep learning for recommender systems，2016，DLRS@RecSys】这样的方法通过结合两个组件来表现出色：一个“宽”部分用于记忆显式的、低阶的特征交互（例如，手动构建的交叉特征），一个“深”部分使用MLP来泛化和学习来自密集嵌入的隐式的、高阶的关系。手动设计交叉特征很困难。像DeepFM【索引23，Deepfm: A factorizationmachine based neural network for CTR prediction，2017，IJCAI】这样的模型通过将因子分解机（FM）与MLP集成来自动化此过程。FM组件通过为每个特征学习一个低维潜在向量并计算它们的点积，来高效地建模二阶特征交互。这些潜在向量与深层组件共享，从而实现端到端学习。像AFM【索引55，Attentional factorization machines: Learning the weight of feature interactions via attention networks，2017，IJCAI】这样的增强引入了注意力机制来加权不同特征交互的重要性。其他模型更直接地学习隐式交互：FGCNN【索引33，Feature generation by convolutional neural network for click-through rate prediction，2019，WWW】在特征图上应用卷积来捕捉局部交互模式。FiGNN【索引30，Fi-gnn: Modeling feature interactions via graph neural networks for CTR prediction，2019，CoRR】采用图神经网络（GNNs），将特征视为节点，通过聚合来捕捉复杂的高阶关系。

引入行为建模以实现动态适应。模型的适用性不是静态的；它高度依赖于查询。我们从推荐系统中的行为建模中汲取灵感，例如深度兴趣网络（DIN）【索引65，Deep interest network for click-through rate prediction，2018，ACM SIGKDD】，它使用注意力机制根据用户历史行为与目标项目的相关性来动态地加权这些行为。类似地，LLMRec将模型的历史性能，例如在我们核心集上或在当前查询的top-k最近邻训练样本上的表现，视为一个动态的行为序列。这使得框架能够学习到一个查询感知的模型能力表示。

通过综合学习实现最优推荐。通过整合一阶特征（查询、模型、上下文）并学习它们复杂的、高阶的交互，推荐系统框架学会了准确地对所有候选LLM进行排序。这种排序使其能够推荐在给定查询和服务级约束下最接近帕累托最优的模型。

3.3 训练数据构建

训练实例的定义。一个训练实例是 $(q, m, c, b) \rightarrow s$，其中查询（q）、模型（m）、上下文（c）和行为特征（b）的表示映射到一个目标适用性分数 $s$。为了学习这个函数，我们构建了一个包含超过10亿个模型-查询对的大规模数据集。该数据集涵盖了超过50个LLM家族（来自2024年），在超过30个不同基准上进行了评估。我们使用多种推理模式捕获性能日志，包括直接生成、自洽性【索引50，Self-consistency improves chain of thought reasoning in language models，2023，ICLR】、思维链（CoT）【索引52，Chain-of-thought prompting elicits reasoning in large language models，2022，NeurIPS】和思维树（ToT）【索引58，Tree of thoughts: Deliberate problem solving with large language models，2023，NeurIPS】。

关键标签的记录。对于每一对 $(x_i, o_{mi})$（指令 $x_i$，模型m的输出 $o_{mi}$），我们记录的关键标签为：
1. 准确率（Acc）：使用特定于数据集的指标与真实答案 $a_i$ 进行评估。
2. 成本：计算为 $Cost(o_{mi}) = c_{f_m} \times |o_{mi}|$，其中 $c_{f_m}$ 是估计的每令牌推理成本（基于模型规模），$|o_{mi}|$ 是响应令牌的长度。

生成真实适用性排序。为了生成真实适用性排序 $s$，我们遵循一个优先考虑成本效益的基于帕累托的原则。对于给定的查询，我们将偏好顺序定义为：

$$\text{Ranking} = \mathop{\text{Sort}}_{\text{Cost}(\mathbf{o}_i^m)} (\{f_m\}_{\text{Acc}(\mathbf{o}_i^m, \mathbf{a}_i) > 0}) \oplus \text{Shuffle} (\{f_m\}_{\text{Acc}(\mathbf{o}_i^m, \mathbf{a}_i) = 0})$$

其中 $\oplus$ 表示有序拼接。所有正确解决任务的模型（$Acc > 0$）排在最前面，并按其 $Cost(·)$ 升序排序（成本越低越好）。所有失败的模型（$Acc = 0$）被随机打乱并排在最后。关键的是，这个真实排序是相对于输入的上下文特征 $c$（尤其是用户指定的成本阈值）计算的。这教会了LLMRec调整其路由策略，学习在不同预算约束下哪个LLM是“最佳”的。

A4 实验

实验环境

训练候选LLM库: 考虑了52个不同的LLM，其中32个模型参数小于10B，15个模型在10B到20B之间，5个模型约70B。实际测试了超过80个模型，排除了不具备CoT能力的早期模型。
训练数据集: 涵盖了通用评估、常识推理、数学推理、代码生成、符号推理以及医疗、法律、金融等特定领域的35个数据集。
交互规模: 在目标数据集上使用每个候选LLM进行推理，生成近1000万个交互对。从中采样约110万个用于训练，性能较强的对具有更高的采样权重。
评估指标: 24个多项选择数据集使用困惑度（PPL）进行评估。其余11个填空或问答数据集大多使用正则表达式提取最终答案。特定领域数据集（如数学或代码生成）遵循相应的评估库。
评估候选LLM库: 如表1所示，混合了5个小于10B参数的小型LLM，2个10B到20B参数的LLM，以及3个约70B参数的大型LLM，以确保模型库能力多样。
评估基准: 包括通用评估基准如MMLU、TruthfulQA，常识推理任务如ARC-Challenge、MMLU-stem，数学推理基准如GSM8K，以及符号推理任务如BBH。
模型表示构建: 遵循第3节描述，使用模型描述和核心集构建表示，连续值分桶后映射到可训练的嵌入中。
基线方法: 随机选择LLM，以及使用GTE-Large将所有候选模型的响应 $o_i$ 与指令 $x_i$进行匹配，选择得分最高的LLM。
泛化能力测试: 评估模型库中有一个大型和一个小型LLM未在路由训练集中出现。除MMLU外，所有评估数据集均为未见过的数据集。

实验结果

通用与常识推理任务评估 (表1):
* 实验内容: 在MMLU、TruthfulQA、ARC-C和MMLU-stem等基准上，比较了不同推荐系统内核驱动的LLMRec、单独的小/大型LLM以及基线方法的性能。
* 实验结果: LLMRec在使用DIN架构时表现最佳，平均准确率达到75.52，超过了所有独立的LLM和基线方法。Wide & Deep和DeepFM也取得了具有竞争力的性能。值得注意的是，在MMLU和ARC-Challenge上，LLMRec的性能甚至超过了模型库中表现最好的单个模型。LLMRec路由选择的LLM平均规模在20B+范围，相较于直接使用大型模型（~70B）或GTE-Large基线（~55B）显著降低了模型规模，体现了成本效益。
* 分析结论: 实验结果表明，LLMRec能有效平衡性能和成本，通过智能路由，以远低于最强模型的平均成本，达到了接近甚至超越最强模型的性能水平。

表1：通用、常识和推理任务的综合路由评估。我们比较了各种基准（MMLU、TruthfulQA、ARC-C和MMLU-stem）的响应准确性。我们按模型规模（小规模LLM、大规模LLM和LLM路由方法）对方法进行分类。我们显示了参数数量（“#Params”）。粗体表示最佳性能，下划线表示次佳性能。

数学与符号推理任务评估 (表2):
* 实验内容: 在GSM8K和BBH数据集上评估了路由能力，这些任务需要生成式推理和CoT。除了性能（Perf.），还记录了平均响应令牌长度（Leng.）。
* 实验结果: LLMRec再次展现出卓越性能，在所有任务的平均性能上达到最优（DIN为76.20）。更重要的是，与大型模型和其他方法相比，LLMRec将平均输出长度减少了约30%。
* 分析结论: 综合考虑模型规模（#Params）和令牌长度（Leng.），总计算成本与二者的乘积大致成正比。LLMRec不仅在准确性上领先，还通过生成更短的响应显著降低了计算成本，实现了性能与成本的最佳权衡。

表2：数学和符号推理任务的综合路由评估。我们比较了数学和符号推理任务的性能，显示了响应准确性（“Perf.”）和平均令牌使用量（“Leng.”）。与表1类似，我们估计了与每种路由方法相关的近似模型规模。方法在数据上的总计算成本约与模型规模（“#Params”）和平均令牌使用量（“Leng.”）的乘积成正比。粗体为最佳，下划线为次佳。

A7 补充细节

局限性。LLMRec尚未考虑市场因素，如LLM API定价的波动；而是使用LLM参数规模作为近似值。在修改后的定价方案下，模型表示的泛化能力需要进一步研究。系统对新LLM的评估依赖于足够数量的历史交互数据。这带来了一个冷启动挑战，这是快速发展的LLM生态系统中所有路由系统共同面临的问题。这个局限性可以通过不断更新核心集来增强模型表示的有效性来解决。

A5 结论

本文介绍了LLMRec，一个通过开创性地将模型路由问题重构为推荐系统（RecSys）任务来优化LLM API服务成本-性能权衡的新颖框架。我们的核心洞见是，一个LLM对查询的适用性（平衡能力和成本）是一个复杂的、潜在的信号，等同于用户-项目的偏好。LLMRec通过为模型、查询、操作上下文（包括用户指定的成本阈值）和行为序列建立丰富的多维特征来学习这个信号。我们广泛的实验表明，LLMRec在保持任务准确性的同时，平均降低了超过38%的推理成本。该框架对未见过的任务表现出强大的零样本泛化能力，并能无缝适应动态演化的模型库，验证了智能路由作为一种可扩展且经济的LLM部署方案的可行性。

PaperCache

Let the LLM Stick to Its Strengths: Learning to Route Economical LLM

Let the LLM Stick to Its Strengths: Learning to Route Economical LLM

A1 主要贡献

A3 背景知识