State of AI: An Empirical 100 Trillion Token Study with OpenRouter
State of AI: An Empirical 100 Trillion Token Study with OpenRouter
作者/机构: Malika Aubakirova∗†, Alex Atallah‡, Chris Clark‡, Justin Summerville‡, and Anjney Midha†
‡OpenRouter Inc. †a16z (Andreessen Horowitz)
A1 主要贡献
本文基于AI推理服务提供商OpenRouter平台超过100万亿token的真实世界大型语言模型(LLM)交互数据,进行了一项大规模的实证研究。研究旨在填补领域内对LLM实际使用情况的认知空白,尤其是在第一个广泛采用的推理模型o1于2024年12月5日发布后,该领域从单遍模式生成转向了多步审议推理。
核心问题与研究目标:
尽管LLM的能力在近期取得了巨大进步,但关于这些模型在实践中如何被实际使用的系统性证据仍然有限。现有研究多侧重于定性演示或基准性能,而非大规模的行为数据。本文的目标是通过分析OpenRouter平台上的海量数据,揭示LLM在不同任务、地理区域和时间维度上的真实使用模式,从而为模型构建者、AI开发者和基础设施提供商提供数据驱动的洞见。
研究内容与创新点:
本文从多个维度对LLM的使用情况进行了深入分析,主要涵盖以下几个方面:
* 开放与闭源模型分析: 考察了开源模型相对于专有模型的采用模式,识别了开源生态系统中的趋势和关键参与者。
* 代理式推理(Agentic Inference)的兴起: 研究了多步骤、工具辅助的推理模式的出现,捕捉用户如何越来越多地将模型用作更大事物自动化系统中的组件,而不仅仅是用于单轮交互。
* 使用类别分类: 按任务类别(如编程、角色扮演、翻译等)对使用情况进行分解,揭示了哪些应用领域驱动了最多的活动,以及这些分布在不同模型提供商之间的差异。
* 地理分布: 分析了全球使用模式,并比较了各大洲之间LLM的采用情况,突出了区域因素和本地模型产品如何影响整体需求。
* 有效成本与使用动态: 评估了使用量与有效成本之间的关系,捕捉了LLM在实践中采用的经济敏感性。
* 用户留存模式: 分析了最广泛使用模型的长期留存率,识别出定义了持久、更具粘性行为的基础用户群组,并提出了“灰姑娘的水晶鞋”(Cinderella “Glass Slipper”)效应来解释这一现象。
通过这些分析,本文旨在纠正一些关于LLM使用的普遍误解,并为LLM系统的更好设计和部署提供依据。
A3 背景知识/关键Observation/设计原则
2.1 OpenRouter平台与数据集
基于OpenRouter平台的元数据分析。我们的分析基于从OpenRouter平台收集的元数据,这是一个连接用户和开发者与数百个大型语言模型的统一AI推理层。OpenRouter上的每个用户请求都会针对用户选择的模型执行,并记录描述“生成”事件的结构化元数据。本研究使用的数据集包含来自全球用户群的数十亿个提示-完成对的匿名化请求级元数据,时间跨度约为两年,直至撰写本文时。我们特别关注了过去一年的数据。
隐私保护的设计。至关重要的是,我们无法访问提示或完成的底层文本。我们的分析完全依赖于捕捉每次生成的结构、时间和上下文的元数据,而不暴露用户内容。这种保护隐私的设计使得大规模行为分析成为可能。
元数据的内容。每个生成记录包括关于时间、模型和提供商标示符、token使用量以及系统性能指标的信息。Token计数包括提示(输入)和完成(输出)token,使我们能够衡量整体模型工作负载和成本。元数据还包括与地理路由、延迟和使用上下文相关的字段(例如,请求是否为流式传输或被取消,或者是否调用了工具调用功能)。总而言之,这些属性提供了一个详细但非文本的视角,来观察模型在实践中的使用情况。
分析工具和平台。所有基于此元数据的分析、聚合和大多数可视化都是使用Hex分析平台进行的,该平台为版本化的SQL查询、转换和最终图形生成提供了可复现的流程。
数据集的观测性质。我们强调该数据集是观测性的:它反映了OpenRouter平台上的真实世界活动,而平台本身也受到模型可用性、定价和用户偏好的影响。截至2025年,OpenRouter支持来自60多个提供商的300多个活跃模型,服务于数百万开发者和终端用户,其中超过50%的使用量来自美国以外。虽然平台外的某些使用模式未被捕捉,但OpenRouter的全球规模和多样性使其成为观察大规模LLM使用动态的一个代表性窗口。
2.2 用于内容分类的GoogleTagClassifier
分类方法。本研究无法直接访问用户提示或模型输出。取而代之的是,OpenRouter通过一个非专有模块GoogleTagClassifier对所有提示和响应中约0.25%的随机样本进行内部分类。虽然这只占总活动的一小部分,但鉴于OpenRouter处理的总体查询量,其基础数据集仍然相当庞大。GoogleTagClassifier与Google Cloud Natural Language的classifyText内容分类API接口对接。该API将一个分层的、与语言无关的分类法应用于文本输入,返回一个或多个类别路径(例如,/计算机与电子产品/编程,/艺术与娱乐/角色扮演游戏),并附带在$[0,1]$范围内的相应置信度分数。分类器直接对提示数据(最多前1000个字符)进行操作。
部署与匿名性。分类器部署在OpenRouter的基础设施内,确保分类保持匿名,并且不与单个客户关联。置信度分数低于默认阈值0.5的类别被排除在进一步分析之外。分类系统本身完全在OpenRouter的基础设施内运行,不属于本研究的一部分;我们的分析仅依赖于由此产生的分类输出(实际上是描述提示分类的元数据),而不是底层的提示内容。
类别映射。为了使这些细粒度的标签在大规模分析中发挥作用,我们将GoogleTagClassifier的分类法映射到一组紧凑的研究定义桶中,并为每个请求分配标签。每个标签都以一对一的方式归纳到更高级别的类别中。代表性的映射包括:
* 编程:来自/计算机与电子产品/编程 或 /科学/计算机科学/
* 角色扮演:来自/游戏/角色扮演游戏 和 /艺术与娱乐/ 下的创意对话叶子节点
* 翻译:来自/参考/语言资源/
* 通用问答/知识:来自/参考/通用参考/ 和 /新闻/,当意图似乎是事实查找时
* 生产力/写作:来自/计算机与电子产品/软件/商业与生产力软件 或 /商业与工业/商业服务/写作与编辑服务
* 教育:来自/工作与教育/教育/
* 文学/创意写作:来自/书籍与文学/ 和 /艺术与娱乐/ 下的叙事叶子节点
* 成人内容:来自/成人
* 其他:用于没有主要映射适用的长尾提示。(注意:我们在以下大多数分析中省略了此类别。)
方法的局限性。这种方法存在固有的局限性,例如,依赖预定义的分类法限制了新颖或跨领域行为的分类方式,并且某些交互类型可能尚不完全符合现有类别。在实践中,当提示内容跨越重叠领域时,一些提示会收到多个类别标签。尽管如此,由分类器驱动的分类为我们提供了进行下游分析(第5节)的视角。这使我们不仅能够量化LLM的使用量,还能了解它们被用于何种目的。
2.3 模型和Token的变体
明确定义的几种变体。有几种变体值得明确指出:
* 开源 vs. 专有: 我们将模型标记为开源(为简便起见,缩写为OSS),如果其权重是公开可用的;如果只能通过受限API访问(例如,Anthropic的Claude),则标记为闭源。这种区分使我们能够衡量社区驱动模型与专有模型的采用情况。
* 来源地(中国 vs. 世界其他地区): 鉴于中国LLM的崛起及其独特的生态系统,我们按主要开发地区标记模型。中国模型包括在中国大陆、台湾或香港的组织开发的模型(例如,阿里巴巴的Qwen、Moonshot AI的Kimi或DeepSeek)。RoW(世界其他地区)模型涵盖北美、欧洲和其他地区。
* 提示 vs. 完成 Token: 我们区分了提示token(代表提供给模型的输入文本)和完成token(代表模型生成的输出)。总token数等于提示和完成token的总和。推理token代表具有原生推理能力的模型中的内部推理步骤,并包含在完成token内。
默认定义。除非另有说明,token量指的是提示(输入)和完成(输出)token的总和。
2.4 地理分割
基于账单地址的区域划分。为了理解LLM使用的区域模式,我们按用户地理位置对请求进行分割。直接的请求元数据(如基于IP的地理位置)通常不精确或被匿名化。因此,我们根据每个账户关联的账单地址来确定用户区域。这为用户地理位置提供了一个更可靠的代理,因为账单数据反映了与用户支付方式或账户注册相关联的国家或地区。我们在区域采用和模型偏好分析中使用了这种基于账单的分割(第6节)。
方法的局限性。这种方法存在局限性。一些用户使用第三方账单或共享的组织账户,这可能与他们的实际位置不符。企业账户可能会将多个地区的活动聚合到一个账单实体下。尽管存在这些不完美之处,考虑到我们能访问的元数据,在保护隐私的地理分析中,账单地理位置仍然是可用的最稳定和可解释的指标。
2.5 时间框架和覆盖范围
分析时间段的说明。我们的分析主要涵盖截至2025年11月的13个月滚动周期,但并非所有基础元数据都跨越这整个时间窗口。大多数模型级别和定价分析集中在2024年11月3日至2025年11月30日的时间范围内。然而,类别级别的分析(特别是那些使用GoogleTagClassifier分类法的分析,见2.2节)基于一个较短的区间,从2025年5月开始,这反映了OpenRouter上开始提供一致标签的时间。特别是,详细的任务分类字段(例如,编程、角色扮演或技术等标签)是在2025年中期才添加的。因此,第5节中的所有发现应被解释为代表2025年中期的使用情况,而不是整个前一年的情况。
时间序列聚合方法。除非另有说明,所有时间序列聚合都是使用UTC标准化的时间戳按周计算的,汇总了提示和完成的token。这种方法确保了跨模型家族的可比性,并最大限度地减少了由瞬时高峰或区域时区效应引起的偏差。
A2 方法细节
3. 开源 vs. 闭源模型
图 1: 开源与闭源模型拆分。按来源类型的每周总token量份额。较浅的蓝色阴影代表开放权重模型(中国 vs. 世界其他地区),而深蓝色对应专有(闭源)产品。垂直虚线标记了关键开放权重模型的发布,包括Llama 3.3 70B、DeepSeek V3、DeepSeek R1、Kimi K2、GPT OSS系列和Qwen 3 Coder。
开源模型使用份额的稳步增长。AI生态系统中的一个核心问题是开放权重(为简化起见,我们缩写为OSS)模型与专有模型之间的平衡。图1和图2展示了过去一年在OpenRouter上这种平衡的演变。虽然专有模型,特别是来自北美主要提供商的模型,仍然服务于大部分token,但OSS模型已稳步增长,到2025年末达到了约三分之一的使用量。
重要开源模型发布推动增长。这种扩张并非偶然。使用量激增与主要的开放模型发布相吻合,例如DeepSeek V3和Kimi K2(由垂直虚线表示),这表明具有竞争力的OSS模型发布(如【9,DeepSeekV3 technical report,2024,arXiv preprint arXiv:2412.19437,URL: https://arxiv.org/abs/2412.19437】和【8 ,The Llama 3 Herd of Models,2024,arXiv preprint arXiv:2407.21783,URL: https://arxiv.org/abs/2407.21783】中 的GPT OSS模型)被迅速采用并保持了其增长势头。重要的是,这些增长在最初发布几周后仍然持续,这意味着这是真正的生产使用,而不仅仅是短期的实验。
中国开源模型的显著贡献。这一增长的很大一部分来自中国开发的模型。从2024年底微不足道的基础(周份额低至1.2%)开始,中国OSS模型稳步获得市场份额,在某些周内甚至达到了所有模型总使用量的近30%。在为期一年的窗口期内,它们平均占据了约13.0%的周token量,其中强劲增长集中在2025年下半年。相比之下,世界其他地区(RoW)的OSS模型平均占比13.7%,而专有的RoW模型则保持了最大份额(平均70%)。中国OSS模型的扩张不仅反映了其竞争性的质量,还体现了快速的迭代和密集的发布周期。像Qwen和DeepSeek这样的模型保持了定期的模型发布,从而能够快速适应新兴的工作负载。这种模式显著地重塑了开源领域,并推动了全球LLM领域的竞争。
LLM生态系统的双重结构。这些趋势表明LLM生态系统中存在一种持久的双重结构。专有系统继续定义可靠性和性能的上限,特别是在受监管或企业工作负载方面。相比之下,OSS模型提供成本效益、透明度和定制化,使其成为某些工作负载的有吸引力的选择。目前,这种平衡大约在30%左右。这些模型并非相互排斥;相反,它们在开发者和基础设施提供商越来越青睐的多模型堆栈中互为补充。
图 2: 按模型类型的每周token量。堆叠条形图显示了按模型类别划分的总token使用量随时间的变化。深红色对应专有模型(Closed),橙色代表中国开源模型(Chinese OSS),青色表示在中国以外开发的开源模型(RoW OSS)。该图突出显示了2025年OSS token份额的逐步增加,特别是从年中开始的中国OSS模型。
3.1 关键的开源参与者
OSS模型格局的转变。表1按总token服务量对我们数据集中的顶尖模型家族进行了排名。过去一年,OSS模型的格局发生了显著变化:虽然DeepSeek按量计算仍然是最大的OSS贡献者,但随着新进入者迅速崛起,其主导地位已经减弱。如今,多个开源家族各自维持着可观的使用量,这表明生态系统已经变得多元化。
表 1: 按模型作者划分的总token量(2024年11月–2025年11月)。Token计数反映了OpenRouter上所有模型变体的总使用量。
市场份额的演变。图3展示了顶尖独立开源模型市场份额的周度剧烈演变。在 دوره初期(2024年末),市场高度集中:DeepSeek家族的两个模型(V3和R1)持续占据了所有OSS token使用量的一半以上,形成了图表底部巨大的深蓝色带。
DeepSeek主导地位的衰落:OSS Token市场的碎片化
图 3: 随时间变化的前15名OSS模型。领先开源模型的每周相对token份额(堆叠面积图)。每个色带代表一个模型对总OSS token的贡献。随着时间的推移,色带的多样化表明竞争分布更加激烈,近几个月没有单一的主导模型。
市场碎片化。这种近乎垄断的结构在“夏季拐点”(2025年中期)之后被打破。此后,市场变得更加广泛和深入,使用情况显著多样化。像Qwen的模型、Minimax的M2、MoonshotAI的Kimi K2以及OpenAI的GPT-OSS系列等新进入者都迅速增长,服务了相当一部分请求,通常在发布后几周内就实现了生产规模的采用。这表明开源社区和AI初创公司可以通过引入具有新颖功能或更高效率的模型来快速获得采用。
竞争平衡的转变。到2025年末,竞争平衡已从近乎垄断转变为多元化的混合格局。没有单一模型超过OSS token的25%,token份额现在更均匀地分布在五到七个模型之间。实际意义是,用户正在更广泛的选择中发现价值,而不是默认选择一个“最佳”选项。尽管此图可视化了OSS模型之间的相对份额(而非绝对量),但清晰的趋势是市场向碎片化和开源生态系统内竞争加剧的决定性转变。
开源模型生态系统的高度动态性。总的来说,开源模型生态系统现在是高度动态的。关键洞见包括:
* 顶层多样性: 曾经一个家族(DeepSeek)主导OSS使用,现在我们越来越多地看到六七个模型各自维持着有意义的份额。没有单一的开放模型能够持续占据超过≈20–25%的OSS token。
* 新进入者的快速扩展: 有能力的新开放模型可以在几周内捕获大量使用。例如,MoonshotAI的模型迅速增长,与老牌OSS领导者相媲美,甚至像MiniMax这样的新来者也在一个季度内从零增长到可观的流量。这表明切换摩擦低,用户基础渴望实验。
* 迭代优势: DeepSeek在顶部的长期存在强调了持续改进至关重要。DeepSeek的连续发布(Chat-V3, R1等)使其即使在挑战者出现时也保持竞争力。在开发中停滞不前的OSS模型往往会输给那些在前沿领域有频繁更新或特定领域微调的模型。
当前的竞争格局。如今,2025年的开源LLM领域就像一个竞争激烈的生态系统,创新周期迅速,领导地位无法保证。对于模型构建者来说,这意味着发布一个具有最先进性能的开放模型可以立即获得采用,但要维持使用份额,就需要对进一步开发进行持续投资。对于用户和应用开发者来说,这一趋势是积极的:有更丰富的开放模型可供选择,其在特定领域(如角色扮演)的能力通常与专有系统相当,有时甚至更优。
3.2 模型规模与市场契合度:中型模型成为新宠
OSS模型规模与使用情况
图 4: 按小型、中型和大型模型划分的每周OSS总token量份额。百分比按每周总OSS使用量进行归一化。
市场成熟与中型模型的崛起。一年前,开源模型生态系统主要是在两个极端之间权衡:大量小型、快速的模型和少数功能强大、大规模的模型。然而,对过去一年的回顾揭示了市场的显著成熟和一个新兴且不断增长的类别:中型模型。请注意,我们按参数数量对模型进行分类如下:
* 小型:参数少于150亿的模型。
* 中型:参数在150亿至700亿之间的模型。
* 大型:参数达到或超过700亿的模型。
用户行为揭示的细微变化。关于开发者和用户行为的数据告诉我们一个细致入微的故事。图4和图5显示,虽然所有类别的模型数量都在增长,但使用情况发生了显著变化。小型模型正在失宠,而中型和大型模型正在攫取其价值。
不同规模市场的动态分析。深入观察驱动这些趋势的模型,揭示了独特的市场动态:
* “小型”市场:使用量整体下降。 尽管新模型供应稳定,但如图4所示,小型模型类别整体的使用份额正在下降。该类别的特点是高度碎片化。没有单一模型能长期占据主导地位,并且不断有来自Meta、Google、Mistral和DeepSeek等多样化提供商的新进入者涌现。例如,Google Gemma 3.12B(2025年8月发布)虽然迅速被采用,但在一个拥挤的领域中竞争,用户不断寻求下一个更好的替代品。
* “中型”市场:找到“模型-市场契合度”。 中型模型类别清晰地讲述了一个市场创造的故事。在2024年11月Qwen2.5 Coder 32B发布之前,这个细分市场几乎可以忽略不计,而该模型的发布实际上确立了这一类别。随后,随着Mistral Small 3(2025年1月)和GPT-OSS 20B(2025年8月)等其他强有力竞争者的到来,该细分市场成熟为一个竞争激烈的生态系统,这些模型赢得了用户的关注。这个细分市场表明用户正在寻求能力和效率之间的平衡。
图 5: 按模型规模划分的OSS模型数量随时间变化。每周可用开源模型的数量,按参数规模类别分组。
- “大型”模型细分市场:一个多元化的格局。 “向高质量看齐”并未导致整合,而是带来了多样化。大型模型类别现在拥有一系列高性能的竞争者,从Qwen3 235B A22B Instruct(2025年7月发布)和Z.AI GLM 4.5 Air到OpenAI: GPT-OSS-120B(8月5日):每个模型都获得了有意义且持续的使用量。这种多元化表明,用户正在积极地对多个开放的大型模型进行基准测试,而不是趋向于一个单一的标准。
市场分化趋势。小型模型主导开源生态系统的时代可能已经过去。市场现在正在分化,用户要么倾向于一个新兴的、强大的中型模型类别,要么将他们的工作负载整合到最强大的单一大型模型上。
3.3 开源模型用于何种任务?
OSS模型任务范围的广泛性。如今,开源模型被用于极其广泛的任务,涵盖创意、技术和信息领域。虽然专有模型在结构化商业任务中仍占主导地位,但OSS模型在两个特定领域取得了领先地位:创意角色扮演和编程辅助。如图6所示,这两个类别合计占了OSS token使用量的大部分。
角色扮演和编程的主导地位。图6突出显示,超过一半的OSS模型使用量属于角色扮演(Roleplay),编程(Programming)是第二大类别。这表明用户主要转向开放模型进行创意互动对话(如讲故事、角色扮演和游戏场景)以及与编码相关的任务。角色扮演的主导地位(徘徊在所有OSS token的50%以上)强调了一个开放模型具有优势的用例:它们可以用于创造性活动,并且通常不受内容过滤器的限制,这使它们对幻想或娱乐应用具有吸引力。
角色扮演任务的特点。角色扮演任务需要灵活的响应、上下文保持和情感上的细微差别——这些是开放模型可以有效提供的属性,而不会受到商业安全或审核层的严格限制。这使得它们对于实验角色驱动体验、同人小说、互动游戏和模拟环境的社区特别有吸引力。
编程任务的份额。编程部分(大约15-20%)显示,许多开发者利用OSS模型进行代码生成和调试,这可能是由于像Qwen-Coder、GPT-OSS系列和GLM-4.6这样功能强大的代码模型。其他类别如翻译、知识问答和教育占据了较小的份额,但不可忽视,每个类别都满足了特定的需求(多语言支持、事实查找、辅导等)。一个局限性是,分类可能会混淆一些重叠的用途(例如,一个交互式编码教程可能会根据提示的框架被标记为教育或编程),但总的来说,该图清晰地表明了OSS模型在实践中擅长的领域。
OSS模型的类别细分随时间变化
OpenRouter
OSS模型的类别细分随时间变化
图 6: OSS模型的类别趋势。开源模型使用在高级任务类别中的分布。角色扮演(约52%)和编程一直主导着OSS工作负载组合,两者合计占了OSS token的大部分。较小的部分包括翻译、通用知识问答等。
中国OSS模型的类别细分
图 7: 中国OSS类别趋势。在中国开发的开源模型中的类别构成。角色扮演仍然是最大的单一用例,尽管编程和技术在这里合计占的比例比在整体OSS组合中更大(33%对38%)。
中国OSS模型的用途转变。图7显示了如果我们只关注中国OSS模型时的类别随时间细分。这些模型不再主要用于创意任务。角色扮演仍然是最大的类别,约占33%,但编程和技术现在合计占了使用的大部分(39%)。这一转变表明,像Qwen和DeepSeek这样的模型越来越多地被用于代码生成和与基础设施相关的工作负载。虽然大批量的企业用户可能会影响特定细分市场,但总体趋势表明中国OSS模型正在技术和生产力领域直接竞争。
图 8: 按模型来源划分的编程查询。专有模型、中国OSS模型和非中国(RoW)OSS模型处理的编程相关token量份额。在OSS部分,平衡在2025年末显著向RoW OSS倾斜,后者现在占所有开源编码token的一半以上(此前中国OSS主导了OSS编码使用)。
编程类别的竞争动态。如果我们只关注编程类别,我们在图8中观察到,专有模型仍然处理大部分的编码辅助(灰色区域),反映了像Anthropic的Claude这样的强大产品。然而,在OSS部分,出现了一个显著的转变:在2025年中期,中国OSS模型(蓝色)提供了大部分的开源编码帮助(得益于像Qwen 3 Coder这样的早期成功)。到2025年第四季度,西方的OSS模型(橙色),如Meta的LLaMA-2 Code和OpenAI的GPTOSS系列,已经大幅增长,但在最近几周整体份额有所下降。这种波动表明这是一个竞争非常激烈的环境。实际的结论是,开源代码助手的使是动态的,并且对新模型的质量高度敏感:开发者对当前提供最佳编码支持的任何OSS模型都持开放态度。作为一个局限性,这张图没有显示绝对量:开源编码的使用量整体上在增长,所以缩小的蓝色带并不意味着中国OSS失去了用户,只是相对份额减少了。
角色扮演类别的竞争格局。现在,如果我们只考察角色扮演流量,我们在图9中看到,它现在几乎由世界其他地区(RoW)的OSS(橙色,最近几周为43%)和闭源(灰色,最近为42%)模型平分秋色。这与2025年初的情况相比是一个重大转变,当时该类别由专有(灰色)模型主导,占据了大约70%的token份额。那时(2025年5月),西方OSS模型仅占流量的22%,而中国OSS(蓝色)模型份额很小,为8%。在这一年中,专有模型的份额稳步下降。到2025年10月底,随着西方和中国开源模型都取得了显著进展,这一趋势加速了。
竞争与用户选择。由此产生的趋同表明了一种健康的竞争;用户在创意聊天和讲故事方面,既可以从开源产品中选择,也可以从专有产品中选择。这反映出开发者认识到了角色扮演/聊天模型的需求,并相应地调整了他们的发布(例如,在对话上进行微调,为角色一致性增加对齐)。需要注意的一点是,“角色扮演”涵盖了一系列子类型(从休闲聊天到复杂的游戏场景)。然而,从宏观角度看,很明显OSS模型在这个创意领域具有优势。
OSS使用模式的解读。总的来说,在整个OSS生态系统中,关键用例是: 角色扮演和创意对话:这是顶级类别,可能是因为开放模型可以未经审查或更容易为虚构角色和故事任务进行定制。 编程辅助:第二大类别,并且在增长,因为开放模型在代码方面的能力越来越强。许多开发者在本地利用OSS模型进行编码以避免API成本。 翻译和多语言支持:一个稳定的用例,特别是在有强大的双语模型可用时(中国OSS模型在这方面有优势)。 通用知识问答和教育:使用量适中;虽然开放模型可以回答问题,但用户可能更喜欢像GPT-5这样的闭源模型以获得最高的事实准确性。
按OSS划分的角色扮演细分
图 9: 按模型来源划分的角色扮演查询。角色扮演用例的token量,按中国OSS和RoW OSS模型划分。角色扮演仍然是两组中最大的类别;到2025年末,流量大约在中国和非中国开放模型之间平均分配。
OSS用户画像的演变。值得注意的是,OSS的使用模式(重度依赖角色扮演)反映了许多人可能认为的“爱好者”或“独立开发者”的特点——在这些领域,定制化和成本效益优先于绝对准确性。然而,界限正在变得模糊:OSS模型在技术领域的改进迅速,而专有模型也正被创造性地使用。
4. 代理式推理的兴起
从文本生成到多步工作流的转变。在前一节观察了不断演变的模型格局(开源与闭源)的基础上,我们现在转向LLM使用本身的基本形态。语言模型在生产中的使用方式正在发生根本性转变:从单轮文本完成转向多步骤、工具集成和推理密集型的工作流。我们将这种转变称为代理式推理的兴起,在这种模式下,模型不仅被部署用于生成文本,还通过规划、调用工具或在扩展的上下文中进行交互来采取行动。本节通过五个代理指标来追踪这一转变:推理模型的兴起、工具调用行为的扩展、序列长度分布的变化,以及编程使用如何驱动复杂性。
4.1 推理模型现已占所有使用量的一半
推理模型使用份额的急剧攀升。如图10所示,通过推理优化模型路由的总token份额在2025年急剧攀升。在第一季度初,这部分使用量几乎可以忽略不计,而现在已超过百分之五十。这一转变反映了市场的供需两端。在供应方面,GPT-5、Claude 4.5和Gemini 3等更高能力系统的发布,扩展了用户对逐步推理的期望。在需求方面,用户越来越倾向于能够管理任务状态、遵循多步逻辑并支持代理式工作流的模型,而不仅仅是生成文本。
顶尖推理模型的竞争格局。图11展示了推动这一转变的顶尖模型。在最新的数据中,xAI的Grok Code Fast 1现在占据了最大的推理流量份额(不包括免费发布期间的访问),领先于Google的Gemini 2.5 Pro和Gemini 2.5 Flash。这与几周前的情况相比是一个显著的变化,当时Gemini 2.5 Pro在该类别中领先,而DeepSeek R1和Qwen3也位列顶级。Grok Code Fast 1和Grok 4 Fast凭借xAI的积极推广、有竞争力的定价以及开发者对其面向代码的变体的关注,迅速获得了市场份额。与此同时,像OpenAI的gpt-oss-120b这样的开放模型的持续存在,强调了开发者在可能的情况下仍然会选择OSS。总的来说,这种混合格局凸显了推理领域变得多么动态,快速的模型更迭正在塑造哪些系统主导实际工作负载。
图 10: 推理与非推理Token趋势。自2025年初以来,通过推理优化模型路由的所有token份额稳步上升。该指标反映的是推理模型服务的token占总token的比例,而非模型输出中“推理token”的份额。
推理模型成为默认选择。数据指向一个明确的结论:面向推理的模型正在成为实际工作负载的默认路径,流经它们的token份额现在是用户希望如何与AI系统互动的一个领先指标。
图 11: 按Token量排名的顶尖推理模型。在推理模型中,xAI的Grok Code Fast 1目前处理最大份额的推理相关token流量,其次是Google的Gemini 2.5 Pro和Gemini 2.5 Flash。xAI的Grok 4 Fast和OpenAI的gpt-oss-120b构成了顶级梯队。
4.2 工具调用采用率的上升
工具调用指标的定义。在图12中,我们报告了源自完成原因为“工具调用”(Tool Call)的请求的总token份额。该指标经过归一化,仅捕捉那些实际调用了工具的交互。
图 12: 工具调用。归一化到完成原因被分类为“工具调用”的请求的总token份额,意味着在请求期间实际调用了工具。该指标反映了成功的工具调用;包含工具定义的请求数量按比例更高。
与“输入工具”信号的对比。这与“输入工具”(Input Tool)信号形成对比,后者记录了在请求期间是否向模型提供了工具(无论是否调用)。根据定义,“输入工具”的计数高于“工具调用”的完成原因,因为提供是成功执行的超集。“完成原因”指标衡量的是已实现的工具使用,而“输入工具”反映的是潜在的可用性而非实际调用。由于该指标仅在2025年9月引入,我们未在本文中报告。
工具采用的趋势。图12中5月份的显著峰值主要归因于一个大型账户的活动,其活动短暂地提升了总体量。除了这个异常情况,工具的采用在全年都显示出持续的上升趋势。
完成原因为“工具调用”的前10名最常用模型
图 13: 按提供的工具量排名的顶尖模型。工具提供集中在明确为代理式推理优化的模型中,例如Claude Sonnet、Gemini Flash。
支持工具调用的模型演变。如图13所示,工具调用最初集中在一小部分模型中:OpenAI的gpt-4o-mini和Anthropic的Claude 3.5及3.7系列,它们在2025年初合计占了大部分启用工具的token。然而,到年中,更广泛的模型开始支持工具提供,反映出一个更具竞争性和多样化的生态系统。从9月底开始,更新的Claude 4.5 Sonnet模型迅速获得了份额。与此同时,像Grok Code Fast和GLM 4.5这样的新进入者也取得了明显的进展,反映了在支持工具的部署中更广泛的实验和多样化。
对运营商的启示。对于运营商而言,启示是明确的:为高价值工作流程启用工具使用正在兴起。没有可靠工具格式的模型,在企业采用和编排环境中可能会落后。
4.3 提示-完成形态的剖析
OpenRouter
每个请求的提示Token数量增长了4倍
图 14: 提示Token数量呈上升趋势。自2024年初以来,平均提示token长度增长了近四倍,反映出上下文日益繁重的工作负载。
工作负载形态的演变。过去一年,模型工作负载的形态发生了显著演变。提示(输入)和完成(输出)的token量都急剧上升,尽管规模和速率不同。每个请求的平均提示token数从约1.5K增加到超过6K,增长了大约四倍,而完成token数则从约150个增加到400个,增长了近三倍。增长的相对幅度凸显了向更复杂、上下文丰富的工作负载的决定性转变。
新的使用均衡。这种模式反映了模型使用中的一种新均衡。如今的典型请求不再是关于开放式生成(“给我写一篇论文”),而是更多地基于大量用户提供的材料(如代码库、文档、转录稿或长对话)进行推理,并产出简洁、高价值的见解。模型正越来越多地充当分析引擎,而非创意生成器。
编程工作负载是主要驱动力。类别级别的数据(根据第2.5节,仅从2025年春季开始提供)提供了一个更细致的画面:编程工作负载是提示token增长的主要驱动力。涉及代码理解、调试和代码生成的请求通常超过20K输入token,而所有其他类别则保持相对平稳和低量。这种不对称的贡献表明,最近提示大小的扩张并非跨任务的普遍趋势,而是与软件开发和技术推理用例相关的集中激增。
4.4 更长的序列,更复杂的交互
序列长度作为复杂性代理。序列长度是任务复杂性和交互深度的代理指标。图17显示,在过去20个月里,平均序列长度增长了三倍多,从2023年末的不足2000个token增长到2025年末的超过5400个。这一增长反映了向更长上下文窗口、更深任务历史和更详尽完成的结构性转变。
编程是主要驱动因素。如前一节所述,图18进一步明确了这一点:与编程相关的提示现在的平均token长度是通用提示的3-4倍。这种分化表明,软件开发工作流程是更长交互的主要驱动力。长序列不仅仅是用户冗长,它们是嵌入式、更复杂的代理工作流的标志。
图 15: 完成Token数量几乎增加了两倍。输出长度也有所增加,尽管基数较小,这表明响应更丰富、更详细,主要归因于推理token。
图 16: 编程是提示Token增长的主要驱动力。自2025年春季开始提供标签以来,与编程相关的任务一直需要最大的输入上下文。
图 17: 平均序列长度随时间变化。每次生成(提示+完成)的平均token数。
图 18: 编程与整体序列长度对比。编程提示系统性地更长,并且增长速度更快。
4.5 启示:代理式推理成为新常态
LLM使用重心的转移。总而言之,这些趋势(推理份额上升、工具使用扩展、序列变长以及编程的超常复杂性)表明,LLM使用的重心已经转移。LLM的中位数请求不再是一个简单的问题或孤立的指令。相反,它是一个结构化的、类似代理的循环的一部分,调用外部工具,对状态进行推理,并在更长的上下文中持续存在。
对模型和基础设施提供商的影响。对于模型提供商来说,这提高了默认能力的门槛。延迟、工具处理、上下文支持以及对格式错误或对抗性工具链的鲁棒性变得越来越关键。对于基础设施运营商来说,推理平台现在不仅要管理无状态请求,还要管理长时间运行的对话、执行轨迹和涉及权限敏感的工具集成。不久之后,如果不是已经如此,代理式推理将占据大部分推理工作。
5. 类别:人们如何使用LLM?
理解LLM任务分布的重要性。理解用户使用LLM执行的任务分布,对于评估真实世界需求和模型与市场的契合度至关重要。如第2.2节所述,我们将数十亿次模型交互分类为高级应用类别。在第3.3节,我们关注了开源模型以观察社区驱动的使用情况。在这里,我们将视角扩大到OpenRouter上所有的LLM使用(包括闭源和开源模型),以获得人们在实践中如何使用LLM的全面图景。
5.1 主导类别
随时间变化的主导类别
图 19: 编程作为一个主导且不断增长的类别。在所有LLM查询中,归类为编程的份额稳步增加,反映了AI辅助开发工作流程的兴起。
编程成为持续扩张的类别。编程已成为所有模型中最持续扩张的类别。与编程相关的请求份额在2025年稳步增长,与LLM辅助开发环境和工具集成的兴起相平行。如图19所示,编程查询在2025年初约占总token量的11%,而在最近几周已超过50%。这一趋势反映了从探索性或对话式使用向应用任务(如代码生成、调试和数据脚本编写)的转变。随着LLM嵌入到开发者工作流程中,它们作为编程工具的角色正在被常态化。这一演变对模型开发产生了影响,包括更加重视以代码为中心的训练数据、为多步编程任务提高推理深度,以及模型与集成开发环境之间更紧密的反馈循环。
编程领域的竞争动态。对编程支持的日益增长的需求正在重塑各模型提供商之间的竞争动态。如图20所示,Anthropic的Claude系列一直主导着该类别,在观察期的大部分时间内,占据了超过60%的编程相关支出。然而,格局已经发生了有意义的演变。在11月17日那周,Anthropic的份额首次跌破60%的门槛。自7月以来,OpenAI的份额从大约2%扩大到最近几周的约8%,这可能反映了对以开发者为中心的工作负载的重新重视。在同一时期,Google的份额稳定在约15%。中端市场也在变动。包括Z.AI、Qwen和Mistral AI在内的开源提供商正在稳步获得市场关注。特别是MiniMax,已成为一个快速崛起的进入者,在最近几周显示出显著的增长。
按支出划分的用于编程的顶级模型作者
图 20: 按模型提供商划分的编程请求份额。编程工作负载高度集中:Anthropic的模型服务于最大份额的编码查询,其次是OpenAI和Google,MiniMax占据了不断增长的一部分。其他提供商合计只占一小部分。此图省略了xAI,其使用量可观,但在一段时间内是免费提供的。
编程类别的重要性。总的来说,编程已成为最具争议和战略重要性的模型类别之一。它吸引了顶尖实验室的持续关注,即使模型质量或延迟的微小变化也能每周改变市场份额。对于基础设施提供商和开发者来说,这突显了持续进行基准测试和评估的必要性,尤其是在前沿技术不断演进的情况下。
5.2 类别内的标签构成
类别内部结构的集中性。图21将LLM的使用情况分解为十二个最常见的内容类别,揭示了每个类别的内部子主题结构。一个关键的发现是,大多数类别的分布并不均匀:它们由一两个重复出现的使用模式主导,这通常反映了集中的用户意图或与LLM优势的一致性。
角色扮演类别的专业化。在最高流量的类别中,角色扮演因其一致性和专业化而脱颖而出。近60%的角色扮演token属于游戏/角色扮演游戏,这表明用户将LLM更多地视为结构化的角色扮演或角色引擎,而非休闲聊天机器人。作家资源(15.6%)和成人内容(15.4%)的存在进一步证实了这一点,指向了互动小说、场景生成和个人幻想的混合。与角色扮演主要是非正式对话的假设相反,数据显示这是一个定义明确且可复制的基于类型的使用案例。
编程类别的通用性。编程也同样偏斜,超过三分之二的流量被标记为编程/其他。这表明与代码相关的提示具有广泛和通用的性质:用户并非狭隘地专注于特定的工具或语言,而是向LLM寻求从逻辑调试到脚本起草的各种帮助。尽管如此,开发工具(26.4%)和脚本语言的小部分份额表明了新兴的专业化。这种碎片化凸显了模型构建者在结构化编程工作流程周围改进标签或训练的机会。
其他长尾类别的特点。除了角色扮演和编程这两个主导类别外,其余领域代表了LLM使用中多样化但流量较低的长尾。虽然单个类别较小,但它们揭示了用户在专业化和新兴任务中如何与模型互动的重要模式。例如,翻译、科学和健康显示出相对平坦的内部结构。在翻译中,使用量几乎在外国语言资源(51.1%)和其他之间平分,这表明需求分散:多语言查找和改写,而不是持续的文档级翻译。科学领域由单一标签主导,即机器学习与人工智能(80.4%),表明大多数科学查询是关于AI本身的元问题,而不是物理或生物学等一般STEM主题。这反映了用户的兴趣或模型在自我参照查询方面的优势。
健康类别的碎片化。相比之下,健康是顶级类别中最为碎片化的,没有一个子标签超过25%。token分布在医学研究、咨询服务、治疗指导和诊断查询等多个方面。这种多样性突显了该领域的复杂性,但也带来了安全建模的挑战:LLM必须应对用户意图的高度变化,通常是在敏感的上下文中,而没有明确集中在单一用例上。
长尾类别的共同点。连接这些长尾类别的是它们的广泛性:用户转向LLM进行探索性、结构化程度较低或寻求辅助的互动,但没有像编程或个人助理中看到的那样集中的工作流程。总的来说,这些次要类别可能不占主导流量,但它们暗示了潜在的需求。它们表明LLM正在许多领域的边缘被使用,从翻译到医疗指导再到AI自省,随着模型在领域鲁棒性和工具集成方面的改进,我们可能会看到这些分散的意图汇聚成更清晰、更高流量的应用。
金融、学术和法律领域的弥散性。相比之下,金融、学术和法律领域则更为分散。金融的流量分布在外汇、社会责任投资和审计/会计之间:没有一个标签超过20%。法律领域也显示出类似的熵,使用量在政府/其他(43.0%)和法律/其他(17.8%)之间分配。这种碎片化可能反映了这些领域的复杂性,或者仅仅是与编程和聊天等更成熟的类别相比,缺乏针对性的LLM工作流程。
总结。数据表明,真实世界的LLM使用并非统一的探索性行为:它紧密地围绕着一小部分可重复、高流量的任务。角色扮演、编程和个人助理各自展现出清晰的结构和主导标签。相比之下,科学、健康和法律领域则更为分散,可能未得到充分优化。这些内部分布可以指导模型设计、特定领域的微调和应用级接口,特别是在根据用户目标定制LLM方面。
(a) 按总token份额排名的前6个类别。每个条形图显示了该类别内主要子标签的细分。标签表示对该类别贡献至少7% token的子标签。
OpenRouter
每个类别内标签的份额 - 接下来的6个
(b) 按token份额排名的后6个类别。次要类别的类似细分,说明了每个领域中子主题的集中(或缺乏集中)程度。
图 21: 按类别内子标签划分的token份额。图表涵盖了总排名前十二的类别,为便于阅读分为两个面板。每列是一个100%堆叠的标签级份额条形图,揭示了每个类别使用的内部构成。
5.3 按类别的作者级洞察
不同模型作者的使用模式差异。不同的模型作者被用于不同的使用模式。图22a-23a显示了三个主要模型家族(Anthropic的Claude、Google的模型和OpenAI的GPT系列)的内容类别分布。每个条形图代表该提供商100%的token使用量,按顶级标签细分。
Anthropic (Claude) 的使用画像。Anthropic的Claude(图22a)严重偏向于编程+技术用途,这两者合计超过其使用量的80%。角色扮演和一般问答只占很小一部分。这证实了Claude作为一种为复杂推理、编码和结构化任务优化的模型的定位;开发者和企业似乎主要将Claude用作编码助手和问题解决者。
Google模型的使用画像。Google的模型使用(图22b)更加多样化。我们看到了翻译、科学、技术和一些通用知识的显著部分。例如,Google使用量的5%是法律或政策内容,另外10%与科学相关。这可能暗示了Gemini广泛的训练重点。与其他模型相比,到2025年末,Google的编码份额相对较少,实际上还在下降(降至约18%),并且有更广泛的类别尾部。这表明Google的模型更多地被用作通用信息引擎。
xAI模型的使用画像。xAI的使用画像(图22c)与其他提供商截然不同。在大部分时期,使用量绝大多数集中在编程上,通常超过所有token的百分之八十。直到十一月下旬,分布才变得更加广泛,在技术、角色扮演和学术领域出现了显著增长。这一急剧转变与xAI的模型通过特定消费应用免费分发的时间相吻合,这可能引入了大量非开发者流量。结果是形成了一个融合了早期、以开发者为主的核心用户群和一波突如其来的通用目的参与的用户构成,这表明xAI的采用路径正由技术用户和与推广活动相关的偶发性激增共同塑造。
OpenAI (GPT) 的使用画像演变。OpenAI的使用画像(图23a)在2025年发生了显著变化。在年初,科学任务占了所有OpenAI token的一半以上;到2025年末,这一份额已下降到不足15%。与此同时,与编程和技术相关的用量现在占总量的超过一半(各占29%),反映了其更深入地融入了开发者工作流程、生产力工具和专业应用。OpenAI的使用构成现在介于Anthropic的紧密专注画像和Google的更分散分布之间,表明其具有广泛的实用基础,并越来越倾向于高价值、结构化的任务。
Anthropic最受欢迎的类别
(a) Anthropic。主要用于编程和技术任务(超过80%),角色扮演使用量极少。
OpenRouter
Google最受欢迎的类别
(b) Google。广泛的使用构成,涵盖法律、科学、技术和一些通用知识查询。
OpenRouter
xAI最受欢迎的类别
(c) xAI。Token使用量高度集中于编程,技术、角色扮演和学术领域在11月下旬变得更加突出。
图 22: 主要模型提供商的顶尖内容类别(按提供商token使用份额)。每个条形图说明了提供商的使用量如何在各类别间分布,突出了专业化和随时间的变化。
(a) OpenAI。随着时间推移,逐渐转向编程和技术任务,角色扮演和休闲聊天的比例显著下降。
OpenRouter
DeepSeek最受欢迎的类别
(b) DeepSeek。使用以角色扮演和休闲互动为主。
Qwen最受欢迎的类别
(c) Qwen。在编程任务中高度集中,角色扮演和科学类别随时间波动。
图 23: 按提供商token使用份额划分的顶尖内容类别。图22的延续。
DeepSeek与Qwen的使用画像。如图23所示,DeepSeek和Qwen的使用模式与之前讨论的其他模型家族大相径庭。DeepSeek的token分布以角色扮演、休闲聊天和娱乐导向的互动为主,通常占其总使用量的三分之二以上。只有一小部分活动属于编程或科学等结构化任务。这种模式反映了DeepSeek强烈的消费者导向及其作为高参与度对话模型的定位。值得注意的是,DeepSeek在夏末时编程相关的使用量出现了适度但稳定的增长,表明其在轻量级开发工作流程中被逐步采用。
Qwen的使用画像。相比之下,Qwen呈现出几乎相反的画像。在图23所示的整个时期内,编程始终占所有token的40-60%,这表明其明确强调技术和开发者任务。与Anthropic更稳定的工程重度构成相比,Qwen在科学、技术和角色扮演等相邻类别中表现出更高的波动性。这些周与周之间的变化意味着其用户基础异构,且在应用用例中迭代迅速。在九月和十月期间角色扮演使用量的显著上升,随后在十一月收缩,暗示了用户行为的演变或下游应用路由的调整。
总结。总而言之,每个提供商都显示出与其战略重点相一致的独特画像。这些差异突显了为什么没有单一模型或提供商能最优化地覆盖所有用例;这也强调了多模型生态系统的潜在好处。
6. 地理:LLM使用在不同地区有何差异
全球LLM使用的区域差异。全球LLM使用呈现出显著的区域差异。通过考察地理细分,我们可以推断出本地使用和支出如何塑造LLM的使用模式。虽然以下图表反映了OpenRouter的用户基础,但它们提供了区域参与度的一个快照。
6.1 区域使用分布
全球AI推理市场的支出分布。如图24所示的支出分布,突显了AI推理市场日益全球化的特性。北美虽然仍是最大的单一区域,但在观察期的大部分时间内,其总支出占比已不足一半。欧洲显示出稳定而持久的贡献,其周支出相对份额在整个时间线内保持一致,通常在15%到20%出头的区间内。一个显著的发展是亚洲的崛起,它不仅是前沿模型的生产者,也成为了一个迅速扩张的消费者。在数据集的最早几周,亚洲约占全球支出的13%。随着时间的推移,这一份额增加了一倍多,在最近时期达到了约31%。
图 24: 按世界地区划分的支出量随时间变化。每周全球使用量归因于各大洲的份额。
6.2 语言分布
语言使用分布。如表2所示,英语主导了使用,占所有token的80%以上。这既反映了英语模型的主导地位,也反映了OpenRouter用户群偏向开发者的特点。然而,其他语言,特别是中文、俄语和西班牙语,构成了一个有意义的长尾。仅简体中文就占全球token的近5%,这表明在双语或中文优先的环境中,用户有持续的参与度,特别是考虑到像DeepSeek和Qwen这样的中国OSS模型的增长。
表 2: 按语言划分的Token量。语言基于在所有OpenRouter流量中检测到的提示语言。
对模型构建者和运营商的启示。对于模型构建者和基础设施运营商来说,在一个LLM采用既全球化又本地化的世界里,跨区域的可用性,涵盖语言、合规制度和部署设置,正成为基本要求。
7. LLM用户留存分析
7.1 灰姑娘的“水晶鞋”现象
LLM用户市场的留存动态。这一系列留存图(图25)捕捉了领先模型在LLM用户市场中的动态。乍一看,数据以高流失率和快速的同期群衰减为主。然而,在这种波动之下,隐藏着一个更微妙、更具影响力的信号:一小部分早期用户同期群随着时间的推移表现出持久的留存。我们称之为基础同期群。
基础同期群的特征。这些同期群不仅仅是早期采用者;他们代表了那些其工作负载与模型实现了深度且持久契合的用户。一旦建立,这种契合会产生经济和认知上的惯性,即使新模型出现,也能抵制替代。
“灰姑娘水晶鞋”效应假说。我们引入“灰姑娘水晶鞋”效应作为一个框架来描述这一现象。该假说认为,在一个快速发展的AI生态系统中,存在一个潜在的、跨越连续模型代际仍未解决的高价值工作负载分布。每个新的前沿模型实际上都是在“试穿”以解决这些悬而未决的问题。当一个新发布的模型恰好满足了先前未被满足的技术和经济约束时,它就实现了精确的契合——即隐喻中的“水晶鞋”。
锁定效应。对于那些工作负载终于“契合”的开发者或组织来说,这种契合产生了强大的锁定效应。他们的系统、数据管道和用户体验都锚定在了第一个解决他们问题的模型上。随着成本下降和可靠性增加,重新平台的动机急剧减小。相反,那些没有找到这种契合的工作负载则保持探索性,从一个模型迁移到另一个模型,寻找自己的解决方案。
实证观察。从经验上看,这种模式在Gemini 2.5 Pro的2025年6月同期群(图25b)和Claude 4 Sonnet的2025年5月同期群(图25a)中可以观察到,它们在第5个月时保留了约40%的用户,远高于后来的同期群。这些同期群似乎对应于特定的技术突破(例如,推理保真度或工具使用稳定性),这些突破最终使先前不可能的工作负载成为可能。
现象解读。
* “首个解决者”的持久优势。当一个模型成为第一个解决关键工作负载的模型时,经典的先发优势变得尤为重要。早期采用者将该模型嵌入到管道、基础设施和用户行为中,导致高昂的转换成本。这创造了一个稳定的平衡,即使新的替代品出现,该模型也能保留其基础同期群。
(a) Claude 4 Sonnet
(b) Gemini 2.5 Pro
Gemini 2.5 Flash 留存率
(c) Gemini 2.5 Flash
(e) Llama 4 Maverick
图 25: 同期群留存率。留存率以活动留存衡量,即使用户在一段时间不活跃后返回,仍被计算在内;因此,曲线可能出现小的非单调凸起。
(f) Gemini 2.0 Flash
- 留存作为能力拐点的指标。同期群级别的留存模式是模型差异化的经验信号。一个或多个早期同期群的持续留存表明存在一个有意义的能力拐点——一个工作负载类别从不可行转变为可能。缺乏此类模式表明能力相当,差异化深度有限。
- 前沿窗口的时间限制。竞争格局为模型捕获基础用户施加了一个狭窄的时间窗口。随着后续模型缩小能力差距,形成新的基础同期群的概率急剧下降。因此,“灰姑娘”时刻,即模型与工作负载精确契合的时刻,是短暂的,但对长期采用动态具有决定性作用。
结论。总而言之,基础模型能力的快速转变需要重新定义用户留存。每一代新模型都带来一个短暂的机会来解决先前未满足的工作负载。当这种契合发生时,受影响的用户形成基础同期群:这些群体的留存轨迹即使在后续模型推出后也保持稳定。
主导性发布的异常现象。OpenAI GPT-4o Mini的图表以极端形式展示了这一现象。一个单一的基础同期群(2024年7月,橙色线)在发布时建立了一个主导的、粘性的工作负载-模型契合。所有后续的同期群,在这一契合建立且市场已经转移后到来,其行为都相同:它们流失并聚集在底部。这表明建立这种基础契合的窗口是唯一的,并且只在模型被视为“前沿”的时刻发生。
无契合的后果。Gemini 2.0 Flash和Llama 4 Maverick的图表展示了一个警示故事,说明了当这种初始契合从未建立时会发生什么。与其他模型不同,这里没有表现优异的基础同期群。每个同期群的表现都同样糟糕。这表明这些模型从未被视为解决高价值、粘性工作负载的“前沿”模型。它直接进入了“足够好”的市场,因此未能锁定任何用户基础。同样,尽管DeepSeek总体上取得了压倒性的成功,但其混乱的图表也难以建立一个稳定、基础的同期群。
“回旋镖效应”。DeepSeek模型(图25g和25h)引入了一种更复杂的模式。它们的留存曲线显示出一种非常不寻常的异常现象:复活跳跃。与典型的单调递减留存不同,几个DeepSeek同期群在经历了一段初期的流失后,留存率出现了明显的回升(例如,DeepSeek R1的2025年4月同期群在第3个月左右,以及DeepSeek Chat V3-0324的2025年7月同期群在第2个月左右)。这表明一些流失的用户正在返回该模型。这种“回旋镖效应”表明,这些用户在尝试了替代品并通过竞争性测试确认DeepSeek由于潜在的专业技术性能、成本效益或其他独特功能的组合,为他们的特定工作负载提供了最佳且通常更好的契合后,又回到了DeepSeek。
启示。“水晶鞋”现象将留存重新定义为理解能力突破的视角,而不仅仅是一个结果。基础同期群是真正技术进步的指纹:它们标记了AI模型从新奇事物跨越到必需品的转折点。对于构建者和投资者而言,尽早识别这些同期群可能是预测持久的模型-市场优势的最重要信号。
8. 成本与使用动态
成本对用户行为的影响。使用模型的成本是影响用户行为的一个关键因素。在本节中,我们关注不同的AI工作负载类别如何在成本-使用格局中分布。通过考察类别在对数-对数成本与使用图上的聚集位置,我们识别了工作负载在低成本、高流量区域与高成本、专业化细分市场中的集中模式。我们还提到了与杰文斯悖论效应的相似之处,即成本较低的类别通常对应于更高的总使用量,但我们不试图正式分析该悖论或因果关系。
8.1 按类别划分的AI工作负载细分分析
图表解读。所提供的散点图(图26)揭示了AI用例的明显细分,根据其总使用量(总Token)与单位成本(每百万Token成本)进行映射。一个关键的初步观察是,两个轴都是对数尺度的。这种对数尺度意味着图表上的微小视觉距离对应于现实世界中流量和成本的巨大乘法差异。
四象限框架。该图被一条位于中位数成本每百万Token $0.73的垂直线平分,有效地创建了一个四象限框架,以简化AI市场按类别的划分。
成本指标说明。请注意,这些最终成本不同于广告标价。高频工作负载受益于缓存,这降低了实际支出,并产生了比公开标价低得多的有效价格。所示的成本指标反映了提示和完成token的混合费率,提供了用户实际总支付的更准确视图。数据集还排除了BYOK(自带密钥)活动,以隔离标准化的、平台中介的使用,并避免由自定义基础设施设置造成的失真。
OpenRouter
按类别的对数成本与对数使用量
图 26: 按类别的对数成本与对数使用量
高端工作负载(右上象限):这个象限包含了高成本、高使用量的应用,现在包括技术和科学,正好位于交叉点。这些代表了有价值且被大量使用的专业工作负载,用户愿意为性能或专业能力支付溢价。技术是一个显著的异常值,其成本远高于任何其他类别。这表明,技术作为一个用例(可能涉及复杂的系统设计或架构)可能需要更强大、更昂贵的模型进行推理,但它仍然保持着高使用量,表明其至关重要的性质。
大众市场流量驱动者(左上象限):这个象限由高使用量和低成本(等于或低于平均水平)定义。该区域由两个巨大的用例主导:角色扮演、编程以及科学。
* 编程作为“杀手级专业”类别脱颖而出,展示了最高的使用量,同时成本高度优化,处于中位数水平。
* 角色扮演的使用量巨大,几乎与编程相当。这是一个惊人的发现:一个面向消费者的角色扮演应用驱动的参与量与一个顶级的专业应用相当。
这两个类别的巨大规模证实了专业生产力和对话式娱乐都是主要的、巨大的AI驱动力。这个象限的成本敏感性正是开源模型找到显著优势的地方,正如之前所指出的。
专业专家(右下象限):这个象限包含了低流量、高成本的应用,包括金融、学术、健康和市场营销。这些是高风险、小众的专业领域。较低的总流量是合乎逻辑的,因为人们咨询AI“健康”或“金融”问题的频率远低于“编程”。用户愿意为这些任务支付显著的溢价,可能是因为对准确性、可靠性和领域特定知识的需求极高。
小众实用工具(左下象限):这个象限的特点是低成本、低流量的任务,包括翻译、法律和琐事。这些是功能性、成本优化的实用工具。翻译是这个群体中使用量最高的,而琐事最低。它们的低成本和相对较低的流量表明,这些任务可能已经高度优化、“已解决”或商品化,可以廉价地获得足够好的替代方案。
“技术”类别的特殊性。如前所述,这张图上最显著的异常值是技术。它以相当大的优势占据了最高的每token成本,同时保持着高使用量。这强烈表明存在一个市场细分,用户对高价值、复杂的答案(例如,系统架构、高级技术问题解决)有很高的支付意愿。一个关键问题是,这种高价格是由高用户价值驱动(“需求侧”机会)还是由高服务成本驱动(“供给侧”挑战),因为这些查询可能需要最强大的前沿模型。在技术领域可以把握的机会是服务这个高价值市场。能够服务这个细分市场的提供商,或许通过高度优化、专业的模型,有可能捕获一个利润率更高的市场。
8.2 AI模型的有效成本与使用情况
价格与需求关系。图27将模型使用量与每百万token的成本(对数-对数尺度)进行映射,揭示了整体相关性较弱。为了方便,x轴标出了名义值。趋势线几乎是平的,表明需求相对缺乏价格弹性;价格下降10%仅对应约0.5–0.7%的使用量增加。然而,图表上的分散程度相当大,反映了强烈的市场细分。
两大市场阵营。出现了两个截然不同的阵营:来自OpenAI和Anthropic的专有模型占据了高成本、高使用区域,而像DeepSeek、Mistral和Qwen这样的开放模型则占据了低成本、高流量区域。这种模式支持一个简单的启发式观点:闭源模型捕获高价值任务,而开源模型捕获高流量的低价值任务。较弱的价格弹性表明,即使是巨大的成本差异也无法完全转移需求;专有提供商在关键任务应用上保留了定价权,而开放生态系统则吸收了成本敏感用户的流量。
四种使用-成本原型。现在让我们在同一张图中放大看具体的模型作者。图28与前图类似,但显示了模型作者。出现了四种使用-成本原型。高端领导者,如Anthropic的Claude 3.7 Sonnet和Claude Sonnet 4,成本约为每百万token 2美元,但仍达到高使用量,表明用户愿意为卓越的推理能力和规模化的可靠性付费。高效巨头,如Google的Gemini 2.0 Flash和DeepSeek V3 0324,将强大的性能与低于每百万token 0.40美元的价格相结合,并实现了相似的使用水平,使其成为高流量或长上下文工作负载的有吸引力的默认选择。长尾模型,包括Qwen 2 7B Instruct和IBM Granite 4.0 Micro,定价仅为每百万token几美分,但总使用量在102.9左右,反映了性能较弱、知名度有限或集成较少等限制。最后,高端专家,如OpenAI的GPT-4和GPT-5 Pro,占据了高成本、低使用象限:成本约为每百万token 35美元,使用量接近103.4,它们被谨慎地用于小众、高风险的工作负载,其中输出质量远比边际token成本重要。
图 27: 开源与闭源模型格局:成本与使用情况(对数-对数尺度)。每个点代表OpenRouter上提供的一个模型,按来源类型着色。闭源模型聚集在高成本、高使用象限,而开源模型主导低成本、高流量区域。虚线趋势线几乎是平的,显示成本与总使用量之间相关性有限。注意:该指标反映了提示和完成token的混合平均值,且由于缓存,有效价格通常低于标价。BYOK活动被排除。
图 28: AI模型市场地图:成本与使用情况(对数-对数尺度)。与上图类似,但每个点按模型提供商着色。
表 3: 按细分市场的示例模型。数值从更新的数据集中采样。市场层面的回归线几乎是平的,但细分市场的行为差异很大。
市场未商品化。总的来说,散点图突出表明,LLM市场的定价权并非统一的。虽然更便宜的模型可以通过效率和集成来驱动规模,但高端产品在风险较高的应用中仍然拥有强大的需求。这种碎片化表明市场尚未商品化,差异化,无论是通过延迟、上下文长度还是输出质量,仍然是战略优势的来源。
观察结论。这些观察结果表明:
* 宏观与微观行为差异。在宏观层面,需求缺乏弹性,但这掩盖了不同的微观行为。拥有关键任务的企业愿意支付高价(因此这些模型使用量高)。另一方面,爱好者和开发管道对成本非常敏感,纷纷涌向更便宜的模型(导致高效模型的大量使用)。
* 杰文斯悖论的证据。有证据表明存在杰文斯悖论:使某些模型非常便宜(且快速)导致人们将它们用于更多任务,最终消耗更多总token。我们在高效巨头群体中看到了这一点:随着每token成本的下降,这些模型被整合到各处,总消耗量飙升(人们运行更长的上下文、更多迭代等)。
* 质量优先于成本。昂贵模型(Claude Sonnet系列,GPT-4)的大量使用表明,如果一个模型明显更好或具有信任优势,用户愿意承担更高成本。这些模型通常被集成在工作流程中,其成本相对于它们产生的价值(例如,节省一小时开发者时间的代码远比几美元的API调用更有价值)可以忽略不计。
* 仅便宜不足够。相反,仅仅便宜是不够的,模型还必须具有差异化和足够的能力。许多定价接近零的开放模型仍然因为它们只是“足够好”,但没有找到工作负载-模型的契合点或不够可靠,所以开发者犹豫是否要深度集成它们。
运营商的战略启示。从运营商的角度来看,出现了几种战略模式。像Google这样的提供商大力推行分层产品(最著名的是Gemini Flash和Pro),明确地在速度、成本和能力之间进行权衡。这种分层使得能够根据价格敏感性和任务关键性进行市场细分:轻量级任务被路由到更便宜、更快的模型;高端模型服务于复杂或对延迟不敏感的工作负载。优化用例和可靠性通常与“降价”同样有效。一个更快、为特定目的构建的模型可能比一个更便宜但不可预测的模型更受青睐,尤其是在生产环境中。这使焦点从每token成本转向每次成功结果的成本。相对平坦的需求弹性表明LLM尚未成为商品——许多用户愿意为质量、能力或稳定性支付溢价。差异化仍然具有价值,尤其是在任务结果比边际token节省更重要的情况下。
A7 补充细节
9. 讨论
数据驱动的LLM使用洞察。这项实证研究提供了一个数据驱动的视角,揭示了LLM实际上是如何被使用的,突出了几个细化了关于AI部署传统智慧的主题:
1. 多模型生态系统。我们的分析显示,没有单一模型主导所有使用。相反,我们观察到一个丰富的多模型生态系统,闭源和开源模型都占据了显著的份额。例如,尽管OpenAI和Anthropic的模型在许多编程和知识任务中领先,但像DeepSeek和Qwen这样的开源模型合计服务了总token的很大一部分(有时超过30%)。这表明LLM使用的未来可能是模型无关和异构的。对开发者而言,这意味着要保持灵活性,集成多个模型并为每个任务选择最佳模型,而不是把所有赌注都押在一个模型的霸权上。对模型提供商而言,这强调了竞争可能来自意想不到的地方(例如,一个社区模型可能会侵蚀你的一部分市场,除非你持续改进和差异化)。
2. 超越生产力的使用多样性。一个令人惊讶的发现是角色扮演和娱乐导向的使用量之大。超过一半的开源模型使用是用于角色扮演和讲故事。即使在专有平台上,早期ChatGPT的非凡部分使用也是休闲和创造性的,之后专业用例才增长起来。这与LLM主要用于编写代码、邮件或摘要的假设相悖。实际上,许多用户与这些模型互动是为了陪伴或探索。这具有重要意义。它突显了面向消费者的应用存在巨大机会,这些应用融合了叙事设计、情感参与和互动性。它为个性化开辟了新前沿——能够演化个性、记住偏好或维持长篇互动的代理。它还重新定义了模型评估指标:成功可能更多地取决于一致性、连贯性和维持引人入胜对话的能力,而不是事实的准确性。最后,它为AI与娱乐IP之间的跨界合作开辟了道路,在互动叙事、游戏和创作者驱动的虚拟角色方面具有潜力。
3. 代理 vs. 人类:代理式推理的兴起。LLM的使用正在从单轮互动转向代理式推理,即模型在多个步骤中进行规划、推理和执行。它们不再是产生一次性响应,而是协调工具调用、访问外部数据并迭代优化输出以实现目标。早期证据显示,多步查询和链式工具使用正在增加,我们将其视为代理式使用的代理指标。随着这一范式的扩展,评估将从语言质量转向任务完成度和效率。下一个竞争前沿是模型能多有效地执行持续推理,这一转变最终可能重新定义大规模代理式推理的含义。
4. 地理展望。LLM的使用正变得日益全球化和去中心化,北美以外地区增长迅速。亚洲占总token需求的份额已从约13%上升到31%,反映了更强的企业采用和创新。与此同时,中国已成为一股主要力量,不仅通过国内消费,还通过生产具有全球竞争力的模型。更广泛的启示是:LLM必须具备全球实用性,在不同语言、情境和市场中表现良好。下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型规模。
5. 成本与使用动态。LLM市场似乎尚未表现得像一个商品市场:单凭价格无法解释太多关于使用量的问题。用户在成本与推理质量、可靠性和能力广度之间进行权衡。闭源模型继续捕获高价值、与收入相关的工作负载,而开源模型则主导低成本和高流量的任务。这创造了一种动态平衡——这种平衡更多地由来自下方的持续压力定义,而非稳定性。开源模型不断推动效率前沿,尤其是在推理和编码领域(例如Kimi K2 Thinking),其中快速迭代和OSS创新缩小了性能差距。开源模型的每一次改进都压缩了专有系统的定价权,迫使它们通过卓越的集成、一致性和企业支持来证明其溢价。由此产生的竞争是快速、不对称且不断变化的。随着时间的推移,随着质量趋同加速,价格弹性可能会增加,将曾经差异化的市场转变为更具流动性的市场。
6. 留存与“灰姑娘水晶鞋”现象。随着基础模型以飞跃而非步进的方式发展,留存已成为可防御性的真正衡量标准。每一次突破都创造了一个短暂的发布窗口,模型可以在其中完美地“契合”一个高价值的工作负载(“灰姑娘水晶鞋”时刻),一旦用户找到这种契合,他们就会留下来。在这种范式下,产品-市场契合等于工作负载-模型契合:成为第一个解决真正痛点的模型会驱动深度、粘性的采用,因为用户会围绕该能力构建工作流程和习惯。转换成本因此变得高昂,无论是技术上还是行为上。对于构建者和投资者来说,需要关注的信号不是增长,而是留存曲线,即在模型更新过程中留下的基础同期群的形成。在一个日益快速变化的市场中,尽早捕获这些重要的未满足需求决定了谁能在下一次能力飞跃后存续下来。
总结性观察。总的来说,LLM正在成为跨领域(从编程到创意写作)进行类推理任务的重要计算基底。随着模型不断进步和部署范围的扩大,对真实世界使用动态的准确洞察对于做出明智决策至关重要。人们使用LLM的方式并不总是与预期一致,并且因国家、州、用例而异。通过大规模观察使用情况,我们可以将我们对LLM影响的理解建立在现实基础上,确保后续的发展,无论是技术改进、产品功能还是法规,都与实际的使用模式和需求保持一致。我们希望这项工作能为更多实证研究奠定基础,并鼓励AI社区在构建下一代前沿模型时,持续从真实世界的使用中衡量和学习。
10. 局限性
研究范围的局限性。本研究反映了在单一平台OpenRouter上,并在一个有限的时间窗口内观察到的模式,仅提供了更广泛生态系统的部分视角。某些维度,如企业使用、本地托管部署或封闭的内部系统,仍然超出了我们数据的范围。此外,我们的几项数据分析依赖于代理指标:例如,通过多步或工具调用来识别代理式推理,或者通过账单而非经过验证的地理位置数据来推断用户地理位置。因此,研究结果应被解释为指示性的行为模式,而不是对潜在现象的确定性测量。
A5 结论
LLM作为计算基础设施的嵌入。本研究提供了一个关于大型语言模型如何嵌入世界计算基础设施的实证视角。它们现在已成为工作流程、应用程序和代理系统的组成部分,改变了信息的生成、中介和消费方式。
推理概念的演变。过去的一年催化了该领域对推理概念的阶跃式变化。o1级模型的出现使扩展审议和工具使用常态化,将评估从单次基准测试转向基于过程的指标、延迟-成本权衡以及编排下的任务成功率。推理已成为衡量模型如何有效规划和验证以提供更可靠结果的尺度。
生态系统的多元化结构。数据显示,LLM生态系统在结构上是多元的。没有单一的模型或提供商占据主导地位;相反,用户根据上下文,在能力、延迟、价格和信任等多个轴上选择系统。这种异质性不是一个过渡阶段,而是市场的基本属性。它促进了快速迭代,并减少了对任何单一模型或技术栈的系统性依赖。
推理方式的转变。推理本身也在发生变化。多步和工具关联交互的兴起标志着从静态完成向动态编排的转变。用户正在链接模型、API和工具以完成复合目标,从而产生了可称为代理式推理的模式。有许多理由相信,代理式推理将超过(如果尚未超过)人类推理。
地理分布的去中心化。在地理上,格局正变得更加分散。亚洲的使用份额持续扩大,特别是中国已成为模型的开发者和出口国,这体现在像Moonshot AI、DeepSeek和Qwen等玩家的崛起上。非西方开放权重模型的成功表明,LLM是真正的全球计算资源。
未来的发展方向。实际上,o1并未终结竞争。远非如此。它扩展了设计空间。该领域正在向系统思维而非单一赌注、向工具化测量而非直觉、向实证使用分析而非排行榜上的微小差异转变。如果说过去的一年证明了代理式推理在大规模上是可行的,那么下一年将专注于卓越运营:衡量真实的任务完成情况,减少在分布变化下的方差,并使模型行为与生产规模工作负载的实际需求保持一致。
A6 附录
类别子构成详情
(a) 角色扮演(子标签)。Token分为角色扮演游戏场景(58%)和其他创意对话(个人形象聊天、叙事合写等)。
OpenRouter
编程类别细分
(b) 编程(子标签)。通用编码任务占大多数(没有单一特定领域占主导),网页开发、数据科学等占较小份额,表明在编程主题上的广泛使用。
OpenRouter
技术类别细分
(c) 技术(子标签)。以智能助手和生产力软件用例为主(合计65%),其次是IT支持和消费电子产品查询。
图 29: 主要领域的类别子构成。所有三个领域(角色扮演、技术、编程)都表现出独特的内部分布模式。
💬 评论讨论
欢迎在这里分享您的想法和见解!