当 MMLU、SWE-Bench 榜单每周刷新时,真正决定你下个月 API 账单的,是 OpenRouter 上按周滚动的 Token 吞吐量。本文面向正在评审模型采购、搭建 Cursor / Claude Code / 自研 Agent 的开发者与 Tech Lead:① 说明为何「花出去的钱」比发布会跑分更可信;② 基于 OpenRouter Rankings 2026 年 5 月 18–24 日周度数据解读全球 Top 10;③ 拆解中美流量格局与 Anthropic「溢价悖论」;④ 对照 6 月趋势解读 给出按场景路由与 NUKCLOUD 云端 Mac 六步落地清单。
00为什么账单数据比 Benchmark 更诚实?
基准测试排行榜衡量的是「实验室里最好的一次」;OpenRouter 周调用量排行衡量的是「全球开发者本周愿意持续调用的模型」。OpenRouter 作为中立 API 聚合平台,接入 300+ 模型、覆盖 60+ 供应商,平台月流量约 100 万亿 Token、用户超 800 万——其按周(7 天滚动)汇总的 Token 吞吐量,已成为观察 AI 真实落地进度的「体温计」。
一年前 OpenRouter 全球周处理量约 2.4 万亿 Token;2026 年 5 月第三周已达 28.9 万亿,约 12 倍增长。编程类任务占平台流量比例从 2025 年初约 11% 升至超 50%,成为最大单一用途——这意味着「能写代码、能跑 Agent、够便宜」比「榜单分数最高」更能解释榜首为何是 DeepSeek-V4-Flash 而非最贵的 Opus。
OpenRouter 与 a16z 联合发布的《2025 AI 使用报告》(基于约 100 万亿 Token 匿名元数据)指出:基准测试分数与实际市场份额几乎呈反比。开发者更在意推理成本、API 稳定性与工具调用成功率;这与我们在 ds4 本地推理 文中讨论的「高频任务走低价路由、关键路径走旗舰」完全一致。
痛点只看榜单、不看账单的四个误区
- 把「月累计」当「周爆发」:OpenRouter 同时展示不同时间窗口;周榜反映最新路由迁移,月榜平滑了 Hy3 限免结束等事件。采购评审应锁定周口径跟踪爆款。
- 忽视 Token 份额 vs 美元收入:Anthropic Token 份额约 12%(一年前约 25%),美元收入份额仍约 46%——高单价闭源模型「流量输了、收入没输」,两类指标回答不同问题。
- 默认榜首 = 全能冠军:V4-Flash 夺冠主因是 Agent 工作流性价比(输入约 $0.14/M、输出约 $0.28/M),不是 GPQA 最高分。复杂推理仍应抽检 Opus / Gemini 旗舰。
- 模型路由与主机脱节:周榜前列模型多面向高吞吐 Agent;若网关跑在超卖 VPS 上,长连接重置比换模型 ID 更常杀死项目。Agent 需要可审计的 7×24 macOS 算力,与「租最便宜 Linux」是两条路线。
01数据来源:周统计口径与全球总量
本文数据来自 openrouter.ai/rankings 公开排行榜,统计周期为按周(7 天滚动 Token 吞吐量),节点为 2026 年 5 月 18 日–5 月 24 日。维度包括:周 Token 总量(输入 + 输出)、模型维度排行、厂商市场份额,以及美元收入份额与 Token 份额的对照。
| 指标 | 数据 | 环比 |
|---|---|---|
| 全球周调用量 | 28.9 万亿 Token | +7.4%(连续五周上涨) |
| 中国模型周调用量 | 9.223 万亿 Token | +19.89% |
| 美国模型周调用量 | 4.93 万亿 Token | +16.27% |
| 中美周流量对比 | 中国连续四周超美 | 中国模型全球份额约 45%+ |
中国模型流量占比时间线同样值得写入技术评审:2025 年初不足 2%;2026 年 2 月首次周流量超美;2026 年 5 月已连续四周稳居全球首位。这不是单一模型的偶然爆款,而是 DeepSeek、腾讯、MiniMax、阶跃等多款低价 MoE 共同抬升的结果。
02最新一周模型调用量 Top 10
| 排名 | 模型 | 厂商 | 周 Token 量 | 环比 | 特点 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(中国) | 3.43T | +66% | Agent 工作流首选,极低价格、1M 上下文 |
| 2 | 腾讯 Hy3 Preview | Tencent(中国) | 3.07T | +16% | 限免结束后仍高增长 |
| 3 | Claude Sonnet 4.6 | Anthropic(美国) | 1.35T | — | 百万上下文,企业编程主力 |
| 4 | DeepSeek-V3.2 | DeepSeek(中国) | 1.31T | — | 低价长尾,角色扮演活跃 |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 免费 Agent 特化,百万上下文 |
| 6 | Gemini 3 Flash Preview | Google(美国) | 1.06T | — | 多模态,学术/医疗场景 |
| 7 | DeepSeek-V4-Pro | DeepSeek(中国) | 1.00T | — | 矩阵旗舰(系列合计约 5.74T) |
| 8 | MiniMax M2.7 | MiniMax(中国) | 806B | — | 长上下文性价比 |
| 9 | Grok 4.1 Fast | xAI(美国) | 721B | — | 2M 上下文,法律场景 |
| 10 | Step 3.5 Flash | StepFun(中国) | 673B | — | 快速低价,批处理 |
DeepSeek 三款模型(V4-Flash、V4-Pro、V3.2)同时进入前九,系列周调用合计约 5.74 万亿 Token,环比约 +25.9%,连续两周厂商排名第一。Kimi K2.6 前一周排名第 6,当周跌出前十——说明周榜对「路由迁移」极其敏感,须按周复盘而非季度固化策略。
- 可引用数据点 1:全球周调用量 28.9T,同比一年前平台周规模增长约 12 倍。
- 可引用数据点 2:DeepSeek-V4-Flash 单模型 3.43T / 周,环比 +66%,占当周全球总量约 11.9%。
- 可引用数据点 3:Anthropic Token 份额约 12% vs 美元收入份额约 46%;Claude Opus 4.6 月收入约 $2500 万 量级,但 Token 量远低于 DeepSeek 矩阵。
- 可引用数据点 4:OpenRouter 平台编程类任务流量占比已超 50%(2025 年初约 11%),解释榜首多为「够快够便宜」的 Flash 系模型。
03Token 量 vs 美元收入:厂商「双重真相」
| 分层 | 代表模型 | Token 特征 | 收入特征 | 典型场景 |
|---|---|---|---|---|
| 高价值·低流量 | Claude Opus 系列 | 份额下滑 | 美元收入仍占近半 | 企业复杂推理、合规采购 |
| 性价比·中流量 | Gemini 3 Flash | 稳定增长 | 中等单价 | 多模态、学术、Google 生态 |
| 极低价·高流量 | DeepSeek / MiniMax / StepFun | 周榜主导 | 单价极低、靠规模 | Agent、编程、批处理 |
Anthropic 的「溢价悖论」是 2026 年采购会议上的高频议题:企业用户仍为 Claude 支付高价,但流量主导权已向中国开源矩阵倾斜。DeepSeek 于 2026 年 5 月 22 日宣布 V4-Pro API 永久调价至原价四分之一(促销结束后生效),把价格战从短期补贴变为长期常态——这直接反映在 V4-Flash +66% 的周环比上。
对工程团队而言:默认路由应跟周 Token 榜(省钱、跟生态);关键任务上限应跟Benchmark + 企业 SLA(保质)。两类指标缺一不可——只看其一,就会在月末账单或生产故障里付出代价。
04六步 Runbook:按周榜路由 + 云端 Mac Agent 主机
周榜回答「本周全球开发者在用什么」;你的 Runbook 还要回答「网关与 Runner 放哪」。推荐在 NUKCLOUD 独占 Apple Silicon 上分层:OpenRouter 做广度路由,实例内跑 Agent 网关与可选本地推理,并与 Cursor Agent Skill 库对齐。
-
01
订阅周榜而非只看月榜:每周一访问 OpenRouter Rankings,导出模型维度与厂商份额截图存档;将 Hy3、Owl Alpha 等新进前十模型加入「观察清单」,两周内验证是否持续。
-
02
按场景设默认路由:Agent / 批量 / 草稿 → DeepSeek-V4-Flash;企业复杂推理 → Claude Sonnet 4.6 / Opus;多模态 → Gemini 3 Flash;实验 → Owl Alpha(仅限非敏感仓库)。在 OpenRouter 或自建网关配置 fallback 与单任务 Token 上限。
-
03
对齐账单与 Token 份额:每月对比 OpenRouter 账单中「美元支出 Top 3」与排行榜「Token 份额 Top 3」;若支出集中在高价闭源而流量已迁移到 Flash,立即调整路由比例,避免「流量变了、账单没变」。
- 04
-
05
部署常驻网关:在实例上配置 Hermes / OpenClaw / 自研网关的 launchd;Cursor 与 Claude Code 的 Base URL 指向内网 OpenRouter 代理。将重复 Prompt 沉淀为 SKILL.md,减少多模型切换时的指令漂移。
-
06
双周复盘:对照周榜变化调整默认模型 ID;若 API 月支出持续高于高内存 Mac 租用且含敏感代码,评估 V4-Pro 自托管 + 独占 Mac;若仅需 7×24 在线,优先保证网络稳定与内存余量。费用评审见 定价页。
共享分钟池式 macOS VPS 常见带宽抖动、超卖与长连接重置,对「数千次工具调用、12 小时后台 Agent」尤其致命。需要可审计生产平面时,NUKCLOUD 多区域裸金属 Mac / 云端 Mac 节点在独占语义与规格弹性上更易与采购、合规文档对齐。