2年前の MMLU だけでモデルを選んでいると、2026年6月の本番 API はすでに二世代入れ替わっている可能性があります。本記事は OpenRouter Rankings(2026年6月4日時点)を根拠に、Cursor / Claude Code / 自社 Agent を組む開発者と Tech Lead 向けに、① なぜ「実呼び出し量」がベンダー自報ベンチより実務に近いか、② Top 10 と六大トレンド、③ シナリオ決定マトリクス、④ モデルルーティングを ローカル ds4 推論・Cursor Agent Skill とともに NUKCLOUD 独占クラウド Mac で安定運用する方法を整理します。
00なぜ OpenRouter ランキングを技術レビューに載せるのか
OpenRouter は Anthropic、Google、DeepSeek、腾讯、Moonshot、NVIDIA など数十社・数百モデルを集約し、ランキングはユーザーが実際に消費したトークン総量で並びます。プレスリリースの単発スコアではありません。エンジニアリング視点では「本番で課金とレイテンシを受け入れているモデル」が見え、ラボ条件のピーク値より選定に直結します。
2026年中期の読み取りは次の五つです。中国発オープンソース(DeepSeek、腾讯 Hy3、Kimi)がグローバル Top 10 に定着。1M トークンコンテキストが標準構成へ。Agent のツール呼び出しと多段実行が会話品質より競争軸に。Owl Alpha や Nemotron 3 Super などゼロ単価モデルが実験の心理価格を下げる。Top 10 ではMoE(混合エキスパート)が密な超大モデルをほぼ置き換えています。
以降の数値は OpenRouter 画面と各社公開ドキュメントに基づきます(API 価格は常に公式を優先)。「API ルーティング」と「データを外に出さない」を両立する場合は、GitHub Agent ワークスペース Runbook と併読してください。クラウド API は幅、独占 Mac は署名物・長時間 Agent・任意のローカル推論を担います。
痛点選定時の四つの隠れコスト
- ベンチだけ、請求書を見ない:Claude Opus 4.7 は SWE-Bench Pro で強い一方、出力は百万トークンあたり最大 $25 級。高並列パイプラインでルーティング未設計だと月末が想定外になりがちです。
- コンテキストと KV コストの軽視:1M コンテキストはリポジトリ丸ごと一発投入を意味します。キャッシュやローカル KV(ds4 ディスク KV など)がなければ長セッションの prefill が指数級に膨らみます。
- Agent 安定性の過小評価:上位モデルは SWE-bench Verified、Terminal-Bench、MCP-Atlas などツールチェーン系で競います。「雑談できる」と「40 ファイル連続改修できる」は別格です。
- ホストとモデルの乖離:Kimi K2.6 の Agent Swarm を超売り VPS で 7×24 運用すると、モデル更新よりゲートウェイ断が先にプロジェクトを止めます。Agent には監査可能で途切れない macOS 算力が要り、安価な共有ホストとは別ルートです。
01OpenRouter Top 10 概要(2026年6月)
以下は OpenRouter Rankings の直近トークン呼び出し量ベース(成長率は画面表示値、トレンド判断用。最新は OpenRouter 実ページを参照):
| 順位 | モデル | 機関 | 呼び出し量 | 成長 | 要点 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~10.9T | ↑995% | MoE 284B/13B active、1M コンテキスト、極低 API 単価 |
| 2 | Hy3 Preview | 腾讯 | ~10.7T | ↑>999% | オープン MoE、Agent/推論、効率 +40% |
| 3 | Claude Opus 4.7 | Anthropic | ~7.48T | ↑197% | 旗艦コード/ビジョン、長時間 Agent 安定 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~7.45T | ↑34% | バランス主力、無料層あり |
| 5 | Owl Alpha | OpenRouter | ~5.03T | ↑>999% | $0、1.05M コンテキスト、Agent 向け |
| 6 | Gemini 3 Flash Preview | ~4.6T | ↑3% | 全モーダル、SWE-bench 78%、エコシステム | |
| 7 | DeepSeek V4 Pro | DeepSeek | ~4.54T | ↑739% | 1.6T MoE 旗艦、MIT オープンウェイト |
| 8 | DeepSeek V3.2 | DeepSeek | ~4.31T | ↓14% | 前世代継続、V4 に分流 |
| 9 | Kimi K2.6 | Moonshot | ~3.72T | ↑1% | 1T MoE、Agent Swarm、オープン |
| 10 | Nemotron 3 Super (free) | NVIDIA | ~2.65T | ↑3% | 無料 OSS、Mamba+Transformer 混合 |
DeepSeek V4 Flash が呼び出し量首位なのは「Haiku 級価格で Pro 級 Agent に近い」からです。1M コンテキストでは単トークン FLOPs が V3.2 の約 10%、KV キャッシュ約 7% とされ、XML ツール呼び出しでネスト JSON 失敗を抑えます。第三者比較では入力約 $0.14、出力約 $0.28 / 百万トークンで、Opus 4.7 の $5/$25 と桁が違い、高頻度ルーティングのデフォルトに向きます。
Claude Opus 4.7 は SWE-Bench Pro(約 64.3% vs V4-Pro 55.4%)、GPQA Diamond(94.2% vs 90.1%)で依然強く、多ファイルリファクタ、長時間自律コーディング Agent、高解像度ビジョンのクリティカルパス向けです。Sonnet 4.6 は日常バッチで約 1.7 倍の価格優位を持ちます。
022026 六大トレンド
トレンド一:1M トークンコンテキストが新標準。 DeepSeek V4、Claude Opus 4.7、Owl Alpha、Gemini 3 Flash、Nemotron 3 Super が 1M 級。リポジトリ全体や長契約を一括投入でき、一部では RAG より「全量入力」が選ばれます。prefill 算力とストレージはホストとルーティングへシフトします。
トレンド二:中国発オープンソースのグローバル化。 Top 10 の約半数が中国チーム由来で多くがオープン(DeepSeek MIT、Hy3 コミュニティライセンス、Kimi Modified MIT)。700% 超の成長は、MoE を本番デフォルトに据える動きを示します。
トレンド三:Agent 能力が会話スコアを上回る。 発表の焦点は Tool Calling、SWE-bench Verified、Terminal-Bench、MCP-Atlas。Kimi K2.6 の Agent Swarm(最大約 300 サブエージェント、4000 ステップ協調)と Hy3 の Terminal-Bench 2.0(約 54.4%)は「無人でどれだけ走るか」への移行です。
トレンド四:MoE の全面優位。 密な超大モデルは消費榜の周縁へ。Nemotron 3 Super は Mamba + Transformer 混合で総参約 120B / active 約 12B、2 倍以上のスループットを狙い、オンプレ高並列に適します。
トレンド五:完全無料モデルが価格感を再定義。 Owl Alpha($0)と Nemotron 3 Super(free)は実験障壁を下げますが、Stealth 系は Prompt 記録があり得ます。機密コードは自社ホストまたは独占インスタンスへ。
トレンド六:マルチモーダルが前提化。 Gemini 3 Flash は画像・音声・動画・PDF、Opus 4.7 は高解像度ビジョン。純テキストのみのモデルは検索・エンタープライズでのシェアが縮みます。
03能力マトリクスとシナリオ選定
| シナリオ | 第一候補 | 代替 | Mac ホストとの関係 |
|---|---|---|---|
| 日常ドキュメント / 翻訳 / 要約 | Claude Sonnet 4.6 | Gemini 3 Flash | 軽量 API で足りる |
| 高頻度コーディング API | DeepSeek V4 Flash | Sonnet 4.6 | Cursor 接続可;ローカルは ds4 + 96GB+ Mac |
| 複雑 Agent / 多ファイルリファクタ | Claude Opus 4.7 | Kimi K2.6 | 7×24 独占 macOS でゲートウェイと Runner |
| コスト敏感な実験 | Owl Alpha / Nemotron free | V4-Flash | 機密リポジトリ不可;コンプラは Hy3 / V4-Pro 私有化 |
| マルチモーダル / Google 系 | Gemini 3 Flash | Opus 4.7(高精ビジョン) | 統合はクラウド中心;Mac はビルド機 |
| 私有化・高スループット | Nemotron 3 Super | Hy3 Preview | GPU ワークステーション;Mac は Agent 編成 |
| モデル | 入力 $/M | 出力 $/M | コンテキスト | オープン |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~0.10–0.14 | ~0.28–0.40 | 1M | はい |
| DeepSeek V4 Pro | ~1.74 | ~3.48 | 1M | はい |
| Claude Opus 4.7 | ~5.00 | ~25.00 | 1M β | いいえ |
| Claude Sonnet 4.6 | ~3.00 | ~15.00 | 200K / 1M β | いいえ |
| Owl Alpha | 0.00 | 0.00 | 1.05M | いいえ |
| Gemini 3 Flash | ~0.50 | ~3.00 | 1M+ | いいえ |
| Kimi K2.6 | 低(自ホスト) | 低 | 256K | はい |
| Nemotron 3 Super | 0.00 | 0.00 | 1M | はい |
- 引用データ 1:OpenRouter 首位 DeepSeek V4 Flash の直近呼び出し量約 10.9T tokens、表示成長約 995%。
- 引用データ 2:Opus 4.7 SWE-Bench Pro 64.3%、V4-Pro 55.4%;Terminal-Bench 2.0 は約 69.4% vs 67.9% で差は縮小。
- 引用データ 3:Gemini 3 Flash の SWE-bench Verified 約 78%、同系 Pro を上回りコーディング Agent 向き。
- 引用データ 4:Kimi K2.6 は 1T 総参 / 32B active MoE、BrowseComp 約 83.2、長期 Swarm 編成向け。
04六ステップ Runbook:モデルルーティング + クラウド Mac Agent ホスト
ランキングは「どの API か」を決めます。本番は「Agent と Runner をどこに置くか」も要ります。NUKCLOUD 独占 Apple Silicon ではクラウド API で幅を取り、インスタンス内にゲートウェイと任意の ds4 ローカル推論を置き、GitHub Actions と Cursor でテナント境界を共有する構成が現実的です。
-
01
ルーティング方針を定義:デフォルト DeepSeek V4 Flash(高頻度・低コスト);重要マージとビジョンは Opus 4.7 または Gemini 3 Flash;実験は Owl Alpha / Nemotron free を非機密リポジトリに限定。OpenRouter または自前ゲートウェイで fallback とタスク別トークン上限を設定します。
-
02
ワークロードに合わせ Mac スペックを選ぶ:API のみ+軽量 Agent は標準クラウド Mac;ローカル ds4 / Ollama / 長 KV は 96GB+ 統一メモリ(注文ページ)。1M コンテキストモデルと 32GB マシンの組み合わせは避けてください。
- 03
-
04
Agent ゲートウェイを配置:インスタンスで Hermes / OpenClaw / 自社ゲートウェイを launchd 常駐。Cursor と Claude Code の Base URL を社内 OpenRouter プロキシまたはローカル
ds4-server(ds4 記事の Metal 推論済みの場合)へ向けます。 -
05
CI と Skill を接続:GitHub Copilot コーディング Agent と独占 macOS Runner を同機または同リージョンに。繰り返し Prompt は SKILL.md に集約し、モデル切替時の指示ドリフトを抑えます。
-
06
月次レビュー:OpenRouter 請求とインスタンス利用率をエクスポート。API 支出が高メモリ Mac レンタル+機密コードを上回るなら V4-Pro 自ホスト+独占 Mac を検討。7×24 オンラインのみならネット安定とメモリ余量を最優先し、最新チップ追従は二の次です。
分単位共有 macOS VPS では帯域ジッター、超売り、長接続リセットが起きやすく、数千ツール呼び出しの長時間 Agent には致命的です。監査可能な本番プレーンには NUKCLOUD 多リージョン bare-metal Mac / クラウド Mac ノードの独占セマンティクスが調達・コンプラ文書と揃いやすく、料金ページと ヘルプセンターから評価できます。