2026 大規模言語モデル流行:OpenRouter ランキングから見る Top 10 選定とクラウド Mac Agent 実装

OpenRouter の実トークン呼び出し量(2026年6月)では DeepSeek V4 Flash が約 10.9T で首位、中国発オープンソースが Top 10 の半数を占めます。1M コンテキスト、MoE、Agent は差別化ではなく前提——本記事は引用可能なランキング、トレンド、クラウド Mac 向け Runbook をまとめます。

2年前の MMLU だけでモデルを選んでいると、2026年6月の本番 API はすでに二世代入れ替わっている可能性があります。本記事は OpenRouter Rankings(2026年6月4日時点)を根拠に、Cursor / Claude Code / 自社 Agent を組む開発者と Tech Lead 向けに、① なぜ「実呼び出し量」がベンダー自報ベンチより実務に近いか、② Top 10 と六大トレンド、③ シナリオ決定マトリクス、④ モデルルーティングローカル ds4 推論Cursor Agent Skill とともに NUKCLOUD 独占クラウド Mac で安定運用する方法を整理します。

00なぜ OpenRouter ランキングを技術レビューに載せるのか

OpenRouter は Anthropic、Google、DeepSeek、腾讯、Moonshot、NVIDIA など数十社・数百モデルを集約し、ランキングはユーザーが実際に消費したトークン総量で並びます。プレスリリースの単発スコアではありません。エンジニアリング視点では「本番で課金とレイテンシを受け入れているモデル」が見え、ラボ条件のピーク値より選定に直結します。

2026年中期の読み取りは次の五つです。中国発オープンソース(DeepSeek、腾讯 Hy3、Kimi)がグローバル Top 10 に定着。1M トークンコンテキストが標準構成へ。Agent のツール呼び出しと多段実行が会話品質より競争軸に。Owl Alpha や Nemotron 3 Super などゼロ単価モデルが実験の心理価格を下げる。Top 10 ではMoE(混合エキスパート)が密な超大モデルをほぼ置き換えています。

以降の数値は OpenRouter 画面と各社公開ドキュメントに基づきます(API 価格は常に公式を優先)。「API ルーティング」と「データを外に出さない」を両立する場合は、GitHub Agent ワークスペース Runbook と併読してください。クラウド API は幅、独占 Mac は署名物・長時間 Agent・任意のローカル推論を担います。

痛点選定時の四つの隠れコスト

  • ベンチだけ、請求書を見ない:Claude Opus 4.7 は SWE-Bench Pro で強い一方、出力は百万トークンあたり最大 $25 級。高並列パイプラインでルーティング未設計だと月末が想定外になりがちです。
  • コンテキストと KV コストの軽視:1M コンテキストはリポジトリ丸ごと一発投入を意味します。キャッシュやローカル KV(ds4 ディスク KV など)がなければ長セッションの prefill が指数級に膨らみます。
  • Agent 安定性の過小評価:上位モデルは SWE-bench Verified、Terminal-Bench、MCP-Atlas などツールチェーン系で競います。「雑談できる」と「40 ファイル連続改修できる」は別格です。
  • ホストとモデルの乖離:Kimi K2.6 の Agent Swarm を超売り VPS で 7×24 運用すると、モデル更新よりゲートウェイ断が先にプロジェクトを止めます。Agent には監査可能で途切れない macOS 算力が要り、安価な共有ホストとは別ルートです。

01OpenRouter Top 10 概要(2026年6月)

以下は OpenRouter Rankings の直近トークン呼び出し量ベース(成長率は画面表示値、トレンド判断用。最新は OpenRouter 実ページを参照):

順位モデル機関呼び出し量成長要点
1DeepSeek V4 FlashDeepSeek~10.9T↑995%MoE 284B/13B active、1M コンテキスト、極低 API 単価
2Hy3 Preview腾讯~10.7T↑>999%オープン MoE、Agent/推論、効率 +40%
3Claude Opus 4.7Anthropic~7.48T↑197%旗艦コード/ビジョン、長時間 Agent 安定
4Claude Sonnet 4.6Anthropic~7.45T↑34%バランス主力、無料層あり
5Owl AlphaOpenRouter~5.03T↑>999%$0、1.05M コンテキスト、Agent 向け
6Gemini 3 Flash PreviewGoogle~4.6T↑3%全モーダル、SWE-bench 78%、エコシステム
7DeepSeek V4 ProDeepSeek~4.54T↑739%1.6T MoE 旗艦、MIT オープンウェイト
8DeepSeek V3.2DeepSeek~4.31T↓14%前世代継続、V4 に分流
9Kimi K2.6Moonshot~3.72T↑1%1T MoE、Agent Swarm、オープン
10Nemotron 3 Super (free)NVIDIA~2.65T↑3%無料 OSS、Mamba+Transformer 混合

DeepSeek V4 Flash が呼び出し量首位なのは「Haiku 級価格で Pro 級 Agent に近い」からです。1M コンテキストでは単トークン FLOPs が V3.2 の約 10%、KV キャッシュ約 7% とされ、XML ツール呼び出しでネスト JSON 失敗を抑えます。第三者比較では入力約 $0.14、出力約 $0.28 / 百万トークンで、Opus 4.7 の $5/$25 と桁が違い、高頻度ルーティングのデフォルトに向きます。

Claude Opus 4.7 は SWE-Bench Pro(約 64.3% vs V4-Pro 55.4%)、GPQA Diamond(94.2% vs 90.1%)で依然強く、多ファイルリファクタ、長時間自律コーディング Agent、高解像度ビジョンのクリティカルパス向けです。Sonnet 4.6 は日常バッチで約 1.7 倍の価格優位を持ちます。

トレンド一:1M トークンコンテキストが新標準。 DeepSeek V4、Claude Opus 4.7、Owl Alpha、Gemini 3 Flash、Nemotron 3 Super が 1M 級。リポジトリ全体や長契約を一括投入でき、一部では RAG より「全量入力」が選ばれます。prefill 算力とストレージはホストとルーティングへシフトします。

トレンド二:中国発オープンソースのグローバル化。 Top 10 の約半数が中国チーム由来で多くがオープン(DeepSeek MIT、Hy3 コミュニティライセンス、Kimi Modified MIT)。700% 超の成長は、MoE を本番デフォルトに据える動きを示します。

トレンド三:Agent 能力が会話スコアを上回る。 発表の焦点は Tool Calling、SWE-bench Verified、Terminal-Bench、MCP-Atlas。Kimi K2.6 の Agent Swarm(最大約 300 サブエージェント、4000 ステップ協調)と Hy3 の Terminal-Bench 2.0(約 54.4%)は「無人でどれだけ走るか」への移行です。

トレンド四:MoE の全面優位。 密な超大モデルは消費榜の周縁へ。Nemotron 3 Super は Mamba + Transformer 混合で総参約 120B / active 約 12B、2 倍以上のスループットを狙い、オンプレ高並列に適します。

トレンド五:完全無料モデルが価格感を再定義。 Owl Alpha($0)と Nemotron 3 Super(free)は実験障壁を下げますが、Stealth 系は Prompt 記録があり得ます。機密コードは自社ホストまたは独占インスタンスへ。

トレンド六:マルチモーダルが前提化。 Gemini 3 Flash は画像・音声・動画・PDF、Opus 4.7 は高解像度ビジョン。純テキストのみのモデルは検索・エンタープライズでのシェアが縮みます。

03能力マトリクスとシナリオ選定

シナリオ第一候補代替Mac ホストとの関係
日常ドキュメント / 翻訳 / 要約Claude Sonnet 4.6Gemini 3 Flash軽量 API で足りる
高頻度コーディング APIDeepSeek V4 FlashSonnet 4.6Cursor 接続可;ローカルは ds4 + 96GB+ Mac
複雑 Agent / 多ファイルリファクタClaude Opus 4.7Kimi K2.67×24 独占 macOS でゲートウェイと Runner
コスト敏感な実験Owl Alpha / Nemotron freeV4-Flash機密リポジトリ不可;コンプラは Hy3 / V4-Pro 私有化
マルチモーダル / Google 系Gemini 3 FlashOpus 4.7(高精ビジョン)統合はクラウド中心;Mac はビルド機
私有化・高スループットNemotron 3 SuperHy3 PreviewGPU ワークステーション;Mac は Agent 編成
モデル入力 $/M出力 $/Mコンテキストオープン
DeepSeek V4 Flash~0.10–0.14~0.28–0.401Mはい
DeepSeek V4 Pro~1.74~3.481Mはい
Claude Opus 4.7~5.00~25.001M βいいえ
Claude Sonnet 4.6~3.00~15.00200K / 1M βいいえ
Owl Alpha0.000.001.05Mいいえ
Gemini 3 Flash~0.50~3.001M+いいえ
Kimi K2.6低(自ホスト)256Kはい
Nemotron 3 Super0.000.001Mはい
  • 引用データ 1:OpenRouter 首位 DeepSeek V4 Flash の直近呼び出し量約 10.9T tokens、表示成長約 995%
  • 引用データ 2:Opus 4.7 SWE-Bench Pro 64.3%、V4-Pro 55.4%;Terminal-Bench 2.0 は約 69.4% vs 67.9% で差は縮小。
  • 引用データ 3:Gemini 3 Flash の SWE-bench Verified 約 78%、同系 Pro を上回りコーディング Agent 向き。
  • 引用データ 4:Kimi K2.6 は 1T 総参 / 32B active MoE、BrowseComp 約 83.2、長期 Swarm 編成向け。

04六ステップ Runbook:モデルルーティング + クラウド Mac Agent ホスト

ランキングは「どの API か」を決めます。本番は「Agent と Runner をどこに置くか」も要ります。NUKCLOUD 独占 Apple Silicon ではクラウド API で幅を取り、インスタンス内にゲートウェイと任意の ds4 ローカル推論を置き、GitHub Actions と Cursor でテナント境界を共有する構成が現実的です。

  1. 01
    ルーティング方針を定義:デフォルト DeepSeek V4 Flash(高頻度・低コスト);重要マージとビジョンは Opus 4.7 または Gemini 3 Flash;実験は Owl Alpha / Nemotron free を非機密リポジトリに限定。OpenRouter または自前ゲートウェイで fallback とタスク別トークン上限を設定します。
  2. 02
    ワークロードに合わせ Mac スペックを選ぶ:API のみ+軽量 Agent は標準クラウド Mac;ローカル ds4 / Ollama / 長 KV は 96GB+ 統一メモリ注文ページ)。1M コンテキストモデルと 32GB マシンの組み合わせは避けてください。
  3. 03
    独占ノードをプロビジョン:コンソールでリージョン、SSH、テナント境界を固定。本番準備六ステップと揃え、超売りホストによる長接続切断を防ぎます。
  4. 04
    Agent ゲートウェイを配置:インスタンスで Hermes / OpenClaw / 自社ゲートウェイを launchd 常駐。Cursor と Claude Code の Base URL を社内 OpenRouter プロキシまたはローカル ds4-server(ds4 記事の Metal 推論済みの場合)へ向けます。
  5. 05
    CI と Skill を接続:GitHub Copilot コーディング Agent と独占 macOS Runner を同機または同リージョンに。繰り返し Prompt は SKILL.md に集約し、モデル切替時の指示ドリフトを抑えます。
  6. 06
    月次レビュー:OpenRouter 請求とインスタンス利用率をエクスポート。API 支出が高メモリ Mac レンタル+機密コードを上回るなら V4-Pro 自ホスト+独占 Mac を検討。7×24 オンラインのみならネット安定とメモリ余量を最優先し、最新チップ追従は二の次です。

分単位共有 macOS VPS では帯域ジッター、超売り、長接続リセットが起きやすく、数千ツール呼び出しの長時間 Agent には致命的です。監査可能な本番プレーンには NUKCLOUD 多リージョン bare-metal Mac / クラウド Mac ノードの独占セマンティクスが調達・コンプラ文書と揃いやすく、料金ページヘルプセンターから評価できます。

05よくある質問

OpenRouter ランキングと公式ベンチが食い違うときはどちらを信じますか?
ランキングは実際の有料/無料呼び出し嗜好に近く、デフォルト主力の決定に向きます。ベンチはクリティカルタスクの上限確認用です。日常はランキング、難所はベンチ最高の閉源旗艦でスポット検証するのが無難です。
すでに Opus 4.7 だけでも、DeepSeek V4 Flash は要りますか?
はい。ルーティングが一般的です。約 80% を V4 Flash(分類、下書き、単体テスト生成)、約 20% を Opus(横断リファクタ、難推論)に分け、同一 Cursor ワークスペースから OpenRouter ゲートウェイでモデル ID を切り替えられます。
無料 Owl Alpha / Nemotron を社内コードに使えますか?
機密データには非推奨です。Stealth や無料ホストは改善用に Prompt を記録する場合があります。企業利用は私有化 Hy3 / V4-Pro または閉源エンタープライズ API と独占インスタンスを選んでください。
1M コンテキストなら RAG は不要ですか?
必ずしもそうではありません。全量投入はアーキテクチャを簡素化しますが prefill コストと遅延は増えます。「ホットデータは全コンテキスト+コールドデータは RAG」が多く、ds4 ディスク KV で繰り返し prefill を抑えられます(ds4 記事参照)。
ランキングは毎月変わります。ホストも毎月乗り換えますか?
ホストはAgent 稼働率、メモリ、Xcode/署名要件で判断し、モデル榜に合わせて毎月替える必要はありません。ルーティングはゲートウェイ層で調整し、Mac は 96GB / 128GB などメモリ段階のアップグレードが新チップ追従より費用対効果が高いことが多いです。