openPangu 2.0、ファーウェイ大規模モデルのオープンソース化、512K コンテキスト、昇騰 NPU へのデプロイに関心がある開発者・Tech Lead 向けに、本記事では調査資料の要点をすべて整理します。① HDC 2026 タイムラインと 7 大オープンソースコンポーネント、② Pro/Flash 仕様と mHC・Muon・ModAttn・DSA+SWA 技術スタック、③ DeepSeek V4 Pro・Qwen 3.7 Max・Kimi K2.7・Llama 4 405B との比較、④ 能力マトリクスと選定決定木、⑤ ModelArts API と GitCode セルフホスト手順、⑥ 国産 AI 戦略と HarmonyOS Agent、⑦ 六ステップ Runbook と NUKCLOUD 本番チェックリストです。あわせて 6月 OpenRouter 中国モデルランキング と DeepSeek V4 ローカル推論 Runbook も参照できます。
00オープンソースタイムライン:HDC 2026 からフルスタック 7 コンポーネントへ
2026 年 6 月 12 日、華為開発者大会 HDC 2026 が東莞・松山湖で開催され、余承東氏の基調講演で openPangu 2.0 が正式発表されました。約 3 週間後の 6 月 30 日、ファーウェイは約束を果たし、openPangu-2.0-Flash のモデル重み・基礎推論コード・学習推論オペレータを GitCode Ascend Tribe で公開しました。
| 日付 | マイルストーン | 状態 |
|---|---|---|
| 2026-06-12 | HDC 2026 で openPangu 2.0(Pro + Flash)正式発表 | 発表済み |
| 2026-06-30 | Flash 重み・推論コード・学習推論オペレータをオープンソース化 | 公開済み |
| 2026-07(予定) | openPangu-2.0-Pro 重みと推論コード | 近日公開 |
| 2026 下半期 | 事前学習コード、事後学習コード(SFT/RLHF)、追加学習オペレータ | 計画中 |
7 大オープンソースコンポーネントが段階的に公開され、業界でも稀なフルスタック開放を構成しています。
- モデル構造(アーキテクチャ定義)
- モデル重み(Flash は 6/30 公開済み、Pro は 7 月予定)
- 技術レポート(重みと同時公開)
- 推論コード(基礎推論 + 学習推論オペレータ)
- 事前学習コード(下半期公開、学習フロー全体を再現可能)
- 事後学習コード(SFT / RLHF、下半期公開)
- 学習オペレータ(昇騰向け高性能カスタムオペレータ、下半期公開)
最初の 4 項目は一般的なオープンソースの範囲です。残り 3 項目は超大規模 MoE では極めて珍しく、研究者や企業が独自データで垂直領域の二次事前学習を行えることを意味します。単に「重みを落として推論する」だけではありません。
痛点openPangu 2.0 を評価する前に陥りやすい 5 つの落とし穴
- 「オープンソース=全能最強」と誤解する:独立第三者ベンチマークはまだ進行中です。コード生成と複雑推論では DeepSeek V4 Pro が依然として大きな優位を持ちます——ds4 ローカル推論ガイド を参照してください。
- ハードウェアスタックへのバインドを軽視する:ネイティブ最適化は 昇騰 910B + CANN +
torch_npu向けです。純粋な NVIDIA 環境では 2 倍スループットが出ない場合があり、実クラスタで評価が必要です。 - 512K コンテキストのコストを過小評価する:長コンテキスト推論はメモリと KV Cache に大きな負荷をかけます。Flash-Int8(W4A8)で 40% 削減できますが、業務精度の許容範囲を検証する必要があります。
- Flash のスパース比の表現を混同する:Pro は約 28:1(505B/18B)、Flash は約 15:1(92B/6B)です。DSA+SWA 超スパースアテンションは Flash 固有です。
- Pro の全面公開前であることを見落とす:7 月までは Flash ベースの本番検証にとどまります。超長文書とマルチカード分散推論は Pro 重み公開後に負荷試験してください。
01デュアルバージョン仕様:Pro 505B と Flash 92B
| 指標 | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| 総パラメータ数 | 505B | 92B |
| 活性化パラメータ数 | 18B | 6B |
| スパース比 | ~28:1 | ~15:1 |
| コンテキストウィンドウ | 512K | 512K |
| 重みの状態 | 2026 年 7 月(予定) | 2026-06-30 公開済み |
| ライセンス | openPangu License(商用利用可、ロイヤリティフリー) | |
512K コンテキストは、1 回のプロンプトに長編小説およそ 8 冊分のテキストを投入できる規模です。完全な契約書、大規模コードベース、長時間の会話履歴を単一ラウンドで処理できます。Flash は 6B の活性化パラメータで稠密 6B に近いレイテンシを実現しながら、92B の知識プールを参照できるため、高並列 API や限られた VRAM の環境に適しています。
02技術アーキテクチャ:mHC ルーティング、Muon 最適化、NVIDIA 非依存学習
openPangu 2.0 は MoE(混合エキスパート) アーキテクチャを採用し、NVIDIA 以外のハードウェアで全規模学習を完遂した初の前沿オープンソース大規模モデルです。学習はすべて 昇騰 910B NPU で行われ、A100 / H100 は一切使用されていません。
- mHC(Multi-Head Combinatorial)ルーティング:エキスパートルーティング効率を改善し、MoE の負荷不均衡を緩和します。
- Muon 最適化器:マイクロソフト提案の二階モーメンタム方式で、大規模学習の安定性を向上します。
- ModAttn(Modular Attention):モジュラーアテンションで 512K 超長コンテキストに対応します。
- DSA+SWA 超スパースアテンション(Flash 固有):極限のスパース推論で算力要件を削減します。
- スーパーノード学習効率 +30%;512K 長シーケンス学習スループット +50%。
- Flash-Int8:W4A8 量子化でメモリ使用量を 40% 削減、精度損失は通常 <10% です。
ソフトウェアスタックは CANN(CUDA 相当のファーウェイ自社スタック)+ torch_npu(PyTorch アダプター)に基づきます。標準 PyTorch コードは import torch_npu で昇騰バックエンドに切り替えられます。デプロイ経路は華為クラウド ModelArts API、GitCode セルフホスト、HarmonyOS エッジネイティブ統合をカバーします。
03競合横断比較:DeepSeek、Qwen、Kimi、Llama 4
| モデル | 総パラメータ | 活性化 | コンテキスト | ライセンス | 学習 HW | オープン深度 |
|---|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | openPangu | 昇騰 NPU | フルスタック 7 要素 |
| openPangu 2.0 Flash | 92B | 6B | 512K | openPangu | 昇騰 NPU | フルスタック 7 要素 |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | MIT | NVIDIA | 重み+推論 |
| Qwen 3.7 Max | ~400B+ | varies | 128K | Apache 2.0 | NVIDIA | 重み+推論+一部学習 |
| Kimi K2.7 | 1T | 32B | 256K | Modified MIT | NVIDIA | 重み+推論 |
| Llama 4 405B | 405B | — | 128K | Llama License | NVIDIA | 重み+推論 |
米国の先端 AI チップ対中輸出規制が続く中、openPangu 2.0 は「NVIDIA がなければ大規模モデルは作れない」という議論への強い反論です。余承東氏は HDC 2026 で「私の辞書に第二はない。第一だけだ。中国一から世界一へ」と述べました。
04能力マトリクスと選定決定木
| 能力軸 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| コード生成 | 中 | 最高 | 高 | 高 |
| 複雑推論 | 中 | 最高 | 最高 | 高 |
| ツール呼び出し / Agent | 高 | 高 | 高 | 最高 |
| 超長コンテキスト | 最高 | 中 | 中 | 高 |
| 推論効率(昇騰) | 最高 | 低 | 低 | 高 |
| 自律可控性 | 最高 | 低 | 低 | 低 |
| フルスタック OSS | 最高 | 中 | 中 | 中 |
選定決定木(簡易版):
- コード生成 / 複雑推論 → DeepSeek V4 Pro(~200B 活性化、性能リード)
- Agent / マルチツール連携 → Kimi K2.7(MCP エコシステム充実)
- 超長文書(>256K Token) → openPangu 2.0 Pro(512K 第一候補)
- 国産 AI / NVIDIA 非依存 → openPangu 2.0(唯一の前沿選択肢)
- 昇騰 / 華為クラウド環境 → openPangu 2.0(ネイティブ 2 倍スループット)
- エッジ / スマホデプロイ → openPangu Embedded(30B エッジ向け)
- 低コストローカル推論 → openPangu Flash(6B 活性化、~96GB 統一メモリで試験可能)
OpenRouter 6月ランキングと合わせると、DeepSeek の使用量首位は「全能第一」ではありません。賢明な戦略は「前沿クローズド/高難度 5% + 中国オープンウェイト日常 95%」であり、openPangu は長コンテキスト + 主権コンピュートの軸でマトリクスを補完します。
05デプロイガイド:ModelArts API、GitCode、ハードウェア要件
方式一:華為クラウド ModelArts API(最速着手)
- 華為クラウドアカウントを登録します
- ModelArts → AI Gallery →「openPangu 2.0」を検索します
- Flash または Pro を購読し、API Endpoint と Token を取得します
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [
{"role": "user", "content": "こんにちは、自己紹介してください"}
],
"max_tokens": 1024,
"temperature": 0.7
}'
方式二:GitCode セルフデプロイ(Ascend Tribe 主要リポジトリ):
openPangu-2.0-Flash:Flash 重みopenPangu-2.0-Flash-Int8:量子化版(メモリ -40%)openPangu-2.0-Infer:推論ソースコードopenPangu-2.0-Op:昇騰高性能オペレータ
python inference.py \
--model_path ./openPangu-Flash \
--device npu:0 \
--context_length 512000 \
--precision bf16
python distributed_inference.py \
--model_path ./openPangu-Pro \
--num_devices 8 \
--context_length 512000
python finetune.py \
--model_path ./openPangu-Pro \
--data_path ./domain_data \
--output_dir ./fine_tuned_model \
--method lora \
--lora_rank 16
| バージョン | 推奨 HW | 最低構成 | 備考 |
|---|---|---|---|
| Flash(6B 活性化) | 単一昇騰 910B | ~96GB 統一メモリ | 高メモリ Mac / サーバーでコミュニティ試験可 |
| Flash-Int8 | 単一昇騰 Atlas A2 | ~48GB VRAM | W4A8、精度損失 <10% |
| Pro(18B 活性化) | 4+ カード昇騰 910B | マルチカードクラスタ | 7 月重み公開後に検証 |
06戦略的意義:HarmonyOS Agent と openPangu License
openPangu 2.0 は単体の大規模モデルではなく、ファーウェイ AI 戦略の中核基盤です。HarmonyOS 7 は Agent 時代に全面移行し、HarmonyOS エージェントフレームワーク 2.0 の複雑タスク実行成功率は >90%、openPangu 2.0 をネイティブエンジンとしています。エッジ 30B Embedded は麒麟チップ搭載スマートフォンでローカル動作し、ネット接続は不要です。
openPangu License の要点:商用利用可、ロイヤリティフリー、非独占的です。詳細は GitCode リポジトリの条項を参照してください。フルスタックオープンソース(事前・事後学習コード含む)は学術界と国産 AI 業界にとって、学習再現、垂直領域二次事前学習、昇騰エコシステム参入障壁の低下を意味します。
免責事項:本記事の一部能力評価はアーキテクチャ推論に基づきます。独立第三者ベンチマーク結果公開後に更新します。公開日 2026 年 7 月 1 日。
07六ステップ Runbook:Flash 実験とマルチモデル Agent ゲートウェイ
-
01
シナリオ階層を明確化:超長文書 / 国産 AI コンプライアンス → openPangu;コード推論 → DeepSeek V4 Pro;Agent オーケストレーション → Kimi K2.7。OpenRouter 6月選定マトリクスで日常 95% と前沿 5% のルーティングを固定します。
-
02
クラウド API スモークテスト:華為クラウド ModelArts で Flash を購読し、curl で Chat Completions のレイテンシと 512K 切り捨てポリシーを検証します。Token 単価と QPS 上限を記録します。
-
03
ローカル / クラウド Mac で Flash 試験:コミュニティ評価では 96GB 統一メモリ環境で重みロードと短コンテキスト推論を試せます。NUKCLOUD コンソールで高メモリ Mac ノードをプロビジョニングし、ノート PC のフタ閉じによる中断を避けます。
-
04
GitCode 取得と Ascend スタック:Flash、Flash-Int8、Infer、Op リポジトリをクローンします。昇騰環境で CANN +
torch_npuを構成します。NPU がない場合はまず API 経路を使い、ヘルプセンターを参照してください。 -
05
統一ゲートウェイ接続:LiteLLM / 自社ルーターで openPangu ModelArts と DeepSeek、Kimi を並列登録します。長文書タスクは Pro/Flash に自動ルーティング、コードタスクは DeepSeek にフォールバックします。
- 06
ローカル MacBook で openPangu Flash の重みダウンロード、長コンテキスト負荷試験、マルチモデル Agent ループを回すと、フタ閉じスリープ中断、帯域ジッターによる切断、92B スパース重みをロードできないメモリ不足が頻発します。安定した 7×24 オンラインゲートウェイで ModelArts / OpenRouter / セルフホストスタックをルーティングする必要があるチームには、NUKCLOUD 多地域ベアメタル Mac / クラウド Mac ノードの 96GB 統一メモリ実験環境と Agent 常駐ホストが、共有 VPS やノート PC より Q3 モデル爆発のペースに合わせやすい選択肢です。
08FAQ:openPangu 2.0 よくある質問
本記事は 2026 年 7 月 1 日執筆。外部参照:GitCode Ascend Tribe、華為クラウド ModelArts、HDC 2026。