ファーウェイ openPangu 2.0 本格オープンソース：505B MoE、512K コンテキスト、昇騰フルスタック公開

openPangu 2.0、ファーウェイ大規模モデルのオープンソース化、512K コンテキスト、昇騰 NPU へのデプロイに関心がある開発者・Tech Lead 向けに、本記事では調査資料の要点をすべて整理します。① HDC 2026 タイムラインと 7 大オープンソースコンポーネント、② Pro／Flash 仕様と mHC・Muon・ModAttn・DSA+SWA 技術スタック、③ DeepSeek V4 Pro・Qwen 3.7 Max・Kimi K2.7・Llama 4 405B との比較、④ 能力マトリクスと選定決定木、⑤ ModelArts API と GitCode セルフホスト手順、⑥ 国産 AI 戦略と HarmonyOS Agent、⑦ 六ステップ Runbook と NUKCLOUD 本番チェックリストです。あわせて 6月 OpenRouter 中国モデルランキングと DeepSeek V4 ローカル推論 Runbook も参照できます。

00オープンソースタイムライン：HDC 2026 からフルスタック 7 コンポーネントへ

2026 年 6 月 12 日、華為開発者大会 HDC 2026 が東莞・松山湖で開催され、余承東氏の基調講演で openPangu 2.0 が正式発表されました。約 3 週間後の 6 月 30 日、ファーウェイは約束を果たし、openPangu-2.0-Flash のモデル重み・基礎推論コード・学習推論オペレータを GitCode Ascend Tribe で公開しました。

日付	マイルストーン	状態
2026-06-12	HDC 2026 で openPangu 2.0（Pro + Flash）正式発表	発表済み
2026-06-30	Flash 重み・推論コード・学習推論オペレータをオープンソース化	公開済み
2026-07（予定）	openPangu-2.0-Pro 重みと推論コード	近日公開
2026 下半期	事前学習コード、事後学習コード（SFT/RLHF）、追加学習オペレータ	計画中

7 大オープンソースコンポーネントが段階的に公開され、業界でも稀なフルスタック開放を構成しています。

モデル構造（アーキテクチャ定義）
モデル重み（Flash は 6/30 公開済み、Pro は 7 月予定）
技術レポート（重みと同時公開）
推論コード（基礎推論 + 学習推論オペレータ）
事前学習コード（下半期公開、学習フロー全体を再現可能）
事後学習コード（SFT / RLHF、下半期公開）
学習オペレータ（昇騰向け高性能カスタムオペレータ、下半期公開）

最初の 4 項目は一般的なオープンソースの範囲です。残り 3 項目は超大規模 MoE では極めて珍しく、研究者や企業が独自データで垂直領域の二次事前学習を行えることを意味します。単に「重みを落として推論する」だけではありません。

痛点openPangu 2.0 を評価する前に陥りやすい 5 つの落とし穴

「オープンソース＝全能最強」と誤解する：独立第三者ベンチマークはまだ進行中です。コード生成と複雑推論では DeepSeek V4 Pro が依然として大きな優位を持ちます——ds4 ローカル推論ガイドを参照してください。
ハードウェアスタックへのバインドを軽視する：ネイティブ最適化は 昇騰 910B + CANN + torch_npu 向けです。純粋な NVIDIA 環境では 2 倍スループットが出ない場合があり、実クラスタで評価が必要です。
512K コンテキストのコストを過小評価する：長コンテキスト推論はメモリと KV Cache に大きな負荷をかけます。Flash-Int8（W4A8）で 40% 削減できますが、業務精度の許容範囲を検証する必要があります。
Flash のスパース比の表現を混同する：Pro は約 28:1（505B/18B）、Flash は約 15:1（92B/6B）です。DSA+SWA 超スパースアテンションは Flash 固有です。
Pro の全面公開前であることを見落とす：7 月までは Flash ベースの本番検証にとどまります。超長文書とマルチカード分散推論は Pro 重み公開後に負荷試験してください。

01デュアルバージョン仕様：Pro 505B と Flash 92B

指標	openPangu 2.0 Pro	openPangu 2.0 Flash
総パラメータ数	505B	92B
活性化パラメータ数	18B	6B
スパース比	~28:1	~15:1
コンテキストウィンドウ	512K	512K
重みの状態	2026 年 7 月（予定）	2026-06-30 公開済み
ライセンス	openPangu License（商用利用可、ロイヤリティフリー）

512K コンテキストは、1 回のプロンプトに長編小説およそ 8 冊分のテキストを投入できる規模です。完全な契約書、大規模コードベース、長時間の会話履歴を単一ラウンドで処理できます。Flash は 6B の活性化パラメータで稠密 6B に近いレイテンシを実現しながら、92B の知識プールを参照できるため、高並列 API や限られた VRAM の環境に適しています。

注目データ：単一昇騰カードのスループットは主流オープンソースモデルの 2 倍；30B エッジ Embedded モデルは推論 50% 高速化・メモリ 20% 削減で麒麟チップ搭載スマートフォンでもオフライン動作可能；学習推論一致率 >99%——MoE アーキテクチャにおいて極めて重要な安定性指標です。

02技術アーキテクチャ：mHC ルーティング、Muon 最適化、NVIDIA 非依存学習

openPangu 2.0 は MoE（混合エキスパート） アーキテクチャを採用し、NVIDIA 以外のハードウェアで全規模学習を完遂した初の前沿オープンソース大規模モデルです。学習はすべて 昇騰 910B NPU で行われ、A100 / H100 は一切使用されていません。

mHC（Multi-Head Combinatorial）ルーティング：エキスパートルーティング効率を改善し、MoE の負荷不均衡を緩和します。
Muon 最適化器：マイクロソフト提案の二階モーメンタム方式で、大規模学習の安定性を向上します。
ModAttn（Modular Attention）：モジュラーアテンションで 512K 超長コンテキストに対応します。
DSA+SWA 超スパースアテンション（Flash 固有）：極限のスパース推論で算力要件を削減します。
スーパーノード学習効率 +30%；512K 長シーケンス学習スループット +50%。
Flash-Int8：W4A8 量子化でメモリ使用量を 40% 削減、精度損失は通常 <10% です。

ソフトウェアスタックは CANN（CUDA 相当のファーウェイ自社スタック）+ torch_npu（PyTorch アダプター）に基づきます。標準 PyTorch コードは import torch_npu で昇騰バックエンドに切り替えられます。デプロイ経路は華為クラウド ModelArts API、GitCode セルフホスト、HarmonyOS エッジネイティブ統合をカバーします。

03競合横断比較：DeepSeek、Qwen、Kimi、Llama 4

モデル	総パラメータ	活性化	コンテキスト	ライセンス	学習 HW	オープン深度
openPangu 2.0 Pro	505B	18B	512K	openPangu	昇騰 NPU	フルスタック 7 要素
openPangu 2.0 Flash	92B	6B	512K	openPangu	昇騰 NPU	フルスタック 7 要素
DeepSeek V4 Pro	1.6T	~200B	128K	MIT	NVIDIA	重み+推論
Qwen 3.7 Max	~400B+	varies	128K	Apache 2.0	NVIDIA	重み+推論+一部学習
Kimi K2.7	1T	32B	256K	Modified MIT	NVIDIA	重み+推論
Llama 4 405B	405B	—	128K	Llama License	NVIDIA	重み+推論

米国の先端 AI チップ対中輸出規制が続く中、openPangu 2.0 は「NVIDIA がなければ大規模モデルは作れない」という議論への強い反論です。余承東氏は HDC 2026 で「私の辞書に第二はない。第一だけだ。中国一から世界一へ」と述べました。

04能力マトリクスと選定決定木

能力軸	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
コード生成	中	最高	高	高
複雑推論	中	最高	最高	高
ツール呼び出し / Agent	高	高	高	最高
超長コンテキスト	最高	中	中	高
推論効率（昇騰）	最高	低	低	高
自律可控性	最高	低	低	低
フルスタック OSS	最高	中	中	中

選定決定木（簡易版）：

コード生成 / 複雑推論 → DeepSeek V4 Pro（~200B 活性化、性能リード）
Agent / マルチツール連携 → Kimi K2.7（MCP エコシステム充実）
超長文書（>256K Token） → openPangu 2.0 Pro（512K 第一候補）
国産 AI / NVIDIA 非依存 → openPangu 2.0（唯一の前沿選択肢）
昇騰 / 華為クラウド環境 → openPangu 2.0（ネイティブ 2 倍スループット）
エッジ / スマホデプロイ → openPangu Embedded（30B エッジ向け）
低コストローカル推論 → openPangu Flash（6B 活性化、~96GB 統一メモリで試験可能）

OpenRouter 6月ランキングと合わせると、DeepSeek の使用量首位は「全能第一」ではありません。賢明な戦略は「前沿クローズド／高難度 5% + 中国オープンウェイト日常 95%」であり、openPangu は長コンテキスト + 主権コンピュートの軸でマトリクスを補完します。

05デプロイガイド：ModelArts API、GitCode、ハードウェア要件

方式一：華為クラウド ModelArts API（最速着手）

華為クラウドアカウントを登録します
ModelArts → AI Gallery →「openPangu 2.0」を検索します
Flash または Pro を購読し、API Endpoint と Token を取得します

ModelArts openPangu 2.0 Flash API 呼び出し

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [
      {"role": "user", "content": "こんにちは、自己紹介してください"}
    ],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

方式二：GitCode セルフデプロイ（Ascend Tribe 主要リポジトリ）：

openPangu-2.0-Flash：Flash 重み
openPangu-2.0-Flash-Int8：量子化版（メモリ -40%）
openPangu-2.0-Infer：推論ソースコード
openPangu-2.0-Op：昇騰高性能オペレータ

Flash 単一カード推論（昇騰 910B）

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

Pro マルチカード分散推論

python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000

LoRA ドメインファインチューニング例

python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16

バージョン	推奨 HW	最低構成	備考
Flash（6B 活性化）	単一昇騰 910B	~96GB 統一メモリ	高メモリ Mac / サーバーでコミュニティ試験可
Flash-Int8	単一昇騰 Atlas A2	~48GB VRAM	W4A8、精度損失 <10%
Pro（18B 活性化）	4+ カード昇騰 910B	マルチカードクラスタ	7 月重み公開後に検証

06戦略的意義：HarmonyOS Agent と openPangu License

openPangu 2.0 は単体の大規模モデルではなく、ファーウェイ AI 戦略の中核基盤です。HarmonyOS 7 は Agent 時代に全面移行し、HarmonyOS エージェントフレームワーク 2.0 の複雑タスク実行成功率は >90%、openPangu 2.0 をネイティブエンジンとしています。エッジ 30B Embedded は麒麟チップ搭載スマートフォンでローカル動作し、ネット接続は不要です。

openPangu License の要点：商用利用可、ロイヤリティフリー、非独占的です。詳細は GitCode リポジトリの条項を参照してください。フルスタックオープンソース（事前・事後学習コード含む）は学術界と国産 AI 業界にとって、学習再現、垂直領域二次事前学習、昇騰エコシステム参入障壁の低下を意味します。

免責事項：本記事の一部能力評価はアーキテクチャ推論に基づきます。独立第三者ベンチマーク結果公開後に更新します。公開日 2026 年 7 月 1 日。

07六ステップ Runbook：Flash 実験とマルチモデル Agent ゲートウェイ

01
シナリオ階層を明確化：超長文書 / 国産 AI コンプライアンス → openPangu；コード推論 → DeepSeek V4 Pro；Agent オーケストレーション → Kimi K2.7。OpenRouter 6月選定マトリクスで日常 95% と前沿 5% のルーティングを固定します。
02
クラウド API スモークテスト：華為クラウド ModelArts で Flash を購読し、curl で Chat Completions のレイテンシと 512K 切り捨てポリシーを検証します。Token 単価と QPS 上限を記録します。
03
ローカル / クラウド Mac で Flash 試験：コミュニティ評価では 96GB 統一メモリ環境で重みロードと短コンテキスト推論を試せます。NUKCLOUD コンソールで高メモリ Mac ノードをプロビジョニングし、ノート PC のフタ閉じによる中断を避けます。
04
GitCode 取得と Ascend スタック：Flash、Flash-Int8、Infer、Op リポジトリをクローンします。昇騰環境で CANN + torch_npu を構成します。NPU がない場合はまず API 経路を使い、ヘルプセンターを参照してください。
05
統一ゲートウェイ接続：LiteLLM / 自社ルーターで openPangu ModelArts と DeepSeek、Kimi を並列登録します。長文書タスクは Pro/Flash に自動ルーティング、コードタスクは DeepSeek にフォールバックします。
06
7×24 Agent ホスト本番化：パイロット通過後注文ページでスペックを確定します。本番チェックリストは NUKCLOUD Runbook、料金ページで時間課金と月額 TCO を比較します。

ローカル MacBook で openPangu Flash の重みダウンロード、長コンテキスト負荷試験、マルチモデル Agent ループを回すと、フタ閉じスリープ中断、帯域ジッターによる切断、92B スパース重みをロードできないメモリ不足が頻発します。安定した 7×24 オンラインゲートウェイで ModelArts / OpenRouter / セルフホストスタックをルーティングする必要があるチームには、NUKCLOUD 多地域ベアメタル Mac / クラウド Mac ノードの 96GB 統一メモリ実験環境と Agent 常駐ホストが、共有 VPS やノート PC より Q3 モデル爆発のペースに合わせやすい選択肢です。

08FAQ：openPangu 2.0 よくある質問

openPangu 2.0 はいつオープンソース化されましたか？

HDC 2026（2026-06-12）で正式発表；Flash 重みと推論コードは 2026-06-30 に GitCode 公開；Pro は 2026 年 7 月予定；事前・事後学習コードは 2026 下半期予定です。

Pro と Flash のパラメータ差は？

Pro：505B 総パラ / 18B 活性化 / ~28:1 スパース / 512K。Flash：92B 総パラ / 6B 活性化 / ~15:1 スパース / 512K。Flash はダウンロード可能、Pro は 7 月公開予定です。

なぜ「NVIDIA 非依存学習」の前沿モデルと言われるのですか？

学習はすべて 昇騰 910B NPU で完遂され、A100/H100 は未使用です。米国の対中先端チップ輸出規制下で、前沿規模に達しフルスタックオープンソース化された初の大規模モデルです。

openPangu 2.0 と DeepSeek V4 Pro はどう選びますか？

コードと複雑推論は DeepSeek V4 Pro（~200B 活性化）；超長文書（512K）、国産 AI コンプライアンス、昇騰ネイティブデプロイは openPangu。詳細は DeepSeek V4 Runbook を参照してください。

512K コンテキストに実際どれだけ入りますか？

長編小説およそ 8 冊分、または完全な大規模コードベース、契約全文と付録、数時間の会議文字起こしを単一プロンプトで処理できます。

Flash ローカル推論に必要なハードウェアは？

推奨は単一 昇騰 910B です。コミュニティ試験では ~96GB 統一メモリシステムで可能です。Flash-Int8 は約 48GB VRAM、メモリ 40% 削減です。

商用利用は可能ですか？

可能です。openPangu License は商用利用とロイヤリティフリーを許可します。制限の詳細は GitCode リポジトリ条項を参照してください。

ベンチマーク成績は？

独立第三者評価は進行中です。本記事の能力マトリクスはアーキテクチャ推論に基づきます。第三者テスト公開後に更新します。

本記事は 2026 年 7 月 1 日執筆。外部参照：GitCode Ascend Tribe、華為クラウド ModelArts、HDC 2026。