ファーウェイ openPangu 2.0 本格オープンソース:505B MoE、512K コンテキスト、昇騰フルスタック公開

HDC 2026(6/12)で余承東氏が オープンソース盤古 2.0 を発表しました。6/30 には openPangu 2.0 Flash の重みと推論コードが GitCode に公開され、昇騰 910B 上で前沿規模の学習を完遂した NVIDIA 非依存のオープンソース MoE として注目を集めています。512K コンテキストは長編小説およそ 8 冊分のテキスト量に相当します。

openPangu 2.0ファーウェイ大規模モデルのオープンソース化512K コンテキスト昇騰 NPU へのデプロイに関心がある開発者・Tech Lead 向けに、本記事では調査資料の要点をすべて整理します。① HDC 2026 タイムラインと 7 大オープンソースコンポーネント、② Pro/Flash 仕様と mHC・Muon・ModAttn・DSA+SWA 技術スタック、③ DeepSeek V4 Pro・Qwen 3.7 Max・Kimi K2.7・Llama 4 405B との比較、④ 能力マトリクスと選定決定木、⑤ ModelArts API と GitCode セルフホスト手順、⑥ 国産 AI 戦略と HarmonyOS Agent、⑦ 六ステップ Runbook と NUKCLOUD 本番チェックリストです。あわせて 6月 OpenRouter 中国モデルランキングDeepSeek V4 ローカル推論 Runbook も参照できます。

00オープンソースタイムライン:HDC 2026 からフルスタック 7 コンポーネントへ

2026 年 6 月 12 日、華為開発者大会 HDC 2026 が東莞・松山湖で開催され、余承東氏の基調講演で openPangu 2.0 が正式発表されました。約 3 週間後の 6 月 30 日、ファーウェイは約束を果たし、openPangu-2.0-Flash のモデル重み・基礎推論コード・学習推論オペレータを GitCode Ascend Tribe で公開しました。

日付マイルストーン状態
2026-06-12HDC 2026 で openPangu 2.0(Pro + Flash)正式発表発表済み
2026-06-30Flash 重み・推論コード・学習推論オペレータをオープンソース化公開済み
2026-07(予定)openPangu-2.0-Pro 重みと推論コード近日公開
2026 下半期事前学習コード、事後学習コード(SFT/RLHF)、追加学習オペレータ計画中

7 大オープンソースコンポーネントが段階的に公開され、業界でも稀なフルスタック開放を構成しています。

  1. モデル構造(アーキテクチャ定義)
  2. モデル重み(Flash は 6/30 公開済み、Pro は 7 月予定)
  3. 技術レポート(重みと同時公開)
  4. 推論コード(基礎推論 + 学習推論オペレータ)
  5. 事前学習コード(下半期公開、学習フロー全体を再現可能)
  6. 事後学習コード(SFT / RLHF、下半期公開)
  7. 学習オペレータ(昇騰向け高性能カスタムオペレータ、下半期公開)

最初の 4 項目は一般的なオープンソースの範囲です。残り 3 項目は超大規模 MoE では極めて珍しく、研究者や企業が独自データで垂直領域の二次事前学習を行えることを意味します。単に「重みを落として推論する」だけではありません。

痛点openPangu 2.0 を評価する前に陥りやすい 5 つの落とし穴

  • 「オープンソース=全能最強」と誤解する:独立第三者ベンチマークはまだ進行中です。コード生成と複雑推論では DeepSeek V4 Pro が依然として大きな優位を持ちます——ds4 ローカル推論ガイド を参照してください。
  • ハードウェアスタックへのバインドを軽視する:ネイティブ最適化は 昇騰 910B + CANN + torch_npu 向けです。純粋な NVIDIA 環境では 2 倍スループットが出ない場合があり、実クラスタで評価が必要です。
  • 512K コンテキストのコストを過小評価する:長コンテキスト推論はメモリと KV Cache に大きな負荷をかけます。Flash-Int8(W4A8)で 40% 削減できますが、業務精度の許容範囲を検証する必要があります。
  • Flash のスパース比の表現を混同する:Pro は約 28:1(505B/18B)、Flash は約 15:1(92B/6B)です。DSA+SWA 超スパースアテンションは Flash 固有です。
  • Pro の全面公開前であることを見落とす:7 月までは Flash ベースの本番検証にとどまります。超長文書とマルチカード分散推論は Pro 重み公開後に負荷試験してください。

01デュアルバージョン仕様:Pro 505B と Flash 92B

指標openPangu 2.0 ProopenPangu 2.0 Flash
総パラメータ数505B92B
活性化パラメータ数18B6B
スパース比~28:1~15:1
コンテキストウィンドウ512K512K
重みの状態2026 年 7 月(予定)2026-06-30 公開済み
ライセンスopenPangu License(商用利用可、ロイヤリティフリー)

512K コンテキストは、1 回のプロンプトに長編小説およそ 8 冊分のテキストを投入できる規模です。完全な契約書、大規模コードベース、長時間の会話履歴を単一ラウンドで処理できます。Flash は 6B の活性化パラメータで稠密 6B に近いレイテンシを実現しながら、92B の知識プールを参照できるため、高並列 API や限られた VRAM の環境に適しています。

注目データ:単一昇騰カードのスループットは主流オープンソースモデルの 2 倍;30B エッジ Embedded モデルは推論 50% 高速化・メモリ 20% 削減で麒麟チップ搭載スマートフォンでもオフライン動作可能;学習推論一致率 >99%——MoE アーキテクチャにおいて極めて重要な安定性指標です。

02技術アーキテクチャ:mHC ルーティング、Muon 最適化、NVIDIA 非依存学習

openPangu 2.0 は MoE(混合エキスパート) アーキテクチャを採用し、NVIDIA 以外のハードウェアで全規模学習を完遂した初の前沿オープンソース大規模モデルです。学習はすべて 昇騰 910B NPU で行われ、A100 / H100 は一切使用されていません。

  • mHC(Multi-Head Combinatorial)ルーティング:エキスパートルーティング効率を改善し、MoE の負荷不均衡を緩和します。
  • Muon 最適化器:マイクロソフト提案の二階モーメンタム方式で、大規模学習の安定性を向上します。
  • ModAttn(Modular Attention):モジュラーアテンションで 512K 超長コンテキストに対応します。
  • DSA+SWA 超スパースアテンション(Flash 固有):極限のスパース推論で算力要件を削減します。
  • スーパーノード学習効率 +30%512K 長シーケンス学習スループット +50%
  • Flash-Int8:W4A8 量子化でメモリ使用量を 40% 削減、精度損失は通常 <10% です。

ソフトウェアスタックは CANN(CUDA 相当のファーウェイ自社スタック)+ torch_npu(PyTorch アダプター)に基づきます。標準 PyTorch コードは import torch_npu で昇騰バックエンドに切り替えられます。デプロイ経路は華為クラウド ModelArts API、GitCode セルフホスト、HarmonyOS エッジネイティブ統合をカバーします。

03競合横断比較:DeepSeek、Qwen、Kimi、Llama 4

モデル総パラメータ活性化コンテキストライセンス学習 HWオープン深度
openPangu 2.0 Pro505B18B512KopenPangu昇騰 NPUフルスタック 7 要素
openPangu 2.0 Flash92B6B512KopenPangu昇騰 NPUフルスタック 7 要素
DeepSeek V4 Pro1.6T~200B128KMITNVIDIA重み+推論
Qwen 3.7 Max~400B+varies128KApache 2.0NVIDIA重み+推論+一部学習
Kimi K2.71T32B256KModified MITNVIDIA重み+推論
Llama 4 405B405B128KLlama LicenseNVIDIA重み+推論

米国の先端 AI チップ対中輸出規制が続く中、openPangu 2.0 は「NVIDIA がなければ大規模モデルは作れない」という議論への強い反論です。余承東氏は HDC 2026 で「私の辞書に第二はない。第一だけだ。中国一から世界一へ」と述べました。

04能力マトリクスと選定決定木

能力軸openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
コード生成最高
複雑推論最高最高
ツール呼び出し / Agent最高
超長コンテキスト最高
推論効率(昇騰)最高
自律可控性最高
フルスタック OSS最高

選定決定木(簡易版):

  • コード生成 / 複雑推論 → DeepSeek V4 Pro(~200B 活性化、性能リード)
  • Agent / マルチツール連携 → Kimi K2.7(MCP エコシステム充実)
  • 超長文書(>256K Token) → openPangu 2.0 Pro(512K 第一候補)
  • 国産 AI / NVIDIA 非依存 → openPangu 2.0(唯一の前沿選択肢)
  • 昇騰 / 華為クラウド環境 → openPangu 2.0(ネイティブ 2 倍スループット)
  • エッジ / スマホデプロイ → openPangu Embedded(30B エッジ向け)
  • 低コストローカル推論 → openPangu Flash(6B 活性化、~96GB 統一メモリで試験可能)

OpenRouter 6月ランキングと合わせると、DeepSeek の使用量首位は「全能第一」ではありません。賢明な戦略は「前沿クローズド/高難度 5% + 中国オープンウェイト日常 95%」であり、openPangu は長コンテキスト + 主権コンピュートの軸でマトリクスを補完します。

05デプロイガイド:ModelArts API、GitCode、ハードウェア要件

方式一:華為クラウド ModelArts API(最速着手)

  1. 華為クラウドアカウントを登録します
  2. ModelArts → AI Gallery →「openPangu 2.0」を検索します
  3. Flash または Pro を購読し、API Endpoint と Token を取得します
ModelArts openPangu 2.0 Flash API 呼び出し
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [
      {"role": "user", "content": "こんにちは、自己紹介してください"}
    ],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

方式二:GitCode セルフデプロイAscend Tribe 主要リポジトリ):

  • openPangu-2.0-Flash:Flash 重み
  • openPangu-2.0-Flash-Int8:量子化版(メモリ -40%)
  • openPangu-2.0-Infer:推論ソースコード
  • openPangu-2.0-Op:昇騰高性能オペレータ
Flash 単一カード推論(昇騰 910B)
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16
Pro マルチカード分散推論
python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000
LoRA ドメインファインチューニング例
python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16
バージョン推奨 HW最低構成備考
Flash(6B 活性化)単一昇騰 910B~96GB 統一メモリ高メモリ Mac / サーバーでコミュニティ試験可
Flash-Int8単一昇騰 Atlas A2~48GB VRAMW4A8、精度損失 <10%
Pro(18B 活性化)4+ カード昇騰 910Bマルチカードクラスタ7 月重み公開後に検証

06戦略的意義:HarmonyOS Agent と openPangu License

openPangu 2.0 は単体の大規模モデルではなく、ファーウェイ AI 戦略の中核基盤です。HarmonyOS 7 は Agent 時代に全面移行し、HarmonyOS エージェントフレームワーク 2.0 の複雑タスク実行成功率は >90%、openPangu 2.0 をネイティブエンジンとしています。エッジ 30B Embedded は麒麟チップ搭載スマートフォンでローカル動作し、ネット接続は不要です。

openPangu License の要点:商用利用可、ロイヤリティフリー、非独占的です。詳細は GitCode リポジトリの条項を参照してください。フルスタックオープンソース(事前・事後学習コード含む)は学術界と国産 AI 業界にとって、学習再現、垂直領域二次事前学習、昇騰エコシステム参入障壁の低下を意味します。

免責事項:本記事の一部能力評価はアーキテクチャ推論に基づきます。独立第三者ベンチマーク結果公開後に更新します。公開日 2026 年 7 月 1 日。

07六ステップ Runbook:Flash 実験とマルチモデル Agent ゲートウェイ

  1. 01
    シナリオ階層を明確化:超長文書 / 国産 AI コンプライアンス → openPangu;コード推論 → DeepSeek V4 Pro;Agent オーケストレーション → Kimi K2.7。OpenRouter 6月選定マトリクスで日常 95% と前沿 5% のルーティングを固定します。
  2. 02
    クラウド API スモークテスト:華為クラウド ModelArts で Flash を購読し、curl で Chat Completions のレイテンシと 512K 切り捨てポリシーを検証します。Token 単価と QPS 上限を記録します。
  3. 03
    ローカル / クラウド Mac で Flash 試験:コミュニティ評価では 96GB 統一メモリ環境で重みロードと短コンテキスト推論を試せます。NUKCLOUD コンソールで高メモリ Mac ノードをプロビジョニングし、ノート PC のフタ閉じによる中断を避けます。
  4. 04
    GitCode 取得と Ascend スタック:Flash、Flash-Int8、Infer、Op リポジトリをクローンします。昇騰環境で CANN + torch_npu を構成します。NPU がない場合はまず API 経路を使い、ヘルプセンターを参照してください。
  5. 05
    統一ゲートウェイ接続:LiteLLM / 自社ルーターで openPangu ModelArts と DeepSeek、Kimi を並列登録します。長文書タスクは Pro/Flash に自動ルーティング、コードタスクは DeepSeek にフォールバックします。
  6. 06
    7×24 Agent ホスト本番化:パイロット通過後 注文ページでスペックを確定します。本番チェックリストは NUKCLOUD Runbook料金ページで時間課金と月額 TCO を比較します。

ローカル MacBook で openPangu Flash の重みダウンロード、長コンテキスト負荷試験、マルチモデル Agent ループを回すと、フタ閉じスリープ中断、帯域ジッターによる切断、92B スパース重みをロードできないメモリ不足が頻発します。安定した 7×24 オンラインゲートウェイで ModelArts / OpenRouter / セルフホストスタックをルーティングする必要があるチームには、NUKCLOUD 多地域ベアメタル Mac / クラウド Mac ノード96GB 統一メモリ実験環境と Agent 常駐ホストが、共有 VPS やノート PC より Q3 モデル爆発のペースに合わせやすい選択肢です。

08FAQ:openPangu 2.0 よくある質問

openPangu 2.0 はいつオープンソース化されましたか?
HDC 2026(2026-06-12)で正式発表;Flash 重みと推論コードは 2026-06-30 に GitCode 公開;Pro は 2026 年 7 月予定;事前・事後学習コードは 2026 下半期予定です。
Pro と Flash のパラメータ差は?
Pro:505B 総パラ / 18B 活性化 / ~28:1 スパース / 512K。Flash:92B 総パラ / 6B 活性化 / ~15:1 スパース / 512K。Flash はダウンロード可能、Pro は 7 月公開予定です。
なぜ「NVIDIA 非依存学習」の前沿モデルと言われるのですか?
学習はすべて 昇騰 910B NPU で完遂され、A100/H100 は未使用です。米国の対中先端チップ輸出規制下で、前沿規模に達しフルスタックオープンソース化された初の大規模モデルです。
openPangu 2.0 と DeepSeek V4 Pro はどう選びますか?
コードと複雑推論は DeepSeek V4 Pro(~200B 活性化);超長文書(512K)、国産 AI コンプライアンス、昇騰ネイティブデプロイは openPangu。詳細は DeepSeek V4 Runbook を参照してください。
512K コンテキストに実際どれだけ入りますか?
長編小説およそ 8 冊分、または完全な大規模コードベース、契約全文と付録、数時間の会議文字起こしを単一プロンプトで処理できます。
Flash ローカル推論に必要なハードウェアは?
推奨は単一 昇騰 910B です。コミュニティ試験では ~96GB 統一メモリシステムで可能です。Flash-Int8 は約 48GB VRAM、メモリ 40% 削減です。
商用利用は可能ですか?
可能です。openPangu License は商用利用とロイヤリティフリーを許可します。制限の詳細は GitCode リポジトリ条項を参照してください。
ベンチマーク成績は?
独立第三者評価は進行中です。本記事の能力マトリクスはアーキテクチャ推論に基づきます。第三者テスト公開後に更新します

本記事は 2026 年 7 月 1 日執筆。外部参照:GitCode Ascend Tribe華為クラウド ModelArtsHDC 2026