화웨이 openPangu 2.0 정식 오픈소스: 505B MoE, 512K 컨텍스트, 어센드 풀스택 공개

HDC 2026(6/12)에서 위청동이 오픈소스 반고 2.0을 발표했습니다. 6/30에는 openPangu 2.0 Flash 가중치와 추론 코드가 GitCode에 공개되었으며, 어센드 910B에서 선단 규모 학습을 완료한 NVIDIA 비의존 오픈소스 MoE 대규모 모델로 주목받고 있습니다. 512K 컨텍스트는 장편 소설 약 8권 분량의 텍스트에 해당합니다.

openPangu 2.0, 화웨이 대규모 모델 오픈소스, 512K 컨텍스트, 어센드 NPU 배포를 검토하는 Tech Lead와 개발자를 위해 본 글은 조사 자료의 핵심을 모두 다룹니다. ① HDC 2026 타임라인과 7대 오픈소스 컴포넌트, ② Pro/Flash 사양과 mHC·Muon·ModAttn·DSA+SWA 기술 스택, ③ DeepSeek V4 Pro·Qwen 3.7 Max·Kimi K2.7·Llama 4 405B 비교, ④ 역량 매트릭스와 선정 결정 트리, ⑤ ModelArts API와 GitCode 셀프호스트 명령, ⑥ 국산 AI 전략과 HarmonyOS Agent, ⑦ 6단계 Runbook과 NUKCLOUD 프로덕션 체크리스트입니다. 6월 OpenRouter 중국 모델 랭킹DeepSeek V4 로컬 추론 Runbook도 함께 참고하세요.

00오픈소스 타임라인: HDC 2026부터 풀스택 7대 컴포넌트까지

2026년 6월 12일, 화웨이 개발자 대회 HDC 2026이 동관 송산호에서 열렸고, 위청동의 기조 연설에서 openPangu 2.0이 공식 발표되었습니다. 약 3주 뒤인 6월 30일, 화웨이는 약속을 이행하여 openPangu-2.0-Flash 모델 가중치, 기본 추론 코드, 학습·추론 연산자를 GitCode Ascend Tribe에 공개했습니다.

시점마일스톤상태
2026-06-12HDC 2026에서 openPangu 2.0(Pro + Flash) 공식 발표발표 완료
2026-06-30Flash 가중치, 추론 코드, 학습·추론 연산자 오픈소스공개 완료
2026-07(예정)openPangu-2.0-Pro 가중치와 추론 코드곧 공개
2026 하반기사전 학습 코드, 사후 학습 코드(SFT/RLHF), 추가 학습 연산자계획 중

7대 오픈소스 컴포넌트가 단계적으로 공개되며, 업계에서 드문 풀스택 개방을 구성합니다.

  1. 모델 구조(아키텍처 정의)
  2. 모델 가중치(Flash 6/30 공개, Pro 7월 예정)
  3. 기술 보고서(가중치와 동시 공개)
  4. 추론 코드(기본 추론 + 학습·추론 연산자)
  5. 사전 학습 코드(하반기 공개, 전체 학습 파이프라인 재현 가능)
  6. 사후 학습 코드(SFT / RLHF, 하반기 공개)
  7. 학습 연산자(어센드 고성능 커스텀 연산자, 하반기 공개)

앞의 4항목은 일반적인 오픈소스 범위입니다. 나머지 3항목은 초대규모 MoE에서 매우 드물며, 연구자와 기업이 독점 데이터로 수직 도메인 2차 사전 학습을 할 수 있음을 의미합니다. 단순히 가중치를 받아 추론만 하는 수준이 아닙니다.

痛点openPangu 2.0 평가 전 팀이 자주 빠지는 5가지 함정

  • 「오픈소스 = 만능 최강」으로 오해: 독립 제3자 벤치마크는 아직 진행 중입니다. 코드 생성과 복잡 추론에서는 DeepSeek V4 Pro가 여전히 뚜렷한 우위를 보입니다. ds4 로컬 추론 가이드를 참고하세요.
  • 하드웨어 스택 바인딩 간과: 네이티브 최적화는 어센드 910B + CANN + torch_npu 대상입니다. 순수 NVIDIA 환경에서는 2배 처리량이 나오지 않을 수 있어 실제 클러스터 평가가 필요합니다.
  • 512K 컨텍스트 비용 과소평가: 장문맥 추론은 메모리와 KV Cache에 큰 부담을 줍니다. Flash-Int8(W4A8)로 40% 절감 가능하지만, 업무 정확도 허용 범위를 검증해야 합니다.
  • Flash 희소 비율 표현 혼동: Pro는 약 28:1(505B/18B), Flash는 약 15:1(92B/6B)입니다. DSA+SWA 초희소 어텐션은 Flash 전용입니다.
  • Pro 전면 공개 전이라는 점 무시: 7월 전까지는 Flash 기반 프로덕션 검증에 그칩니다. 초장문서와 멀티카드 분산 추론은 Pro 가중치 공개 후 부하 테스트하세요.

01듀얼 버전 사양: Pro 505B와 Flash 92B

지표openPangu 2.0 ProopenPangu 2.0 Flash
총 파라미터505B92B
활성 파라미터18B6B
희소 비율~28:1~15:1
컨텍스트 윈도512K512K
가중치 상태2026년 7월(예정)2026-06-30 공개
라이선스openPangu License(관대한 상업 이용, 로열티 프리)

512K 컨텍스트는 한 번의 프롬프트에 장편 소설 약 8권 분량의 텍스트를 넣을 수 있는 규모입니다. 전체 계약서, 대규모 코드베이스, 긴 대화 기록을 단일 라운드로 처리할 수 있습니다. Flash는 6B 활성 파라미터로 밀집 6B에 가까운 지연 시간을 내면서 92B 지식 풀을 참조하므로, 고동시 API와 제한된 VRAM 환경에 적합합니다.

핵심 수치: 단일 어센드 카드 처리량은 주류 오픈소스 모델의 2배; 30B 엣지 Embedded 모델은 추론 50% 가속, 메모리 20% 절감으로 기린 칩 스마트폰 오프라인 실행 지원; 학습·추론 일치율 >99% — MoE 아키텍처에서 매우 가치 있는 안정성 지표입니다.

02기술 아키텍처: mHC 라우팅, Muon 옵티마이저, NVIDIA 비의존 학습

openPangu 2.0은 MoE(혼합 전문가) 아키텍처를 채택했으며, NVIDIA 이외 하드웨어에서 전 규모 학습을 완료한 최초의 선단 오픈소스 대규모 모델입니다. 학습은 전 과정 어센드 910B NPU에서 수행되었고 A100/H100은 사용되지 않았습니다.

  • mHC(Multi-Head Combinatorial) 라우팅: 전문가 라우팅 효율을 개선하고 MoE 부하 불균형을 완화합니다.
  • Muon 옵티마이저: 마이크로소프트가 제안한 2차 모멘텀 방식으로 대규모 학습 안정성을 높입니다.
  • ModAttn(Modular Attention): 모듈형 어텐션으로 512K 초장문맥에 대응합니다.
  • DSA+SWA 초희소 어텐션(Flash 전용): 극한 희소 추론으로 연산 요구를 낮춥니다.
  • 슈퍼노드 학습 효율 +30%; 512K 장시퀀스 학습 처리량 +50%.
  • Flash-Int8: W4A8 양자화로 메모리 사용량 40% 감소, 정확도 손실은 보통 <10%입니다.

소프트웨어 스택은 CANN(CUDA에 상응하는 화웨이 자체 스택) + torch_npu(PyTorch 어댑터) 기반입니다. 표준 PyTorch 코드는 import torch_npu로 어센드 백엔드에 전환할 수 있습니다. 배포 경로는 화웨이 클라우드 ModelArts API, GitCode 셀프호스트, HarmonyOS 엣지 네이티브 통합을 포괄합니다.

03경쟁 모델 횡단 비교: DeepSeek, Qwen, Kimi, Llama 4

모델총 파라미터활성컨텍스트라이선스학습 HW오픈 깊이
openPangu 2.0 Pro505B18B512KopenPangu어센드 NPU풀스택 7요소
openPangu 2.0 Flash92B6B512KopenPangu어센드 NPU풀스택 7요소
DeepSeek V4 Pro1.6T~200B128KMITNVIDIA가중치+추론
Qwen 3.7 Max~400B+varies128KApache 2.0NVIDIA가중치+추론+일부 학습
Kimi K2.71T32B256KModified MITNVIDIA가중치+추론
Llama 4 405B405B128KLlama LicenseNVIDIA가중치+추론

미국의 선단 AI 칩 대중 수출 규제가 지속되는 가운데, openPangu 2.0은 「NVIDIA 없이는 대규모 모델을 만들 수 없다」는 주장에 대한 강력한 반론입니다. 위청동은 HDC 2026에서 「내 인생 사전에 둘째는 없고 첫째만 있다. 중국 1위에서 세계 1위로 나아갈 것」이라고 밝혔습니다.

04역량 매트릭스와 선정 결정 트리

역량 축openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
코드 생성보통최상높음높음
복잡 추론보통최상최상높음
도구 호출 / Agent높음높음높음최상
초장문맥최상보통보통높음
추론 효율(어센드)최상낮음낮음높음
자주 통제최상낮음낮음낮음
풀스택 OSS최상보통보통보통

선정 결정 트리(요약):

  • 코드 생성 / 복잡 추론 → DeepSeek V4 Pro(~200B 활성, 성능 선도)
  • Agent / 멀티 도구 협업 → Kimi K2.7(MCP 생태계 성숙)
  • 초장문서(>256K Token) → openPangu 2.0 Pro(512K 1순위)
  • 국산 AI / NVIDIA 비의존 → openPangu 2.0(유일한 선단 선택지)
  • 어센드 / 화웨이 클라우드 환경 → openPangu 2.0(네이티브 2배 처리량)
  • 엣지 / 스마트폰 배포 → openPangu Embedded(30B 엣지)
  • 저비용 로컬 추론 → openPangu Flash(6B 활성, ~96GB 통합 메모리 시험 가능)

OpenRouter 6월 랭킹과 함께 보면, DeepSeek 호출량 1위가 만능 1위는 아닙니다. 합리적 전략은 「선단 클로즈드/고난이도 5% + 중국 오픈 웨이트 일상 95%」이며, openPangu는 장문맥 + 주권 컴퓨트 축에서 매트릭스를 보완합니다.

05배포 가이드: ModelArts API, GitCode, 하드웨어 요구사항

방안 1: 화웨이 클라우드 ModelArts API(가장 빠른 시작)

  1. 화웨이 클라우드 계정을 등록합니다
  2. ModelArts → AI Gallery → 「openPangu 2.0」 검색
  3. Flash 또는 Pro 구독 후 API Endpoint와 Token 획득
ModelArts openPangu 2.0 Flash API 호출
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [
      {"role": "user", "content": "안녕하세요, 자기소개 부탁드립니다"}
    ],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

방안 2: GitCode 셀프 배포(Ascend Tribe 주요 저장소):

  • openPangu-2.0-Flash: Flash 가중치
  • openPangu-2.0-Flash-Int8: 양자화 버전(메모리 -40%)
  • openPangu-2.0-Infer: 추론 소스 코드
  • openPangu-2.0-Op: 어센드 고성능 연산자
Flash 단일 카드 추론(어센드 910B)
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16
Pro 멀티카드 분산 추론
python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000
LoRA 도메인 파인튜닝 예시
python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16
버전권장 HW최소 구성비고
Flash(6B 활성)단일 어센드 910B~96GB 통합 메모리고메모리 Mac/서버에서 커뮤니티 시험 가능
Flash-Int8단일 어센드 Atlas A2~48GB VRAMW4A8, 정확도 손실 <10%
Pro(18B 활성)4+ 카드 어센드 910B멀티카드 클러스터7월 가중치 공개 후 검증

06전략적 의미: HarmonyOS Agent와 openPangu License

openPangu 2.0은 독립 대규모 모델일 뿐 아니라 화웨이 AI 전략의 핵심 기반입니다. HarmonyOS 7은 Agent 시대로 전면 진입했으며, HarmonyOS 에이전트 프레임워크 2.0의 복잡 작업 실행 성공률은 >90%이고 openPangu 2.0을 네이티브 엔진으로 사용합니다. 엣지 30B Embedded는 기린 칩 스마트폰에서 로컬 실행되며 네트워크가 필요 없습니다.

openPangu License 요점: 상업 이용 허용, 로열티 프리, 비독점적입니다. 세부 조항은 GitCode 저장소를 기준으로 합니다. 풀스택 오픈소스(사전·사후 학습 코드 포함)는 학계와 국산 AI 업계에 학습 재현, 수직 도메인 2차 사전 학습, 어센드 생태계 진입 장벽 완화를 의미합니다.

면책 조항: 본 글의 일부 역량 평가는 아키텍처 추론에 기반합니다. 독립 제3자 벤치마크 결과 공개 후 업데이트합니다. 게시일 2026년 7월 1일.

076단계 Runbook: Flash 실험과 멀티모델 Agent 게이트웨이

  1. 01
    시나리오 계층 명확화: 초장문서/국산 AI 컴플라이언스 → openPangu; 코드 추론 → DeepSeek V4 Pro; Agent 오케스트레이션 → Kimi K2.7. OpenRouter 6월 선정 매트릭스로 일상 95%와 선단 5% 라우팅을 고정합니다.
  2. 02
    클라우드 API 스모크 테스트: 화웨이 클라우드 ModelArts에서 Flash 구독 후 curl로 Chat Completions 지연과 512K 절단 정책을 검증합니다. Token 단가와 QPS 상한을 기록합니다.
  3. 03
    로컬/클라우드 Mac에서 Flash 시험: 커뮤니티 평가는 96GB 통합 메모리 환경에서 가중치 로드와 짧은 컨텍스트 추론을 시험할 수 있습니다. NUKCLOUD 콘솔에서 고메모리 Mac 노드를 프로비저닝해 노트북 덮개로 인한 중단을 피합니다.
  4. 04
    GitCode 클론과 Ascend 스택: Flash, Flash-Int8, Infer, Op 저장소를 클론합니다. 어센드 환경에 CANN + torch_npu를 구성합니다. NPU가 없으면 먼저 API 경로를 사용하고 도움말 센터를 참고합니다.
  5. 05
    통합 게이트웨이 연결: LiteLLM/자체 라우터에 openPangu ModelArts와 DeepSeek, Kimi를 병렬 등록합니다. 장문서 작업은 Pro/Flash로 자동 라우팅, 코드 작업은 DeepSeek으로 폴백합니다.
  6. 06
    7×24 Agent 호스트 프로덕션: 파일럿 통과 후 주문 페이지에서 스펙을 확정합니다. 프로덕션 체크리스트는 NUKCLOUD Runbook, 가격 페이지에서 시간 과금과 월간 TCO를 비교합니다.

로컬 MacBook에서 openPangu Flash 가중치 다운로드, 장문맥 부하 테스트, 멀티모델 Agent 루프를 돌리면 덮개 닫힘 슬립 중단, 대역폭 지터로 인한 연결 끊김, 92B 희소 가중치를 로드할 메모리 부족이 자주 발생합니다. 안정적인 7×24 온라인 게이트웨이로 ModelArts/OpenRouter/셀프호스트 스택을 라우팅해야 하는 팀에게 NUKCLOUD 다지역 베어메탈 Mac/클라우드 Mac 노드96GB 통합 메모리 실험 환경과 Agent 상주 호스트는 공유 VPS나 노트북보다 Q3 모델 폭발 속도에 맞추기 쉬운 선택입니다.

08FAQ: openPangu 2.0 자주 묻는 질문

openPangu 2.0은 언제 오픈소스되었나요?
HDC 2026(2026-06-12) 공식 발표; Flash 가중치와 추론 코드는 2026-06-30 GitCode 공개; Pro는 2026년 7월 예정; 사전·사후 학습 코드는 2026 하반기 예정입니다.
Pro와 Flash 파라미터 차이는?
Pro: 505B 총 파라 / 18B 활성 / ~28:1 희소 / 512K. Flash: 92B 총 파라 / 6B 활성 / ~15:1 희소 / 512K. Flash는 다운로드 가능, Pro는 7월 공개 예정입니다.
왜 「NVIDIA 비의존 학습」 선단 모델이라고 하나요?
학습은 전 과정 어센드 910B NPU에서 완료되었고 A100/H100은 미사용입니다. 미국의 대중 선단 칩 수출 규제 하에서 선단 규모에 도달하고 풀스택 오픈소스화된 최초의 대규모 모델입니다.
openPangu 2.0과 DeepSeek V4 Pro는 어떻게 고르나요?
코드와 복잡 추론은 DeepSeek V4 Pro(~200B 활성); 초장문서(512K), 국산 AI 컴플라이언스, 어센드 네이티브 배포는 openPangu. 자세히는 DeepSeek V4 Runbook을 참고하세요.
512K 컨텍스트에 실제로 얼마나 들어가나요?
장편 소설 약 8권 분량, 또는 전체 대규모 코드베이스, 계약 전문과 부록, 수 시간 회의 녹취록을 단일 프롬프트로 처리할 수 있습니다.
Flash 로컬 추론에 필요한 하드웨어는?
권장은 단일 어센드 910B입니다. 커뮤니티 시험은 ~96GB 통합 메모리 시스템에서 가능합니다. Flash-Int8은 약 48GB VRAM, 메모리 40% 절감입니다.
상업 이용이 가능한가요?
가능합니다. openPangu License는 상업 이용과 로열티 프리를 허용합니다. 제한 사항은 GitCode 저장소 조항을 따릅니다.
벤치마크 성적은?
독립 제3자 평가가 진행 중입니다. 본 글 역량 매트릭스는 아키텍처 추론 기반입니다. 제3자 테스트 공개 후 업데이트합니다.

본 글 작성일 2026년 7월 1일. 외부 참고: GitCode Ascend Tribe, 화웨이 클라우드 ModelArts, HDC 2026.