Huawei openPangu 2.0 오픈소스 공개 — NVIDIA GPU 한 장 없이 훈련된 프론티어 모델
HDC 2026에서 위청동(余承동)의 Pangu 오픈소스, openPangu 2.0과 DeepSeek의 512K·컴플라이언스 선정을 고민한다면, 본문은 6월 30일 Flash 공개를 기준으로 이벤트 타임라인, 7대 구성요소 OSS 로드맵, mHC/ModAttn 아키텍처, Ascend 하드웨어 지표, 경쟁 비교 매트릭스, ModelArts/GitCode 배포, 5단계 Runbook을 다룹니다.
목차
1. 선정의 3가지 pain point: 오픈소스 깊이, 하드웨어 종속, 컨텍스트 길이
- 「오픈소스」가 항상 풀스택은 아닙니다. 대부분의 프론티어 모델은 가중치와 추론 코드만 공개——사전학습, 사후학습, 커스텀 훈련 연산자는 비공개. 훈련 파이프라인 재현이나 도메인 지속 사전학습이 불가능합니다.
- 하드웨어 바인딩과 컴플라이언스. DeepSeek, Qwen, Kimi, Llama는 모두 NVIDIA 하드웨어로 훈련. 미국 수출 통제 하에서 NVIDIA GPU 없이 훈련된 프론티어 모델이 필요한 팀의 선택지는 현재 openPangu 2.0뿐입니다.
- 컨텍스트 창이 유스케이스를 결정합니다. 계약서 전문, 대규모 코드베이스, 장시간 채팅 기록은 128K를 넘기 쉽습니다. openPangu 2.0 두 버전 모두 통합 512K——장편 소설 8권 분량을 한 번에 처리.
2. 이벤트 배경과 타임라인: HDC 2026에서 GitCode 공개까지
| 날짜 | 이벤트 |
|---|---|
| 2026-06-12 | Huawei Developer Conference(HDC 2026), Dongguan Songshan Lake——위청동(余承東) 기조연설로 openPangu 2.0 공식 출시 |
| 2026-06-30 | openPangu-2.0-Flash 가중치, 기본 추론 코드, 훈련/추론 연산자 GitCode 오픈소스 |
| 2026-07(예정) | openPangu-2.0-Pro 가중치 및 추론 코드 공개 |
| 2026년 하반기(예정) | 사전학습 코드, 사후학습 코드(SFT/RLHF), 추가 훈련 연산자 순차 공개 |
HDC 2026에서 위청동은 다음과 같이 말했다: "내 남은 인생의 사전에는 '두 번째'란 단어가 없다——오직 '첫 번째'만 있다. 중국 1위에서 세계 1위로 나아갈 것이다."
3. 시나리오별 두 버전
| Pro | Flash | |
|---|---|---|
| 총 파라미터 | 505B | 92B |
| 활성 파라미터 | 18B | 6B |
| 희소 비율 | ~28:1 | ~15:1 |
| 컨텍스트 창 | 512K | 512K |
| 공개 상태 | 7월(예정) | 6월 30일(공개) |
Flash: 총 92B, 활성 6B만——6B dense 수준 비용으로 92B 지식 풀 활용. Ascend 910B 단일 카드 추론 지원. 약 96GB 통합 메모리에서도 동작 가능(커뮤니티 추정).
Pro: 총 505B, 활성 18B——초장문서 워크로드용. 512K 창으로 계약 전문, 대규모 저장소, 긴 대화 기록을 한 번에 처리.
4. 7대 구성요소 풀스택 오픈소스: 이번 공개의 의미
대부분의 오픈 LLM은 가중치 + 추론 코드만 제공. openPangu 2.0은 7대 주요 구성요소를 순차 공개 예정:
- 모델 아키텍처(구조 정의) — ✅ 공개
- 모델 가중치(Flash 6/30 공개; Pro 7월 예정)
- 기술 보고서 — ✅ 가중치와 동시 공개
- 추론 코드 + 훈련/추론 연산자 — ✅ 공개
- 사전학습 코드 — 📋 2026년 하반기
- 사후학습 코드(SFT/RLHF) — 📋 2026년 하반기
- 훈련 연산자(Ascend 고성능 커스텀 커널) — 📋 2026년 하반기
마지막 3개는 이 MoE 규모에서 극히 드묾——진정한 풀스택 오픈소스 실현. 연구자는 훈련 재현, 기업은 수직 지속 사전학습 가능.
5. 아키텍처 심층 분석
openPangu 2.0은 MoE(Mixture of Experts) 설계. 핵심 기술:
- mHC(Multi-Head Combinatorial) 라우팅: 전문가 라우팅 효율 향상, 부하 불균형 감소
- Muon 옵티마이저: Microsoft 2차 모멘텀 방식으로 대규모 훈련 안정화
- ModAttn(Modular Attention): 512K 초장 컨텍스트용 모듈형 Attention 블록
- DSA+SWA 초희소 Attention(Flash만): 극단적 희소 비율로 추론 연산 절감
개발자 생태계와 소프트웨어 스택
- CANN(Huawei 컴퓨팅 스택, CUDA급) + torch_npu(PyTorch 어댑터)
- 표준 PyTorch 코드는
import torch_npu로 Ascend 전환 - 배포: Huawei Cloud ModelArts(API), GitCode Ascend Tribe(자체 호스팅), HarmonyOS 네이티브 통합
6. 최초의 「NVIDIA 미사용」프론티어 모델: Ascend 하드웨어 적응
openPangu 2.0은 비 NVIDIA 하드웨어로만 훈련된 최초의 프론티어 규모 모델——Huawei Ascend 910B NPU end-to-end, A100/H100 미사용.
| 지표 | 데이터 |
|---|---|
| 단일 카드 처리량(Ascend) | 주류 OSS 모델 대비 2배 |
| 슈퍼노드 훈련 효율 | +30% |
| 512K 장시퀀스 훈련 처리량 | +50% |
| 훈련/추론 일치성 | >99%(MoE 오랜 pain point) |
| 추론 지연 | 동급 대비 1.2배 개선 |
| 온디바이스 30B 임베디드 | 추론 50% 빠름, 메모리 20% 절감; Kirin 칩 오프라인 |
| Flash-Int8 양자화 | W4A8, 메모리 40% 절감, 정확도 손실 <10% |
7. 경쟁 비교 및 선정 매트릭스
파라미터 정면 비교
| 모델 | 총 파라미터 | 활성 파라미터 | 컨텍스트 | 훈련 하드웨어 | 개방도 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | 풀스택(7 구성요소) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | 풀스택(7 구성요소) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 가중치 + 추론 |
| Qwen 3.7 Max | ~400B+ | 가변 | 128K | NVIDIA | 가중치 + 추론 + 부분 훈련 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 가중치 + 추론 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 가중치 + 추론 |
시나리오별 역량 매트릭스
| 시나리오 | 권장 | 이유 |
|---|---|---|
| 코드 생성 / 복잡 추론 | DeepSeek V4 Pro | ~200B 활성 파라미터, 현재 성능 선두 |
| Agent / 멀티툴 오케스트레이션 | Kimi K2.7 | 성숙한 MCP 생태계 |
| 초장문서(>256K 토큰) | openPangu 2.0 Pro | 512K 컨텍스트가 명확한 선택 |
| 국내 컴플라이언스 / 소버린 AI | openPangu 2.0 | 순 국산 하드웨어 훈련 유일 프론티어 |
| Ascend / Huawei Cloud 배포 | openPangu 2.0 | 네이티브 최적화, 2배 처리량 |
| 온디바이스 / 모바일 배포 | 임베디드 30B | Kirin 칩 로컬 추론 |
| 저비용 로컬 추론 | Flash | 활성 6B, ~96GB VRAM 실행 |
참고: 독립 제3자 벤치마크 진행 중; 아래 역량 평가는 일부 아키텍처 추정 기반이며 결과 공개 후 업데이트.
8. 접근 및 배포: ModelArts API와 GitCode 자체 호스팅
옵션 1: Huawei Cloud ModelArts API(가장 간단)
- Huawei Cloud 계정 생성
- ModelArts → AI Gallery → "openPangu 2.0" 검색
- Flash 또는 Pro 구독 후 API 엔드포인트 획득
옵션 2: GitCode 자체 배포
저장소 허브: gitcode.com/org/ascend-tribe
openPangu-2.0-Flash: Flash 가중치openPangu-2.0-Flash-Int8: 양자화 빌드(메모리 40% 절감)openPangu-2.0-Infer: 추론 소스openPangu-2.0-Op: Ascend 고성능 연산자
하드웨어 요구사항(참고)
| 버전 | 권장 하드웨어 | 최소 구성 |
|---|---|---|
| Flash(활성 6B) | Ascend 910B 단일 카드 | ~96GB 통합 메모리 |
| Flash-Int8 | Atlas A2 단일 카드 | ~48GB VRAM |
| Pro(활성 18B) | Ascend 910B 4카드 이상 | 멀티 카드 클러스터(7월 가중치 후 검증) |
9. 전략적 의미, HarmonyOS Agent, openPangu 라이선스
- 지정학: A100/H100 대중 규제 하 openPangu 2.0은 NVIDIA 없이 프론티어 훈련 가능함을 입증
- 풀스택 OSS 가치: 재현 가능 연구, 기업 지속 사전학습, Ascend 생태계 진입 장벽 하향
- HarmonyOS Agent 기반: HarmonyOS 7 Agent 시대; HarmonyOS Agent Framework 2.0 복잡 태스크 >90% 성공; 온디바이스 30B 오프라인
- openPangu License: 상업 이용 허용, 로열티 프리, 비독점(GitCode 저장소 약관 참조)
10. 5단계 시작 Runbook
1단계 — 시나리오와 버전 정의
초장문→Pro; 저비용 API→Flash; 컴플라이언스→어느 버전; 온디바이스→임베디드 30B.
2단계 — 접속 경로 선택
하드웨어 없음: Huawei Cloud ModelArts API. Ascend 보유: GitCode에서 가중치 다운로드 자체 호스팅.
3단계 — Ascend 소프트웨어 스택 구성
4단계 — 추론 실행 또는 API 호출
Flash 단일 카드 inference.py; 양자화→Flash-Int8; Pro 멀티 카드 distributed_inference.py.
5단계 — OSS 로드맵과 벤치마크 업데이트 추적
GitCode Ascend Tribe 모니터; 7월 Pro 공개 시 배포 노트 업데이트; 제3자 점수 공개 후 추정 교체.
11. 인용 가능한 기술 사실
- openPangu 2.0 Pro: 505B 총 / 18B 활성; Flash: 92B / 6B; 둘 다 512K 컨텍스트.
- 최초 프론티어 규모 모델 비 NVIDIA 하드웨어 훈련·OSS; 훈련 스택 Ascend 910B.
- Ascend 단일 카드 처리량 2배 주류 OSS; 훈련/추론 일치 >99%; 512K 장시퀀스 +50%.
- 7대 구성요소 공개 예정——사전/사후학습·훈련 연산자 포함, 이 MoE 규모에서 드묾.
12. 결론: 만능 챔피언은 아니지만 핵심 축에서는 대체 불가
DeepSeek V4 Pro는 코드 생성과 어려운 추론에서 여전히 선두. 그러나 openPangu 2.0은 512K 초장 컨텍스트, 소버린 국내 훈련, 2배 Ascend 네이티브 처리량, 풀스택 OSS, HarmonyOS 온디바이스 통합에서 거의 무적. Flash 가중치 6월 30일 공개——뉴스 사이클 한복판.
노트북이나 범용 Linux VPS에서 openPangu API를 연결하고 HarmonyOS Agent를 오케스트레이션하거나 멀티모델 게이트웨이를 운영하면 장시간 프로덕션에서 덮개 닫힘 끊김, Apple 툴체인 부재, 운영 오버헤드에 직면하기 쉽습니다. 7×24 안정 Agent 워크로드, OpenClaw 게이트웨이, 네이티브 iOS/macOS 툴체인에는 VPSMAC M4 Mac 클라우드 노드 임대가 낮은 마찰——OSS 생태계 진화에 맞춰 모델 교체하며 네이티브 macOS 런타임 안정 유지.
본문 일부 벤치마크 수치는 아키텍처 추정치입니다. 독립 제3자 결과 공개 후 업데이트합니다. 게시일: 2026년 7월 1일.