Huawei openPangu 2.0 がオープンソースに——NVIDIA GPU 一枚も使わず訓練されたフロンティアモデル
HDC 2026 で余承東が盤古を OSS 化した動き、openPangu 2.0 と DeepSeek の 512K・コンプライアンス選定、いずれも気になるなら、本記事は 6 月 30 日 Flash 公開を軸に、イベント年表、七组件 OSS ロードマップ、mHC/ModAttn アーキテクチャ、昇腾ハード指標、競合比較マトリクス、ModelArts/GitCode デプロイ、5 段階 Runbook を網羅します。
目次
1. 選定の3つの痛点:OSS の深さ、ハードロックイン、コンテキスト長
- 「オープンソース」が必ずしもフルスタックではない。 多くのフロンティアモデルは重みと推論コードのみ公開——事前学習・事後学習・カスタム訓練オペレータは非公開。訓練パイプラインの再現やドメイン継続事前学習ができない。
- ハードバインドとコンプライアンス。 DeepSeek、Qwen、Kimi、Llama はすべて NVIDIA ハードで訓練。米国輸出規制下、NVIDIA GPU 不使用のフロンティアモデルが必要なチームの選択肢は現時点で openPangu 2.0 のみ。
- コンテキスト窓がユースケースを決める。 契約書全文、大規模コードベース、長時間チャット履歴は 128K を超えがち。openPangu 2.0 両バリアントは統一 512K——長編小説8冊分相当を一括投入可能。
2. イベント背景とタイムライン:HDC 2026 から GitCode 公開
| 日付 | イベント |
|---|---|
| 2026-06-12 | Huawei Developer Conference(HDC 2026)東莞松山湖——余承東基調講演で openPangu 2.0 正式発表 |
| 2026-06-30 | openPangu-2.0-Flash 重み・基本推論コード・訓推オペレータが GitCode で OSS 化 |
| 2026-07(予定) | openPangu-2.0-Pro 重みと推論コード公開 |
| 2026年下半期(予定) | 事前学習コード、事後学習コード(SFT/RLHF)、追加訓練オペレータ順次公開 |
HDC 2026 で余承東はこう述べた:「私の残りの人生の辞書には『第二位』という言葉はない——あるのは『第一位』だけだ。中国一から世界一へと進む。」
3. シナリオ別2バージョン
| Pro | Flash | |
|---|---|---|
| 総パラメータ | 505B | 92B |
| 活性パラメータ | 18B | 6B |
| スパース比 | ~28:1 | ~15:1 |
| コンテキスト窓 | 512K | 512K |
| 公開状況 | 7月(予定) | 6月30日(公開済) |
Flash:総92B・活性6Bのみ——6B dense 並みのコストで92B知識プールを活用。昇腾910B単卡推論対応。約96GB統一メモリでも動作する可能性(コミュニティ推定)。
Pro:総505B・活性18B——超長文書ワークロード向け。512K窓で契約全文・大規模リポジトリ・長会話履歴を一括投入。
4. 七组件フルスタック OSS:今回の公開の意義
多くの OSS LLM は 重み + 推論コード のみ。openPangu 2.0 は 7大コンポーネント を順次公開予定:
- モデルアーキテクチャ(構造定義)—— ✅ 公開済
- モデル重み(Flash 6/30 公開;Pro 7月予定)
- 技術レポート—— ✅ 重みと同時公開
- 推論コード + 訓推オペレータ—— ✅ 公開済
- 事前学習コード—— 📋 2026年下半期
- 事後学習コード(SFT/RLHF)—— 📋 2026年下半期
- 訓練オペレータ(昇腾高性能カスタムカーネル)—— 📋 2026年下半期
後3つはこの MoE 規模では極めて稀——真の フルスタック OSS を実現。研究者は訓練再現、企業は垂直継続事前学習が可能。
5. アーキテクチャ詳解
openPangu 2.0 は MoE(Mixture of Experts) 設計。主要技術:
- mHC(Multi-Head Combinatorial)ルーティング:エキスパートルーティング効率向上、負荷不均衡低減
- Muon オプティマイザ:Microsoft 二次モーメンタム方式で大規模訓練を安定化
- ModAttn(Modular Attention):512K 超長コンテキスト向けモジュラー Attention ブロック
- DSA+SWA 超スパース Attention(Flash のみ):極端なスパース比で推論計算削減
開発者エコシステムとソフトスタック
- CANN(Huawei 計算スタック、CUDA 級)+ torch_npu(PyTorch アダプタ)
- 標準 PyTorch コードは
import torch_npuで昇腾に切替 - デプロイ面:Huawei Cloud ModelArts(API)、GitCode Ascend Tribe(自ホスト)、HarmonyOS ネイティブ統合
6. 初の「NVIDIA 不使用」フロンティアモデル:昇腾ハード適応
openPangu 2.0 は 非 NVIDIA ハードのみで訓練された初のフロンティア規模モデル——Huawei 昇腾 910B NPU 端到端、A100/H100 不使用。
| 指標 | データ |
|---|---|
| 単卡スループット(昇腾) | 主流 OSS モデルの 2倍 |
| スーパーノード訓練効率 | +30% |
| 512K 長系列訓練スループット | +50% |
| 訓練/推論一致性 | >99%(MoE 長年の痛点) |
| 推論レイテンシ | 同業比 1.2倍 改善 |
| 端末組込30Bモデル | 推論50%高速・メモリ20%削減;Kirin チップでオフライン実行 |
| Flash-Int8 量子化 | W4A8、メモリ40%削減、精度損失 <10% |
7. 競合比較と選定マトリクス
パラメータ正面比較
| モデル | 総パラメータ | 活性パラメータ | コンテキスト | 訓練ハード | 開放度 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | フルスタック(7组件) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | フルスタック(7组件) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 重み + 推論 |
| Qwen 3.7 Max | ~400B+ | 可変 | 128K | NVIDIA | 重み + 推論 + 部分訓練 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 重み + 推論 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 重み + 推論 |
シナリオ別能力マトリクス
| シナリオ | 推奨 | 理由 |
|---|---|---|
| コード生成 / 複雑推論 | DeepSeek V4 Pro | ~200B 活性パラメータ、現性能リーダー |
| Agent / マルチツール編成 | Kimi K2.7 | 成熟 MCP エコシステム |
| 超長文書(>256K トークン) | openPangu 2.0 Pro | 512K コンテキストが明確な選択 |
| 国内コンプライアンス / ソブリン AI | openPangu 2.0 | 純国産ハード訓練の唯一のフロンティアモデル |
| 昇腾 / 华为クラウドデプロイ | openPangu 2.0 | ネイティブ最適化、2倍スループット |
| 端末 / モバイルデプロイ | 組込30B | Kirin チップでローカル推論 |
| 低コストローカル推論 | Flash | 活性6B、~96GB VRAM で実行可能 |
注:独立第三者ベンチマークは進行中;以下の能力評価は一部アーキテクチャ推定に基づき、結果公開後に更新します。
8. アクセスとデプロイ:ModelArts API と GitCode 自ホスト
オプション1:Huawei Cloud ModelArts API(最も簡単)
- Huawei Cloud アカウント作成
- ModelArts → AI Gallery → 「openPangu 2.0」検索
- Flash または Pro を購読し API エンドポイント取得
オプション2:GitCode 自デプロイ
リポジトリハブ:gitcode.com/org/ascend-tribe
openPangu-2.0-Flash:Flash 重みopenPangu-2.0-Flash-Int8:量子化版(メモリ40%削減)openPangu-2.0-Infer:推論ソースopenPangu-2.0-Op:昇腾高性能オペレータ
ハード要件(参考)
| バージョン | 推奨ハード | 最小構成 |
|---|---|---|
| Flash(活性6B) | 昇腾910B 単卡 | ~96GB 統一メモリ |
| Flash-Int8 | Atlas A2 単卡 | ~48GB VRAM |
| Pro(活性18B) | 昇腾910B 4卡以上 | マルチ卡クラスタ(7月重み公開後に検証) |
9. 戦略的意義、HarmonyOS Agent、openPangu ライセンス
- 地政学:A100/H100 対中規制下、openPangu 2.0 は NVIDIA なしのフロンティア訓練が可能であることを実証
- フルスタック OSS の価値:再現可能な研究、企業継続事前学習、昇腾エコシステム参入障壁の低下
- HarmonyOS Agent 基盤:HarmonyOS 7 が Agent 時代へ;HarmonyOS Agent Framework 2.0 は複雑タスクで >90% 成功率;端末30Bはオフライン実行
- openPangu License:商用利用可、ロイヤリティフリー、非独占(詳細は GitCode リポジトリ参照)
10. 五段階スタート Runbook
ステップ1 — シナリオとバージョン定義
超長文書→Pro;低コスト API→Flash;コンプライアンス→どちらでも;端末→組込30B。
ステップ2 — アクセス経路選択
ハードなし:Huawei Cloud ModelArts API。昇腾あり:GitCode から重み取得して自ホスト。
ステップ3 — 昇腾ソフトスタック構成
ステップ4 — 推論実行または API 呼び出し
Flash 単卡 inference.py;量子化→Flash-Int8;Pro マルチ卡 distributed_inference.py。
ステップ5 — OSS ロードマップとベンチマーク更新を追跡
GitCode Ascend Tribe を監視;7月 Pro 公開時にデプロイノート更新;第三者スコア公開後に推定を置換。
11. 引用可能な技術事実
- openPangu 2.0 Pro:505B 総 / 18B 活性;Flash:92B / 6B;両方 512K コンテキスト。
- 初のフロンティア規模モデル 非 NVIDIA ハードで訓練・OSS 化;訓練スタックは昇腾 910B。
- 昇腾単卡スループット 2倍 主流 OSS;訓練/推論一致性 >99%;512K 長系列訓練 +50%。
- 7大コンポーネント 公開予定——事前学習・事後学習・訓練オペレータ含む、この MoE 規模では稀。
12. 結論:万能チャンピオンではないが、重要軸では代替不可
DeepSeek V4 Pro はコード生成と難問推論で依然リード。しかし openPangu 2.0 は 512K 超長コンテキスト、ソブリン国内訓練、2倍昇腾ネイティブスループット、フルスタック OSS、HarmonyOS 端末統合 でほぼ無敵。Flash 重みは6月30日公開——まさにニュースサイクル真っ只中。
ノートPCや汎用 Linux VPS から openPangu API を配線し、HarmonyOS Agent を編成したりマルチモデルゲートウェイを運用すると、長時間本番環境では蓋閉じ切断、Apple ツールチェーン欠如、運用オーバーヘッドに直面しがち。7×24 安定 Agent ワークロード、OpenClaw ゲートウェイ、ネイティブ iOS/macOS ツールチェーン には VPSMAC M4 Mac クラウドノードのレンタル が低摩擦——OSS エコシステムの進化に合わせてモデル交換しつつ、ネイティブ macOS ランタイムを安定維持。
本記事の一部ベンチマーク数値はアーキテクチャ推定です。第三者独立結果公開後に更新します。公開日:2026年7月1日。