Huawei openPangu 2.0 がオープンソースに——NVIDIA GPU 一枚も使わず訓練されたフロンティアモデル

HDC 2026 で余承東が盤古を OSS 化した動き、openPangu 2.0 と DeepSeek の 512K・コンプライアンス選定、いずれも気になるなら、本記事は 6 月 30 日 Flash 公開を軸に、イベント年表、七组件 OSS ロードマップ、mHC/ModAttn アーキテクチャ、昇腾ハード指標、競合比較マトリクス、ModelArts/GitCode デプロイ、5 段階 Runbook を網羅します。

MoE 混合エキスパート大モデルとオープンソースエコシステムを象徴する抽象的神経ネットワークノードの可視化

目次

1. 選定の3つの痛点:OSS の深さ、ハードロックイン、コンテキスト長

  1. 「オープンソース」が必ずしもフルスタックではない。 多くのフロンティアモデルは重みと推論コードのみ公開——事前学習・事後学習・カスタム訓練オペレータは非公開。訓練パイプラインの再現やドメイン継続事前学習ができない。
  2. ハードバインドとコンプライアンス。 DeepSeek、Qwen、Kimi、Llama はすべて NVIDIA ハードで訓練。米国輸出規制下、NVIDIA GPU 不使用のフロンティアモデルが必要なチームの選択肢は現時点で openPangu 2.0 のみ。
  3. コンテキスト窓がユースケースを決める。 契約書全文、大規模コードベース、長時間チャット履歴は 128K を超えがち。openPangu 2.0 両バリアントは統一 512K——長編小説8冊分相当を一括投入可能。

2. イベント背景とタイムライン:HDC 2026 から GitCode 公開

日付イベント
2026-06-12Huawei Developer Conference(HDC 2026)東莞松山湖——余承東基調講演で openPangu 2.0 正式発表
2026-06-30openPangu-2.0-Flash 重み・基本推論コード・訓推オペレータが GitCode で OSS 化
2026-07(予定)openPangu-2.0-Pro 重みと推論コード公開
2026年下半期(予定)事前学習コード、事後学習コード(SFT/RLHF)、追加訓練オペレータ順次公開
HDC 2026 で余承東はこう述べた:「私の残りの人生の辞書には『第二位』という言葉はない——あるのは『第一位』だけだ。中国一から世界一へと進む。」

3. シナリオ別2バージョン

ProFlash
総パラメータ505B92B
活性パラメータ18B6B
スパース比~28:1~15:1
コンテキスト窓512K512K
公開状況7月(予定)6月30日(公開済)

Flash:総92B・活性6Bのみ——6B dense 並みのコストで92B知識プールを活用。昇腾910B単卡推論対応。約96GB統一メモリでも動作する可能性(コミュニティ推定)。

Pro:総505B・活性18B——超長文書ワークロード向け。512K窓で契約全文・大規模リポジトリ・長会話履歴を一括投入。

4. 七组件フルスタック OSS:今回の公開の意義

多くの OSS LLM は 重み + 推論コード のみ。openPangu 2.0 は 7大コンポーネント を順次公開予定:

  1. モデルアーキテクチャ(構造定義)—— ✅ 公開済
  2. モデル重み(Flash 6/30 公開;Pro 7月予定)
  3. 技術レポート—— ✅ 重みと同時公開
  4. 推論コード + 訓推オペレータ—— ✅ 公開済
  5. 事前学習コード—— 📋 2026年下半期
  6. 事後学習コード(SFT/RLHF)—— 📋 2026年下半期
  7. 訓練オペレータ(昇腾高性能カスタムカーネル)—— 📋 2026年下半期

後3つはこの MoE 規模では極めて稀——真の フルスタック OSS を実現。研究者は訓練再現、企業は垂直継続事前学習が可能。

2026-06-30 ✅ Flash 重み + 推論コード + オペレータ 2026-07 🔜 Pro 重み + 推論コード H2 2026 📋 事前学習・事後学習コード、追加オペレータ

5. アーキテクチャ詳解

openPangu 2.0 は MoE(Mixture of Experts) 設計。主要技術:

開発者エコシステムとソフトスタック

6. 初の「NVIDIA 不使用」フロンティアモデル:昇腾ハード適応

openPangu 2.0 は 非 NVIDIA ハードのみで訓練された初のフロンティア規模モデル——Huawei 昇腾 910B NPU 端到端、A100/H100 不使用。

指標データ
単卡スループット(昇腾)主流 OSS モデルの 2倍
スーパーノード訓練効率+30%
512K 長系列訓練スループット+50%
訓練/推論一致性>99%(MoE 長年の痛点)
推論レイテンシ同業比 1.2倍 改善
端末組込30Bモデル推論50%高速・メモリ20%削減;Kirin チップでオフライン実行
Flash-Int8 量子化W4A8、メモリ40%削減、精度損失 <10%

7. 競合比較と選定マトリクス

パラメータ正面比較

モデル総パラメータ活性パラメータコンテキスト訓練ハード開放度
openPangu 2.0 Pro505B18B512KAscend NPUフルスタック(7组件)
openPangu 2.0 Flash92B6B512KAscend NPUフルスタック(7组件)
DeepSeek V4 Pro1.6T~200B128KNVIDIA重み + 推論
Qwen 3.7 Max~400B+可変128KNVIDIA重み + 推論 + 部分訓練
Kimi K2.71T32B256KNVIDIA重み + 推論
Llama 4 405B405B128KNVIDIA重み + 推論

シナリオ別能力マトリクス

シナリオ推奨理由
コード生成 / 複雑推論DeepSeek V4 Pro~200B 活性パラメータ、現性能リーダー
Agent / マルチツール編成Kimi K2.7成熟 MCP エコシステム
超長文書(>256K トークン)openPangu 2.0 Pro512K コンテキストが明確な選択
国内コンプライアンス / ソブリン AIopenPangu 2.0純国産ハード訓練の唯一のフロンティアモデル
昇腾 / 华为クラウドデプロイopenPangu 2.0ネイティブ最適化、2倍スループット
端末 / モバイルデプロイ組込30BKirin チップでローカル推論
低コストローカル推論Flash活性6B、~96GB VRAM で実行可能

注:独立第三者ベンチマークは進行中;以下の能力評価は一部アーキテクチャ推定に基づき、結果公開後に更新します。

8. アクセスとデプロイ:ModelArts API と GitCode 自ホスト

オプション1:Huawei Cloud ModelArts API(最も簡単)

  1. Huawei Cloud アカウント作成
  2. ModelArts → AI Gallery → 「openPangu 2.0」検索
  3. Flash または Pro を購読し API エンドポイント取得
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \ -H "Content-Type: application/json" \ -H "X-Auth-Token: ${TOKEN}" \ -d '{ "model": "openpangu-2.0-flash", "messages": [{"role": "user", "content": "Hello, introduce yourself"}], "max_tokens": 1024, "temperature": 0.7 }'

オプション2:GitCode 自デプロイ

リポジトリハブ:gitcode.com/org/ascend-tribe

# Flash 単卡推論(昇腾 910B) python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16 # Pro マルチ卡分散推論 python distributed_inference.py \ --model_path ./openPangu-Pro \ --num_devices 8 \ --context_length 512000 # LoRA ドメインファインチューニング python finetune.py \ --model_path ./openPangu-Pro \ --data_path ./domain_data \ --output_dir ./fine_tuned_model \ --method lora \ --lora_rank 16

ハード要件(参考)

バージョン推奨ハード最小構成
Flash(活性6B)昇腾910B 単卡~96GB 統一メモリ
Flash-Int8Atlas A2 単卡~48GB VRAM
Pro(活性18B)昇腾910B 4卡以上マルチ卡クラスタ(7月重み公開後に検証)

9. 戦略的意義、HarmonyOS Agent、openPangu ライセンス

10. 五段階スタート Runbook

ステップ1 — シナリオとバージョン定義

超長文書→Pro;低コスト API→Flash;コンプライアンス→どちらでも;端末→組込30B。

ステップ2 — アクセス経路選択

ハードなし:Huawei Cloud ModelArts API。昇腾あり:GitCode から重み取得して自ホスト。

ステップ3 — 昇腾ソフトスタック構成

pip install torch_npu # 標準 PyTorch コード import torch import torch_npu model = model.to("npu:0")

ステップ4 — 推論実行または API 呼び出し

Flash 単卡 inference.py;量子化→Flash-Int8;Pro マルチ卡 distributed_inference.py

ステップ5 — OSS ロードマップとベンチマーク更新を追跡

GitCode Ascend Tribe を監視;7月 Pro 公開時にデプロイノート更新;第三者スコア公開後に推定を置換。

11. 引用可能な技術事実

12. 結論:万能チャンピオンではないが、重要軸では代替不可

DeepSeek V4 Pro はコード生成と難問推論で依然リード。しかし openPangu 2.0 は 512K 超長コンテキストソブリン国内訓練2倍昇腾ネイティブスループットフルスタック OSSHarmonyOS 端末統合 でほぼ無敵。Flash 重みは6月30日公開——まさにニュースサイクル真っ只中。

ノートPCや汎用 Linux VPS から openPangu API を配線し、HarmonyOS Agent を編成したりマルチモデルゲートウェイを運用すると、長時間本番環境では蓋閉じ切断、Apple ツールチェーン欠如、運用オーバーヘッドに直面しがち。7×24 安定 Agent ワークロード、OpenClaw ゲートウェイ、ネイティブ iOS/macOS ツールチェーン には VPSMAC M4 Mac クラウドノードのレンタル が低摩擦——OSS エコシステムの進化に合わせてモデル交換しつつ、ネイティブ macOS ランタイムを安定維持。

本記事の一部ベンチマーク数値はアーキテクチャ推定です。第三者独立結果公開後に更新します。公開日:2026年7月1日。