Huawei openPangu 2.0 ist Open Source — trainiert ohne eine einzige NVIDIA-GPU
Wenn Sie HDC 2026 verfolgt haben, Richard Yus Pangu-Open-Source gesehen oder openPangu 2.0 gegen DeepSeek fuer 512K Kontext und Compliance bewerten: Dieser Artikel verankert sich am 30. Juni Flash-Launch — Zeitachse, Sieben-Komponenten-Roadmap, mHC/ModAttn, Ascend-Metriken, Vergleichsmatrizen, ModelArts/GitCode-Deployment und Fuenf-Schritte-Runbook.
Inhaltsverzeichnis
- 1. Drei Auswahl-Schmerzpunkte
- 2. Event-Hintergrund und Zeitachse
- 3. Pro vs Flash Spezifikationen
- 4. Sieben-Komponenten Full-Stack Open Source
- 5. Architektur im Detail
- 6. Ascend-Hardware und Trainings-Durchbruch
- 7. Wettbewerbsvergleich und Auswahl-Matrix
- 8. Zugang und Deployment-Leitfaden
- 9. Strategische Bedeutung und Lizenz
- 10. Fuenf-Schritte-Runbook
- 11. Zitierfaehige technische Fakten
- 12. Fazit
1. Drei Auswahl-Schmerzpunkte: Open-Source-Tiefe, Hardware-Lock-in und Kontextlaenge
- «Open Source» ist nicht immer Full-Stack offen. Die meisten Frontier-Modelle veroeffentlichen nur Gewichte und Inferenzcode — Pre-Training, Post-Training und Custom-Training-Operatoren bleiben geschlossen. Trainingspipeline und domaenenspezifisches Continued Pre-Training sind nicht reproduzierbar.
- Hardware-Bindung und Compliance. DeepSeek, Qwen, Kimi und Llama wurden alle auf NVIDIA-Hardware trainiert. Unter US-Exportkontrollen haben Teams, die ein Frontier-Modell ohne NVIDIA-GPU brauchen, derzeit eine Option: openPangu 2.0.
- Kontextfenster bestimmt Use Cases. Vollstaendige Vertraege, grosse Codebasen und lange Chat-Historien ueberschreiten oft 128K. Beide openPangu-2.0-Varianten liefern ein einheitliches 512K-Fenster — etwa acht Romane in einem Durchlauf.
2. Event-Hintergrund und Zeitachse: HDC 2026 bis GitCode-Launch
| Datum | Event |
|---|---|
| 2026-06-12 | Huawei Developer Conference (HDC 2026), Dongguan Songshan Lake — Richard Yu Keynote startet openPangu 2.0 offiziell |
| 2026-06-30 | openPangu-2.0-Flash Gewichte, Basis-Inferenzcode und Trainings-/Inferenz-Operatoren gehen auf GitCode Open Source |
| 2026-07 (geplant) | openPangu-2.0-Pro Gewichte und Inferenzcode |
| H2 2026 (geplant) | Pre-Training-Code, Post-Training-Code (SFT/RLHF) und weitere Training-Operatoren |
Auf der HDC 2026 sagte Richard Yu: «In meinem verbleibenden Lebenswoerterbuch gibt es keinen zweiten Platz — nur den ersten. Wir gehen von Nummer eins in China zu Nummer eins in der Welt.»
3. Zwei Versionen fuer verschiedene Szenarien
| Pro | Flash | |
|---|---|---|
| Gesamtparameter | 505B | 92B |
| Aktive Parameter | 18B | 6B |
| Sparsitaetsverhaeltnis | ~28:1 | ~15:1 |
| Kontextfenster | 512K | 512K |
| Release-Status | Juli (geplant) | 30. Juni (live) |
Flash: 92B gesamt, nur 6B aktiv — nahe den Kosten eines 6B-Dense-Modells bei 92B Wissenspool. Einzelkarten-Inferenz auf Ascend 910B; Community schaetzt ~96GB Unified Memory als moeglich.
Pro: 505B gesamt, 18B aktiv — fuer extreme Langdokument-Workloads. 512K-Fenster fuer Vertraege, grosse Repos und lange Konversationen in einem Schritt.
4. Sieben-Komponenten Full-Stack Open Source: Warum der Release zaehlt
Die meisten Open LLMs liefern nur Gewichte + Inferenzcode. openPangu 2.0 plant sieben Hauptkomponenten:
- Modellarchitektur (Strukturdefinition) — ✅ veroeffentlicht
- Modellgewichte (Flash live 30.6.; Pro geplant Juli)
- Technischer Report — ✅ mit Gewichten veroeffentlicht
- Inferenzcode + Trainings-/Inferenz-Operatoren — ✅ veroeffentlicht
- Pre-Training-Code — 📋 H2 2026
- Post-Training-Code (SFT/RLHF) — 📋 H2 2026
- Training-Operatoren (Ascend High-Performance-Kernels) — 📋 H2 2026
Die letzten drei sind in dieser MoE-Groesse extrem selten — echtes Full-Stack Open Source. Forscher reproduzieren Training; Unternehmen fahren vertikales Continued Pre-Training.
5. Architektur im Detail
openPangu 2.0 nutzt MoE (Mixture of Experts). Kerntechniken:
- mHC (Multi-Head Combinatorial) Routing: bessere Expert-Routing-Effizienz, weniger Last-Ungleichgewicht
- Muon Optimizer: Microsofts Second-Order-Momentum fuer stabilere Gross-Training
- ModAttn (Modular Attention): modulare Attention-Bloecke fuer 512K Ultra-Langkontext
- DSA+SWA Ultra-Sparse Attention (nur Flash): extreme Sparsitaet senkt Inferenz-Compute
Developer-Oekosystem und Software-Stack
- CANN (Huawei Compute Stack, CUDA-Klasse) + torch_npu (PyTorch-Adapter)
- Standard-PyTorch-Code wechselt via
import torch_npuzu Ascend - Deployment: Huawei Cloud ModelArts (API), GitCode Ascend Tribe (Self-Hosting), HarmonyOS native Integration
6. Erstes «Ohne NVIDIA» Frontier-Modell: Ascend-Hardware-Anpassung
openPangu 2.0 ist das erste Frontier-Modell vollstaendig auf Non-NVIDIA-Hardware trainiert — end-to-end auf Huawei Ascend 910B NPUs, ohne A100/H100.
| Metrik | Daten |
|---|---|
| Einzelkarten-Durchsatz (Ascend) | 2x gegenueber Mainstream Open-Source-Modellen |
| Super-Node-Trainingseffizienz | +30% |
| 512K Langsequenz-Training-Durchsatz | +50% |
| Train/Inferenz-Konsistenz | >99% (langjaehriger MoE-Schmerzpunkt) |
| Inferenz-Latenz | 1,2x besser als vergleichbare Branchenmodelle |
| On-Device 30B Embedded | 50% schnellere Inferenz, 20% weniger Speicher; offline auf Kirin-Chips |
| Flash-Int8 Quantisierung | W4A8, 40% Speicherreduktion, <10% Genauigkeitsverlust |
7. Wettbewerbsvergleich und Auswahl-Matrix
Parameter im direkten Vergleich
| Modell | Gesamtparams | Aktive Params | Kontext | Trainings-HW | Offenheit |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Full Stack (7 Komponenten) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Full Stack (7 Komponenten) |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Gewichte + Inferenz |
| Qwen 3.7 Max | ~400B+ | variiert | 128K | NVIDIA | Gewichte + Inferenz + partielles Training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Gewichte + Inferenz |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Gewichte + Inferenz |
Capability-Matrix nach Szenario
| Szenario | Empfehlung | Warum |
|---|---|---|
| Code-Generierung / komplexes Reasoning | DeepSeek V4 Pro | ~200B aktive Parameter, aktueller Leistungsfuehrer |
| Agent / Multi-Tool-Orchestrierung | Kimi K2.7 | Reifes MCP-Oekosystem |
| Ultra-Langdokumente (>256K Token) | openPangu 2.0 Pro | 512K Kontext ist die klare Wahl |
| Inlands-Compliance / souveraene KI | openPangu 2.0 | Einziges Frontier-Modell auf rein inlaendischer Hardware trainiert |
| Ascend / Huawei Cloud Deployment | openPangu 2.0 | Native Optimierung, 2x Durchsatz |
| On-Device / Mobile Deployment | Embedded 30B | Lokale Inferenz auf Kirin-Chips |
| Guenstige lokale Inferenz | Flash | 6B aktiv, lauffaehig auf ~96GB VRAM |
Hinweis: Unabhaengige Dritt-Benchmarks laufen noch; Teile der Bewertung basieren auf Architektur-Schlussfolgerungen und werden nach Veroeffentlichung aktualisiert.
8. Zugang und Deployment: ModelArts API und GitCode Self-Hosting
Option 1: Huawei Cloud ModelArts API (einfachste)
- Huawei-Cloud-Konto erstellen
- ModelArts → AI Gallery → «openPangu 2.0» suchen
- Flash oder Pro abonnieren und API-Endpunkt erhalten
Option 2: GitCode Self-Deployment
Repository-Hub: gitcode.com/org/ascend-tribe
openPangu-2.0-Flash: Flash-GewichteopenPangu-2.0-Flash-Int8: quantisierte Variante (40% weniger Speicher)openPangu-2.0-Infer: Inferenz-QuellcodeopenPangu-2.0-Op: Ascend High-Performance-Operatoren
Hardware-Anforderungen (Referenz)
| Version | Empfohlene Hardware | Mindestkonfiguration |
|---|---|---|
| Flash (6B aktiv) | Einzelne Ascend 910B | ~96GB Unified Memory |
| Flash-Int8 | Einzelner Atlas A2 | ~48GB VRAM |
| Pro (18B aktiv) | 4+ Ascend 910B Karten | Multi-Karten-Cluster (nach Juli-Gewichten validieren) |
9. Strategische Bedeutung, HarmonyOS Agent und openPangu-Lizenz
- Geopolitik: Mit A100/H100-Beschraenkungen fuer China beweist openPangu 2.0 Frontier-Training ohne NVIDIA
- Full-Stack-Open-Source-Wert: reproduzierbare Forschung, Enterprise-Continued-Pre-Training, niedrigere Ascend-Einstiegshuerde
- HarmonyOS-Agent-Grundlage: HarmonyOS 7 tritt in die Agent-Aera; HarmonyOS Agent Framework 2.0 meldet >90% Erfolg bei komplexen Tasks; On-Device-30B offline
- openPangu License: kommerzielle Nutzung erlaubt, lizenzgebuehrenfrei, nicht-exklusiv (Details in GitCode-Repos)
10. Fuenf-Schritte-Start-Runbook
Schritt 1 — Szenario und Version definieren
Ultra-Langdokumente → Pro; guenstige API → Flash; Compliance → beide; On-Device → Embedded 30B.
Schritt 2 — Zugangsweg waehlen
Keine Hardware: Huawei Cloud ModelArts API. Ascend vorhanden: Gewichte von GitCode laden und self-hosten.
Schritt 3 — Ascend-Software-Stack konfigurieren
Schritt 4 — Inferenz ausfuehren oder API aufrufen
Flash Einzelkarte inference.py; quantisiert → Flash-Int8; Pro Multi-Karte distributed_inference.py.
Schritt 5 — Open-Source-Roadmap und Benchmark-Updates verfolgen
GitCode Ascend Tribe beobachten; Deployment-Notizen bei Pro im Juli aktualisieren; Architektur-Schaetzungen durch Dritt-Scores ersetzen.
11. Zitierfaehige technische Fakten
- openPangu 2.0 Pro: 505B gesamt / 18B aktiv; Flash: 92B / 6B; beide 512K Kontext.
- Erstes Frontier-Modell auf Non-NVIDIA-Hardware trainiert und open-sourced; Trainings-Stack Ascend 910B.
- Ascend-Einzelkarten-Durchsatz 2x Mainstream-OSS; Train/Inferenz-Konsistenz >99%; 512K Langsequenz +50%.
- Geplante Veroeffentlichung von sieben Hauptkomponenten inkl. Pre-/Post-Training und Operatoren — selten in dieser MoE-Groesse.
12. Fazit: Kein Allround-Champion, aber unersetzlich auf Schluesselachsen
DeepSeek V4 Pro fuehrt weiter bei Code-Generierung und hartem Reasoning, aber openPangu 2.0 ist nahezu unschlagbar bei 512K Ultra-Langkontext, souveraenem Inlandstraining, 2x Ascend-nativem Durchsatz, Full-Stack Open Source und HarmonyOS On-Device-Integration. Flash-Gewichte live am 30. Juni — mitten im News-Zyklus.
Wer openPangu-APIs vom Laptop oder generischen Linux-VPS verdrahtet, HarmonyOS Agents orchestriert oder Multi-Modell-Gateways betreibt, stoesst in Dauerbetrieb oft auf Zuklappen-Abbrueche, fehlende Apple-Toolchains und Ops-Overhead. Fuer 7x24 stabile Agent-Workloads, OpenClaw-Gateways und native iOS/macOS-Toolchains ist VPSMAC M4 Mac Cloud mieten der reibungsarmere Weg — Modelle wechseln, waehrend macOS nativ stabil bleibt.
Einige Benchmark-Zahlen sind Architektur-Schaetzungen; Update folgt bei unabhaengigen Dritt-Ergebnissen. Veroeffentlicht: 1. Juli 2026.