Huawei openPangu 2.0 стал open source — обучен без единого GPU NVIDIA

Если вы следили за HDC 2026, open source Pangu от Richard Yu или выбираете между openPangu 2.0 и DeepSeek для 512K и compliance: статья опирается на запуск Flash 30 июня — хронология, дорожная карта семи компонентов, архитектура mHC/ModAttn, метрики Ascend, сравнительные матрицы, развертывание ModelArts/GitCode и runbook из пяти шагов.

Абстрактная визуализация узлов нейросети — архитектура MoE и экосистема open source

Содержание

1. Три pain point при выборе: глубина open source, привязка к железу и длина контекста

  1. «Open source» — не всегда full-stack. Большинство frontier-моделей публикуют только веса и inference-код — pre-training, post-training и custom training operators закрыты. Нельзя воспроизвести pipeline или делать domain continued pre-training.
  2. Привязка к железу и compliance. DeepSeek, Qwen, Kimi и Llama обучались на NVIDIA. При экспортных ограничениях США командам, которым нужна frontier-модель без NVIDIA GPU, остается один вариант: openPangu 2.0.
  3. Окно контекста определяет use cases. Полные контракты, большие codebases и длинные чаты часто превышают 128K. Обе версии openPangu 2.0 дают единое 512K — примерно восемь романов за один проход.

2. Контекст и хронология: HDC 2026 — запуск на GitCode

ДатаСобытие
2026-06-12Huawei Developer Conference (HDC 2026), Dongguan Songshan Lake — keynote Richard Yu официально запускает openPangu 2.0
2026-06-30Веса openPangu-2.0-Flash, базовый inference-код и train/infer операторы в open source на GitCode
2026-07 (план)Релиз весов и inference-кода openPangu-2.0-Pro
H2 2026 (план)Pre-training code, post-training code (SFT/RLHF) и дополнительные training operators
На HDC 2026 Richard Yu (余承东) сказал: «В словаре моей оставшейся жизни нет второго места — только первое. Мы пойдем от первого места в Китае к первому месту в мире.»

3. Две версии для разных сценариев

ProFlash
Всего параметров505B92B
Активных параметров18B6B
Коэффициент sparsity~28:1~15:1
Окно контекста512K512K
Статус релизаИюль (план)30 июня (live)

Flash: 92B всего, активны только 6B — стоимость близка к dense 6B при пуле знаний 92B. Поддерживается inference на одной Ascend 910B; сообщество оценивает ~96GB unified memory.

Pro: 505B всего, 18B активных — для экстремальных long-document workloads. Окно 512K для контрактов, больших repos и длинной истории диалога за один раз.

4. Full-stack open source из семи компонентов: почему релиз важен

Большинство open LLM поставляют только веса + inference-код. openPangu 2.0 планирует открыть семь major компонентов:

  1. Архитектура модели (определение структуры) — ✅ опубликовано
  2. Веса модели (Flash live 30 июня; Pro план июль)
  3. Technical report — ✅ с весами
  4. Inference code + train/infer operators — ✅ опубликовано
  5. Pre-training code — 📋 H2 2026
  6. Post-training code (SFT/RLHF) — 📋 H2 2026
  7. Training operators (Ascend high-performance kernels) — 📋 H2 2026

Последние три крайне редки в этом масштабе MoE — настоящий full-stack open source. Исследователи воспроизводят обучение; enterprise делает vertical continued pre-training.

2026-06-30 ✅ Flash weights + inference code + operators 2026-07 🔜 Pro weights + inference code H2 2026 📋 Pre/post-training code, more operators

5. Архитектура подробно

openPangu 2.0 использует MoE (Mixture of Experts). Ключевые техники:

Экосистема разработчиков и software stack

6. Первая frontier-модель «без NVIDIA»: адаптация Ascend hardware

openPangu 2.0 — первая frontier-модель, полностью обученная на non-NVIDIA hardware — end-to-end на Huawei Ascend 910B NPU, без A100/H100.

МетрикаДанные
Throughput одной карты (Ascend) mainstream open-source models
Эффективность super-node training+30%
Throughput 512K long-sequence training+50%
Train/inference consistency>99% (давний MoE pain point)
Inference latency1,2× лучше сопоставимых industry models
On-device embedded 30BInference на 50% быстрее, память −20%; offline на Kirin chips
Flash-Int8 quantizationW4A8, −40% памяти, потеря точности <10%

7. Сравнение конкурентов и матрица выбора

Параметры head-to-head

МодельВсего paramsАктивных paramsКонтекстTraining hardwareОткрытость
openPangu 2.0 Pro505B18B512KAscend NPUFull stack (7 компонентов)
openPangu 2.0 Flash92B6B512KAscend NPUFull stack (7 компонентов)
DeepSeek V4 Pro1,6T~200B128KNVIDIAWeights + inference
Qwen 3.7 Max~400B+varies128KNVIDIAWeights + inference + partial training
Kimi K2.71T32B256KNVIDIAWeights + inference
Llama 4 405B405B128KNVIDIAWeights + inference

Матрица возможностей по сценариям

СценарийРекомендацияПочему
Генерация кода / сложный reasoningDeepSeek V4 Pro~200B активных параметров, лидер по performance
Agent / multi-tool orchestrationKimi K2.7Зрелая MCP-экосистема
Ultra-long documents (>256K tokens)openPangu 2.0 Pro512K context — очевидный выбор
Domestic compliance / sovereign AIopenPangu 2.0Единственная frontier-модель на чисто domestic hardware
Развертывание Ascend / Huawei CloudopenPangu 2.0Native optimization, 2× throughput
On-device / mobile deploymentEmbedded 30BЛокальный inference на Kirin chips
Low-cost local inferenceFlash6B active, runnable на ~96GB VRAM

Примечание: независимые third-party benchmarks еще идут; часть оценок — архитектурный inference, обновим после публикации.

8. Доступ и развертывание: ModelArts API и GitCode self-hosting

Вариант 1: Huawei Cloud ModelArts API (проще всего)

  1. Создать аккаунт Huawei Cloud
  2. ModelArts → AI Gallery → поиск «openPangu 2.0»
  3. Подписаться на Flash или Pro и получить API endpoint
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \ -H "Content-Type: application/json" \ -H "X-Auth-Token: ${TOKEN}" \ -d '{ "model": "openpangu-2.0-flash", "messages": [{"role": "user", "content": "Hello, introduce yourself"}], "max_tokens": 1024, "temperature": 0.7 }'

Вариант 2: Self-deployment на GitCode

Hub репозиториев: gitcode.com/org/ascend-tribe

# Flash single-card inference (Ascend 910B) python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16 # Pro multi-card distributed inference python distributed_inference.py \ --model_path ./openPangu-Pro \ --num_devices 8 \ --context_length 512000 # LoRA domain fine-tuning python finetune.py \ --model_path ./openPangu-Pro \ --data_path ./domain_data \ --output_dir ./fine_tuned_model \ --method lora \ --lora_rank 16

Требования к hardware (справочно)

ВерсияРекомендуемое железоМинимальная конфигурация
Flash (6B active)Single Ascend 910B~96GB unified memory
Flash-Int8Single Atlas A2~48GB VRAM
Pro (18B active)4+ Ascend 910B cardsMulti-card cluster (validate after July weights)

9. Стратегическое значение, HarmonyOS Agent и openPangu License

10. Runbook из пяти шагов

Шаг 1 — Определить сценарий и версию

Ultra-long documents → Pro; low-cost API → Flash; compliance → любая версия; on-device → Embedded 30B.

Шаг 2 — Выбрать путь доступа

Без hardware: Huawei Cloud ModelArts API. С Ascend: скачать веса с GitCode и self-host.

Шаг 3 — Настроить Ascend software stack

pip install torch_npu # Standard PyTorch code import torch import torch_npu model = model.to("npu:0")

Шаг 4 — Запустить inference или вызвать API

Flash single-card inference.py; quantized → Flash-Int8; Pro multi-card distributed_inference.py.

Шаг 5 — Следить за open-source roadmap и benchmark updates

Мониторить GitCode Ascend Tribe; обновить deployment notes когда Pro выйдет в июле; заменить architectural inference после third-party scores.

11. Цитируемые технические факты

12. Заключение: не all-round champion, но незаменим на ключевых осях

DeepSeek V4 Pro по-прежнему лидирует в code generation и hard reasoning, но openPangu 2.0 почти не имеет равных по 512K ultra-long context, sovereign domestic training, 2× Ascend-native throughput, full-stack open source и HarmonyOS on-device integration. Веса Flash live 30 июня — в центре новостного цикла.

Если вы подключаете openPangu API с ноутбука или generic Linux VPS, оркестрируете HarmonyOS Agents или multi-model gateway, long-running production часто сталкивается с disconnect при закрытии крышки, отсутствием Apple toolchains и ops overhead. Для 7×24 stable Agent workloads, OpenClaw gateways и native iOS/macOS toolchains аренда VPSMAC M4 Mac cloud node — путь с меньшим трением: меняйте модели по мере эволюции open ecosystem, сохраняя stable native macOS runtime.

Часть benchmark-цифр — архитектурные оценки; обновим после независимых результатов. Опубликовано: 1 июля 2026.