Huawei openPangu 2.0 стал open source — обучен без единого GPU NVIDIA
Если вы следили за HDC 2026, open source Pangu от Richard Yu или выбираете между openPangu 2.0 и DeepSeek для 512K и compliance: статья опирается на запуск Flash 30 июня — хронология, дорожная карта семи компонентов, архитектура mHC/ModAttn, метрики Ascend, сравнительные матрицы, развертывание ModelArts/GitCode и runbook из пяти шагов.
Содержание
- 1. Три pain point при выборе
- 2. Контекст события и хронология
- 3. Спецификации Pro vs Flash
- 4. Full-stack open source из семи компонентов
- 5. Архитектура подробно
- 6. Ascend hardware и прорыв в обучении
- 7. Сравнение конкурентов и матрица выбора
- 8. Доступ и развертывание
- 9. Стратегическое значение и лицензия
- 10. Runbook из пяти шагов
- 11. Цитируемые технические факты
- 12. Заключение
1. Три pain point при выборе: глубина open source, привязка к железу и длина контекста
- «Open source» — не всегда full-stack. Большинство frontier-моделей публикуют только веса и inference-код — pre-training, post-training и custom training operators закрыты. Нельзя воспроизвести pipeline или делать domain continued pre-training.
- Привязка к железу и compliance. DeepSeek, Qwen, Kimi и Llama обучались на NVIDIA. При экспортных ограничениях США командам, которым нужна frontier-модель без NVIDIA GPU, остается один вариант: openPangu 2.0.
- Окно контекста определяет use cases. Полные контракты, большие codebases и длинные чаты часто превышают 128K. Обе версии openPangu 2.0 дают единое 512K — примерно восемь романов за один проход.
2. Контекст и хронология: HDC 2026 — запуск на GitCode
| Дата | Событие |
|---|---|
| 2026-06-12 | Huawei Developer Conference (HDC 2026), Dongguan Songshan Lake — keynote Richard Yu официально запускает openPangu 2.0 |
| 2026-06-30 | Веса openPangu-2.0-Flash, базовый inference-код и train/infer операторы в open source на GitCode |
| 2026-07 (план) | Релиз весов и inference-кода openPangu-2.0-Pro |
| H2 2026 (план) | Pre-training code, post-training code (SFT/RLHF) и дополнительные training operators |
На HDC 2026 Richard Yu (余承东) сказал: «В словаре моей оставшейся жизни нет второго места — только первое. Мы пойдем от первого места в Китае к первому месту в мире.»
3. Две версии для разных сценариев
| Pro | Flash | |
|---|---|---|
| Всего параметров | 505B | 92B |
| Активных параметров | 18B | 6B |
| Коэффициент sparsity | ~28:1 | ~15:1 |
| Окно контекста | 512K | 512K |
| Статус релиза | Июль (план) | 30 июня (live) |
Flash: 92B всего, активны только 6B — стоимость близка к dense 6B при пуле знаний 92B. Поддерживается inference на одной Ascend 910B; сообщество оценивает ~96GB unified memory.
Pro: 505B всего, 18B активных — для экстремальных long-document workloads. Окно 512K для контрактов, больших repos и длинной истории диалога за один раз.
4. Full-stack open source из семи компонентов: почему релиз важен
Большинство open LLM поставляют только веса + inference-код. openPangu 2.0 планирует открыть семь major компонентов:
- Архитектура модели (определение структуры) — ✅ опубликовано
- Веса модели (Flash live 30 июня; Pro план июль)
- Technical report — ✅ с весами
- Inference code + train/infer operators — ✅ опубликовано
- Pre-training code — 📋 H2 2026
- Post-training code (SFT/RLHF) — 📋 H2 2026
- Training operators (Ascend high-performance kernels) — 📋 H2 2026
Последние три крайне редки в этом масштабе MoE — настоящий full-stack open source. Исследователи воспроизводят обучение; enterprise делает vertical continued pre-training.
5. Архитектура подробно
openPangu 2.0 использует MoE (Mixture of Experts). Ключевые техники:
- mHC (Multi-Head Combinatorial) routing: эффективнее маршрутизация экспертов, меньше дисбаланс нагрузки
- Muon optimizer: second-order momentum Microsoft для стабильного large-scale training
- ModAttn (Modular Attention): модульные attention blocks под 512K ultra-long context
- DSA+SWA ultra-sparse attention (только Flash): экстремальная sparsity снижает inference compute
Экосистема разработчиков и software stack
- CANN (compute stack Huawei, класс CUDA) + torch_npu (адаптер PyTorch)
- Стандартный PyTorch переключается на Ascend через
import torch_npu - Deployment: Huawei Cloud ModelArts (API), GitCode Ascend Tribe (self-hosted), нативная интеграция HarmonyOS
6. Первая frontier-модель «без NVIDIA»: адаптация Ascend hardware
openPangu 2.0 — первая frontier-модель, полностью обученная на non-NVIDIA hardware — end-to-end на Huawei Ascend 910B NPU, без A100/H100.
| Метрика | Данные |
|---|---|
| Throughput одной карты (Ascend) | 2× mainstream open-source models |
| Эффективность super-node training | +30% |
| Throughput 512K long-sequence training | +50% |
| Train/inference consistency | >99% (давний MoE pain point) |
| Inference latency | 1,2× лучше сопоставимых industry models |
| On-device embedded 30B | Inference на 50% быстрее, память −20%; offline на Kirin chips |
| Flash-Int8 quantization | W4A8, −40% памяти, потеря точности <10% |
7. Сравнение конкурентов и матрица выбора
Параметры head-to-head
| Модель | Всего params | Активных params | Контекст | Training hardware | Открытость |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Full stack (7 компонентов) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Full stack (7 компонентов) |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Weights + inference |
| Qwen 3.7 Max | ~400B+ | varies | 128K | NVIDIA | Weights + inference + partial training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Weights + inference |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Weights + inference |
Матрица возможностей по сценариям
| Сценарий | Рекомендация | Почему |
|---|---|---|
| Генерация кода / сложный reasoning | DeepSeek V4 Pro | ~200B активных параметров, лидер по performance |
| Agent / multi-tool orchestration | Kimi K2.7 | Зрелая MCP-экосистема |
| Ultra-long documents (>256K tokens) | openPangu 2.0 Pro | 512K context — очевидный выбор |
| Domestic compliance / sovereign AI | openPangu 2.0 | Единственная frontier-модель на чисто domestic hardware |
| Развертывание Ascend / Huawei Cloud | openPangu 2.0 | Native optimization, 2× throughput |
| On-device / mobile deployment | Embedded 30B | Локальный inference на Kirin chips |
| Low-cost local inference | Flash | 6B active, runnable на ~96GB VRAM |
Примечание: независимые third-party benchmarks еще идут; часть оценок — архитектурный inference, обновим после публикации.
8. Доступ и развертывание: ModelArts API и GitCode self-hosting
Вариант 1: Huawei Cloud ModelArts API (проще всего)
- Создать аккаунт Huawei Cloud
- ModelArts → AI Gallery → поиск «openPangu 2.0»
- Подписаться на Flash или Pro и получить API endpoint
Вариант 2: Self-deployment на GitCode
Hub репозиториев: gitcode.com/org/ascend-tribe
openPangu-2.0-Flash: веса FlashopenPangu-2.0-Flash-Int8: quantized build (−40% памяти)openPangu-2.0-Infer: inference sourceopenPangu-2.0-Op: Ascend high-performance operators
Требования к hardware (справочно)
| Версия | Рекомендуемое железо | Минимальная конфигурация |
|---|---|---|
| Flash (6B active) | Single Ascend 910B | ~96GB unified memory |
| Flash-Int8 | Single Atlas A2 | ~48GB VRAM |
| Pro (18B active) | 4+ Ascend 910B cards | Multi-card cluster (validate after July weights) |
9. Стратегическое значение, HarmonyOS Agent и openPangu License
- Геополитика: при ограничениях A100/H100 для Китая openPangu 2.0 доказывает frontier training без NVIDIA
- Ценность full-stack open source: воспроизводимые исследования, enterprise continued pre-training, ниже барьер входа в Ascend
- Основа HarmonyOS Agent: HarmonyOS 7 входит в эру Agent; HarmonyOS Agent Framework 2.0 сообщает >90% success на complex tasks; on-device 30B offline
- openPangu License: commercial use allowed, royalty-free, non-exclusive (см. GitCode repos)
10. Runbook из пяти шагов
Шаг 1 — Определить сценарий и версию
Ultra-long documents → Pro; low-cost API → Flash; compliance → любая версия; on-device → Embedded 30B.
Шаг 2 — Выбрать путь доступа
Без hardware: Huawei Cloud ModelArts API. С Ascend: скачать веса с GitCode и self-host.
Шаг 3 — Настроить Ascend software stack
Шаг 4 — Запустить inference или вызвать API
Flash single-card inference.py; quantized → Flash-Int8; Pro multi-card distributed_inference.py.
Шаг 5 — Следить за open-source roadmap и benchmark updates
Мониторить GitCode Ascend Tribe; обновить deployment notes когда Pro выйдет в июле; заменить architectural inference после third-party scores.
11. Цитируемые технические факты
- openPangu 2.0 Pro: 505B total / 18B active; Flash: 92B / 6B; обе — 512K context.
- Первая frontier-модель обучена и open-sourced на non-NVIDIA hardware; training stack — Ascend 910B.
- Ascend single-card throughput 2× mainstream open models; train/inference consistency >99%; 512K long-sequence +50%.
- Планируется релиз семи major компонентов, включая pre/post-training и operators — редко в этом MoE масштабе.
12. Заключение: не all-round champion, но незаменим на ключевых осях
DeepSeek V4 Pro по-прежнему лидирует в code generation и hard reasoning, но openPangu 2.0 почти не имеет равных по 512K ultra-long context, sovereign domestic training, 2× Ascend-native throughput, full-stack open source и HarmonyOS on-device integration. Веса Flash live 30 июня — в центре новостного цикла.
Если вы подключаете openPangu API с ноутбука или generic Linux VPS, оркестрируете HarmonyOS Agents или multi-model gateway, long-running production часто сталкивается с disconnect при закрытии крышки, отсутствием Apple toolchains и ops overhead. Для 7×24 stable Agent workloads, OpenClaw gateways и native iOS/macOS toolchains аренда VPSMAC M4 Mac cloud node — путь с меньшим трением: меняйте модели по мере эволюции open ecosystem, сохраняя stable native macOS runtime.
Часть benchmark-цифр — архитектурные оценки; обновим после независимых результатов. Опубликовано: 1 июля 2026.