OpenAI × Broadcom: первый custom-чип Jalapeño — инференс на 50 % дешевле, вызов Nvidia
24 июня 2026 OpenAI и Broadcom представили Jalapeño — первый custom ASIC OpenAI для инференса LLM. Ранние тесты обещают ~50 % снижение стоимости инференса, значительно лучшую производительность на ватт, производство TSMC 3 нм и развертывание с конца 2026 в Microsoft Azure. Этот гид охватывает контекст, архитектуру, данные о стоимости, 9-месячную разработку, цепочку партнеров, roadmap, конкуренцию с Nvidia, отраслевое влияние, ключевых людей, хронологию, FAQ x7, 5-шаговый runbook и CTA Mac Cloud.
Содержание
Краткое резюме
24 июня 2026 OpenAI и Broadcom представили Jalapeño — первый custom AI-чип OpenAI для инференса. ASIC, созданный специально для LLM, заявляет ~50 % экономии стоимости инференса vs типичные AI-GPU и значительно лучшую производительность на ватт. Производство TSMC 3 нм; развертывание начинается с конца 2026 в дата-центрах Microsoft и партнеров.
I. Контекст: зачем OpenAI делает собственные чипы
Ключевой конфликт: модели сильнее — счет за compute дороже
OpenAI — один из крупнейших потребителей GPU в мире. Каждый запрос ChatGPT требует массивного серверного инференса. С апгрейдами GPT-4/5 инференс — самый тяжелый блок затрат на пути к прибыльности.
Ранее OpenAI почти полностью работала на GPU Nvidia (H100, H200, Blackwell). Универсальные ускорители не оптимизированы для однородного LLM-инференса — много compute теряется впустую.
Аналогия: GPU Nvidia — швейцарский нож; Jalapeño — скальпель.
Конкуренты уже в custom silicon
| Компания | Custom-чип | Назначение |
|---|---|---|
| TPU | Training + инференс | |
| Amazon | Trainium / Inferentia | Training + инференс |
| Microsoft | Maia 100 | Инференс |
| Meta | MTIA | Инференс |
| OpenAI | Jalapeño (2026) | Инференс |
OpenAI опоздала, но быстро — 9 месяцев от design до tape-out.
II. Что такое Jalapeño? Технические детали
2.1 ASIC, не GPU
ASIC (Application-Specific Integrated Circuit) — чип делает одно: инференс LLM. Не игры, не training, не general compute. В узкой задаче эффективность экстремальна.
Richard Ho, руководитель hardware OpenAI:
«Jalapeño спроектирован с нуля для LLM-инференса с учетом наших insights по kernel execution, перемещению памяти, сети и serving patterns. Ранние тесты показывают эффективную работу близко к теоретическому пределу hardware для наших ключевых workloads.»
2.2 Архитектурные highlights
- Blank-slate design: заново для современного LLM-инференса, не патч GPU. Каждое решение вокруг Transformer patterns.
- Минимизация перемещения данных: bottleneck часто bandwidth памяти, не raw compute. Jalapeño сокращает лишние memory-compute transfers.
- Баланс compute / memory / network: GPU упираются в bandwidth; Jalapeño сбалансирован для реальных LLM-нагрузок.
- Broadcom Tomahawk: высокопроизводительный network interconnect для multi-chip инференса больших моделей.
- Celestica: интеграция плат, racks и серверов для mass production.
2.3 Производство
- Foundry: TSMC
- Node: 3 нм (та же генерация, что Apple M4, Nvidia Blackwell)
- Значение: максимальная плотность транзисторов, низкое энергопотребление — вершина production
2.4 Модели в лаборатории
Engineering samples уже работают на целевых частоте и мощности, включая GPT-5.3-Codex-Spark — флагманский inference-модель для coding.
III. Производительность и стоимость: ключевые данные
Примечание: данные Hock Tan (Broadcom) и OpenAI — ранние lab tests. Полный tech report через месяцы; независимая валидация ожидается.
| Метрика | Jalapeño (ранние) | Benchmark |
|---|---|---|
| Экономия стоимости инференса | ~50 % | vs типичные AI-GPU |
| Performance per watt | Значительно выше SOTA | Заявление OpenAI |
| Абсолютная performance | Сопоставимо Blackwell / Google TPU | Hock Tan, Reuters |
| Теплоотвод | Лучше ожиданий | Внутренние тесты OpenAI |
Hock Tan (Bloomberg): «На данный момент Jalapeño показывает ~50 % экономии vs типичные AI-GPU.»
Greg Brockman: «От initial design до tape-out всего 9 месяцев — часть design использовала собственные AI-модели OpenAI.»
«50 %» — lab data Broadcom. Production validation: tech report OpenAI, Azure deployment, third-party benchmarks.
IV. Разработка: 9 месяцев — самый быстрый ASIC-цикл?
От design до tape-out: 9 месяцев. OpenAI и Broadcom называют это самым быстрым циклом для high-performance ASIC.
- Co-design software-hardware: model team и chip team вместе — меньше ошибочных предположений о workloads.
- AI-assisted chip design: модели OpenAI ускорили design decisions (VentureBeat: предыдущие поколения).
- IP-библиотека Broadcom: reusable silicon и network IP сокращает implementation.
V. Цепочка партнеров
| Роль | Компания | Задача |
|---|---|---|
| Архитектура | OpenAI | Оптимизация LLM-инференса, full-stack design |
| Silicon и сеть | Broadcom | Implementation, Tomahawk, mass production |
| Foundry | TSMC | Production 3 нм |
| Интеграция | Celestica | Boards, racks, server systems |
| Первое развертывание | Microsoft Azure | Дата-центр с конца 2026 |
VI. Развертывание и коммерческая roadmap
Краткосрочно (конец 2026)
- Engineering samples в labs OpenAI
- Deployment у Microsoft и partner DCs
- Приоритет: ChatGPT, Codex, internal API inference
Среднесрочно (2027)
- Mass production, значительный рост inference volume
- Deployment сверх прогнозируемых 1,3 GW (CEO Broadcom)
- Возможное открытие для внешних AI-компаний
Долгосрочно (до 2029)
- Цель OpenAI: 10 GW compute на custom silicon (~10 АЭС)
- Multi-generation roadmap; next gen ~2028, затем ежегодные итерации
- Возможное расширение на training chips (сейчас только inference)
VII. Конкуренция: устоит ли moat Nvidia?
Заменяет ли Jalapeño Nvidia?
Краткосрочно: нет.
- Только inference: training frontier models остается Nvidia-dominated (H100/Blackwell). Февраль 2026: Nvidia инвестировала $30 млрд напрямую в OpenAI.
- Экосистема CUDA: software moat десятилетий — миллионы разработчиков, оптимизированные libraries.
- Rigidity ASIC: при радикальной смене LLM-архитектуры (post-Transformer) высокая стоимость адаптации.
Стратегическое значение: диверсификация, не развод
Даже 20–30 % inference на Jalapeño означает: реальная экономия, leverage в переговорах с Nvidia, меньше single-supplier risk.
«Nobody wants to be beholden to Nvidia.» — Ben Barringer, Quilter Cheviot
Ответ Nvidia и рост Broadcom
Nvidia: Vera Rubin platform, CUDA moat, $30B OpenAI investment. Broadcom становится custom ASIC king для Google TPU, Meta MTIA и OpenAI Jalapeño. 2026 YTD ~+18 %; с конца 2022 почти ×7.
VIII. Отраслевое влияние
1. Экономика инференса
При подтверждении 50 %: ниже цены API, яснее путь OpenAI к profitability, ниже price war floor для отрасли.
2. Full-stack AI как стандарт
«OpenAI не только разрабатывает frontier models — она проектирует инфраструктуру под ними: chip architecture, kernels, memory, network, scheduling, deployment и product experience.» — Blog OpenAI
Конкуренция смещается от «лучшая модель» к «лучшая end-to-end efficiency».
3. Перераспределение в полупроводниках
- Победители: Broadcom, TSMC, SK Hynix / Samsung (HBM)
- Под давлением: Nvidia (доля inference), AMD (слабое присутствие ASIC)
IX. Ключевые люди
| Имя | Роль | Вклад |
|---|---|---|
| Greg Brockman | Co-founder & President, OpenAI | Публичный анонс, full-stack strategy |
| Richard Ho | Hardware lead, OpenAI | Техническая архитектура |
| Hock Tan | CEO, Broadcom | 50 % cost, Blackwell parity |
| Sam Altman | CEO, OpenAI | Стратегия: контроль compute |
X. Хронология
Runbook из 5 шагов: стоимость инференса в эпоху custom chips
- Отслеживать новости чипов и capex. Блоги OpenAI, Broadcom, Nvidia и Azure deployment news. Roadmap Jalapeño и Vera Rubin в квартальных infrastructure reviews.
- Аудит затрат на инференс. API и self-hosted vs benchmark ~50 % и GPU prices. Cost per token по features.
- Multi-provider inference routing. LiteLLM или gateway с fallback OpenAI, Anthropic и open source — resilience к price и availability shocks.
- Оценить local vs cloud. M4 Unified Memory vs GPU VPS для coding agents и CI; latency, privacy, 7x24.
- Развернуть стабильный Mac Cloud. Agent, CI и eval workloads на предсказуемые macOS cloud nodes; изолировать dev от prod secrets.
FAQ
Jalapeño заменяет GPU Nvidia?
Нет, по крайней мере пока. Только LLM inference, не training. Nvidia остается training partner; отношения комплементарные.
Подтверждена ли экономия 50 %?
Ранние lab data Hock Tan (Bloomberg). Third-party validation и tech report ожидаются — интерпретировать осторожно.
Что почувствуют обычные пользователи?
При подтверждении: ниже цены ChatGPT/API, возможно быстрее ответы. Долгосрочно — более доступный и дешевый AI.
Почему чип назван Jalapeño?
Нет официального объяснения. Традиция OpenAI называть проекты по еде; «Jalapeño» может символизировать острую performance или market shock.
Jalapeño будет доступен другим AI-компаниям?
Официальная формулировка: «создан для industry LLM». Внешняя доступность возможна; краткосрочный приоритет — OpenAI internal.
Когда следующее поколение?
Next gen планируется на 2028, затем ежегодные итерации.
Повлияло ли это на акции Nvidia?
Ограниченная реакция. Training advantage краткосрочно сохранен; долгосрочное давление от client custom silicon.
XI. Источники и ссылки
XII. Заключение
Jalapeño — не silver bullet, завершающая доминирование Nvidia — но это реально, уже запускает real models, и сигнализирует: эра, когда AI-компании просто покупают compute, закончилась.
OpenAI присоединяется к Google, Amazon, Microsoft и Meta — не чтобы заменить Nvidia, а для leverage, cost reduction и full-stack control. При подтверждении 50 % в production меняется экономика margins OpenAI, API pricing и миллионов разработчиков.
7x24 AI agents, Xcode CI и multi-model eval на local laptop или generic Linux VPS часто упираются в performance ceiling и отсутствие Apple toolchain в период inference price inflation — скрытые outages дороги. Для предсказуемых dev и agent environments: аренда M4 Mac Cloud hosts VPSMAC — стабильно, Apple-native, production-ready для long-term 7x24.