OpenAI × Broadcom: первый custom-чип Jalapeño — инференс на 50 % дешевле, вызов Nvidia

24 июня 2026 OpenAI и Broadcom представили Jalapeño — первый custom ASIC OpenAI для инференса LLM. Ранние тесты обещают ~50 % снижение стоимости инференса, значительно лучшую производительность на ватт, производство TSMC 3 нм и развертывание с конца 2026 в Microsoft Azure. Этот гид охватывает контекст, архитектуру, данные о стоимости, 9-месячную разработку, цепочку партнеров, roadmap, конкуренцию с Nvidia, отраслевое влияние, ключевых людей, хронологию, FAQ x7, 5-шаговый runbook и CTA Mac Cloud.

Визуализация полупроводникового wafer и AI-чипа, символизирующая OpenAI Jalapeño custom ASIC для инференса LLM 2026

Содержание

Краткое резюме

24 июня 2026 OpenAI и Broadcom представили Jalapeño — первый custom AI-чип OpenAI для инференса. ASIC, созданный специально для LLM, заявляет ~50 % экономии стоимости инференса vs типичные AI-GPU и значительно лучшую производительность на ватт. Производство TSMC 3 нм; развертывание начинается с конца 2026 в дата-центрах Microsoft и партнеров.

I. Контекст: зачем OpenAI делает собственные чипы

Ключевой конфликт: модели сильнее — счет за compute дороже

OpenAI — один из крупнейших потребителей GPU в мире. Каждый запрос ChatGPT требует массивного серверного инференса. С апгрейдами GPT-4/5 инференс — самый тяжелый блок затрат на пути к прибыльности.

Ранее OpenAI почти полностью работала на GPU Nvidia (H100, H200, Blackwell). Универсальные ускорители не оптимизированы для однородного LLM-инференса — много compute теряется впустую.

Аналогия: GPU Nvidia — швейцарский нож; Jalapeño — скальпель.

Конкуренты уже в custom silicon

КомпанияCustom-чипНазначение
GoogleTPUTraining + инференс
AmazonTrainium / InferentiaTraining + инференс
MicrosoftMaia 100Инференс
MetaMTIAИнференс
OpenAIJalapeño (2026)Инференс

OpenAI опоздала, но быстро — 9 месяцев от design до tape-out.

II. Что такое Jalapeño? Технические детали

2.1 ASIC, не GPU

ASIC (Application-Specific Integrated Circuit) — чип делает одно: инференс LLM. Не игры, не training, не general compute. В узкой задаче эффективность экстремальна.

Richard Ho, руководитель hardware OpenAI:

«Jalapeño спроектирован с нуля для LLM-инференса с учетом наших insights по kernel execution, перемещению памяти, сети и serving patterns. Ранние тесты показывают эффективную работу близко к теоретическому пределу hardware для наших ключевых workloads.»

2.2 Архитектурные highlights

2.3 Производство

2.4 Модели в лаборатории

Engineering samples уже работают на целевых частоте и мощности, включая GPT-5.3-Codex-Spark — флагманский inference-модель для coding.

III. Производительность и стоимость: ключевые данные

Примечание: данные Hock Tan (Broadcom) и OpenAI — ранние lab tests. Полный tech report через месяцы; независимая валидация ожидается.

МетрикаJalapeño (ранние)Benchmark
Экономия стоимости инференса~50 %vs типичные AI-GPU
Performance per wattЗначительно выше SOTAЗаявление OpenAI
Абсолютная performanceСопоставимо Blackwell / Google TPUHock Tan, Reuters
ТеплоотводЛучше ожиданийВнутренние тесты OpenAI
Hock Tan (Bloomberg): «На данный момент Jalapeño показывает ~50 % экономии vs типичные AI-GPU.»
Greg Brockman: «От initial design до tape-out всего 9 месяцев — часть design использовала собственные AI-модели OpenAI.»

«50 %» — lab data Broadcom. Production validation: tech report OpenAI, Azure deployment, third-party benchmarks.

IV. Разработка: 9 месяцев — самый быстрый ASIC-цикл?

От design до tape-out: 9 месяцев. OpenAI и Broadcom называют это самым быстрым циклом для high-performance ASIC.

  1. Co-design software-hardware: model team и chip team вместе — меньше ошибочных предположений о workloads.
  2. AI-assisted chip design: модели OpenAI ускорили design decisions (VentureBeat: предыдущие поколения).
  3. IP-библиотека Broadcom: reusable silicon и network IP сокращает implementation.

V. Цепочка партнеров

РольКомпанияЗадача
АрхитектураOpenAIОптимизация LLM-инференса, full-stack design
Silicon и сетьBroadcomImplementation, Tomahawk, mass production
FoundryTSMCProduction 3 нм
ИнтеграцияCelesticaBoards, racks, server systems
Первое развертываниеMicrosoft AzureДата-центр с конца 2026

VI. Развертывание и коммерческая roadmap

Краткосрочно (конец 2026)

Среднесрочно (2027)

Долгосрочно (до 2029)

VII. Конкуренция: устоит ли moat Nvidia?

Заменяет ли Jalapeño Nvidia?

Краткосрочно: нет.

  1. Только inference: training frontier models остается Nvidia-dominated (H100/Blackwell). Февраль 2026: Nvidia инвестировала $30 млрд напрямую в OpenAI.
  2. Экосистема CUDA: software moat десятилетий — миллионы разработчиков, оптимизированные libraries.
  3. Rigidity ASIC: при радикальной смене LLM-архитектуры (post-Transformer) высокая стоимость адаптации.

Стратегическое значение: диверсификация, не развод

Даже 20–30 % inference на Jalapeño означает: реальная экономия, leverage в переговорах с Nvidia, меньше single-supplier risk.

«Nobody wants to be beholden to Nvidia.» — Ben Barringer, Quilter Cheviot

Ответ Nvidia и рост Broadcom

Nvidia: Vera Rubin platform, CUDA moat, $30B OpenAI investment. Broadcom становится custom ASIC king для Google TPU, Meta MTIA и OpenAI Jalapeño. 2026 YTD ~+18 %; с конца 2022 почти ×7.

VIII. Отраслевое влияние

1. Экономика инференса

При подтверждении 50 %: ниже цены API, яснее путь OpenAI к profitability, ниже price war floor для отрасли.

2. Full-stack AI как стандарт

«OpenAI не только разрабатывает frontier models — она проектирует инфраструктуру под ними: chip architecture, kernels, memory, network, scheduling, deployment и product experience.» — Blog OpenAI

Конкуренция смещается от «лучшая модель» к «лучшая end-to-end efficiency».

3. Перераспределение в полупроводниках

IX. Ключевые люди

ИмяРольВклад
Greg BrockmanCo-founder & President, OpenAIПубличный анонс, full-stack strategy
Richard HoHardware lead, OpenAIТехническая архитектура
Hock TanCEO, Broadcom50 % cost, Blackwell parity
Sam AltmanCEO, OpenAIСтратегия: контроль compute

X. Хронология

Окт. 2025 → OpenAI и Broadcom объявляют chip partnership Фев. 2026 → Nvidia инвестирует $30 млрд в OpenAI (Vera Rubin deal) 24 июня 2026 → Jalapeño публично; engineering samples в lab Конец 2026 → Первое commercial deployment (Azure и партнеры) 2027 → Mass production; deployment >1,3 GW 2028 (план) → Второе поколение чипа 2029 (цель) → 10 GW custom silicon compute

Runbook из 5 шагов: стоимость инференса в эпоху custom chips

  1. Отслеживать новости чипов и capex. Блоги OpenAI, Broadcom, Nvidia и Azure deployment news. Roadmap Jalapeño и Vera Rubin в квартальных infrastructure reviews.
  2. Аудит затрат на инференс. API и self-hosted vs benchmark ~50 % и GPU prices. Cost per token по features.
  3. Multi-provider inference routing. LiteLLM или gateway с fallback OpenAI, Anthropic и open source — resilience к price и availability shocks.
  4. Оценить local vs cloud. M4 Unified Memory vs GPU VPS для coding agents и CI; latency, privacy, 7x24.
  5. Развернуть стабильный Mac Cloud. Agent, CI и eval workloads на предсказуемые macOS cloud nodes; изолировать dev от prod secrets.

FAQ

Jalapeño заменяет GPU Nvidia?

Нет, по крайней мере пока. Только LLM inference, не training. Nvidia остается training partner; отношения комплементарные.

Подтверждена ли экономия 50 %?

Ранние lab data Hock Tan (Bloomberg). Third-party validation и tech report ожидаются — интерпретировать осторожно.

Что почувствуют обычные пользователи?

При подтверждении: ниже цены ChatGPT/API, возможно быстрее ответы. Долгосрочно — более доступный и дешевый AI.

Почему чип назван Jalapeño?

Нет официального объяснения. Традиция OpenAI называть проекты по еде; «Jalapeño» может символизировать острую performance или market shock.

Jalapeño будет доступен другим AI-компаниям?

Официальная формулировка: «создан для industry LLM». Внешняя доступность возможна; краткосрочный приоритет — OpenAI internal.

Когда следующее поколение?

Next gen планируется на 2028, затем ежегодные итерации.

Повлияло ли это на акции Nvidia?

Ограниченная реакция. Training advantage краткосрочно сохранен; долгосрочное давление от client custom silicon.

XI. Источники и ссылки

XII. Заключение

Jalapeño — не silver bullet, завершающая доминирование Nvidia — но это реально, уже запускает real models, и сигнализирует: эра, когда AI-компании просто покупают compute, закончилась.

OpenAI присоединяется к Google, Amazon, Microsoft и Meta — не чтобы заменить Nvidia, а для leverage, cost reduction и full-stack control. При подтверждении 50 % в production меняется экономика margins OpenAI, API pricing и миллионов разработчиков.

7x24 AI agents, Xcode CI и multi-model eval на local laptop или generic Linux VPS часто упираются в performance ceiling и отсутствие Apple toolchain в период inference price inflation — скрытые outages дороги. Для предсказуемых dev и agent environments: аренда M4 Mac Cloud hosts VPSMAC — стабильно, Apple-native, production-ready для long-term 7x24.