OpenAI GPT-5.6 официально: Sol, Terra и Luna — бенчмарки, цены и доступ (июнь 2026)
26 июня 2026 OpenAI представила семейство GPT-5.6 с именами небесных тел: Sol (флагман), Terra (баланс) и Luna (лёгкая). Sol набирает 91,9 % в TerminalBench 2.1 и смещает Claude Mythos 5 с первого места всего за 17 дней. Все три модели впервые получили уровень киберриска High у OpenAI — но запуск ограничен примерно 20 одобренными партнёрами. Для AI-разработчиков и tech leads: бенчмарки, цены ($5/$30, $2,50/$15, $1/$6), Cerebras 750 tok/s, контекст правительства, сравнение с Mythos 5, сценарии, FAQ и пятistупенчатый runbook.
Содержание
Краткое резюме
| Модель | Позиционирование | Ввод | Вывод | Сильная сторона |
|---|---|---|---|---|
| GPT-5.6 Sol | Флагман | $5 / M ток | $30 / M ток | TerminalBench 2.1 #1 (91,9 %, Ultra) |
| GPT-5.6 Terra | Баланс | $2,50 / M ток | $15 / M ток | ~уровень GPT-5.5, на 50 % дешевле |
| GPT-5.6 Luna | Лёгкая / быстрая | $1 / M ток | $6 / M ток | На 80 % дешевле Sol, cyber High |
Статус: По запросу правительства США сейчас preview для ~20 одобренных партнёров; массовый rollout ожидается в ближайшие недели. Polymarket: 87 % вероятности широкой доступности до 31 июля 2026.
Три боли после релиза
- Разрыв доступа и хайп бенчмарков. TerminalBench 91,9 % и CTF 96,7 % публичны, но у большинства команд ещё нет API-ключа. Строить архитектуру на косвенных отчётах рискованно.
- Режим Ultra и стоимость токенов. Multi-agent Ultra Sol даёт пиковые оценки, но съедает больше output-токенов. Без моделирования Terra или Luna могут быть рациональнее.
- Регуляторный прецедент. Впервые правительство США ограничило frontier-релиз ~20 организациями; Fable 5 и Mythos 5 offline. Single-vendor без fallback опаснее.
Контекст: имена солнечной системы
26 июня 2026 (27 июня по пекинскому времени) OpenAI впервые назвала модели по небесным телам: Sol, Terra, Luna. Релиз прошёл не гладко: указ 2 июня 2026 даёт правительству США до 30 дней pre-release доступа — впервые AI-компанию обязали к ограниченному выпуску.
CEO Сэм Альтман заявил:
«Мы не считаем, что такой государственный процесс доступа должен стать долгосрочной нормой. Он удерживает лучшие инструменты от пользователей, разработчиков, предприятий и глобальных партнёров».
Sol, Terra, Luna подробно
GPT-5.6 Sol — флагман
Для сложного кода, кибербезопасности и длинных agentic workflows. Два режима рассуждения:
- Max: больше времени на размышление, выше точность, выше задержка.
- Ultra: multi-agent — параллельные суб-агенты и синтез. Ядро рекорда TerminalBench.
Цена: $5 / M ввод, $30 / M вывод (как GPT-5.5, заметно лучше по качеству). Контекст: ~1,5M токенов.
GPT-5.6 Terra — баланс
Ежедневный enterprise: поддержка, внутренние инструменты, массовый разбор документов. Производительность близка GPT-5.5 при 50 % меньших затратах.
Цена: $2,50 / M ввод, $15 / M вывод.
GPT-5.6 Luna — лёгкая
Суммаризация, черновики и автоматизация с низкой задержкой. Первый не-флагман с High в кибербезопасности и биологии.
Цена: $1 / M ввод, $6 / M вывод.
Данные бенчмарков
TerminalBench 2.1 (code-агенты)
| Модель | Оценка | Режим |
|---|---|---|
| GPT-5.6 Sol | 91,9 % | Ultra (multi-agent) |
| GPT-5.6 Sol | 88,8 % | Стандарт |
| Claude Mythos 5 | 88,0 % | Стандарт |
| GPT-5.5 | 83,4 % | Стандарт |
| Gemini 3.1 Pro Preview | 70,7 % | Стандарт |
Mythos 5 был лидером всего 17 дней (с 9 июня), пока Sol не обогнал.
Agent's Last Exam (длинные agent-задачи)
| Модель | Завершение задач (code) |
|---|---|
| GPT-5.6 Sol | 50,9 % — единственная модель выше 50 % |
| GPT-5.6 Luna | Чуть выше GPT-5.5 |
Кибербезопасность: CTF и ExploitBench
Первое семейство OpenAI, где все три уровня достигают cyber High.
| Модель | CTF hit rate |
|---|---|
| Sol | 96,7 % |
| Terra | 91,84 % |
| Luna | 85,19 % |
ExploitBench: Sol на уровне Mythos Preview при ~трети output-токенов. Red-teaming: Sol находит уязвимости в Chromium/Firefox, но не строит полную exploit-цепочку автономно — ниже порога «Cyber Critical».
Life sciences: GeneBench v1 и HealthBench
- GeneBench v1: Sol догоняет или превосходит GPT-5.5 с меньшим числом токенов.
- HealthBench Professional: Sol 60,5 баллов — +8,7 к GPT-5.5.
Cerebras: 750 tok/s с июля
С июля OpenAI разворачивает Sol на Cerebras для избранных клиентов — до 750 tok/s. Для сравнения: большинство frontier-моделей — 50–150 tok/s. Это 5×–15× быстрее — важно для live coding assistants и streaming-агентов.
Правительственный контекст: блокировка Big Three в июне
| Компания | Модель | Статус |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | Preview ~20 партнёров |
| Anthropic | Fable 5 / Mythos 5 | Offline с 12 июня (экспортный контроль) |
| Gemini 3.5 Pro | Перенос на июль |
Июнь 2026 должен был стать крупнейшим месяцем AI-релизов — вместо этого регуляция и экспорт заблокировали все три флагмана.
GPT-5.6 Sol vs Claude Mythos 5
| Измерение | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91,9 % (Ultra) / 88,8 % | 88,0 % |
| ExploitBench | ~паритет, 1/3 токенов | силён (offline) |
| Цена ввода | $5 / M | $10 / M (offline) |
| Доступность | Preview → скоро широко | Экспортный контроль |
| Контекст | ~1,5M токенов | 200K токенов |
Fable 5 сохраняет преимущество в SWE-bench Pro; полная system card GPT-5.6 ещё впереди.
Доступ и сроки
Сейчас (июнь 2026): ~20 партнёров через API и Codex. ChatGPT для публики нет.
Июль 2026 (ожидается): ChatGPT (Plus/Pro первыми), публичный API, Sol на Cerebras для enterprise.
Polymarket: 87 % на широкий rollout до 31 июля 2026.
Рекомендации по сценариям
| Задача | Рекомендация |
|---|---|
| Сложный код, multi-step агенты | Sol (Ultra при бюджете) |
| Enterprise-документы, массовый support | Terra |
| Суммаризация, черновики, автоматизация | Luna |
| Уровень GPT-5.5, полцены | Terra |
| Минимальная задержка (с июля) | Sol on Cerebras |
Пятistупенчатый runbook
Шаг 1 — Держать прод на проверенном стеке
Opus 4.8, GPT-5.5 или Sonnet 4.6 по умолчанию; бенчмарки Sol/Terra/Luna только в staging.
Шаг 2 — Подписаться на официальные каналы
openai.com/blog, Deployment Safety System Card и platform.openai.com/docs.
Шаг 3 — Подготовить A/B-чеклист
Agent-coding, security в духе CTF, long-horizon workflows и cost-path Terra/Luna — сравнение за 48 ч после API.
Шаг 4 — Учитывать лаг preview и API
ChatGPT может опережать API на недели; не переключать прод в первый день preview.
Шаг 5 — Multi-model gateway
LiteLLM с Sol/Terra/Luna плюс Opus 4.8, GPT-5.5, Gemini 3.5 Pro — после прецедентов Fable 5 и правительственного ограничения.
Технические факты (июнь 2026)
- TerminalBench: Sol 91,9 % (Ultra), 88,8 % (стандарт); Mythos 5 88,0 %; GPT-5.5 83,4 %.
- CTF: Sol 96,7 %, Terra 91,84 %, Luna 85,19 %.
- Цены: Sol $5/$30, Terra $2,50/$15, Luna $1/$6 — Fable 5 был $10/$50.
- Cerebras: 750 tok/s с июля; Polymarket 87 % до 31 июля.
- Agent's Last Exam: Sol 50,9 % — единственная модель выше 50 %.
FAQ
В: GPT-5.6 в ChatGPT?
О: Пока нет для публики. ~20 партнёров через API/Codex; широкий rollout ожидается в июле 2026.
В: Sol лучше Fable 5 в коде?
О: Sol лидирует в TerminalBench (91,9 % vs Mythos 88 %). SWE-bench Pro для GPT-5.6 не опубликован. Sol выгоднее по цене.
В: Что такое Ultra?
О: Параллельные суб-агенты и синтез — выше качество, больше токенов.
В: Почему ограничен?
О: Правительство США (OSTP/ONCD) после указа 2 июня; OpenAI против постоянной нормы.
В: Скорость Cerebras?
О: До 750 tok/s — в 5–15 раз быстрее типичных frontier.
В: Контекстное окно?
О: ~1,5M токенов по отчётам; официальная system card подтвердит.
В: Безопасно для cyber-работы?
О: Все три с High; защитные слои и нет автономного полного exploit по OpenAI.
Заключение
GPT-5.6 продвигает возможности (Sol Ultra в TerminalBench), эффективность (ExploitBench при 1/3 токенов) и скорость (Cerebras 750 tok/s). Правительственный preview США задаёт прецедент — multi-model fallback обязателен.
Бенчмарки Sol/Terra/Luna на ноутбуке хватит для коротких тестов; долгие A/B, LiteLLM и IDE-агенты требуют нативного macOS и launchd 7×24. Если после открытия API нужно сразу гонять eval-скрипты, Cursor/Claude Code и routing на одном узле — всегда online, с wipe при отмене — аренда Mac cloud VPSMAC M4 обычно проще: модели по rollout, инфраструктура один раз.