OpenAI GPT-5.6 offiziell: Sol, Terra und Luna — Benchmarks, Preise und Zugang (Juni 2026)
Am 26. Juni 2026 hat OpenAI die GPT-5.6-Familie mit Sonnensystem-Namen veroeffentlicht: Sol (Flaggschiff), Terra (ausgewogen) und Luna (leicht). Sol erreicht 91,9 % auf TerminalBench 2.1 und verdraengt Claude Mythos 5 nach nur 17 Tagen an der Spitze. Alle drei Modelle tragen erstmals OpenAIs High-Cybersecurity-Rating — der Launch ist jedoch auf etwa 20 genehmigte Partner beschraenkt. Dieser Artikel fuer KI-Entwickler und Tech Leads buendelt Benchmarks, Preise ($5/$30, $2,50/$15, $1/$6), Cerebras 750 tok/s, Regierungskontext, Mythos-5-Vergleich, Szenario-Empfehlungen, FAQ und ein fuenf-Schritte-Runbook.
Inhaltsverzeichnis
Kernueberblick
| Modell | Positionierung | Input | Output | Highlight |
|---|---|---|---|---|
| GPT-5.6 Sol | Flaggschiff | $5 / M Tok | $30 / M Tok | TerminalBench 2.1 #1 (91,9 %, Ultra) |
| GPT-5.6 Terra | Ausgewogen | $2,50 / M Tok | $15 / M Tok | ~GPT-5.5-Niveau, 50 % guenstiger |
| GPT-5.6 Luna | Leicht / schnell | $1 / M Tok | $6 / M Tok | 80 % guenstiger als Sol, High-Cyber-Rating |
Status: Auf US-Regierungsanfrage derzeit nur Preview fuer ca. 20 genehmigte Partner; breiter Rollout in den kommenden Wochen erwartet. Polymarket: 87 % Wahrscheinlichkeit fuer breite Verfuegbarkeit bis 31. Juli 2026.
Drei Schmerzpunkte nach dem Launch
- Zugangsluecke vs. Benchmark-Hype. TerminalBench 91,9 % und CTF 96,7 % sind oeffentlich kommuniziert, aber die meisten Teams haben noch keinen API-Key. Architekturentscheidungen auf Preview-Leaks oder zweiter Hand Berichte zu stuetzen, ist riskant.
- Ultra-Modus und Token-Kosten. Sols Multi-Agenten-Ultra-Modus liefert Spitzenwerte, verbraucht aber deutlich mehr Output-Tokens. Ohne Kostenmodellierung kann Terra oder Luna die bessere Wahl sein — trotz niedrigerer Einzel-Benchmarks.
- Regulatorisches Praezedenz-Risiko. Erstmals hat die US-Regierung einen Frontier-Launch auf ~20 Organisationen begrenzt; parallel sind Fable 5 und Mythos 5 offline. Single-Vendor-Strategien ohne Fallback sind gefaehrlicher denn je.
Release-Hintergrund: Sonnensystem-Namen
Am 26. Juni 2026 (27. Juni Peking-Zeit) stellte OpenAI erstmals Modelle nach Himmelskoerpern vor: Sol (Sonne), Terra (Erde), Luna (Mond). Der Release verlief nicht reibungslos: Trumps Executive Order vom 2. Juni 2026 erlaubt der US-Regierung bis zu 30 Tage Vorabzugang fuer Sicherheitspruefungen — erstmals wurde ein AI-Unternehmen zur begrenzten Veroeffentlichung gehalten.
CEO Sam Altman erklaerte die Kooperation, widersprach aber oeffentlich:
„Wir glauben nicht, dass dieser staatliche Freigabeprozess zur langfristigen Norm werden sollte. Er haelt die besten Werkzeuge von Nutzern, Entwicklern, Unternehmen und globalen Partnern fern."
Sol, Terra, Luna im Detail
GPT-5.6 Sol — Flaggschiff
Fuer komplexes Coding, Cybersecurity-Forschung und lange Agentic Workflows. Zwei neue Reasoning-Modi:
- Max: Mehr Denkzeit, hoehere Genauigkeit, hoehere Latenz.
- Ultra: Multi-Agenten-Architektur — Sub-Agenten arbeiten parallel, Ergebnisse werden zusammengefuehrt. Kern des TerminalBench-Rekords.
Preis: $5 / M Input, $30 / M Output (gleich GPT-5.5, deutlich bessere Leistung). Kontext: ~1,5M Token.
GPT-5.6 Terra — Ausgewogen
Alltags-Enterprise: Support, interne Tools, Dokumentenanalyse in grosser Menge. Performance nahe GPT-5.5 bei 50 % niedrigeren Kosten.
Preis: $2,50 / M Input, $15 / M Output.
GPT-5.6 Luna — Leicht
Fuer Zusammenfassungen, Entwuerfe und Automation mit niedriger Latenz. Erstes Nicht-Flaggschiff mit High-Rating in Cybersecurity und Biologie.
Preis: $1 / M Input, $6 / M Output.
Benchmark-Daten
TerminalBench 2.1 (Coding-Agenten)
| Modell | Score | Modus |
|---|---|---|
| GPT-5.6 Sol | 91,9 % | Ultra (Multi-Agent) |
| GPT-5.6 Sol | 88,8 % | Standard |
| Claude Mythos 5 | 88,0 % | Standard |
| GPT-5.5 | 83,4 % | Standard |
| Gemini 3.1 Pro Preview | 70,7 % | Standard |
Mythos 5 war nur 17 Tage (seit 9. Juni) Spitzenreiter, bevor Sol ueberholte.
Agent's Last Exam (lange Agenten-Tasks)
| Modell | Task-Abschlussrate (Code) |
|---|---|
| GPT-5.6 Sol | 50,9 % — einziges Modell ueber 50 % |
| GPT-5.6 Luna | Leicht ueber GPT-5.5 |
Cybersecurity: CTF und ExploitBench
Erste OpenAI-Familie, bei der alle drei Stufen High-Cybersecurity-Risiko erreichen.
| Modell | CTF-Trefferquote |
|---|---|
| Sol | 96,7 % |
| Terra | 91,84 % |
| Luna | 85,19 % |
ExploitBench: Sol gleicht Mythos Preview, verbraucht aber nur etwa ein Drittel der Output-Tokens. Red-Teaming: Sol kann Schwachstellen in Chromium/Firefox erkennen, aber keine vollstaendigen Exploit-Ketten autonom bauen — unter der „Cyber Critical"-Schwelle.
Life Sciences: GeneBench v1 und HealthBench
- GeneBench v1: Sol erreicht oder uebertrifft GPT-5.5 mit weniger Tokens.
- HealthBench Professional: Sol 60,5 Punkte — +8,7 gegenueber GPT-5.5.
Cerebras: 750 Token/s ab Juli
Ab Juli deployt OpenAI Sol auf Cerebras-Hardware fuer ausgewaehlte Kunden — bis zu 750 tok/s. Vergleich: die meisten Frontier-Modelle liegen bei 50–150 tok/s. Das entspricht etwa 5× bis 15× schnellerer Antwortzeit bei gleicher Qualitaet — relevant fuer Live-Coding-Assistenten und Streaming-Agenten.
Regierungskontext: Juni-Blockade der Big Three
| Unternehmen | Modell | Status |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | Preview ~20 Partner |
| Anthropic | Fable 5 / Mythos 5 | Seit 12. Juni offline (Exportkontrolle) |
| Gemini 3.5 Pro | Verschoben auf Juli |
Juni 2026 sollte der groesste AI-Release-Monat werden — stattdessen blockierten Regulierung und Exportkontrolle alle drei Flaggschiffe.
GPT-5.6 Sol vs Claude Mythos 5
| Dimension | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91,9 % (Ultra) / 88,8 % | 88,0 % |
| ExploitBench | ~gleich, 1/3 Tokens | stark (offline) |
| Input-Preis | $5 / M | $10 / M (offline) |
| Verfuegbarkeit | Preview → bald breit | Exportkontrolle |
| Kontext | ~1,5M Token | 200K Token |
Fable 5 behaelt Vorteile bei SWE-bench Pro; vollstaendige GPT-5.6-System-Card-Daten stehen noch aus.
Zugang und Timeline
Jetzt (Juni 2026): ~20 Partner per API und Codex. Kein ChatGPT fuer die Allgemeinheit.
Juli 2026 (erwartet): ChatGPT (Plus/Pro zuerst), oeffentliche API, Cerebras-Sol fuer Enterprise.
Polymarket: 87 % fuer breiten Rollout bis 31. Juli 2026.
Szenario-Empfehlungen
| Bedarf | Empfehlung |
|---|---|
| Komplexes Coding, Multi-Step-Agenten | Sol (Ultra bei Budget) |
| Enterprise-Dokumente, Support in Masse | Terra |
| Zusammenfassung, Entwurf, Automation | Luna |
| GPT-5.5-Niveau, halber Preis | Terra |
| Extrem niedrige Latenz (ab Juli) | Sol on Cerebras |
Fuenf-Schritte-Runbook
Schritt 1 — Produktion auf bewaehrtem Stack halten
Opus 4.8, GPT-5.5 oder Sonnet 4.6 als Default; Sol/Terra/Luna-Benchmarks nur in Staging, nicht im Sprint.
Schritt 2 — Offizielle Kanaele abonnieren
openai.com/blog, Deployment Safety System Card und platform.openai.com/docs.
Schritt 3 — A/B-Eval-Checkliste vorbereiten
Agent-Coding, CTF-aehnliche Security-Tasks, Long-Horizon-Workflows und Terra-vs-Luna-Kostenpfad — Vergleich innerhalb 48 h nach API-Freigabe.
Schritt 4 — Preview- und API-Lag respektieren
ChatGPT kann Wochen vor breiter API liegen; am ersten Preview-Tag keinen Produktions-Traffic umschalten.
Schritt 5 — Multi-Modell-Fallback-Gateway
LiteLLM mit Sol/Terra/Luna plus Opus 4.8, GPT-5.5, Gemini 3.5 Pro — nach Fable-5- und Regierungs-Praezedenz.
Technische Fakten (Juni 2026)
- TerminalBench: Sol 91,9 % (Ultra), 88,8 % (Standard); Mythos 5 88,0 %; GPT-5.5 83,4 %.
- CTF: Sol 96,7 %, Terra 91,84 %, Luna 85,19 %.
- Preise: Sol $5/$30, Terra $2,50/$15, Luna $1/$6 — Fable 5 war $10/$50.
- Cerebras: 750 tok/s ab Juli; Polymarket 87 % bis 31. Juli breit.
- Agent's Last Exam: Sol 50,9 % — einziges Modell ueber 50 %.
FAQ
F: Ist GPT-5.6 in ChatGPT verfuegbar?
A: Noch nicht oeffentlich. ~20 Partner per API/Codex; breiter Rollout Juli 2026 erwartet.
F: Schlaegt Sol Fable 5 beim Coding?
A: Sol fuehrt TerminalBench (91,9 % vs Mythos 88 %). SWE-bench Pro fuer GPT-5.6 noch nicht veroeffentlicht. Sol ist preislich attraktiver.
F: Was ist Ultra-Modus?
A: Parallele Sub-Agenten fuer Teilaufgaben, dann Synthese — hoehere Leistung, mehr Tokens.
F: Warum eingeschraenkt?
A: US-Regierung (OSTP/ONCD) nach Executive Order vom 2. Juni; OpenAI widerspricht dauerhafter Norm.
F: Cerebras-Geschwindigkeit?
A: Bis 750 tok/s — 5× bis 15× schneller als typische Frontier-Modelle.
F: Kontextfenster?
A: ~1,5M Token berichtet; offizielle System Card bestaetigt noch.
F: Cybersecurity-Arbeit sicher?
A: Alle drei mit High-Rating; Schutzschichten und kein autonomer Voll-Exploit laut OpenAI.
Fazit
GPT-5.6 markiert Fortschritte in Faehigkeit (Sol Ultra auf TerminalBench), Effizienz (ExploitBench mit 1/3 Tokens) und Geschwindigkeit (Cerebras 750 tok/s). Gleichzeitig setzt die US-Regierungs-Preview ein Praezedenz — Multi-Modell-Fallback ist Pflicht, nicht Option.
Sol/Terra/Luna-Benchmarks auf dem Laptop reichen fuer Snippets; dauerhafte A/B-Laeufe, LiteLLM-Gateways und IDE-Agenten brauchen native macOS und launchd 7×24. Wer nach breitem API-Zugang sofort Eval-Skripte, Cursor/Claude Code und Routing auf einem Knoten fahren will — dauerhaft online, wipe-faehig — ist mit VPSMAC M4 Mac Cloud meist besser bedient: Modelle wechseln mit dem Rollout, Infrastruktur einmal sauber aufgesetzt.