OpenAI GPT-5.6 officiel : Sol, Terra et Luna — benchmarks, prix et acces (juin 2026)
Le 26 juin 2026, OpenAI a lance la famille GPT-5.6 avec des noms du systeme solaire : Sol (flagship), Terra (equilibre) et Luna (leger). Sol atteint 91,9 % sur TerminalBench 2.1 et depasse Claude Mythos 5 apres seulement 17 jours en tete. Les trois modeles obtiennent pour la premiere fois le niveau cyber High d OpenAI — mais le lancement est limite a environ 20 partenaires approuves. Pour ingenieurs IA et tech leads : benchmarks, tarifs ($5/$30, $2,50/$15, $1/$6), Cerebras 750 tok/s, contexte gouvernemental, comparaison Mythos 5, scenarios, FAQ et runbook en cinq etapes.
Table des matieres
Resume rapide
| Modele | Positionnement | Entree | Sortie | Point fort |
|---|---|---|---|---|
| GPT-5.6 Sol | Flagship | 5 $ / M tok | 30 $ / M tok | TerminalBench 2.1 #1 (91,9 %, Ultra) |
| GPT-5.6 Terra | Equilibre | 2,50 $ / M tok | 15 $ / M tok | ~niveau GPT-5.5, 50 % moins cher |
| GPT-5.6 Luna | Leger / rapide | 1 $ / M tok | 6 $ / M tok | 80 % moins cher que Sol, cyber High |
Statut : Sur demande du gouvernement US, preview pour environ 20 partenaires approuves ; deploiement general attendu dans les semaines. Polymarket : 87 % de probabilite de disponibilite large avant le 31 juillet 2026.
Trois douleurs post-lancement
- Ecart d acces vs hype benchmark. TerminalBench 91,9 % et CTF 96,7 % sont publics, mais la plupart des equipes n ont pas encore de cle API. Baser l architecture sur des rapports indirects est risque.
- Mode Ultra et cout tokens. Le multi-agents Ultra de Sol produit les meilleurs scores mais consomme beaucoup plus de tokens sortie. Sans modelisation, Terra ou Luna peuvent etre plus rationnels.
- Risque de precedent reglementaire. Premiere restriction US d un modele frontier a ~20 organisations ; Fable 5 et Mythos 5 sont hors ligne. Strategie mono-fournisseur sans repli est plus fragile.
Contexte : nomenclature systeme solaire
Le 26 juin 2026 (27 juin heure de Pekin), OpenAI nomme pour la premiere fois ses modeles d apres des corps celestes : Sol, Terra, Luna. La sortie est tendue : le decret du 2 juin 2026 permet au gouvernement US jusqu a 30 jours d acces pre-release — premiere fois qu une societe IA est tenue a une diffusion limitee.
Le CEO Sam Altman a declare :
« Nous ne croyons pas que ce processus d acces gouvernemental doive devenir la norme a long terme. Il eloigne les meilleurs outils des utilisateurs, developpeurs, entreprises et partenaires mondiaux. »
Sol, Terra, Luna en detail
GPT-5.6 Sol — flagship
Pour code complexe, recherche cybersecurite et workflows agentiques longs. Deux modes de raisonnement :
- Max : plus de temps de reflexion, meilleure precision, plus de latence.
- Ultra : architecture multi-agents — sous-agents paralleles puis synthese. Coeur du record TerminalBench.
Prix : 5 $ / M entree, 30 $ / M sortie (identique a GPT-5.5, performance bien superieure). Contexte : ~1,5 M tokens.
GPT-5.6 Terra — equilibre
Usage enterprise quotidien : support, outils internes, analyse documentaire a grande echelle. Performance proche GPT-5.5 a 50 % de cout en moins.
Prix : 2,50 $ / M entree, 15 $ / M sortie.
GPT-5.6 Luna — leger
Resume, brouillons et automatisation a faible latence. Premier non-flagship avec notation High en cybersecurite et biologie.
Prix : 1 $ / M entree, 6 $ / M sortie.
Donnees de benchmarks
TerminalBench 2.1 (agents code)
| Modele | Score | Mode |
|---|---|---|
| GPT-5.6 Sol | 91,9 % | Ultra (multi-agents) |
| GPT-5.6 Sol | 88,8 % | Standard |
| Claude Mythos 5 | 88,0 % | Standard |
| GPT-5.5 | 83,4 % | Standard |
| Gemini 3.1 Pro Preview | 70,7 % | Standard |
Mythos 5 n etait en tete que 17 jours (depuis le 9 juin) avant Sol.
Agent's Last Exam (taches agent long horizon)
| Modele | Taux de completion (code) |
|---|---|
| GPT-5.6 Sol | 50,9 % — seul modele au-dessus de 50 % |
| GPT-5.6 Luna | Legèrement au-dessus de GPT-5.5 |
Cybersecurite : CTF et ExploitBench
Premiere famille OpenAI ou les trois niveaux atteignent le risque cyber High.
| Modele | Taux CTF |
|---|---|
| Sol | 96,7 % |
| Terra | 91,84 % |
| Luna | 85,19 % |
ExploitBench : Sol egale Mythos Preview avec environ un tiers des tokens sortie. Red-teaming : Sol detecte des failles Chromium/Firefox mais ne construit pas de chaine d exploit complete de facon autonome — sous le seuil « Cyber Critical ».
Sciences de la vie : GeneBench v1 et HealthBench
- GeneBench v1 : Sol egale ou depasse GPT-5.5 avec moins de tokens.
- HealthBench Professional : Sol 60,5 points — +8,7 vs GPT-5.5.
Cerebras : 750 tok/s des juillet
Des juillet, OpenAI deploie Sol sur materiel Cerebras pour clients selectionnes — jusqu a 750 tok/s. Reference : la plupart des modeles frontier sont a 50–150 tok/s. Soit environ 5× a 15× plus rapide — crucial pour assistants code en direct et agents streaming.
Contexte gouvernemental : blocage des Big Three en juin
| Societe | Modele | Statut |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | Preview ~20 partenaires |
| Anthropic | Fable 5 / Mythos 5 | Hors ligne depuis le 12 juin (export) |
| Gemini 3.5 Pro | Reporte a juillet |
Juin 2026 devait etre le plus grand mois de releases IA — regulation et export ont bloque les trois flagship.
GPT-5.6 Sol vs Claude Mythos 5
| Dimension | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91,9 % (Ultra) / 88,8 % | 88,0 % |
| ExploitBench | ~egal, 1/3 tokens | fort (hors ligne) |
| Prix entree | 5 $ / M | 10 $ / M (hors ligne) |
| Disponibilite | Preview → bientot large | Controle export |
| Contexte | ~1,5 M tokens | 200 K tokens |
Fable 5 garde un avantage sur SWE-bench Pro ; system card GPT-5.6 complete a venir.
Acces et calendrier
Maintenant (juin 2026) : ~20 partenaires via API et Codex. Pas de ChatGPT grand public.
Juillet 2026 (attendu) : ChatGPT (Plus/Pro en premier), API publique, Sol Cerebras enterprise.
Polymarket : 87 % pour deploiement large avant le 31 juillet 2026.
Recommandations par scenario
| Besoin | Recommandation |
|---|---|
| Code complexe, agents multi-etapes | Sol (Ultra si budget) |
| Documents enterprise, support massif | Terra |
| Resume, brouillon, automatisation | Luna |
| Niveau GPT-5.5, moitie du prix | Terra |
| Latence minimale (des juillet) | Sol on Cerebras |
Runbook en cinq etapes
Etape 1 — Garder la prod sur une pile stable
Opus 4.8, GPT-5.5 ou Sonnet 4.6 par defaut ; benchmarks Sol/Terra/Luna uniquement en staging.
Etape 2 — Suivre les canaux officiels
openai.com/blog, Deployment Safety System Card et platform.openai.com/docs.
Etape 3 — Preparer une checklist A/B
Agents code, taches securite type CTF, workflows long horizon et chemin de cout Terra/Luna — comparaison sous 48 h apres ouverture API.
Etape 4 — Respecter le decalage preview et API
ChatGPT peut preceder l API de plusieurs semaines ; ne pas basculer la prod le premier jour de preview.
Etape 5 — Passerelle multi-modeles
LiteLLM avec Sol/Terra/Luna plus Opus 4.8, GPT-5.5, Gemini 3.5 Pro — apres precedents Fable 5 et restriction gouvernementale.
Faits techniques (juin 2026)
- TerminalBench : Sol 91,9 % (Ultra), 88,8 % (standard) ; Mythos 5 88,0 % ; GPT-5.5 83,4 %.
- CTF : Sol 96,7 %, Terra 91,84 %, Luna 85,19 %.
- Tarifs : Sol 5/30 $, Terra 2,50/15 $, Luna 1/6 $ — Fable 5 etait 10/50 $.
- Cerebras : 750 tok/s des juillet ; Polymarket 87 % avant le 31 juillet.
- Agent's Last Exam : Sol 50,9 % — seul au-dessus de 50 %.
FAQ
Q : GPT-5.6 est-il sur ChatGPT ?
R : Pas encore en public. ~20 partenaires via API/Codex ; deploiement large juillet 2026 attendu.
Q : Sol bat-il Fable 5 en code ?
R : Sol mene TerminalBench (91,9 % vs Mythos 88 %). SWE-bench Pro GPT-5.6 non publie. Sol plus attractif en prix.
Q : Qu est-ce que le mode Ultra ?
R : Sous-agents paralleles puis synthese — meilleure performance, plus de tokens.
Q : Pourquoi restreint ?
R : Gouvernement US (OSTP/ONCD) apres decret du 2 juin ; OpenAI s oppose a une norme permanente.
Q : Vitesse Cerebras ?
R : Jusqu a 750 tok/s — 5× a 15× plus rapide que la plupart des frontier.
Q : Fenetre de contexte ?
R : ~1,5 M tokens rapportes ; system card officielle a confirmer.
Q : Travail cybersecurite sur ?
R : Les trois ont notation High ; garde-fous et pas d exploit complet autonome selon OpenAI.
Conclusion
GPT-5.6 avance sur capacite (Sol Ultra sur TerminalBench), efficacite (ExploitBench a 1/3 tokens) et vitesse (Cerebras 750 tok/s). La preview gouvernementale US cree un precedent — le repli multi-modeles est obligatoire.
Benchmarks Sol/Terra/Luna sur laptop suffisent pour des tests courts ; A/B durable, passerelles LiteLLM et agents IDE exigent macOS natif et launchd 7×24. Pour lancer scripts d eval, Cursor/Claude Code et routage sur un meme noeud des l ouverture API — toujours en ligne, effacable a la resiliation — louer un Mac cloud VPSMAC M4 reste souvent le choix le plus fluide : modeles selon le rollout, infra posee une fois.