Quelle difference entre le classement hebdomadaire OpenRouter et MMLU ?

Le classement hebdomadaire mesure le debit reel de tokens API sur 7 jours glissants en production. Les benchmarks academiques sont souvent des scores de laboratoire sans lien avec le cout quotidien des pipelines Agent.

Pourquoi la part de tokens Anthropic baisse mais la part de revenus reste elevee ?

Claude Opus coute bien plus que DeepSeek Flash. Les entreprises paient une prime pour le raisonnement complexe, mais les taches Agent massives migrent vers des modeles extremement bon marche — tokens et dollars racontent des histoires differentes.

Faut-il suivre OpenRouter chaque semaine ou chaque mois ?

Revoir la strategie de routage chaque semaine pour capter les modeles breakout comme Hy3 ou Owl Alpha. Ne changer l architecture que trimestriellement pour eviter les migrations Gateway sur une seule semaine atypique.

Classement hebdomadaire OpenRouter : la verite de la facturation

Si vous choisissez des modeles dans Cursor, Claude Code ou OpenClaw en ne lisant que MMLU sans jamais verifier la facture hebdomadaire OpenRouter, vous payez souvent une prime pour le « premier au benchmark » et vous selectionnez le mauvais modele pour le batch Agent. Cet article s'appuie sur les donnees publiques de tokens sur 7 jours glissants (periode du 18 au 24 mai 2026) : 28,9 billions de volume hebdomadaire, matrice DeepSeek en tete, paradoxe de prime Anthropic — plus matrice tokens vs USD, runbook de routage en cinq etapes et FAQ Mac cloud 7j/7.

1. Trois points de friction : les benchmarks ne sauvent pas la facture

Les classements et la production divergent. MMLU, HumanEval et tests similaires sont souvent des evaluations de laboratoire ponctuelles. Ils ne refletent pas la consommation reelle de tokens pour le tool calling, la relecture de long contexte et les sous-agents paralleles dans Cursor, Claude Code ou OpenClaw. Un modele en tete de colonne benchmark peut etre financierement intenable dans un pipeline hebdomadaire de production.
Les revues mensuelles sont trop lentes. Le volume hebdomadaire d'un modele peut bondir de 66 % en sept jours — DeepSeek-V4-Flash en est l'exemple. Qui ne consulte les classements qu'une fois par mois rate la fenetre de routage ; basculez vers une observation hebdomadaire.
L'environnement d'hebergement decide du 7j/7. Couvercle de portable ferme, VPS Linux pur sans toolchain Apple native et absence d'habitudes launchd peuvent casser meme les routes OpenRouter parfaites au niveau Gateway. Choix de modele et infrastructure sont deux goulots distincts — les deux doivent s'aligner.

Cet article complete le deep dive tendances de juin : celui-ci couvre les tendances sectorielles et des snapshots plus tardifs ; ici nous nous concentrons sur la logique de statistique hebdomadaire et les parts de marche au niveau facturation.

2. Source de donnees et methode hebdomadaire

OpenRouter est la plus grande plateforme neutre d'agregation d'API de modeles IA : plus de 300 modeles, plus de 60 fournisseurs, environ 100 billions de tokens par mois et plus de 8 millions d'utilisateurs. Le classement public est sur openrouter.ai/rankings.

Fenetre statistique : debit de tokens sur 7 jours glissants, pas mois calendaire. Cet article utilise la derniere semaine complete 18–24 mai 2026. Sont mesures le volume total hebdomadaire (entree plus sortie), le classement par modele, les parts par editeur, et surtout part de revenus USD vs part de tokens — ce dernier revelant les ecarts de prix, cle pour comprendre qui est vraiment appele versus qui gagne le plus.

3. 28,9 billions hebdomadaires : cinq semaines de hausse, la Chine quatre semaines devant les USA

Indicateur	Donnees (semaine 18–24 mai)	Variation hebdo
Volume hebdomadaire global	28,9 billions de tokens	+7,4 % (cinquieme semaine consecutive)
Modeles chinois	9,223 billions de tokens	+19,89 %
Modeles americains	4,93 billions de tokens	+16,27 %
Contexte geopolitique	Chine devant USA quatre semaines	premier rang mondial

Ordre de grandeur : il y a un an environ 2,4 billions de tokens par semaine — aujourd'hui 28,9 billions (12x). Part chinoise : de moins de 2 % debut 2025 a 45 %+ en mai 2026.

Ce glissement reflete le rapport prix-performance pour les workloads Agent : developpeurs du monde entier routent le batch vers des API chinoises bon marche, modeles US sur les chemins a haute valeur.

4. Top 10 modeles de la derniere semaine

Rang	Modele	Editeur	Tokens hebdo	Hebdo	Trait
1	DeepSeek-V4-Flash	DeepSeek (Chine)	3,43T	+66 %	favori workflows Agent, prix tres bas
2	Tencent Hy3 Preview	Tencent (Chine)	3,07T	+16 %	forte croissance apres periode gratuite
3	Claude Sonnet 4.6	Anthropic (USA)	1,35T	—	1M contexte, coding entreprise
4	DeepSeek-V3.2	DeepSeek (Chine)	1,31T	—	long tail bon marche, roleplay actif
5	Owl Alpha (anonyme)	OpenRouter	1,15T	+29 %	gratuit specialise Agent, 1M contexte
6	Gemini 3 Flash Preview	Google (USA)	1,06T	—	multimodal, academie/medecine
7	DeepSeek-V4-Pro	DeepSeek (Chine)	1,00T	—	flagship matrice (serie 5,74T)
8	MiniMax M2.7	MiniMax (Chine)	806B	—	long contexte rapport qualite-prix
9	Grok 4.1 Fast	xAI (USA)	721B	—	2M contexte, fort en droit
10	Step 3.5 Flash	StepFun (Chine)	673B	—	rapide bon marche, batch

Note : Kimi K2.6 est sorti du top 10. Six modeles chinois, trois americains et un slot gratuit anonyme — le marche paie pour prix extremement bas plus Agent plus long contexte, pas pour les seuls scores de benchmark.

5. La matrice DeepSeek domine le classement editeurs

Trois modeles DeepSeek dans le top neuf (V4-Flash, V4-Pro, V3.2) totalisent 5,74 billions par semaine (+25,9 % hebdo), devant Anthropic et Google. Matrice de gradient de prix : Flash pour le debit Agent, Pro pour le raisonnement, V3.2 pour le long tail — un editeur, trois paliers, routage simplifie.

6. Tokens vs USD : le paradoxe de prime Anthropic

Niveau	Representatif	Part tokens (env.)	Part USD (env.)	Positionnement
Haute valeur · faible flux	Claude Opus 4.6	chiffres unitaires %	~25 M USD/mois	raisonnement entreprise, forte volonte de payer
Rapport qualite-prix · flux moyen	Gemini 3 Flash	moyen	moyen	multimodal, academie/medecine
Tres bon marche · flux eleve	DeepSeek / MiniMax / StepFun	domine le classement hebdo	bien sous la part tokens	Agent, coding, batch

Tokens Anthropic ~12 % (contre ~25 % il y a un an) mais revenus USD ~46 %. Prime Claude sur chemins critiques, mais trafic aux modeles bon marche — lisez appels et facturation en parallele.

7. Benchmarks et volume de marche — correlation quasi inverse

Le rapport OpenRouter et a16z « 2025 AI Usage » (plus de 100 billions de metadonnees de tokens anonymes) montre que les scores de benchmark et la part de marche reelle sont quasi inversement correles. Raisons :

les developpeurs priorisent le cout du raisonnement plutot que la performance limite ;
les workflows Agent ont besoin de stabilite et latence API plus que de records de raisonnement ponctuels ;
coding : de 11 % debut 2025 a plus de 50 % — le tier Flash domine economiquement.

Les chiffres de facture sont plus honnetes que tout classement de tests. Token-debit = barometre commercial (OpenRouter ~26x PS).

8. Matrice de decision par scenario (base classement hebdomadaire)

Scenario	Recommandation (classement hebdo)	Tokens hebdo	Logique
Agent / batch	DeepSeek-V4-Flash	3,43T (#1)	prix minimal + 66 % hebdo — le marche a vote
Raisonnement entreprise	Claude Opus / Sonnet 4.6	1,35T (Sonnet #3)	prime, faible taux lost-in-loop sur chemins critiques
Multimodal	Gemini 3 Flash Preview	1,06T (#6)	academie/medecine valide
Prototype zero cout	Owl Alpha	1,15T (#5)	experiment Agent gratuit — attention confidentialite
Long contexte droit	Grok 4.1 Fast	721B (#9)	2M contexte pour documents

9. Runbook de routage en cinq etapes : du classement hebdomadaire au Gateway Mac cloud 7j/7

Etape 1 — S'abonner au classement hebdomadaire OpenRouter chaque lundi et etablir une baseline

Ouvrir openrouter.ai/rankings, noter la part de tokens et la variation hebdo des modeles principaux. Les nouvelles entrees top 10 comme Hy3 Preview ou Owl Alpha sont souvent des signaux precoces du prochain breakout — avant que les rapports mensuels ne les vendent comme « tendance ».

Etape 2 — Configurer les routes OpenRouter par couche de tache

Batch Agent sur tier Flash (DeepSeek-V4-Flash / Step 3.5 Flash), raisonnement entreprise sur Sonnet/Opus, multimodal sur Gemini Flash. Evitez « tout avec le modele le plus cher » — erreur frequente apres une selection guidee par benchmark.

Etape 3 — Suivre tokens et facture USD en parallele

# Estimation mensuelle (entree/sortie separees)
# Tier Flash : ~$0.10/M input x 50M tokens/jour x 30 ~ $150/mois
# Tier Opus  : ~$5.00/M input x 5M tokens/jour x 30  ~ $750/mois
# Conclusion : a 10x d'ecart de prix, chemin principal Agent en Flash, Opus seulement sous-taches critiques

Etape 4 — Modele principal et chaine de repli OpenClaw

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "openrouter/deepseek/deepseek-v4-flash",
        "fallbacks": [
          "openrouter/anthropic/claude-sonnet-4.6",
          "openrouter/google/gemini-3-flash-preview"
        ]
      }
    }
  }
}

Etape 5 — Deployer le Gateway sur VPSMAC Mac cloud en 7j/7 permanent

Acceptation launchd, cles API via variables d'environnement ; revoir les routes trimestriellement par rapport au classement hebdo, sans changer de stack a chaque semaine atypique. Monitoring :

openclaw doctor && openclaw channels status --probe
openclaw status logs --tail 200

Details Gateway : noeud Agent IA Mac cloud et runbook de mise a niveau OpenClaw.

10. Faits techniques citables

Volume hebdomadaire global OpenRouter 28,9T (18–24 mai), il y a un an 2,4T — environ 12x de croissance.
Serie DeepSeek 5,74T hebdomadaire, V4-Flash seul 3,43T, hebdo +66 % — rang 1 modele et editeur.
Part tokens Anthropic ~12 % vs USD ~46 % ; coding plus de 50 % du flux OpenRouter (a16z 2025).

11. FAQ

Mise a jour hebdo ? Glissement 7 jours — revue le lundi. Chiffres differents en juin ? Fenetre autre (ici 18–24 mai). Owl Alpha en prod ? Prototypes oui ; Stealth peut journaliser — API payante en production.

12. Conclusion : les donnees de facturation comme verite du secteur IA

Le marche vote avec l'argent : modeles open chinois a cout bas — compte qui est le plus appele. Routes manuelles sur portable ou VPS Linux pur echouent souvent en 7j/7 : couvercle ferme, pas de toolchain Apple ni launchd.

Pour la production avec suivi hebdomadaire du classement, ajustements rapides de routes et Gateway OpenClaw durablement en ligne, le Mac cloud M4 VPSMAC est en general le meilleur choix : le classement change — on ajuste la route ; le Gateway reste en ligne via launchd, cles isolees, livraison SSH, choix de modele et execution 7j/7 dans un environnement macOS verifiable.

Classement hebdomadaire OpenRouter : la verite de la facturation — qui domine vraiment ? (2026)

Table des matieres