Wie unterscheidet sich das OpenRouter-Wochenranking von MMLU?

Das Wochenranking misst rollierende 7-Tage-API-Token-Durchsatz in Produktion. Akademische Benchmarks sind oft einmalige Labor-Scores ohne Bezug zu taeglichen Agent-Pipeline-Kosten.

Warum sinkt Anthropics Token-Anteil, aber der Umsatzanteil bleibt hoch?

Claude Opus kostet deutlich mehr als DeepSeek Flash. Unternehmen zahlen Praemien fuer komplexe Reasoning-Pfade, waehrend Massen-Agent-Aufgaben zu extrem guenstigen Modellen wandern — Token und Dollar erzaehlen verschiedene Geschichten.

Soll man OpenRouter woechentlich oder monatlich verfolgen?

Routing-Strategie woechentlich pruefen, um Breakout-Modelle wie Hy3 oder Owl Alpha frueh zu sehen. Architekturwechsel nur quartalsweise, um Gateway-Migrationen wegen Einzelwochen-Schwankungen zu vermeiden.

OpenRouter Wochenranking: Abrechnungswahrheit

Wer in Cursor, Claude Code oder OpenClaw nur MMLU-Tabellen liest, aber nie die OpenRouter-Wochenrechnung prueft, zahlt leicht Praemie fuer Benchmark-Sieger und waehlt fuer Agent-Batch die falschen Modelle. Dieser Artikel verankert sich an oeffentlichen 7-Tage-Token-Daten (Stichtag 18.–24. Mai 2026): 28,9 Billionen Woechenvolumen, DeepSeek-Matrix an der Spitze, Anthropics Praemienparadox — plus Token-vs-USD-Entscheidungsmatrix, fuenf-Schritte-Routing-Runbook und Mac-Cloud-7x24-FAQ.

1. Drei Auswahl-Schmerzpunkte: Benchmarks retten keine Rechnung

Rankings und Produktion klaffen auseinander. MMLU, HumanEval und aehnliche Tests sind oft einmalige Laborlaeufe. Sie spiegeln nicht die echten Token-Kosten von Tool Calling, langem Kontext-Neulesen und parallelen Sub-Agenten in Cursor, Claude Code oder OpenClaw wider. Ein Modell, das in einer statischen Benchmark-Spalte fuehrt, kann in einer woechentlichen Produktionspipeline finanziell untragbar sein.
Monatliche Reviews sind zu langsam. Woechentliche Modellaufrufe koennen in sieben Tagen um 66 Prozent steigen — DeepSeek-V4-Flash ist das aktuelle Beispiel. Wer nur monatlich auf Ranglisten schaut, verpasst das Routing-Fenster. Investoren und Entwickler verschieben deshalb zunehmend auf woechentliche Beobachtung, weil Modell-Hypes und Preisdruck sich in Tagen, nicht Quartalen, materialisieren.
Die Laufzeitumgebung entscheidet ueber 7x24. Laptop-Deckel, reine Linux-VPS ohne native Apple-Toolchains und fehlende launchd-Gewohnheiten koennen selbst perfekte OpenRouter-Routes am Gateway brechen. Modellwahl und Infrastruktur sind zwei getrennte Engpaesse — beide muessen zusammenpassen.

Dieser Artikel ergaenzt den Juni-Trend-Deep-Dive: jener Fokus liegt auf Branchentrends und spaeteren Snapshots; hier geht es um die woechentliche Statistiklogik und Marktanteile auf Rechnungsebene.

2. Datenquelle und woechentliche Statistikmethode

OpenRouter ist die groesste neutrale AI-Modell-API-Aggregationsplattform: ueber 300 Modelle, mehr als 60 Anbieter, monatlich rund 100 Billionen Token und ueber 8 Millionen Nutzer. Die oeffentliche Rangliste liegt unter openrouter.ai/rankings.

Statistikfenster: rollierende 7 Tage Token-Durchsatz, nicht Kalendermonat. Dieser Artikel nutzt die letzte vollstaendige Woche 18.–24. Mai 2026. Gemessen werden Woechen-Token-Gesamtvolumen (Input plus Output), Modell-Rankings, Hersteller-Marktanteile und vor allem USD-Umsatzanteil vs. Token-Anteil — letzteres macht Preisunterschiede sichtbar und ist der Schluessel, um zu verstehen, wer wirklich aufgerufen wird versus wer am meisten verdient.

Fuer Entwickler bedeutet das: Jede Zahl in diesem Artikel ist ein bezahlter oder produktiver API-Durchsatz, kein Marketing-PDF. Wenn Ihr Team Modellentscheidungen nur aus Pressemitteilungen oder einmaligen Leaderboard-Screenshots trifft, fehlt die Dimension, die OpenRouter woechentlich offenlegt — und genau diese Dimension bestimmt Ihre monatliche Rechnung.

3. 28,9 Billionen Woechenvolumen: fuenf Wochen in Folge steigend, China vier Wochen vor USA

Kennzahl	Daten (Woche 18.–24.5.)	WoW-Aenderung
Globales Woechenvolumen	28,9 Billionen Token	+7,4 % (fuenfte Steigerungswoche)
Chinesische Modelle	9,223 Billionen Token	+19,89 %
US-Modelle	4,93 Billionen Token	+16,27 %
Geopolitische Lage	China vier Wochen in Folge vor USA	global fuehrend

Groessenordnung: Vor etwa einem Jahr lag OpenRouters Woechenvolumen bei rund 2,4 Billionen Token — heute 28,9 Billionen, also etwa 12x in einem Jahr. AI-Anwendungen sind in die Skalierungsphase eingetreten. Der Anteil chinesischer Modelle stieg von unter 2 % Anfang 2025 auf erstmals ueber USA im Februar 2026 und erreichte im Mai rund 45 %+ des Gesamtflusses.

Diese Verschiebung ist nicht rein geopolitisch — sie spiegelt Preis-Leistung fuer Agent-Workloads wider. Entwickler weltweit routen Batch-Aufgaben zu guenstigen chinesischen Open-Weights-APIs, waehrend US-Flaggschiffe in hochwertigen Einzelpfaden verbleiben. Das Wochenranking macht diese Allokation sichtbar, bevor Quartalsberichte sie glaetten.

4. Top-10-Modellranking der letzten Woche

Rang	Modell	Anbieter	Wochen-Token	WoW	Merkmal
1	DeepSeek-V4-Flash	DeepSeek (China)	3,43T	+66 %	Agent-Workflow-Favorit, extrem niedriger Preis
2	Tencent Hy3 Preview	Tencent (China)	3,07T	+16 %	starkes Wachstum nach Gratisphase
3	Claude Sonnet 4.6	Anthropic (USA)	1,35T	—	1M Kontext, Enterprise-Coding
4	DeepSeek-V3.2	DeepSeek (China)	1,31T	—	guenstiges Long-Tail, Roleplay aktiv
5	Owl Alpha (anonym)	OpenRouter	1,15T	+29 %	gratis Agent-Spezial, 1M Kontext
6	Gemini 3 Flash Preview	Google (USA)	1,06T	—	Multimodal, Akademie/Medizin
7	DeepSeek-V4-Pro	DeepSeek (China)	1,00T	—	Matrix-Flaggschiff (Serie 5,74T)
8	MiniMax M2.7	MiniMax (China)	806B	—	Long-Context Preis-Leistung
9	Grok 4.1 Fast	xAI (USA)	721B	—	2M Kontext, Recht stark
10	Step 3.5 Flash	StepFun (China)	673B	—	schnell guenstig, Batch

Hinweis: Kimi K2.6 fiel aus den Top 10. Sechs chinesische, drei US- und ein anonymer Gratis-Slot — der Markt bezahlt fuer extrem niedrigen Preis plus Agent plus Long Context, nicht fuer reine Benchmark-Punkte.

5. DeepSeek-Modellmatrix dominiert Herstellerchart

Drei DeepSeek-Modelle stehen gleichzeitig in den Top Neun (V4-Flash, V4-Pro, V3.2). Die Serie summiert 5,74 Billionen Token pro Woche, +25,9 % WoW, und liegt zwei Wochen in Folge vor Anthropic und Google auf Herstellerebene. Das ist keine Einzel-Hype-Kurve, sondern eine Preisgradienten-Matrix: Flash traegt Agent-Durchsatz, Pro komplexe Reasoning-Pfade, V3.2 Long-Tail und Roleplay. Entwickler wechseln innerhalb eines Anbieters nach Aufgabe — Routing-Komplexitaet sinkt, Rechnungsvorhersagbarkeit steigt.

Fuer Teams, die bisher jedes Modell einzeln evaluierten, liefert die Matrix ein klares Muster: Ein Anbieter, drei Preisstufen, ein Gateway-Profil. Statt zehn verschiedene API-Integrationen zu pflegen, reicht oft eine OpenRouter-Route mit modellinternen Fallbacks — vorausgesetzt, Ihr Gateway laeuft stabil genug, um diese Wechsel ohne manuelle Eingriffe auszufuehren.

6. Token vs. USD: Anthropics Praemienparadox

Tier	Repraesentativ	Token-Anteil (ca.)	USD-Anteil (ca.)	Positionierung
Hochwert · niedriger Flow	Claude Opus 4.6	einstelliger %	~25 Mio. USD/Monat	Enterprise-Reasoning, starke Zahlungsbereitschaft
Preis-Leistung · mittlerer Flow	Gemini 3 Flash	mittel	mittel	Multimodal, Akademie/Medizin
Extrem guenstig · hoher Flow	DeepSeek / MiniMax / StepFun	dominiert Wochenchart	deutlich unter Token-Anteil	Agent, Coding, Batch

Anthropics Gesamt-Token-Anteil liegt bei etwa 12 % (vor einem Jahr ~25 %, weiter sinkend), der USD-Umsatzanteil aber bei etwa 46 %. Unternehmen zahlen weiter Praemie fuer Claude auf kritischen Pfaden, aber die Traffic-Herrschaft liegt bei guenstigen Modellen — Opus-Token sind ein Bruchteil der DeepSeek-Matrix, Umsatz bleibt dennoch hoch. Modellwahl erfordert paralleles Lesen von Aufruf- und Rechnungs-Charts; beide erzaehlen oft verschiedene Geschichten.

7. Benchmarks und Marktvolumen — fast umgekehrt korreliert

Der OpenRouter- und a16z-Bericht «2025 AI Usage» (ueber 100 Billionen anonyme Token-Metadaten) zeigt: Benchmark-Scores und realer Marktanteil korrelieren nahezu invers. Gruende:

Entwickler priorisieren Reasoning-Kosten ueber Grenzleistung;
Agent-Workflows brauchen Stabilitaet und API-Latenz mehr als Einzel-Reasoning-Rekorde;
Coding-Anteil stieg von 11 % Anfang 2025 auf ueber 50 % — groesster Einzelfall; Flash-Tier dominiert hier oekonomisch.

Fazit: Rechnungszahlen sind ehrlicher als jedes Review-Ranking. Token-Durchsatz ist vom Technikindikator zum kommerziellen Barometer geworden — Investoren messen AI-Commercialisierung (OpenRouter-Bewertung grob 26x PS), Entwickler waehlen Modelle, Medien lesen «wer gewinnt wirklich».

Wenn Ihr Team noch Modellauswahl an MMLU-Spalten ausrichtet, verschieben Sie die Entscheidungsgrundlage: Woechentliche OpenRouter-Daten zeigen, welche Modelle unter echtem Lastprofil ueberleben — nicht welche in kontrollierten Labortests glaenzen.

8. Szenario-Entscheidungsmatrix (Wochenranking-Basis)

Szenario	Empfehlung (Wochenranking)	Wochen-Token	Logik
Agent / Batch	DeepSeek-V4-Flash	3,43T (#1)	minimaler Preis + 66 % WoW — Markt hat gewaehlt
Enterprise-Reasoning	Claude Opus / Sonnet 4.6	1,35T (Sonnet #3)	Praemie, niedrige Lost-in-Loop-Rate auf kritischen Pfaden
Multimodal	Gemini 3 Flash Preview	1,06T (#6)	Akademie/Medizin validiert
Null-Kosten-Prototyp	Owl Alpha	1,15T (#5)	gratis Agent-Experiment — Datenschutz beachten
Long-Context Recht	Grok 4.1 Fast	721B (#9)	2M Kontext fuer Dokumente

9. Fuenf-Schritte-Routing-Runbook: vom Wochenranking zum Mac-Cloud-7x24-Gateway

Schritt 1 — Montags OpenRouter-Wochenranking abonnieren und Baseline setzen

openrouter.ai/rankings oeffnen, Hauptmodell-Token-Anteil und WoW notieren. Neue Top-10-Eintraege wie Hy3 Preview oder Owl Alpha sind oft Fruehindikatoren fuer den naechsten Breakout — bevor Monatsberichte sie als «Trend» verkaufen.

Schritt 2 — OpenRouter-Routes nach Aufgabenschicht konfigurieren

Agent-Batch auf Flash-Tier (DeepSeek-V4-Flash / Step 3.5 Flash), Enterprise-Reasoning auf Sonnet/Opus, Multimodal auf Gemini Flash. Vermeiden Sie «alles mit dem teuersten Modell» — das ist der haeufigste Fehler nach Benchmark-getriebener Auswahl.

Schritt 3 — Token und USD-Rechnung parallel tracken

# Monatskosten-Grobrechnung (Input/Output getrennt)
# Flash-Tier: ~$0.10/M input x 50M tokens/Tag x 30 ~ $150/Monat
# Opus-Tier:  ~$5.00/M input x 5M tokens/Tag x 30  ~ $750/Monat
# Fazit: Bei 10x Preisabstand Agent-Hauptpfad Flash, Opus nur kritische Subtasks

Schritt 4 — OpenClaw Primaermodell und Fallback-Kette

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "openrouter/deepseek/deepseek-v4-flash",
        "fallbacks": [
          "openrouter/anthropic/claude-sonnet-4.6",
          "openrouter/google/gemini-3-flash-preview"
        ]
      }
    }
  }
}

Schritt 5 — Gateway auf VPSMAC Mac-Cloud 7x24 dauerhaft

launchd-Abnahme, API-Keys per Umgebungsvariable; Routes quartalsweise gegen Wochenranking pruefen, nicht bei jeder Einzelwoche den Stack wechseln. Monitoring:

openclaw doctor && openclaw channels status --probe
openclaw status logs --tail 200

Gateway-Details: Mac-Cloud-AI-Agent-Knoten und OpenClaw-Upgrade-Runbook.

10. Zitierfaehige technische Fakten

OpenRouter globales Woechenvolumen 28,9T (18.–24.5.), vor einem Jahr 2,4T — etwa 12x Wachstum.
DeepSeek-Serie 5,74T woechentlich, V4-Flash allein 3,43T, WoW +66 % — Modell- und Hersteller-Rang 1.
Anthropic Token-Anteil ~12 % vs. USD ~46 %; Coding ueber 50 % des OpenRouter-Flows (a16z 2025).

11. FAQ

Wie oft aktualisiert das Wochenranking? Rollierend alle 7 Tage — Montagsreview empfohlen. Warum andere Zahlen im Juni-Artikel? Anderes Statistikfenster — hier 18.–24.5., Juni-Snapshot spaeter. Owl Alpha fuer Produktion? Prototypen und wenig sensible Tasks ja; Stealth-Modelle koennen Prompts loggen — Produktion mit bezahlter API.

12. Fazit: Abrechnungsdaten als AI-Branchenwahrheit

Der Markt stimmt mit Geld ab: chinesische Open-Modelle formen das globale Aufrufbild mit extrem niedrigen Kosten — entscheidend ist, wer am meisten aufgerufen wird, nicht wer in Labortests am schlauesten wirkt. OpenRouter-Routes nur auf dem Laptop oder einem reinen Linux-VPS manuell zu wechseln, reicht fuer stabile 7x24-Agenten selten: Deckel zu, fehlende native Apple-Toolchains, kein launchd — Wartungskosten fressen Modell-Einsparungen.

Fuer Produktion mit woechentlichem Ranking-Tracking, schnellen Route-Anpassungen und dauerhaft online OpenClaw-Gateway ist VPSMAC M4 Mac-Cloud meist die bessere Wahl: Rangliste aendert sich — Route anpassen; Gateway bleibt per launchd online, Keys isoliert, SSH-Uebergabe, Modellwahl und 7x24-Laufzeit in einem abnahmefaehigen macOS-Umfeld.

OpenRouter woechentliche Token-Rankings: Abrechnungswahrheit — wer ist der wahre Marktfuehrer? (2026)

Inhaltsverzeichnis