Чем недельный рейтинг OpenRouter отличается от MMLU?

Недельный рейтинг измеряет скользящий 7-дневный пропускной способ API-токенов в продакшене. Академические бенчмарки — это часто разовые лабораторные оценки без связи с ежедневной стоимостью Agent-пайплайнов.

Почему доля токенов Anthropic падает, а доля выручки остается высокой?

Claude Opus стоит значительно дороже DeepSeek Flash. Компании платят премию за сложное рассуждение, но массовые Agent-задачи переходят на крайне дешевые модели — токены и доллары рассказывают разные истории.

Следить за OpenRouter еженедельно или ежемесячно?

Стратегию маршрутизации пересматривайте еженедельно, чтобы рано увидеть breakout-модели вроде Hy3 или Owl Alpha. Архитектуру меняйте только поквартально, чтобы не мигрировать Gateway из-за одной аномальной недели.

Недельный рейтинг OpenRouter: правда счета

Если вы выбираете модели в Cursor, Claude Code или OpenClaw, глядя только на MMLU и никогда не сверяя недельный счет OpenRouter, легко переплатить за «победителя бенчмарка» и ошибиться с моделью для batch Agent. Эта статья опирается на публичные данные токенов за скользящие 7 дней (период 18–24 мая 2026): 28,9 триллиона недельного объема, матрица DeepSeek на вершине, парадокс премии Anthropic — плюс матрица токены vs USD, Runbook маршрутизации из пяти шагов и FAQ Mac cloud 7x24.

1. Три болевые точки выбора: бенчмарки не спасают счет

Рейтинги и продакшен расходятся. MMLU, HumanEval и подобные тесты — это часто разовые лабораторные прогоны. Они не отражают реальные затраты токенов на tool calling, повторное чтение длинного контекста и параллельных суб-агентов в Cursor, Claude Code или OpenClaw. Модель, лидирующая в колонке бенчмарка, может быть финансово неприемлемой в еженедельном продакшен-пайплайне.
Ежемесячный обзор слишком медленный. Недельный объем вызовов модели может вырасти на 66 % за семь дней — DeepSeek-V4-Flash сейчас тому пример. Кто смотрит рейтинги раз в месяц, упускает окно маршрутизации. Инвесторы и разработчики переходят на еженедельное наблюдение, потому что хайп моделей и ценовое давление материализуются за дни, а не кварталы.
Среда хостинга решает судьбу 7x24. Закрытая крышка ноутбука, чистый Linux VPS без нативной Apple toolchain и отсутствие привычек launchd могут оборвать даже идеальные маршруты OpenRouter на уровне Gateway. Выбор модели и инфраструктура — два разных узких места; оба должны совпадать.

Эта статья дополняет июньский deep dive по трендам: там фокус на отраслевых трендах и более поздних снимках; здесь — логика недельной статистики и доли рынка на уровне счета.

2. Источник данных и недельная методология

OpenRouter — крупнейшая нейтральная платформа агрегации API моделей ИИ: более 300 моделей, свыше 60 поставщиков, около 100 триллионов токенов в месяц и более 8 миллионов пользователей. Публичный рейтинг: openrouter.ai/rankings.

Статистическое окно: скользящие 7 дней пропускной способности токенов, не календарный месяц. В статье используется последняя полная неделя 18–24 мая 2026. Измеряются общий недельный объем (ввод плюс вывод), рейтинг по моделям, доли вендоров и особенно доля выручки в USD vs доля токенов — последнее делает видимыми ценовые разрывы и является ключом к пониманию, кто реально вызывается, а кто больше зарабатывает.

Для команд разработки каждая цифра здесь — это оплаченный или продуктивный API-пропуск, а не маркетинговый PDF. Если команда выбирает модели только по пресс-релизам или разовым скриншотам лидерборда, не хватает измерения, которое OpenRouter еженедельно раскрывает открыто — и именно оно определяет ваш месячный счет.

3. 28,9 триллиона за неделю: пять недель роста подряд, Китай четыре недели впереди США

Показатель	Данные (неделя 18–24 мая)	Недельное изменение
Глобальный недельный объем	28,9 триллиона токенов	+7,4 % (пятая неделя роста)
Китайские модели	9,223 триллиона токенов	+19,89 %
Американские модели	4,93 триллиона токенов	+16,27 %
Геополитический контекст	Китай четыре недели подряд впереди США	мировой лидер

Масштаб: примерно год назад недельный объем OpenRouter составлял около 2,4 триллиона токенов — сегодня 28,9 триллиона, примерно в 12 раз за год. Приложения ИИ вошли в фазу масштабирования. Доля китайских моделей выросла с менее 2 % в начале 2025 года до первого обгона США в феврале 2026 и достигла около 45 %+ общего потока в мае.

Этот сдвиг не чисто геополитический — он отражает соотношение цена/производительность для Agent-нагрузок. Разработчики по всему миру направляют batch-задачи на дешевые китайские open-weights API, тогда как флагманы США остаются на высокоценных путях. Недельный рейтинг делает эту аллокацию видимой до того, как квартальные отчеты сгладят кривые.

4. Топ-10 моделей за последнюю неделю

Место	Модель	Вендор	Недельные токены	Нед/нед	Особенность
1	DeepSeek-V4-Flash	DeepSeek (Китай)	3,43T	+66 %	фаворит Agent-workflow, очень низкая цена
2	Tencent Hy3 Preview	Tencent (Китай)	3,07T	+16 %	сильный рост после бесплатного периода
3	Claude Sonnet 4.6	Anthropic (США)	1,35T	—	1M контекст, корпоративный coding
4	DeepSeek-V3.2	DeepSeek (Китай)	1,31T	—	дешевый long tail, активный roleplay
5	Owl Alpha (аноним)	OpenRouter	1,15T	+29 %	бесплатный Agent-специалист, 1M контекст
6	Gemini 3 Flash Preview	Google (США)	1,06T	—	мультимодальность, академия/медицина
7	DeepSeek-V4-Pro	DeepSeek (Китай)	1,00T	—	флагман матрицы (серия 5,74T)
8	MiniMax M2.7	MiniMax (Китай)	806B	—	длинный контекст, цена/качество
9	Grok 4.1 Fast	xAI (США)	721B	—	2M контекст, силен в праве
10	Step 3.5 Flash	StepFun (Китай)	673B	—	быстро и дешево, batch

Примечание: Kimi K2.6 выпал из топ-10. Шесть китайских, три американские модели и один анонимный бесплатный слот — рынок платит за экстремально низкую цену плюс Agent плюс длинный контекст, а не за чистые баллы бенчмарка.

5. Матрица DeepSeek доминирует в рейтинге вендоров

Три модели DeepSeek одновременно в топ-девяти (V4-Flash, V4-Pro, V3.2). Серия суммарно 5,74 триллиона токенов в неделю, +25,9 % нед/нед, и две недели подряд опережает Anthropic и Google на уровне вендора. Это не единичная хайп-кривая, а матрица ценового градиента: Flash несет пропускную способность Agent, Pro — сложные пути рассуждения, V3.2 — long tail и roleplay. Разработчики переключаются внутри одного вендора по задаче — сложность маршрутизации падает, предсказуемость счета растет.

6. Токены vs USD: парадокс премии Anthropic

Уровень	Представитель	Доля токенов (прибл.)	Доля USD (прибл.)	Позиционирование
Высокая ценность · низкий поток	Claude Opus 4.6	единичные %	~25 млн USD/мес	корпоративное рассуждение, высокая готовность платить
Цена/качество · средний поток	Gemini 3 Flash	средний	средний	мультимодальность, академия/медицина
Очень дешево · высокий поток	DeepSeek / MiniMax / StepFun	доминирует недельный рейтинг	значительно ниже доли токенов	Agent, coding, batch

Общая доля токенов Anthropic около 12 % (год назад ~25 %, продолжает снижаться), но доля выручки в USD остается около 46 %. Компании по-прежнему платят премию за Claude на критических путях, но доминирование трафика у дешевых моделей — токены Opus составляют долю матрицы DeepSeek, выручка остается высокой. Выбор модели требует параллельного чтения графиков вызовов и счета; они часто рассказывают разные истории.

7. Бенчмарки и объем рынка — почти обратная корреляция

Отчет OpenRouter и a16z «2025 AI Usage» (более 100 триллионов анонимных метаданных токенов) показывает: баллы бенчмарков и реальная доля рынка почти обратно коррелируют. Причины:

разработчики приоритизируют стоимость рассуждения, а не предельную производительность;
Agent-workflow нуждаются в стабильности и задержке API больше, чем в разовых рекордах рассуждения;
доля coding выросла с 11 % в начале 2025 до более 50 % — крупнейший единичный сценарий; Flash-уровень здесь экономически доминирует.

Вывод: цифры счета честнее любого рейтинга тестов. Пропускная способность токенов превратилась из технического индикатора в коммерческий барометр — инвесторы измеряют коммерциализацию ИИ (оценка OpenRouter примерно 26x PS), разработчики выбирают модели, медиа читают «кто реально побеждает».

8. Матрица решений по сценариям (на основе недельного рейтинга)

Сценарий	Рекомендация (недельный рейтинг)	Недельные токены	Логика
Agent / batch	DeepSeek-V4-Flash	3,43T (#1)	минимальная цена + 66 % нед/нед — рынок проголосовал
Корпоративное рассуждение	Claude Opus / Sonnet 4.6	1,35T (Sonnet #3)	премия, низкий lost-in-loop на критических путях
Мультимодальность	Gemini 3 Flash Preview	1,06T (#6)	академия/медицина подтверждены
Прототип с нулевой стоимостью	Owl Alpha	1,15T (#5)	бесплатный Agent-эксперимент — учитывайте конфиденциальность
Длинный контекст, право	Grok 4.1 Fast	721B (#9)	2M контекст для документов

9. Runbook маршрутизации из пяти шагов: от недельного рейтинга к Gateway Mac cloud 7x24

Шаг 1 — Подписаться на недельный рейтинг OpenRouter по понедельникам и задать базовую линию

Открыть openrouter.ai/rankings, зафиксировать долю токенов и недельное изменение основных моделей. Новые записи в топ-10 вроде Hy3 Preview или Owl Alpha — часто ранние сигналы следующего breakout, до того как месячные отчеты продадут их как «тренд».

Шаг 2 — Настроить маршруты OpenRouter по слоям задач

Batch Agent на Flash-уровне (DeepSeek-V4-Flash / Step 3.5 Flash), корпоративное рассуждение на Sonnet/Opus, мультимодальность на Gemini Flash. Избегайте «все на самой дорогой модели» — частая ошибка после выбора по бенчмарку.

Шаг 3 — Параллельно отслеживать токены и счет в USD

# Грубая оценка месячных затрат (ввод/вывод отдельно)
# Flash-уровень: ~$0.10/M input x 50M tokens/день x 30 ~ $150/мес
# Opus-уровень:  ~$5.00/M input x 5M tokens/день x 30  ~ $750/мес
# Вывод: при 10x разнице цен основной путь Agent — Flash, Opus только критические подзадачи

Шаг 4 — Основная модель и цепочка отката OpenClaw

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "openrouter/deepseek/deepseek-v4-flash",
        "fallbacks": [
          "openrouter/anthropic/claude-sonnet-4.6",
          "openrouter/google/gemini-3-flash-preview"
        ]
      }
    }
  }
}

Шаг 5 — Развернуть Gateway на VPSMAC Mac cloud в режиме 7x24

Приемка launchd, API-ключи через переменные окружения; пересматривать маршруты поквартально по недельному рейтингу, не меняя стек из-за каждой аномальной недели. Мониторинг:

openclaw doctor && openclaw channels status --probe
openclaw status logs --tail 200

Детали Gateway: узел Mac cloud AI Agent и Runbook обновления OpenClaw.

10. Цитируемые технические факты

Глобальный недельный объем OpenRouter 28,9T (18–24 мая), год назад 2,4T — примерно в 12 раз роста.
Серия DeepSeek 5,74T еженедельно, V4-Flash один 3,43T, нед/нед +66 % — 1-е место по модели и вендору.
Доля токенов Anthropic ~12 % vs USD ~46 %; coding более 50 % потока OpenRouter (a16z 2025).

11. FAQ

Как часто обновляется недельный рейтинг? Скользящее окно 7 дней — обзор по понедельникам рекомендуется. Почему другие цифры в июньской статье? Другое статистическое окно — здесь 18–24 мая, июньский снимок позже. Owl Alpha для продакшена? Прототипы и мало чувствительные задачи — да; Stealth-модели могут логировать промпты — продакшен с платным API.

12. Заключение: данные счета как правда отрасли ИИ

Рынок голосует деньгами: китайские open-модели перестраивают глобальную картину вызовов при экстремально низкой стоимости — важно, кого вызывают чаще всего, а не кто выглядит умнее в лаборатории. Вручную переключать маршруты OpenRouter на ноутбуке или чистом Linux VPS редко достаточно для стабильных Agent 7x24: крышка закрыта, нет нативной Apple toolchain, нет launchd — затраты на обслуживание съедают экономию на моделях.

Для продакшена с еженедельным отслеживанием рейтинга, быстрой корректировкой маршрутов и постоянно онлайн Gateway OpenClaw Mac cloud M4 VPSMAC обычно лучший выбор: рейтинг меняется — корректируете маршрут; Gateway остается онлайн через launchd, ключи изолированы, доставка по SSH, выбор модели и работа 7x24 в одной проверяемой среде macOS.

Недельный рейтинг OpenRouter: правда счета — кто настоящий лидер рынка? (2026)

Содержание