Недельный рейтинг OpenRouter: счёт важнее бенчмарков

Скользящее окно 7 дней с 18 по 24 мая 2026 на OpenRouter показывает 28,9 трлн токенов в мире (+7,4 %), DeepSeek-V4-Flash лидирует с 3,43T, китайские модели четвёртую неделю подряд опережают американские. Разбираем логику биллинга за Top 10, доли вендоров и шестишаговый runbook облачного Mac NUKCLOUD.

Таблицы MMLU и SWE-Bench обновляются каждую неделю, но счёт за API в июне 2026 определяет не они, а фактический объём токенов, который разработчики и агенты расходуют на OpenRouter. Материал для команд, внедряющих Cursor, Claude Code или собственные agent-gateway. Объясняем, почему недельные цифры ближе к закупкам, чем лабораторные бенчмарки; разбираем Top 10 недели 18–24 мая; сопоставляем баланс Китай–США; связываем маршрутизацию по сценариям с июньским обзором трендов и выделенными облачными Mac NUKCLOUD.

00Почему данные счёта честнее бенчмарков

Рейтинги бенчмарков измеряют лучший одиночный прогон в контролируемых условиях. Недельный рейтинг OpenRouter показывает, какие модели мировые команды снова и снова вызывают на этой неделе — несмотря на латентность, лимиты и давление цен. Как нейтральный API-агрегатор, OpenRouter подключает более 300 моделей от 60+ поставщиков; платформа обрабатывает около 100 трлн токенов в месяц для свыше 8 миллионов пользователей. Скользящая 7-дневная сумма — термометр реального внедрения ИИ, а не пресс-релиз.

Год назад глобальный недельный объём на OpenRouter составлял примерно 2,4 трлн токенов. На третьей неделе мая 2026 он достиг 28,9 трлн — рост примерно в 12 раз за двенадцать месяцев. Параллельно сместилась структура нагрузки: задачи программирования выросли с ~11 % в начале 2025 до более 50 % трафика платформы и стали крупнейшим сценарием. Поэтому лидирует DeepSeek-V4-Flash, а не самый дорогой Opus.

Совместный отчёт OpenRouter и a16z об использовании ИИ в 2025 (анонимизированные метаданные ~100 трлн токенов) формулирует жёстко: баллы бенчмарков и доля рынка часто коррелируют обратно. На практике важны стоимость инференса, стабильность API и успешность tool calling. Это совпадает с рекомендацией в статье о локальном инференсе ds4: дешёвые модели для высокочастотных путей, флагманы — для критического reasoning.

痛点Четыре заблуждения без взгляда на счёт

  • Месячный кумулятив вместо недельного импульса: OpenRouter показывает разные окна. Месячные данные сглаживают события вроде окончания бесплатных квот Hy3; недельные сразу видны миграции маршрутизации. Для трендовых решений закрепляйте недельную базу.
  • Путать долю токенов и долларовый доход: у Anthropic ~12 % токенов (год назад ~25 %), но ~46 % долларового дохода. Высокая цена за единицу компенсирует меньший объём — две метрики, два вопроса.
  • Первое место равно универсальному чемпиону: V4-Flash побеждает ценой для agent-workflow (ввод ~$0,14/M, вывод ~$0,28/M) и контекстом 1M, а не максимальным GPQA. Тяжёлые reasoning-пути по-прежнему требуют Opus или Gemini flagship.
  • Маршрутизация без стабильного хоста: модели в топе рассчитаны на высокопроизводительных агентов. Если gateway на перегруженном shared-VPS, сброс длинного соединения чаще убивает проект, чем смена model ID. Production-агентам нужна аудируемая macOS-мощность 7×24 — иной путь закупки, чем самый дешёвый Linux-VPS.

01Источник данных и глобальные недельные показатели

Все цифры взяты с openrouter.ai/rankings, период 18–24 мая 2026, расчёт как скользящий 7-дневный throughput токенов (ввод плюс вывод). Помимо рейтинга моделей, интерфейс даёт доли вендоров и сопоставление объёма токенов с долларовым доходом — критично для FinOps-ревью.

ПоказательЗначениен/н
Глобальный недельный объём28,9 трлн токенов+7,4 % (пятая неделя роста)
Китайские модели9,223 трлн токенов+19,89 %
Американские модели4,93 трлн токенов+16,27 %
КНР vs СШАКитай 4 недели подряд впередиглобальная доля КНР ~45 %+

Временная линия китайских моделей заслуживает места в архитектурных документах: в начале 2025 менее 2 % глобально, в феврале 2026 впервые недельно обогнали США, в мае 2026 — четыре недели без перерыва на первом месте. Это не разовый хайп, а связка DeepSeek, Tencent, MiniMax и StepFun — агрессивные по цене MoE-стеки, поглощающие agent- и batch-нагрузки.

Для российских и СНГ-команд это не означает «только китайские API». Это означает: дефолтный маршрутизатор индустрии смещается к Flash-ценам; enterprise-контракты с Anthropic или Google остаются актуальны для compliance и пикового качества — но объёмная гравитация уже в другом месте.

02Top 10 моделей недели 18–24 мая

МестоМодельВендорТокены/нед.н/нПрофиль
1DeepSeek-V4-FlashDeepSeek (КНР)3,43T+66 %стандарт agent, очень дёшево, 1M ctx
2Tencent Hy3 PreviewTencent (КНР)3,07T+16 %силён после конца free-фазы
3Claude Sonnet 4.6Anthropic (США)1,35Tenterprise-код, 1M ctx
4DeepSeek-V3.2DeepSeek (КНР)1,31Tдёшевый long tail, активный RP
5Owl AlphaOpenRouter1,15T+29 %бесплатно, специализация agent
6Gemini 3 Flash PreviewGoogle (США)1,06Tмультимодал, наука/медицина
7DeepSeek-V4-ProDeepSeek (КНР)1,00Tфлагман матрицы (~5,74T серия)
8MiniMax M2.7MiniMax (КНР)806Bдлинный контекст, цена/качество
9Grok 4.1 FastxAI (США)721B2M ctx, право/юриспруденция
10Step 3.5 FlashStepFun (КНР)673Bбыстро, batch

Три варианта DeepSeek (V4-Flash, V4-Pro, V3.2) одновременно в топ-9; серия суммарно ~5,74 трлн токенов за неделю, н/н ~+25,9 %, вендор №1 две недели подряд. Kimi K2.6 выпал из топ-10 — сигнал не цементировать годовую стратегию по недельному рейтингу.

  • Цитируемый факт 1: глобальный недельный объём 28,9T, примерно 12× к прошлому году.
  • Цитируемый факт 2: DeepSeek-V4-Flash один 3,43T, н/н +66 %, ~11,9 % мирового недельного объёма.
  • Цитируемый факт 3: Anthropic 12 % токенов vs 46 % долларов; Claude Opus 4.6 месячный доход порядка $25 млн, токенов значительно меньше матрицы DeepSeek.
  • Цитируемый факт 4: трафик программирования на OpenRouter > 50 % — Flash-модели доминируют по экономике.

03Объём токенов vs доллары: двойная правда

СлойПримерПаттерн токеновПаттерн доходаСценарий
Высокая ценность · малый объёмClaude Opusдоля падаетдоллары ~46 %сложный reasoning, compliance
Цена/качество · среднийGemini 3 Flashстабильный ростсредняя ценамультимодал, экосистема Google
Очень дёшево · большой объёмDeepSeek / MiniMax / StepFunнедельный топнизкая цена, масштабagent, код, batch

Премиум-парадокс Anthropic определяет закупки 2026: компании платят за Claude по высокой цене, а объёмная тяжесть смещается к китайской open-source-матрице. 22 мая 2026 DeepSeek объявил постоянное снижение цены V4-Pro до четверти исходной (после промо) — структурное давление, не разовый купон. Это отражено в скачке V4-Flash +66 %.

Вывод для engineering: дефолтный маршрутизатор следует недельному token-рейтингу (стоимость, темп экосистемы). Потолок критических задач — бенчмарк + enterprise SLA (качество, аудит). Смотреть только на одну метрику — переплатить в конце месяца или получить сбой на пике reasoning.

04Шесть шагов: недельная маршрутизация + хост agent на облачном Mac

Недельный рейтинг отвечает на вопрос «что мир использует на этой неделе». Runbook должен ещё определить, где работают gateway и runner. Рекомендация: OpenRouter для широты, выделенный узел Apple Silicon NUKCLOUD для долгих агентов — в связке с Cursor Agent Skills.

  1. 01
    Подписаться на недельный рейтинг: Каждый понедельник открывать OpenRouter Rankings, архивировать доли моделей и вендоров. Hy3, Owl Alpha и других новичков проверять две недели на устойчивость перед переводом в default.
  2. 02
    Задать default по сценариям: Agent, batch, черновик → DeepSeek-V4-Flash; тяжёлый enterprise-reasoning → Claude Sonnet 4.6 / Opus; мультимодал → Gemini 3 Flash; эксперименты → Owl Alpha только без чувствительных репозиториев. Fallback-цепочки и лимиты токенов на задачу в gateway.
  3. 03
    Сверять счёт с долей токенов: Ежемесячно сопоставлять «топ-3 расходов в долларах» и «топ-3 по объёму токенов». Если платите premium, а трафик ушёл на Flash — сразу менять пропорции маршрутизации.
  4. 04
    Развернуть выделенный облачный Mac: Через консоль зафиксировать регион, SSH и границы арендатора. Длинные agent-соединения и GitHub Runner требуют хоста без eviction при oversubscription. Спецификации на странице заказа: стандартный tier для чистого API-gateway; 96 ГБ+ unified memory для ds4 или длинных KV-сессий.
  5. 05
    Развернуть резидентный gateway: Hermes, OpenClaw или свой через launchd; Base URL Cursor и Claude Code на внутренний OpenRouter-прокси. Повторяющиеся промпты версионировать как SKILL.md, чтобы снизить дрейф при смене моделей.
  6. 06
    Ретроспектива раз в две недели: Подстраивать default model ID под недельный рейтинг. Если API-расходы стабильно выше аренды high-memory Mac с чувствительным кодом — оценить self-host V4-Pro. Для чистой доступности 7×24 сначала сеть и запас RAM. Сравнение на странице цен.

Shared minute pools на macOS-VPS страдают от jitter канала, oversubscription и обрывов соединений — критично для агентов с тысячами tool-call за двенадцать часов. Для аудируемого production-плана мультирегиональные bare-metal Mac NUKCLOUD дают более ясную семантику выделения, чем анонимный shared-хостинг.

05Частые вопросы

Почему цифры отличаются от статьи о трендах от 4 июня?
Разное временное окно: здесь 18–24 мая 2026 как скользящие 7 дней; статья о трендах — срез начала июня. OpenRouter обновляется в реальном времени — для сравнения всегда фиксируйте одну недельную базу.
V4-Flash на первом месте — отключать Opus?
Нет. Рейтинг измеряет объём, не максимальное качество. Типично: ~80 % V4-Flash, ~20 % Sonnet/Opus для выборочных проверок и тяжёлых путей.
Anthropic теряет долю токенов — enterprise-контракт ещё нужен?
Да, для flagship SLA и compliance. Падение токенов показывает миграцию высокочастотных задач. Контракты должны раздельно ценить «premium-путь» и «default-router».
Owl Alpha для корпоративного кода?
Не для конфиденциальных данных. Бесплатные или stealth-модели могут логировать промпты. Для компаний: приватный Hy3/V4-Pro или enterprise closed-source на выделенном инстансе.
Недельный рейтинг меняется быстро — менять Mac-хост тоже?
Нет. Хост выбирают по uptime агента, RAM, Xcode/подписи; маршрутизацию моделей корректируют еженедельно в gateway. Ступени RAM (96/128 ГБ) часто выгоднее ежегодной погони за новым чипом.