Таблицы MMLU и SWE-Bench обновляются каждую неделю, но счёт за API в июне 2026 определяет не они, а фактический объём токенов, который разработчики и агенты расходуют на OpenRouter. Материал для команд, внедряющих Cursor, Claude Code или собственные agent-gateway. Объясняем, почему недельные цифры ближе к закупкам, чем лабораторные бенчмарки; разбираем Top 10 недели 18–24 мая; сопоставляем баланс Китай–США; связываем маршрутизацию по сценариям с июньским обзором трендов и выделенными облачными Mac NUKCLOUD.
00Почему данные счёта честнее бенчмарков
Рейтинги бенчмарков измеряют лучший одиночный прогон в контролируемых условиях. Недельный рейтинг OpenRouter показывает, какие модели мировые команды снова и снова вызывают на этой неделе — несмотря на латентность, лимиты и давление цен. Как нейтральный API-агрегатор, OpenRouter подключает более 300 моделей от 60+ поставщиков; платформа обрабатывает около 100 трлн токенов в месяц для свыше 8 миллионов пользователей. Скользящая 7-дневная сумма — термометр реального внедрения ИИ, а не пресс-релиз.
Год назад глобальный недельный объём на OpenRouter составлял примерно 2,4 трлн токенов. На третьей неделе мая 2026 он достиг 28,9 трлн — рост примерно в 12 раз за двенадцать месяцев. Параллельно сместилась структура нагрузки: задачи программирования выросли с ~11 % в начале 2025 до более 50 % трафика платформы и стали крупнейшим сценарием. Поэтому лидирует DeepSeek-V4-Flash, а не самый дорогой Opus.
Совместный отчёт OpenRouter и a16z об использовании ИИ в 2025 (анонимизированные метаданные ~100 трлн токенов) формулирует жёстко: баллы бенчмарков и доля рынка часто коррелируют обратно. На практике важны стоимость инференса, стабильность API и успешность tool calling. Это совпадает с рекомендацией в статье о локальном инференсе ds4: дешёвые модели для высокочастотных путей, флагманы — для критического reasoning.
痛点Четыре заблуждения без взгляда на счёт
- Месячный кумулятив вместо недельного импульса: OpenRouter показывает разные окна. Месячные данные сглаживают события вроде окончания бесплатных квот Hy3; недельные сразу видны миграции маршрутизации. Для трендовых решений закрепляйте недельную базу.
- Путать долю токенов и долларовый доход: у Anthropic ~12 % токенов (год назад ~25 %), но ~46 % долларового дохода. Высокая цена за единицу компенсирует меньший объём — две метрики, два вопроса.
- Первое место равно универсальному чемпиону: V4-Flash побеждает ценой для agent-workflow (ввод ~$0,14/M, вывод ~$0,28/M) и контекстом 1M, а не максимальным GPQA. Тяжёлые reasoning-пути по-прежнему требуют Opus или Gemini flagship.
- Маршрутизация без стабильного хоста: модели в топе рассчитаны на высокопроизводительных агентов. Если gateway на перегруженном shared-VPS, сброс длинного соединения чаще убивает проект, чем смена model ID. Production-агентам нужна аудируемая macOS-мощность 7×24 — иной путь закупки, чем самый дешёвый Linux-VPS.
01Источник данных и глобальные недельные показатели
Все цифры взяты с openrouter.ai/rankings, период 18–24 мая 2026, расчёт как скользящий 7-дневный throughput токенов (ввод плюс вывод). Помимо рейтинга моделей, интерфейс даёт доли вендоров и сопоставление объёма токенов с долларовым доходом — критично для FinOps-ревью.
| Показатель | Значение | н/н |
|---|---|---|
| Глобальный недельный объём | 28,9 трлн токенов | +7,4 % (пятая неделя роста) |
| Китайские модели | 9,223 трлн токенов | +19,89 % |
| Американские модели | 4,93 трлн токенов | +16,27 % |
| КНР vs США | Китай 4 недели подряд впереди | глобальная доля КНР ~45 %+ |
Временная линия китайских моделей заслуживает места в архитектурных документах: в начале 2025 менее 2 % глобально, в феврале 2026 впервые недельно обогнали США, в мае 2026 — четыре недели без перерыва на первом месте. Это не разовый хайп, а связка DeepSeek, Tencent, MiniMax и StepFun — агрессивные по цене MoE-стеки, поглощающие agent- и batch-нагрузки.
Для российских и СНГ-команд это не означает «только китайские API». Это означает: дефолтный маршрутизатор индустрии смещается к Flash-ценам; enterprise-контракты с Anthropic или Google остаются актуальны для compliance и пикового качества — но объёмная гравитация уже в другом месте.
02Top 10 моделей недели 18–24 мая
| Место | Модель | Вендор | Токены/нед. | н/н | Профиль |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek (КНР) | 3,43T | +66 % | стандарт agent, очень дёшево, 1M ctx |
| 2 | Tencent Hy3 Preview | Tencent (КНР) | 3,07T | +16 % | силён после конца free-фазы |
| 3 | Claude Sonnet 4.6 | Anthropic (США) | 1,35T | — | enterprise-код, 1M ctx |
| 4 | DeepSeek-V3.2 | DeepSeek (КНР) | 1,31T | — | дёшевый long tail, активный RP |
| 5 | Owl Alpha | OpenRouter | 1,15T | +29 % | бесплатно, специализация agent |
| 6 | Gemini 3 Flash Preview | Google (США) | 1,06T | — | мультимодал, наука/медицина |
| 7 | DeepSeek-V4-Pro | DeepSeek (КНР) | 1,00T | — | флагман матрицы (~5,74T серия) |
| 8 | MiniMax M2.7 | MiniMax (КНР) | 806B | — | длинный контекст, цена/качество |
| 9 | Grok 4.1 Fast | xAI (США) | 721B | — | 2M ctx, право/юриспруденция |
| 10 | Step 3.5 Flash | StepFun (КНР) | 673B | — | быстро, batch |
Три варианта DeepSeek (V4-Flash, V4-Pro, V3.2) одновременно в топ-9; серия суммарно ~5,74 трлн токенов за неделю, н/н ~+25,9 %, вендор №1 две недели подряд. Kimi K2.6 выпал из топ-10 — сигнал не цементировать годовую стратегию по недельному рейтингу.
- Цитируемый факт 1: глобальный недельный объём 28,9T, примерно 12× к прошлому году.
- Цитируемый факт 2: DeepSeek-V4-Flash один 3,43T, н/н +66 %, ~11,9 % мирового недельного объёма.
- Цитируемый факт 3: Anthropic 12 % токенов vs 46 % долларов; Claude Opus 4.6 месячный доход порядка $25 млн, токенов значительно меньше матрицы DeepSeek.
- Цитируемый факт 4: трафик программирования на OpenRouter > 50 % — Flash-модели доминируют по экономике.
03Объём токенов vs доллары: двойная правда
| Слой | Пример | Паттерн токенов | Паттерн дохода | Сценарий |
|---|---|---|---|---|
| Высокая ценность · малый объём | Claude Opus | доля падает | доллары ~46 % | сложный reasoning, compliance |
| Цена/качество · средний | Gemini 3 Flash | стабильный рост | средняя цена | мультимодал, экосистема Google |
| Очень дёшево · большой объём | DeepSeek / MiniMax / StepFun | недельный топ | низкая цена, масштаб | agent, код, batch |
Премиум-парадокс Anthropic определяет закупки 2026: компании платят за Claude по высокой цене, а объёмная тяжесть смещается к китайской open-source-матрице. 22 мая 2026 DeepSeek объявил постоянное снижение цены V4-Pro до четверти исходной (после промо) — структурное давление, не разовый купон. Это отражено в скачке V4-Flash +66 %.
Вывод для engineering: дефолтный маршрутизатор следует недельному token-рейтингу (стоимость, темп экосистемы). Потолок критических задач — бенчмарк + enterprise SLA (качество, аудит). Смотреть только на одну метрику — переплатить в конце месяца или получить сбой на пике reasoning.
04Шесть шагов: недельная маршрутизация + хост agent на облачном Mac
Недельный рейтинг отвечает на вопрос «что мир использует на этой неделе». Runbook должен ещё определить, где работают gateway и runner. Рекомендация: OpenRouter для широты, выделенный узел Apple Silicon NUKCLOUD для долгих агентов — в связке с Cursor Agent Skills.
-
01
Подписаться на недельный рейтинг: Каждый понедельник открывать OpenRouter Rankings, архивировать доли моделей и вендоров. Hy3, Owl Alpha и других новичков проверять две недели на устойчивость перед переводом в default.
-
02
Задать default по сценариям: Agent, batch, черновик → DeepSeek-V4-Flash; тяжёлый enterprise-reasoning → Claude Sonnet 4.6 / Opus; мультимодал → Gemini 3 Flash; эксперименты → Owl Alpha только без чувствительных репозиториев. Fallback-цепочки и лимиты токенов на задачу в gateway.
-
03
Сверять счёт с долей токенов: Ежемесячно сопоставлять «топ-3 расходов в долларах» и «топ-3 по объёму токенов». Если платите premium, а трафик ушёл на Flash — сразу менять пропорции маршрутизации.
-
04
Развернуть выделенный облачный Mac: Через консоль зафиксировать регион, SSH и границы арендатора. Длинные agent-соединения и GitHub Runner требуют хоста без eviction при oversubscription. Спецификации на странице заказа: стандартный tier для чистого API-gateway; 96 ГБ+ unified memory для ds4 или длинных KV-сессий.
-
05
Развернуть резидентный gateway: Hermes, OpenClaw или свой через launchd; Base URL Cursor и Claude Code на внутренний OpenRouter-прокси. Повторяющиеся промпты версионировать как SKILL.md, чтобы снизить дрейф при смене моделей.
-
06
Ретроспектива раз в две недели: Подстраивать default model ID под недельный рейтинг. Если API-расходы стабильно выше аренды high-memory Mac с чувствительным кодом — оценить self-host V4-Pro. Для чистой доступности 7×24 сначала сеть и запас RAM. Сравнение на странице цен.
Shared minute pools на macOS-VPS страдают от jitter канала, oversubscription и обрывов соединений — критично для агентов с тысячами tool-call за двенадцать часов. Для аудируемого production-плана мультирегиональные bare-metal Mac NUKCLOUD дают более ясную семантику выделения, чем анонимный shared-хостинг.