Недельный рейтинг OpenRouter: счёт важнее бенчмарков

Таблицы MMLU и SWE-Bench обновляются каждую неделю, но счёт за API в июне 2026 определяет не они, а фактический объём токенов, который разработчики и агенты расходуют на OpenRouter. Материал для команд, внедряющих Cursor, Claude Code или собственные agent-gateway. Объясняем, почему недельные цифры ближе к закупкам, чем лабораторные бенчмарки; разбираем Top 10 недели 18–24 мая; сопоставляем баланс Китай–США; связываем маршрутизацию по сценариям с июньским обзором трендов и выделенными облачными Mac NUKCLOUD.

00Почему данные счёта честнее бенчмарков

Рейтинги бенчмарков измеряют лучший одиночный прогон в контролируемых условиях. Недельный рейтинг OpenRouter показывает, какие модели мировые команды снова и снова вызывают на этой неделе — несмотря на латентность, лимиты и давление цен. Как нейтральный API-агрегатор, OpenRouter подключает более 300 моделей от 60+ поставщиков; платформа обрабатывает около 100 трлн токенов в месяц для свыше 8 миллионов пользователей. Скользящая 7-дневная сумма — термометр реального внедрения ИИ, а не пресс-релиз.

Год назад глобальный недельный объём на OpenRouter составлял примерно 2,4 трлн токенов. На третьей неделе мая 2026 он достиг 28,9 трлн — рост примерно в 12 раз за двенадцать месяцев. Параллельно сместилась структура нагрузки: задачи программирования выросли с ~11 % в начале 2025 до более 50 % трафика платформы и стали крупнейшим сценарием. Поэтому лидирует DeepSeek-V4-Flash, а не самый дорогой Opus.

Совместный отчёт OpenRouter и a16z об использовании ИИ в 2025 (анонимизированные метаданные ~100 трлн токенов) формулирует жёстко: баллы бенчмарков и доля рынка часто коррелируют обратно. На практике важны стоимость инференса, стабильность API и успешность tool calling. Это совпадает с рекомендацией в статье о локальном инференсе ds4: дешёвые модели для высокочастотных путей, флагманы — для критического reasoning.

痛点Четыре заблуждения без взгляда на счёт

Месячный кумулятив вместо недельного импульса: OpenRouter показывает разные окна. Месячные данные сглаживают события вроде окончания бесплатных квот Hy3; недельные сразу видны миграции маршрутизации. Для трендовых решений закрепляйте недельную базу.
Путать долю токенов и долларовый доход: у Anthropic ~12 % токенов (год назад ~25 %), но ~46 % долларового дохода. Высокая цена за единицу компенсирует меньший объём — две метрики, два вопроса.
Первое место равно универсальному чемпиону: V4-Flash побеждает ценой для agent-workflow (ввод ~$0,14/M, вывод ~$0,28/M) и контекстом 1M, а не максимальным GPQA. Тяжёлые reasoning-пути по-прежнему требуют Opus или Gemini flagship.
Маршрутизация без стабильного хоста: модели в топе рассчитаны на высокопроизводительных агентов. Если gateway на перегруженном shared-VPS, сброс длинного соединения чаще убивает проект, чем смена model ID. Production-агентам нужна аудируемая macOS-мощность 7×24 — иной путь закупки, чем самый дешёвый Linux-VPS.

01Источник данных и глобальные недельные показатели

Все цифры взяты с openrouter.ai/rankings, период 18–24 мая 2026, расчёт как скользящий 7-дневный throughput токенов (ввод плюс вывод). Помимо рейтинга моделей, интерфейс даёт доли вендоров и сопоставление объёма токенов с долларовым доходом — критично для FinOps-ревью.

Показатель	Значение	н/н
Глобальный недельный объём	28,9 трлн токенов	+7,4 % (пятая неделя роста)
Китайские модели	9,223 трлн токенов	+19,89 %
Американские модели	4,93 трлн токенов	+16,27 %
КНР vs США	Китай 4 недели подряд впереди	глобальная доля КНР ~45 %+

Временная линия китайских моделей заслуживает места в архитектурных документах: в начале 2025 менее 2 % глобально, в феврале 2026 впервые недельно обогнали США, в мае 2026 — четыре недели без перерыва на первом месте. Это не разовый хайп, а связка DeepSeek, Tencent, MiniMax и StepFun — агрессивные по цене MoE-стеки, поглощающие agent- и batch-нагрузки.

Для российских и СНГ-команд это не означает «только китайские API». Это означает: дефолтный маршрутизатор индустрии смещается к Flash-ценам; enterprise-контракты с Anthropic или Google остаются актуальны для compliance и пикового качества — но объёмная гравитация уже в другом месте.

02Top 10 моделей недели 18–24 мая

Место	Модель	Вендор	Токены/нед.	н/н	Профиль
1	DeepSeek-V4-Flash	DeepSeek (КНР)	3,43T	+66 %	стандарт agent, очень дёшево, 1M ctx
2	Tencent Hy3 Preview	Tencent (КНР)	3,07T	+16 %	силён после конца free-фазы
3	Claude Sonnet 4.6	Anthropic (США)	1,35T	—	enterprise-код, 1M ctx
4	DeepSeek-V3.2	DeepSeek (КНР)	1,31T	—	дёшевый long tail, активный RP
5	Owl Alpha	OpenRouter	1,15T	+29 %	бесплатно, специализация agent
6	Gemini 3 Flash Preview	Google (США)	1,06T	—	мультимодал, наука/медицина
7	DeepSeek-V4-Pro	DeepSeek (КНР)	1,00T	—	флагман матрицы (~5,74T серия)
8	MiniMax M2.7	MiniMax (КНР)	806B	—	длинный контекст, цена/качество
9	Grok 4.1 Fast	xAI (США)	721B	—	2M ctx, право/юриспруденция
10	Step 3.5 Flash	StepFun (КНР)	673B	—	быстро, batch

Три варианта DeepSeek (V4-Flash, V4-Pro, V3.2) одновременно в топ-9; серия суммарно ~5,74 трлн токенов за неделю, н/н ~+25,9 %, вендор №1 две недели подряд. Kimi K2.6 выпал из топ-10 — сигнал не цементировать годовую стратегию по недельному рейтингу.

Цитируемый факт 1: глобальный недельный объём 28,9T, примерно 12× к прошлому году.
Цитируемый факт 2: DeepSeek-V4-Flash один 3,43T, н/н +66 %, ~11,9 % мирового недельного объёма.
Цитируемый факт 3: Anthropic 12 % токенов vs 46 % долларов; Claude Opus 4.6 месячный доход порядка $25 млн, токенов значительно меньше матрицы DeepSeek.
Цитируемый факт 4: трафик программирования на OpenRouter > 50 % — Flash-модели доминируют по экономике.

03Объём токенов vs доллары: двойная правда

Слой	Пример	Паттерн токенов	Паттерн дохода	Сценарий
Высокая ценность · малый объём	Claude Opus	доля падает	доллары ~46 %	сложный reasoning, compliance
Цена/качество · средний	Gemini 3 Flash	стабильный рост	средняя цена	мультимодал, экосистема Google
Очень дёшево · большой объём	DeepSeek / MiniMax / StepFun	недельный топ	низкая цена, масштаб	agent, код, batch

Премиум-парадокс Anthropic определяет закупки 2026: компании платят за Claude по высокой цене, а объёмная тяжесть смещается к китайской open-source-матрице. 22 мая 2026 DeepSeek объявил постоянное снижение цены V4-Pro до четверти исходной (после промо) — структурное давление, не разовый купон. Это отражено в скачке V4-Flash +66 %.

Вывод для engineering: дефолтный маршрутизатор следует недельному token-рейтингу (стоимость, темп экосистемы). Потолок критических задач — бенчмарк + enterprise SLA (качество, аудит). Смотреть только на одну метрику — переплатить в конце месяца или получить сбой на пике reasoning.

04Шесть шагов: недельная маршрутизация + хост agent на облачном Mac

Недельный рейтинг отвечает на вопрос «что мир использует на этой неделе». Runbook должен ещё определить, где работают gateway и runner. Рекомендация: OpenRouter для широты, выделенный узел Apple Silicon NUKCLOUD для долгих агентов — в связке с Cursor Agent Skills.

01
Подписаться на недельный рейтинг: Каждый понедельник открывать OpenRouter Rankings, архивировать доли моделей и вендоров. Hy3, Owl Alpha и других новичков проверять две недели на устойчивость перед переводом в default.
02
Задать default по сценариям: Agent, batch, черновик → DeepSeek-V4-Flash; тяжёлый enterprise-reasoning → Claude Sonnet 4.6 / Opus; мультимодал → Gemini 3 Flash; эксперименты → Owl Alpha только без чувствительных репозиториев. Fallback-цепочки и лимиты токенов на задачу в gateway.
03
Сверять счёт с долей токенов: Ежемесячно сопоставлять «топ-3 расходов в долларах» и «топ-3 по объёму токенов». Если платите premium, а трафик ушёл на Flash — сразу менять пропорции маршрутизации.
04
Развернуть выделенный облачный Mac: Через консоль зафиксировать регион, SSH и границы арендатора. Длинные agent-соединения и GitHub Runner требуют хоста без eviction при oversubscription. Спецификации на странице заказа: стандартный tier для чистого API-gateway; 96 ГБ+ unified memory для ds4 или длинных KV-сессий.
05
Развернуть резидентный gateway: Hermes, OpenClaw или свой через launchd; Base URL Cursor и Claude Code на внутренний OpenRouter-прокси. Повторяющиеся промпты версионировать как SKILL.md, чтобы снизить дрейф при смене моделей.
06
Ретроспектива раз в две недели: Подстраивать default model ID под недельный рейтинг. Если API-расходы стабильно выше аренды high-memory Mac с чувствительным кодом — оценить self-host V4-Pro. Для чистой доступности 7×24 сначала сеть и запас RAM. Сравнение на странице цен.

Shared minute pools на macOS-VPS страдают от jitter канала, oversubscription и обрывов соединений — критично для агентов с тысячами tool-call за двенадцать часов. Для аудируемого production-плана мультирегиональные bare-metal Mac NUKCLOUD дают более ясную семантику выделения, чем анонимный shared-хостинг.

05Частые вопросы

Почему цифры отличаются от статьи о трендах от 4 июня?

Разное временное окно: здесь 18–24 мая 2026 как скользящие 7 дней; статья о трендах — срез начала июня. OpenRouter обновляется в реальном времени — для сравнения всегда фиксируйте одну недельную базу.

V4-Flash на первом месте — отключать Opus?

Нет. Рейтинг измеряет объём, не максимальное качество. Типично: ~80 % V4-Flash, ~20 % Sonnet/Opus для выборочных проверок и тяжёлых путей.

Anthropic теряет долю токенов — enterprise-контракт ещё нужен?

Да, для flagship SLA и compliance. Падение токенов показывает миграцию высокочастотных задач. Контракты должны раздельно ценить «premium-путь» и «default-router».

Owl Alpha для корпоративного кода?

Не для конфиденциальных данных. Бесплатные или stealth-модели могут логировать промпты. Для компаний: приватный Hy3/V4-Pro или enterprise closed-source на выделенном инстансе.

Недельный рейтинг меняется быстро — менять Mac-хост тоже?

Нет. Хост выбирают по uptime агента, RAM, Xcode/подписи; маршрутизацию моделей корректируют еженедельно в gateway. Ступени RAM (96/128 ГБ) часто выгоднее ежегодной погони за новым чипом.