Classement hebdo OpenRouter : la facture plutôt que les benchmarks

La fenêtre glissante de 7 jours du 18 au 24 mai 2026 sur OpenRouter affiche 28,9 billions de tokens mondiaux (+7,4 %), DeepSeek-V4-Flash en tête avec 3,43T, et des modèles chinois devant les États-Unis pour la quatrième semaine consécutive. Cet article décode la logique de facturation derrière le Top 10, les parts fabricants et un runbook Mac cloud NUKCLOUD.

Les tableaux MMLU et SWE-Bench se renouvellent chaque semaine, mais votre facture API de juin 2026 dépend surtout du volume de tokens réellement consommé par les développeurs et agents sur OpenRouter. Ce texte s'adresse aux équipes qui déploient Cursor, Claude Code ou des gateways agents maison. Nous expliquons pourquoi les chiffres hebdomadaires reflètent mieux les achats que les benchmarks de labo ; analysons le Top 10 de la semaine du 18 au 24 mai ; situons le rapport Chine–États-Unis ; et relions le routage par scénario à l'analyse de tendances de juin et aux Mac cloud dédiés NUKCLOUD.

00Pourquoi la facture bat les benchmarks

Un classement benchmark mesure la meilleure exécution isolée en conditions contrôlées. Le ranking hebdomadaire OpenRouter mesure quels modèles les équipes du monde entier rappellent encore cette semaine, malgré latence, quotas et pression prix. En tant qu'agrégateur API neutre, OpenRouter relie plus de 300 modèles et 60 fournisseurs ; la plateforme traite environ 100 billions de tokens par mois pour plus de 8 millions d'utilisateurs. La somme glissante sur 7 jours devient un thermomètre d'adoption réelle, pas un communiqué marketing.

Il y a un an, le volume hebdomadaire mondial sur OpenRouter tournait autour de 2,4 billions de tokens. La troisième semaine de mai 2026 atteint 28,9 billions — un facteur d'environ douze en douze mois. Parallèlement, la structure d'usage a basculé : les tâches de programmation passent d'environ 11 % début 2025 à plus de 50 % du trafic plateforme, devenant le premier cas d'usage. Cela explique pourquoi DeepSeek-V4-Flash domine plutôt que le flagship Opus le plus cher.

Le rapport conjoint OpenRouter et a16z sur l'usage IA 2025 (métadonnées anonymisées sur ~100 billions de tokens) formule clairement : les scores benchmark et les parts de marché corrèlent souvent à l'inverse. En production, comptent le coût d'inférence, la stabilité API et le taux de succès du tool calling. Cela rejoint notre ligne dans l'article inférence locale ds4 : modèles bon marché pour les chemins à haute fréquence, flagships pour le raisonnement critique.

痛点Quatre erreurs sans regarder la facture

  • Cumul mensuel au lieu d'impulsion hebdo : OpenRouter expose plusieurs fenêtres temporelles. Le mensuel lisse la fin des quotas gratuits Hy3 ; l'hebdomadaire révèle immédiatement les migrations de routage. Les comités d'achat doivent figer la base hebdomadaire pour les tendances.
  • Confondre part tokens et revenus dollar : Anthropic tient environ 12 % des tokens (contre ~25 % il y a un an) mais environ 46 % des revenus dollar. Les prix unitaires élevés compensent un volume plus faible — deux métriques, deux questions.
  • Numéro un égale tout-faire : V4-Flash gagne par le prix Agent (entrée ~0,14 $/M, sortie ~0,28 $/M) et le contexte 1M, pas par le score GPQA maximal. Les chemins de raisonnement lourd restent sur Opus ou Gemini flagship.
  • Routage sans hôte stable : Les modèles en tête visent le débit agent. Si votre gateway tourne sur un VPS mutualisé surbooké, une réinitialisation de connexion longue tue le projet plus souvent qu'un changement de modèle. Les agents production exigent une puissance macOS 7×24 auditable — autre ligne d'achat que le VPS Linux le moins cher.

01Source et agrégats hebdomadaires

Tous les chiffres proviennent de openrouter.ai/rankings, période 18–24 mai 2026, calcul en débit de tokens glissant 7 jours (entrée plus sortie). Outre le classement modèles, l'interface expose les parts fabricants et le croisement volume tokens / revenus dollar — indispensable aux revues FinOps.

IndicateurValeurSem./sem.
Volume hebdo mondial28,9 billions de tokens+7,4 % (cinquième hausse)
Modèles chinois9,223 billions de tokens+19,89 %
Modèles américains4,93 billions de tokens+16,27 %
CN vs USChine en tête 4 semainespart CN globale ~45 %+

La chronologie des modèles chinois mérite une place dans les dossiers d'architecture : moins de 2 % global début 2025, première semaine devant les US en février 2026, tête ininterrompue quatre semaines en mai 2026. Ce n'est pas un coup de chance isolé, mais un faisceau DeepSeek, Tencent, MiniMax et StepFun — stacks MoE agressifs sur le prix qui absorbent agents et batch.

Pour les équipes françaises et européennes, cela ne signifie pas « APIs chinoises uniquement ». Cela signifie que le routeur par défaut de l'industrie glisse vers les tarifs Flash ; les contrats enterprise Anthropic ou Google restent pertinents pour conformité et qualité de pointe — mais la gravité volumétrique est ailleurs.

02Top 10 modèles semaine 18–24 mai

RangModèleÉditeurTokens/semaineSem./sem.Profil
1DeepSeek-V4-FlashDeepSeek (CN)3,43T+66 %standard agent, très bas prix, 1M ctx
2Tencent Hy3 PreviewTencent (CN)3,07T+16 %fort après fin phase gratuite
3Claude Sonnet 4.6Anthropic (US)1,35Tcode enterprise, 1M ctx
4DeepSeek-V3.2DeepSeek (CN)1,31Tlong tail bon marché, RP actif
5Owl AlphaOpenRouter1,15T+29 %gratuit, spécialisé agent
6Gemini 3 Flash PreviewGoogle (US)1,06Tmultimodal, science/santé
7DeepSeek-V4-ProDeepSeek (CN)1,00Tflagship matrice (~5,74T série)
8MiniMax M2.7MiniMax (CN)806Blong contexte, rapport qualité/prix
9Grok 4.1 FastxAI (US)721B2M ctx, droit/juridique
10Step 3.5 FlashStepFun (CN)673Brapide, batch

Trois variantes DeepSeek (V4-Flash, V4-Pro, V3.2) figurent simultanément dans le top neuf ; la série totalise environ 5,74 billions de tokens par semaine, sem./sem. ~+25,9 %, fabricant numéro un deux semaines de suite. Kimi K2.6 sort du top dix — signal qu'il ne faut pas figer une stratégie annuelle sur un ranking hebdo.

  • Point citable 1 : Volume hebdo mondial 28,9T, environ 12× vs il y a un an.
  • Point citable 2 : DeepSeek-V4-Flash seul 3,43T, sem./sem. +66 %, ~11,9 % du volume hebdo mondial.
  • Point citable 3 : Anthropic 12 % tokens vs 46 % dollar ; Claude Opus 4.6 revenu mensuel ~25 M$, tokens bien sous la matrice DeepSeek.
  • Point citable 4 : Trafic programmation OpenRouter > 50 % — les modèles Flash dominent par logique économique.

03Volume tokens vs dollar : la double vérité

CoucheExemplePattern tokensPattern revenuUsage
Haute valeur · faible volumeClaude Opuspart en baissedollar ~46 %raisonnement complexe, conformité
Rapport qualité/prix · moyenGemini 3 Flashcroissance stableprix unitaire moyenmultimodal, écosystème Google
Très bas prix · gros volumeDeepSeek / MiniMax / StepFuntête hebdoprix bas, échelleagent, code, batch

Le paradoxe premium d'Anthropic structure les achats 2026 : les entreprises paient encore Claude au prix fort, tandis que le poids volumétrique bascule vers la matrice open source chinoise. Le 22 mai 2026, DeepSeek annonce une baisse permanente du prix V4-Pro au quart du tarif initial (après promo) — pression structurelle, pas coupon éphémère. Cela se lit dans le bond +66 % de V4-Flash.

Conséquence engineering : le routeur par défaut suit le ranking hebdo tokens (coût, rythme écosystème). Le plafond des tâches critiques suit benchmark + SLA enterprise (qualité, audit). Ne regarder qu'un axe mène soit à une facture trop lourde en fin de mois, soit à des pannes en raisonnement de pointe.

04Six étapes : routage hebdo + hôte agent Mac cloud

Le ranking hebdo répond à « ce que le monde utilise cette semaine ». Votre runbook doit aussi préciser où tournent gateway et runners. Recommandation : OpenRouter pour la couverture, nœud Apple Silicon NUKCLOUD dédié pour les agents longue durée — aligné avec les Cursor Agent Skills.

  1. 01
    S'abonner au ranking hebdo : Chaque lundi, ouvrir OpenRouter Rankings, archiver parts modèles et fabricants. Vérifier deux semaines la persistance de Hy3, Owl Alpha et autres entrants avant de les mettre en défaut.
  2. 02
    Définir des défauts par scénario : Agent, batch, brouillon → DeepSeek-V4-Flash ; raisonnement enterprise lourd → Claude Sonnet 4.6 / Opus ; multimodal → Gemini 3 Flash ; expériences → Owl Alpha hors dépôts sensibles. Chaînes de repli et plafonds tokens par tâche dans le gateway.
  3. 03
    Rapprocher facture et part tokens : Chaque mois, comparer « top 3 dépenses dollar » et « top 3 volume tokens ». Si vous payez encore premium alors que le trafic a migré vers Flash, ajuster le routage immédiatement.
  4. 04
    Provisionner un Mac cloud dédié : Via la console, fixer région, SSH et limites locataire. Les longues connexions agent et runners GitHub exigent un hôte sans expulsion par surbooking. Spécifications sur commander : tier standard pour gateway API seul ; 96 Go+ mémoire unifiée pour ds4 ou longues sessions KV.
  5. 05
    Déployer une gateway résidente : Hermes, OpenClaw ou maison via launchd ; Base URL Cursor et Claude Code vers proxy OpenRouter interne. Versionner les prompts récurrents en SKILL.md pour limiter la dérive lors des changements de modèle.
  6. 06
    Rétrospective bihebdomadaire : Ajuster les ID modèles par défaut au ranking hebdo. Si coût API dépasse location Mac haute mémoire avec code sensible : évaluer self-host V4-Pro. Pour la seule disponibilité 7×24, prioriser stabilité réseau et réserve RAM. Comparaison sur la page tarifs.

Les pools de minutes partagés sur VPS macOS souffrent de jitter bande passante, surbooking et coupures de connexion — fatal pour des agents à milliers d'appels outils sur douze heures. Pour un plan de production auditable, les Mac bare-metal multi-régions NUKCLOUD offrent une sémantique de dédication plus claire que l'hébergement mutualisé anonyme.

05Questions fréquentes

Pourquoi les chiffres diffèrent de l'article tendances du 4 juin ?
Fenêtre temporelle différente : ici 18–24 mai 2026 en glissant 7 jours ; l'article tendances utilise une coupe de début juin. OpenRouter met à jour en direct — choisir toujours la même base hebdo pour comparer.
V4-Flash en tête — couper Opus ?
Non. Le ranking mesure le volume, pas la qualité maximale. Usage courant : ~80 % V4-Flash, ~20 % Sonnet/Opus pour échantillonnage et chemins lourds.
Anthropic perd des parts tokens — contrat enterprise encore utile ?
Oui pour SLA flagship et conformité. La baisse tokens montre la migration des tâches haute fréquence. Tarifer séparément « chemin premium » et « routeur défaut ».
Owl Alpha pour le code d'entreprise ?
Pas pour données confidentielles. Modèles gratuits ou stealth peuvent journaliser les prompts. Entreprise : Hy3/V4-Pro privé ou closed-source enterprise sur instance dédiée.
Le ranking hebdo change vite — changer l'hôte Mac aussi ?
Non. Choisir l'hôte selon uptime agent, RAM, Xcode/signature ; ajuster le routage chaque semaine dans le gateway. Paliers RAM (96/128 Go) souvent plus rentables qu'une chasse annuelle au nouveau chip.