MMLU와 SWE-Bench 순위가 매주 갱신되는 동안, 다음 달 API 청구를 실제로 좌우하는 것은 OpenRouter의 주간 롤링 토큰 처리량입니다. 본 글은 모델 조달을 검토하고 Cursor / Claude Code / 자체 Agent를 구축하는 개발자와 Tech Lead를 위해 ① 왜 「지출한 금액」이 발표회 벤치마크보다 신뢰할 수 있는지, ② OpenRouter Rankings 2026년 5월 18–24일 주간 데이터 기반 글로벌 Top 10, ③ 미중 트래픽 구도와 Anthropic 「프리미엄 역설」, ④ 6월 트렌드 해설과 대조한 시나리오별 라우팅 및 NUKCLOUD 클라우드 Mac 6단계 구현 목록을 제시합니다.
00청구 데이터가 벤치마크보다 정직한 이유
벤치마크 순위는 「실험실에서 가장 좋았던 한 번」을 측정합니다. OpenRouter 주간 호출량은 「이번 주 전 세계 개발자가 지속적으로 호출하는 모델」을 측정합니다. OpenRouter는 중립 API 집약 플랫폼으로 300개 이상 모델, 60개 이상 벤더를 연결하며, 월간 약 100조 토큰, 사용자 800만 명 이상을 기록합니다. 주(7일 롤링)으로 집계한 처리량은 AI 실제 도입 진척을 보는 체온계로 자리 잡았습니다.
1년 전 글로벌 주간 처리량은 약 2.4조 토큰이었습니다. 2026년 5월 3주차에는 28.9조에 달해 약 12배 성장했습니다. 프로그래밍 작업 비중은 2025년 초 약 11%에서 50% 이상으로 확대되어 최대 단일 용도가 되었습니다. 「코드 작성·Agent 구동·저렴함」이 가장 비싼 Opus가 아닌 DeepSeek-V4-Flash 1위를 설명합니다.
OpenRouter와 a16z가 공동 발표한 《2025 AI 사용 보고서》(약 100조 토큰 익명 메타데이터)는 벤치마크 점수와 실제 시장 점유율이 거의 역상관이라고 지적합니다. 개발자가 중시하는 것은 추론 비용, API 안정성, 도구 호출 성공률입니다. 이는 ds4 로컬 추론 글에서 논의한 「고빈도는 저가 라우팅, 크리티컬 경로는 플래그십」과 일치합니다.
痛点순위만 보고 청구를 안 보는 네 가지 오해
- 「월 누적」을 「주간 급등」과 혼동: OpenRouter는 여러 시간 창을 병렬 표시합니다. 주간 랭킹은 최신 라우팅 이전을 반영하고, 월간 랭킹은 Hy3 무료 종료 등을 평활화합니다. 조달 검토는 주간 기준으로 추적해야 합니다.
- 토큰 점유율 vs 달러 수익 무시: Anthropic 토큰 점유율은 약 12%(1년 전 약 25%)로 하락했지만 달러 수익 점유율은 약 46%를 유지합니다. 고단가 폐쇄 모델은 「트래픽은 졌지만 수익은 안 졌다」는 상태입니다.
- 1위 = 만능 챔피언으로 단정: V4-Flash 1위는 Agent 워크플로 비용 대비 효과(입력 약 $0.14/M, 출력 약 $0.28/M) 때문이지 GPQA 최고 점수가 아닙니다. 복잡 추론은 Opus / Gemini 플래그십으로 스팟 검증이 필요합니다.
- 모델 라우팅과 호스트 분리: 주간 상위권은 고처리량 Agent용이 많습니다. 게이트웨이가 초과판매 VPS에 있으면 장연결 리셋이 모델 ID 변경보다 먼저 프로젝트를 멈춥니다. Agent에는 감사 가능한 7×24 macOS 연산이 필요하며 「최저가 Linux 임대」와는 다른 경로입니다.
01데이터 출처: 주간 통계 정의와 글로벌 총량
본 글 수치는 openrouter.ai/rankings 공개 랭킹에 기반합니다. 집계는 주(7일 롤링 토큰 처리량), 기준은 2026년 5월 18일–5월 24일입니다. 차원은 주간 토큰 총량(입력+출력), 모델별 순위, 벤더 점유율, 달러 수익 점유율과 토큰 점유율 대조를 포함합니다.
| 지표 | 데이터 | 전주 대비 |
|---|---|---|
| 글로벌 주간 호출량 | 28.9조 토큰 | +7.4%(5주 연속 상승) |
| 중국 모델 주간 호출량 | 9.223조 토큰 | +19.89% |
| 미국 모델 주간 호출량 | 4.93조 토큰 | +16.27% |
| 미중 주간 트래픽 비교 | 중국 4주 연속 미국 초과 | 중국 모델 글로벌 점유 약 45%+ |
중국 모델 트래픽 타임라인도 기술 검토에 기록할 가치가 있습니다. 2025년 초 2% 미만, 2026년 2월 첫 주간 트래픽 미국 초과, 2026년 5월 4주 연속 글로벌 1위입니다. 단일 모델의 우연이 아니라 DeepSeek, Tencent, MiniMax, StepFun 등 여러 저가 MoE가 함께 끌어올린 결과입니다.
02최근 1주 모델 호출량 Top 10
| 순위 | 모델 | 벤더 | 주간 토큰량 | 전주 대비 | 특징 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(중국) | 3.43T | +66% | Agent 워크플로, 극저가·1M 컨텍스트 |
| 2 | 腾讯 Hy3 Preview | Tencent(중국) | 3.07T | +16% | 무료 종료 후에도 고성장 |
| 3 | Claude Sonnet 4.6 | Anthropic(미국) | 1.35T | — | 백만 컨텍스트, 기업 코딩 주력 |
| 4 | DeepSeek-V3.2 | DeepSeek(중국) | 1.31T | — | 저가 롱테일, 롤플레이 활발 |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 무료 Agent 특화, 백만 컨텍스트 |
| 6 | Gemini 3 Flash Preview | Google(미국) | 1.06T | — | 멀티모달, 학술·의료 |
| 7 | DeepSeek-V4-Pro | DeepSeek(중국) | 1.00T | — | 매트릭스 플래그십(시리즈 합계 약 5.74T) |
| 8 | MiniMax M2.7 | MiniMax(중국) | 806B | — | 장컨텍스트 비용 대비 효과 |
| 9 | Grok 4.1 Fast | xAI(미국) | 721B | — | 2M 컨텍스트, 법무 시나리오 |
| 10 | Step 3.5 Flash | StepFun(중국) | 673B | — | 고속 저가, 배치 처리 |
DeepSeek 3모델(V4-Flash, V4-Pro, V3.2)이 동시에 상위 9위에 들었고, 시리즈 주간 호출 합계는 약 5.74조 토큰, 전주 대비 약 +25.9%, 벤더 1위는 2주 연속입니다. Kimi K2.6은 전주 6위에서 순위권 밖으로 떨어졌습니다. 주간 랭킹은 라우팅 이전에 극도로 민감하므로 분기 고정이 아닌 주간 재검토가 필요합니다.
- 인용 데이터 1: 글로벌 주간 호출 28.9T, 1년 전 주간 규모 대비 약 12배 성장.
- 인용 데이터 2: DeepSeek-V4-Flash 단일 3.43T/주, 전주 대비 +66%, 해당 주 글로벌 약 11.9%.
- 인용 데이터 3: Anthropic 토큰 점유 약 12% vs 달러 수익 점유 약 46%; Claude Opus 4.6 월 수익 약 2,500만 달러급이나 토큰량은 DeepSeek 매트릭스를 크게 밑돕니다.
- 인용 데이터 4: OpenRouter 프로그래밍 트래픽 50% 이상(2025년 초 약 11%) — 1위가 Flash 계열인 배경을 설명합니다.
03토큰량 vs 달러 수익: 벤더의 「이중 진실」
| 계층 | 대표 모델 | 토큰 특성 | 수익 특성 | 전형 시나리오 |
|---|---|---|---|---|
| 고가치·저트래픽 | Claude Opus 시리즈 | 점유율 하락 | 달러 수익은 여전히 높은 점유 | 기업 복잡 추론, 컴플라이언스 조달 |
| 비용 대비·중트래픽 | Gemini 3 Flash | 안정 성장 | 중간 단가 | 멀티모달, 학술, Google 생태 |
| 극저가·고트래픽 | DeepSeek / MiniMax / StepFun | 주간 랭킹 주도 | 극저 단가·규모 승부 | Agent, 코딩, 배치 |
Anthropic 「프리미엄 역설」은 2026년 조달 회의의 단골 주제입니다. 기업은 여전히 Claude에 고단가를 지불하지만 트래픽 주도권은 중국 오픈소스 매트릭스로 기울었습니다. DeepSeek는 2026년 5월 22일 V4-Pro API를 정가 4분의 1로 영구 인하(프로모 종료 후 적용)를 발표해 가격전을 단기 보조에서 장기 상태로 옮겼습니다. 이는 V4-Flash 주간 +66%에 직결됩니다.
엔지니어링 팀에게 기본 라우트는 주간 토큰 랭킹(절약·생태 추종), 크리티컬 상한은 벤치마크+기업 SLA(품질 보장)에 맞춰야 합니다. 하나만 보면 월말 청구 또는 프로덕션 장애에서 대가를 치릅니다.
046단계 Runbook: 주간 랭킹 라우팅 + 클라우드 Mac Agent 호스트
주간 랭킹은 「이번 주 글로벌이 무엇을 쓰는지」를 답합니다. Runbook은 추가로 「게이트웨이와 Runner를 어디에 둘지」를 답해야 합니다. NUKCLOUD 전용 Apple Silicon에서는 OpenRouter로 폭을 확보하고 인스턴스 내 Agent 게이트웨이와 선택적 로컬 추론을 배치하며 Cursor Agent Skill 라이브러리와 맞추는 구성을 권장합니다.
-
01
월간이 아닌 주간 랭킹 구독: 매주 월요일 OpenRouter Rankings를 열고 모델 차원·벤더 점유 스크린샷을 아카이브합니다. Hy3, Owl Alpha 등 신규 Top 10 진입을 「관찰 목록」에 넣고 2주 내 지속성을 검증합니다.
-
02
시나리오별 기본 라우트: Agent / 배치 / 초안 → DeepSeek-V4-Flash; 기업 복잡 추론 → Claude Sonnet 4.6 / Opus; 멀티모달 → Gemini 3 Flash; 실험 → Owl Alpha(비민감 저장소 한정). OpenRouter 또는 자체 게이트웨이에 fallback과 작업별 토큰 상한을 설정합니다.
-
03
청구와 토큰 점유율 대조: 매월 OpenRouter 청구 「달러 지출 Top 3」와 랭킹 「토큰 점유 Top 3」를 비교합니다. 지출이 고가 폐쇄에 치우쳤는데 트래픽은 Flash로 이전됐다면 라우팅 비율을 즉시 조정해 「트래픽은 바뀌었는데 청구는 그대로」를 막습니다.
- 04
-
05
상주 게이트웨이 배치: 인스턴스에서 Hermes / OpenClaw / 자체 게이트웨이를 launchd 상주로 둡니다. Cursor와 Claude Code Base URL을 사내 OpenRouter 프록시로 향하게 하고 반복 Prompt를 SKILL.md에 모아 모델 전환 시 지시 드리프트를 억제합니다.
-
06
격주 리뷰: 주간 랭킹 변화에 맞춰 기본 모델 ID를 조정합니다. API 월 지출이 고메모리 Mac 임대+민감 코드를 넘으면 V4-Pro 자체 호스팅+전용 Mac을 검토합니다. 7×24 온라인만 필요하면 네트워크 안정과 메모리 여유를 최우선합니다. 비용 평가는 가격 페이지를 참고하세요.
분 단위 공유 macOS VPS에서는 대역폭 지터, 초과판매, 장연결 리셋이 잦아 수천 번 도구 호출·12시간 백그라운드 Agent에 치명적입니다. 감사 가능한 프로덕션 플레인에는 NUKCLOUD 다리전 bare-metal Mac / 클라우드 Mac 노드의 전용 의미가 조달·컴플라이언스 문서와 맞기 쉽습니다.