2년 전 MMLU만으로 모델을 고르고 있다면, 2026년 6월 프로덕션 API는 이미 두 차례 교체되었을 수 있습니다. 본 글은 OpenRouter Rankings(2026년 6월 4일 기준)를 바탕으로 Cursor / Claude Code / 자체 Agent를 구축하는 개발자와 Tech Lead에게 ① 왜 「실제 호출량」이 벤더 자체 벤치마크보다 선정에 가깝은지, ② Top 10과 6대 트렌드, ③ 시나리오 결정 매트릭스, ④ 모델 라우팅을 로컬 ds4 추론, Cursor Agent Skill과 함께 NUKCLOUD 전용 클라우드 Mac에서 안정 운영하는 방법을 설명합니다.
00왜 OpenRouter 랭킹을 기술 검토에 넣어야 하나요?
OpenRouter는 Anthropic, Google, DeepSeek, 텐센트, Moonshot, NVIDIA 등 수십 기관의 수백 모델을 모으며, 랭킹은 사용자가 실제로 소비한 토큰 총량으로 정렬됩니다. 보도자료의 일회성 점수가 아닙니다. 엔지니어링 관점에서는 「프로덕션에서 비용과 지연을 감수하는 모델」이 보이며, 실험실 피크보다 선정에 직결됩니다.
2026년 중반에는 다섯 가지 구조 변화가 읽힙니다. 중국 오픈소스(DeepSeek, 텐센트 Hy3, Kimi)가 글로벌 Top 10에 정착했습니다. 1M 토큰 컨텍스트가 표준 구성이 되었습니다. 경쟁 축은 대화 품질에서 Agent 도구 호출과 다단계 실행으로 옮겨졌습니다. Owl Alpha, Nemotron 3 Super 같은 제로 단가 모델이 실험 심리를 바꿉니다. Top 10에서는 MoE(혼합 전문가)가 순수 초대형 밀집 모델을 거의 대체했습니다.
아래 수치는 OpenRouter 화면과 각사 공개 문서에 따릅니다(API 가격은 항상 공식을 우선). 「API 라우팅」과 「데이터 외부 유출 금지」를 병행하려면 GitHub Agent 워크스페이스 Runbook과 함께 읽으세요. 클라우드 API는 폭, 전용 Mac은 서명 자료·장시간 Agent·선택적 로컬 추론을 담당합니다.
痛点선정 시 네 가지 숨은 비용
- 벤치마크만 보고 청구서는 안 봄: Claude Opus 4.7은 SWE-Bench Pro에서 강하지만 출력은 백만 토큰당 최대 $25 수준입니다. 고동시 파이프라인에 라우팅이 없으면 월말 청구가 예상을 넘기 쉽습니다.
- 컨텍스트와 KV 비용 간과: 1M 컨텍스트는 저장소 전체를 한 번에 넣는다는 뜻입니다. 캐시나 로컬 KV(ds4 디스크 KV 등)가 없으면 긴 세션의 prefill 비용이 기하급수적으로 커집니다.
- Agent 안정성 과소평가: 상위 모델은 SWE-bench Verified, Terminal-Bench, MCP-Atlas 등 도구 체인 벤치에서 경쟁합니다. 「잡담 가능」과 「40개 파일 연속 수정 가능」은 다른 등급입니다.
- 호스트와 모델 불일치: Kimi K2.6 Agent Swarm을 초과판매 VPS에서 7×24 돌리면 모델 업데이트보다 게이트웨이 단절이 먼저 프로젝트를 멈춥니다. Agent에는 감사 가능하고 끊기지 않는 macOS 연산이 필요하며, 저가 공유 호스트와는 다른 길입니다.
01OpenRouter Top 10 개요(2026년 6월)
다음은 OpenRouter Rankings 최근 토큰 호출량 기준입니다(성장률은 화면 표시값, 추세 판단용. 최신은 OpenRouter 실시간 페이지를 참고하세요).
| 순위 | 모델 | 기관 | 호출량 | 성장 | 핵심 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~10.9T | ↑995% | MoE 284B/13B active, 1M 컨텍스트, 극저 API 단가 |
| 2 | Hy3 Preview | 텐센트 | ~10.7T | ↑>999% | 오픈 MoE, Agent/추론, 효율 +40% |
| 3 | Claude Opus 4.7 | Anthropic | ~7.48T | ↑197% | 플래그십 코드/비전, 장시간 Agent 안정 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~7.45T | ↑34% | 균형 주력, 무료 티어 |
| 5 | Owl Alpha | OpenRouter | ~5.03T | ↑>999% | $0, 1.05M 컨텍스트, Agent 지향 |
| 6 | Gemini 3 Flash Preview | ~4.6T | ↑3% | 전 모달, SWE-bench 78%, 생태계 | |
| 7 | DeepSeek V4 Pro | DeepSeek | ~4.54T | ↑739% | 1.6T MoE 플래그십, MIT 오픈 가중치 |
| 8 | DeepSeek V3.2 | DeepSeek | ~4.31T | ↓14% | 이전 세대 유지, V4로 분산 |
| 9 | Kimi K2.6 | Moonshot | ~3.72T | ↑1% | 1T MoE, Agent Swarm, 오픈 |
| 10 | Nemotron 3 Super (free) | NVIDIA | ~2.65T | ↑3% | 무료 OSS, Mamba+Transformer 혼합 |
DeepSeek V4 Flash가 호출량 1위인 이유는 「Haiku급 가격에 Pro급 Agent에 근접」하기 때문입니다. 1M 컨텍스트에서 단일 토큰 FLOPs는 V3.2의 약 10%, KV 캐시 약 7%이며 XML 도구 호출로 중첩 JSON 실패를 줄입니다. 제3자 비교에서 입력 약 $0.14, 출력 약 $0.28/백만 토큰으로 Opus 4.7의 $5/$25와 자릿수가 다릅니다. 고빈도 라우팅 기본값에 적합합니다.
Claude Opus 4.7은 SWE-Bench Pro(약 64.3% vs V4-Pro 55.4%), GPQA Diamond(94.2% vs 90.1%)에서 여전히 강합니다. 다중 파일 리팩터, 장시간 자율 코딩 Agent, 고해상도 비전의 크리티컬 패스에 맞습니다. Sonnet 4.6은 일상 배치에서 약 1.7배 가격 우위를 가집니다.
022026 6대 트렌드
트렌드 1: 1M 토큰 컨텍스트가 새 표준입니다. DeepSeek V4, Claude Opus 4.7, Owl Alpha, Gemini 3 Flash, Nemotron 3 Super가 1M급입니다. 저장소 전체나 장문 계약을 한 번에 넣을 수 있어 일부에서는 RAG보다 「전량 입력」이 선택됩니다. prefill 연산과 스토리지 부담은 호스트와 라우팅으로 이동합니다.
트렌드 2: 중국 오픈소스의 글로벌화입니다. Top 10의 약 절반이 중국 팀 출신이며 다수가 오픈입니다(DeepSeek MIT, Hy3 커뮤니티 라이선스, Kimi Modified MIT). 700% 이상 성장은 MoE를 프로덕션 기본으로 쓰는 흐름을 보여 줍니다.
트렌드 3: Agent 능력이 대화 점수를 대체합니다. 발표 초점은 Tool Calling, SWE-bench Verified, Terminal-Bench, MCP-Atlas입니다. Kimi K2.6 Agent Swarm(최대 약 300 서브 에이전트, 4000단계 조율)과 Hy3의 Terminal-Bench 2.0(약 54.4%)은 「무인으로 얼마나 오래 도는가」로 경쟁이 옮겨졌음을 뜻합니다.
트렌드 4: MoE의 전면 우위입니다. 순수 초대형 밀집 모델은 소비 랭킹 주변으로 밀려났습니다. Nemotron 3 Super는 Mamba + Transformer 혼합으로 총 파라미터 약 120B / active 약 12B에서 2배 이상 처리량을 노립니다.
트렌드 5: 완전 무료 모델이 가격 인식을 바꿉니다. Owl Alpha($0)와 Nemotron 3 Super(free)는 실험 장벽을 낮추지만 Stealth 계열은 Prompt 기록이 있을 수 있습니다. 기밀 코드는 자체 호스팅 또는 전용 인스턴스로 보내야 합니다.
트렌드 6: 멀티모달이 기본 요건이 됩니다. Gemini 3 Flash는 이미지·음성·영상·PDF, Opus 4.7은 고해상도 비전을 강조합니다. 순수 텍스트만 지원하는 모델의 검색·엔터프라이즈 점유는 줄어듭니다.
03능력 매트릭스와 시나리오 선정
| 시나리오 | 1순위 | 대안 | Mac 호스트 관계 |
|---|---|---|---|
| 일상 문서 / 번역 / 요약 | Claude Sonnet 4.6 | Gemini 3 Flash | 경량 API로 충분 |
| 고빈도 코딩 API | DeepSeek V4 Flash | Sonnet 4.6 | Cursor 연결 가능; 로컬 ds4 + 96GB+ Mac |
| 복잡 Agent / 다중 파일 리팩터 | Claude Opus 4.7 | Kimi K2.6 | 7×24 전용 macOS에서 게이트웨이·Runner |
| 비용 민감 실험 | Owl Alpha / Nemotron free | V4-Flash | 민감 저장소 금지; 컴플라이언스는 Hy3 / V4-Pro 사설화 |
| 멀티모달 / Google 생태계 | Gemini 3 Flash | Opus 4.7(고정밀 비전) | 통합은 클라우드 중심; Mac은 빌드 머신 |
| 사설화·고처리량 | Nemotron 3 Super | Hy3 Preview | GPU 워크스테이션; Mac은 Agent 편성 |
| 모델 | 입력 $/M | 출력 $/M | 컨텍스트 | 오픈 |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~0.10–0.14 | ~0.28–0.40 | 1M | 예 |
| DeepSeek V4 Pro | ~1.74 | ~3.48 | 1M | 예 |
| Claude Opus 4.7 | ~5.00 | ~25.00 | 1M β | 아니오 |
| Claude Sonnet 4.6 | ~3.00 | ~15.00 | 200K / 1M β | 아니오 |
| Owl Alpha | 0.00 | 0.00 | 1.05M | 아니오 |
| Gemini 3 Flash | ~0.50 | ~3.00 | 1M+ | 아니오 |
| Kimi K2.6 | 낮음(자체 호스팅) | 낮음 | 256K | 예 |
| Nemotron 3 Super | 0.00 | 0.00 | 1M | 예 |
- 인용 데이터 1: OpenRouter 1위 DeepSeek V4 Flash 최근 호출량 약 10.9T tokens, 표시 성장 약 995%.
- 인용 데이터 2: Opus 4.7 SWE-Bench Pro 64.3%, V4-Pro 55.4%; Terminal-Bench 2.0 약 69.4% vs 67.9%로 격차 축소.
- 인용 데이터 3: Gemini 3 Flash SWE-bench Verified 약 78%, 동계열 Pro를 상회해 코딩 Agent 파이프라인에 적합.
- 인용 데이터 4: Kimi K2.6 1T 총 파라미터 / 32B active MoE, BrowseComp 약 83.2, 장기 Swarm 편성용.
046단계 Runbook: 모델 라우팅 + 클라우드 Mac Agent 호스트
랭킹은 「어떤 API」를 정합니다. 프로덕션은 「Agent와 Runner를 어디에 둘지」도 필요합니다. NUKCLOUD 전용 Apple Silicon에서는 클라우드 API로 폭을 확보하고, 인스턴스 안에 게이트웨이와 선택적 ds4 로컬 추론을 두며, GitHub Actions와 Cursor가 테넌트 경계를 공유하는 구성이 현실적입니다.
-
01
라우팅 정책 정의: 기본 DeepSeek V4 Flash(고빈도·저비용); 중요 병합·비전은 Opus 4.7 또는 Gemini 3 Flash; 실험은 Owl Alpha / Nemotron free를 비민감 저장소에만. OpenRouter 또는 자체 게이트웨이에 fallback과 작업별 토큰 상한을 설정합니다.
-
02
워크로드에 맞는 Mac 스펙 선택: API만+경량 Agent는 표준 클라우드 Mac; 로컬 ds4 / Ollama / 긴 KV는 96GB+ 통합 메모리(주문 페이지). 1M 컨텍스트 모델과 32GB 머신 조합은 피하세요.
-
03
전용 노드 프로비저닝: 콘솔에서 리전, SSH, 테넌트 경계를 고정합니다. 프로덕션 준비 6단계와 맞춰 초과판매 호스트의 장연결 끊김을 방지합니다.
-
04
Agent 게이트웨이 배포: 인스턴스에서 Hermes / OpenClaw / 자체 게이트웨이를 launchd 상주로 둡니다. Cursor와 Claude Code Base URL을 사내 OpenRouter 프록시 또는 로컬
ds4-server(ds4 글의 Metal 추론 완료 시)로 향하게 합니다. -
05
CI와 Skill 연결: GitHub Copilot 코딩 Agent와 전용 macOS Runner를 동일 머신 또는 동일 리전에 둡니다. 반복 Prompt는 SKILL.md로 모아 모델 전환 시 지시 드리프트를 줄입니다.
-
06
월간 회고: OpenRouter 청구와 인스턴스 이용률을 추출합니다. API 지출이 고메모리 Mac 임대+기밀 코드를 넘으면 V4-Pro 자체 호스팅+전용 Mac을 검토합니다. 7×24 온라인만 필요하면 네트워크 안정과 메모리 여유를 최우선하고 최신 칩 추격은 후순위로 둡니다.
분 단위 공유 macOS VPS에서는 대역폭 지터, 초과판매, 장연결 리셋이 잦아 수천 번 도구 호출의 장시간 Agent에 치명적입니다. 감사 가능한 프로덕션 플레인에는 NUKCLOUD 다리전 bare-metal Mac / 클라우드 Mac 노드의 전용 의미가 조달·컴플라이언스 문서와 맞기 쉽습니다. 가격 페이지와 고객센터에서 평가하세요.