Локальный DeepSeek V4 в 2026? open-source ds4 от antirez и Runbook аренды Mac в облаке с большой памятью

Автор Redis antirez выпустил на чистом C ds4 (DwarfStar 4) — первый серьёзный путь Metal-inference для DeepSeek V4 Flash на Apple Silicon, но порог 96 ГБ unified memory отсекает большинство команд. Аренда Mac в облаке NUKCLOUD с большой памятью — практичный способ перешагнуть барьер закупки.

В мае 2026 antirez опубликовал ds4 (DwarfStar 4) — локальный inference-движок только под DeepSeek V4 Flash, набравший десятки тысяч звёзд на GitHub за считанные дни. Metal выводит prefill к сотням токенов в секунду; контекст на миллион токенов и KV на диске заложены в дизайн; API, совместимые с OpenAI и Anthropic, подключают Cursor, OpenCode и других coding-агентов. Большинство команд упираются не в make, а в 96–512 ГБ unified memory и пятизначные CapEx на железо. Статья для тех, кому нужен приватный inference без утечки промптов и репозиториев в чужие API. Разбираем границы ds4, матрицу железа и шестишаговый Runbook в связке с выделенными узлами Apple Silicon NUKCLOUD.

00Что такое ds4: одна модель, а не очередной GGUF-загрузчик

Локальный LLM-рынок переполнен: llama.cpp, Ollama, vLLM и десятки форков борются за звание «универсального загрузчика». ds4 сознательно сужает фокус — одно семейство моделей, один оптимизированный стек. На чистом C: собственный исполнитель графа, специализированная загрузка весов, рендер промптов, tool calling, состояние KV в RAM и на диске, плюс ds4-server как API-слой. Цель — на мощной рабочей станции или Mac Studio дать локальный опыт кодинга, сопоставимый с облачными Claude/GPT, без выноса трафика за периметр.

README в официальном репозитории недвусмыслен: ds4 не универсальный GGUF-runner и не обёртка над чужими фреймворками. На macOS производственный путь — Metal; CUDA закрывает Linux и DGX Spark; CPU-граф — для проверки корректности. На части версий macOS CPU-inference может спровоцировать сбои виртуальной памяти ядра — продакшен только на Metal или CUDA.

Для техлида меняется вопрос закупки. Не «грузится ли наш GGUF?», а «есть ли достаточно unified memory на Mac и готовы ли мы привязать веса, KV и семантику tool calling к ds4 и официальным векторам DeepSeek V4 Flash?» При «да» вы получаете сквозной аудируемый приватный inference-план. При «нет» остаётесь на универсальных загрузчиках — быстрее к эксперименту, слабее на специфике MoE.

БОЛЬЖелезный порог: софт готов, бюджет отстаёт

Бенчмарки сообщества и документация сходятся: узкое место — память, а не отсутствие движка. Таблица ниже обобщает официальные указания, замеры на Mac и типичные уровни квантования — точные цифры зависят от выбранного GGUF/imatrix:

ЦельКвантованиеUnified memory (мин.)Типичное железоЗакупка (порядок)
DeepSeek V4 Flashq2 / routing-эксперты 2-bit96 ГБMacBook Pro M3/M4/M5 Maxот ~400 000 ₽ / 4 000 EUR
DeepSeek V4 Flashq4 и выше256 ГБMac Studio Ultraот ~800 000 ₽ / 8 000 EUR
DeepSeek V4 PROq2512 ГБMac Studio M3 Ultra (топ)от ~1,5 млн ₽ / 15 000 EUR
  • CapEx одним чеком: одиночным разработчикам и командам до десяти человек трудно оправдать ноутбук 96 ГБ «просто попробовать локальный MoE».
  • Риск неверной закупки: 64 ГБ кажутся много, но для Flash q2 мало; 96 ГБ часто не хватает для q4 или PRO — снова смена машины.
  • Время развёртывания: даже с подходящим железом остаются сборка, сотни ГБ весов, каталоги KV и порты API — до стабильного loopback с Cursor часто несколько дней.
  • Профиль нагрузки: inference кластеризуется вечером и в релизных окнах; днём железо простаивает. Собственный Mac редко обыгрывает почасовую аренду по реальной утилизации.

Реальный вопрос 2026 года: как получить производственную среду Metal + большой памяти при контролируемых затратах — а не «круче ли ds4, чем llama.cpp».

01Технические сильные стороны: Metal, длинный контекст, coding-агенты

Из официального репозитория и ранних замеров Mac/CUDA следуют причины интереса:

  • Metal в приоритете: глубокая адаптация под GPU Apple; сообщество на M5 Max сообщает prefill около 463 t/s и генерацию около 34 t/s (зависит от квантования и контекста).
  • Контекст на миллион токенов: окно порядка 1M токенов; вместе со сжатием KV DeepSeek V4 крупные репозитории и длинные документы становятся инженерно выполнимыми.
  • KV на диске: состояние KV может жить на NVMe между сессиями — меньше повторного prefill в длинных coding-сессиях.
  • 2-bit routing-эксперты: агрессивная квантизация роутера MoE, остальные слои точнее — Flash терпимее на классе 128 ГБ.
  • API для агентов: tool calling, совместимость OpenAI/Anthropic, ds4-server как приватная точка для Cursor и OpenCode.
Заметка: на RTX PRO 6000 96 ГБ третьи стороны для Flash Q2-imatrix сообщают короткую генерацию около 43 tok/s и около 31 tok/s при контексте 50K. ds4 нацелен на очень крупные MoE на одной карте с массивной памятью, а не на потребительские GPU 24 ГБ.

02Почему Mac лидирует в consumer-сегменте: unified memory и SSD

Metal как главная цель — не маркетинг, а совпадение архитектуры и софта:

  • Unified memory: CPU и GPU делят физическую RAM; веса 80+ ГБ без PCIe-копирования — паттерн, который x86 + дискретная GPU воспроизводит с трудом.
  • Пропускная способность памяти: чипы M в SKU с высокой полосой дают сильный inference- throughput для prefill и длинных контекстов в consumer-классе.
  • NVMe и disk-KV: ds4 опирается на быстрый локальный SSD для session-persistent KV; стек macOS и встроенные накопители этому соответствуют.

Коротко: Mac с большой памятью — лучшая consumer-форма для frontier open-source MoE сегодня. Linux и CUDA работают (DGX Spark и др.), но iOS/full-stack-команды в Xcode, Cursor и macOS чаще выигрывают от Mac с большой памятью в облаке или на столе, чем от второго Linux-inference-хоста.

ДАННЫЕПорядки величин для ревью (калибруйте своими замерами)

  • Модель: DeepSeek V4 Flash около 284B MoE / 13B active (публичные оценки); ds4 фокусируется на Flash, PRO требует более высоких ступеней памяти.
  • GitHub: ds4 после релиза превысил 10 000+ stars — сверяйте живой счётчик в репозитории.
  • Полоса памяти: класс Mac Studio Ultra даёт unified bandwidth в сотнях ГБ/с — напрямую связано со стратегией «всё в UMA».
  • Аренда vs покупка: ноутбук 96 ГБ — разовый четырёхзначный чек; при 40–80 часах концентрированного использования в месяц облачный Mac 128 ГБ по часам часто на порядок мягче для cash flow — см. страницу тарифов.
  • Конфиденциальность: локальный или выделенный inference не отправляет промпты и код в сторонние API; для финансов, медицины и госсетей это структурное отличие от «только облачный API».

03Шесть шагов: от выбора памяти до Cursor

Runbook предполагает облачный Mac NUKCLOUD с 96 ГБ+ памяти — границы арендатора и SSH-baseline можно разделить с Runbook GitHub-агентов:

  1. 01
    Память под модель: Flash q2 — минимум 96 ГБ; выше точность или PRO — планируйте 256 / 512 ГБ. Выберите SKU на странице заказа — избегайте «SSH есть, веса не влезают».
  2. 02
    Зафиксировать baseline: задокументировать minor macOS, Xcode Command Line Tools, состояние Metal; квоту диска под веса + KV (часто сотни ГБ свободно).
  3. 03
    Собрать ds4: клонировать github.com/antirez/ds4, make для ./ds4 и ./ds4-server; продакшен только Metal, без CPU-графа для постоянной нагрузки на macOS.
  4. 04
    Веса и KV: скачать пакеты Flash по README; пример: ./ds4-server --ctx 100000 --kv-disk-dir /var/ds4-kv --kv-disk-space-mb 8192 (пути и квоты под инстанс).
  5. 05
    Подключить coding-инструменты: Base URL Cursor/OpenCode на loopback инстанса или SSH-туннель (напр. http://127.0.0.1:8000); чувствительные репо только через VPN/private link, без публичного inference-порта.
  6. 06
    Стоимость и compliance: сравнить CapEx/OpEx «Mac Studio на площадке» vs почасовой облачный Mac; совместное использование с узлом CI Swift 6.
Пример запуска ds4-server (продакшен Metal)
git clone https://github.com/antirez/ds4.git
cd ds4 && make
./ds4-server --ctx 100000 \
  --kv-disk-dir /var/ds4-kv \
  --kv-disk-space-mb 8192

04Сравнение: свой Mac, облачный Mac, чистый облачный API

ИзмерениеСвой Mac 96 ГБ+Облачный Mac NUKCLOUD с большой памятьюAPI Claude / GPT
Входные затратывысокий CapExнизкий вход, почасово / помесячноза токены
Путь данныхлокально / LANвыделенный инстанс, без API сторонней моделикод и prompt в облаке
Гибкость памятисмена машины дорога96 → 128 → 512 ГБ сменой инстансанет понятия железа
ds4 / Metalполный контрольскриптовый baseline, login → buildне применимо
Шаринг в командефизически или RDPмультиаккаунт, регионы аудируемыобщий аккаунт
Доказательство complianceсвои политикиарендатор, SSH, регион документируемыDPA вендора

Когда нужны и приватность уровня «локально», и отказ от предоплаты Mac на шесть цифр, облачный Mac с большой памятью часто оптимален: ds4 + Metal, провижининг как из консоли.

05Частые вопросы

Хватит ли Mac 64 ГБ для ds4?
Для DeepSeek V4 Flash q2 в документации и сообществе — минимум 96 ГБ unified memory. 64 ГБ быстро дают OOM при росте KV — не production-цель.
CPU-inference на macOS в ежедневной работе?
Нет. CPU — для проверки корректности; на части macOS есть проблемы VM. Продакшен: Metal (macOS) или CUDA (Linux).
Cursor через облачный Mac — заметно хуже?
С SSH-туннелем или низкой RTT в том же регионе ds4-server часто ощущается как loopback. Узкое место — RTT и полоса сети.
ds4 vs Ollama / llama.cpp?
Произвольные GGUF — универсальные загрузчики. Максимум скорости, контекста и tool calling для DeepSeek V4 Flash с официальной семантикой — ds4. Оба могут сосуществовать.
Когда арендовать NUKCLOUD вместо покупки Mac?
Если совпадают минимум два условия: закупка дольше четырёх недель, валидация один–три месяца, несколько человек делят одну inference-машину. VPS с минутным пулом дают oversubscription и обрывы prefill. Для аудируемого multi-region плана с CI и inference подходят bare-metal и cloud Mac-узлы NUKCLOUD — старт с тарифов, заказа, детали в справочном центре.