2026 年 5 月、antirez(Redis 作者)が ds4(DwarfStar 4) をオープンソース化しました。これは DeepSeek V4 Flash 専用 のローカル推論エンジンで、公開から数日で GitHub の Star が 1 万を超えました。Metal により prefill は数百 token/s 級に達し、百万トークン級コンテキストとディスク KV キャッシュをサポートし、OpenAI / Anthropic 互換 API で Cursor や OpenCode などのコーディング Agent に接続できます。多くの人を止めるのはコンパイルではなく、96GB から 512GB の統一メモリと数十万円規模の購入コスト です。本記事は「ローカルでプライベート推論し、データを機外に出さない」開発者向けに、ds4 の技術境界、ハードウェア対照表、NUKCLOUD 独占 Apple Silicon ノード と整合する 6 ステップ Runbook を整理します。
00ds4 とは:汎用 GGUF ローダーではなく、1 モデルに特化したエンジン
ローカル LLM 領域には llama.cpp、Ollama、vLLM など「汎用ローダー」がすでに存在します。ds4 は逆の設計です。DeepSeek V4 Flash の 1 本線に意図的に絞り、純 C の自前グラフ実行、専用ウェイトロード、プロンプトレンダリング、Tool Calling、RAM / ディスク KV 状態、ds4-server API を一体で提供し、ハイエンド個人機や Mac Studio 上で「クラウドの Claude / GPT に近い本気のコーディング体験」を目指します。
公式 README では、ds4 は 汎用 GGUF runner ではない こと、他フレームワークのラッパーでもないことが明記されています。macOS では Metal が第一の本番経路、CUDA は Linux / DGX Spark 向け、CPU 経路は正しさ検証用です。現行 macOS で CPU グラフを日常負荷に使うとカーネル仮想メモリの不具合を踏む可能性があるため、本番は Metal または CUDA を使うべき です。
エンジニアリングチームが問うべきは「任意の GGUF を載せられるか」ではなく、「十分な統一メモリを持つ Mac があり、推論スタックを DeepSeek V4 Flash の公式ベクトルと ds4 の更新サイクルに固定してよいか」です。答えが yes なら、ds4 は実験用おもちゃではなく、端到端で監査可能なプライベート推論プレーン を提供します。
痛点ハードウェアの壁:ソフトは整い、財布が追いつかない
ds4 コミュニティと第三者ベンチマークの共通認識は明確です。ボトルネックは「エンジンの有無」から「統一メモリの大きさ」へ移った という点です。次の表は公式ドキュメント、Mac 実測、一般的な量子化档との工程上の整合です(実際の GGUF / imatrix により変動します)。
| 目標 | 量子化 / 档 | 統一メモリ下限 | 典型ハードウェア | 購入規模(参考) |
|---|---|---|---|---|
| DeepSeek V4 Flash | q2 / ルーティング専門家 2-bit | 96 GB | MacBook Pro M3/M4/M5 Max | 約 60 万円〜 |
| DeepSeek V4 Flash | q4 など高精度 | 256 GB | Mac Studio Ultra | 約 120 万円〜 |
| DeepSeek V4 PRO | q2 | 512 GB | Mac Studio M3 Ultra 最上位 | 約 220 万円〜 |
- 一度きりの CapEx が高い:個人研究者や 10 人未満のチームが「ローカル LLM を試す」だけで 96GB ノートや 512GB デスクを単独承認するのは難しいです。
- スペックミスマッチ:64GB 機を買って Flash q2 すら載らない、96GB で q4 / PRO を狙って再購入、といった事故が起きやすいです。
- 環境構築の時間:ハードが揃っても
make、数百 GB 級ウェイト、KV ディスク、API ポートの設定に数日かかり、Cursor だけ繋ぎたい人には重いです。 - ピークとアイドル:ローカル推論は夜間集中・昼間アイドルになりがちで、自前機の利用率はオンデマンドレンタルに勝ちにくいです。
したがって 2026 年の「ローカルで DeepSeek V4」は、ds4 が llama.cpp より派手かどうかではなく、制御可能なコストで本番級の Metal + 大メモリ環境を得る方法 を問う命題です。
01ds4 の技術ハイライト:Metal、長コンテキスト、コーディング Agent の一体設計
公式リポジトリ と Mac / CUDA 初測を踏まえると、短期間で注目を集めた理由は次の能力にあります。
- Metal 優先:Apple Silicon GPU 向けに深く最適化。コミュニティでは M5 Max 等で prefill が 463 t/s 級、生成が約 34 t/s(量子化とコンテキスト長で変動)と報告されています。
- 百万トークンコンテキスト:約 1M token の窓。DeepSeek V4 の圧縮 KV 設計と組み合わせ、長文書や大規模コードベースの推論が工程上現実的です。
- ディスク KV キャッシュ:KV をディスクに残しセッション間で再利用し、繰り返し prefill を削減。macOS の高速 SSD と相性が良いです。
- 2-bit ルーティング専門家量子化:MoE のルーティング専門家を積極的に量子化し他層は精度維持。Flash を 128GB 級で回しやすくします。
- コーディング Agent と API:Tool Calling 内蔵、OpenAI / Anthropic 互換、Cursor / opencode 接続。
ds4-serverがローカルプライベートエンドポイントです。
02コンシューマ向けに Mac が第一候補になる理由:統一メモリと SSD の組み合わせ
ds4 が macOS で Metal を第一に据えるのはマーケティングではなく、アーキテクチャの一致 です。
- 統一メモリ(UMA):CPU と GPU が同一物理メモリを共有し、80GB 超のウェイト読み込みで PCIe コピー瓶頸を避けられます。x86 + ディスクリート GPU では再現しにくい経路です。
- メモリ帯域:M シリーズの高帯域档は同価格帯コンシューマ機で推論スループットに有利で、prefill と長コンテキスト体験に直結します。
- 高速 SSD + ディスク KV:KV 落盤は低遅延ストレージに依存し、Mac 内蔵 NVMe とファイルシステムスタックはセッション永続 KV に向きます。
要するに 大メモリ Mac は、現時点で最先端オープン MoE をローカルで回すのに最も現実的なコンシューマ形態 です。Linux + CUDA も可能(DGX Spark 等)ですが、Xcode・Cursor・macOS ツールチェーン中心の iOS / フルスタックチームには、クラウドまたはローカルの 高メモリ Mac ノード の方が総コストで有利なことが多いです。
データレビューで引用できる数量級(必ず自前実測で校正)
- モデル規模:DeepSeek V4 Flash は公開資料で約 284B MoE / 13B active。ds4 は現状 Flash 档に集中し、PRO はより高いメモリ档が必要です。
- GitHub の熱量:公開後数日で Star 10,000+(リポジトリのリアルタイム値を参照)。「クラウドコーディングモデルのローカル代替」需要の強さを示します。
- メモリ帯域:Mac Studio Ultra 級は統一メモリ帯域が数百 GB/s 級。「ウェイト + KV をすべて UMA に載せる」戦略と直結します。
- レンタル vs 自購:96GB Max ノートは一度に約 60 万円〜。月 40〜80 時間だけ実験と Agent 連携するなら、128GB クラウド Mac をオンデマンドで借りる 方がキャッシュフロー負担は通常 1 桁小さいです(料金ページ を参照)。
- プライバシー境界:ローカル / 独占インスタンス推論では prompt とコードコンテキストが第三者 API を経由しません。金融・医療・政企内網では「純クラウド API」との本質差です。
036 ステップ Runbook:選定から Cursor 接続まで
以下は NUKCLOUD 高メモリクラウド Mac で 96GB+ の独占環境を得る前提です(GitHub Agent ワークスペース Runbook の Runner ノードと同一テナント境界・SSH 基線を再利用できます)。
-
01
モデル档に合わせてメモリを選ぶ:Flash q2 → 最低 96GB。Flash 高精度または PRO → 256GB / 512GB インスタンスを計画。注文ページ で該当スペックを選び、「SSH はできるがウェイトが載らない」を避けます。
-
02
開通とベースライン固定:macOS マイナーバージョン、Xcode Command Line Tools、Metal ドライバ状態を記録。チームでディスク割当(ウェイト + KV 落盤で数百 GB 空きが必要なことが多い)を合意します。
-
03
ds4 をビルド:インスタンスで
github.com/antirez/ds4を clone しmakeで./ds4と./ds4-serverを生成。本番推論は Metal バックエンドを使い、macOS 日常負荷に CPU グラフを使わないでください。 -
04
ウェイトと KV ディレクトリ:README に沿って公式推奨の Flash GGUF / 量子化パッケージを取得。起動例:
./ds4-server --ctx 100000 --kv-disk-dir /var/ds4-kv --kv-disk-space-mb 8192(パスと割当はインスタンスのディスクに合わせて調整)。 -
05
コーディングツール接続:Cursor / OpenCode / 自社 Agent の Base URL をインスタンス内網、または SSH トンネル経由の
http://127.0.0.1:8000(実ポートに合わせる)へ。OpenAI 互換 API を使用。機密リポジトリは VPN / 専用線のみとし、推論ポートを公網に晒さないでください。 -
06
コストとコンプライアンスの振り返り:「自購 Mac Studio + 現地運用」と「時間課金 / 月額クラウド Mac」の CapEx / OpEx を比較。Swift 6 CI 独占ノード と同一クラスタを共有できないか検討し、利用率を上げます。
git clone https://github.com/antirez/ds4.git
cd ds4 && make
./ds4-server --ctx 100000 \
--kv-disk-dir /var/ds4-kv \
--kv-disk-space-mb 8192
04形態対照:自購 Mac、クラウド高メモリ Mac、純クラウド API
| 観点 | 自購 96GB+ Mac | NUKCLOUD 高メモリクラウド Mac | 純クラウド Claude / GPT API |
|---|---|---|---|
| 初期投資 | 高い CapEx(約 60 万〜220 万円+) | 低い立ち上げ、時間 / 月額課金 | トークン課金 |
| データ経路 | ローカル / 内網 | 独占インスタンス内、第三者モデル API 非経由 | コードと prompt がクラウドへ |
| スペック柔軟性 | 買い替えコスト大 | 96 → 128 → 512GB でインスタンス切替 | ハード概念なし |
| ds4 / Metal | 完全制御 | 事前インストールまたはスクリプト基線、ログイン即ビルド | 非適用 |
| チーム共有 | 物理受け渡しまたはリモートデスクトップ | 多アカウント / 多リージョン戦略で監査可能 | アカウント単位共有 |
| コンプライアンス立証 | 自社制度に依存 | テナント境界、SSH、リージョン主経路を文書化しやすい | ベンダー DPA に依存 |
「ローカル級のプライバシー」と「最上位 Mac を一度に買いたくない」の両方が必要なとき、クラウド高メモリ Mac は中間の最適解になりやすいです。ds4 + Metal を回しつつ、既存の コンソール プロビジョニング体験を維持できます。
05よくある質問
ds4-server に繋げば、loopback に近い体感です。ボトルネックは多くの場合 ネットワーク RTT と帯域 です。推論ノードと開発者を同一リージョンに置き、公網露出を避けてください。