DeepSeek V4 lokal 2026? antirez' ds4-Open-Source und Runbook für High-Memory-Mac-Cloud-Miete

Im Mai 2026 veröffentlichte antirez ds4 (DwarfStar 4) – eine lokale Inferenz-Engine, die ausschließlich DeepSeek V4 Flash bedient und innerhalb weniger Tage fünfstellige GitHub-Stars erreichte. Metal treibt Prefill in Richtung Hunderter Token pro Sekunde; Millionen-Token-Kontexte und disk-basierte KV-Caches sind vorgesehen; OpenAI- und Anthropic-kompatible APIs binden Cursor, OpenCode und andere Coding-Agenten. Was die meisten Entwicklerinnen und Entwickler stoppt, ist nicht make, sondern 96 GB bis 512 GB Unified Memory und fünfstellige Hardware-Investitionen. Dieser Beitrag richtet sich an Teams, die private Inferenz wollen, ohne Prompts und Quellcode durch fremde APIs zu leiten. Er ordnet die technischen Grenzen von ds4 ein, liefert eine Hardware-Matrix und ein sechsstufiges Runbook – abgestimmt auf dedizierte NUKCLOUD-Apple-Silicon-Knoten.

00Was ds4 ist: ein Modell, keine weitere GGUF-Schleuse

Lokale LLM-Landschaft ist voll: llama.cpp, Ollama, vLLM und Dutzende Forks konkurrieren um den Titel „universeller Loader“. ds4 geht bewusst in die entgegengesetzte Richtung – eine einzige Modellfamilie, ein optimierter Stack. In reinem C entstehen ein eigener Graph-Executor, spezialisiertes Gewichteladen, Prompt-Rendering, Tool Calling, RAM- und Disk-KV-Zustand sowie ds4-server als API-Schicht. Zielbild: auf einer gut ausgestatteten Workstation oder einem Mac Studio eine lokale Erfahrung, die ernsthafte Coding-Sessions mit Cloud-Modellen wie Claude oder GPT vergleichbar macht – ohne dass der Traffic das Haus verlässt.

Das README im offiziellen Repository ist unmissverständlich: ds4 ist kein generischer GGUF-Runner und kein Wrapper um fremde Frameworks. Auf macOS ist Metal der produktive Pfad; CUDA bedient Linux und DGX Spark; die CPU-Graph-Route dient der Korrektheitsdiagnose. Auf aktuellen macOS-Versionen kann CPU-Inferenz Kernel-Probleme im virtuellen Speicher auslösen – Produktion gehört auf Metal oder CUDA, nicht auf den CPU-Fallback.

Für Engineering-Leads ändert das die Anschaffungsfrage. Nicht „lädt unser GGUF?“, sondern „haben wir genug Unified Memory auf einem Mac und akzeptieren wir, dass Gewichte, KV und Tool-Calling-Semantik an ds4 und die offiziellen DeepSeek-V4-Flash-Vektoren gebunden bleiben?“ Wer ja sagt, bekommt eine end-to-end auditierbare private Inferenzebene. Wer nein sagt, bleibt bei generischen Loadern – schneller zum Experiment, schwächer bei MoE-Spezifika.

SCHMERZHardwareschwelle: Software ist da, das Budget hinkt nach

Community-Benchmarks und Dokumentation stimmen überein: der Engpass ist Speicher, nicht fehlende Engine. Die folgende Matrix fasst offizielle Hinweise, Mac-Messungen und gängige Quantisierungsstufen zusammen – Details hängen vom gewählten GGUF- bzw. imatrix-Paket ab:

Ziel	Quantisierung	Unified Memory (Min.)	Typische Hardware	Anschaffung (Orientierung)
DeepSeek V4 Flash	q2 / Routing-Experten 2-bit	96 GB	MacBook Pro M3/M4/M5 Max	ab ca. 4.000 EUR
DeepSeek V4 Flash	q4 und höhere Präzision	256 GB	Mac Studio Ultra	ab ca. 8.000 EUR
DeepSeek V4 PRO	q2	512 GB	Mac Studio M3 Ultra (Top)	ab ca. 15.000 EUR

CapEx in einem Schlag: Einzelpersonen und Teams unter zehn Köpfen rechtfertigen selten einen 96-GB-Laptop allein für „lokales MoE ausprobieren“.
Fehlkauf-Risiko: 64 GB wirken groß, reichen für Flash q2 aber nicht; 96 GB reichen für q4 oder PRO oft nicht – ein Gerätetausch folgt.
Setup-Zeit: Selbst mit passender Hardware bleiben Kompilieren, Hunderte Gigabyte Gewichte, KV-Verzeichnisse und API-Ports – für Cursor-Nutzerinnen oft mehrere Tage bis zum ersten stabilen Loopback.
Lastprofil: Inferenz clustert abends und in Release-Fenstern; tagsüber steht Hardware leer. Selbst gekaufte Macs schlagen sich bei Auslastung schwer gegen stundenweise Miete.

Die eigentliche Frage 2026 lautet deshalb: wie bekomme ich unter kontrollierten Kosten eine produktionsfähige Metal- plus Großspeicher-Umgebung – nicht, ob ds4 „cooler“ ist als llama.cpp.

01Technische Stärken: Metal, langer Kontext, Coding-Agenten

Aus dem offiziellen Repository und frühen Mac- sowie CUDA-Messungen ergeben sich die Gründe für die Aufmerksamkeit:

Metal zuerst: Tiefe Anpassung an Apple-GPU; Community meldet auf M5 Max Prefill um 463 t/s und Generierung um 34 t/s (quantisiert, kontextabhängig).
Millionen-Token-Kontext: Fenster im Bereich einer Million Token; zusammen mit DeepSeek-V4-KV-Kompression werden große Repos und Langdokumente praktikabel.
Disk-KV: KV-State kann auf NVMe persistieren und Sessions überdauern – weniger wiederholtes Prefill bei langen Coding-Sitzungen.
2-bit-Routing-Experten: MoE-Router aggressiv quantisiert, übrige Schichten schärfer – Flash wird auf 128-GB-Klasse erträglicher.
Agent-API: Tool Calling, OpenAI-/Anthropic-Kompatibilität, ds4-server als privater Endpunkt für Cursor und OpenCode.

Hinweis: Auf RTX PRO 6000 mit 96 GB VRAM melden Dritte für Flash Q2-imatrix kurze Generierung um 43 tok/s und bei 50K Kontext noch etwa 31 tok/s. ds4 zielt auf sehr große MoE auf einer Karte mit massivem Speicher – nicht auf 24-GB-Consumer-GPUs.

02Warum Mac im Consumer-Segment führt: Unified Memory plus SSD

Metal als Primärziel ist keine Marketingfloskel, sondern Architektur-Fit:

Unified Memory: CPU und GPU teilen physischen RAM; 80-GB-Gewichte ohne PCIe-Kopierstaus – ein Muster, das x86 plus diskrete GPU selten repliziert.
Speicherbandbreite: M-Serie in High-Bandwidth-SKU liefert im Consumer-Segment starke Inferenz-Durchsatzwerte für Prefill und lange Kontexte.
NVMe und Disk-KV: ds4 nutzt schnelle lokale SSD für session-persistente KV; macOS-Stack und integrierte Laufwerke passen dazu.

Kurz: großer Mac = derzeit die beste Consumer-Form für frontier Open-Source-MoE. Linux und CUDA funktionieren (DGX Spark etc.), aber iOS- und Full-Stack-Teams mit Xcode, Cursor und macOS-Toolchains profitieren oft mehr von einem High-Memory-Mac in der Cloud oder am Schreibtisch als von einem zweiten Linux-Inferenz-Host.

DATENGrößenordnungen für Reviews (mit eigenen Messungen kalibrieren)

Modell: DeepSeek V4 Flash etwa 284B MoE / 13B aktiv (öffentliche Angaben); ds4 fokussiert Flash, PRO braucht höhere Speicherstufen.
GitHub: ds4 überschritt kurz nach Release 10.000+ Stars – prüfen Sie die Live-Zahl im Repo.
Bandbreite: Mac Studio Ultra-Klasse erreicht Unified-Memory-Bandbreiten im Hunderter-GB/s-Bereich – direkt relevant für „alles in UMA“.
Miete vs. Kauf: 96-GB-Max-Laptop einmalig vierstellig; bei 40–80 Stunden konzentrierter Nutzung pro Monat schlägt stundenweise 128-GB-Cloud-Mac im Cashflow oft um eine Größenordnung günstiger zu Buche – siehe Preisseite.
Datenschutz: Lokale oder dedizierte Inferenz hält Prompts und Code aus Dritt-APIs; für Finanz, Gesundheit und Behördennetze ist das der strukturelle Unterschied zu „nur Cloud-API“.

03Sechs Schritte: von der Speicherwahl bis Cursor

Das Runbook setzt einen NUKCLOUD-High-Memory-Mac mit 96 GB+ voraus – Mandantengrenzen und SSH-Baseline lassen sich mit dem GitHub-Agent-Runbook teilen:

01
Speicher nach Modell wählen: Flash q2 mindestens 96 GB; höhere Präzision oder PRO → 256 GB / 512 GB planen. Auf der Bestellseite die passende SKU wählen – „SSH ja, Gewichte nein“ vermeiden.
02
Baseline einfrieren: macOS-Minor, Xcode Command Line Tools, Metal-Treiberstand dokumentieren; Disk-Quota für Gewichte plus KV (häufig Hunderte GB frei) festlegen.
03
ds4 bauen: github.com/antirez/ds4 klonen, make für ./ds4 und ./ds4-server; Produktion nur Metal, kein CPU-Graph für Dauerlast auf macOS.
04
Gewichte und KV: README-konforme Flash-Pakete laden; Beispielstart: ./ds4-server --ctx 100000 --kv-disk-dir /var/ds4-kv --kv-disk-space-mb 8192 (Pfade an Instanz anpassen).
05
Coding-Tools anbinden: Cursor/OpenCode Base-URL auf Instanz-Loopback oder SSH-Tunnel (z. B. http://127.0.0.1:8000); sensible Repos nur über VPN/Private Link, kein öffentlicher Inferenz-Port.
06
Kosten und Compliance: CapEx/OpEx „Mac Studio vor Ort“ vs. stundenweise Cloud-Mac; gemeinsame Nutzung mit Swift-6-CI-Knoten prüfen.

ds4-server Startbeispiel (Metal-Produktion)

git clone https://github.com/antirez/ds4.git
cd ds4 && make
./ds4-server --ctx 100000 \
  --kv-disk-dir /var/ds4-kv \
  --kv-disk-space-mb 8192

04Vergleich: eigener Mac, Cloud-Mac, reine Cloud-API

Dimension	Eigener 96-GB+-Mac	NUKCLOUD High-Memory-Cloud-Mac	Claude / GPT API
Vorlaufkosten	hohe CapEx	niedriger Einstieg, stundenweise / monatlich	pro Token
Datenpfad	lokal / LAN	dedizierte Instanz, kein Drittmodell-API	Code und Prompt in der Cloud
Speicher flexibel	Gerätetausch teuer	96 → 128 → 512 GB per Instanzwechsel	kein Hardwarekonzept
ds4 / Metal	volle Kontrolle	Baseline-Skripte, Login → Build	nicht anwendbar
Team-Sharing	physisch oder RDP	Mehrkonto, Regionen auditierbar	Kontofreigabe
Compliance-Nachweis	eigene Policies	Mandant, SSH, Region dokumentierbar	Anbieter-DPA

Wer lokale Privatsphäre will, aber keinen Sechsteller-Mac vorfinanzieren möchte, landet oft bei Cloud-Macs mit viel RAM: ds4 plus Metal, Provisionierung wie aus der Konsole gewohnt.

05Häufige Fragen

Reicht ein 64-GB-Mac für ds4?

Für DeepSeek V4 Flash q2 gilt in Dokumentation und Community mindestens 96 GB Unified Memory. 64 GB führen bei wachsendem KV oder langem Kontext schnell zu OOM – kein Produktionsziel.

CPU-Inferenz auf macOS im Alltag?

Nein. CPU dient der Korrektheitsprüfung; auf einigen macOS-Versionen gibt es VM-Probleme. Produktion: Metal (macOS) oder CUDA (Linux).

Cursor über Cloud-Mac – spürbar schlechter?

Mit SSH-Tunnel oder niedriger RTT in derselben Region fühlt sich ds4-server oft wie Loopback an. Engpass sind Netzwerk-RTT und Bandbreite, nicht ds4 selbst.

ds4 vs. Ollama / llama.cpp?

Beliebige GGUFs: generische Loader. Maximale Geschwindigkeit, Kontext und Tool Calling für DeepSeek V4 Flash mit offizieller Semantik: ds4. Beides kann parallel existieren.

Wann NUKCLOUD statt Mac kaufen?

Wenn mindestens zwei zutreffen: Beschaffung dauert über vier Wochen, ein bis drei Monate Validierung, mehrere Personen teilen eine Inferenz-Maschine. Minutenpool-VPS bringt Oversubscription und abgebrochene Prefill-Sessions. Für auditierbare Multi-Region-Planes mit CI plus Inferenz eignen sich NUKCLOUD Bare-Metal- und Cloud-Mac-Knoten – Start über Preisseite, Bestellung, Details im Hilfe-Center.