DeepSeek V4 lokal 2026? antirez' ds4-Open-Source und Runbook für High-Memory-Mac-Cloud-Miete

Der Redis-Autor antirez liefert mit ds4 (DwarfStar 4) in reinem C die erste ernsthafte Metal-Inferenz für DeepSeek V4 Flash auf Apple Silicon – doch 96 GB Unified Memory als Einstieg schließen die meisten Teams aus. High-Memory-Mac-Cloud-Miete bei NUKCLOUD ist der praktikable Weg über die Anschaffungsmauer.

Im Mai 2026 veröffentlichte antirez ds4 (DwarfStar 4) – eine lokale Inferenz-Engine, die ausschließlich DeepSeek V4 Flash bedient und innerhalb weniger Tage fünfstellige GitHub-Stars erreichte. Metal treibt Prefill in Richtung Hunderter Token pro Sekunde; Millionen-Token-Kontexte und disk-basierte KV-Caches sind vorgesehen; OpenAI- und Anthropic-kompatible APIs binden Cursor, OpenCode und andere Coding-Agenten. Was die meisten Entwicklerinnen und Entwickler stoppt, ist nicht make, sondern 96 GB bis 512 GB Unified Memory und fünfstellige Hardware-Investitionen. Dieser Beitrag richtet sich an Teams, die private Inferenz wollen, ohne Prompts und Quellcode durch fremde APIs zu leiten. Er ordnet die technischen Grenzen von ds4 ein, liefert eine Hardware-Matrix und ein sechsstufiges Runbook – abgestimmt auf dedizierte NUKCLOUD-Apple-Silicon-Knoten.

00Was ds4 ist: ein Modell, keine weitere GGUF-Schleuse

Lokale LLM-Landschaft ist voll: llama.cpp, Ollama, vLLM und Dutzende Forks konkurrieren um den Titel „universeller Loader“. ds4 geht bewusst in die entgegengesetzte Richtung – eine einzige Modellfamilie, ein optimierter Stack. In reinem C entstehen ein eigener Graph-Executor, spezialisiertes Gewichteladen, Prompt-Rendering, Tool Calling, RAM- und Disk-KV-Zustand sowie ds4-server als API-Schicht. Zielbild: auf einer gut ausgestatteten Workstation oder einem Mac Studio eine lokale Erfahrung, die ernsthafte Coding-Sessions mit Cloud-Modellen wie Claude oder GPT vergleichbar macht – ohne dass der Traffic das Haus verlässt.

Das README im offiziellen Repository ist unmissverständlich: ds4 ist kein generischer GGUF-Runner und kein Wrapper um fremde Frameworks. Auf macOS ist Metal der produktive Pfad; CUDA bedient Linux und DGX Spark; die CPU-Graph-Route dient der Korrektheitsdiagnose. Auf aktuellen macOS-Versionen kann CPU-Inferenz Kernel-Probleme im virtuellen Speicher auslösen – Produktion gehört auf Metal oder CUDA, nicht auf den CPU-Fallback.

Für Engineering-Leads ändert das die Anschaffungsfrage. Nicht „lädt unser GGUF?“, sondern „haben wir genug Unified Memory auf einem Mac und akzeptieren wir, dass Gewichte, KV und Tool-Calling-Semantik an ds4 und die offiziellen DeepSeek-V4-Flash-Vektoren gebunden bleiben?“ Wer ja sagt, bekommt eine end-to-end auditierbare private Inferenzebene. Wer nein sagt, bleibt bei generischen Loadern – schneller zum Experiment, schwächer bei MoE-Spezifika.

SCHMERZHardwareschwelle: Software ist da, das Budget hinkt nach

Community-Benchmarks und Dokumentation stimmen überein: der Engpass ist Speicher, nicht fehlende Engine. Die folgende Matrix fasst offizielle Hinweise, Mac-Messungen und gängige Quantisierungsstufen zusammen – Details hängen vom gewählten GGUF- bzw. imatrix-Paket ab:

ZielQuantisierungUnified Memory (Min.)Typische HardwareAnschaffung (Orientierung)
DeepSeek V4 Flashq2 / Routing-Experten 2-bit96 GBMacBook Pro M3/M4/M5 Maxab ca. 4.000 EUR
DeepSeek V4 Flashq4 und höhere Präzision256 GBMac Studio Ultraab ca. 8.000 EUR
DeepSeek V4 PROq2512 GBMac Studio M3 Ultra (Top)ab ca. 15.000 EUR
  • CapEx in einem Schlag: Einzelpersonen und Teams unter zehn Köpfen rechtfertigen selten einen 96-GB-Laptop allein für „lokales MoE ausprobieren“.
  • Fehlkauf-Risiko: 64 GB wirken groß, reichen für Flash q2 aber nicht; 96 GB reichen für q4 oder PRO oft nicht – ein Gerätetausch folgt.
  • Setup-Zeit: Selbst mit passender Hardware bleiben Kompilieren, Hunderte Gigabyte Gewichte, KV-Verzeichnisse und API-Ports – für Cursor-Nutzerinnen oft mehrere Tage bis zum ersten stabilen Loopback.
  • Lastprofil: Inferenz clustert abends und in Release-Fenstern; tagsüber steht Hardware leer. Selbst gekaufte Macs schlagen sich bei Auslastung schwer gegen stundenweise Miete.

Die eigentliche Frage 2026 lautet deshalb: wie bekomme ich unter kontrollierten Kosten eine produktionsfähige Metal- plus Großspeicher-Umgebung – nicht, ob ds4 „cooler“ ist als llama.cpp.

01Technische Stärken: Metal, langer Kontext, Coding-Agenten

Aus dem offiziellen Repository und frühen Mac- sowie CUDA-Messungen ergeben sich die Gründe für die Aufmerksamkeit:

  • Metal zuerst: Tiefe Anpassung an Apple-GPU; Community meldet auf M5 Max Prefill um 463 t/s und Generierung um 34 t/s (quantisiert, kontextabhängig).
  • Millionen-Token-Kontext: Fenster im Bereich einer Million Token; zusammen mit DeepSeek-V4-KV-Kompression werden große Repos und Langdokumente praktikabel.
  • Disk-KV: KV-State kann auf NVMe persistieren und Sessions überdauern – weniger wiederholtes Prefill bei langen Coding-Sitzungen.
  • 2-bit-Routing-Experten: MoE-Router aggressiv quantisiert, übrige Schichten schärfer – Flash wird auf 128-GB-Klasse erträglicher.
  • Agent-API: Tool Calling, OpenAI-/Anthropic-Kompatibilität, ds4-server als privater Endpunkt für Cursor und OpenCode.
Hinweis: Auf RTX PRO 6000 mit 96 GB VRAM melden Dritte für Flash Q2-imatrix kurze Generierung um 43 tok/s und bei 50K Kontext noch etwa 31 tok/s. ds4 zielt auf sehr große MoE auf einer Karte mit massivem Speicher – nicht auf 24-GB-Consumer-GPUs.

02Warum Mac im Consumer-Segment führt: Unified Memory plus SSD

Metal als Primärziel ist keine Marketingfloskel, sondern Architektur-Fit:

  • Unified Memory: CPU und GPU teilen physischen RAM; 80-GB-Gewichte ohne PCIe-Kopierstaus – ein Muster, das x86 plus diskrete GPU selten repliziert.
  • Speicherbandbreite: M-Serie in High-Bandwidth-SKU liefert im Consumer-Segment starke Inferenz-Durchsatzwerte für Prefill und lange Kontexte.
  • NVMe und Disk-KV: ds4 nutzt schnelle lokale SSD für session-persistente KV; macOS-Stack und integrierte Laufwerke passen dazu.

Kurz: großer Mac = derzeit die beste Consumer-Form für frontier Open-Source-MoE. Linux und CUDA funktionieren (DGX Spark etc.), aber iOS- und Full-Stack-Teams mit Xcode, Cursor und macOS-Toolchains profitieren oft mehr von einem High-Memory-Mac in der Cloud oder am Schreibtisch als von einem zweiten Linux-Inferenz-Host.

DATENGrößenordnungen für Reviews (mit eigenen Messungen kalibrieren)

  • Modell: DeepSeek V4 Flash etwa 284B MoE / 13B aktiv (öffentliche Angaben); ds4 fokussiert Flash, PRO braucht höhere Speicherstufen.
  • GitHub: ds4 überschritt kurz nach Release 10.000+ Stars – prüfen Sie die Live-Zahl im Repo.
  • Bandbreite: Mac Studio Ultra-Klasse erreicht Unified-Memory-Bandbreiten im Hunderter-GB/s-Bereich – direkt relevant für „alles in UMA“.
  • Miete vs. Kauf: 96-GB-Max-Laptop einmalig vierstellig; bei 40–80 Stunden konzentrierter Nutzung pro Monat schlägt stundenweise 128-GB-Cloud-Mac im Cashflow oft um eine Größenordnung günstiger zu Buche – siehe Preisseite.
  • Datenschutz: Lokale oder dedizierte Inferenz hält Prompts und Code aus Dritt-APIs; für Finanz, Gesundheit und Behördennetze ist das der strukturelle Unterschied zu „nur Cloud-API“.

03Sechs Schritte: von der Speicherwahl bis Cursor

Das Runbook setzt einen NUKCLOUD-High-Memory-Mac mit 96 GB+ voraus – Mandantengrenzen und SSH-Baseline lassen sich mit dem GitHub-Agent-Runbook teilen:

  1. 01
    Speicher nach Modell wählen: Flash q2 mindestens 96 GB; höhere Präzision oder PRO → 256 GB / 512 GB planen. Auf der Bestellseite die passende SKU wählen – „SSH ja, Gewichte nein“ vermeiden.
  2. 02
    Baseline einfrieren: macOS-Minor, Xcode Command Line Tools, Metal-Treiberstand dokumentieren; Disk-Quota für Gewichte plus KV (häufig Hunderte GB frei) festlegen.
  3. 03
    ds4 bauen: github.com/antirez/ds4 klonen, make für ./ds4 und ./ds4-server; Produktion nur Metal, kein CPU-Graph für Dauerlast auf macOS.
  4. 04
    Gewichte und KV: README-konforme Flash-Pakete laden; Beispielstart: ./ds4-server --ctx 100000 --kv-disk-dir /var/ds4-kv --kv-disk-space-mb 8192 (Pfade an Instanz anpassen).
  5. 05
    Coding-Tools anbinden: Cursor/OpenCode Base-URL auf Instanz-Loopback oder SSH-Tunnel (z. B. http://127.0.0.1:8000); sensible Repos nur über VPN/Private Link, kein öffentlicher Inferenz-Port.
  6. 06
    Kosten und Compliance: CapEx/OpEx „Mac Studio vor Ort“ vs. stundenweise Cloud-Mac; gemeinsame Nutzung mit Swift-6-CI-Knoten prüfen.
ds4-server Startbeispiel (Metal-Produktion)
git clone https://github.com/antirez/ds4.git
cd ds4 && make
./ds4-server --ctx 100000 \
  --kv-disk-dir /var/ds4-kv \
  --kv-disk-space-mb 8192

04Vergleich: eigener Mac, Cloud-Mac, reine Cloud-API

DimensionEigener 96-GB+-MacNUKCLOUD High-Memory-Cloud-MacClaude / GPT API
Vorlaufkostenhohe CapExniedriger Einstieg, stundenweise / monatlichpro Token
Datenpfadlokal / LANdedizierte Instanz, kein Drittmodell-APICode und Prompt in der Cloud
Speicher flexibelGerätetausch teuer96 → 128 → 512 GB per Instanzwechselkein Hardwarekonzept
ds4 / Metalvolle KontrolleBaseline-Skripte, Login → Buildnicht anwendbar
Team-Sharingphysisch oder RDPMehrkonto, Regionen auditierbarKontofreigabe
Compliance-Nachweiseigene PoliciesMandant, SSH, Region dokumentierbarAnbieter-DPA

Wer lokale Privatsphäre will, aber keinen Sechsteller-Mac vorfinanzieren möchte, landet oft bei Cloud-Macs mit viel RAM: ds4 plus Metal, Provisionierung wie aus der Konsole gewohnt.

05Häufige Fragen

Reicht ein 64-GB-Mac für ds4?
Für DeepSeek V4 Flash q2 gilt in Dokumentation und Community mindestens 96 GB Unified Memory. 64 GB führen bei wachsendem KV oder langem Kontext schnell zu OOM – kein Produktionsziel.
CPU-Inferenz auf macOS im Alltag?
Nein. CPU dient der Korrektheitsprüfung; auf einigen macOS-Versionen gibt es VM-Probleme. Produktion: Metal (macOS) oder CUDA (Linux).
Cursor über Cloud-Mac – spürbar schlechter?
Mit SSH-Tunnel oder niedriger RTT in derselben Region fühlt sich ds4-server oft wie Loopback an. Engpass sind Netzwerk-RTT und Bandbreite, nicht ds4 selbst.
ds4 vs. Ollama / llama.cpp?
Beliebige GGUFs: generische Loader. Maximale Geschwindigkeit, Kontext und Tool Calling für DeepSeek V4 Flash mit offizieller Semantik: ds4. Beides kann parallel existieren.
Wann NUKCLOUD statt Mac kaufen?
Wenn mindestens zwei zutreffen: Beschaffung dauert über vier Wochen, ein bis drei Monate Validierung, mehrere Personen teilen eine Inferenz-Maschine. Minutenpool-VPS bringt Oversubscription und abgebrochene Prefill-Sessions. Für auditierbare Multi-Region-Planes mit CI plus Inferenz eignen sich NUKCLOUD Bare-Metal- und Cloud-Mac-Knoten – Start über Preisseite, Bestellung, Details im Hilfe-Center.