2026 antirez ds4 bringt DeepSeek V4 auf den Mac: 96/128/512GB Speicherschwellen, Metal-Benchmarks und Kaufen-vs-Mac-VPS-Entscheidungsmatrix

Im Mai 2026 hat Redis-Schoepfer antirez ds4 (DwarfStar 4) als Open Source veroeffentlicht und damit DeepSeek V4 Flash zum ersten Mal in brauchbarer Geschwindigkeit auf einem Mac zum Laufen gebracht; binnen weniger Tage stiegen die GitHub-Stars auf ueber 11K. Doch die Speichertreppe aus 96GB-Einstieg, 128GB-Komfort und 512GB fuer V4-Pro uebersetzt sich in Preise von 4 000 bis 14 000 Euro, die jedem Solo-Entwickler im Weg stehen. Dieser Leitfaden richtet sich an Entwicklerinnen und kleine Teams, die ds4 spannend finden, aber weder Code noch sensible Daten an Drittanbieter-APIs schicken wollen: acht Abschnitte mit Hardwareschwellen, Metal-Benchmarks, einer dreigleisigen Entscheidungstabelle, einem reproduzierbaren Runbook und einer FAQ. Am Ende steht eine elastische Kombination aus Mac VPS, DeepSeek V4 und ds4.

Illustration der ds4-Inferenzengine, die DeepSeek V4 Flash auf einem Apple-Silicon-Mac und einem Mac VPS ausfuehrt, mit Unified-Memory-Architektur und mietbaren Mac-Cloud-Knoten

Inhaltsverzeichnis

1. Was ist ds4 und warum jetzt?

Im Mai 2026 veroeffentlicht Redis-Schoepfer antirez ds4 (DwarfStar 4), eine in reinem C geschriebene Inferenzengine, die ausschliesslich auf DeepSeek V4 Flash zielt und im Hauptzweig nur Metal und CUDA bedient. In sieben Tagen mit jeweils vierzehn Stunden Arbeit fuegt der Autor V4-Prompt-Rendering, KV-State, OpenAI-kompatibles Tool Calling und einen integrierten Coding-Agent zu einem einzigen Binary zusammen. Binnen Tagen sammelt das Projekt mehr als 11K Sterne auf GitHub. Die bewusste Design-Entscheidung lautet: ein Modell, eine Wette. Auf einem Mac fuehrt im Mai 2026 kaum ein anderer Weg an ds4 vorbei, weil weder llama.cpp noch LM Studio die V4-Architektur unterstuetzen.

2. DeepSeek V4 Flash und V4-Pro auf einen Blick

DeepSeek liefert beide V4-Varianten am 24. April 2026 unter MIT-Lizenz mit einem 1-Millionen-Token-Kontextfenster aus:

SpezifikationV4 FlashV4-Pro
Parameter gesamt284B (MoE)1,6T (MoE)
Aktiv pro Token13B49B
Kontextfenster1 000 000 Tokens1 000 000 Tokens
Maximalausgabe384 000 Tokens384 000 Tokens
Gewichtsgroesseca. 160 GB (FP4+FP8 gemischt)ca. 865 GB (FP4+FP8 gemischt)
LizenzMITMIT
Lokal lauffaehigHigh-End-Consumer-MacNur 512GB Mac Studio oder Multi-GPU-Server

Anders als V3, wo Denk- und Nicht-Denk-Modelle als zwei IDs gefuehrt waren, ist Reasoning Effort in V4 ein Request-Parameter (non-thinking, thinking, max-thinking). Fuer eine Inferenzengine bedeutet das: einmal Gewichte laden, KV-Cache modusuebergreifend wiederverwenden. Die 13B aktiven Parameter von Flash sind der Grund, warum das Modell auf einem Mac ueberhaupt laeuft, weil der Rechenaufwand pro Token nach MoE-Routing einem dichten 13B-Modell entspricht und damit deutlich unter dichten 30B-Architekturen bleibt.

3. Hardware-Realitaet: 96/128/256/512GB im Vergleich

Viele Beitraege schreiben pauschal "ds4 braucht 96GB" und unterschlagen, dass KV-Cache und Kontext ebenfalls Speicher belegen. Das tatsaechliche Bild aus ds4-README und Community-Messungen:

SpeicherklasseModellQuantKontextgrenzeTypische HardwareReferenzpreis
96 GBV4 Flashq2~100k TokensMacBook Pro M3/M4 Maxab 4 000 Euro
128 GBV4 Flashq2 empfohlen~250–300k TokensMacBook Pro / Mac Studio Maxab 5 000 Euro
256 GBV4 Flashq4 hohe Qualitaet500k+ TokensMac Studio M3/M4 Ultraab 8 000 Euro
512 GBV4 Flash + V4-Pro q2q4 / q2-Pronahezu 1M TokensMac Studio M3 Ultra Topab 14 000 Euro

Die q2-Gewichte allein belegen 81GB; nach Betriebssystem und Metal-Puffern bleiben auf einer 96GB-Maschine weniger als 15GB fuer den KV-Cache. Ein voller 1M-Token-KV braucht etwa 26GB, weshalb das praktische Kontextlimit dort bei rund 100k Tokens liegt und laengere Sitzungen Paging oder OOM ausloesen. 128GB ist die schmerzfreie Untergrenze, 512GB die einzige Konfiguration, in der V4 zu einer ernsthaften Produktions-Inferenz-Infrastruktur wird.

4. Metal-Benchmark-Matrix

Offizielle Zahlen aus dem ds4-Repository, sowohl Short-Prompt als auch ein 11K- bis 12K-Token-Long-Prompt:

MaschineQuantPrompt-LaengePrefillGeneration
MacBook Pro M3 Max, 128GBq2kurz58,52 t/s26,68 t/s
MacBook Pro M3 Max, 128GBq211 709 Tokens250,11 t/s21,47 t/s
Mac Studio M3 Ultra, 512GBq2kurz84,43 t/s36,86 t/s
Mac Studio M3 Ultra, 512GBq211 709 Tokens468,03 t/s27,39 t/s
Mac Studio M3 Ultra, 512GBq4kurz78,95 t/s35,50 t/s
Mac Studio M3 Ultra, 512GBq412 018 Tokens448,82 t/s26,62 t/s
NVIDIA DGX Spark GB10, 128GBq27 047 Tokens343,81 t/s13,75 t/s

Drei Schlussfolgerungen: das Long-Prompt-Prefill des Mac Studio M3 Ultra liegt fast doppelt so hoch wie beim MBP M3 Max, was zur UMA-Bandbreite passt. Auf dem Ultra liegen q2 und q4 in der Generation nahezu gleichauf (36,86 vs 35,50 t/s), bei ausreichender Speicherausstattung kostet q4 also kaum Geschwindigkeit. Der DGX Spark liefert ein starkes Prefill, aber nur 13,75 t/s Generation und damit die Haelfte des Ultras – der CUDA-Pfad ist offensichtlich noch in Reifung, und Apple Silicon belegt im ersten Halbjahr 2026 ueberraschend den Sweetspot fuer V4 auf Consumer-Hardware.

5. Entscheidungsmatrix: Top-Mac kaufen, Mac VPS oder GPU-Cloud mieten

Die eine Tabelle, die die Wahl entscheidet:

DimensionTop-Mac kaufenMac VPS mietenLinux-GPU-Cloud (H100/H200)
Erstinvest4 000–14 000 Euro0 Euro, monatlich0 Euro, stuendlich
Monatskosten (128GB)~200–350 Euro Abschreibung200–550 Euro je Tier2 000–4 000 Euro pro H100
V4 Flash q2Native MetalNative MetalCUDA-Branch noetig
V4-ProNur 14 000 Euro 512GBAuf 512GB-Instanz wechselnMulti-GPU H200 / B200
DatenschutzMaximal, on-deviceStark, dedizierte InstanzSchwach, geteiltes Blech
ElastizitaetKeine, Hardware fixiertOn demandSekundengenau
iOS- / macOS-ToolchainNativNativNicht unterstuetzt
Wertverlust50%+ in zwei JahrenKeinerKeiner

Lesart: Wer Inferenz nur ein bis zwei Stunden taeglich faehrt, ist mit einer Mac-VPS-Miete guenstiger als mit dem Kaufmodell. Wer dazu trainieren oder lange Finetunings braucht, behaelt den Mac VPS als Control-Plane und schiebt Trainingslasten in eine GPU-Cloud. Die teuerste Falle ist die Mittelklasse: 8 000 Euro fuer einen 256GB Mac Studio, und ein Jahr spaeter macht DeepSeek V5 mit anderen Quant-Standards die Hardware vor Ablauf der Abschreibungsfrist veraltet.

6. Warum gerade Mac: UMA, Metal und KV auf SSD

Drei Gruende. Erstens adressiert die Unified Memory Architecture (UMA) von Apple Silicon den vollstaendigen 512GB-Pool direkt vom GPU aus, ohne PCIe-Umwege; eine RTX 5090 mit 32GB VRAM kann nicht einmal die 160GB von V4 Flash halten, vier Karten reichen fuer V4-Pro q4 nicht, ein Mac Studio M3 Ultra laedt V4-Pro Q4 bei 160 bis 180 Watt TDP. Zweitens persistiert die On-Disk-KV-Cache auf der schnellen NVMe-SSD ganze Sitzungs-Kontexte; nach einem Neustart entfaellt der mehrminuetige Re-Prefill, was in einer ephemeren GPU-Cloud-Container kaum nachzubilden ist. Drittens hat der CPU-Pfad unter aktuellen macOS-Versionen einen Kernel-Bug im Virtual-Memory, der das System bei ds4-CPU-Betrieb in Panic versetzt – nur Macs mit ausreichend RAM und funktionierendem Metal-Backend sind praktisch nutzbar.

7. Minimal reproduzierbares Runbook

Vom blanken Mac VPS bis zur Cursor-Anbindung auf einer 128GB-VPSMAC-Instanz:

Schritt 1: Code klonen und Metal-Binaries bauen. SSH auf den Mac VPS, Xcode Command Line Tools installieren und dann:

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # erzeugt ./ds4 und ./ds4-server

Schritt 2: V4-Flash-q2-GGUF laden. Community-Quants wie IQ2XXS-w2Q2K-AProjQ8 wiegen rund 81GB; aria2c -x 16 oder huggingface-cli download im Hintergrund halten die SSH-Sitzung frei. Schritt 3: ds4-server starten und KV-Disk pruefen:

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

Schritt 4: Cursor, opencode oder eigene Agents anbinden. ds4-server stellt einen OpenAI-kompatiblen Endpoint /v1/chat/completions samt Tool Calling bereit; in Cursor die OpenAI-Base auf http://your-mac-vps:8080/v1 setzen und per ssh -L 8080:127.0.0.1:8080 auf Loopback halten, statt den Port ins Netz zu legen. Schritt 5: launchd-Dauerbetrieb plus Monitoring. launchd-plist in ~/Library/LaunchAgents/ ablegen, KeepAlive und Log-Pfade setzen, mit log stream Panics einfangen und die Signale in die bestehende OpenClaw-Alarmierung haengen.

8. Mac VPS plus ds4: die elastische Inferenz-Kombination

Linux-GPU-Cloud, Docker-Container oder Windows-AI-PCs als V4-Plattform haben jeweils harte Probleme: Linux-GPU-Clouds besitzen keine UMA, V4 Flash braucht H100- oder H200-Knoten, deren Monatskosten den vergleichbaren Mac Studio uebersteigen; Docker auf macOS fuegt Apple Virtualization und IO-Abstraktion hinzu und kostet Durchsatz; Windows mit 32GB RTX 5090 kann V4 Flash gar nicht laden; und der Kauf eines neuen Macs friert die Hardware ein und produziert zwei Jahre spaeter Wertverlust. Wer per einer SSH-Routine ds4-Inferenz, iOS-Toolchain, ein OpenClaw-Gateway, launchd-Daemons und Remote-GPU-Orchestrierung dirigieren will, ist mit der Miete eines Apple-Silicon-Mac-VPS bei VPSMAC meistens besser bedient: ds4 laeuft auf einer dedizierten 128/256/512GB-Instanz, Memory-Stufen wechselt man bei Bedarf, und wenn spaeter Training oder Multi-GPU-Inferenz noetig wird, wandern diese Lasten an CoreWeave, Lambda oder RunPod (siehe interne CoreWeave-Entscheidungsmatrix), waehrend der Mac VPS Control-Plane bleibt. Der Gesamt-TCO schlaegt eine Stack-it-all-on-GPU-Strategie deutlich.

9. FAQ

Kann ds4 mit OpenClaw koexistieren? Ja. ds4-server hoert standardmaessig auf 8080, das OpenClaw-Gateway auf 18789, kein Konflikt. Wer in OpenClaw den Provider auf den OpenAI-kompatiblen ds4-Endpoint zeigt, ruft V4 direkt lokal auf und spart Drittanbieter-Rechnungen. Siehe OpenClaw v2026.5.20 Upgrade-Runbook.

Sind ROCm- und CUDA-Branches alltagstauglich? Der CUDA-Hauptzweig unterstuetzt DGX Spark (GB10) und generische CUDA-GPUs ueber make cuda-spark oder make cuda-generic; ROCm wird community-seitig gepflegt, der Autor selbst hat keine AMD-Hardware, daher empfiehlt sich produktiv Metal oder CUDA. Wann unterstuetzen llama.cpp oder LM Studio V4? Bis Mai 2026 nicht; V4 nutzt eigene Ops und Reasoning-Scheduling, deren Portierung Monate dauert. Bis dahin ist ds4 die einzige V4-Engine auf dem Mac. Wie verhindert man, dass eine gemietete Instanz unbenutzt laeuft? launchd plus ein kurzes "Alert bei X Stunden Inaktivitaet"-Skript oder ein Idle-Timeout am ds4-server stoppen die Instanz in Kombination mit der stuendlichen Abrechnung in der VPSMAC-Konsole automatisch.

10. Fazit

Das ds4 von antirez macht aus dem Slogan "DeepSeek V4 lokal" ein konkretes Ingenieurprojekt; die Grenze des Projekts heisst Speicher: 96GB Eintritt, 128GB komfortabler Boden, 512GB die einzige Konfiguration ohne Kompromisse. Ein Top-Mac-Kauf bedeutet einen fuenfstelligen Scheck und zwei Jahre spaeter eine versteckte Wertverlustrechnung. Eine Mac-VPS-Miete glaettet diese Kurve, ermoeglicht 128, 256 oder 512GB on demand, hebt V4 Flash zu V4-Pro ohne Hardwarewechsel und ergaenzt sich natuerlich mit einer GPU-Cloud fuer Training. Damit ist sie 2026 der realistischste Weg, ds4, lokales V4 und die Apple-Toolchain gemeinsam einzusetzen.