2026 antirez ds4 bringt DeepSeek V4 auf den Mac: 96/128/512GB Speicherschwellen, Metal-Benchmarks und Kaufen-vs-Mac-VPS-Entscheidungsmatrix
Im Mai 2026 hat Redis-Schoepfer antirez ds4 (DwarfStar 4) als Open Source veroeffentlicht und damit DeepSeek V4 Flash zum ersten Mal in brauchbarer Geschwindigkeit auf einem Mac zum Laufen gebracht; binnen weniger Tage stiegen die GitHub-Stars auf ueber 11K. Doch die Speichertreppe aus 96GB-Einstieg, 128GB-Komfort und 512GB fuer V4-Pro uebersetzt sich in Preise von 4 000 bis 14 000 Euro, die jedem Solo-Entwickler im Weg stehen. Dieser Leitfaden richtet sich an Entwicklerinnen und kleine Teams, die ds4 spannend finden, aber weder Code noch sensible Daten an Drittanbieter-APIs schicken wollen: acht Abschnitte mit Hardwareschwellen, Metal-Benchmarks, einer dreigleisigen Entscheidungstabelle, einem reproduzierbaren Runbook und einer FAQ. Am Ende steht eine elastische Kombination aus Mac VPS, DeepSeek V4 und ds4.
Inhaltsverzeichnis
- 1. Was ist ds4 und warum jetzt?
- 2. DeepSeek V4 Flash und V4-Pro auf einen Blick
- 3. Hardware-Realitaet: 96/128/256/512GB im Vergleich
- 4. Metal-Benchmark-Matrix: MBP M3 Max, Mac Studio Ultra, DGX Spark
- 5. Entscheidungsmatrix: Top-Mac kaufen, Mac VPS oder GPU-Cloud mieten
- 6. Warum gerade Mac: UMA, Metal und KV auf SSD
- 7. Minimal reproduzierbares Runbook: ds4 in fuenf Schritten
- 8. Mac VPS plus ds4: die elastische Inferenz-Kombination
- 9. FAQ
- 10. Fazit
1. Was ist ds4 und warum jetzt?
Im Mai 2026 veroeffentlicht Redis-Schoepfer antirez ds4 (DwarfStar 4), eine in reinem C geschriebene Inferenzengine, die ausschliesslich auf DeepSeek V4 Flash zielt und im Hauptzweig nur Metal und CUDA bedient. In sieben Tagen mit jeweils vierzehn Stunden Arbeit fuegt der Autor V4-Prompt-Rendering, KV-State, OpenAI-kompatibles Tool Calling und einen integrierten Coding-Agent zu einem einzigen Binary zusammen. Binnen Tagen sammelt das Projekt mehr als 11K Sterne auf GitHub. Die bewusste Design-Entscheidung lautet: ein Modell, eine Wette. Auf einem Mac fuehrt im Mai 2026 kaum ein anderer Weg an ds4 vorbei, weil weder llama.cpp noch LM Studio die V4-Architektur unterstuetzen.
2. DeepSeek V4 Flash und V4-Pro auf einen Blick
DeepSeek liefert beide V4-Varianten am 24. April 2026 unter MIT-Lizenz mit einem 1-Millionen-Token-Kontextfenster aus:
| Spezifikation | V4 Flash | V4-Pro |
|---|---|---|
| Parameter gesamt | 284B (MoE) | 1,6T (MoE) |
| Aktiv pro Token | 13B | 49B |
| Kontextfenster | 1 000 000 Tokens | 1 000 000 Tokens |
| Maximalausgabe | 384 000 Tokens | 384 000 Tokens |
| Gewichtsgroesse | ca. 160 GB (FP4+FP8 gemischt) | ca. 865 GB (FP4+FP8 gemischt) |
| Lizenz | MIT | MIT |
| Lokal lauffaehig | High-End-Consumer-Mac | Nur 512GB Mac Studio oder Multi-GPU-Server |
Anders als V3, wo Denk- und Nicht-Denk-Modelle als zwei IDs gefuehrt waren, ist Reasoning Effort in V4 ein Request-Parameter (non-thinking, thinking, max-thinking). Fuer eine Inferenzengine bedeutet das: einmal Gewichte laden, KV-Cache modusuebergreifend wiederverwenden. Die 13B aktiven Parameter von Flash sind der Grund, warum das Modell auf einem Mac ueberhaupt laeuft, weil der Rechenaufwand pro Token nach MoE-Routing einem dichten 13B-Modell entspricht und damit deutlich unter dichten 30B-Architekturen bleibt.
3. Hardware-Realitaet: 96/128/256/512GB im Vergleich
Viele Beitraege schreiben pauschal "ds4 braucht 96GB" und unterschlagen, dass KV-Cache und Kontext ebenfalls Speicher belegen. Das tatsaechliche Bild aus ds4-README und Community-Messungen:
| Speicherklasse | Modell | Quant | Kontextgrenze | Typische Hardware | Referenzpreis |
|---|---|---|---|---|---|
| 96 GB | V4 Flash | q2 | ~100k Tokens | MacBook Pro M3/M4 Max | ab 4 000 Euro |
| 128 GB | V4 Flash | q2 empfohlen | ~250–300k Tokens | MacBook Pro / Mac Studio Max | ab 5 000 Euro |
| 256 GB | V4 Flash | q4 hohe Qualitaet | 500k+ Tokens | Mac Studio M3/M4 Ultra | ab 8 000 Euro |
| 512 GB | V4 Flash + V4-Pro q2 | q4 / q2-Pro | nahezu 1M Tokens | Mac Studio M3 Ultra Top | ab 14 000 Euro |
Die q2-Gewichte allein belegen 81GB; nach Betriebssystem und Metal-Puffern bleiben auf einer 96GB-Maschine weniger als 15GB fuer den KV-Cache. Ein voller 1M-Token-KV braucht etwa 26GB, weshalb das praktische Kontextlimit dort bei rund 100k Tokens liegt und laengere Sitzungen Paging oder OOM ausloesen. 128GB ist die schmerzfreie Untergrenze, 512GB die einzige Konfiguration, in der V4 zu einer ernsthaften Produktions-Inferenz-Infrastruktur wird.
4. Metal-Benchmark-Matrix
Offizielle Zahlen aus dem ds4-Repository, sowohl Short-Prompt als auch ein 11K- bis 12K-Token-Long-Prompt:
| Maschine | Quant | Prompt-Laenge | Prefill | Generation |
|---|---|---|---|---|
| MacBook Pro M3 Max, 128GB | q2 | kurz | 58,52 t/s | 26,68 t/s |
| MacBook Pro M3 Max, 128GB | q2 | 11 709 Tokens | 250,11 t/s | 21,47 t/s |
| Mac Studio M3 Ultra, 512GB | q2 | kurz | 84,43 t/s | 36,86 t/s |
| Mac Studio M3 Ultra, 512GB | q2 | 11 709 Tokens | 468,03 t/s | 27,39 t/s |
| Mac Studio M3 Ultra, 512GB | q4 | kurz | 78,95 t/s | 35,50 t/s |
| Mac Studio M3 Ultra, 512GB | q4 | 12 018 Tokens | 448,82 t/s | 26,62 t/s |
| NVIDIA DGX Spark GB10, 128GB | q2 | 7 047 Tokens | 343,81 t/s | 13,75 t/s |
Drei Schlussfolgerungen: das Long-Prompt-Prefill des Mac Studio M3 Ultra liegt fast doppelt so hoch wie beim MBP M3 Max, was zur UMA-Bandbreite passt. Auf dem Ultra liegen q2 und q4 in der Generation nahezu gleichauf (36,86 vs 35,50 t/s), bei ausreichender Speicherausstattung kostet q4 also kaum Geschwindigkeit. Der DGX Spark liefert ein starkes Prefill, aber nur 13,75 t/s Generation und damit die Haelfte des Ultras – der CUDA-Pfad ist offensichtlich noch in Reifung, und Apple Silicon belegt im ersten Halbjahr 2026 ueberraschend den Sweetspot fuer V4 auf Consumer-Hardware.
5. Entscheidungsmatrix: Top-Mac kaufen, Mac VPS oder GPU-Cloud mieten
Die eine Tabelle, die die Wahl entscheidet:
| Dimension | Top-Mac kaufen | Mac VPS mieten | Linux-GPU-Cloud (H100/H200) |
|---|---|---|---|
| Erstinvest | 4 000–14 000 Euro | 0 Euro, monatlich | 0 Euro, stuendlich |
| Monatskosten (128GB) | ~200–350 Euro Abschreibung | 200–550 Euro je Tier | 2 000–4 000 Euro pro H100 |
| V4 Flash q2 | Native Metal | Native Metal | CUDA-Branch noetig |
| V4-Pro | Nur 14 000 Euro 512GB | Auf 512GB-Instanz wechseln | Multi-GPU H200 / B200 |
| Datenschutz | Maximal, on-device | Stark, dedizierte Instanz | Schwach, geteiltes Blech |
| Elastizitaet | Keine, Hardware fixiert | On demand | Sekundengenau |
| iOS- / macOS-Toolchain | Nativ | Nativ | Nicht unterstuetzt |
| Wertverlust | 50%+ in zwei Jahren | Keiner | Keiner |
Lesart: Wer Inferenz nur ein bis zwei Stunden taeglich faehrt, ist mit einer Mac-VPS-Miete guenstiger als mit dem Kaufmodell. Wer dazu trainieren oder lange Finetunings braucht, behaelt den Mac VPS als Control-Plane und schiebt Trainingslasten in eine GPU-Cloud. Die teuerste Falle ist die Mittelklasse: 8 000 Euro fuer einen 256GB Mac Studio, und ein Jahr spaeter macht DeepSeek V5 mit anderen Quant-Standards die Hardware vor Ablauf der Abschreibungsfrist veraltet.
6. Warum gerade Mac: UMA, Metal und KV auf SSD
Drei Gruende. Erstens adressiert die Unified Memory Architecture (UMA) von Apple Silicon den vollstaendigen 512GB-Pool direkt vom GPU aus, ohne PCIe-Umwege; eine RTX 5090 mit 32GB VRAM kann nicht einmal die 160GB von V4 Flash halten, vier Karten reichen fuer V4-Pro q4 nicht, ein Mac Studio M3 Ultra laedt V4-Pro Q4 bei 160 bis 180 Watt TDP. Zweitens persistiert die On-Disk-KV-Cache auf der schnellen NVMe-SSD ganze Sitzungs-Kontexte; nach einem Neustart entfaellt der mehrminuetige Re-Prefill, was in einer ephemeren GPU-Cloud-Container kaum nachzubilden ist. Drittens hat der CPU-Pfad unter aktuellen macOS-Versionen einen Kernel-Bug im Virtual-Memory, der das System bei ds4-CPU-Betrieb in Panic versetzt – nur Macs mit ausreichend RAM und funktionierendem Metal-Backend sind praktisch nutzbar.
7. Minimal reproduzierbares Runbook
Vom blanken Mac VPS bis zur Cursor-Anbindung auf einer 128GB-VPSMAC-Instanz:
Schritt 1: Code klonen und Metal-Binaries bauen. SSH auf den Mac VPS, Xcode Command Line Tools installieren und dann:
git clone https://github.com/antirez/ds4.git cd ds4 && make # erzeugt ./ds4 und ./ds4-server
Schritt 2: V4-Flash-q2-GGUF laden. Community-Quants wie IQ2XXS-w2Q2K-AProjQ8 wiegen rund 81GB; aria2c -x 16 oder huggingface-cli download im Hintergrund halten die SSH-Sitzung frei. Schritt 3: ds4-server starten und KV-Disk pruefen:
./ds4-server -m ./ds4flash.gguf --ctx 128000 \
--kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models
Schritt 4: Cursor, opencode oder eigene Agents anbinden. ds4-server stellt einen OpenAI-kompatiblen Endpoint /v1/chat/completions samt Tool Calling bereit; in Cursor die OpenAI-Base auf http://your-mac-vps:8080/v1 setzen und per ssh -L 8080:127.0.0.1:8080 auf Loopback halten, statt den Port ins Netz zu legen. Schritt 5: launchd-Dauerbetrieb plus Monitoring. launchd-plist in ~/Library/LaunchAgents/ ablegen, KeepAlive und Log-Pfade setzen, mit log stream Panics einfangen und die Signale in die bestehende OpenClaw-Alarmierung haengen.
8. Mac VPS plus ds4: die elastische Inferenz-Kombination
Linux-GPU-Cloud, Docker-Container oder Windows-AI-PCs als V4-Plattform haben jeweils harte Probleme: Linux-GPU-Clouds besitzen keine UMA, V4 Flash braucht H100- oder H200-Knoten, deren Monatskosten den vergleichbaren Mac Studio uebersteigen; Docker auf macOS fuegt Apple Virtualization und IO-Abstraktion hinzu und kostet Durchsatz; Windows mit 32GB RTX 5090 kann V4 Flash gar nicht laden; und der Kauf eines neuen Macs friert die Hardware ein und produziert zwei Jahre spaeter Wertverlust. Wer per einer SSH-Routine ds4-Inferenz, iOS-Toolchain, ein OpenClaw-Gateway, launchd-Daemons und Remote-GPU-Orchestrierung dirigieren will, ist mit der Miete eines Apple-Silicon-Mac-VPS bei VPSMAC meistens besser bedient: ds4 laeuft auf einer dedizierten 128/256/512GB-Instanz, Memory-Stufen wechselt man bei Bedarf, und wenn spaeter Training oder Multi-GPU-Inferenz noetig wird, wandern diese Lasten an CoreWeave, Lambda oder RunPod (siehe interne CoreWeave-Entscheidungsmatrix), waehrend der Mac VPS Control-Plane bleibt. Der Gesamt-TCO schlaegt eine Stack-it-all-on-GPU-Strategie deutlich.
9. FAQ
Kann ds4 mit OpenClaw koexistieren? Ja. ds4-server hoert standardmaessig auf 8080, das OpenClaw-Gateway auf 18789, kein Konflikt. Wer in OpenClaw den Provider auf den OpenAI-kompatiblen ds4-Endpoint zeigt, ruft V4 direkt lokal auf und spart Drittanbieter-Rechnungen. Siehe OpenClaw v2026.5.20 Upgrade-Runbook.
Sind ROCm- und CUDA-Branches alltagstauglich? Der CUDA-Hauptzweig unterstuetzt DGX Spark (GB10) und generische CUDA-GPUs ueber make cuda-spark oder make cuda-generic; ROCm wird community-seitig gepflegt, der Autor selbst hat keine AMD-Hardware, daher empfiehlt sich produktiv Metal oder CUDA. Wann unterstuetzen llama.cpp oder LM Studio V4? Bis Mai 2026 nicht; V4 nutzt eigene Ops und Reasoning-Scheduling, deren Portierung Monate dauert. Bis dahin ist ds4 die einzige V4-Engine auf dem Mac. Wie verhindert man, dass eine gemietete Instanz unbenutzt laeuft? launchd plus ein kurzes "Alert bei X Stunden Inaktivitaet"-Skript oder ein Idle-Timeout am ds4-server stoppen die Instanz in Kombination mit der stuendlichen Abrechnung in der VPSMAC-Konsole automatisch.
10. Fazit
Das ds4 von antirez macht aus dem Slogan "DeepSeek V4 lokal" ein konkretes Ingenieurprojekt; die Grenze des Projekts heisst Speicher: 96GB Eintritt, 128GB komfortabler Boden, 512GB die einzige Konfiguration ohne Kompromisse. Ein Top-Mac-Kauf bedeutet einen fuenfstelligen Scheck und zwei Jahre spaeter eine versteckte Wertverlustrechnung. Eine Mac-VPS-Miete glaettet diese Kurve, ermoeglicht 128, 256 oder 512GB on demand, hebt V4 Flash zu V4-Pro ohne Hardwarewechsel und ergaenzt sich natuerlich mit einer GPU-Cloud fuer Training. Damit ist sie 2026 der realistischste Weg, ds4, lokales V4 und die Apple-Toolchain gemeinsam einzusetzen.