Laeuft ds4 plus DeepSeek V4 Flash wirklich auf einem 96GB MacBook Pro?

Ja, aber mit Einschraenkungen. Die q2-quantisierten Gewichte allein belegen rund 81GB; nach Abzug von Betriebssystem und Metal-Puffern bleiben weniger als 15GB fuer den KV-Cache. Der vollstaendige 1M-Token-KV benoetigt etwa 26GB, in der Praxis liegt die Obergrenze auf einer 96GB-Maschine also bei rund 100k Tokens. Der Autor empfiehlt 128GB als komfortable Untergrenze und einen 512GB Mac Studio Ultra, um die vollen 1M Token zu nutzen.

Wie verhaelt sich ds4 zu llama.cpp, LM Studio oder Ollama?

ds4 ist eine reine Metal-Inferenzengine speziell fuer DeepSeek V4 Flash und kein generischer GGUF-Runner. Stand Mai 2026 unterstuetzen weder llama.cpp noch LM Studio die V4-Architektur, sodass ds4 auf dem Mac praktisch die einzige Option fuer V4 ist. Ollama bedient DeepSeek R1 und aeltere Modelle, kann V4 aber nicht laden.

Warum nicht einfach Linux-GPU-Cloud fuer DeepSeek V4 mieten?

Moeglich, aber die V4-Flash-Gewichte sind 160GB und V4-Pro erreicht 865GB; um sie sauber laufen zu lassen, braucht es H100-, H200- oder B200-Knoten mit hohem VRAM, deren Monatskosten oft den Mac Studio mit gleicher Unified Memory uebersteigen. Linux-GPU-Clouds bieten zudem keine UMA, kein KV auf SSD und keine native iOS-Toolchain, weshalb die Kombination Mac VPS plus GPU-Cloud langfristig den besseren ROI liefert.

2026 antirez ds4 bringt DeepSeek V4 auf den Mac: 96/128/512GB Speicher, Metal-Benchmarks und Mac-VPS-Entscheidungsmatrix

Im Mai 2026 hat Redis-Schoepfer antirez ds4 (DwarfStar 4) als Open Source veroeffentlicht und damit DeepSeek V4 Flash zum ersten Mal in brauchbarer Geschwindigkeit auf einem Mac zum Laufen gebracht; binnen weniger Tage stiegen die GitHub-Stars auf ueber 11K. Doch die Speichertreppe aus 96GB-Einstieg, 128GB-Komfort und 512GB fuer V4-Pro uebersetzt sich in Preise von 4 000 bis 14 000 Euro, die jedem Solo-Entwickler im Weg stehen. Dieser Leitfaden richtet sich an Entwicklerinnen und kleine Teams, die ds4 spannend finden, aber weder Code noch sensible Daten an Drittanbieter-APIs schicken wollen: acht Abschnitte mit Hardwareschwellen, Metal-Benchmarks, einer dreigleisigen Entscheidungstabelle, einem reproduzierbaren Runbook und einer FAQ. Am Ende steht eine elastische Kombination aus Mac VPS, DeepSeek V4 und ds4.

1. Was ist ds4 und warum jetzt?

Im Mai 2026 veroeffentlicht Redis-Schoepfer antirez ds4 (DwarfStar 4), eine in reinem C geschriebene Inferenzengine, die ausschliesslich auf DeepSeek V4 Flash zielt und im Hauptzweig nur Metal und CUDA bedient. In sieben Tagen mit jeweils vierzehn Stunden Arbeit fuegt der Autor V4-Prompt-Rendering, KV-State, OpenAI-kompatibles Tool Calling und einen integrierten Coding-Agent zu einem einzigen Binary zusammen. Binnen Tagen sammelt das Projekt mehr als 11K Sterne auf GitHub. Die bewusste Design-Entscheidung lautet: ein Modell, eine Wette. Auf einem Mac fuehrt im Mai 2026 kaum ein anderer Weg an ds4 vorbei, weil weder llama.cpp noch LM Studio die V4-Architektur unterstuetzen.

2. DeepSeek V4 Flash und V4-Pro auf einen Blick

DeepSeek liefert beide V4-Varianten am 24. April 2026 unter MIT-Lizenz mit einem 1-Millionen-Token-Kontextfenster aus:

Spezifikation	V4 Flash	V4-Pro
Parameter gesamt	284B (MoE)	1,6T (MoE)
Aktiv pro Token	13B	49B
Kontextfenster	1 000 000 Tokens	1 000 000 Tokens
Maximalausgabe	384 000 Tokens	384 000 Tokens
Gewichtsgroesse	ca. 160 GB (FP4+FP8 gemischt)	ca. 865 GB (FP4+FP8 gemischt)
Lizenz	MIT	MIT
Lokal lauffaehig	High-End-Consumer-Mac	Nur 512GB Mac Studio oder Multi-GPU-Server

Anders als V3, wo Denk- und Nicht-Denk-Modelle als zwei IDs gefuehrt waren, ist Reasoning Effort in V4 ein Request-Parameter (non-thinking, thinking, max-thinking). Fuer eine Inferenzengine bedeutet das: einmal Gewichte laden, KV-Cache modusuebergreifend wiederverwenden. Die 13B aktiven Parameter von Flash sind der Grund, warum das Modell auf einem Mac ueberhaupt laeuft, weil der Rechenaufwand pro Token nach MoE-Routing einem dichten 13B-Modell entspricht und damit deutlich unter dichten 30B-Architekturen bleibt.

3. Hardware-Realitaet: 96/128/256/512GB im Vergleich

Viele Beitraege schreiben pauschal "ds4 braucht 96GB" und unterschlagen, dass KV-Cache und Kontext ebenfalls Speicher belegen. Das tatsaechliche Bild aus ds4-README und Community-Messungen:

Speicherklasse	Modell	Quant	Kontextgrenze	Typische Hardware	Referenzpreis
96 GB	V4 Flash	q2	~100k Tokens	MacBook Pro M3/M4 Max	ab 4 000 Euro
128 GB	V4 Flash	q2 empfohlen	~250–300k Tokens	MacBook Pro / Mac Studio Max	ab 5 000 Euro
256 GB	V4 Flash	q4 hohe Qualitaet	500k+ Tokens	Mac Studio M3/M4 Ultra	ab 8 000 Euro
512 GB	V4 Flash + V4-Pro q2	q4 / q2-Pro	nahezu 1M Tokens	Mac Studio M3 Ultra Top	ab 14 000 Euro

Die q2-Gewichte allein belegen 81GB; nach Betriebssystem und Metal-Puffern bleiben auf einer 96GB-Maschine weniger als 15GB fuer den KV-Cache. Ein voller 1M-Token-KV braucht etwa 26GB, weshalb das praktische Kontextlimit dort bei rund 100k Tokens liegt und laengere Sitzungen Paging oder OOM ausloesen. 128GB ist die schmerzfreie Untergrenze, 512GB die einzige Konfiguration, in der V4 zu einer ernsthaften Produktions-Inferenz-Infrastruktur wird.

4. Metal-Benchmark-Matrix

Offizielle Zahlen aus dem ds4-Repository, sowohl Short-Prompt als auch ein 11K- bis 12K-Token-Long-Prompt:

Maschine	Quant	Prompt-Laenge	Prefill	Generation
MacBook Pro M3 Max, 128GB	q2	kurz	58,52 t/s	26,68 t/s
MacBook Pro M3 Max, 128GB	q2	11 709 Tokens	250,11 t/s	21,47 t/s
Mac Studio M3 Ultra, 512GB	q2	kurz	84,43 t/s	36,86 t/s
Mac Studio M3 Ultra, 512GB	q2	11 709 Tokens	468,03 t/s	27,39 t/s
Mac Studio M3 Ultra, 512GB	q4	kurz	78,95 t/s	35,50 t/s
Mac Studio M3 Ultra, 512GB	q4	12 018 Tokens	448,82 t/s	26,62 t/s
NVIDIA DGX Spark GB10, 128GB	q2	7 047 Tokens	343,81 t/s	13,75 t/s

Drei Schlussfolgerungen: das Long-Prompt-Prefill des Mac Studio M3 Ultra liegt fast doppelt so hoch wie beim MBP M3 Max, was zur UMA-Bandbreite passt. Auf dem Ultra liegen q2 und q4 in der Generation nahezu gleichauf (36,86 vs 35,50 t/s), bei ausreichender Speicherausstattung kostet q4 also kaum Geschwindigkeit. Der DGX Spark liefert ein starkes Prefill, aber nur 13,75 t/s Generation und damit die Haelfte des Ultras – der CUDA-Pfad ist offensichtlich noch in Reifung, und Apple Silicon belegt im ersten Halbjahr 2026 ueberraschend den Sweetspot fuer V4 auf Consumer-Hardware.

5. Entscheidungsmatrix: Top-Mac kaufen, Mac VPS oder GPU-Cloud mieten

Die eine Tabelle, die die Wahl entscheidet:

Dimension	Top-Mac kaufen	Mac VPS mieten	Linux-GPU-Cloud (H100/H200)
Erstinvest	4 000–14 000 Euro	0 Euro, monatlich	0 Euro, stuendlich
Monatskosten (128GB)	~200–350 Euro Abschreibung	200–550 Euro je Tier	2 000–4 000 Euro pro H100
V4 Flash q2	Native Metal	Native Metal	CUDA-Branch noetig
V4-Pro	Nur 14 000 Euro 512GB	Auf 512GB-Instanz wechseln	Multi-GPU H200 / B200
Datenschutz	Maximal, on-device	Stark, dedizierte Instanz	Schwach, geteiltes Blech
Elastizitaet	Keine, Hardware fixiert	On demand	Sekundengenau
iOS- / macOS-Toolchain	Nativ	Nativ	Nicht unterstuetzt
Wertverlust	50%+ in zwei Jahren	Keiner	Keiner

Lesart: Wer Inferenz nur ein bis zwei Stunden taeglich faehrt, ist mit einer Mac-VPS-Miete guenstiger als mit dem Kaufmodell. Wer dazu trainieren oder lange Finetunings braucht, behaelt den Mac VPS als Control-Plane und schiebt Trainingslasten in eine GPU-Cloud. Die teuerste Falle ist die Mittelklasse: 8 000 Euro fuer einen 256GB Mac Studio, und ein Jahr spaeter macht DeepSeek V5 mit anderen Quant-Standards die Hardware vor Ablauf der Abschreibungsfrist veraltet.

6. Warum gerade Mac: UMA, Metal und KV auf SSD

Drei Gruende. Erstens adressiert die Unified Memory Architecture (UMA) von Apple Silicon den vollstaendigen 512GB-Pool direkt vom GPU aus, ohne PCIe-Umwege; eine RTX 5090 mit 32GB VRAM kann nicht einmal die 160GB von V4 Flash halten, vier Karten reichen fuer V4-Pro q4 nicht, ein Mac Studio M3 Ultra laedt V4-Pro Q4 bei 160 bis 180 Watt TDP. Zweitens persistiert die On-Disk-KV-Cache auf der schnellen NVMe-SSD ganze Sitzungs-Kontexte; nach einem Neustart entfaellt der mehrminuetige Re-Prefill, was in einer ephemeren GPU-Cloud-Container kaum nachzubilden ist. Drittens hat der CPU-Pfad unter aktuellen macOS-Versionen einen Kernel-Bug im Virtual-Memory, der das System bei ds4-CPU-Betrieb in Panic versetzt – nur Macs mit ausreichend RAM und funktionierendem Metal-Backend sind praktisch nutzbar.

7. Minimal reproduzierbares Runbook

Vom blanken Mac VPS bis zur Cursor-Anbindung auf einer 128GB-VPSMAC-Instanz:

Schritt 1: Code klonen und Metal-Binaries bauen. SSH auf den Mac VPS, Xcode Command Line Tools installieren und dann:

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # erzeugt ./ds4 und ./ds4-server

Schritt 2: V4-Flash-q2-GGUF laden. Community-Quants wie IQ2XXS-w2Q2K-AProjQ8 wiegen rund 81GB; aria2c -x 16 oder huggingface-cli download im Hintergrund halten die SSH-Sitzung frei. Schritt 3: ds4-server starten und KV-Disk pruefen:

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

Schritt 4: Cursor, opencode oder eigene Agents anbinden. ds4-server stellt einen OpenAI-kompatiblen Endpoint /v1/chat/completions samt Tool Calling bereit; in Cursor die OpenAI-Base auf http://your-mac-vps:8080/v1 setzen und per ssh -L 8080:127.0.0.1:8080 auf Loopback halten, statt den Port ins Netz zu legen. Schritt 5: launchd-Dauerbetrieb plus Monitoring. launchd-plist in ~/Library/LaunchAgents/ ablegen, KeepAlive und Log-Pfade setzen, mit log stream Panics einfangen und die Signale in die bestehende OpenClaw-Alarmierung haengen.

8. Mac VPS plus ds4: die elastische Inferenz-Kombination

Linux-GPU-Cloud, Docker-Container oder Windows-AI-PCs als V4-Plattform haben jeweils harte Probleme: Linux-GPU-Clouds besitzen keine UMA, V4 Flash braucht H100- oder H200-Knoten, deren Monatskosten den vergleichbaren Mac Studio uebersteigen; Docker auf macOS fuegt Apple Virtualization und IO-Abstraktion hinzu und kostet Durchsatz; Windows mit 32GB RTX 5090 kann V4 Flash gar nicht laden; und der Kauf eines neuen Macs friert die Hardware ein und produziert zwei Jahre spaeter Wertverlust. Wer per einer SSH-Routine ds4-Inferenz, iOS-Toolchain, ein OpenClaw-Gateway, launchd-Daemons und Remote-GPU-Orchestrierung dirigieren will, ist mit der Miete eines Apple-Silicon-Mac-VPS bei VPSMAC meistens besser bedient: ds4 laeuft auf einer dedizierten 128/256/512GB-Instanz, Memory-Stufen wechselt man bei Bedarf, und wenn spaeter Training oder Multi-GPU-Inferenz noetig wird, wandern diese Lasten an CoreWeave, Lambda oder RunPod (siehe interne CoreWeave-Entscheidungsmatrix), waehrend der Mac VPS Control-Plane bleibt. Der Gesamt-TCO schlaegt eine Stack-it-all-on-GPU-Strategie deutlich.

9. FAQ

Kann ds4 mit OpenClaw koexistieren? Ja. ds4-server hoert standardmaessig auf 8080, das OpenClaw-Gateway auf 18789, kein Konflikt. Wer in OpenClaw den Provider auf den OpenAI-kompatiblen ds4-Endpoint zeigt, ruft V4 direkt lokal auf und spart Drittanbieter-Rechnungen. Siehe OpenClaw v2026.5.20 Upgrade-Runbook.

Sind ROCm- und CUDA-Branches alltagstauglich? Der CUDA-Hauptzweig unterstuetzt DGX Spark (GB10) und generische CUDA-GPUs ueber make cuda-spark oder make cuda-generic; ROCm wird community-seitig gepflegt, der Autor selbst hat keine AMD-Hardware, daher empfiehlt sich produktiv Metal oder CUDA. Wann unterstuetzen llama.cpp oder LM Studio V4? Bis Mai 2026 nicht; V4 nutzt eigene Ops und Reasoning-Scheduling, deren Portierung Monate dauert. Bis dahin ist ds4 die einzige V4-Engine auf dem Mac. Wie verhindert man, dass eine gemietete Instanz unbenutzt laeuft? launchd plus ein kurzes "Alert bei X Stunden Inaktivitaet"-Skript oder ein Idle-Timeout am ds4-server stoppen die Instanz in Kombination mit der stuendlichen Abrechnung in der VPSMAC-Konsole automatisch.

10. Fazit

Das ds4 von antirez macht aus dem Slogan "DeepSeek V4 lokal" ein konkretes Ingenieurprojekt; die Grenze des Projekts heisst Speicher: 96GB Eintritt, 128GB komfortabler Boden, 512GB die einzige Konfiguration ohne Kompromisse. Ein Top-Mac-Kauf bedeutet einen fuenfstelligen Scheck und zwei Jahre spaeter eine versteckte Wertverlustrechnung. Eine Mac-VPS-Miete glaettet diese Kurve, ermoeglicht 128, 256 oder 512GB on demand, hebt V4 Flash zu V4-Pro ohne Hardwarewechsel und ergaenzt sich natuerlich mit einer GPU-Cloud fuer Training. Damit ist sie 2026 der realistischste Weg, ds4, lokales V4 und die Apple-Toolchain gemeinsam einzusetzen.

2026 antirez ds4 bringt DeepSeek V4 auf den Mac: 96/128/512GB Speicherschwellen, Metal-Benchmarks und Kaufen-vs-Mac-VPS-Entscheidungsmatrix

Inhaltsverzeichnis