96GB の MacBook Pro で本当に ds4 + DeepSeek V4 Flash は動きますか？

動きますが代償があります。q2 量子化の重みだけで約 81GB、OS と Metal バッファを差し引くと KV キャッシュ用に残るのは 15GB 未満。完全な 1M トークン KV には約 26GB 必要なので、96GB マシンの実用上限は 100k トークン前後です。著者は 128GB を快適な下限、512GB Mac Studio Ultra を 1M トークンを完全に解放する構成として推奨しています。

ds4 と llama.cpp / LM Studio / Ollama の関係は？

ds4 は DeepSeek V4 Flash 専用の Metal 推論エンジンであり、汎用 GGUF runner ではありません。2026 年 5 月時点で llama.cpp も LM Studio も V4 アーキテクチャを未サポートのため、Mac 上で V4 を動かすなら ds4 がほぼ唯一の選択肢。Ollama は DeepSeek R1 など旧世代モデルに対応していますが V4 は扱えません。

なぜ Linux GPU クラウドで DeepSeek V4 を動かさないのですか？

可能ですが、V4 Flash は 160GB、V4-Pro は 865GB の重みを 1 枚に収めるには H100/H200/B200 など高 VRAM カードが必要で、月額コストは同等メモリの Mac Studio を上回りがちです。Linux GPU クラウドは Apple Silicon の統一メモリも KV のディスク永続化も持たないため、Mac VPS と GPU クラウドの役割分担の方が長期 ROI で勝ります。

2026 antirez ds4 が DeepSeek V4 を Mac で動かす：96/128/512GB メモリ要件、Metal ベンチと Mac VPS 決定マトリクス

2026 年 5 月、Redis の作者 antirez が ds4（DwarfStar 4）を 1 週間で公開し、DeepSeek V4 Flash を Mac で初めて実用速度で動かした。GitHub の Star は数日で 11K を突破。だが「96GB 入門・128GB 推奨・512GB で V4-Pro」というメモリ要件は、約 50 万〜170 万円の Mac 本体価格を独立開発者の眼前に突きつける。本稿は ds4 に惹かれつつコードや機密データを第三者 API に送りたくない開発者と小規模チームに向けて、8 章でハード要件・Metal ベンチ・3 択決定表・最小再現 Runbook・FAQ を整理し、「Mac VPS + DeepSeek V4 + ds4」というエラスティック構成を提示する。

1. ds4 とは

2026 年 5 月、Redis の作者 antirez は ds4（DwarfStar 4）を公開した。これは純 C で書かれた DeepSeek V4 Flash 専用のローカル推論エンジンで、本線では Metal と CUDA のみをサポートする。著者は 1 週間・1 日 14 時間で、V4 の prompt レンダリング・KV ステート・Tool Calling・コーディングエージェントを単一バイナリにまとめ上げ、GitHub Star は数日で 11K を突破した。「1 モデルだけに賭ける」設計のおかげで、2026 年において Mac 上で V4 を動かす実用的なエンジンはほぼ ds4 のみ——本稿執筆時点で llama.cpp も LM Studio も V4 アーキテクチャを未サポートだ。

2. DeepSeek V4 Flash / V4-Pro 仕様と V3 からの変化

DeepSeek は 2026-04-24 に V4 シリーズ 2 つを同時公開（MIT ライセンス、1M トークンコンテキスト）：

仕様	V4 Flash	V4-Pro
総パラメータ	284B（MoE）	1.6T（MoE）
1 トークン活性パラメータ	13B	49B
コンテキストウィンドウ	1,000,000 tokens	1,000,000 tokens
最大出力	384,000 tokens	384,000 tokens
重みサイズ	約 160 GB（FP4 + FP8 混合）	約 865 GB（FP4 + FP8 混合）
ライセンス	MIT	MIT
ローカル稼働可否	消費級 Mac で可	512GB Mac Studio または多 GPU サーバのみ

V3.x で「thinking／non-thinking」を別 ID に分けていたのに対し、V4 は reasoning effort を 1 つのリクエストパラメータ（non-thinking / thinking / max-thinking）に集約した。推論エンジンとしては嬉しい設計で、ds4 は重みを 1 セット読み込めば全モードで KV を再利用できる。Flash の 13B 活性パラメータが Mac 上で動く決め手で、MoE ルーティング後の 1 トークン計算量は dense 13B 相当——dense 30B より遥かに軽い。

3. ハード要件の現実：96/128/256/512GB ティアの実情

「ds4 は 96GB 必要」とだけ書いた記事は多いが、KV キャッシュとコンテキストもメモリを食う。ds4 README と社区実測を合わせた現実：

メモリ	モデル	量子化	コンテキスト上限	典型機種	参考価格
96 GB	V4 Flash	q2	~100k tokens	MacBook Pro M3/M4 Max	約 60 万円〜
128 GB	V4 Flash	q2 推奨	~250–300k tokens	MacBook Pro / Mac Studio Max	約 80 万円〜
256 GB	V4 Flash	q4 高品質	500k+ tokens	Mac Studio M3/M4 Ultra	約 120 万円〜
512 GB	V4 Flash + V4-Pro q2	q4 / q2-Pro	ほぼ 1M tokens	Mac Studio M3 Ultra 最上位	約 220 万円〜

q2 の重みだけで 81GB、OS と Metal バッファを引くと 96GB マシンの KV 残量は 15GB 未満。1M トークン KV キャッシュは約 26GB 必要なので、96GB の実用コンテキスト上限は 100k トークン前後で、長い会話はページング・OOM を起こす。128GB が「迷わず動く」最低限、512GB こそが V4 をプロダクション推論基盤として扱える唯一の構成だ。

4. Metal ベンチマトリクス

ds4 リポジトリの公式ベンチ（short prompt と ~11K–12K トークン long prompt を両方カバー）：

マシン	量子化	Prompt 長	Prefill	Generation
MacBook Pro M3 Max, 128GB	q2	short	58.52 t/s	26.68 t/s
MacBook Pro M3 Max, 128GB	q2	11,709 tokens	250.11 t/s	21.47 t/s
Mac Studio M3 Ultra, 512GB	q2	short	84.43 t/s	36.86 t/s
Mac Studio M3 Ultra, 512GB	q2	11,709 tokens	468.03 t/s	27.39 t/s
Mac Studio M3 Ultra, 512GB	q4	short	78.95 t/s	35.50 t/s
Mac Studio M3 Ultra, 512GB	q4	12,018 tokens	448.82 t/s	26.62 t/s
NVIDIA DGX Spark GB10, 128GB	q2	7,047 tokens	343.81 t/s	13.75 t/s

3 つの結論：long prompt の prefill は Mac Studio Ultra が MBP M3 Max のほぼ 2 倍で、UMA 帯域差通りの結果。Ultra 上では q2 と q4 の generation がほぼ同等（36.86 vs 35.50 t/s）で、メモリさえ足りれば q4 の品質向上はほぼ無料。DGX Spark は prefill が速いが generation は 13.75 t/s と Ultra の半分——CUDA 経路はまだ磨き中で、2026 年上半期は Apple Silicon が予想外に消費級 V4 推論のベストポジションを占めている。

5. 決定マトリクス：Mac 購入 vs Mac VPS 借用 vs GPU クラウド

判断を左右する 1 枚：

軸	頂上構成 Mac 購入	Mac VPS 借用	Linux GPU クラウド
初期投資	60 万〜220 万円	0 円、月額	0 円、時間単位
月額（128GB 相当）	減価約 2.5 万〜4 万円	2.5 万〜7 万円	H100 1 枚 25 万〜50 万円
V4 Flash q2 稼働	ネイティブ Metal	ネイティブ Metal	CUDA ブランチ必要
V4-Pro 稼働	220 万円構成のみ	512GB インスタンスへ切替	多 GPU H200 / B200
プライバシー	最強・ローカル	専用インスタンス、強	共有物理、弱
弾力性	なし、ハード固定	オンデマンド拡縮	時間単位で極弾力
iOS / macOS ツールチェーン	ネイティブ	ネイティブ	非対応
退役リスク	2 年後 50% 以上下落	なし	なし

判断：1 日 1–2 時間の推論なら借用が買い切りより安い。学習や長時間ファインチューニングが必要なら Mac VPS を制御平面、学習負荷を GPU クラウドへオフロード。最も危ないのは「中間層」——120 万円で 256GB Mac Studio を買って 1 年後に V5 と新量子化標準が出ると、ハード減価が想定を超える。

6. なぜ Mac か：UMA、Metal、ディスク KV の代替不能性

理由は 3 つ。第一に、Apple Silicon の統一メモリアーキテクチャ（UMA）により GPU が PCIe コピー無しに 512GB 全域を直アクセスできる——これは独立 GPU では再現不能。RTX 5090 の 32GB VRAM では V4 Flash 160GB 重みすら持てず、5090×4 でも V4-Pro q4 を載せられないが、Mac Studio M3 Ultra 1 台が 160–180W で V4-Pro Q4 を読み込める。第二に、macOS NVMe SSD と ds4 のディスク KV キャッシュでセッションが完全永続化し、再起動時の re-prefill 数分が消える。GPU クラウドの一時コンテナでは実質困難。第三に、現行 macOS の CPU 経路には仮想メモリのカーネルバグがあり、ds4 CPU バックエンドはホストを panic させる——Metal 対応の高メモリ Mac でしか実用にならない。

7. 最小再現 Runbook：Mac VPS で ds4 を 5 ステップ

VPSMAC 128GB の Mac VPS でゼロから Cursor 接続まで：

ステップ 1：clone と Metal バイナリビルド。Mac VPS に SSH 後、Xcode Command Line Tools を入れて：

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # ./ds4 と ./ds4-server を生成

ステップ 2：V4 Flash q2 GGUF を入手。IQ2XXS-w2Q2K-AProjQ8 など社区推奨量子化は約 81GB。aria2c -x 16 や huggingface-cli download をバックグラウンドで。ステップ 3：ds4-server 起動と KV 永続化確認：

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

ステップ 4：Cursor / opencode / 自作 Agent と接続。ds4-server は OpenAI 互換 /v1/chat/completions と Tool Calling を提供。Cursor の OpenAI API base を http://your-mac-vps:8080/v1 に変更し、安全のため ssh -L 8080:127.0.0.1:8080 でループバックに留める。ステップ 5：launchd 常駐と監視。launchd plist を ~/Library/LaunchAgents/ に置き KeepAlive とログを設定、log stream で panic を捕捉し OpenClaw ゲートウェイのアラートと連携する。

8. Mac VPS + ds4：ローカル推論と弾力算力の最適解

Linux GPU クラウド・Docker コンテナ・Windows AI PC で V4 を動かすルートにはそれぞれ実際的な問題がある。Linux GPU クラウドは UMA を持たず V4 Flash 動作には H100/H200 起点が必要で、月額は同等メモリの Mac Studio を上回りがち。macOS 上の Docker は Apple Virtualization と IO 抽象でスループットが落ちる。Windows の RTX 5090 32GB ではこの帯域は対応不能。買い切り Mac はハード固定と 2 年減価という別の壁を生む。「ds4 推論 + iOS ツールチェーン + OpenClaw ゲートウェイ + launchd 常駐 + 遠隔 GPU オーケストレーション」を SSH 1 本で扱いたいなら、VPSMAC の Apple Silicon Mac クラウドを借りるのが多くの場合最適解——専用 128/256/512GB インスタンスで ds4 を動かし、必要に応じてメモリ階を切り替え、学習や多 GPU 推論が必要になったら CoreWeave / Lambda / RunPod に外出しすればよい（CoreWeave 決定マトリクス参照）。Mac VPS を制御平面に保てば、全部を GPU ノードに積むより TCO は明確に下がる。

9. FAQ

ds4 は OpenClaw と共存できますか？ 完全に可能。ds4-server は既定で 8080、OpenClaw Gateway は 18789 で衝突しない。OpenClaw の Provider を ds4 の OpenAI 互換エンドポイントに向ければ、エージェントから直接ローカル V4 を呼べる。OpenClaw v2026.5.20 アップグレード Runbook 参照。

ROCm と CUDA ブランチは使えますか？ CUDA 本線は DGX Spark（GB10）と一般 CUDA GPU を make cuda-spark / make cuda-generic で対応。ROCm は社区メンテのブランチで時差あり、プロダクションは Metal か CUDA 優先を推奨。llama.cpp / LM Studio は V4 にいつ対応？ 2026 年 5 月時点で未マージ。V4 のカスタム op と reasoning スケジューリングは移植コストが高く、数か月先と見込む。それまでは ds4 が Mac 上で唯一の V4 エンジン。従量課金で「立ち上げっぱなし」を防ぐには？ launchd と「X 時間アイドルでアラート」スクリプトを組み合わせるか、ds4-server をアイドルタイムアウトで終了させ、VPSMAC コンソールの時間単位課金と組み合わせて自動停止する。

10. 結論

antirez の ds4 は「DeepSeek V4 をローカルで動かす」を理論から実装可能なエンジニアリングに引き上げた。しかしその境界はハード要件で、96GB が入場券、128GB が快適下限、512GB だけが妥協なきローカル推論を実現する。トップ構成 Mac の買い切りは 6 桁ドルに近い一括出費と 2 年後の減価という二重の請求書。Mac VPS の借用はこの曲線を平らにし、必要なときに 128/256/512GB を立ち上げ、V4 Flash から V4-Pro への移行もハード入れ替えなしで行え、GPU クラウドと学習を分業する——2026 年「ds4 + ローカル V4 + Apple ツールチェーン」の最も現実的な落地ルートだ。

2026 antirez ds4 が DeepSeek V4 を Mac で動かす：96/128/512GB メモリ要件、Metal 推論ベンチと「購入 vs Mac VPS 借用」決定マトリクス

目次