2026 antirez ds4 が DeepSeek V4 を Mac で動かす:96/128/512GB メモリ要件、Metal 推論ベンチと「購入 vs Mac VPS 借用」決定マトリクス

2026 年 5 月、Redis の作者 antirez が ds4(DwarfStar 4)を 1 週間で公開し、DeepSeek V4 Flash を Mac で初めて実用速度で動かした。GitHub の Star は数日で 11K を突破。だが「96GB 入門・128GB 推奨・512GB で V4-Pro」というメモリ要件は、約 50 万〜170 万円の Mac 本体価格を独立開発者の眼前に突きつける。本稿は ds4 に惹かれつつコードや機密データを第三者 API に送りたくない開発者と小規模チームに向けて、8 章でハード要件・Metal ベンチ・3 択決定表・最小再現 Runbook・FAQ を整理し、「Mac VPS + DeepSeek V4 + ds4」というエラスティック構成を提示する。

ds4 推論エンジンが Apple Silicon Mac と Mac VPS 上で DeepSeek V4 Flash をローカル実行する図解。128GB 統一メモリと借用可能な Mac クラウドノードを表現

目次

1. ds4 とは

2026 年 5 月、Redis の作者 antirez は ds4(DwarfStar 4)を公開した。これは純 C で書かれた DeepSeek V4 Flash 専用のローカル推論エンジンで、本線では Metal と CUDA のみをサポートする。著者は 1 週間・1 日 14 時間で、V4 の prompt レンダリング・KV ステート・Tool Calling・コーディングエージェントを単一バイナリにまとめ上げ、GitHub Star は数日で 11K を突破した。「1 モデルだけに賭ける」設計のおかげで、2026 年において Mac 上で V4 を動かす実用的なエンジンはほぼ ds4 のみ——本稿執筆時点で llama.cpp も LM Studio も V4 アーキテクチャを未サポートだ。

2. DeepSeek V4 Flash / V4-Pro 仕様と V3 からの変化

DeepSeek は 2026-04-24 に V4 シリーズ 2 つを同時公開(MIT ライセンス、1M トークンコンテキスト):

仕様V4 FlashV4-Pro
総パラメータ284B(MoE)1.6T(MoE)
1 トークン活性パラメータ13B49B
コンテキストウィンドウ1,000,000 tokens1,000,000 tokens
最大出力384,000 tokens384,000 tokens
重みサイズ約 160 GB(FP4 + FP8 混合)約 865 GB(FP4 + FP8 混合)
ライセンスMITMIT
ローカル稼働可否消費級 Mac で可512GB Mac Studio または多 GPU サーバのみ

V3.x で「thinking/non-thinking」を別 ID に分けていたのに対し、V4 は reasoning effort を 1 つのリクエストパラメータ(non-thinking / thinking / max-thinking)に集約した。推論エンジンとしては嬉しい設計で、ds4 は重みを 1 セット読み込めば全モードで KV を再利用できる。Flash の 13B 活性パラメータが Mac 上で動く決め手で、MoE ルーティング後の 1 トークン計算量は dense 13B 相当——dense 30B より遥かに軽い。

3. ハード要件の現実:96/128/256/512GB ティアの実情

「ds4 は 96GB 必要」とだけ書いた記事は多いが、KV キャッシュとコンテキストもメモリを食う。ds4 README と社区実測を合わせた現実:

メモリモデル量子化コンテキスト上限典型機種参考価格
96 GBV4 Flashq2~100k tokensMacBook Pro M3/M4 Max約 60 万円〜
128 GBV4 Flashq2 推奨~250–300k tokensMacBook Pro / Mac Studio Max約 80 万円〜
256 GBV4 Flashq4 高品質500k+ tokensMac Studio M3/M4 Ultra約 120 万円〜
512 GBV4 Flash + V4-Pro q2q4 / q2-Proほぼ 1M tokensMac Studio M3 Ultra 最上位約 220 万円〜

q2 の重みだけで 81GB、OS と Metal バッファを引くと 96GB マシンの KV 残量は 15GB 未満。1M トークン KV キャッシュは約 26GB 必要なので、96GB の実用コンテキスト上限は 100k トークン前後で、長い会話はページング・OOM を起こす。128GB が「迷わず動く」最低限、512GB こそが V4 をプロダクション推論基盤として扱える唯一の構成だ。

4. Metal ベンチマトリクス

ds4 リポジトリの公式ベンチ(short prompt と ~11K–12K トークン long prompt を両方カバー):

マシン量子化Prompt 長PrefillGeneration
MacBook Pro M3 Max, 128GBq2short58.52 t/s26.68 t/s
MacBook Pro M3 Max, 128GBq211,709 tokens250.11 t/s21.47 t/s
Mac Studio M3 Ultra, 512GBq2short84.43 t/s36.86 t/s
Mac Studio M3 Ultra, 512GBq211,709 tokens468.03 t/s27.39 t/s
Mac Studio M3 Ultra, 512GBq4short78.95 t/s35.50 t/s
Mac Studio M3 Ultra, 512GBq412,018 tokens448.82 t/s26.62 t/s
NVIDIA DGX Spark GB10, 128GBq27,047 tokens343.81 t/s13.75 t/s

3 つの結論:long prompt の prefill は Mac Studio Ultra が MBP M3 Max のほぼ 2 倍で、UMA 帯域差通りの結果。Ultra 上では q2 と q4 の generation がほぼ同等(36.86 vs 35.50 t/s)で、メモリさえ足りれば q4 の品質向上はほぼ無料。DGX Spark は prefill が速いが generation は 13.75 t/s と Ultra の半分——CUDA 経路はまだ磨き中で、2026 年上半期は Apple Silicon が予想外に消費級 V4 推論のベストポジションを占めている。

5. 決定マトリクス:Mac 購入 vs Mac VPS 借用 vs GPU クラウド

判断を左右する 1 枚:

頂上構成 Mac 購入Mac VPS 借用Linux GPU クラウド
初期投資60 万〜220 万円0 円、月額0 円、時間単位
月額(128GB 相当)減価約 2.5 万〜4 万円2.5 万〜7 万円H100 1 枚 25 万〜50 万円
V4 Flash q2 稼働ネイティブ Metalネイティブ MetalCUDA ブランチ必要
V4-Pro 稼働220 万円構成のみ512GB インスタンスへ切替多 GPU H200 / B200
プライバシー最強・ローカル専用インスタンス、強共有物理、弱
弾力性なし、ハード固定オンデマンド拡縮時間単位で極弾力
iOS / macOS ツールチェーンネイティブネイティブ非対応
退役リスク2 年後 50% 以上下落なしなし

判断:1 日 1–2 時間の推論なら借用が買い切りより安い。学習や長時間ファインチューニングが必要なら Mac VPS を制御平面、学習負荷を GPU クラウドへオフロード。最も危ないのは「中間層」——120 万円で 256GB Mac Studio を買って 1 年後に V5 と新量子化標準が出ると、ハード減価が想定を超える。

6. なぜ Mac か:UMA、Metal、ディスク KV の代替不能性

理由は 3 つ。第一に、Apple Silicon の統一メモリアーキテクチャ(UMA)により GPU が PCIe コピー無しに 512GB 全域を直アクセスできる——これは独立 GPU では再現不能。RTX 5090 の 32GB VRAM では V4 Flash 160GB 重みすら持てず、5090×4 でも V4-Pro q4 を載せられないが、Mac Studio M3 Ultra 1 台が 160–180W で V4-Pro Q4 を読み込める。第二に、macOS NVMe SSD と ds4 のディスク KV キャッシュでセッションが完全永続化し、再起動時の re-prefill 数分が消える。GPU クラウドの一時コンテナでは実質困難。第三に、現行 macOS の CPU 経路には仮想メモリのカーネルバグがあり、ds4 CPU バックエンドはホストを panic させる——Metal 対応の高メモリ Mac でしか実用にならない。

7. 最小再現 Runbook:Mac VPS で ds4 を 5 ステップ

VPSMAC 128GB の Mac VPS でゼロから Cursor 接続まで:

ステップ 1:clone と Metal バイナリビルド。Mac VPS に SSH 後、Xcode Command Line Tools を入れて:

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # ./ds4 と ./ds4-server を生成

ステップ 2:V4 Flash q2 GGUF を入手。IQ2XXS-w2Q2K-AProjQ8 など社区推奨量子化は約 81GB。aria2c -x 16huggingface-cli download をバックグラウンドで。ステップ 3:ds4-server 起動と KV 永続化確認

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

ステップ 4:Cursor / opencode / 自作 Agent と接続。ds4-server は OpenAI 互換 /v1/chat/completions と Tool Calling を提供。Cursor の OpenAI API base を http://your-mac-vps:8080/v1 に変更し、安全のため ssh -L 8080:127.0.0.1:8080 でループバックに留める。ステップ 5:launchd 常駐と監視。launchd plist を ~/Library/LaunchAgents/ に置き KeepAlive とログを設定、log stream で panic を捕捉し OpenClaw ゲートウェイのアラートと連携する。

8. Mac VPS + ds4:ローカル推論と弾力算力の最適解

Linux GPU クラウド・Docker コンテナ・Windows AI PC で V4 を動かすルートにはそれぞれ実際的な問題がある。Linux GPU クラウドは UMA を持たず V4 Flash 動作には H100/H200 起点が必要で、月額は同等メモリの Mac Studio を上回りがち。macOS 上の Docker は Apple Virtualization と IO 抽象でスループットが落ちる。Windows の RTX 5090 32GB ではこの帯域は対応不能。買い切り Mac はハード固定と 2 年減価という別の壁を生む。「ds4 推論 + iOS ツールチェーン + OpenClaw ゲートウェイ + launchd 常駐 + 遠隔 GPU オーケストレーション」を SSH 1 本で扱いたいなら、VPSMAC の Apple Silicon Mac クラウドを借りるのが多くの場合最適解——専用 128/256/512GB インスタンスで ds4 を動かし、必要に応じてメモリ階を切り替え、学習や多 GPU 推論が必要になったら CoreWeave / Lambda / RunPod に外出しすればよい(CoreWeave 決定マトリクス参照)。Mac VPS を制御平面に保てば、全部を GPU ノードに積むより TCO は明確に下がる。

9. FAQ

ds4 は OpenClaw と共存できますか? 完全に可能。ds4-server は既定で 8080、OpenClaw Gateway は 18789 で衝突しない。OpenClaw の Provider を ds4 の OpenAI 互換エンドポイントに向ければ、エージェントから直接ローカル V4 を呼べる。OpenClaw v2026.5.20 アップグレード Runbook 参照。

ROCm と CUDA ブランチは使えますか? CUDA 本線は DGX Spark(GB10)と一般 CUDA GPU を make cuda-spark / make cuda-generic で対応。ROCm は社区メンテのブランチで時差あり、プロダクションは Metal か CUDA 優先を推奨。llama.cpp / LM Studio は V4 にいつ対応? 2026 年 5 月時点で未マージ。V4 のカスタム op と reasoning スケジューリングは移植コストが高く、数か月先と見込む。それまでは ds4 が Mac 上で唯一の V4 エンジン。従量課金で「立ち上げっぱなし」を防ぐには? launchd と「X 時間アイドルでアラート」スクリプトを組み合わせるか、ds4-server をアイドルタイムアウトで終了させ、VPSMAC コンソールの時間単位課金と組み合わせて自動停止する。

10. 結論

antirez の ds4 は「DeepSeek V4 をローカルで動かす」を理論から実装可能なエンジニアリングに引き上げた。しかしその境界はハード要件で、96GB が入場券、128GB が快適下限、512GB だけが妥協なきローカル推論を実現する。トップ構成 Mac の買い切りは 6 桁ドルに近い一括出費と 2 年後の減価という二重の請求書。Mac VPS の借用はこの曲線を平らにし、必要なときに 128/256/512GB を立ち上げ、V4 Flash から V4-Pro への移行もハード入れ替えなしで行え、GPU クラウドと学習を分業する——2026 年「ds4 + ローカル V4 + Apple ツールチェーン」の最も現実的な落地ルートだ。