2026 antirez ds4 が DeepSeek V4 を Mac で動かす:96/128/512GB メモリ要件、Metal 推論ベンチと「購入 vs Mac VPS 借用」決定マトリクス
2026 年 5 月、Redis の作者 antirez が ds4(DwarfStar 4)を 1 週間で公開し、DeepSeek V4 Flash を Mac で初めて実用速度で動かした。GitHub の Star は数日で 11K を突破。だが「96GB 入門・128GB 推奨・512GB で V4-Pro」というメモリ要件は、約 50 万〜170 万円の Mac 本体価格を独立開発者の眼前に突きつける。本稿は ds4 に惹かれつつコードや機密データを第三者 API に送りたくない開発者と小規模チームに向けて、8 章でハード要件・Metal ベンチ・3 択決定表・最小再現 Runbook・FAQ を整理し、「Mac VPS + DeepSeek V4 + ds4」というエラスティック構成を提示する。
目次
- 1. ds4 とは:antirez が 1 週間で公開した V4 専用エンジン
- 2. DeepSeek V4 Flash / V4-Pro 仕様と V3 からの変化
- 3. ハード要件の現実:96/128/256/512GB ティアの実情
- 4. Metal ベンチマトリクス:MBP M3 Max / Mac Studio Ultra / DGX Spark
- 5. 決定マトリクス:Mac 購入 vs Mac VPS 借用 vs GPU クラウド
- 6. なぜ Mac か:UMA、Metal、ディスク KV の代替不能性
- 7. 最小再現 Runbook:Mac VPS で ds4 を 5 ステップ
- 8. Mac VPS + ds4:ローカル推論と弾力算力の最適解
- 9. FAQ
- 10. 結論
1. ds4 とは
2026 年 5 月、Redis の作者 antirez は ds4(DwarfStar 4)を公開した。これは純 C で書かれた DeepSeek V4 Flash 専用のローカル推論エンジンで、本線では Metal と CUDA のみをサポートする。著者は 1 週間・1 日 14 時間で、V4 の prompt レンダリング・KV ステート・Tool Calling・コーディングエージェントを単一バイナリにまとめ上げ、GitHub Star は数日で 11K を突破した。「1 モデルだけに賭ける」設計のおかげで、2026 年において Mac 上で V4 を動かす実用的なエンジンはほぼ ds4 のみ——本稿執筆時点で llama.cpp も LM Studio も V4 アーキテクチャを未サポートだ。
2. DeepSeek V4 Flash / V4-Pro 仕様と V3 からの変化
DeepSeek は 2026-04-24 に V4 シリーズ 2 つを同時公開(MIT ライセンス、1M トークンコンテキスト):
| 仕様 | V4 Flash | V4-Pro |
|---|---|---|
| 総パラメータ | 284B(MoE) | 1.6T(MoE) |
| 1 トークン活性パラメータ | 13B | 49B |
| コンテキストウィンドウ | 1,000,000 tokens | 1,000,000 tokens |
| 最大出力 | 384,000 tokens | 384,000 tokens |
| 重みサイズ | 約 160 GB(FP4 + FP8 混合) | 約 865 GB(FP4 + FP8 混合) |
| ライセンス | MIT | MIT |
| ローカル稼働可否 | 消費級 Mac で可 | 512GB Mac Studio または多 GPU サーバのみ |
V3.x で「thinking/non-thinking」を別 ID に分けていたのに対し、V4 は reasoning effort を 1 つのリクエストパラメータ(non-thinking / thinking / max-thinking)に集約した。推論エンジンとしては嬉しい設計で、ds4 は重みを 1 セット読み込めば全モードで KV を再利用できる。Flash の 13B 活性パラメータが Mac 上で動く決め手で、MoE ルーティング後の 1 トークン計算量は dense 13B 相当——dense 30B より遥かに軽い。
3. ハード要件の現実:96/128/256/512GB ティアの実情
「ds4 は 96GB 必要」とだけ書いた記事は多いが、KV キャッシュとコンテキストもメモリを食う。ds4 README と社区実測を合わせた現実:
| メモリ | モデル | 量子化 | コンテキスト上限 | 典型機種 | 参考価格 |
|---|---|---|---|---|---|
| 96 GB | V4 Flash | q2 | ~100k tokens | MacBook Pro M3/M4 Max | 約 60 万円〜 |
| 128 GB | V4 Flash | q2 推奨 | ~250–300k tokens | MacBook Pro / Mac Studio Max | 約 80 万円〜 |
| 256 GB | V4 Flash | q4 高品質 | 500k+ tokens | Mac Studio M3/M4 Ultra | 約 120 万円〜 |
| 512 GB | V4 Flash + V4-Pro q2 | q4 / q2-Pro | ほぼ 1M tokens | Mac Studio M3 Ultra 最上位 | 約 220 万円〜 |
q2 の重みだけで 81GB、OS と Metal バッファを引くと 96GB マシンの KV 残量は 15GB 未満。1M トークン KV キャッシュは約 26GB 必要なので、96GB の実用コンテキスト上限は 100k トークン前後で、長い会話はページング・OOM を起こす。128GB が「迷わず動く」最低限、512GB こそが V4 をプロダクション推論基盤として扱える唯一の構成だ。
4. Metal ベンチマトリクス
ds4 リポジトリの公式ベンチ(short prompt と ~11K–12K トークン long prompt を両方カバー):
| マシン | 量子化 | Prompt 長 | Prefill | Generation |
|---|---|---|---|---|
| MacBook Pro M3 Max, 128GB | q2 | short | 58.52 t/s | 26.68 t/s |
| MacBook Pro M3 Max, 128GB | q2 | 11,709 tokens | 250.11 t/s | 21.47 t/s |
| Mac Studio M3 Ultra, 512GB | q2 | short | 84.43 t/s | 36.86 t/s |
| Mac Studio M3 Ultra, 512GB | q2 | 11,709 tokens | 468.03 t/s | 27.39 t/s |
| Mac Studio M3 Ultra, 512GB | q4 | short | 78.95 t/s | 35.50 t/s |
| Mac Studio M3 Ultra, 512GB | q4 | 12,018 tokens | 448.82 t/s | 26.62 t/s |
| NVIDIA DGX Spark GB10, 128GB | q2 | 7,047 tokens | 343.81 t/s | 13.75 t/s |
3 つの結論:long prompt の prefill は Mac Studio Ultra が MBP M3 Max のほぼ 2 倍で、UMA 帯域差通りの結果。Ultra 上では q2 と q4 の generation がほぼ同等(36.86 vs 35.50 t/s)で、メモリさえ足りれば q4 の品質向上はほぼ無料。DGX Spark は prefill が速いが generation は 13.75 t/s と Ultra の半分——CUDA 経路はまだ磨き中で、2026 年上半期は Apple Silicon が予想外に消費級 V4 推論のベストポジションを占めている。
5. 決定マトリクス:Mac 購入 vs Mac VPS 借用 vs GPU クラウド
判断を左右する 1 枚:
| 軸 | 頂上構成 Mac 購入 | Mac VPS 借用 | Linux GPU クラウド |
|---|---|---|---|
| 初期投資 | 60 万〜220 万円 | 0 円、月額 | 0 円、時間単位 |
| 月額(128GB 相当) | 減価約 2.5 万〜4 万円 | 2.5 万〜7 万円 | H100 1 枚 25 万〜50 万円 |
| V4 Flash q2 稼働 | ネイティブ Metal | ネイティブ Metal | CUDA ブランチ必要 |
| V4-Pro 稼働 | 220 万円構成のみ | 512GB インスタンスへ切替 | 多 GPU H200 / B200 |
| プライバシー | 最強・ローカル | 専用インスタンス、強 | 共有物理、弱 |
| 弾力性 | なし、ハード固定 | オンデマンド拡縮 | 時間単位で極弾力 |
| iOS / macOS ツールチェーン | ネイティブ | ネイティブ | 非対応 |
| 退役リスク | 2 年後 50% 以上下落 | なし | なし |
判断:1 日 1–2 時間の推論なら借用が買い切りより安い。学習や長時間ファインチューニングが必要なら Mac VPS を制御平面、学習負荷を GPU クラウドへオフロード。最も危ないのは「中間層」——120 万円で 256GB Mac Studio を買って 1 年後に V5 と新量子化標準が出ると、ハード減価が想定を超える。
6. なぜ Mac か:UMA、Metal、ディスク KV の代替不能性
理由は 3 つ。第一に、Apple Silicon の統一メモリアーキテクチャ(UMA)により GPU が PCIe コピー無しに 512GB 全域を直アクセスできる——これは独立 GPU では再現不能。RTX 5090 の 32GB VRAM では V4 Flash 160GB 重みすら持てず、5090×4 でも V4-Pro q4 を載せられないが、Mac Studio M3 Ultra 1 台が 160–180W で V4-Pro Q4 を読み込める。第二に、macOS NVMe SSD と ds4 のディスク KV キャッシュでセッションが完全永続化し、再起動時の re-prefill 数分が消える。GPU クラウドの一時コンテナでは実質困難。第三に、現行 macOS の CPU 経路には仮想メモリのカーネルバグがあり、ds4 CPU バックエンドはホストを panic させる——Metal 対応の高メモリ Mac でしか実用にならない。
7. 最小再現 Runbook:Mac VPS で ds4 を 5 ステップ
VPSMAC 128GB の Mac VPS でゼロから Cursor 接続まで:
ステップ 1:clone と Metal バイナリビルド。Mac VPS に SSH 後、Xcode Command Line Tools を入れて:
git clone https://github.com/antirez/ds4.git cd ds4 && make # ./ds4 と ./ds4-server を生成
ステップ 2:V4 Flash q2 GGUF を入手。IQ2XXS-w2Q2K-AProjQ8 など社区推奨量子化は約 81GB。aria2c -x 16 や huggingface-cli download をバックグラウンドで。ステップ 3:ds4-server 起動と KV 永続化確認:
./ds4-server -m ./ds4flash.gguf --ctx 128000 \
--kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models
ステップ 4:Cursor / opencode / 自作 Agent と接続。ds4-server は OpenAI 互換 /v1/chat/completions と Tool Calling を提供。Cursor の OpenAI API base を http://your-mac-vps:8080/v1 に変更し、安全のため ssh -L 8080:127.0.0.1:8080 でループバックに留める。ステップ 5:launchd 常駐と監視。launchd plist を ~/Library/LaunchAgents/ に置き KeepAlive とログを設定、log stream で panic を捕捉し OpenClaw ゲートウェイのアラートと連携する。
8. Mac VPS + ds4:ローカル推論と弾力算力の最適解
Linux GPU クラウド・Docker コンテナ・Windows AI PC で V4 を動かすルートにはそれぞれ実際的な問題がある。Linux GPU クラウドは UMA を持たず V4 Flash 動作には H100/H200 起点が必要で、月額は同等メモリの Mac Studio を上回りがち。macOS 上の Docker は Apple Virtualization と IO 抽象でスループットが落ちる。Windows の RTX 5090 32GB ではこの帯域は対応不能。買い切り Mac はハード固定と 2 年減価という別の壁を生む。「ds4 推論 + iOS ツールチェーン + OpenClaw ゲートウェイ + launchd 常駐 + 遠隔 GPU オーケストレーション」を SSH 1 本で扱いたいなら、VPSMAC の Apple Silicon Mac クラウドを借りるのが多くの場合最適解——専用 128/256/512GB インスタンスで ds4 を動かし、必要に応じてメモリ階を切り替え、学習や多 GPU 推論が必要になったら CoreWeave / Lambda / RunPod に外出しすればよい(CoreWeave 決定マトリクス参照)。Mac VPS を制御平面に保てば、全部を GPU ノードに積むより TCO は明確に下がる。
9. FAQ
ds4 は OpenClaw と共存できますか? 完全に可能。ds4-server は既定で 8080、OpenClaw Gateway は 18789 で衝突しない。OpenClaw の Provider を ds4 の OpenAI 互換エンドポイントに向ければ、エージェントから直接ローカル V4 を呼べる。OpenClaw v2026.5.20 アップグレード Runbook 参照。
ROCm と CUDA ブランチは使えますか? CUDA 本線は DGX Spark(GB10)と一般 CUDA GPU を make cuda-spark / make cuda-generic で対応。ROCm は社区メンテのブランチで時差あり、プロダクションは Metal か CUDA 優先を推奨。llama.cpp / LM Studio は V4 にいつ対応? 2026 年 5 月時点で未マージ。V4 のカスタム op と reasoning スケジューリングは移植コストが高く、数か月先と見込む。それまでは ds4 が Mac 上で唯一の V4 エンジン。従量課金で「立ち上げっぱなし」を防ぐには? launchd と「X 時間アイドルでアラート」スクリプトを組み合わせるか、ds4-server をアイドルタイムアウトで終了させ、VPSMAC コンソールの時間単位課金と組み合わせて自動停止する。
10. 結論
antirez の ds4 は「DeepSeek V4 をローカルで動かす」を理論から実装可能なエンジニアリングに引き上げた。しかしその境界はハード要件で、96GB が入場券、128GB が快適下限、512GB だけが妥協なきローカル推論を実現する。トップ構成 Mac の買い切りは 6 桁ドルに近い一括出費と 2 年後の減価という二重の請求書。Mac VPS の借用はこの曲線を平らにし、必要なときに 128/256/512GB を立ち上げ、V4 Flash から V4-Pro への移行もハード入れ替えなしで行え、GPU クラウドと学習を分業する——2026 年「ds4 + ローカル V4 + Apple ツールチェーン」の最も現実的な落地ルートだ。