96GB 的 MacBook Pro 真的能跑 ds4 + DeepSeek V4 Flash 嗎？

可以但有代價。96GB q2 量化模型占用約 81GB，剩下不到 15GB 要留給系統、KV 快取與上下文，實測可跑但上下文視窗要壓到 100k 以下，長上下文場景容易 OOM。作者建議 128GB 起步，512GB Mac Studio Ultra 才能完整發揮 1M token 上下文。

ds4 與 llama.cpp / LM Studio / Ollama 是什麼關係？

ds4 是 DeepSeek V4 Flash 專用的 Metal 推理引擎，不是通用 GGUF runner。截至 2026-05，llama.cpp 與 LM Studio 都還不支援 V4 架構，要在 Mac 本地跑 V4 幾乎只有 ds4 這一條路；Ollama 可跑 DeepSeek R1 等老一代模型但不支援 V4。

為什麼不直接租 Linux GPU 雲跑 DeepSeek V4？

可以，但 V4 Flash 160GB / V4-Pro 865GB 的權重要單卡裝下需要 H100/H200/B200 高顯存方案，按月成本通常高於同等記憶體的 Mac Studio；而且 GPU 雲沒有 Apple Silicon 統一記憶體優勢，更換工具鏈與 KV 落盤策略，長期 ROI 不如 Mac VPS 與 GPU 雲分工。

2026 年 antirez ds4 讓 DeepSeek V4 跑進 Mac：記憶體門檻、Metal 基準與 Mac VPS 決策矩陣

2026 年 5 月 Redis 作者 antirez 以一週時間開源 ds4（DwarfStar 4），讓 DeepSeek V4 Flash 首次在 Mac 上跑出可用速度，GitHub 數天破 11K Star。但 96GB 起步、128GB 推薦、512GB 才能跑 V4-Pro 的記憶體門檻，把新台幣十萬至四十萬的 Mac 售價直接擺在每個獨立開發者面前。本文寫給被 ds4 吸引、想本地跑 V4 又拒絕把程式碼上傳第三方 API 的開發者與小團隊：八要點拆解硬體門檻、Metal 基準矩陣、三方決策表、最小可復現 Runbook 與 FAQ，並給出「Mac VPS + DeepSeek V4 + ds4」的彈性算力組合。

1. ds4 是什麼

2026 年 5 月，Redis 作者 antirez 發佈 ds4（DwarfStar 4）——純 C 寫、專為 DeepSeek V4 Flash 設計的本地推理引擎，主線只支援 Metal 與 CUDA。作者一週內把 V4 的 prompt 渲染、KV 狀態、Tool Calling 與 Agent 一次性閉環，GitHub 數天破 11K Star。「一次只押一個模型」的設計讓它成為 2026 年 Mac 上跑 V4 幾乎唯一可用的引擎——截至寫作時，llama.cpp 與 LM Studio 都還未支援 V4 架構。

2. DeepSeek V4 Flash / V4-Pro 規格速查與分代差異

DeepSeek 於 2026-04-24 同時發佈 V4 系列兩個版本，關鍵參數對照：

規格	V4 Flash	V4-Pro
總參數	284B（MoE）	1.6T（MoE）
啟動參數 / token	13B	49B
上下文視窗	1,000,000 tokens	1,000,000 tokens
最大輸出	384,000 tokens	384,000 tokens
原始權重大小	~160 GB（FP4 + FP8 混合）	~865 GB（FP4 + FP8 混合）
授權	MIT	MIT
本地部署可行性	消費級 Mac 可行	僅 Mac Studio 512GB / 多卡伺服器

V4 把 reasoning effort 改成請求參數（non-thinking / thinking / max-thinking），相對 V3.x 拆雙 ID 更友善——ds4 不用為不同模式載入多份權重，KV 跨模式複用。Flash 的 13B 啟動參數關鍵：MoE 路由後單 token 計算量等同 13B 稠密模型，比同檔稠密 30B 輕得多，是它能在 Mac 上「跑得動」的根本原因。

3. 硬體門檻真相：96/128/256/512GB 四檔機型如何對號入座

很多部落格只說「ds4 需要 96GB」，卻忽略 KV 快取與上下文同樣吃記憶體。結合 ds4 README 與社群實測得出的真實門檻：

記憶體檔位	可跑模型	量化	上下文上限	典型機型	參考售價
96 GB	V4 Flash	q2	~100k tokens	MacBook Pro M3/M4 Max	NT$130,000+
128 GB	V4 Flash	q2 推薦	~250–300k tokens	MacBook Pro / Mac Studio Max	NT$170,000+
256 GB	V4 Flash	q4 高品質	500k+ tokens	Mac Studio M3/M4 Ultra	NT$260,000+
512 GB	V4 Flash + V4-Pro q2	q4 / q2-Pro	接近 1M tokens	Mac Studio M3 Ultra 頂配	NT$470,000+

q2 權重 81GB + 系統占用 + Metal 緩衝，96GB 留給 KV 不到 15GB；ds4 的 1M token KV cache 需 ~26GB，96GB 上下文上限就是 100k 出頭，長對話會觸發換頁或 OOM。128GB 才是「無腦跑」最低門檻，512GB 才是 V4 生產推理的合理配置。

4. Metal 基準矩陣：MBP M3 Max、Mac Studio M3 Ultra 與 DGX Spark

作者在 ds4 倉庫公佈的官方基準（覆蓋短上下文與 ~11K–12K token 長上下文）：

機器	量化	Prompt 長度	Prefill	Generation
MacBook Pro M3 Max, 128GB	q2	short	58.52 t/s	26.68 t/s
MacBook Pro M3 Max, 128GB	q2	11,709 tokens	250.11 t/s	21.47 t/s
Mac Studio M3 Ultra, 512GB	q2	short	84.43 t/s	36.86 t/s
Mac Studio M3 Ultra, 512GB	q2	11,709 tokens	468.03 t/s	27.39 t/s
Mac Studio M3 Ultra, 512GB	q4	short	78.95 t/s	35.50 t/s
Mac Studio M3 Ultra, 512GB	q4	12,018 tokens	448.82 t/s	26.62 t/s
NVIDIA DGX Spark GB10, 128GB	q2	7,047 tokens	343.81 t/s	13.75 t/s

三條結論：長上下文 prefill Ultra 比 MBP M3 Max 快近一倍；q2 與 q4 在 Ultra 上 generation 幾乎打平（36.86 vs 35.50 t/s），記憶體夠 q4 幾乎免費換品質；DGX Spark prefill 強但 generation 僅 13.75 t/s，落後 Ultra 一倍——Apple Silicon 意外占據消費級 V4 推理最佳位置。

5. 決策矩陣：自購頂配 Mac vs 租 Mac VPS vs Linux GPU 雲

給做決策的開發者最關鍵的一張表：

維度	自購頂配 Mac	租 Mac VPS	Linux GPU 雲（H100/H200）
首次投入	NT$130,000–NT$470,000	0 元，按月付	0 元，按小時付
月成本（128GB 等效）	折舊 ≈NT$6,500–NT$11,000	NT$6,500–NT$17,000 按配置	H100 單卡 NT$65,000–NT$130,000
跑 V4 Flash q2	原生 Metal 直跑	原生 Metal 直跑	需 CUDA 路徑 + 不同分支
跑 V4-Pro	需 512GB 頂配（NT$47 萬+）	切到 512GB 實例即可	需要多卡 H200 / B200
隱私邊界	本機，最強	專屬實例，強	共享物理機，弱
彈性切換	無，硬體鎖定	按需擴縮容	按小時極彈性
iOS / macOS 工具鏈	原生	原生	不支援
退役風險	2 年後轉手折價 50%+	無	無

判讀：每天 1–2 小時推理任務，租 Mac VPS 比自購經濟；需要訓練或長時間微調，把 Mac VPS 當控制平面、訓練負載丟給 GPU 雲。最坑的是「中間檔」——花二、三十萬買 256GB Mac Studio，一年後 V5 發佈、量化標準又變，硬體折舊超預期。

6. 為什麼必須 Mac：UMA、Metal 與 KV 落盤的不可替代性

三個理由。其一，Apple Silicon 的統一記憶體架構（UMA）讓 GPU 直接定址全部 512GB，沒有 PCIe 拷貝——RTX 5090 的 32GB VRAM 在 V4 Flash 160GB 權重前直接放棄，Mac Studio M3 Ultra 在 160–180W TDP 下就能載入 V4-Pro Q4。其二，macOS NVMe SSD 與 ds4 的磁碟 KV 快取讓會話上下文完整落盤，下次啟動續上，省掉數分鐘 re-prefill；GPU 雲臨時容器幾乎無法實現。其三，當前 macOS CPU 路徑有核心 bug，跑 ds4 CPU 後端會 panic 整機——必須 Metal 後端的高記憶體 Mac 才行。

7. 最小可復現 Runbook：Mac VPS 上的 ds4 五步部署

VPSMAC 128GB Mac VPS 上從零到接 Cursor 的完整步驟：

步驟 1：拉程式碼並編譯 Metal 二進位。SSH 登入 Mac VPS，裝 Xcode CLT 後：

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # 產出 ./ds4 與 ./ds4-server

步驟 2：下載 V4 Flash q2 GGUF。社群維護 IQ2XXS-w2Q2K-AProjQ8 等推薦量化，約 81GB；用 aria2c -x 16 或 huggingface-cli download 跑後台任務。步驟 3：啟動 ds4-server 並驗證 KV 落盤：

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

步驟 4：接 Cursor / opencode / 自家 Agent。ds4-server 暴露 OpenAI 相容 `/v1/chat/completions` 與 Tool Calling，把 Cursor 的 OpenAI API base 改成 `http://your-mac-vps:8080/v1`；安全起見用 `ssh -L 8080:127.0.0.1:8080` 端口轉發，避免公網暴露。步驟 5：launchd 常駐 + 監控。寫 launchd plist 放到 `~/Library/LaunchAgents/`，加 `KeepAlive` 與日誌路徑；用 `log stream` 抓 panic，結合 OpenClaw 閘道做告警。

8. Mac VPS + ds4：本地推理與彈性算力的最佳組合

Linux GPU 雲、Docker 容器或 Windows AI PC 跑 V4 各有真實問題：Linux GPU 雲沒有 UMA，V4 Flash 必須 H100/H200 起步，單卡月成本遠高於同等記憶體 Mac Studio；Docker 在 macOS 上要繞過 Apple Virtualization 與 IO 抽象，性能折損明顯；Windows RTX 5090 32GB VRAM 直接放棄；本地買 Mac 又面臨硬體鎖死與兩年折舊。當你需要一條 SSH 習慣統管「ds4 推理 + iOS 工具鏈 + OpenClaw 閘道 + launchd 常駐 + 遠程 GPU 調度」時，租賃 VPSMAC 的 Apple Silicon Mac 雲主機通常是更優解——把 ds4 跑在 128/256/512GB 專屬實例，按需切換配置；將來訓練或多卡推理再把負載丟給 CoreWeave / Lambda / RunPod（參見 CoreWeave 決策矩陣），Mac VPS 做控制平面，整體 TCO 比把所有東西堆在 GPU 節點低得多。

9. FAQ

ds4 能與 OpenClaw 共存嗎？ 完全可以。ds4-server 預設 8080，OpenClaw Gateway 18789，互不衝突；把 OpenClaw 的 Provider 指向 ds4 的 OpenAI 相容端點，Agent 可直接呼叫本地 V4，省下外部 API 帳單。參考 OpenClaw v2026.5.20 升級 Runbook。

ROCm 與 CUDA 分支能用嗎？ CUDA 主線支援 DGX Spark（GB10）與一般 CUDA GPU；ROCm 在獨立分支由社群維護，更新有時差，生產建議 Metal 或 CUDA。llama.cpp / LM Studio 何時支援 V4？ 截至 2026-05 官方未合併，V4 自訂 op 與 reasoning 調度移植成本高，預計還需數月——ds4 幾乎是 Mac 上唯一可用 V4 引擎。按需計費如何避免「跑完忘了關」？ 用 launchd + 「X 小時無活躍請求則告警」腳本，或把 ds4-server 配成超時退出，配合 VPSMAC 按小時計費自動停機。

10. 結論

antirez 的 ds4 把「本地跑 DeepSeek V4」從理論變成可上手的工程，但工程邊界是硬體門檻——96GB 入場、128GB 起步、512GB 才是真正無妥協本地推理。租 Mac VPS 把曲線壓平：按需開通 128/256/512GB 實例，V4 Flash 升級 V4-Pro 不換機，配合 GPU 雲做訓練分工，是 2026 年「ds4 + 本地 V4 + Apple 工具鏈」最現實的落地路徑。

2026 年 antirez ds4 讓 DeepSeek V4 跑進 Mac：96/128/512GB 記憶體門檻、Metal 推理基準與「自購頂配 vs 租 Mac VPS」決策矩陣

目錄