2026 年 antirez ds4 讓 DeepSeek V4 跑進 Mac:96/128/512GB 記憶體門檻、Metal 推理基準與「自購頂配 vs 租 Mac VPS」決策矩陣
2026 年 5 月 Redis 作者 antirez 以一週時間開源 ds4(DwarfStar 4),讓 DeepSeek V4 Flash 首次在 Mac 上跑出可用速度,GitHub 數天破 11K Star。但 96GB 起步、128GB 推薦、512GB 才能跑 V4-Pro 的記憶體門檻,把新台幣十萬至四十萬的 Mac 售價直接擺在每個獨立開發者面前。本文寫給被 ds4 吸引、想本地跑 V4 又拒絕把程式碼上傳第三方 API 的開發者與小團隊:八要點拆解硬體門檻、Metal 基準矩陣、三方決策表、最小可復現 Runbook 與 FAQ,並給出「Mac VPS + DeepSeek V4 + ds4」的彈性算力組合。
目錄
- 1. ds4 是什麼:antirez 一週開源、專為 DeepSeek V4 Flash 設計
- 2. DeepSeek V4 Flash / V4-Pro 規格速查與分代差異
- 3. 硬體門檻真相:96/128/256/512GB 四檔機型如何對號入座
- 4. Metal 基準矩陣:MBP M3 Max、Mac Studio M3 Ultra 與 DGX Spark
- 5. 決策矩陣:自購頂配 Mac vs 租 Mac VPS vs Linux GPU 雲
- 6. 為什麼必須 Mac:UMA、Metal 與 KV 落盤的不可替代性
- 7. 最小可復現 Runbook:Mac VPS 上的 ds4 五步部署
- 8. Mac VPS + ds4:本地推理與彈性算力的最佳組合
- 9. FAQ
- 10. 結論
1. ds4 是什麼
2026 年 5 月,Redis 作者 antirez 發佈 ds4(DwarfStar 4)——純 C 寫、專為 DeepSeek V4 Flash 設計的本地推理引擎,主線只支援 Metal 與 CUDA。作者一週內把 V4 的 prompt 渲染、KV 狀態、Tool Calling 與 Agent 一次性閉環,GitHub 數天破 11K Star。「一次只押一個模型」的設計讓它成為 2026 年 Mac 上跑 V4 幾乎唯一可用的引擎——截至寫作時,llama.cpp 與 LM Studio 都還未支援 V4 架構。
2. DeepSeek V4 Flash / V4-Pro 規格速查與分代差異
DeepSeek 於 2026-04-24 同時發佈 V4 系列兩個版本,關鍵參數對照:
| 規格 | V4 Flash | V4-Pro |
|---|---|---|
| 總參數 | 284B(MoE) | 1.6T(MoE) |
| 啟動參數 / token | 13B | 49B |
| 上下文視窗 | 1,000,000 tokens | 1,000,000 tokens |
| 最大輸出 | 384,000 tokens | 384,000 tokens |
| 原始權重大小 | ~160 GB(FP4 + FP8 混合) | ~865 GB(FP4 + FP8 混合) |
| 授權 | MIT | MIT |
| 本地部署可行性 | 消費級 Mac 可行 | 僅 Mac Studio 512GB / 多卡伺服器 |
V4 把 reasoning effort 改成請求參數(non-thinking / thinking / max-thinking),相對 V3.x 拆雙 ID 更友善——ds4 不用為不同模式載入多份權重,KV 跨模式複用。Flash 的 13B 啟動參數關鍵:MoE 路由後單 token 計算量等同 13B 稠密模型,比同檔稠密 30B 輕得多,是它能在 Mac 上「跑得動」的根本原因。
3. 硬體門檻真相:96/128/256/512GB 四檔機型如何對號入座
很多部落格只說「ds4 需要 96GB」,卻忽略 KV 快取與上下文同樣吃記憶體。結合 ds4 README 與社群實測得出的真實門檻:
| 記憶體檔位 | 可跑模型 | 量化 | 上下文上限 | 典型機型 | 參考售價 |
|---|---|---|---|---|---|
| 96 GB | V4 Flash | q2 | ~100k tokens | MacBook Pro M3/M4 Max | NT$130,000+ |
| 128 GB | V4 Flash | q2 推薦 | ~250–300k tokens | MacBook Pro / Mac Studio Max | NT$170,000+ |
| 256 GB | V4 Flash | q4 高品質 | 500k+ tokens | Mac Studio M3/M4 Ultra | NT$260,000+ |
| 512 GB | V4 Flash + V4-Pro q2 | q4 / q2-Pro | 接近 1M tokens | Mac Studio M3 Ultra 頂配 | NT$470,000+ |
q2 權重 81GB + 系統占用 + Metal 緩衝,96GB 留給 KV 不到 15GB;ds4 的 1M token KV cache 需 ~26GB,96GB 上下文上限就是 100k 出頭,長對話會觸發換頁或 OOM。128GB 才是「無腦跑」最低門檻,512GB 才是 V4 生產推理的合理配置。
4. Metal 基準矩陣:MBP M3 Max、Mac Studio M3 Ultra 與 DGX Spark
作者在 ds4 倉庫公佈的官方基準(覆蓋短上下文與 ~11K–12K token 長上下文):
| 機器 | 量化 | Prompt 長度 | Prefill | Generation |
|---|---|---|---|---|
| MacBook Pro M3 Max, 128GB | q2 | short | 58.52 t/s | 26.68 t/s |
| MacBook Pro M3 Max, 128GB | q2 | 11,709 tokens | 250.11 t/s | 21.47 t/s |
| Mac Studio M3 Ultra, 512GB | q2 | short | 84.43 t/s | 36.86 t/s |
| Mac Studio M3 Ultra, 512GB | q2 | 11,709 tokens | 468.03 t/s | 27.39 t/s |
| Mac Studio M3 Ultra, 512GB | q4 | short | 78.95 t/s | 35.50 t/s |
| Mac Studio M3 Ultra, 512GB | q4 | 12,018 tokens | 448.82 t/s | 26.62 t/s |
| NVIDIA DGX Spark GB10, 128GB | q2 | 7,047 tokens | 343.81 t/s | 13.75 t/s |
三條結論:長上下文 prefill Ultra 比 MBP M3 Max 快近一倍;q2 與 q4 在 Ultra 上 generation 幾乎打平(36.86 vs 35.50 t/s),記憶體夠 q4 幾乎免費換品質;DGX Spark prefill 強但 generation 僅 13.75 t/s,落後 Ultra 一倍——Apple Silicon 意外占據消費級 V4 推理最佳位置。
5. 決策矩陣:自購頂配 Mac vs 租 Mac VPS vs Linux GPU 雲
給做決策的開發者最關鍵的一張表:
| 維度 | 自購頂配 Mac | 租 Mac VPS | Linux GPU 雲(H100/H200) |
|---|---|---|---|
| 首次投入 | NT$130,000–NT$470,000 | 0 元,按月付 | 0 元,按小時付 |
| 月成本(128GB 等效) | 折舊 ≈NT$6,500–NT$11,000 | NT$6,500–NT$17,000 按配置 | H100 單卡 NT$65,000–NT$130,000 |
| 跑 V4 Flash q2 | 原生 Metal 直跑 | 原生 Metal 直跑 | 需 CUDA 路徑 + 不同分支 |
| 跑 V4-Pro | 需 512GB 頂配(NT$47 萬+) | 切到 512GB 實例即可 | 需要多卡 H200 / B200 |
| 隱私邊界 | 本機,最強 | 專屬實例,強 | 共享物理機,弱 |
| 彈性切換 | 無,硬體鎖定 | 按需擴縮容 | 按小時極彈性 |
| iOS / macOS 工具鏈 | 原生 | 原生 | 不支援 |
| 退役風險 | 2 年後轉手折價 50%+ | 無 | 無 |
判讀:每天 1–2 小時推理任務,租 Mac VPS 比自購經濟;需要訓練或長時間微調,把 Mac VPS 當控制平面、訓練負載丟給 GPU 雲。最坑的是「中間檔」——花二、三十萬買 256GB Mac Studio,一年後 V5 發佈、量化標準又變,硬體折舊超預期。
6. 為什麼必須 Mac:UMA、Metal 與 KV 落盤的不可替代性
三個理由。其一,Apple Silicon 的統一記憶體架構(UMA)讓 GPU 直接定址全部 512GB,沒有 PCIe 拷貝——RTX 5090 的 32GB VRAM 在 V4 Flash 160GB 權重前直接放棄,Mac Studio M3 Ultra 在 160–180W TDP 下就能載入 V4-Pro Q4。其二,macOS NVMe SSD 與 ds4 的磁碟 KV 快取讓會話上下文完整落盤,下次啟動續上,省掉數分鐘 re-prefill;GPU 雲臨時容器幾乎無法實現。其三,當前 macOS CPU 路徑有核心 bug,跑 ds4 CPU 後端會 panic 整機——必須 Metal 後端的高記憶體 Mac 才行。
7. 最小可復現 Runbook:Mac VPS 上的 ds4 五步部署
VPSMAC 128GB Mac VPS 上從零到接 Cursor 的完整步驟:
步驟 1:拉程式碼並編譯 Metal 二進位。SSH 登入 Mac VPS,裝 Xcode CLT 後:
git clone https://github.com/antirez/ds4.git cd ds4 && make # 產出 ./ds4 與 ./ds4-server
步驟 2:下載 V4 Flash q2 GGUF。社群維護 IQ2XXS-w2Q2K-AProjQ8 等推薦量化,約 81GB;用 aria2c -x 16 或 huggingface-cli download 跑後台任務。步驟 3:啟動 ds4-server 並驗證 KV 落盤:
./ds4-server -m ./ds4flash.gguf --ctx 128000 \
--kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models
步驟 4:接 Cursor / opencode / 自家 Agent。ds4-server 暴露 OpenAI 相容 `/v1/chat/completions` 與 Tool Calling,把 Cursor 的 OpenAI API base 改成 `http://your-mac-vps:8080/v1`;安全起見用 `ssh -L 8080:127.0.0.1:8080` 端口轉發,避免公網暴露。步驟 5:launchd 常駐 + 監控。寫 launchd plist 放到 `~/Library/LaunchAgents/`,加 `KeepAlive` 與日誌路徑;用 `log stream` 抓 panic,結合 OpenClaw 閘道做告警。
8. Mac VPS + ds4:本地推理與彈性算力的最佳組合
Linux GPU 雲、Docker 容器或 Windows AI PC 跑 V4 各有真實問題:Linux GPU 雲沒有 UMA,V4 Flash 必須 H100/H200 起步,單卡月成本遠高於同等記憶體 Mac Studio;Docker 在 macOS 上要繞過 Apple Virtualization 與 IO 抽象,性能折損明顯;Windows RTX 5090 32GB VRAM 直接放棄;本地買 Mac 又面臨硬體鎖死與兩年折舊。當你需要一條 SSH 習慣統管「ds4 推理 + iOS 工具鏈 + OpenClaw 閘道 + launchd 常駐 + 遠程 GPU 調度」時,租賃 VPSMAC 的 Apple Silicon Mac 雲主機通常是更優解——把 ds4 跑在 128/256/512GB 專屬實例,按需切換配置;將來訓練或多卡推理再把負載丟給 CoreWeave / Lambda / RunPod(參見 CoreWeave 決策矩陣),Mac VPS 做控制平面,整體 TCO 比把所有東西堆在 GPU 節點低得多。
9. FAQ
ds4 能與 OpenClaw 共存嗎? 完全可以。ds4-server 預設 8080,OpenClaw Gateway 18789,互不衝突;把 OpenClaw 的 Provider 指向 ds4 的 OpenAI 相容端點,Agent 可直接呼叫本地 V4,省下外部 API 帳單。參考 OpenClaw v2026.5.20 升級 Runbook。
ROCm 與 CUDA 分支能用嗎? CUDA 主線支援 DGX Spark(GB10)與一般 CUDA GPU;ROCm 在獨立分支由社群維護,更新有時差,生產建議 Metal 或 CUDA。llama.cpp / LM Studio 何時支援 V4? 截至 2026-05 官方未合併,V4 自訂 op 與 reasoning 調度移植成本高,預計還需數月——ds4 幾乎是 Mac 上唯一可用 V4 引擎。按需計費如何避免「跑完忘了關」? 用 launchd + 「X 小時無活躍請求則告警」腳本,或把 ds4-server 配成超時退出,配合 VPSMAC 按小時計費自動停機。
10. 結論
antirez 的 ds4 把「本地跑 DeepSeek V4」從理論變成可上手的工程,但工程邊界是硬體門檻——96GB 入場、128GB 起步、512GB 才是真正無妥協本地推理。租 Mac VPS 把曲線壓平:按需開通 128/256/512GB 實例,V4 Flash 升級 V4-Pro 不換機,配合 GPU 雲做訓練分工,是 2026 年「ds4 + 本地 V4 + Apple 工具鏈」最現實的落地路徑。