2026 年 antirez ds4 讓 DeepSeek V4 跑進 Mac:96/128/512GB 記憶體門檻、Metal 推理基準與「自購頂配 vs 租 Mac VPS」決策矩陣

2026 年 5 月 Redis 作者 antirez 以一週時間開源 ds4(DwarfStar 4),讓 DeepSeek V4 Flash 首次在 Mac 上跑出可用速度,GitHub 數天破 11K Star。但 96GB 起步、128GB 推薦、512GB 才能跑 V4-Pro 的記憶體門檻,把新台幣十萬至四十萬的 Mac 售價直接擺在每個獨立開發者面前。本文寫給被 ds4 吸引、想本地跑 V4 又拒絕把程式碼上傳第三方 API 的開發者與小團隊:八要點拆解硬體門檻、Metal 基準矩陣、三方決策表、最小可復現 Runbook 與 FAQ,並給出「Mac VPS + DeepSeek V4 + ds4」的彈性算力組合。

示意圖:ds4 推理引擎讓 DeepSeek V4 Flash 在 Apple Silicon Mac 與 Mac VPS 上本地運行,展示 128GB 統一記憶體架構與可租賃的 Mac 雲主機叢集

目錄

1. ds4 是什麼

2026 年 5 月,Redis 作者 antirez 發佈 ds4(DwarfStar 4)——純 C 寫、專為 DeepSeek V4 Flash 設計的本地推理引擎,主線只支援 Metal 與 CUDA。作者一週內把 V4 的 prompt 渲染、KV 狀態、Tool Calling 與 Agent 一次性閉環,GitHub 數天破 11K Star。「一次只押一個模型」的設計讓它成為 2026 年 Mac 上跑 V4 幾乎唯一可用的引擎——截至寫作時,llama.cpp 與 LM Studio 都還未支援 V4 架構。

2. DeepSeek V4 Flash / V4-Pro 規格速查與分代差異

DeepSeek 於 2026-04-24 同時發佈 V4 系列兩個版本,關鍵參數對照:

規格V4 FlashV4-Pro
總參數284B(MoE)1.6T(MoE)
啟動參數 / token13B49B
上下文視窗1,000,000 tokens1,000,000 tokens
最大輸出384,000 tokens384,000 tokens
原始權重大小~160 GB(FP4 + FP8 混合)~865 GB(FP4 + FP8 混合)
授權MITMIT
本地部署可行性消費級 Mac 可行僅 Mac Studio 512GB / 多卡伺服器

V4 把 reasoning effort 改成請求參數(non-thinking / thinking / max-thinking),相對 V3.x 拆雙 ID 更友善——ds4 不用為不同模式載入多份權重,KV 跨模式複用。Flash 的 13B 啟動參數關鍵:MoE 路由後單 token 計算量等同 13B 稠密模型,比同檔稠密 30B 輕得多,是它能在 Mac 上「跑得動」的根本原因。

3. 硬體門檻真相:96/128/256/512GB 四檔機型如何對號入座

很多部落格只說「ds4 需要 96GB」,卻忽略 KV 快取與上下文同樣吃記憶體。結合 ds4 README 與社群實測得出的真實門檻:

記憶體檔位可跑模型量化上下文上限典型機型參考售價
96 GBV4 Flashq2~100k tokensMacBook Pro M3/M4 MaxNT$130,000+
128 GBV4 Flashq2 推薦~250–300k tokensMacBook Pro / Mac Studio MaxNT$170,000+
256 GBV4 Flashq4 高品質500k+ tokensMac Studio M3/M4 UltraNT$260,000+
512 GBV4 Flash + V4-Pro q2q4 / q2-Pro接近 1M tokensMac Studio M3 Ultra 頂配NT$470,000+

q2 權重 81GB + 系統占用 + Metal 緩衝,96GB 留給 KV 不到 15GB;ds4 的 1M token KV cache 需 ~26GB,96GB 上下文上限就是 100k 出頭,長對話會觸發換頁或 OOM。128GB 才是「無腦跑」最低門檻,512GB 才是 V4 生產推理的合理配置。

4. Metal 基準矩陣:MBP M3 Max、Mac Studio M3 Ultra 與 DGX Spark

作者在 ds4 倉庫公佈的官方基準(覆蓋短上下文與 ~11K–12K token 長上下文):

機器量化Prompt 長度PrefillGeneration
MacBook Pro M3 Max, 128GBq2short58.52 t/s26.68 t/s
MacBook Pro M3 Max, 128GBq211,709 tokens250.11 t/s21.47 t/s
Mac Studio M3 Ultra, 512GBq2short84.43 t/s36.86 t/s
Mac Studio M3 Ultra, 512GBq211,709 tokens468.03 t/s27.39 t/s
Mac Studio M3 Ultra, 512GBq4short78.95 t/s35.50 t/s
Mac Studio M3 Ultra, 512GBq412,018 tokens448.82 t/s26.62 t/s
NVIDIA DGX Spark GB10, 128GBq27,047 tokens343.81 t/s13.75 t/s

三條結論:長上下文 prefill Ultra 比 MBP M3 Max 快近一倍;q2 與 q4 在 Ultra 上 generation 幾乎打平(36.86 vs 35.50 t/s),記憶體夠 q4 幾乎免費換品質;DGX Spark prefill 強但 generation 僅 13.75 t/s,落後 Ultra 一倍——Apple Silicon 意外占據消費級 V4 推理最佳位置。

5. 決策矩陣:自購頂配 Mac vs 租 Mac VPS vs Linux GPU 雲

給做決策的開發者最關鍵的一張表:

維度自購頂配 Mac租 Mac VPSLinux GPU 雲(H100/H200)
首次投入NT$130,000–NT$470,0000 元,按月付0 元,按小時付
月成本(128GB 等效)折舊 ≈NT$6,500–NT$11,000NT$6,500–NT$17,000 按配置H100 單卡 NT$65,000–NT$130,000
跑 V4 Flash q2原生 Metal 直跑原生 Metal 直跑需 CUDA 路徑 + 不同分支
跑 V4-Pro需 512GB 頂配(NT$47 萬+)切到 512GB 實例即可需要多卡 H200 / B200
隱私邊界本機,最強專屬實例,強共享物理機,弱
彈性切換無,硬體鎖定按需擴縮容按小時極彈性
iOS / macOS 工具鏈原生原生不支援
退役風險2 年後轉手折價 50%+

判讀:每天 1–2 小時推理任務,租 Mac VPS 比自購經濟;需要訓練或長時間微調,把 Mac VPS 當控制平面、訓練負載丟給 GPU 雲。最坑的是「中間檔」——花二、三十萬買 256GB Mac Studio,一年後 V5 發佈、量化標準又變,硬體折舊超預期。

6. 為什麼必須 Mac:UMA、Metal 與 KV 落盤的不可替代性

三個理由。其一,Apple Silicon 的統一記憶體架構(UMA)讓 GPU 直接定址全部 512GB,沒有 PCIe 拷貝——RTX 5090 的 32GB VRAM 在 V4 Flash 160GB 權重前直接放棄,Mac Studio M3 Ultra 在 160–180W TDP 下就能載入 V4-Pro Q4。其二,macOS NVMe SSD 與 ds4 的磁碟 KV 快取讓會話上下文完整落盤,下次啟動續上,省掉數分鐘 re-prefill;GPU 雲臨時容器幾乎無法實現。其三,當前 macOS CPU 路徑有核心 bug,跑 ds4 CPU 後端會 panic 整機——必須 Metal 後端的高記憶體 Mac 才行。

7. 最小可復現 Runbook:Mac VPS 上的 ds4 五步部署

VPSMAC 128GB Mac VPS 上從零到接 Cursor 的完整步驟:

步驟 1:拉程式碼並編譯 Metal 二進位。SSH 登入 Mac VPS,裝 Xcode CLT 後:

git clone https://github.com/antirez/ds4.git
cd ds4 && make    # 產出 ./ds4 與 ./ds4-server

步驟 2:下載 V4 Flash q2 GGUF。社群維護 IQ2XXS-w2Q2K-AProjQ8 等推薦量化,約 81GB;用 aria2c -x 16huggingface-cli download 跑後台任務。步驟 3:啟動 ds4-server 並驗證 KV 落盤

./ds4-server -m ./ds4flash.gguf --ctx 128000 \
             --kv-disk ./kv-cache --port 8080
curl -s http://127.0.0.1:8080/v1/models

步驟 4:接 Cursor / opencode / 自家 Agent。ds4-server 暴露 OpenAI 相容 `/v1/chat/completions` 與 Tool Calling,把 Cursor 的 OpenAI API base 改成 `http://your-mac-vps:8080/v1`;安全起見用 `ssh -L 8080:127.0.0.1:8080` 端口轉發,避免公網暴露。步驟 5:launchd 常駐 + 監控。寫 launchd plist 放到 `~/Library/LaunchAgents/`,加 `KeepAlive` 與日誌路徑;用 `log stream` 抓 panic,結合 OpenClaw 閘道做告警。

8. Mac VPS + ds4:本地推理與彈性算力的最佳組合

Linux GPU 雲、Docker 容器或 Windows AI PC 跑 V4 各有真實問題:Linux GPU 雲沒有 UMA,V4 Flash 必須 H100/H200 起步,單卡月成本遠高於同等記憶體 Mac Studio;Docker 在 macOS 上要繞過 Apple Virtualization 與 IO 抽象,性能折損明顯;Windows RTX 5090 32GB VRAM 直接放棄;本地買 Mac 又面臨硬體鎖死與兩年折舊。當你需要一條 SSH 習慣統管「ds4 推理 + iOS 工具鏈 + OpenClaw 閘道 + launchd 常駐 + 遠程 GPU 調度」時,租賃 VPSMAC 的 Apple Silicon Mac 雲主機通常是更優解——把 ds4 跑在 128/256/512GB 專屬實例,按需切換配置;將來訓練或多卡推理再把負載丟給 CoreWeave / Lambda / RunPod(參見 CoreWeave 決策矩陣),Mac VPS 做控制平面,整體 TCO 比把所有東西堆在 GPU 節點低得多。

9. FAQ

ds4 能與 OpenClaw 共存嗎? 完全可以。ds4-server 預設 8080,OpenClaw Gateway 18789,互不衝突;把 OpenClaw 的 Provider 指向 ds4 的 OpenAI 相容端點,Agent 可直接呼叫本地 V4,省下外部 API 帳單。參考 OpenClaw v2026.5.20 升級 Runbook

ROCm 與 CUDA 分支能用嗎? CUDA 主線支援 DGX Spark(GB10)與一般 CUDA GPU;ROCm 在獨立分支由社群維護,更新有時差,生產建議 Metal 或 CUDA。llama.cpp / LM Studio 何時支援 V4? 截至 2026-05 官方未合併,V4 自訂 op 與 reasoning 調度移植成本高,預計還需數月——ds4 幾乎是 Mac 上唯一可用 V4 引擎。按需計費如何避免「跑完忘了關」? 用 launchd + 「X 小時無活躍請求則告警」腳本,或把 ds4-server 配成超時退出,配合 VPSMAC 按小時計費自動停機。

10. 結論

antirez 的 ds4 把「本地跑 DeepSeek V4」從理論變成可上手的工程,但工程邊界是硬體門檻——96GB 入場、128GB 起步、512GB 才是真正無妥協本地推理。租 Mac VPS 把曲線壓平:按需開通 128/256/512GB 實例,V4 Flash 升級 V4-Pro 不換機,配合 GPU 雲做訓練分工,是 2026 年「ds4 + 本地 V4 + Apple 工具鏈」最現實的落地路徑。