2026 OpenClaw 在 Mac 雲上對接 Ollama 本地模型:Provider、超時與健康檢查回退清單
誰、什麼問題:已能跑通 OpenClaw 閘道器與雲端 Key,但希望把部分會話切到 Ollama 本地模型以降低延遲與按 token 計費;一上生產就遇到「Thinking 很久無回覆、模型偶發 500、不知道先查閘道器還是先查 ollama serve」。本文結論:用同機/分機對照表定邊界,把模型名、HTTP base、超時與重試寫進可審計配置,並預留雲端 Provider 作為硬回退。結構:痛點編號清單、架構決策表、七步落地、三條可引用資源引數、CTA 前轉化段與 FAQ/HowTo 結構化資料。具體鍵名與 UI 以你所用 OpenClaw 版本官方文件為準。
本文要點
1. 導語摘要:閘道器、Ollama 與雲端 Key 的分工
OpenClaw Gateway 負責會話路由、工具呼叫與多通道;語言模型既可以走雲端 API Key,也可以走相容 OpenAI 語義的本地 HTTP 端點。Ollama 在 Mac 上常監聽 127.0.0.1:11434,透過 /api/chat 或相容層對外提供推理。把本地模型接進閘道器時,真正容易翻車的是三類錯位:模型名字串與 ollama list 不一致、base URL 在 Docker 與宿主機之間指錯名稱空間、以及超時設得過短導致通道側只看到「Thinking」而工具鏈早已放棄。本文預設你在 Apple Silicon Mac 雲或同等環境上已有 SSH,並已完成基礎閘道器安裝;目標是讓「本地優先、雲端兜底」成為可復現策略,而不是手工改一次算一次。
2. 痛點拆解:埠、模型名、超時與通道誤報
進階使用者反饋的問題高度集中,可按下面四條自查:
- 繫結地址過窄:Ollama 僅監聽 loopback,而 Gateway 跑在容器網路裡,HTTP 客戶端永遠連不上;或反過來把 0.0.0.0 暴露到公網卻未配套鑑權,引發安全評審一票否決。
- 模型名複製錯誤:標籤帶
:latest與不帶、大小寫或組織字首不一致,表現為 404 或空響應,通道里卻像「模型沉默」。 - 超時與併發:7×24 節點上同時跑多個會話,本地推理佇列拉長;若閘道器 HTTP 客戶端超時低於冷啟動載入時間,會誤報 Provider 不可用。
- 回退順序不清:本地失敗後若未配置第二 Provider,使用者體驗是直接斷答;若回退到雲端卻未限額,賬單會在故障視窗反向衝高。
3. 架構對照:Ollama 同機 vs 分機
評審架構時可直接使用下表對齊安全與運維責任。
| 維度 | Ollama 與 Gateway 同機 | Ollama 在分機/另一容器 |
|---|---|---|
| 網路路徑 | 127.0.0.1 或宿主機橋接,延遲最低 | 需固定內網 IP/服務名,TLS 與防火牆策略單獨設計 |
| 隔離 | 程序級;適合單租戶 Mac 雲 | 故障域分離;適合 GPU/記憶體獨佔節點 |
| 暴露面 | 禁止將 11434 直接暴露公網;配合 SSH 隧道或零信任 | 僅允許閘道器安全組訪問推理埠 |
| 排障 | curl 本機自檢即可 | 需分段抓包或 mTLS,定位鏈路更長 |
| 適用 | 個人與小團隊 PoC、低到中等併發 | 平臺化多租戶或重模型分載 |
4. 落地步驟:從空配置到可回退的七步
- 安裝並確認 Ollama:在目標機執行
ollama --version,用ollama pull拉取目標模型,ollama list記錄精確名稱。 - 本機探活:對
http://127.0.0.1:11434/api/tags或官方健康路徑執行curl,確認程序監聽與防火牆放行一致。 - 在 Gateway 側登記本地 Provider:填寫 base URL(容器內訪問宿主機時常用主機閘道器 IP 或 host 網路模式)、模型名字串、API 形態(OpenAI 相容或原生)。
- 設定超時與重試:冷啟動模型可能數十秒;為 HTTP 客戶端設定分層超時(連線 / 首位元組 / 總時長),避免與通道心跳衝突。
- 配置雲端回退:為同一邏輯助手或路由規則指定次優 Provider(如 Anthropic/OpenAI Key),並限制故障切換視窗內的最大 token。
- 接入程序管理:用
launchd或等價方式保證 Ollama 與 Gateway 同序啟動;記錄日誌路徑與輪轉策略。 - 驗收對話:用固定提示詞連跑三次,分別記錄首 token 時延、完整耗時與失敗率,再切到高併發壓測觀察佇列。
示例:本機快速自檢(請按環境替換模型名)。
5. 可引用資訊:記憶體、併發與超時預算
下列數字用於容量溝通,需以具體模型卡與量化檔位為準:
- 統一記憶體:常見 7B 級 Q4 量化在 Apple Silicon 上約需 5~6GB 級別權重駐留;同時開閘道器、通道外掛與第二個模型時,32GB 以下機器更易觸發交換分割槽抖動。
- 併發會話:每增加一條並行會話,峰值視訊記憶體/記憶體近似線性疊加;生產上常用「單模型單佇列 + 雲端溢位」而非無限本地並行。
- 超時建議:首 token 預算可設在數十秒級以覆蓋冷啟動;穩定後 p95 若仍高於業務閾值,應優先減併發或換更小模型,而不是盲目縮短超時掩蓋問題。
- 磁碟:多版本模型並存可迅速佔用數十 GB;在 Mac 雲上應配合磁碟水位告警與定期
ollama rm清理。 - 可觀測性:為每次本地推理記錄模型名、耗時與是否回退,才能在月底對齊「降本」與「可用性」兩條曲線。
6. 排障:doctor、日誌與通道 FAQ
建議固定順序:openclaw doctor → Gateway 日誌時間窗 → Ollama 程序與埠 → 再懷疑通道配置。若訊息平臺顯示長時間 Thinking,先在閘道器側確認 HTTP 是否已返回;若 HTTP 成功但通道無聲,再查配對、mention 與速率限制。下表彙總常見現象。
| 現象 | 優先檢查 | 次要檢查 |
|---|---|---|
| 立即 404 / model not found | ollama list 與配置字串 | 是否指向了錯誤的 base URL |
| 偶發超時 | 冷啟動與併發佇列 | 磁碟與交換是否觸發 |
| 通道無回覆 | 閘道器心跳與工具錯誤是否吞掉 | IM 側 webhook/許可權 |
| 回退後費用飆升 | 切換條件與 token 上限 | 是否在重試風暴中反覆打雲端 |
在 Windows 或通用 Linux VPS 上透過遠端桌面或巢狀虛擬化硬跑 macOS 工具鏈,往往面臨許可、效能與圖形棧缺口,排障小時數很快超過租金。Docker 裡疊一層 Ollama 看似省機器,卻增加捲許可權、網路名稱空間和 DNS 變數,長期 7×24 運維並不划算。對需要 Apple Silicon 向量效能、穩定 launchd 與官方工具鏈共存的生產場景,把 OpenClaw Gateway 與 Ollama 落在可 SSH 的專用 Mac 雲主機上,通常比繼續堆疊異構環境更省心;算力與開通節奏可與站內「五分鐘部署」類實操文章銜接,完成從試跑到常駐的閉環。