為什麼容器裡的 OpenClaw 連不上本機 Ollama？

常見原因是 127.0.0.1 指向容器自身而非宿主機，或 Ollama 僅監聽 loopback。應改為宿主機可達地址或使用 host 網路，並複查防火牆。

Thinking 很久但沒有回覆先查什麼？

先在閘道器側確認本地 HTTP 是否完成或超時，再查 Ollama 佇列與記憶體；最後才查 IM 通道許可權。

如何避免回退到雲端時賬單飆升？

為回退設定 token 與呼叫上限，記錄回退次數，並在模型恢復後自動切回本地。

2026 OpenClaw 在 Mac 雲上對接 Ollama 本地模型：Provider、超時與健康檢查回退清單

誰、什麼問題：已能跑通 OpenClaw 閘道器與雲端 Key，但希望把部分會話切到 Ollama 本地模型以降低延遲與按 token 計費；一上生產就遇到「Thinking 很久無回覆、模型偶發 500、不知道先查閘道器還是先查 ollama serve」。本文結論：用同機/分機對照表定邊界，把模型名、HTTP base、超時與重試寫進可審計配置，並預留雲端 Provider 作為硬回退。結構：痛點編號清單、架構決策表、七步落地、三條可引用資源引數、CTA 前轉化段與 FAQ/HowTo 結構化資料。具體鍵名與 UI 以你所用 OpenClaw 版本官方文件為準。

1. 導語摘要：閘道器、Ollama 與雲端 Key 的分工

OpenClaw Gateway 負責會話路由、工具呼叫與多通道；語言模型既可以走雲端 API Key，也可以走相容 OpenAI 語義的本地 HTTP 端點。Ollama 在 Mac 上常監聽 127.0.0.1:11434，透過 /api/chat 或相容層對外提供推理。把本地模型接進閘道器時，真正容易翻車的是三類錯位：模型名字串與 ollama list 不一致、base URL 在 Docker 與宿主機之間指錯名稱空間、以及超時設得過短導致通道側只看到「Thinking」而工具鏈早已放棄。本文預設你在 Apple Silicon Mac 雲或同等環境上已有 SSH，並已完成基礎閘道器安裝；目標是讓「本地優先、雲端兜底」成為可復現策略，而不是手工改一次算一次。

2. 痛點拆解：埠、模型名、超時與通道誤報

進階使用者反饋的問題高度集中，可按下面四條自查：

繫結地址過窄：Ollama 僅監聽 loopback，而 Gateway 跑在容器網路裡，HTTP 客戶端永遠連不上；或反過來把 0.0.0.0 暴露到公網卻未配套鑑權，引發安全評審一票否決。
模型名複製錯誤：標籤帶 :latest 與不帶、大小寫或組織字首不一致，表現為 404 或空響應，通道里卻像「模型沉默」。
超時與併發：7×24 節點上同時跑多個會話，本地推理佇列拉長；若閘道器 HTTP 客戶端超時低於冷啟動載入時間，會誤報 Provider 不可用。
回退順序不清：本地失敗後若未配置第二 Provider，使用者體驗是直接斷答；若回退到雲端卻未限額，賬單會在故障視窗反向衝高。

3. 架構對照：Ollama 同機 vs 分機

評審架構時可直接使用下表對齊安全與運維責任。

維度	Ollama 與 Gateway 同機	Ollama 在分機/另一容器
網路路徑	`127.0.0.1` 或宿主機橋接，延遲最低	需固定內網 IP/服務名，TLS 與防火牆策略單獨設計
隔離	程序級；適合單租戶 Mac 雲	故障域分離；適合 GPU/記憶體獨佔節點
暴露面	禁止將 11434 直接暴露公網；配合 SSH 隧道或零信任	僅允許閘道器安全組訪問推理埠
排障	`curl` 本機自檢即可	需分段抓包或 mTLS，定位鏈路更長
適用	個人與小團隊 PoC、低到中等併發	平臺化多租戶或重模型分載

提示：無論同機還是分機，先寫清「誰發起 HTTP、解析哪一個 DNS、經過哪條路由」，再改模型引數；否則會在 temperature 上浪費大量時間。

4. 落地步驟：從空配置到可回退的七步

安裝並確認 Ollama：在目標機執行 ollama --version，用 ollama pull 拉取目標模型，ollama list 記錄精確名稱。
本機探活：對 http://127.0.0.1:11434/api/tags 或官方健康路徑執行 curl，確認程序監聽與防火牆放行一致。
在 Gateway 側登記本地 Provider：填寫 base URL（容器內訪問宿主機時常用主機閘道器 IP 或 host 網路模式）、模型名字串、API 形態（OpenAI 相容或原生）。
設定超時與重試：冷啟動模型可能數十秒；為 HTTP 客戶端設定分層超時（連線 / 首位元組 / 總時長），避免與通道心跳衝突。
配置雲端回退：為同一邏輯助手或路由規則指定次優 Provider（如 Anthropic/OpenAI Key），並限制故障切換視窗內的最大 token。
接入程序管理：用 launchd 或等價方式保證 Ollama 與 Gateway 同序啟動；記錄日誌路徑與輪轉策略。
驗收對話：用固定提示詞連跑三次，分別記錄首 token 時延、完整耗時與失敗率，再切到高併發壓測觀察佇列。

示例：本機快速自檢（請按環境替換模型名）。

curl -sS http://127.0.0.1:11434/api/tags | head
ollama run llama3.2 "ping"

5. 可引用資訊：記憶體、併發與超時預算

下列數字用於容量溝通，需以具體模型卡與量化檔位為準：

統一記憶體：常見 7B 級 Q4 量化在 Apple Silicon 上約需 5～6GB 級別權重駐留；同時開閘道器、通道外掛與第二個模型時，32GB 以下機器更易觸發交換分割槽抖動。
併發會話：每增加一條並行會話，峰值視訊記憶體/記憶體近似線性疊加；生產上常用「單模型單佇列 + 雲端溢位」而非無限本地並行。
超時建議：首 token 預算可設在數十秒級以覆蓋冷啟動；穩定後 p95 若仍高於業務閾值，應優先減併發或換更小模型，而不是盲目縮短超時掩蓋問題。
磁碟：多版本模型並存可迅速佔用數十 GB；在 Mac 雲上應配合磁碟水位告警與定期 ollama rm 清理。
可觀測性：為每次本地推理記錄模型名、耗時與是否回退，才能在月底對齊「降本」與「可用性」兩條曲線。

6. 排障：doctor、日誌與通道 FAQ

建議固定順序：openclaw doctor → Gateway 日誌時間窗 → Ollama 程序與埠 → 再懷疑通道配置。若訊息平臺顯示長時間 Thinking，先在閘道器側確認 HTTP 是否已返回；若 HTTP 成功但通道無聲，再查配對、mention 與速率限制。下表彙總常見現象。

現象	優先檢查	次要檢查
立即 404 / model not found	`ollama list` 與配置字串	是否指向了錯誤的 base URL
偶發超時	冷啟動與併發佇列	磁碟與交換是否觸發
通道無回覆	閘道器心跳與工具錯誤是否吞掉	IM 側 webhook/許可權
回退後費用飆升	切換條件與 token 上限	是否在重試風暴中反覆打雲端

在 Windows 或通用 Linux VPS 上透過遠端桌面或巢狀虛擬化硬跑 macOS 工具鏈，往往面臨許可、效能與圖形棧缺口，排障小時數很快超過租金。Docker 裡疊一層 Ollama 看似省機器，卻增加捲許可權、網路名稱空間和 DNS 變數，長期 7×24 運維並不划算。對需要 Apple Silicon 向量效能、穩定 launchd 與官方工具鏈共存的生產場景，把 OpenClaw Gateway 與 Ollama 落在可 SSH 的專用 Mac 雲主機上，通常比繼續堆疊異構環境更省心；算力與開通節奏可與站內「五分鐘部署」類實操文章銜接，完成從試跑到常駐的閉環。