2026 OpenClaw 本番可観測性の最小構成:コマンド階段、JSONL、Gateway プローブ、Token 日次閾値(Mac クラウド 24/7)
初回デプロイと 18789は通過済みでも、本番は不透明なままになりがちです。UI が緑でも RPC プローブが健康とは限らない、ERROR が無くてもチャネル配送が成功とは限らない、Token と spawn は請求が跳ねるまで静かに悪化します。本稿は公式のコマンド階段に沿い、2026 年向けに JSONL の追跡順、アップグレード後 15 分の受け入れ(auth/bind・remote/local)、Prometheus 無しでも回る 人間向け日次閾値 を整理します。無応答・heartbeat や sessions_spawn とは役割分担します。
1. 痛みの三類型
CLI・ゲートウェイ・RPC・チャネル・プロバイダ・sessions_spawn と縦に長い。プロセスとダッシュボードだけでは層別の健康証明が欠け、チャネル問題をモデル側に誤投げしたり、remote URL ドリフトを「壊れた」と誤認したりします。昇格後(OPENCLAW_* 移行)は特に「半分だけ設定された」灰色地帯が出ます。
- プローブと UI の乖離:
Runtime: runningだけでは不十分。RPC probe: okをセットで見る。gateway.mode=remoteでは CLI が指す先と実サービスがズレやすい。 - JSONL の順序:レベルと時間窓で先に絞り、request id で相関。INFO 心拍だけ眺めて rate_limit 一行を落とさない。
- コストと spawn の静かな悪化:サンドボックス権限の話(spawn 専文)とは別軸。ベースラインと単純閾値が要る。
Docker はコンテナ内外で doctor を両方。分岐設定は Docker 排障 を参照。
2. シグナル分類表
| シグナル | 優先度 | 対応 | 避けること |
|---|---|---|---|
bind/auth 変更日に RPC probe: failed | P0 | リリース停止、mode/bind/token diff | いきなり npm 再インストール |
| 429 連打 | P0 | 並列低下・長文脈オフ・バックオフ | 無思考リトライ |
| ゲートウェイ稼働だがチャネル probe 失敗 | P1 | channels status --probe、Bot 権限 | temperature いじり |
| spawn 受理だが成果物なし(既知パターン) | P1 | リリースノート・再起動周期・spawn 記事 | モデル怠け認定 |
本番ハードニング と日時を突き合わせ、トークンローテとプローブ失敗を分離します。
3. 五歩以上
- 階段:
openclaw status→gateway status(Runtime + RPC)→doctor→channels status --probe。順序固定。remote ならgateway.remote.urlを CLI と launchd/systemd で一致させる。 - JSONL:
openclaw logs --followで warn/error と 429/unauthorized/spawn を先に。無応答は heartbeat 記事 と併読。 - 昇格後 15 分:バージョン一致、サービス再起動、doctor クリーン、チャネル試験、最小 spawn/cron のログ一行、auth/bind/SecretRef diff。失敗なら先にロールバック(昇格概要)。
- Token 閾値:例:7 日移動中央値比 +80%、1 時間 spawn 失敗率 5% 超 → スタンドアップで共有。
- Mac 24/7:plist の標準出力/エラーとゲートウェイログを一致。launchd 環境 と同型の「SSH では動くが再起動で死ぬ」を防ぐ。
jq が無ければ grep キーワード集合をチームで固定。4. 監査向けメモ
RPC プローブの定義、JSONL スキーマの版差、429 バックオフのトレース可能性(共通エラー)、spawn 並列と失敗率窓、ゲートウェイトークン周期と least-privilege 表、NTP ずれ。
5. Mac クラウド基盤へ
汎用 Linux/Windows デスクトップに雑なログ回収を重ねると環境ドリフトと無人起動時のログ欠落が増えます。ダッシュボードだけ買っても階段とフィールド契約が無ければインシデントで掘れません。SSH と launchd が第一級の Mac クラウドに置けば、階段・JSONL・plist を一つの Runbook にし、5 分セットアップ と自然に接続できます。24/7 で監査可能性まで欲しいなら、VPSMAC M4 Mac クラウドのレンタルは仮設マシン混在より予測しやすいことが多いです。
6. FAQ
JSONL 無しで始められる?
grep + 四段階で「緑の定義」を先に揃え、後から構造化でよい。
remote と local の違いは?
CLI の URL・トークン・サービス環境を揃え、到達性・認証・誤インスタンスを層別に。
sessions_spawn 記事との違いは?
そちらは権限とサンドボックス。こちらは日常健康面とコスト閾値。インシデントでは両方。