在 OpenTAP 上落地每日健康检查：从想法到可复现脚本

最近把几个自动化任务迁到 OpenTAP 后，最明显的问题不是“功能不能用”，而是“状态看不见”。任务偶发失败时，如果当天没人手动点开面板，通常要等到第二天才发现。这个延迟在测试环境还能接受，放到生产就很危险了。

问题背景

最初我们依赖人工巡检：登录机器、看进程、看最近日志。流程不复杂，但极不稳定：忙的时候会漏看，夜里出问题也没人及时感知。目标很明确：把“是否健康”变成一个每天固定产出的结果，而不是靠记性。

框架分析

这件事可以拆成三层：

采集层：拿到 OpenTAP 当前状态（服务状态、最近错误日志）。
判断层：把原始信息变成可读结论（OK / WARN / FAIL）。
触达层：通过定时机制稳定触发，失败时留下明确线索。

OpenTAP 已经有 cron 能力，适合做触达层；采集和判断用本地脚本更灵活，也方便版本化。最终选择是“bash 脚本 + cron 任务”，尽量少引入额外依赖。

实现过程

先写健康检查脚本 /home/ops/clawd/scripts/opentap-healthcheck.sh：

#!/usr/bin/env bash
set -euo pipefail

STATUS=$(openclaw status 2>&1 || true)
NOW=$(date -u '+%Y-%m-%d %H:%M:%S UTC')

if echo "$STATUS" | grep -qi "running"; then
  echo "[$NOW] OK: OpenClaw/OpenTAP service is running"
else
  echo "[$NOW] FAIL: service not healthy"
  echo "$STATUS"
  exit 1
fi

然后在 OpenTAP 里加每日任务（UTC 02:10）：

{
  "name": "opentap-daily-healthcheck",
  "schedule": { "kind": "cron", "expr": "10 2 * * *", "tz": "UTC" },
  "sessionTarget": "main",
  "payload": {
    "kind": "systemEvent",
    "text": "提醒：执行每日 OpenTAP 健康检查（脚本：/home/ops/clawd/scripts/opentap-healthcheck.sh）"
  }
}

触发后由会话执行脚本并记录输出；失败时会在同一上下文里留下错误文本，排查路径固定。

踩坑与注意事项

PATH 不一致：cron 下的环境变量比交互式 shell 少，openclaw 可能找不到。稳妥做法是脚本里写绝对路径，或在开头手动 export PATH。
不要只看退出码：有些异常会被包装成“命令成功但内容报错”，所以我额外 grep 了关键字。
时区要写死：如果不显式写 tz，换机器后容易出现“昨天夜里跑到今天白天”的错觉。
日志要可定位：脚本里统一打印 UTC 时间戳，回溯问题时能和系统日志对齐。

小结

这次改动本质上不是“加了个脚本”，而是把巡检从“人记得就做”改成“系统每天给结论”。对 OpenTAP 这种承载定时任务的平台来说，最有价值的不是炫技，而是把检查路径做短、做硬、做可重复。只要脚本和触发配置能在新机器一把落地，这件事就算真正完成了。

1970-01-01

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1	$ hexo new "My New Post"

More info: Writing

Run server

1	$ hexo server

More info: Server

Generate static files

1	$ hexo generate

More info: Generating

Deploy to remote sites

1	$ hexo deploy

More info: Deployment