# Kestra 多 Agent 编排推进路线图

更新时间：2026-06-02

## 当前状态

已完成：

- 本地 Kestra + PostgreSQL 临时 POC 启动；
- `openclaw_ping` 成功；
- `bot1_profile_ping` 成功；
- `bot2_profile_ping` 成功；
- 验证报告已保存：`runtime/POC_VALIDATION_REPORT.md`。

当前 POC 继续运行：

- Kestra UI/API：`http://127.0.0.1:18080/ui/`
- Bridge：`http://127.0.0.1:19091`

## 阶段 1：标准化本地 POC（建议下一步）

目标：把“能跑通”升级为“可控、可复用、可扩展”。

### 任务 1：Bridge v1

- 改为 POST JSON；
- 加 token；
- 加 allowlist；
- 加 request_id；
- 加并发锁；
- 加 stdout/stderr 脱敏和限长；
- 加错误码；
- 加本地日志文件。

### 任务 2：Flow 模板库

创建以下 flow 模板：

1. `profile_ping`：指定 profile 健康检查；
2. `openclaw_health`：OpenClaw 状态检查；
3. `cross_machine_profile_run`：Bot1/Bot2 跨机 profile 调用；
4. `human_approval_pause`：需要用户确认时暂停；
5. `agent_pipeline_basic`：计划 → 执行 → 验证 → 汇总。

### 任务 3：真实低风险流程

建议第一个真实流程：

```text
Flow: 多 agent 状态健康日报 POC
  1. Bot1 it 查询本机 profile 状态
  2. Bot2 it2 查询 Bot2 profile 状态
  3. OpenClaw health
  4. Hermes IT 汇总为一段短报告
```

原因：

- 低风险；
- 不写 NAS；
- 不改服务；
- 能体现跨系统流程和状态 UI；
- 失败也容易定位。

## 阶段 2：内网常驻试运行

目标：让 Kestra 在 Bot1 或 NAS 内网常驻 3–7 天，观察稳定性。

可选：

### 路线 A：Bot1 常驻试运行

优点：和 POC 最接近，调试快。

需要用户确认：

- 是否允许创建 LaunchAgent 或后台守护；
- 是否允许 Kestra/Postgres 容器随登录启动；
- 是否保留 POC volumes；
- UI 访问方式。

### 路线 B：NAS 常驻试运行

优点：中央化更好。

需要用户确认：

- NAS Docker 创建容器；
- PostgreSQL 数据卷；
- Kestra 数据卷；
- UI 端口；
- 镜像来源；
- 反代/认证；
- Bot1/Bot2 bridge 是否常驻。

## 阶段 3：生产化

目标：成为长期跨系统编排面板。

### 必做项

- 镜像固定版本，不用 `latest`；
- 官方镜像或可信私有镜像；
- PostgreSQL 定期备份；
- Flow definitions 版本化；
- Bridge token 轮换；
- execution/log retention 策略；
- health monitor；
- 失败通知；
- dashboard 访问控制；
- 灾难恢复文档。

### 不做项

- 不让 Kestra 自动改 Hermes gateway/config；
- 不让 OpenClaw 写 NAS；
- 不让 Kestra 绕过 Hermes 的 NAS 二次确认；
- 不让 Kestra 保存大段私密 prompt/transcript；
- 不让非认证 UI/API 暴露到公网。

## 推荐决策点

### 决策 1：继续 POC 还是开始 Bridge v1？

推荐：开始 Bridge v1。

原因：当前 POC 已证明可行，下一瓶颈不是能否调用，而是调用边界和安全性。

### 决策 2：短期常驻放哪里？

推荐：先 Bot1 本地常驻试运行，再 NAS。

原因：

- Bot1 本地和 POC 最接近；
- 可以先稳定 flow/bridge；
- NAS 上服务化前需要更多确认；
- 避免把未成熟 bridge 直接放中央。

### 决策 3：第一个真实 flow 是什么？

推荐：多 agent 状态健康日报 POC。

验收：

- Kestra UI 中能看到 4 个 step；
- Bot1/Bot2/OpenClaw 状态都进入 task output；
- Hermes IT 汇总为短报告；
- 失败时能看到是哪一段失败；
- 不含 secrets；
- 不写 NAS。

## 近期行动清单

1. 写 Bridge v1 代码；
2. 加 token/allowlist/并发锁；
3. 用当前 POC Kestra 重新部署 flow；
4. 跑“多 agent 状态健康日报 POC”；
5. 写二次验证报告；
6. 再决定 Bot1 常驻或 NAS 常驻。
