全是 Web 没 CLI 怎么行：一次把 StarAgent WebTerminal 改造成

📌 一句话摘要

本文详细介绍了如何将阿里云 StarAgent WebTerminal 改造为 Agent 友好的 CLI 工具，通过 wt 命令行工具实现远程 shell 执行、文件传输和交互式调试，让 AI Agent 能够像工程师一样进行远程排障。

📝 详细摘要

本文记录了作者将阿里云 StarAgent/Drogo WebTerminal 改造为 CLI 工具 wt 的完整实践。核心思路是：WebTerminal 继续负责官方授权和连接链路，wt CLI 负责将远程 shell、文件传输、交互式程序变成可调用能力，Skill 负责将排障经验写成可执行方法。文章详细介绍了 wsh/wcp 黑屏操作、会话复用设计、命令执行与输出捕获、文件 API 调用、交互式调试 HTTP 控制面等关键技术实现。通过 GPU hang 分析和 Emacs + eshell + gdb coredump 调试两个验收案例，展示了 Agent 如何像工程师一样动态执行命令、观察结果、继续决策。文章还讨论了设计取舍（为什么不直接连 SSH、为什么不做内置命令、为什么用 HTTP 交互），并总结了可复用的工程模式：先抽象执行面再沉淀场景、授权与执行解耦、输出可保存可解析可复盘、Skill 写边界和方法、交互式程序按状态机设计、文件传输协议化。

💡 主要观点

- 将 WebTerminal 抽象为 Agent 友好的 CLI 执行面，而非在 DOM 上操作。 通过 wt 命令行工具，Agent 可以像普通 shell 一样控制远端，执行命令、传输文件、进行交互式调试，避免了操作浏览器 DOM 的不稳定性和低效率。

授权与执行解耦：浏览器负责授权，CLI 负责执行。 WebTerminal 继续承载 SSO、角色、审计、心跳等官方连接链路，CLI 只复用已建立的会话，不保存 SSO token，也不绕过登录流程，兼顾安全与效率。

交互式调试采用 HTTP 控制面，支持 Agent 动态决策。 wt interact 启动本地 HTTP server，Agent 每次只发送一条命令，根据上一条输出决定下一步动作，实现了真正的交互式调试，而非一次性塞入所有命令。

Skill 是操作指南而非固化代码，场景逻辑留给 Agent。 Skill 描述操作方法、风险边界和推荐命令模板，不绑定具体 IP 或案例。Agent 根据现场动态规划执行路径，CLI 保持稳定，场景知识可快速迭代。

输出必须可保存、可解析、可复盘，支持多格式捕获。 命令输出同时保存 raw ANSI、plain text 和 xterm snapshot 三份证据，确保 Agent 和人都有可靠的现场信息，避免「我刚才好像看到过」的模糊状态。

💬 文章金句

- Skill 本质上就是说明书，是贴在工具箱盖子上的那张「先拧这个、再接那个、别把手伸进风扇里」的操作指南。真正能把活干成的，必须是 CLI：参数清楚、行为稳定、输出可解析、错误可复现、证据能落盘。

CLI 提供稳定手脚，Skill 提供行动章法，Agent 负责临场判断。别把 Agent 当高级 crontab 用，它会委屈，我们也亏。
先抽象执行面，再沉淀场景。Agent 缺的往往不是某个具体按钮，而是稳定的 command/observation loop。别一上来就问「能不能做一个 GPU hang 按钮」，按钮救不了复杂现场。
从 GPU hang 到 coredump 调试，真正有价值的不是某一组命令，而是 Agent 能够像工程师一样：观察、判断、执行、再观察。
能协议化就协议化，少点玄学，多点 checksum。

📊 文章信息

AI 初评：90

来源：阿里云开发者

作者：阿里云开发者

分类：人工智能

语言：中文

阅读时间：34 分钟

字数：8487

标签： WebTerminal, CLI, Agent, 远程排障, AI 编程

阅读完整文章

全是 Web 没 CLI 怎么行：一次把 StarAgent WebTerminal 改造成

🤖 問 AI