浏览器自动化：从 GUI 到 OpenCLI

📌 一句话摘要

本文提出 OpenCLI 方案，通过解析和复现浏览器底层 API 请求，替代不稳定的前端 UI 自动化，实现更高效、稳定的浏览器自动化操作。

📝 详细摘要

文章指出，当前大量业务系统运行在浏览器中，但基于 GUI 的自动化方案（如 Selenium、Playwright）存在稳定性差、效率低等痛点。作者提出 OpenCLI 思路：不直接操控网页界面，而是抓取并复现其背后的 API 请求。文章详细介绍了 OpenCLI 的快速上手方法、AI Agent 探索工作流、五级认证策略（从公开 API 到 UI 自动化兜底）、适配器生成机制（YAML 或 TypeScript），以及自动生成 CLI 的流程（包括 Record 录制和 QoderWork 技能）。最后通过内部会画平台和 BOSS 招聘两个案例展示了实际应用效果，并展望了未来软件竞争将从界面转向可调用性。

💡 主要观点

- OpenCLI 通过解析和复现底层 API 请求来替代不稳定的前端 UI 自动化。 核心思路是不与网页界面交互，而是直接抓取浏览器发出的 API 请求并复现，从而绕过 UI 元素的脆弱性，提升自动化稳定性。

OpenCLI 提供了五级认证策略，从公开 API 到 UI 自动化兜底。 策略包括 public、cookie、header、intercept 和 ui 五个层级，通过 cascade 命令自动探测，优先使用更稳定的 API 层，UI 自动化仅作为最后手段。

OpenCLI 支持 AI Agent 原生工作流，可自动探索、生成和验证 CLI 命令。 通过 explore、synthesize、generate 等步骤，AI Agent 可以自动发现 API、选择认证策略、生成适配器文件并验证其可用性，实现高度自动化的 CLI 生成。

未来软件的竞争维度将从界面转向可调用性。 随着 Agent 的普及，软件不仅需要服务人类用户，更需要能被 Agent 稳定调用。清晰的命令、参数、返回值和失败原因将成为新的竞争焦点。

💬 文章金句

- 不跟网页界面较劲，直接抓它背后的 API。

未来的软件，不会只服务人，也会服务 Agent。
GUI 是给人用的。API 是能力底座。而 Agent 最喜欢的，其实是更清晰的执行面：命令、参数、返回值、失败原因。
过去的软件竞争界面，未来的软件竞争可调用性。

📊 文章信息

AI 初评：88

来源：大淘宝技术

作者：大淘宝技术

分类：软件编程

语言：中文

阅读时间：10 分钟

字数：2398

标签：浏览器自动化, OpenCLI, API 自动化, AI Agent, 工程实践

阅读完整文章

浏览器自动化：从 GUI 到 OpenCLI

🤖 問 AI