浏览器自动化：从 GUI 到 OpenCLI

📌 一句话摘要

本文介绍了 OpenCLI 这一开源工具，它通过解析和复现网页底层 API 请求，而非模拟前端 UI 交互，来解决浏览器自动化的效率与稳定性难题，并阐述了其面向 AI Agent 的自动化工作流和未来软件“可调用性”的竞争维度。

📝 详细摘要

文章深入探讨了传统基于 GUI 操作的浏览器自动化（如 Selenium）在效率和稳定性上的困境，并提出了一种全新的解决思路：绕过不稳定的前端界面，直接抓取和复现网页背后的 API 请求。作者介绍了其开源项目 OpenCLI，这是一个将网站 API 封装为本地命令行工具（CLI）的框架。文章详细阐述了 OpenCLI 的核心原理，包括面向 AI Agent 的探索工作流、五级认证策略（从公开 API 到 UI 自动化的降级方案）、适配器生成机制（YAML/TypeScript），以及通过 record 和 AI 辅助生成 CLI 的高级功能。最后，文章通过内部会画平台和 BOSS 直聘自动化等案例展示了其实用价值，并提出了“未来软件竞争可调用性”的前瞻观点，认为易于被 Agent 理解和调用的 API 将成为软件的新竞争维度。

💡 主要观点

- 放弃不稳定的 GUI 自动化，转向解析和复现底层 API 是浏览器自动化的更优解。 传统模拟点击、填表的方案受前端变化影响大、效率低。直接调用产生数据的后端 API，稳定性更高，执行速度更快，是实现高效自动化的根本路径。

OpenCLI 框架通过五级认证策略和适配器机制，系统化地将网站能力封装为 CLI。 该框架提供了从公开 API、Cookie 认证、Header 认证，到拦截前端状态管理请求，最后降级至 UI 自动化的完整策略链，并支持 YAML（声明式）和 TypeScript（编程式）两种适配器，灵活应对不同复杂度的网站。

为 AI Agent 设计的探索工作流和自动生成 CLI 能力，是 OpenCLI 面向未来的核心特性。 文章定义了 AI Agent 探索网站 API 的标准步骤（观察、抓包、交互、验证），并提供了 opencli explore、record 录制以及结合 AI（如 Cursor）自动生成适配器的工具链，极大降低了构建自动化脚本的门槛。

未来软件的竞争维度将从“界面友好”转向“可调用性”，易于被 Agent 集成的 API 更具价值。 在 AI Agent 普及的背景下，软件不仅服务于人，更要服务于 Agent。清晰、稳定、易于理解和调用的 API 接口，将成为软件能否融入下一代智能工作流的关键竞争力。

💬 文章金句

- 核心想法很简单：不跟网页界面较劲，直接抓它背后的 API。

你（AI Agent）必须通过浏览器打开目标网站去探索！不要只靠 opencli explore 命令或静态分析来发现 API。
GUI 是给人用的。API 是能力底座。而 Agent 最喜欢的，其实是更清晰的执行面：命令、参数、返回值、失败原因。
未来软件可能会多一个新竞争维度：不是谁页面更好看。而是谁更容易被 Agent 理解、调用、验证，再接进工作流。

📊 文章信息

AI 初评：91

来源：阿里云开发者

作者：阿里云开发者

分类：人工智能

语言：中文

阅读时间：10 分钟

字数：2365

标签：浏览器自动化, AI Agent, OpenCLI, RPA, API 调用

阅读完整文章

浏览器自动化：从 GUI 到 OpenCLI

🤖 問 AI