本文提出并实现了一个开源脚手架 WS Workspace,让 Agent 通过 CLI 指令向网页注入可交互组件(看板、决策卡、表单等),人类在页面上直接操作,Agent 通过结构化 JSON API 读取状态,实现真正的双向协作。
📝 详细摘要
文章从 Anthropic 团队成员 Thariq Shihipar 的「The Unreasonable Effectiveness of HTML」一文出发,指出 Markdown 作为线性文本格式在 Agent 协作中的根本瓶颈:信息读后即焚、人类只能用自然语言回复导致 Agent 需额外解析。作者提出将 HTML 从单向输出升级为双向协作介质的思路,并开源了 WS Workspace 脚手架。该脚手架基于 Express + WebSocket 构建,提供 7 个核心组件(看板、决策卡、待办、表单、表格、编辑器、标题),Agent 通过 CLI 命令注入组件,人类在页面上拖拽、点选、填写,Agent 通过 REST API 获取结构化 JSON 状态。文章详细阐述了技术实现、踩坑经验(IME 输入打断、拖拽 API 细节、ID 生成),并与 Markdown 聊天和 Claude Artifacts 进行了对比,认为该方案在信息密度、双向交互、状态持久性和 Agent 读取能力上有显著优势。
💡 主要观点
- Markdown 作为 Agent 输出格式存在根本瓶颈:信息读后即焚,人类只能用自然语言回复。 Markdown 是线性文本,滚动即消失;人类反馈非结构化,Agent 需额外 NLU 解析,低效且易出错。
💬 文章金句
- Agent 不再把 Markdown 塞进聊天窗口,而是维护一个可交互的 HTML 工作台——人类在页面上操作,Agent 读取状态继续推进。
- 当 HTML 从输出格式升级为双向协作的介质,Agent 跟人类之间的互动就不只是「更紧密」了——而是第一次真正意义上的「协作」。
- Agent 不再写给人看,而是跟人一起干。
📊 文章信息
AI 初评:87
来源:人人都是产品经理
作者:人人都是产品经理
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3437
标签: Agent, HTML, 双向协作, 脚手架, WebSocket