← 回總覽

用 HTML 代替 Markdown 跟 Agent 交互靠谱么?我做了个脚手架

📅 2026-05-13 07:46 人人都是产品经理 人工智能 2 分鐘 1520 字 評分: 87
Agent HTML 双向协作 脚手架 WebSocket
📌 一句话摘要 本文提出并实现了一个开源脚手架 WS Workspace,让 Agent 通过 CLI 指令向网页注入可交互组件(看板、决策卡、表单等),人类在页面上直接操作,Agent 通过结构化 JSON API 读取状态,实现真正的双向协作。 📝 详细摘要 文章从 Anthropic 团队成员 Thariq Shihipar 的「The Unreasonable Effectiveness of HTML」一文出发,指出 Markdown 作为线性文本格式在 Agent 协作中的根本瓶颈:信息读后即焚、人类只能用自然语言回复导致 Agent 需额外解析。作者提出将 HTML 从单向输

📌 一句话摘要

本文提出并实现了一个开源脚手架 WS Workspace,让 Agent 通过 CLI 指令向网页注入可交互组件(看板、决策卡、表单等),人类在页面上直接操作,Agent 通过结构化 JSON API 读取状态,实现真正的双向协作。

📝 详细摘要

文章从 Anthropic 团队成员 Thariq Shihipar 的「The Unreasonable Effectiveness of HTML」一文出发,指出 Markdown 作为线性文本格式在 Agent 协作中的根本瓶颈:信息读后即焚、人类只能用自然语言回复导致 Agent 需额外解析。作者提出将 HTML 从单向输出升级为双向协作介质的思路,并开源了 WS Workspace 脚手架。该脚手架基于 Express + WebSocket 构建,提供 7 个核心组件(看板、决策卡、待办、表单、表格、编辑器、标题),Agent 通过 CLI 命令注入组件,人类在页面上拖拽、点选、填写,Agent 通过 REST API 获取结构化 JSON 状态。文章详细阐述了技术实现、踩坑经验(IME 输入打断、拖拽 API 细节、ID 生成),并与 Markdown 聊天和 Claude Artifacts 进行了对比,认为该方案在信息密度、双向交互、状态持久性和 Agent 读取能力上有显著优势。

💡 主要观点

- Markdown 作为 Agent 输出格式存在根本瓶颈:信息读后即焚,人类只能用自然语言回复。 Markdown 是线性文本,滚动即消失;人类反馈非结构化,Agent 需额外 NLU 解析,低效且易出错。

HTML 工作台将 Agent 输出升级为双向协作介质,人类直接操作,Agent 读取结构化状态。 Agent 通过 CLI 注入看板、决策卡等组件,人类拖拽点选,Agent 通过 JSON API 获取零歧义的状态,形成闭环。
WS Workspace 脚手架基于 Express + WebSocket,仅两个运行时依赖,实现简单。 项目无前端框架,单 HTML 文件通过 Web Components 渲染,Agent 通过 CLI/MCP/Skill 三层与工作台交互。

💬 文章金句

- Agent 不再把 Markdown 塞进聊天窗口,而是维护一个可交互的 HTML 工作台——人类在页面上操作,Agent 读取状态继续推进。

  • 当 HTML 从输出格式升级为双向协作的介质,Agent 跟人类之间的互动就不只是「更紧密」了——而是第一次真正意义上的「协作」。
  • Agent 不再写给人看,而是跟人一起干。

📊 文章信息

AI 初评:87

来源:人人都是产品经理

作者:人人都是产品经理

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3437

标签: Agent, HTML, 双向协作, 脚手架, WebSocket

阅读完整文章

查看原文 → 發佈: 2026-05-13 07:46:00 收錄: 2026-05-13 12:00:03

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。