Moda 利用基于 Deep Agents 和 LangSmith 构建的多智能体架构打造生产级 AI 设计平台,通过自定义 DSL 和动态上下文工程克服 LLM 在视觉推理方面的局限性。
📝 详细摘要
Moda 是一个 AI 原生设计平台,旨在让非设计师也能创作专业的视觉内容。本次技术深度解析探讨了他们基于 LangChain 的 Deep Agents 框架构建的多智能体系统,该系统包含设计、研究和品牌工具包智能体。一项关键创新是他们摒弃了包含大量坐标的 XML 格式,转而采用一种自定义 DSL,为 LLM 提供更易于推理的布局抽象。其架构采用了“分流-技能-主循环”(Triage-Skills-Main Loop)工作流,通过快速模型对任务进行分类,并利用提示词缓存(prompt caching)预加载特定的设计指南。他们还实现了动态工具加载,以保持上下文窗口的精简。LangSmith 为追踪、成本管理和快速迭代提供了必要的观测层,而其 UX 则在矢量画布上提供了一个类似 Cursor 的协作侧边栏。
💡 主要观点
- 开发用于视觉布局表示的自定义 DSL。 LLM 难以处理原始数值坐标;Moda 使用了一个抽象层,以类似于 Web 开发中 Flexbox 的方式表示布局,从而提高了推理能力并降低了 Token 成本。
💬 文章金句
- LLM 不擅长数学。PowerPoint 的 XML 规范包含大量 XY 坐标……对于 LLM 来说,这不是描述它想要将事物放置在何处的理想方式。
- 分流节点对输出格式进行分类……并预加载相关技能,这些技能是包含设计最佳实践的 Markdown 文档。
- 这改变了用户与 AI 之间的关系,从‘接受或拒绝’转变为真正的协作。
- LangSmith 的节点级成本追踪功能,使得在上下文丰富度和效率之间找到合适的平衡点变得非常简单。
📊 文章信息
AI 评分:91
来源:LangChain Blog
作者:LangChain Accounts
分类:人工智能
语言:英文
阅读时间:6 分钟
字数:1335
标签: AI 智能体, LangChain, Deep Agents, 上下文工程, 视觉设计