DoorDash 开发了一个基于 LLM 的自动化模拟与评估“飞轮”,用于严格测试非确定性客户支持聊天机器人,实现了幻觉率降低 90%。
📝 详细摘要
DoorDash 实施了一个精密的离线实验框架,以解决测试非确定性 LLM 驱动的聊天机器人固有的难度。该系统具有一个“模拟与评估飞轮”,其中一个 LLM 充当客户——模仿源自历史对话记录的真实意图和行为——而生产环境的聊天机器人在模拟环境中响应。这种设置允许在几分钟内测试数百个多轮对话。一个利用 LLM 作为评判者的自动化评估层,评估这些交互的合规性、语气和准确性。一个关键的技术突破是利用该框架来改进上下文工程,具体而言,通过创建一个“案例状态层”来结构化工具历史,这成功地缓解了由上下文窗口过载引起的幻觉。
💡 主要观点
- 该框架解决了测试非确定性 AI 系统的挑战。 与传统决策树不同,LLM 会产生不可预测的结果;DoorDash 使用模拟器生成数百种不同的对话路径,以确保可靠性。
💬 文章金句
- 核心挑战是在生产前验证基于 LLM 的支持系统:你如何测试一个从不两次给出相同答案的聊天机器人?
- 通过该框架验证的上下文工程改进在部署前将幻觉率降低了大约 90%。
- 模拟器和评估共同构成一个持续的开发循环。
- 模拟器实现了对多种上下文配置和提示策略的快速测试,迅速暴露了故障模式并验证了改进。
- 工程师识别故障案例,添加评估检查,并生成针对这些场景的额外模拟。
📊 文章信息
AI 评分:83
来源:InfoQ
作者:Leela Kumili
分类:人工智能
语言:英文
阅读时间:3 分钟
字数:503
标签: LLM 运维, 聊天机器人测试, AI 模拟, 幻觉缓解, 自动化评估