DoorDash 构建 LLM 对话模拟器，规模化测试客户支持聊天机器人

📌 一句话摘要

DoorDash 开发了一个基于 LLM 的自动化模拟与评估“飞轮”，用于严格测试非确定性客户支持聊天机器人，实现了幻觉率降低 90%。

📝 详细摘要

DoorDash 实施了一个精密的离线实验框架，以解决测试非确定性 LLM 驱动的聊天机器人固有的难度。该系统具有一个“模拟与评估飞轮”，其中一个 LLM 充当客户——模仿源自历史对话记录的真实意图和行为——而生产环境的聊天机器人在模拟环境中响应。这种设置允许在几分钟内测试数百个多轮对话。一个利用 LLM 作为评判者的自动化评估层，评估这些交互的合规性、语气和准确性。一个关键的技术突破是利用该框架来改进上下文工程，具体而言，通过创建一个“案例状态层”来结构化工具历史，这成功地缓解了由上下文窗口过载引起的幻觉。

💡 主要观点

- 该框架解决了测试非确定性 AI 系统的挑战。 与传统决策树不同，LLM 会产生不可预测的结果；DoorDash 使用模拟器生成数百种不同的对话路径，以确保可靠性。

一个闭环“飞轮”将模拟与自动化评估指标相结合。 该系统结合了 LLM 客户模拟器与自动化评判者，根据幻觉率、语气和任务完成准确性对结果进行分类。

通过“案例状态层”进行上下文工程显著减少了错误。 通过将工具历史和原始日志结构化为一个简化的状态层，工程师将幻觉率降低了 90%，防止模型过载。

模拟的后端依赖项支持大规模的真实操作测试。 模拟器使用模拟 API 进行订单查询和退款，允许 AI 对复杂的真实业务逻辑进行测试，而不影响实时数据。

结构化的从问题到生产的工作流程确保了高部署标准。 工程师识别故障，根据人工判断校准 LLM 作为评判者的评估，并迭代提示，直到通过率达到可接受的阈值，然后才上线。

💬 文章金句

- 核心挑战是在生产前验证基于 LLM 的支持系统：你如何测试一个从不两次给出相同答案的聊天机器人？

通过该框架验证的上下文工程改进在部署前将幻觉率降低了大约 90%。
模拟器和评估共同构成一个持续的开发循环。
模拟器实现了对多种上下文配置和提示策略的快速测试，迅速暴露了故障模式并验证了改进。
工程师识别故障案例，添加评估检查，并生成针对这些场景的额外模拟。

📊 文章信息

AI 评分：83

来源：InfoQ

作者：Leela Kumili

分类：人工智能

语言：英文

阅读时间：3 分钟

字数：503

标签： LLM 运维, 聊天机器人测试, AI 模拟, 幻觉缓解, 自动化评估

阅读完整文章

DoorDash 构建 LLM 对话模拟器，规模化测试客户支持聊天机器人

🤖 問 AI