用 LLM Agent 重构告警排查流程｜得物技术

📌 一句话摘要

本文详细介绍了得物技术团队基于 LLM Agent 构建的告警自动排查系统 Troubleshooter，涵盖架构设计、ReAct 推理循环、工具设计、幻觉控制与生产效果，上线后中位数排查耗时从 20 分钟降至 4.4 分钟。

📝 详细摘要

文章围绕得物技术团队自研的 Troubleshooter 系统展开，系统通过 LLM Agent（基于 Spring AI Alibaba 的 ReAct 框架）自动完成告警数据采集、根因分析和处置建议生成。文章详细阐述了分层架构设计、SupervisorAgent 的核心编排逻辑、四个排查工具（日志查询、监控指标、链路追踪、接口错误排查）的设计哲学与超时隔离机制，以及动态策略组装、AI 权限安全、幻觉控制（规则校验 + 独立验收 Agent + 多轮交叉验证）等关键实践。通过一个真实的网关超时案例完整展示了排查过程与结论输出。上线后覆盖 11 个服务与 10+ 种告警类型，中位数耗时从人工的 20 分钟降至 4.4 分钟，结论验收首次通过率约 60%。文章还分享了环境映射、API Key 轮询等技术难点与踩坑经验，并规划了多 Agent 并行、自动处置等迭代方向。

💡 主要观点

- Troubleshooter 通过 LLM Agent 将告警排查中位数耗时从 20 分钟降至 4.4 分钟。 系统自动完成多平台数据采集、根因分析与报告生成，覆盖 11 个服务和 10+ 种告警类型，显著提升运维效率。

SupervisorAgent 的核心是 ReAct 推理循环与四个精心设计的排查工具。 Agent 通过思考-行动-观察循环，自主调用日志查询、监控指标、链路追踪和接口错误排查工具，动态组装排查策略，而非简单依赖 Prompt。

幻觉控制体系是系统落地的关键，采用规则校验、独立验收 Agent 与多轮交叉验证。 规则校验零 LLM 调用，独立验收 Agent 检查结论质量，多轮交叉验证确保不同工具结果相互印证，重试机制兜底。

工具超时隔离与降级机制保障了排查流程的鲁棒性。 每个工具调用通过独立线程池与超时控制，超时后返回降级消息，LLM 基于已有证据继续推进，避免单点故障导致流程中断。

💬 文章金句

- Troubleshooter 不是要替代运维人员，而是把「登录多个平台、切换不同入口、凭经验猜方向」这种机械操作交给 AI，让运维人员专注于需要判断力和创造力的决策。

很多人以为「AI 排查」就是构造一个 Prompt 丢给大模型。但实际中，LLM 无法凭空知道你的服务当前 QPS 是多少、错误日志里写了什么、调用链哪个环节超时了。它需要工具。

📊 文章信息

AI 初评：88

来源：得物技术

作者：得物技术

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4831

标签： AI Agent, LLM, ReAct, AI 编程, 运维自动化

阅读完整文章

用 LLM Agent 重构告警排查流程｜得物技术

🤖 問 AI