本文介绍了 Tianfu Agent 系统,通过多 Sub-Agent 协作、200+ 原子工具和四级可见性控制,将中国传统术数选择题准确率提升至 50%,逼近人类专家水平,并总结了其对垂直领域 Agent 开发的工程启示。
📝 详细摘要
文章以中国传统术数专业选择题为测试场景,揭示了当前主流大模型(如 Claude、GPT)在该领域的准确率仅徘徊在 23%-40% 之间,接近随机猜测线 25%。DestinyLinker 研究团队开发的 Tianfu Agent 系统,通过构建 200 多个原子工具、三大流派规则函数库、多 Sub-Agent 协作机制以及三层不确定性量化体系,将截尾准确率提升至 50%,逼近本届赛事人类 Top 20 选手的平均水平 53.5%。文章详细阐述了该系统的核心设计哲学:将规则从 Prompt 中的文本约束转化为可调用的工程函数,通过四级可见性控制管理工具选择,并在缺乏自动验证手段的领域引入置信度量化。文章最后总结了该系统对垂直领域 Agent 落地的四点启示:工具化范式在规则密集且语料稀缺的领域收益最大;工具数量膨胀后管理成为独立工程问题;不确定性量化是缺乏验证领域的务实方案;将知识封装为接口比作为提示词更可靠。
💡 主要观点
- 通用大模型在专业术数推理上表现接近随机猜测。 在无信息泄漏的 MingLi-Bench 评测中,Claude、GPT 等主流模型准确率仅 23%-40%,四选一随机猜测基线为 25%,表明通用模型在语料稀缺的垂直领域知识严重不足。
💬 文章金句
- 在 Tianfu Agent 里,工具不仅是计算函数,它还包括规则、子推理流程,乃至 Sub-Agent 本身。
- 把规则从 Prompt 搬进函数,是解决模型长上下文「选择性失忆」的一种直接手段。
- 在缺乏验证手段的领域,「知道自己有多不确定」本身就是有价值的信息。
- 工具数量膨胀后,工具管理本身就成了一个独立的工程问题。
📊 文章信息
AI 初评:86
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2941
标签: Agent, 垂直领域, 工具管理, 不确定性量化, 多Agent协作