← 回總覽

胜率直逼人类大师!这套 Agent 揭开中国 AI「玄学真相」

📅 2026-05-25 12:45 新智元 人工智能 2 分鐘 1568 字 評分: 86
Agent 垂直领域 工具管理 不确定性量化 多Agent协作
📌 一句话摘要 本文介绍了 Tianfu Agent 系统,通过多 Sub-Agent 协作、200+ 原子工具和四级可见性控制,将中国传统术数选择题准确率提升至 50%,逼近人类专家水平,并总结了其对垂直领域 Agent 开发的工程启示。 📝 详细摘要 文章以中国传统术数专业选择题为测试场景,揭示了当前主流大模型(如 Claude、GPT)在该领域的准确率仅徘徊在 23%-40% 之间,接近随机猜测线 25%。DestinyLinker 研究团队开发的 Tianfu Agent 系统,通过构建 200 多个原子工具、三大流派规则函数库、多 Sub-Agent 协作机制以及三层不确定性量化

📌 一句话摘要

本文介绍了 Tianfu Agent 系统,通过多 Sub-Agent 协作、200+ 原子工具和四级可见性控制,将中国传统术数选择题准确率提升至 50%,逼近人类专家水平,并总结了其对垂直领域 Agent 开发的工程启示。

📝 详细摘要

文章以中国传统术数专业选择题为测试场景,揭示了当前主流大模型(如 Claude、GPT)在该领域的准确率仅徘徊在 23%-40% 之间,接近随机猜测线 25%。DestinyLinker 研究团队开发的 Tianfu Agent 系统,通过构建 200 多个原子工具、三大流派规则函数库、多 Sub-Agent 协作机制以及三层不确定性量化体系,将截尾准确率提升至 50%,逼近本届赛事人类 Top 20 选手的平均水平 53.5%。文章详细阐述了该系统的核心设计哲学:将规则从 Prompt 中的文本约束转化为可调用的工程函数,通过四级可见性控制管理工具选择,并在缺乏自动验证手段的领域引入置信度量化。文章最后总结了该系统对垂直领域 Agent 落地的四点启示:工具化范式在规则密集且语料稀缺的领域收益最大;工具数量膨胀后管理成为独立工程问题;不确定性量化是缺乏验证领域的务实方案;将知识封装为接口比作为提示词更可靠。

💡 主要观点

- 通用大模型在专业术数推理上表现接近随机猜测。 在无信息泄漏的 MingLi-Bench 评测中,Claude、GPT 等主流模型准确率仅 23%-40%,四选一随机猜测基线为 25%,表明通用模型在语料稀缺的垂直领域知识严重不足。

Tianfu Agent 通过工具化范式大幅提升垂直领域推理能力。 系统将 200+ 原子工具、规则函数和 Sub-Agent 均视为可调用工具,通过四级可见性控制(自动注入、按需调用、转译调用、触发注入)管理工具选择,避免模型因选项过载而退化。
规则封装为函数比写入 Prompt 更可靠。 将繁杂且相互矛盾的术数规则封装成带元数据的可调用函数,由人类专家标注适用场景,模型从「记规则的考生」变为「调规则的工程师」,解决了长上下文选择性失忆问题。
三层不确定性量化弥补了缺乏自动验证手段的缺陷。 在工具输出层、Sub-Agent 层和多流派合参层分别引入置信度评估,为上层决策提供量化参考,是缺乏单元测试等验证手段的垂直领域的务实方案。

💬 文章金句

- 在 Tianfu Agent 里,工具不仅是计算函数,它还包括规则、子推理流程,乃至 Sub-Agent 本身。

  • 把规则从 Prompt 搬进函数,是解决模型长上下文「选择性失忆」的一种直接手段。
  • 在缺乏验证手段的领域,「知道自己有多不确定」本身就是有价值的信息。
  • 工具数量膨胀后,工具管理本身就成了一个独立的工程问题。

📊 文章信息

AI 初评:86

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2941

标签: Agent, 垂直领域, 工具管理, 不确定性量化, 多Agent协作

阅读完整文章

查看原文 → 發佈: 2026-05-25 12:45:00 收錄: 2026-05-25 18:00:42

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。