胜率直逼人类大师！这套 Agent 揭开中国 AI「玄学真相」

📌 一句话摘要

本文介绍了 Tianfu Agent 系统，通过多 Sub-Agent 协作、200+ 原子工具和四级可见性控制，将中国传统术数选择题准确率提升至 50%，逼近人类专家水平，并总结了其对垂直领域 Agent 开发的工程启示。

📝 详细摘要

文章以中国传统术数专业选择题为测试场景，揭示了当前主流大模型（如 Claude、GPT）在该领域的准确率仅徘徊在 23%-40% 之间，接近随机猜测线 25%。DestinyLinker 研究团队开发的 Tianfu Agent 系统，通过构建 200 多个原子工具、三大流派规则函数库、多 Sub-Agent 协作机制以及三层不确定性量化体系，将截尾准确率提升至 50%，逼近本届赛事人类 Top 20 选手的平均水平 53.5%。文章详细阐述了该系统的核心设计哲学：将规则从 Prompt 中的文本约束转化为可调用的工程函数，通过四级可见性控制管理工具选择，并在缺乏自动验证手段的领域引入置信度量化。文章最后总结了该系统对垂直领域 Agent 落地的四点启示：工具化范式在规则密集且语料稀缺的领域收益最大；工具数量膨胀后管理成为独立工程问题；不确定性量化是缺乏验证领域的务实方案；将知识封装为接口比作为提示词更可靠。

💡 主要观点

- 通用大模型在专业术数推理上表现接近随机猜测。 在无信息泄漏的 MingLi-Bench 评测中，Claude、GPT 等主流模型准确率仅 23%-40%，四选一随机猜测基线为 25%，表明通用模型在语料稀缺的垂直领域知识严重不足。

Tianfu Agent 通过工具化范式大幅提升垂直领域推理能力。 系统将 200+ 原子工具、规则函数和 Sub-Agent 均视为可调用工具，通过四级可见性控制（自动注入、按需调用、转译调用、触发注入）管理工具选择，避免模型因选项过载而退化。

规则封装为函数比写入 Prompt 更可靠。 将繁杂且相互矛盾的术数规则封装成带元数据的可调用函数，由人类专家标注适用场景，模型从「记规则的考生」变为「调规则的工程师」，解决了长上下文选择性失忆问题。

三层不确定性量化弥补了缺乏自动验证手段的缺陷。 在工具输出层、Sub-Agent 层和多流派合参层分别引入置信度评估，为上层决策提供量化参考，是缺乏单元测试等验证手段的垂直领域的务实方案。

💬 文章金句

- 在 Tianfu Agent 里，工具不仅是计算函数，它还包括规则、子推理流程，乃至 Sub-Agent 本身。

把规则从 Prompt 搬进函数，是解决模型长上下文「选择性失忆」的一种直接手段。
在缺乏验证手段的领域，「知道自己有多不确定」本身就是有价值的信息。
工具数量膨胀后，工具管理本身就成了一个独立的工程问题。

📊 文章信息

AI 初评：86

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2941

标签： Agent, 垂直领域, 工具管理, 不确定性量化, 多Agent协作

阅读完整文章

胜率直逼人类大师！这套 Agent 揭开中国 AI「玄学真相」

🤖 問 AI