蚂蚁百灵开源万亿参数推理模型 Ring-2.6-1T,引入可调节推理强度机制,在 Agent 任务和数学推理上表现突出,并采用异步强化学习训练架构提升效率。
📝 详细摘要
本文报道了蚂蚁百灵开源旗舰级推理模型 Ring-2.6-1T 的消息。该模型于 5 月 9 日发布,核心创新在于引入了可调节的 Reasoning Effort 机制,提供 high 和 xhigh 两种推理强度,分别面向高频 Agent 工作流和高难度推理任务。在基准测试中,high 模式在 Agent 场景 PinchBench 和 Tau2-Bench 上表现优于 GPT-5.4 和 Gemini-3.1-Pro;xhigh 模式在数学推理 AIME 26 上与 DeepSeek V4 Pro Max 持平。训练层面,模型采用异步强化学习架构,将策略采样与参数更新解耦,提升 GPU 利用率,并结合「棒冰算法」解决训练不稳定问题。文章还列举了模型在代码生成、财务分析、3D 游戏开发等 7 个实际案例中的应用表现,并提供了开源和体验地址。
💡 主要观点
- Ring-2.6-1T 引入可调节的 Reasoning Effort 机制,支持 high 和 xhigh 两种模式。 high 模式针对高频 Agent 工作流优化效率,xhigh 模式面向数学竞赛、科研分析等高难度任务,允许开发者根据场景动态分配推理资源。
💬 文章金句
- 蚂蚁百灵开源旗舰级思考模型 Ring-2.6-1T,该模型于 5 月 9 日发布,引入了可调节的 Reasoning Effort 机制。
- high 模式面向高频 Agent 工作流获得更高效率,适合多轮对话、工具协作与任务拆解;xhigh 模式则面向数学竞赛、科研分析等高难任务。
- Ring-2.6-1T 采用异步(Async)强化学习训练架构,将策略采样与参数更新解耦为独立流水线。
- 相较于追求更大的参数规模或更高的单点分数,百灵更强调「真实生产环境使用」。
📊 文章信息
AI 初评:85
来源:智东西
作者:智东西
分类:人工智能
语言:中文
阅读时间:9 分钟
字数:2055
标签: 蚂蚁百灵, Ring-2.6-1T, 推理模型, 开源, 强化学习