← 回總覽

开源模型横扫 21 个科学发现任务!宽德 Will 联手斯坦福清北,把试错变成武器

📅 2026-04-25 14:09 机器之心 人工智能 2 分鐘 1513 字 評分: 88
SimpleTES AI4S 科学发现 测试时扩展 开源模型
📌 一句话摘要 宽德智能学习实验室联合斯坦福、清华、北大提出 SimpleTES 框架,通过将试错拆解为并行探索、迭代改进和局部筛选三个可调度的维度,实现测试时评估驱动的缩放,让开源模型在 21 项科学发现任务中超越闭源模型和人类专家。 📝 详细摘要 本文介绍了宽德智能学习实验室(Will)联合斯坦福、清华、北大等高校提出的 SimpleTES 框架。该框架的核心思想是将科学发现中的试错过程系统化、可扩展化,而非单纯依赖更强大的模型。SimpleTES 将试错拆解为三个可调度的维度:并行探索宽度(C)、迭代改进深度(L)和局部候选筛选量(K),并在此基础上实现测试时扩展。框架还引入了轨迹级

📌 一句话摘要

宽德智能学习实验室联合斯坦福、清华、北大提出 SimpleTES 框架,通过将试错拆解为并行探索、迭代改进和局部筛选三个可调度的维度,实现测试时评估驱动的缩放,让开源模型在 21 项科学发现任务中超越闭源模型和人类专家。

📝 详细摘要

本文介绍了宽德智能学习实验室(Will)联合斯坦福、清华、北大等高校提出的 SimpleTES 框架。该框架的核心思想是将科学发现中的试错过程系统化、可扩展化,而非单纯依赖更强大的模型。SimpleTES 将试错拆解为三个可调度的维度:并行探索宽度(C)、迭代改进深度(L)和局部候选筛选量(K),并在此基础上实现测试时扩展。框架还引入了轨迹级后训练,以整条探索路径的最终最优结果作为监督信号,培养模型的科研直觉。实验结果显示,在 LASSO 路径求解、量子比特路由、Erdős 最小重叠问题等 21 个科学任务中,SimpleTES 加持的开源模型不仅超越了众多闭源模型,还在多个领域突破了人类最佳纪录。文章也指出了该方法的局限性,包括对评估器的依赖、算力分配需手动调整以及不适用于离散反馈场景。

💡 主要观点

- SimpleTES 将科学发现中的试错过程系统化为三个可调度的维度:并行探索宽度、迭代改进深度和局部候选筛选量。 框架通过 C(并行轨迹数)、L(迭代轮次)、K(每步候选数)三个维度精细分配算力,将科学发现从依赖模型智能转变为可系统性放大的搜索过程。

SimpleTES 引入轨迹级后训练,以整条探索路径的最终最优结果作为监督信号,培养模型的科研直觉。 传统方法优化每一步的即时奖励,容易导致模型保守。SimpleTES 忽略中间步骤的奖励,只关注整条轨迹的最终最好结果,使模型学会如何规划一整条成功的探索路径。
SimpleTES 在 21 个科学任务中表现优异,开源模型在多个领域超越闭源模型和人类专家。 在 LASSO 路径求解中比 glmnet 快 2.17 倍,在量子比特路由中比经典算法 SABRE 提升 21.7%,在 Erdős 最小重叠问题中突破了人类和现有 AI 的极限。
SimpleTES 的能力受限于评估器的质量,且算力分配仍需手动调整。 该方法高度依赖快速、明确的评估反馈,在评估昂贵或主观的领域效果受限。三个维度的最优算力分配因任务而异,目前仍需人工调参,尚未实现动态自适应。

💬 文章金句

- 科学发现的上限,不只是模型有多聪明,而是如何组织试错与评估。

  • 尝试与验证,本身也可以被缩放。
  • 把算力,从「堆模型能力」,转移到「精细分配搜索成本」。科学发现,从「灵光一现」,变成了一种可以被系统性放大的过程。
  • 模型学到的不是「下一步怎么更对」,而是「怎样的一整条探索路径更可能成功」。
  • 当评估循环缩放到足够大时,AI 能够通过宽度探索出人类直觉无法触及的怪异但高效的路径。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:19 分钟

字数:4674

标签: SimpleTES, AI4S, 科学发现, 测试时扩展, 开源模型

阅读完整文章

查看原文 → 發佈: 2026-04-25 14:09:00 收錄: 2026-04-25 20:00:52

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。