开源模型横扫 21 个科学发现任务！宽德 Will 联手斯坦福清北，把试错变成武器

📌 一句话摘要

宽德智能学习实验室联合斯坦福、清华、北大提出 SimpleTES 框架，通过将试错拆解为并行探索、迭代改进和局部筛选三个可调度的维度，实现测试时评估驱动的缩放，让开源模型在 21 项科学发现任务中超越闭源模型和人类专家。

📝 详细摘要

本文介绍了宽德智能学习实验室（Will）联合斯坦福、清华、北大等高校提出的 SimpleTES 框架。该框架的核心思想是将科学发现中的试错过程系统化、可扩展化，而非单纯依赖更强大的模型。SimpleTES 将试错拆解为三个可调度的维度：并行探索宽度（C）、迭代改进深度（L）和局部候选筛选量（K），并在此基础上实现测试时扩展。框架还引入了轨迹级后训练，以整条探索路径的最终最优结果作为监督信号，培养模型的科研直觉。实验结果显示，在 LASSO 路径求解、量子比特路由、Erdős 最小重叠问题等 21 个科学任务中，SimpleTES 加持的开源模型不仅超越了众多闭源模型，还在多个领域突破了人类最佳纪录。文章也指出了该方法的局限性，包括对评估器的依赖、算力分配需手动调整以及不适用于离散反馈场景。

💡 主要观点

- SimpleTES 将科学发现中的试错过程系统化为三个可调度的维度：并行探索宽度、迭代改进深度和局部候选筛选量。 框架通过 C（并行轨迹数）、L（迭代轮次）、K（每步候选数）三个维度精细分配算力，将科学发现从依赖模型智能转变为可系统性放大的搜索过程。

SimpleTES 引入轨迹级后训练，以整条探索路径的最终最优结果作为监督信号，培养模型的科研直觉。 传统方法优化每一步的即时奖励，容易导致模型保守。SimpleTES 忽略中间步骤的奖励，只关注整条轨迹的最终最好结果，使模型学会如何规划一整条成功的探索路径。

SimpleTES 在 21 个科学任务中表现优异，开源模型在多个领域超越闭源模型和人类专家。 在 LASSO 路径求解中比 glmnet 快 2.17 倍，在量子比特路由中比经典算法 SABRE 提升 21.7%，在 Erdős 最小重叠问题中突破了人类和现有 AI 的极限。

SimpleTES 的能力受限于评估器的质量，且算力分配仍需手动调整。 该方法高度依赖快速、明确的评估反馈，在评估昂贵或主观的领域效果受限。三个维度的最优算力分配因任务而异，目前仍需人工调参，尚未实现动态自适应。

💬 文章金句

- 科学发现的上限，不只是模型有多聪明，而是如何组织试错与评估。

尝试与验证，本身也可以被缩放。
把算力，从「堆模型能力」，转移到「精细分配搜索成本」。科学发现，从「灵光一现」，变成了一种可以被系统性放大的过程。
模型学到的不是「下一步怎么更对」，而是「怎样的一整条探索路径更可能成功」。
当评估循环缩放到足够大时，AI 能够通过宽度探索出人类直觉无法触及的怪异但高效的路径。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：19 分钟

字数：4674

标签： SimpleTES, AI4S, 科学发现, 测试时扩展, 开源模型

阅读完整文章

开源模型横扫 21 个科学发现任务！宽德 Will 联手斯坦福清北，把试错变成武器

🤖 問 AI