宽德智能学习实验室联合斯坦福、清华、北大提出 SimpleTES 框架,通过将试错拆解为并行探索、迭代改进和局部筛选三个可调度的维度,实现测试时评估驱动的缩放,让开源模型在 21 项科学发现任务中超越闭源模型和人类专家。
📝 详细摘要
本文介绍了宽德智能学习实验室(Will)联合斯坦福、清华、北大等高校提出的 SimpleTES 框架。该框架的核心思想是将科学发现中的试错过程系统化、可扩展化,而非单纯依赖更强大的模型。SimpleTES 将试错拆解为三个可调度的维度:并行探索宽度(C)、迭代改进深度(L)和局部候选筛选量(K),并在此基础上实现测试时扩展。框架还引入了轨迹级后训练,以整条探索路径的最终最优结果作为监督信号,培养模型的科研直觉。实验结果显示,在 LASSO 路径求解、量子比特路由、Erdős 最小重叠问题等 21 个科学任务中,SimpleTES 加持的开源模型不仅超越了众多闭源模型,还在多个领域突破了人类最佳纪录。文章也指出了该方法的局限性,包括对评估器的依赖、算力分配需手动调整以及不适用于离散反馈场景。
💡 主要观点
- SimpleTES 将科学发现中的试错过程系统化为三个可调度的维度:并行探索宽度、迭代改进深度和局部候选筛选量。 框架通过 C(并行轨迹数)、L(迭代轮次)、K(每步候选数)三个维度精细分配算力,将科学发现从依赖模型智能转变为可系统性放大的搜索过程。
💬 文章金句
- 科学发现的上限,不只是模型有多聪明,而是如何组织试错与评估。
- 尝试与验证,本身也可以被缩放。
- 把算力,从「堆模型能力」,转移到「精细分配搜索成本」。科学发现,从「灵光一现」,变成了一种可以被系统性放大的过程。
- 模型学到的不是「下一步怎么更对」,而是「怎样的一整条探索路径更可能成功」。
- 当评估循环缩放到足够大时,AI 能够通过宽度探索出人类直觉无法触及的怪异但高效的路径。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4674
标签: SimpleTES, AI4S, 科学发现, 测试时扩展, 开源模型