清北斯坦福等机构联合提出 SimpleTES 框架,通过系统化放大「试错-反馈-进化」循环,在 21 个跨领域科学难题上超越前沿闭源模型,并引入轨迹级后训练让 AI 学会长程科研探索的元能力。
📝 详细摘要
本文报道了由宽德智能学习实验室、斯坦福大学、北京大学、清华大学和香港科技大学(广州)联合提出的 SimpleTES(Simple Test-time Evaluation-driven Scaling)框架。该框架的核心思想是:与其让模型「想得更聪明」,不如系统化地放大「生成候选解→评估反馈→继续改进」的发现闭环。SimpleTES 通过三个维度(并行探索宽度、迭代精修深度、局部候选数量)组织试错过程,在涵盖数学、量子计算、GPU 优化、算法工程、数据科学、生物信息学等六个领域的 21 个开放科学问题上,使用开源模型发现了当前最先进的解决方案。论文还提出了 Trajectory-Level Post-training 方法,利用探索轨迹训练模型获得可迁移的科研试错元能力。文章最后介绍了 Will 实验室的背景和愿景,强调其从基座模型预训练到科研方法论的「全栈式」投入。
💡 主要观点
- SimpleTES 通过系统化放大试错循环,而非提升模型推理能力,实现科学发现突破。 框架从并行探索宽度、迭代精修深度、局部候选数量三个维度组织试错过程,总预算公式为 N = C × L × K,在有限预算下最大化探索效率。
💬 文章金句
- 有人还在拼模型「想得更聪明」,SimpleTES 用 21 项硬核结果证明:AI 科研真正的跃迁,不在更会思考,而在把「试错---反馈---进化」这条发现机器无限放大。
- SimpleTES 的核心做法并不玄。它把整个科研试错过程,拆成了三个最关键的维度,像调音台一样精准控制。
- 科学发现的本质,从来都不是一击即中,而是一轮轮试错之后,被逼出来的结果。
- SimpleTES 捕捉到了这个本质。它的意义不仅在于当前的实验成绩,更在于它指出了一个被长期忽视的扩展轴线:在「生成侧计算」之外,「评估侧计算」同样是一个可以持续投入、持续收获的方向。
📊 文章信息
AI 初评:86
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:22 分钟
字数:5487
标签: SimpleTES, AI for Science, 科学发现, 试错框架, 开源模型