夯爆了！清北斯坦福联手，SimpleTES 横扫 21 个科学难题

📌 一句话摘要

清北斯坦福等机构联合提出 SimpleTES 框架，通过系统化放大「试错-反馈-进化」循环，在 21 个跨领域科学难题上超越前沿闭源模型，并引入轨迹级后训练让 AI 学会长程科研探索的元能力。

📝 详细摘要

本文报道了由宽德智能学习实验室、斯坦福大学、北京大学、清华大学和香港科技大学（广州）联合提出的 SimpleTES（Simple Test-time Evaluation-driven Scaling）框架。该框架的核心思想是：与其让模型「想得更聪明」，不如系统化地放大「生成候选解→评估反馈→继续改进」的发现闭环。SimpleTES 通过三个维度（并行探索宽度、迭代精修深度、局部候选数量）组织试错过程，在涵盖数学、量子计算、GPU 优化、算法工程、数据科学、生物信息学等六个领域的 21 个开放科学问题上，使用开源模型发现了当前最先进的解决方案。论文还提出了 Trajectory-Level Post-training 方法，利用探索轨迹训练模型获得可迁移的科研试错元能力。文章最后介绍了 Will 实验室的背景和愿景，强调其从基座模型预训练到科研方法论的「全栈式」投入。

💡 主要观点

- SimpleTES 通过系统化放大试错循环，而非提升模型推理能力，实现科学发现突破。 框架从并行探索宽度、迭代精修深度、局部候选数量三个维度组织试错过程，总预算公式为 N = C × L × K，在有限预算下最大化探索效率。

SimpleTES 在 21 个跨领域科学问题上全面超越前沿闭源模型和精心调优的优化流程。 涵盖数学（圆填充、Erdős 最小重叠问题）、量子计算（量子比特路由）、GPU 优化（TriMul 算子）、算法工程（AtCoder 竞赛）、数据科学（Scaling Law 发现）、生物信息学（单细胞 RNA 测序去噪）等领域。

Trajectory-Level Post-training 让 AI 学会长程科研探索的元能力。 通过放弃即时奖励、只看最终突破，精英轨迹筛选和动态演进三步，训练模型获得可迁移的科研试错元能力，在未见过的任务上也能找到更强解。

💬 文章金句

- 有人还在拼模型「想得更聪明」，SimpleTES 用 21 项硬核结果证明：AI 科研真正的跃迁，不在更会思考，而在把「试错---反馈---进化」这条发现机器无限放大。

SimpleTES 的核心做法并不玄。它把整个科研试错过程，拆成了三个最关键的维度，像调音台一样精准控制。
科学发现的本质，从来都不是一击即中，而是一轮轮试错之后，被逼出来的结果。
SimpleTES 捕捉到了这个本质。它的意义不仅在于当前的实验成绩，更在于它指出了一个被长期忽视的扩展轴线：在「生成侧计算」之外，「评估侧计算」同样是一个可以持续投入、持续收获的方向。

📊 文章信息

AI 初评：86

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：22 分钟

字数：5487

标签： SimpleTES, AI for Science, 科学发现, 试错框架, 开源模型

阅读完整文章

夯爆了！清北斯坦福联手，SimpleTES 横扫 21 个科学难题

🤖 問 AI