上海 AI 实验室等团队提出 Thoth 模型,通过 Sketch-and-Fill 推理范式和 SCORE 奖励机制,让 8B 小模型在生物实验 protocol 生成上超越 GPT-4o 等大模型,核心解决步骤顺序混乱和参数幻觉问题。
📝 详细摘要
本文介绍了上海人工智能实验室、复旦大学、上海交通大学团队在 ICLR 2026 上发表的工作 Thoth,一个面向生物实验 protocol 生成的科学推理模型。当前大模型在生成实验方案时容易出现步骤缺失、顺序混乱、参数幻觉等问题,传统文本指标难以评估 protocol 的可执行性。为此,团队首先构建了覆盖 27 个生物学子领域的 SciRecipe 数据集,包含 12K 条高质量 protocol 及 8 类任务。Thoth 的核心创新包括:Sketch-and-Fill 推理范式,将生成过程拆解为思考、结构化原子步骤、自然语言填充三个阶段,保证步骤可解析;SCORE 奖励机制,从步骤粒度、动作顺序、语义保真三个维度评估 protocol 的可执行性,替代不稳定的 LLM-as-a-Judge。训练采用 Knowledge-to-Action 三阶段策略。实验结果显示,Thoth 在 SciRecipe-Eval 上取得 SOTA,平均分超过 ChatGPT-4o 3.69%,在步骤对齐、逻辑顺序和动作保真上优势明显,且能泛化到更广泛的生物医学推理任务。
💡 主要观点
- Thoth 通过 Sketch-and-Fill 范式将 protocol 生成拆解为结构化推理过程。 模型先生成包含 action、objects、parameters 的原子步骤(实验骨架),再填充为自然语言,保证步骤可解析、可检查,避免自由文本生成中的顺序混乱和参数缺失。
💬 文章金句
- Thoth 不是让模型「写得像 protocol」,而是让模型按照实验逻辑,生成可解析、可评估、可执行的 protocol。
- 对于科学实验生成来说,真正重要的不是「文本像不像」,而是「能不能照着做」。
- Thoth 代表了一类新的科学 AI 助手方向:它不只是回答「实验怎么做」,而是尝试把科学知识转化成可检查、可复现、可执行的实验行动。
📊 文章信息
AI 初评:87
来源:量子位
作者:听雨
分类:人工智能
语言:中文
阅读时间:16 分钟
字数:3852
标签: Thoth, 生物实验 Protocol, 科学推理, ICLR 2026, Sketch-and-Fill