8B 模型做生物实验：实验步骤顺序不乱、剂量无幻觉｜ICLR 2026

📌 一句话摘要

上海 AI 实验室等团队提出 Thoth 模型，通过 Sketch-and-Fill 推理范式和 SCORE 奖励机制，让 8B 小模型在生物实验 protocol 生成上超越 GPT-4o 等大模型，核心解决步骤顺序混乱和参数幻觉问题。

📝 详细摘要

本文介绍了上海人工智能实验室、复旦大学、上海交通大学团队在 ICLR 2026 上发表的工作 Thoth，一个面向生物实验 protocol 生成的科学推理模型。当前大模型在生成实验方案时容易出现步骤缺失、顺序混乱、参数幻觉等问题，传统文本指标难以评估 protocol 的可执行性。为此，团队首先构建了覆盖 27 个生物学子领域的 SciRecipe 数据集，包含 12K 条高质量 protocol 及 8 类任务。Thoth 的核心创新包括：Sketch-and-Fill 推理范式，将生成过程拆解为思考、结构化原子步骤、自然语言填充三个阶段，保证步骤可解析；SCORE 奖励机制，从步骤粒度、动作顺序、语义保真三个维度评估 protocol 的可执行性，替代不稳定的 LLM-as-a-Judge。训练采用 Knowledge-to-Action 三阶段策略。实验结果显示，Thoth 在 SciRecipe-Eval 上取得 SOTA，平均分超过 ChatGPT-4o 3.69%，在步骤对齐、逻辑顺序和动作保真上优势明显，且能泛化到更广泛的生物医学推理任务。

💡 主要观点

- Thoth 通过 Sketch-and-Fill 范式将 protocol 生成拆解为结构化推理过程。 模型先生成包含 action、objects、parameters 的原子步骤（实验骨架），再填充为自然语言，保证步骤可解析、可检查，避免自由文本生成中的顺序混乱和参数缺失。

SCORE 奖励机制从可执行性角度评估 protocol，替代传统文本相似度指标。 SCORE 评估步骤粒度、动作顺序和语义保真三个维度，并加入格式和一致性门控，确保模型优化目标从「写得像」转向「能照着做」。

8B 参数的 Thoth 在 protocol 生成任务上超越 GPT-4o 等大模型。 在 SciRecipe-Eval 上，Thoth 平均分超过 ChatGPT-4o 3.69%，在步骤对齐、逻辑顺序和动作保真上分别提升 4.88%、4.06% 和 11.29%，验证了小模型在垂直科学推理任务上的潜力。

💬 文章金句

- Thoth 不是让模型「写得像 protocol」，而是让模型按照实验逻辑，生成可解析、可评估、可执行的 protocol。

对于科学实验生成来说，真正重要的不是「文本像不像」，而是「能不能照着做」。
Thoth 代表了一类新的科学 AI 助手方向：它不只是回答「实验怎么做」，而是尝试把科学知识转化成可检查、可复现、可执行的实验行动。

📊 文章信息

AI 初评：87

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：16 分钟

字数：3852

标签： Thoth, 生物实验 Protocol, 科学推理, ICLR 2026, Sketch-and-Fill

阅读完整文章

8B 模型做生物实验：实验步骤顺序不乱、剂量无幻觉｜ICLR 2026

🤖 問 AI