AI 模型是个黑箱，这家公司造了一把能打开它的钥匙

📌 一句话摘要

本文介绍了初创公司 Goodfire 推出的 Silico 工具，它利用机制可解释性技术，让开发者在训练 AI 模型时能观察并调整其内部神经元，从而将模型构建从“炼金术”转变为“科学”。

📝 详细摘要

文章聚焦于旧金山初创公司 Goodfire 发布的新工具 Silico，该工具旨在通过机制可解释性技术，为 AI 模型训练提供前所未有的精细控制。Silico 允许研究人员和工程师在训练过程中观察模型的内部结构（神经元及通路），并直接调整参数以增强或抑制特定行为。文章通过多个案例展示了其能力，例如通过调整与“透明度”相关的神经元来改变模型在伦理问题上的回答，以及定位并修复模型认为“9.11 大于 9.9”的错误根源。Goodfire 的 CEO 埃里克·何表示，此举旨在将模型训练从反复试错的“炼金术”转变为可预测的“精密工程”。尽管有学者认为这只是在为“炼金术”增加精度，但该工具无疑为无法负担顶级可解释性团队的中小型公司提供了强大的模型调试能力，有望在医疗、金融等高风险领域构建更可信赖的 AI 系统。

💡 主要观点

- Goodfire 发布 Silico 工具，将机制可解释性应用于模型训练过程。 不同于事后分析，Silico 允许开发者在训练阶段实时观察和调整模型内部神经元，旨在将模型构建从经验性的“炼金术”转变为可预测的“精密工程”。

Silico 能定位并调整与特定行为相关的神经元，实现精细控制。 通过案例展示，工具可以找到与“透明度”或“道德两难”相关的神经元，通过调整其权重来改变模型的输出行为，例如让模型在商业利益与伦理披露之间做出不同选择。

该工具能诊断并修复模型中的系统性错误，如“9.11 大于 9.9”问题。 通过分析，发现模型错误源于训练数据中《圣经》和代码仓库的排序模式，导致相关神经元被误激活。开发者可据此进行针对性训练，绕开错误神经元。

Silico 旨在将顶级实验室的可解释性能力下放给更广泛的开发者。 Goodfire 的目标用户是希望自建或改造开源模型的中小公司和研究团队，让他们无需自建可解释性团队，就能构建更可靠、更符合需求的 AI 模型。

💬 文章金句

- 我们想去掉反复试错，把训练模型变成精密工程。

把旋钮和刻度盘暴露出来，让开发者在训练过程中就能用上。
如果训练模型能变得更像开发软件，就没有理由不让更多公司来设计符合自己需求的模型。
模型内部其实已经有了伦理推理的线路，只是被商业风险评估的线路压过去了。

📊 文章信息

AI 初评：85

来源：麻省理工科技评论APP

作者：麻省理工科技评论APP

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1927

标签：机制可解释性, AI 模型训练, Goodfire, Silico, 神经元调整

阅读完整文章

AI 模型是个黑箱，这家公司造了一把能打开它的钥匙

🤖 問 AI