Mr. Chatterbox 是一个（性能较弱的）维多利亚时代伦理训练模型，你可以在自己的电脑上运行

📌 一句话摘要

Simon Willison 介绍了 Mr. Chatterbox，这是一个拥有 3.4 亿参数的 LLM，完全使用维多利亚时代的公有领域文本进行训练，并提供了一个插件以便在本地运行。

📝 详细摘要

本文介绍了 Mr. Chatterbox，这是一个由 Trip Venturella 训练的独特语言模型，使用了 1837 年至 1899 年间出版的超过 28，000 本大英图书馆书籍的语料库。虽然该模型的对话性能有限（作者将其归因于相对于 Chinchilla 缩放定律训练不足），但它代表了使用完全公有领域数据构建 LLM 的一项重要实验。文章详细介绍了该模型的技术规格，并提供了如何使用为 LLM CLI 工具新开发的插件在本地运行它的实用指南，值得一提的是，该插件是由 Claude Code AI 智能体构建的。

💡 主要观点

- Mr. Chatterbox 完全基于维多利亚时代的公有领域数据进行训练。 该模型使用了 1837 年至 1899 年间出版的 28，035 本书中的 29.3 亿个 token，避免了现代抓取数据集所带来的法律和伦理复杂性。

该模型的性能受到缩放定律缺陷的限制。 该模型拥有 3.4 亿参数，仅有约 30 亿个 token，未达到 Chinchilla 最优比例，导致其回答感觉更像是马尔可夫链，而非现代 LLM。

通过一个新的 LLM 插件实现本地运行。 作者发布了“llm-mrchatterbox”，允许用户下载该 2.05GB 的模型，并使用 LLM CLI 框架在本地进行对话。

AI 智能体可以显著加速利基工具的开发。 作者使用 Claude Code 自动化创建了该 Python 插件，展示了一种将新模型集成到现有生态系统中的高效工作流。

💬 文章金句

- Mr. Chatterbox 是一个完全从零开始训练的语言模型，语料库包含 1837 年至 1899 年间出版的超过 28，000 本维多利亚时代的英国书籍。

老实说，它相当糟糕。与它交谈感觉更像是与马尔可夫链聊天，而不是与 LLM 对话。
我仍然希望我们能从完全公有领域的数据中获得一个有用的模型。
这是我第一次让 Claude Code 从零开始构建一个完整的 LLM 模型插件，而且效果非常好。

📊 文章信息

AI 评分：87

来源：Simon Willison's Weblog

作者：Simon Willison

分类：人工智能

语言：英文

阅读时间：3 分钟

字数：587

标签： LLM, 公有领域, 维多利亚文学, 本地 LLM, AI 伦理

阅读完整文章

Mr. Chatterbox 是一个（性能较弱的）维多利亚时代伦理训练模型，你可以在自己的电脑上运行

🤖 問 AI