← 回總覽

Mr. Chatterbox 是一个(性能较弱的)维多利亚时代伦理训练模型,你可以在自己的电脑上运行

📅 2026-03-30 22:28 Simon Willison 人工智能 2 分鐘 1320 字 評分: 87
LLM 公有领域 维多利亚文学 本地 LLM AI 伦理
📌 一句话摘要 Simon Willison 介绍了 Mr. Chatterbox,这是一个拥有 3.4 亿参数的 LLM,完全使用维多利亚时代的公有领域文本进行训练,并提供了一个插件以便在本地运行。 📝 详细摘要 本文介绍了 Mr. Chatterbox,这是一个由 Trip Venturella 训练的独特语言模型,使用了 1837 年至 1899 年间出版的超过 28,000 本大英图书馆书籍的语料库。虽然该模型的对话性能有限(作者将其归因于相对于 Chinchilla 缩放定律训练不足),但它代表了使用完全公有领域数据构建 LLM 的一项重要实验。文章详细介绍了该模型的技术规格,并

📌 一句话摘要

Simon Willison 介绍了 Mr. Chatterbox,这是一个拥有 3.4 亿参数的 LLM,完全使用维多利亚时代的公有领域文本进行训练,并提供了一个插件以便在本地运行。

📝 详细摘要

本文介绍了 Mr. Chatterbox,这是一个由 Trip Venturella 训练的独特语言模型,使用了 1837 年至 1899 年间出版的超过 28,000 本大英图书馆书籍的语料库。虽然该模型的对话性能有限(作者将其归因于相对于 Chinchilla 缩放定律训练不足),但它代表了使用完全公有领域数据构建 LLM 的一项重要实验。文章详细介绍了该模型的技术规格,并提供了如何使用为 LLM CLI 工具新开发的插件在本地运行它的实用指南,值得一提的是,该插件是由 Claude Code AI 智能体构建的。

💡 主要观点

- Mr. Chatterbox 完全基于维多利亚时代的公有领域数据进行训练。 该模型使用了 1837 年至 1899 年间出版的 28,035 本书中的 29.3 亿个 token,避免了现代抓取数据集所带来的法律和伦理复杂性。

该模型的性能受到缩放定律缺陷的限制。 该模型拥有 3.4 亿参数,仅有约 30 亿个 token,未达到 Chinchilla 最优比例,导致其回答感觉更像是马尔可夫链,而非现代 LLM。
通过一个新的 LLM 插件实现本地运行。 作者发布了“llm-mrchatterbox”,允许用户下载该 2.05GB 的模型,并使用 LLM CLI 框架在本地进行对话。
AI 智能体可以显著加速利基工具的开发。 作者使用 Claude Code 自动化创建了该 Python 插件,展示了一种将新模型集成到现有生态系统中的高效工作流。

💬 文章金句

- Mr. Chatterbox 是一个完全从零开始训练的语言模型,语料库包含 1837 年至 1899 年间出版的超过 28,000 本维多利亚时代的英国书籍。

  • 老实说,它相当糟糕。与它交谈感觉更像是与马尔可夫链聊天,而不是与 LLM 对话。
  • 我仍然希望我们能从完全公有领域的数据中获得一个有用的模型。
  • 这是我第一次让 Claude Code 从零开始构建一个完整的 LLM 模型插件,而且效果非常好。

📊 文章信息

AI 评分:87

来源:Simon Willison's Weblog

作者:Simon Willison

分类:人工智能

语言:英文

阅读时间:3 分钟

字数:587

标签: LLM, 公有领域, 维多利亚文学, 本地 LLM, AI 伦理

阅读完整文章

查看原文 → 發佈: 2026-03-30 22:28:34 收錄: 2026-03-31 00:00:14

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。