Simon Willison 介绍了 Mr. Chatterbox,这是一个拥有 3.4 亿参数的 LLM,完全使用维多利亚时代的公有领域文本进行训练,并提供了一个插件以便在本地运行。
📝 详细摘要
本文介绍了 Mr. Chatterbox,这是一个由 Trip Venturella 训练的独特语言模型,使用了 1837 年至 1899 年间出版的超过 28,000 本大英图书馆书籍的语料库。虽然该模型的对话性能有限(作者将其归因于相对于 Chinchilla 缩放定律训练不足),但它代表了使用完全公有领域数据构建 LLM 的一项重要实验。文章详细介绍了该模型的技术规格,并提供了如何使用为 LLM CLI 工具新开发的插件在本地运行它的实用指南,值得一提的是,该插件是由 Claude Code AI 智能体构建的。
💡 主要观点
- Mr. Chatterbox 完全基于维多利亚时代的公有领域数据进行训练。 该模型使用了 1837 年至 1899 年间出版的 28,035 本书中的 29.3 亿个 token,避免了现代抓取数据集所带来的法律和伦理复杂性。
💬 文章金句
- Mr. Chatterbox 是一个完全从零开始训练的语言模型,语料库包含 1837 年至 1899 年间出版的超过 28,000 本维多利亚时代的英国书籍。
- 老实说,它相当糟糕。与它交谈感觉更像是与马尔可夫链聊天,而不是与 LLM 对话。
- 我仍然希望我们能从完全公有领域的数据中获得一个有用的模型。
- 这是我第一次让 Claude Code 从零开始构建一个完整的 LLM 模型插件,而且效果非常好。
📊 文章信息
AI 评分:87
来源:Simon Willison's Weblog
作者:Simon Willison
分类:人工智能
语言:英文
阅读时间:3 分钟
字数:587
标签: LLM, 公有领域, 维多利亚文学, 本地 LLM, AI 伦理