本文探讨了 Dan Woods 的一项研究实验,该实验利用 Apple 的“LLM in a Flash”技术和 AI 驱动的“自动研究”模式,在 48GB MacBook Pro 上运行 397B 参数的 Qwen 模型。
📝 详细摘要
本文强调了本地 LLM 推理的一个重要技术里程碑:在内存有限的消费级硬件上运行 Qwen3.5-397B-A17B 混合专家(MoE)模型。通过实施 Apple 2023 年“LLM in a Flash”论文中的策略,研究人员成功地按需将专家权重从 SSD 流式传输到 DRAM,在 48GB M3 Max MacBook Pro 上实现了超过每秒 5.5 个 token 的速度。一个关键亮点是其方法论,它利用 Claude Code 和“自动研究”模式自动化了 90 次实验,生成了优化的 MLX、Objective-C 和 Metal 代码。该实现对专家模型使用了 2-bit 量化,同时将路由矩阵等关键组件以更高精度保留在内存中。然而,作者指出,由于 AI 提供的评估数据较少,对输出质量的实际影响仍不确定。
💡 主要观点
- MoE 模型通过 SSD 权重流式传输,实现了在有限内存下进行大规模 LLM 推理。 通过仅将每个 token 所需的特定“专家”权重从闪存加载到 DRAM,可以实现在本地运行远超物理内存容量的模型。
💬 文章金句
- 成功让自定义版本的 Qwen3.5-397B-A17B 在 48GB MacBook Pro M3 Max 上以超过 5.5 tokens/秒的速度运行,尽管该模型在磁盘上占用了 209GB。
- 这些专家权重可以从 SSD 流式传输到内存中,无需将它们全部同时保存在 RAM 中。
- 他将论文喂给 Claude Code,并使用 Andrej Karpathy 的自动研究模式的变体,让 Claude 运行了 90 次实验。
- 最终模型将专家部分量化为 2-bit,但非专家部分……保持了原始精度。
- 我不确定模型结果的质量受到了多大影响。
📊 文章信息
AI 评分:84
来源:Simon Willison's Weblog
作者:Simon Willison
分类:人工智能
语言:英文
阅读时间:2 分钟
字数:360
标签: LLM 推理, 混合专家模型 (MoE), Apple Silicon, MLX, 量化