← 回總覽

自动研究:利用 Apple 的“LLM in a Flash”在本地运行 Qwen 397B

📅 2026-03-19 07:56 Simon Willison 人工智能 2 分鐘 1492 字 評分: 84
LLM 推理 混合专家模型 (MoE) Apple Silicon MLX 量化
📌 一句话摘要 本文探讨了 Dan Woods 的一项研究实验,该实验利用 Apple 的“LLM in a Flash”技术和 AI 驱动的“自动研究”模式,在 48GB MacBook Pro 上运行 397B 参数的 Qwen 模型。 📝 详细摘要 本文强调了本地 LLM 推理的一个重要技术里程碑:在内存有限的消费级硬件上运行 Qwen3.5-397B-A17B 混合专家(MoE)模型。通过实施 Apple 2023 年“LLM in a Flash”论文中的策略,研究人员成功地按需将专家权重从 SSD 流式传输到 DRAM,在 48GB M3 Max MacBook Pro 上实现

📌 一句话摘要

本文探讨了 Dan Woods 的一项研究实验,该实验利用 Apple 的“LLM in a Flash”技术和 AI 驱动的“自动研究”模式,在 48GB MacBook Pro 上运行 397B 参数的 Qwen 模型。

📝 详细摘要

本文强调了本地 LLM 推理的一个重要技术里程碑:在内存有限的消费级硬件上运行 Qwen3.5-397B-A17B 混合专家(MoE)模型。通过实施 Apple 2023 年“LLM in a Flash”论文中的策略,研究人员成功地按需将专家权重从 SSD 流式传输到 DRAM,在 48GB M3 Max MacBook Pro 上实现了超过每秒 5.5 个 token 的速度。一个关键亮点是其方法论,它利用 Claude Code 和“自动研究”模式自动化了 90 次实验,生成了优化的 MLX、Objective-C 和 Metal 代码。该实现对专家模型使用了 2-bit 量化,同时将路由矩阵等关键组件以更高精度保留在内存中。然而,作者指出,由于 AI 提供的评估数据较少,对输出质量的实际影响仍不确定。

💡 主要观点

- MoE 模型通过 SSD 权重流式传输,实现了在有限内存下进行大规模 LLM 推理。 通过仅将每个 token 所需的特定“专家”权重从闪存加载到 DRAM,可以实现在本地运行远超物理内存容量的模型。

“自动研究”工作流加速了复杂的技术实现和优化。 使用 Claude Code 解读学术论文并自主运行数十次实验,可以快速生成高性能的 Metal 和 MLX 代码。
策略性量化平衡了内存占用与模型驻留需求。 该实验对专家模型应用了 2-bit 量化,同时保持嵌入层和路由矩阵(5.5GB)的原始精度,以确保模型保持功能正常。
减少每个 token 的活跃专家数量为本地硬件带来了显著的性能提升。 将每个 token 的标准 10 个专家减少到 4 个,提高了推理速度,但也给模型的推理质量带来了潜在风险。

💬 文章金句

- 成功让自定义版本的 Qwen3.5-397B-A17B 在 48GB MacBook Pro M3 Max 上以超过 5.5 tokens/秒的速度运行,尽管该模型在磁盘上占用了 209GB。

  • 这些专家权重可以从 SSD 流式传输到内存中,无需将它们全部同时保存在 RAM 中。
  • 他将论文喂给 Claude Code,并使用 Andrej Karpathy 的自动研究模式的变体,让 Claude 运行了 90 次实验。
  • 最终模型将专家部分量化为 2-bit,但非专家部分……保持了原始精度。
  • 我不确定模型结果的质量受到了多大影响。

📊 文章信息

AI 评分:84

来源:Simon Willison's Weblog

作者:Simon Willison

分类:人工智能

语言:英文

阅读时间:2 分钟

字数:360

标签: LLM 推理, 混合专家模型 (MoE), Apple Silicon, MLX, 量化

阅读完整文章

查看原文 → 發佈: 2026-03-19 07:56:46 收錄: 2026-03-19 10:00:54

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。