自动研究：利用 Apple 的“LLM in a Flash”在本地运行 Qwen 397B

📌 一句话摘要

本文探讨了 Dan Woods 的一项研究实验，该实验利用 Apple 的“LLM in a Flash”技术和 AI 驱动的“自动研究”模式，在 48GB MacBook Pro 上运行 397B 参数的 Qwen 模型。

📝 详细摘要

本文强调了本地 LLM 推理的一个重要技术里程碑：在内存有限的消费级硬件上运行 Qwen3.5-397B-A17B 混合专家（MoE）模型。通过实施 Apple 2023 年“LLM in a Flash”论文中的策略，研究人员成功地按需将专家权重从 SSD 流式传输到 DRAM，在 48GB M3 Max MacBook Pro 上实现了超过每秒 5.5 个 token 的速度。一个关键亮点是其方法论，它利用 Claude Code 和“自动研究”模式自动化了 90 次实验，生成了优化的 MLX、Objective-C 和 Metal 代码。该实现对专家模型使用了 2-bit 量化，同时将路由矩阵等关键组件以更高精度保留在内存中。然而，作者指出，由于 AI 提供的评估数据较少，对输出质量的实际影响仍不确定。

💡 主要观点

- MoE 模型通过 SSD 权重流式传输，实现了在有限内存下进行大规模 LLM 推理。 通过仅将每个 token 所需的特定“专家”权重从闪存加载到 DRAM，可以实现在本地运行远超物理内存容量的模型。

“自动研究”工作流加速了复杂的技术实现和优化。 使用 Claude Code 解读学术论文并自主运行数十次实验，可以快速生成高性能的 Metal 和 MLX 代码。

策略性量化平衡了内存占用与模型驻留需求。 该实验对专家模型应用了 2-bit 量化，同时保持嵌入层和路由矩阵（5.5GB）的原始精度，以确保模型保持功能正常。

减少每个 token 的活跃专家数量为本地硬件带来了显著的性能提升。 将每个 token 的标准 10 个专家减少到 4 个，提高了推理速度，但也给模型的推理质量带来了潜在风险。

💬 文章金句

- 成功让自定义版本的 Qwen3.5-397B-A17B 在 48GB MacBook Pro M3 Max 上以超过 5.5 tokens/秒的速度运行，尽管该模型在磁盘上占用了 209GB。

这些专家权重可以从 SSD 流式传输到内存中，无需将它们全部同时保存在 RAM 中。
他将论文喂给 Claude Code，并使用 Andrej Karpathy 的自动研究模式的变体，让 Claude 运行了 90 次实验。
最终模型将专家部分量化为 2-bit，但非专家部分……保持了原始精度。
我不确定模型结果的质量受到了多大影响。

📊 文章信息

AI 评分：84

来源：Simon Willison's Weblog

作者：Simon Willison

分类：人工智能

语言：英文

阅读时间：2 分钟

字数：360

标签： LLM 推理, 混合专家模型 (MoE), Apple Silicon, MLX, 量化

阅读完整文章

自动研究：利用 Apple 的“LLM in a Flash”在本地运行 Qwen 397B

🤖 問 AI