Ollama 引入了对 Apple MLX 框架和 Nvidia NVFP4 格式的支持,显著提升了 Apple Silicon Mac 上本地 LLM 的性能,尽管目前仅限于特定模型和硬件配置。
📝 详细摘要
本文报道了 Ollama 的最新更新(v0.19),该版本集成了 Apple 的 MLX 框架和 Nvidia 的 NVFP4 压缩格式。这些改进旨在优化 Apple Silicon 硬件上本地大语言模型的内存使用和推理速度。随着 OpenClaw 等工具的流行,以及开发者对云端 API 速率限制和成本的日益不满,本地运行模型的需求激增,此次更新正是在这一背景下推出的。该功能目前处于预览阶段,支持 Qwen3.5-35B 模型,并要求至少 32GB 的内存。
💡 主要观点
- 集成 MLX 和 NVFP4 以优化性能。 Ollama 现在支持 Apple 的 MLX 框架和 Nvidia 的 NVFP4 压缩技术,旨在优化 Apple Silicon 上本地模型执行的内存使用和推理速度。
💬 文章金句
- Ollama 是一个用于在本地计算机上运行大语言模型的运行时系统,现已引入对 Apple 开源机器学习框架 MLX 的支持。
- 综合来看,这些进展有望显著提升搭载 Apple Silicon 芯片(M1 或更高版本)的 Mac 的性能。
- 随着开发者对 Claude Code 或 ChatGPT Codex 等工具的速率限制和高昂订阅费用感到沮丧,对本地编码模型的实验热情日益高涨。
📊 文章信息
AI 评分:78
来源:Ars Technica
作者:Samuel Axon
分类:人工智能
语言:英文
阅读时间:1 分钟
字数:216
标签: Ollama, MLX, Apple Silicon, 本地 LLM, NVFP4