Ollama 支持 MLX，让 Mac 本地运行模型速度更快

📌 一句话摘要

Ollama 引入了对 Apple MLX 框架和 Nvidia NVFP4 格式的支持，显著提升了 Apple Silicon Mac 上本地 LLM 的性能，尽管目前仅限于特定模型和硬件配置。

📝 详细摘要

本文报道了 Ollama 的最新更新（v0.19），该版本集成了 Apple 的 MLX 框架和 Nvidia 的 NVFP4 压缩格式。这些改进旨在优化 Apple Silicon 硬件上本地大语言模型的内存使用和推理速度。随着 OpenClaw 等工具的流行，以及开发者对云端 API 速率限制和成本的日益不满，本地运行模型的需求激增，此次更新正是在这一背景下推出的。该功能目前处于预览阶段，支持 Qwen3.5-35B 模型，并要求至少 32GB 的内存。

💡 主要观点

- 集成 MLX 和 NVFP4 以优化性能。 Ollama 现在支持 Apple 的 MLX 框架和 Nvidia 的 NVFP4 压缩技术，旨在优化 Apple Silicon 上本地模型执行的内存使用和推理速度。

本地模型采用趋势日益增长。 向本地模型执行的转变，得益于 OpenClaw 等项目的成功，以及开发者希望绕过云端 AI 服务相关的 API 速率限制和高昂成本的愿望。

预览版的硬件和软件限制。 预览版（v0.19）目前仅限于 Qwen3.5-35B 模型，且对硬件资源要求较高，具体要求至少 32GB 内存。

💬 文章金句

- Ollama 是一个用于在本地计算机上运行大语言模型的运行时系统，现已引入对 Apple 开源机器学习框架 MLX 的支持。

综合来看，这些进展有望显著提升搭载 Apple Silicon 芯片（M1 或更高版本）的 Mac 的性能。
随着开发者对 Claude Code 或 ChatGPT Codex 等工具的速率限制和高昂订阅费用感到沮丧，对本地编码模型的实验热情日益高涨。

📊 文章信息

AI 评分：78

来源：Ars Technica

作者：Samuel Axon

分类：人工智能

语言：英文

阅读时间：1 分钟

字数：216

标签： Ollama, MLX, Apple Silicon, 本地 LLM, NVFP4

阅读完整文章

Ollama 支持 MLX，让 Mac 本地运行模型速度更快

🤖 問 AI