← 回總覽

Ollama 支持 MLX,让 Mac 本地运行模型速度更快

📅 2026-04-01 07:00 Samuel Axon 人工智能 1 分鐘 1151 字 評分: 78
Ollama MLX Apple Silicon 本地 LLM NVFP4
📌 一句话摘要 Ollama 引入了对 Apple MLX 框架和 Nvidia NVFP4 格式的支持,显著提升了 Apple Silicon Mac 上本地 LLM 的性能,尽管目前仅限于特定模型和硬件配置。 📝 详细摘要 本文报道了 Ollama 的最新更新(v0.19),该版本集成了 Apple 的 MLX 框架和 Nvidia 的 NVFP4 压缩格式。这些改进旨在优化 Apple Silicon 硬件上本地大语言模型的内存使用和推理速度。随着 OpenClaw 等工具的流行,以及开发者对云端 API 速率限制和成本的日益不满,本地运行模型的需求激增,此次更新正是在这一背景下推出

📌 一句话摘要

Ollama 引入了对 Apple MLX 框架和 Nvidia NVFP4 格式的支持,显著提升了 Apple Silicon Mac 上本地 LLM 的性能,尽管目前仅限于特定模型和硬件配置。

📝 详细摘要

本文报道了 Ollama 的最新更新(v0.19),该版本集成了 Apple 的 MLX 框架和 Nvidia 的 NVFP4 压缩格式。这些改进旨在优化 Apple Silicon 硬件上本地大语言模型的内存使用和推理速度。随着 OpenClaw 等工具的流行,以及开发者对云端 API 速率限制和成本的日益不满,本地运行模型的需求激增,此次更新正是在这一背景下推出的。该功能目前处于预览阶段,支持 Qwen3.5-35B 模型,并要求至少 32GB 的内存。

💡 主要观点

- 集成 MLX 和 NVFP4 以优化性能。 Ollama 现在支持 Apple 的 MLX 框架和 Nvidia 的 NVFP4 压缩技术,旨在优化 Apple Silicon 上本地模型执行的内存使用和推理速度。

本地模型采用趋势日益增长。 向本地模型执行的转变,得益于 OpenClaw 等项目的成功,以及开发者希望绕过云端 AI 服务相关的 API 速率限制和高昂成本的愿望。
预览版的硬件和软件限制。 预览版(v0.19)目前仅限于 Qwen3.5-35B 模型,且对硬件资源要求较高,具体要求至少 32GB 内存。

💬 文章金句

- Ollama 是一个用于在本地计算机上运行大语言模型的运行时系统,现已引入对 Apple 开源机器学习框架 MLX 的支持。

  • 综合来看,这些进展有望显著提升搭载 Apple Silicon 芯片(M1 或更高版本)的 Mac 的性能。
  • 随着开发者对 Claude Code 或 ChatGPT Codex 等工具的速率限制和高昂订阅费用感到沮丧,对本地编码模型的实验热情日益高涨。

📊 文章信息

AI 评分:78

来源:Ars Technica

作者:Samuel Axon

分类:人工智能

语言:英文

阅读时间:1 分钟

字数:216

标签: Ollama, MLX, Apple Silicon, 本地 LLM, NVFP4

阅读完整文章

查看原文 → 發佈: 2026-04-01 07:00:23 收錄: 2026-04-01 10:00:17

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。