苹果硅基 Mac 借助 Ollama 新增 MLX 支持，本地 AI 运行速度大幅提升

在 Mac 上本地运行 AI 模型听起来一直很有吸引力，因为它能让用户获得更多控制权、更好的隐私保护，并且摆脱订阅费用的限制。不过，这也一直面临着明显的硬件挑战——即使是规模较小的语言模型，也会占用大量内存，在日常使用中给 Mac 的硬件带来不小的压力。

Ollama 最新预览版 0.19 正在尝试解决这个问题，它现在集成了苹果开源的 MLX 框架，显著提升了苹果硅基 Mac 上本地 AI 的性能。这一变化很重要，因为 MLX 正是为充分利用苹果统一内存架构而设计的，在这种架构下，CPU 和 GPU 可以更高效地共享同一块内存池。

Ollama 在公告中表示：

“这让 Ollama 在所有苹果硅基设备上的运行速度有了显著提升。在苹果 M5、M5 Pro 和 M5 Max 芯片上，Ollama 利用新的 GPU Neural Accelerators，进一步加速了首 token 生成时间（TTFT）和生成速度（每秒 token 数）。”

这个“显著提升”才是最核心的亮点，特别是对那些希望本地助手和编程工具响应更快的人来说。首 token 时间更短、生成速度更快，会让本地模型在实际工作中感觉实用得多。

Ollama 还提到，这次更新对个人助手（如 OpenClaw）和编程代理（如 Claude Code、OpenCode、Codex）都有帮助，同时改进了缓存性能，并新增了对 Nvidia NVFP4 压缩格式的支持，在兼容环境下能进一步提升内存使用效率。

不过，目前仍有一个不小的限制：Ollama 建议使用统一内存超过 32GB 的 Mac，而且当前的 MLX 预览版只支持一个模型——阿里巴巴 Qwen3.5 的 350 亿参数版本。

尽管如此，这次更新还是说明了为什么 Mac 上的本地 AI 越来越受关注。用户想要更私密的 workflow、更少的云端限制，以及更好地利用自己已有的硬件，而 Ollama 引入 MLX 的举措，正以一种实实在在的方式推动这一趋势向前发展。

全部评论0