苹果硅基 Mac 借助 Ollama 新增 MLX 支持,本地 AI 运行速度大幅提升

苹果硅基 Mac 借助 Ollama 新增 MLX 支持,本地 AI 运行速度大幅提升

在 Mac 上本地运行 AI 模型听起来一直很有吸引力,因为它能让用户获得更多控制权、更好的隐私保护,并且摆脱订阅费用的限制。不过,这也一直面临着明显的硬件挑战——即使是规模较小的语言模型,也会占用大量内存,在日常使用中给 Mac 的硬件带来不小的压力。

Ollama 最新预览版 0.19 正在尝试解决这个问题,它现在集成了苹果开源的 MLX 框架,显著提升了苹果硅基 Mac 上本地 AI 的性能。这一变化很重要,因为 MLX 正是为充分利用苹果统一内存架构而设计的,在这种架构下,CPU 和 GPU 可以更高效地共享同一块内存池。

Ollama 在公告中表示:

“这让 Ollama 在所有苹果硅基设备上的运行速度有了显著提升。在苹果 M5、M5 Pro 和 M5 Max 芯片上,Ollama 利用新的 GPU Neural Accelerators,进一步加速了首 token 生成时间(TTFT)和生成速度(每秒 token 数)。”

这个“显著提升”才是最核心的亮点,特别是对那些希望本地助手和编程工具响应更快的人来说。首 token 时间更短、生成速度更快,会让本地模型在实际工作中感觉实用得多。

Ollama 还提到,这次更新对个人助手(如 OpenClaw)和编程代理(如 Claude Code、OpenCode、Codex)都有帮助,同时改进了缓存性能,并新增了对 Nvidia NVFP4 压缩格式的支持,在兼容环境下能进一步提升内存使用效率。

不过,目前仍有一个不小的限制:Ollama 建议使用统一内存超过 32GB 的 Mac,而且当前的 MLX 预览版只支持一个模型——阿里巴巴 Qwen3.5 的 350 亿参数版本。

尽管如此,这次更新还是说明了为什么 Mac 上的本地 AI 越来越受关注。用户想要更私密的 workflow、更少的云端限制,以及更好地利用自己已有的硬件,而 Ollama 引入 MLX 的举措,正以一种实实在在的方式推动这一趋势向前发展。

全部评论0

没有了

到底了

查看更多

发表评论

评分:
显示验证码 验证码