开发者在 iPhone 17 Pro 上跑通 4000 亿参数 AI 大模型，手机却只有 12GB 内存

iPhone 17 Pro 竟然成功运行了一个 4000 亿参数的大型语言模型。要知道，这种规模的模型通常至少需要 200GB 内存才能加载，而这部手机的 RAM 只有 12GB，这让整个演示显得格外惊人。

之所以能做到这一点，是因为开发者没有把整个模型一次性塞进内存，而是采用了一种全新的加载方式：直接从存储设备流式读取数据。这样一来，设备就能处理原本远超硬件极限的任务。

根据 Flash-MoE 和开发者 @anemll 发布的开源演示，这个 400B 模型在 iPhone 17 Pro 上虽然受到不少限制，但依然能够正常完成推理任务。

Running 400B model on iPhone!
0.6 t/s
Credit @danveloper @alexintosh @danpacary @anemll pic.twitter.com/LZCLqsvSUP
— Anemll (@anemll) March 23, 2026

整个方案采用了 Mixture of Experts（MoE）架构，也就是说，每次请求只激活模型中很小一部分参数，而不是一次性调动全部 4000 亿参数，这大大降低了内存占用。

与此同时，系统还会把模型数据从 iPhone 的 SSD 持续流式传输到 GPU，避免把 RAM 占满，让手机能一点一点地处理查询。

速度很慢，但确实能用

演示中，iPhone 17 Pro 生成文本的速度大约是每秒 0.6 个 token，大概相当于一两秒才蹦出一个词。所以模型虽然能跑，但离日常实用还有明显差距。

尽管如此，这个成果还是说明：只要开发者用好量化、选择性激活等高效技术，智能手机其实能承载比想象中大得多的 AI 模型。

本地运行模型的最大好处是隐私完全可控，也不需要联网，但长时间使用会对电池和硬件造成不小的压力。

这次演示清晰地展示了移动端 AI 的进步，随着芯片设计和软件优化的继续迭代，未来这些大模型很有可能在普通手机上达到真正好用的速度。