iPhone 17 Pro 竟然成功运行了一个 4000 亿参数的大型语言模型。要知道,这种规模的模型通常至少需要 200GB 内存才能加载,而这部手机的 RAM 只有 12GB,这让整个演示显得格外惊人。
之所以能做到这一点,是因为开发者没有把整个模型一次性塞进内存,而是采用了一种全新的加载方式:直接从存储设备流式读取数据。这样一来,设备就能处理原本远超硬件极限的任务。
根据 Flash-MoE 和开发者 @anemll 发布的开源演示,这个 400B 模型在 iPhone 17 Pro 上虽然受到不少限制,但依然能够正常完成推理任务。
Running 400B model on iPhone!
— Anemll (@anemll) March 23, 2026
0.6 t/s
Credit @danveloper @alexintosh @danpacary @anemll pic.twitter.com/LZCLqsvSUP
整个方案采用了 Mixture of Experts(MoE)架构,也就是说,每次请求只激活模型中很小一部分参数,而不是一次性调动全部 4000 亿参数,这大大降低了内存占用。
与此同时,系统还会把模型数据从 iPhone 的 SSD 持续流式传输到 GPU,避免把 RAM 占满,让手机能一点一点地处理查询。
速度很慢,但确实能用
演示中,iPhone 17 Pro 生成文本的速度大约是每秒 0.6 个 token,大概相当于一两秒才蹦出一个词。所以模型虽然能跑,但离日常实用还有明显差距。
尽管如此,这个成果还是说明:只要开发者用好量化、选择性激活等高效技术,智能手机其实能承载比想象中大得多的 AI 模型。
本地运行模型的最大好处是隐私完全可控,也不需要联网,但长时间使用会对电池和硬件造成不小的压力。
这次演示清晰地展示了移动端 AI 的进步,随着芯片设计和软件优化的继续迭代,未来这些大模型很有可能在普通手机上达到真正好用的速度。

Jack
全部评论0