开发者在 iPhone 17 Pro 上跑通 4000 亿参数 AI 大模型,手机却只有 12GB 内存

开发者在 iPhone 17 Pro 上跑通 4000 亿参数 AI 大模型,手机却只有 12GB 内存

iPhone 17 Pro 竟然成功运行了一个 4000 亿参数的大型语言模型。要知道,这种规模的模型通常至少需要 200GB 内存才能加载,而这部手机的 RAM 只有 12GB,这让整个演示显得格外惊人。

之所以能做到这一点,是因为开发者没有把整个模型一次性塞进内存,而是采用了一种全新的加载方式:直接从存储设备流式读取数据。这样一来,设备就能处理原本远超硬件极限的任务。

根据 Flash-MoE 和开发者 @anemll 发布的开源演示,这个 400B 模型在 iPhone 17 Pro 上虽然受到不少限制,但依然能够正常完成推理任务。

Running 400B model on iPhone!
0.6 t/s
Credit @danveloper @alexintosh @danpacary @anemll pic.twitter.com/LZCLqsvSUP

— Anemll (@anemll) March 23, 2026

整个方案采用了 Mixture of Experts(MoE)架构,也就是说,每次请求只激活模型中很小一部分参数,而不是一次性调动全部 4000 亿参数,这大大降低了内存占用。

与此同时,系统还会把模型数据从 iPhone 的 SSD 持续流式传输到 GPU,避免把 RAM 占满,让手机能一点一点地处理查询。

速度很慢,但确实能用

演示中,iPhone 17 Pro 生成文本的速度大约是每秒 0.6 个 token,大概相当于一两秒才蹦出一个词。所以模型虽然能跑,但离日常实用还有明显差距。

尽管如此,这个成果还是说明:只要开发者用好量化、选择性激活等高效技术,智能手机其实能承载比想象中大得多的 AI 模型。

本地运行模型的最大好处是隐私完全可控,也不需要联网,但长时间使用会对电池和硬件造成不小的压力。

这次演示清晰地展示了移动端 AI 的进步,随着芯片设计和软件优化的继续迭代,未来这些大模型很有可能在普通手机上达到真正好用的速度。

全部评论0

没有了

到底了

查看更多

发表评论

评分:
显示验证码 验证码