原始标题: This Free App Runs AI Offline On Your iPhone
发布日期: 2026-03-04 | 来源频道: @mreflow
📝 深度摘要
1. 对话背景与核心主题
本期视频实测了在iPhone上离线运行大模型的可能性。技术博主mreflow演示了免费应用Locally AI,它能在手机上本地运行阿里巴巴开源的Qwen 3.5系列模型(800M/2B/4B/9B四种规格)。实测表明,4B参数模型需iPhone 15 Pro及以上机型,2B模型需iPhone 15,800M模型则需iPhone 14。该应用支持语音对话、视觉识别和思维链推理模式,最重要的是实现100%纯本地运行——数据完全存储在设备中,不上传任何服务器,即使开启飞行模式也能正常使用。这意味着用户在飞机上、地下室等无网络场景下仍可向AI求助,且完全规避隐私风险。mreflow指出,当前手机端本地AI的性能已超越约一年半前的云端最先进模型,日常对话和头脑风暴完全够用,但复杂逻辑推理仍有局限。
2. 核心干货概览 (Productivity & Tech Takeaways)
| 类别 | 核心动态 / 工具 | 生产力价值 / 硬件门槛 |
|---|---|---|
| 模型/产品更新 | Locally AI 应用 + Qwen 3.5 系列(800M/2B/4B/9B 四种参数规格) | 在手机上运行的开源大模型,性能超越 GPT-5 Nano(非最新版本),达到约一年半前云端最先进模型的水平 |
| 硬件/环境要求 | 4B 参数模型需 iPhone 15 Pro 及以上;2B 参数模型需 iPhone 15;800M 参数模型需 iPhone 14 及以上 | [物理底线]:A17 Pro / A18 系列芯片是运行 4B 模型的必要条件 |
| 隐私与安全 | 100% 纯本地运行,无需网络连接,数据不出设备 | 用户对话内容、Prompt 完全留存于手机本地,OpenAI/Anthropic/Google/XAI 均无法获取任何数据 |
3. 深度实测 SOP 与性能报告 (Deep Dive / Performance Report)
3.1 实测表现还原
基础推理测试:mreflow 首先用 Qwen 3.5 4B 模型测试单词"strawberry"中字母"r"的数量。模型逐字符分解单词并正确回答"3个r"。该测试验证了基础拼写与计数能力。
逻辑推理测试:使用经典的"车距问题"——“如果洗车店离你家 200 米,应该走路还是开车去?“模型展现了与其他同级别模型相同的逻辑缺陷:它开始讨论比较不同条件下的行驶时间,而忽略了一个关键前提——使用洗车服务必须开车前往。该测试揭示了 4B 以下参数模型在复杂推理场景下的局限性。
头脑风暴测试:切换至 2B 参数模型,要求模型生成 YouTube 视频创意。模型快速响应,输出了约 30 个视频标题建议,包括"AI 会取代你的工作"“如何用 AI 改掉坏习惯"等。2B 模型响应速度明显快于 4B 版本。
思维链(Chain of Thought)模式测试:开启"小灯泡"图标激活思维链模式,模型展示了完整的推理过程链。mreflow 观察到手机出现明显温升,但未达到"烫手"程度。
离线飞行模式实测:进入系统设置,开启飞行模式(关闭 Wi-Fi 和 5G),完全切断网络后,模型仍能正常生成回复。针对"孩子因为被没收 iPad 而情绪崩溃,如何安抚"的实际问题,模型给出了结构化的建议。
多模态视觉测试:mreflow 拍摄饮品瓶身照片并提问"这是健康的选择吗?",模型基于标签识别给出"零糖、天然风味,属于健康选项"的判断。
语音模式测试:应用支持语音输入输出,mreflow 通过语音询问晚餐建议,模型以语音方式回复了多个选项(烤三文鱼、炒蔬菜、Taco bar 等)。
3.2 配置与运行 SOP
- 在 App Store 搜索"Locally AI"并下载(评分 4.8/5.0,579 个评价)
- 首次打开应用,选择目标模型
- 可选步骤:进入设置 → 个性化(Personalization)添加自定义指令
- 可选步骤:调整温度参数(默认设置为佳)
- 可选步骤:添加 Siri 快捷指令,实现"Hey Siri, 询问 Locally AI"语音唤起
- 模型下载:4B 参数模型在 Wi-Fi 环境下约需 5 分钟完成下载
3.3 “真相"核查
- 模型选择限制:首次进入时的模型列表并非完整。跳过初始选择后,可发现更多模型选项(Qwen 3.5 系列需在第二级菜单中选取)
- 长对话性能衰减:随着对话上下文积累,模型响应会出现卡顿。mreflow 观察到当对话超过一定长度后,界面滚动出现 choppy(卡顿)现象
- 逻辑能力边界:4B 参数模型在需要常识推理的场景中仍会犯低级错误(如车距问题),不适合作为复杂数学或逻辑问题的求解器
4. 行业清醒剂与非共识观察 (Reality Check & Insights)
4.1 反直觉结论
本地运行的手机端 AI 实际上已经超越了大约一年半前云端最先进模型的水平。mreflow 指出,当前在 iPhone 上本地运行的 Qwen 3.5 2B/4B 模型,其能力已经优于约 2023-2024 年初的云端 API 主流模型。这意味着对于大多数日常使用场景(如头脑风暴、简单问答、生活助手),用户不再必须依赖云端服务。
4.2 实战陷阱
- 硬件门槛被低估:4B 参数模型需要 iPhone 15 Pro(搭载 A17 Pro 芯片),这意味着 2023 年之前的 iPhone 用户无法获得最佳体验
- 模型并非"免费”:虽然应用本身免费,但下载的模型权重文件体积从数 GB 到十余 GB 不等,消耗大量存储空间
- 发热与续航代价:持续运行大模型会导致手机显著发热和电池消耗,长对话场景下需注意
5. 金句 (Golden Quotes)
- “你不需要互联网就能用这个。OpenAI、Anthropic、Google、XAI,这些公司都收不到你的任何数据,因为一切都在手机上本地处理。”
- “四五十亿参数模型在手机上跑得飞快,比我们一年半前从 ChatGPT 获得的体验还好。”
- “如果你在万米高空的飞机上,孩子正在闹脾气,而你身边没有网络——现在你有了一个好工具来向 AI 求助。”
📺 视频原片
视频ID: 4dZ0VYjB8N8