原始标题: This Free App Runs AI Offline On Your iPhone

发布日期: 2026-03-04 | 来源频道: @mreflow

📝 深度摘要

1. 对话背景与核心主题

本期视频实测了在iPhone上离线运行大模型的可能性。技术博主mreflow演示了免费应用Locally AI，它能在手机上本地运行阿里巴巴开源的Qwen 3.5系列模型（800M/2B/4B/9B四种规格）。实测表明，4B参数模型需iPhone 15 Pro及以上机型，2B模型需iPhone 15，800M模型则需iPhone 14。该应用支持语音对话、视觉识别和思维链推理模式，最重要的是实现100%纯本地运行——数据完全存储在设备中，不上传任何服务器，即使开启飞行模式也能正常使用。这意味着用户在飞机上、地下室等无网络场景下仍可向AI求助，且完全规避隐私风险。mreflow指出，当前手机端本地AI的性能已超越约一年半前的云端最先进模型，日常对话和头脑风暴完全够用，但复杂逻辑推理仍有局限。

2. 核心干货概览 (Productivity & Tech Takeaways)

类别	核心动态 / 工具	生产力价值 / 硬件门槛
模型/产品更新	Locally AI 应用 + Qwen 3.5 系列（800M/2B/4B/9B 四种参数规格）	在手机上运行的开源大模型，性能超越 GPT-5 Nano（非最新版本），达到约一年半前云端最先进模型的水平
硬件/环境要求	4B 参数模型需 iPhone 15 Pro 及以上；2B 参数模型需 iPhone 15；800M 参数模型需 iPhone 14 及以上	[物理底线]：A17 Pro / A18 系列芯片是运行 4B 模型的必要条件
隐私与安全	100% 纯本地运行，无需网络连接，数据不出设备	用户对话内容、Prompt 完全留存于手机本地，OpenAI/Anthropic/Google/XAI 均无法获取任何数据

3. 深度实测 SOP 与性能报告 (Deep Dive / Performance Report)

3.1 实测表现还原

基础推理测试：mreflow 首先用 Qwen 3.5 4B 模型测试单词"strawberry"中字母"r"的数量。模型逐字符分解单词并正确回答"3个r"。该测试验证了基础拼写与计数能力。

逻辑推理测试：使用经典的"车距问题"——“如果洗车店离你家 200 米，应该走路还是开车去？“模型展现了与其他同级别模型相同的逻辑缺陷：它开始讨论比较不同条件下的行驶时间，而忽略了一个关键前提——使用洗车服务必须开车前往。该测试揭示了 4B 以下参数模型在复杂推理场景下的局限性。

头脑风暴测试：切换至 2B 参数模型，要求模型生成 YouTube 视频创意。模型快速响应，输出了约 30 个视频标题建议，包括"AI 会取代你的工作"“如何用 AI 改掉坏习惯"等。2B 模型响应速度明显快于 4B 版本。

思维链（Chain of Thought）模式测试：开启"小灯泡"图标激活思维链模式，模型展示了完整的推理过程链。mreflow 观察到手机出现明显温升，但未达到"烫手"程度。

离线飞行模式实测：进入系统设置，开启飞行模式（关闭 Wi-Fi 和 5G），完全切断网络后，模型仍能正常生成回复。针对"孩子因为被没收 iPad 而情绪崩溃，如何安抚"的实际问题，模型给出了结构化的建议。

多模态视觉测试：mreflow 拍摄饮品瓶身照片并提问"这是健康的选择吗？"，模型基于标签识别给出"零糖、天然风味，属于健康选项"的判断。

语音模式测试：应用支持语音输入输出，mreflow 通过语音询问晚餐建议，模型以语音方式回复了多个选项（烤三文鱼、炒蔬菜、Taco bar 等）。

3.2 配置与运行 SOP

在 App Store 搜索"Locally AI"并下载（评分 4.8/5.0，579 个评价）
首次打开应用，选择目标模型
可选步骤：进入设置 → 个性化（Personalization）添加自定义指令
可选步骤：调整温度参数（默认设置为佳）
可选步骤：添加 Siri 快捷指令，实现"Hey Siri, 询问 Locally AI"语音唤起
模型下载：4B 参数模型在 Wi-Fi 环境下约需 5 分钟完成下载

3.3 “真相"核查

模型选择限制：首次进入时的模型列表并非完整。跳过初始选择后，可发现更多模型选项（Qwen 3.5 系列需在第二级菜单中选取）
长对话性能衰减：随着对话上下文积累，模型响应会出现卡顿。mreflow 观察到当对话超过一定长度后，界面滚动出现 choppy（卡顿）现象
逻辑能力边界：4B 参数模型在需要常识推理的场景中仍会犯低级错误（如车距问题），不适合作为复杂数学或逻辑问题的求解器

4. 行业清醒剂与非共识观察 (Reality Check & Insights)

4.1 反直觉结论

本地运行的手机端 AI 实际上已经超越了大约一年半前云端最先进模型的水平。mreflow 指出，当前在 iPhone 上本地运行的 Qwen 3.5 2B/4B 模型，其能力已经优于约 2023-2024 年初的云端 API 主流模型。这意味着对于大多数日常使用场景（如头脑风暴、简单问答、生活助手），用户不再必须依赖云端服务。

4.2 实战陷阱

硬件门槛被低估：4B 参数模型需要 iPhone 15 Pro（搭载 A17 Pro 芯片），这意味着 2023 年之前的 iPhone 用户无法获得最佳体验
模型并非"免费”：虽然应用本身免费，但下载的模型权重文件体积从数 GB 到十余 GB 不等，消耗大量存储空间
发热与续航代价：持续运行大模型会导致手机显著发热和电池消耗，长对话场景下需注意

5. 金句 (Golden Quotes)

“你不需要互联网就能用这个。OpenAI、Anthropic、Google、XAI，这些公司都收不到你的任何数据，因为一切都在手机上本地处理。”
“四五十亿参数模型在手机上跑得飞快，比我们一年半前从 ChatGPT 获得的体验还好。”
“如果你在万米高空的飞机上，孩子正在闹脾气，而你身边没有网络——现在你有了一个好工具来向 AI 求助。”

📺 视频原片

视频ID: 4dZ0VYjB8N8

📝 深度摘要#

1. 对话背景与核心主题#

2. 核心干货概览 (Productivity & Tech Takeaways)#

3. 深度实测 SOP 与性能报告 (Deep Dive / Performance Report)#

3.1 实测表现还原#

3.2 配置与运行 SOP#

3.3 “真相"核查#

4. 行业清醒剂与非共识观察 (Reality Check & Insights)#

4.1 反直觉结论#

4.2 实战陷阱#

5. 金句 (Golden Quotes)#

📺 视频原片#