原始标题: This Free App Runs AI Offline On Your iPhone

发布日期: 2026-03-04 | 来源频道: @mreflow

📝 深度摘要

1. 对话背景与核心主题

本期视频实测了在iPhone上离线运行大模型的可能性。技术博主mreflow演示了免费应用Locally AI,它能在手机上本地运行阿里巴巴开源的Qwen 3.5系列模型(800M/2B/4B/9B四种规格)。实测表明,4B参数模型需iPhone 15 Pro及以上机型,2B模型需iPhone 15,800M模型则需iPhone 14。该应用支持语音对话、视觉识别和思维链推理模式,最重要的是实现100%纯本地运行——数据完全存储在设备中,不上传任何服务器,即使开启飞行模式也能正常使用。这意味着用户在飞机上、地下室等无网络场景下仍可向AI求助,且完全规避隐私风险。mreflow指出,当前手机端本地AI的性能已超越约一年半前的云端最先进模型,日常对话和头脑风暴完全够用,但复杂逻辑推理仍有局限。

2. 核心干货概览 (Productivity & Tech Takeaways)

类别 核心动态 / 工具 生产力价值 / 硬件门槛
模型/产品更新 Locally AI 应用 + Qwen 3.5 系列(800M/2B/4B/9B 四种参数规格) 在手机上运行的开源大模型,性能超越 GPT-5 Nano(非最新版本),达到约一年半前云端最先进模型的水平
硬件/环境要求 4B 参数模型需 iPhone 15 Pro 及以上;2B 参数模型需 iPhone 15;800M 参数模型需 iPhone 14 及以上 [物理底线]:A17 Pro / A18 系列芯片是运行 4B 模型的必要条件
隐私与安全 100% 纯本地运行,无需网络连接,数据不出设备 用户对话内容、Prompt 完全留存于手机本地,OpenAI/Anthropic/Google/XAI 均无法获取任何数据

3. 深度实测 SOP 与性能报告 (Deep Dive / Performance Report)

3.1 实测表现还原

基础推理测试:mreflow 首先用 Qwen 3.5 4B 模型测试单词"strawberry"中字母"r"的数量。模型逐字符分解单词并正确回答"3个r"。该测试验证了基础拼写与计数能力。

逻辑推理测试:使用经典的"车距问题"——“如果洗车店离你家 200 米,应该走路还是开车去?“模型展现了与其他同级别模型相同的逻辑缺陷:它开始讨论比较不同条件下的行驶时间,而忽略了一个关键前提——使用洗车服务必须开车前往。该测试揭示了 4B 以下参数模型在复杂推理场景下的局限性。

头脑风暴测试:切换至 2B 参数模型,要求模型生成 YouTube 视频创意。模型快速响应,输出了约 30 个视频标题建议,包括"AI 会取代你的工作"“如何用 AI 改掉坏习惯"等。2B 模型响应速度明显快于 4B 版本。

思维链(Chain of Thought)模式测试:开启"小灯泡"图标激活思维链模式,模型展示了完整的推理过程链。mreflow 观察到手机出现明显温升,但未达到"烫手"程度。

离线飞行模式实测:进入系统设置,开启飞行模式(关闭 Wi-Fi 和 5G),完全切断网络后,模型仍能正常生成回复。针对"孩子因为被没收 iPad 而情绪崩溃,如何安抚"的实际问题,模型给出了结构化的建议。

多模态视觉测试:mreflow 拍摄饮品瓶身照片并提问"这是健康的选择吗?",模型基于标签识别给出"零糖、天然风味,属于健康选项"的判断。

语音模式测试:应用支持语音输入输出,mreflow 通过语音询问晚餐建议,模型以语音方式回复了多个选项(烤三文鱼、炒蔬菜、Taco bar 等)。

3.2 配置与运行 SOP

  1. 在 App Store 搜索"Locally AI"并下载(评分 4.8/5.0,579 个评价)
  2. 首次打开应用,选择目标模型
  3. 可选步骤:进入设置 → 个性化(Personalization)添加自定义指令
  4. 可选步骤:调整温度参数(默认设置为佳)
  5. 可选步骤:添加 Siri 快捷指令,实现"Hey Siri, 询问 Locally AI"语音唤起
  6. 模型下载:4B 参数模型在 Wi-Fi 环境下约需 5 分钟完成下载

3.3 “真相"核查

  • 模型选择限制:首次进入时的模型列表并非完整。跳过初始选择后,可发现更多模型选项(Qwen 3.5 系列需在第二级菜单中选取)
  • 长对话性能衰减:随着对话上下文积累,模型响应会出现卡顿。mreflow 观察到当对话超过一定长度后,界面滚动出现 choppy(卡顿)现象
  • 逻辑能力边界:4B 参数模型在需要常识推理的场景中仍会犯低级错误(如车距问题),不适合作为复杂数学或逻辑问题的求解器

4. 行业清醒剂与非共识观察 (Reality Check & Insights)

4.1 反直觉结论

本地运行的手机端 AI 实际上已经超越了大约一年半前云端最先进模型的水平。mreflow 指出,当前在 iPhone 上本地运行的 Qwen 3.5 2B/4B 模型,其能力已经优于约 2023-2024 年初的云端 API 主流模型。这意味着对于大多数日常使用场景(如头脑风暴、简单问答、生活助手),用户不再必须依赖云端服务。

4.2 实战陷阱

  • 硬件门槛被低估:4B 参数模型需要 iPhone 15 Pro(搭载 A17 Pro 芯片),这意味着 2023 年之前的 iPhone 用户无法获得最佳体验
  • 模型并非"免费”:虽然应用本身免费,但下载的模型权重文件体积从数 GB 到十余 GB 不等,消耗大量存储空间
  • 发热与续航代价:持续运行大模型会导致手机显著发热和电池消耗,长对话场景下需注意

5. 金句 (Golden Quotes)

  • “你不需要互联网就能用这个。OpenAI、Anthropic、Google、XAI,这些公司都收不到你的任何数据,因为一切都在手机上本地处理。”
  • “四五十亿参数模型在手机上跑得飞快,比我们一年半前从 ChatGPT 获得的体验还好。”
  • “如果你在万米高空的飞机上,孩子正在闹脾气,而你身边没有网络——现在你有了一个好工具来向 AI 求助。”

📺 视频原片


视频ID: 4dZ0VYjB8N8