原始标题: Forward Future Live | 01.30.26 | Guests from Flexion, Higgsfield, OpenClaw

发布日期: 2026-01-31 | 来源频道: @matthew_berman

📝 深度摘要

AI 极客实战与技术测评笔记

1. 对话背景与核心主题

本期 Forward Future Live 直播邀请了三位 AI 领域的创业者:Flexion 联合创始人 Nikita(机器人公司)、Higgsfield 联合创始人 Alex(视频 AI 公司),以及 OpenClaw 创造者 Peter。直播核心探讨了三个方向:一是具身智能与机器人技术的商业化落地,二是生成式 AI 在视频创作与社交媒体营销中的应用,三是开源 AI 代理框架的爆发式增长及其未来演进方向。这场对谈本质上是关于 AI 从云端走向物理世界、从工具走向协作者的技术路线图辩论。

2. 核心干货概览 (Technical Takeaways & Stack)

类别 名称 核心用途 / 技术意义
开源工具/库 OpenClaw 开源 AI 代理框架,GitHub 星标超过 100,000,允许模型直接在用户计算机上执行操作,实现"文字即代码"的极客愿景
机器人平台 Flexion 专注于制造业和物流业的机器人抓取与分拣,核心解决"将物品放入箱子"和"从箱子取出物品"的简单重复任务
视频 AI 平台 Higgsfield 社交媒体营销视频生成,将品牌内容制作周期从数周压缩到数小时,支持运动图形和信息图表自动化
世界模型 Google Genie 3 可通过提示词或图像生成可交互的实时 3D 世界,支持物理模拟,被认为是"模拟 GTA 6"的前置技术
企业数据提取 Box Extract 基于多模型(Anthropic、Google、OpenAI)的企业内容智能提取,理解文档结构和语义,而不仅仅是文本提取
个人 AI 助手 Apple + Claude 苹果将 Anthropic 和 Gemini 模型整合到个人设备,实现真正的个性化 AI,但目前用例定义尚不清晰

3. 技术深度拆解与实战 SOP (Technical Deep Dive / SOP)

3.1 Flexion 机器人:制造业的真实用例

环境配置路径:Flexion 的机器人系统部署在制造业和物流业的真实场景中,核心针对生产线末端操作。典型流程包括:生产线上生成产品 → 机器人折叠纸箱 → 将产品装入箱子 → 箱子封口 → 运输到物流仓库 → 仓库拆箱、分拣、重新打包 → 配送到零售店。整个链路的核心是"kitting operation"——将物品放入盒子的动作。

核心工作流逻辑:输入是来自生产线的物理物品,AI 视觉系统识别物体位置和姿态,机械臂执行抓取和放置动作。Nikita 强调,虽然听起来简单,但实际上涉及复杂的空间推理和物理交互。他提到,这些任务在制造业、物流业和零售业中非常普遍,而且都是极其重复的工作。

实测案例:Flexion 的机器人已经部署在实际的制造环境中,解决的不是什么高大上的科研问题,而是"把东西放进盒子里"这种看似简单却需要高精度重复操作的务。Nikita 指出,这是一个巨大的市场机会。

3.2 Google Genie 3:世界模型的突破

实测表现:Genie 3 是 Google 推出的世界模型,可以接受图像、视频或文字提示,生成可实时交互的 3D 世界。Matthew 在直播中展示了用 Genie 3 模拟的 GTA 6 和 Zelda 风格游戏,物理效果极其逼真。用户不仅能观看视频,还能完全参与游戏体验。Genie 3 之前的版本(Genie 1)并未公开发布,仅限 Google 内部使用。

技术解读:Matthew 认为 Genie 3 代表了世界模型的真正突破。他与团队讨论了模拟理论(simulation theory),并指出构建这项技术需要极其复杂的工程能力。对于运行这类模型所需的计算资源,Matthew 猜测 Google 只向 Ultra 订阅用户开放。他预测,到 2026 年底,可能出现通过提示词生成的端到端视频游戏,甚至"在 GTA 6 正式发布之前模拟它"并非完全不可能。

3.3 OpenClaw:开源 AI 代理的爆发

惊人的增长数据:OpenClaw 在极短时间内实现了惊人的增长——超过 100,000 GitHub 星标,月访问量超过 2,000,000。Peter 在直播中展示了增长曲线,被称为"脱衣舞杆式增长"(stripper pole growth)——之前被称为"Hockey Stick"( hockey stick growth)增长根本不足以形容。

核心架构逻辑:OpenClaw 的核心创新在于它不仅仅是一个 API 封装,而是真正让 AI 模型能够直接操作用户的计算机。Peter 提到,他早在 2024 年 5 月就开始尝试这种模式,当时他将模型连接到自己的电脑,让它可以执行各种操作。关键是信任——如果你理解技术,这是一个"计算回报极高"的风险投资。

技术细节:Peter 提到,模型已经足够好到可以支持这种应用,“半年前就可能实现”。但需要"一定的疯狂"才能迈出这一步——允许模型在你的电脑上为所欲为。他在 2025 年 1 月初创建了一个 Discord 机器人,没有任何安全保护措施(因为他还没来得及构建),人们开始使用后纷纷"上钩"。此后,OpenClaw 从技术硬核用户群体逐渐渗透到更广泛的大众。

记忆与梦境模式:Peter 透露了他最兴奋的未来方向——让 AI 代理具备记忆能力,甚至发展出"梦境模式"(Dream Mode)或"睡眠计算"(Sleep-time Compute)。他设想:在夜间,代理处理当天发生的事情,将重要内容沉淀到长期记忆;如果使用本地模型,还可以调高温度,让模型更具创造力,探索权重边缘的各种可能性。

4. 核心干货运用 (Prompts & Configuration)

4.1 OpenClaw 的系统级 Prompt 策略

Peter 在访谈中提到,OpenClaw 依赖模型自身的推理能力来完成任务,而非依赖复杂的提示工程。他表示:“模型已经足够好,这个可能性半年前就存在。“关键在于让模型有足够的自由度去探索,同时设置合理的边界。他的实验方法是:先给模型一个高层目标,让它自行决定执行步骤。

4.2 Box Extract 的企业数据提取

Box Extract 采用多模型架构,集成 Anthropic、Google 和 OpenAI 的能力。它不仅仅是提取文本,而是理解文档的结构和语义——识别段落、表格、图表,并提取最重要的信息。Box 的实际应用场景是企业内部文档管理,帮助企业从大量非结构化数据中提取价值。

4.3 Higgsfield 的运动设计自动化

Higgsfield 正在开发"运动设计民主化"工具,将传统的 Adobe After Effects 工作流 AI 化。核心思路是让 AI 代理完成图形设计和运动设计,而不仅仅是辅助工具。他们的规划是从"氛围编辑”(vibe editing)逐步演进到完全由 AI 生成最终视频。

5. 极客洞察与避坑指南 (Geek Insights & Boundary)

5.1 反直觉技术结论

AI 代理不应只聚焦浏览器层:Alex 指出,大型科技公司大量投入"AI 浏览器代理”,但这只关注了错误的技术层级。他认为这些工具的价值有限,因为它们被困在浏览器内部,无法与用户的全部工具链交互。相比之下,OpenClaw 代表的"全栈 AI 代理"能操作用户计算机上的任何应用,这才是真正的范式转移。

世界模型可能比 LLM 更贵:Alex 提到,顶级 AI 实验室目前训练的模型成本高达数亿美元,接近十亿美元。视频模型很可能比 LLM 更大、更昂贵。DeepMind 的 Demis Hassabis 很早就指出,视频/空间理解是通往 AGI 的路径,因此这将成为所有顶级实验室的核心优先级。

AI 视频不会完全替代人类创作者:关于 Sora 等纯 AI 视频平台的留存率下降问题,Alex 认为,纯 AI 内容网络面临巨大挑战。他相信 AI 将成为社交媒体内容的主力,但"故事必须来自人类",AI 无法成为完全替代品——它更多是"减税"(降低制作成本),而非消除创意需求。

5.2 适用边界与风险

OpenClaw 的安全边界:Peter 明确表示,当前版本的 OpenClaw"不适合普通用户"。他自己在公共互联网上使用的是调试用 Web 界面,仅供本地主机使用。他警告说:“如果你缺乏相关知识,可能不应该使用它。“安全性需要用户自行配置,包括锁定权限和理解技术细节。苹果的 Claude 集成虽然使用了先进的模型,但目前对"个人 AI"的定义还不够清晰,存在大量探索空间。

Tesla 的战略转型:Matthew 讨论了 Tesla 停止生产 Model S 和 Model X 的决策——这些车型仅占 Tesla 总交付量的不到 3%。elon 的逻辑是:如果你的薪酬与 Optimus 机器人挂钩,你是继续生产小众豪华车型,还是全力投入机器人?这一决策"可能将 Tesla 变成一家 5-10 万亿美元的公司”,但也伴随着巨大风险。

5.3 实战陷阱

传统视频工具的困境:Alex 批评 Adobu 的问题——他们擅长构建"精修每个像素"的工具,但在 AI 时代面临根本性挑战。“内容可以用 AI 端到端制作"的范式转变与传统工具的架构不兼容。他认为这是"传统厂商移动缓慢"的典型案例。

AI 影响力营销的瓶颈:关于 AI 生成网红,Alex 提到,虽然 TikTok 已成为创作者的"社交升降机”,但 AI 影响力营销仍然"略微边缘化”。真正的瓶颈在于:AI 模型学习的是"流行的趋势性技术",而非真正多样化的内容——“故事必须来自人类”。

6. 金句 (Golden Quotes)

  • “让模型在你的电脑上为所欲为,需要一点疯狂。但如果你理解技术,这是一个计算回报极高的冒险。"—— Peter(OpenClaw 创始人)
  • “AI 代理不应该被囚禁在浏览器里。全栈代理能操作用户计算机上的任何应用,这才是真正的范式转移。"—— Alex(Higgsfield 联合创始人)
  • “模型已经足够好,半年前就可能实现这个愿景。但需要足够的疯狂才能迈出这一步。"—— Peter
  • “世界模型的训练成本正在接近十亿美元——这些视频模型可能比 LLM 更大、更贵。"—— Alex
  • “故事必须来自人类。AI 无法成为完全替代品——它更像是’制作税的消除’。"—— Alex
  • “Tesla 不存在’躺在功劳簿上’这件事。elon 的决策风格是:如果有更好的商业选择,他就会去做。"—— Matthew
  • “我想要一种代理在’梦境’中运行的模式——在后台处理当天的重要事情,沉淀到长期记忆。"—— Peter
  • “100,000 GitHub 星标,200 万月访问量——这不是 hockey stick 增长,这是脱衣舞杆增长。"—— Matthew

📺 视频原片


视频ID: ibvpQyGzTts