原始标题: Google Deepmind just dropped Genie 3… (WOAH)
发布日期: 2026-01-29 | 来源频道: @matthew_berman
📝 深度摘要
对话背景与核心主题
Google DeepMind 发布了 Genie 3,这是首批尖端的交互式世界模型之一。正如视频中所言:「当 GPT 生成文字时,Genie 生成的是完整的世界。」这项技术允许用户通过文字描述或图片创建可探索、可交互的 3D 环境,用户可以在其中自由移动、跳跃、驾驶或飞行。
核心逻辑拆解
Genie 3 由 Genie 3、Nano Banana Pro 和 Gemini 三项技术驱动。工作流程是:用户输入提示词或上传图片 → Nano Banana 生成世界草图 → 用户可修改草图 → Genie 模型实时生成可交互的世界。
方法论与工具箱
Genie 3 具备三大核心能力:1)世界素描:通过文字或图片创建可扩展的环境,支持第一人称或第三人称视角;2)世界探索:随着用户移动,世界会实时生成新内容,如视频中演示的外星世界从橙色渐变为蓝色;3)世界混音:基于现有世界的提示词进行二次创作。
关键洞察与辩论
视频演示了多种场景: backyard 赛车赛道、外星有机建筑、天空之城(灵感来自《Skyward Sword》)、Lego 城市等。创作者可以直接下载生成的视频,方便分享。限制方面:世界渲染不完全逼真、角色控制有时不灵敏、存在明显延迟、每次生成限时 60 秒,且需要 Google AI Ultra 订阅才能使用。
金句
- 「这完全是由 AI 生成的。」
- 「当 GPT 生成文字时,Genie 生成的是完整的世界。」
- 「你跳下世界后,下面还有一整个子世界可以探索,太酷了。」
📺 视频原片
视频时长: 11 分钟 | 视频ID: HDaXvGI7xrg