原始标题: The AI stack behind 20M+ views (Full Breakdown)
发布日期: 2026-03-06 | 来源频道: @GregIsenberg
📝 深度摘要
1. 讨论背景与核心主题
本期节目的核心问题是:普通创作者如何利用AI工具创建能够在Instagram、YouTube Shorts、TikTok等平台获得数百万浏览量的病毒式短视频?
嘉宾Kova是一位在Instagram短视频领域极具影响力的创作者,以其独特的视觉风格和AI增强内容著称。她曾与NVIDIA、Adobe等全球顶级品牌合作,被业界视为"当品牌想要制作病毒式短视频时首选的合作对象"。Kova在节目中首次公开披露了她的完整AI工作流程,包括她如何使用各种AI工具进行视频分析、内容创作、背景增强、转场效果制作以及项目管理。
对于任何希望在社交媒体平台上建立影响力、获取关注者的创作者而言,这期内容提供了可直接复用的操作路径。Greg Isenberg在开场中明确指出:在AI时代获取注意力(attention)的能力等同于可以将其转化为销售初创公司的商业价值,因此掌握这套AI短视频制作系统具有重要的战略意义。
2. 核心干货概览 (Key Takeaways)
| 维度 | 核心内容 / 动态 | 价值意义 / 影响程度 |
|---|---|---|
| 技术/工具 | 使用Manus AI作为AI Agent进行视频分析、风格提取和复制计划生成;使用FreePick平台调用Nanobanana Pro进行图像生成、C-Dance/Kling进行视频生成;Adobe Premiere Pro作为主要剪辑软件;Obsidian+Cursor/Cloud Code进行项目管理 | 构建了一套从"分析-创作-编辑-管理"的全链路AI创作工具链,大幅降低高质量视频制作门槛 |
| 战略/逻辑 | 通过AI分析目标视频的风格关键词、脚本结构、叙事节奏,然后逆向复制该风格;使用AI增强静态拍摄背景,将简陋房间转化为视觉精美的场景;建立可复用的项目模板和风格指南系统 | 将创作过程系统化、模板化,使非技术创作者也能产出具有专业视觉水准的内容,实现内容规模化生产 |
| 量化指标 | 视频时长控制在75秒以内;hook在前3秒内展示成品;使用70-90 BPM的lo-fi音乐;关键词分析准确还原Kova本人的风格指南 | 基于Kova实际验证的量化参数,为创作者提供可直接参考的制作标准 |
| 创作方法论 | 五幕式结构(Hook冲突构建解决CTA);词到词字幕而非整句字幕;暗室拍摄+RGB灯光;人像出镜时手持项目产品 | 一套经过验证的短视频叙事和视觉制作SOP,可直接迁移应用到不同创作者的内容中 |
3. 深度逻辑与实操拆解 (Implementation Deep Dive)
3.1 底层矛盾与背景
短视频平台的成功核心在于两个关键要素:一是内容本身的吸引力和留存能力,二是视觉呈现的专业度。对于大多数非技术背景的创作者而言,这两者之间存在显著矛盾——好的创意想法往往受限于拍摄设备和后期制作能力,无法呈现出脑海中想象的视觉效果。传统的解决方案是投入大量资金购买专业设备、租赁影棚,或者花费大量时间学习After Effects等专业软件。
Kova的核心突破在于:她发现了AI工具可以彻底解决这个矛盾。通过AI图像生成工具,一个普通的卧室可以被瞬间"改造"成充满童话感的精致场景;通过AI视频生成工具,转场效果可以创造出普通拍摄无法实现的"不可能镜头";通过AI Agent工具,分析和复制优秀视频风格变得自动化。这意味着:好莱坞级别的视觉制作不再被少数专业工作室垄断,任何拥有AI工具使用能力的创作者都可以在卧室里完成。
3.2 核心策略推导:AI视频分析的逆向工程
Kova在节目中演示了她使用Manus AI分析自己视频的完整过程。这一策略的底层逻辑是:如果创作者能够找到自己欣赏的视频风格,AI可以帮助他们逆向还原出该风格的完整制作手册。
具体操作路径如下:
第一步:让AI分析视频风格关键词。 Kova展示的Prompt策略是:“我非常喜欢这个视频的风格和故事,请从以下维度进行分析:一、风格和美学关键词(具体的关键词效果最好);二、脚本,记录并按故事章节拆分;三、我不确定具体在找什么,请给我一个总体计划说明我应该如何复制这个视频。” 她将"分析负担"交给AI,让AI自主决策应该提取哪些关键信息。
第二步:获取详细的风格指南输出。 Manus返回的分析结果包括:视觉语言描述(maker和hacker文化与kawaii怀旧美学的融合)、具体的字体系统(标题、分段标题、字幕各使用什么字体)、配色方案、整体氛围定位(dark academia maker, cozy hacker den, bedroom devlog, personal technosalge)。这些信息精确还原了Kova本人实际使用的风格系统。
第三步:获取脚本转录和故事结构分析。 Manus将65秒的视频拆解为五幕式结构——Hook(第1秒展示成品)、Conflict(创作者零硬件经验的个人挑战建立共鸣和悬念)、Build(三个步骤的建造过程)、Problem Resolution(经典的三幕喜剧结构:太慢太快刚刚好)、Tease and CTA(在下一集中会发生什么)。这个分析精确到了"0.5秒的镜头"级别。
第四步:获取可执行的复制计划。 Manus生成了一份详细的复制指南,涵盖:从定义核心概念(一个技术上有趣且情感上引起共鸣的一句话概念)到具体的拍摄参数(暗室拍摄、RGB灯光、竖屏拍摄),从B-roll类型建议(手机人像微距模式拍摄电路板、Figma/Photoshop屏幕录制)到后期软件选择(After Effects绘制简单线图并添加发光效果,或CapCut/DaVinci使用霓虹/发光预设)。
3.3 执行SOP与操作步骤
SOP 1:AI图像增强(将简陋背景转化为电影级场景)
这一工作流程是Kova最具代表性的AI应用场景,也是她被称为"AI视觉魔术师"的核心技能。
操作步骤:
-
拍摄原始素材:在普通环境中用手机拍摄人像镜头,可以使用相对简单的背景,甚至是一面空墙。Kova展示了她的原始拍摄——只是在一个普通房间里有基本的照明。
-
导入FreePick平台:将单帧静态图像导入FreePick的图像编辑器。FreePick是一个聚合了各种最新图像和视频AI模型的平台。
-
选择生成模型:Kova首选Nanobanana Pro进行图像生成,她在实际使用中发现这个模型在细节表现和色彩还原上效果最佳。
-
使用视觉特征功能:利用视觉标注功能直接在图像上标注需要添加或修改的区域。Kova演示了如何在画面左侧添加更多物体来平衡构图。
-
编写Prompt策略:Kova的Prompt哲学是"意外的简洁"。她经常使用非常简单的描述如"橙色郁金香花瓶"或"更多花朵"。原因有二:第一,简单的Prompt让模型倾向于输出它最擅长生成的内容;第二,她喜欢让多代生成结果帮她发现意想不到的视觉效果。她将这个过程类比为"与AI协作发现惊喜"。
-
生成与迭代:点击生成后,AI会创建增强后的图像。Kova展示了原始背景(只是一面空墙)与AI增强后的对比——添加了 fairy lights、窗户、黑胶唱片机、风扇、书架等元素。她强调这个过程可能需要多次尝试才能获得完美效果。
-
使用Mask(蒙版)进行细节调整:当生成内容与人物有重叠时(如肩膀附近的物体),需要使用Mask功能将特定区域隔离出来,以便单独调整或重新生成。Mask是AI创作中最重要的技术之一。
-
导出并导入Premiere Pro:将增强后的图像导出,重新导入Adobe Premiere Pro或其他剪辑软件中使用。
量化效果:Kova透露,现在人们普遍认为她的视频背景"超级精美"或"像是电影画面",但实际上这些都是在她 dorm room(宿舍房间)里用AI技术实现的。她强调:AI消除了硬件设备对视觉品质的限制。
SOP 2:AI视频转场效果制作
这一技术用于创造普通拍摄无法实现的"不可能镜头",是Kova视频中视觉冲击力的重要来源。
操作步骤:
-
准备起始帧和结束帧:在Premiere Pro中选择一个场景的起始帧静态图像作为起点,准备好想要过渡到的目标帧。
-
导入FreePick视频生成器:将起始帧图像导入FreePick的视频生成功能。Kova首选C-Dance Pro,因为它能够同时生成配套的音频。
-
编写动态Prompt:Prompt编写需要非常具体地描述镜头运动。Kova的技巧是:像写小说一样描述场景。“On the table is a picture of a kid. The kid in the center of the picture is waving their arms gleefully while the picture doesn’t move.” 她建议避免使用"doesn’t"或"don’t"这类否定词,因为模型对这类词汇的理解不如肯定词精确。
-
设置参数:选择高分辨率输出,生成约4秒的片段,包含音频。
-
使用Prompt Editor优化:FreePick提供了Prompt Editor功能,可以帮助用户优化Prompt以获得更好的生成效果。Kova展示了这个工具如何将简单的描述转化为更适合AI模型理解的版本。
-
在剪辑软件中拼接:将生成的AI视频片段与原始素材在Premiere Pro中拼接,创造出"书自动翻开并放大显示内容"或"童年照片中的人物动起来"等转场效果。
-
注意事项:确保生成内容与人物身体保持适当距离,避免穿帮;如果需要重叠,需要精细的Mask处理。
底层原理:这些"不可能镜头"的本质是AI理解了起始帧的语义,然后根据文字描述在视频维度上进行了合理的延展。Kova强调,这是她90%的"惊艳镜头"的核心技术。
SOP 3:项目管理系统搭建(Obsidian + Cursor/Cloud Code)
Kova使用Obsidian作为个人知识管理系统,结合Cursor或Cloud Code实现项目流程自动化。
操作步骤:
-
建立模板系统:在Obsidian中创建可复用的项目模板,包括:
- 脚本模板(记录视频文案的结构化格式)
- 分镜模板(将脚本转化为可视化分镜的表格结构)
- 风格指南模板(记录视觉风格参数的文档)
- 编辑检查清单(后期制作的标准化检查项)
-
使用AI辅助脚本到分镜的转化:当脚本完成后,可以将脚本内容提供给Cursor或Cloud Code,让AI根据预设的分镜模板自动生成初步的分镜方案。Kova演示了如何让AI将一个free teacher arrow脚本自动转化为故事板格式。
-
建立个人风格指南库:将使用Manus分析得出的风格关键词、字体选择、配色方案等标准化文档存放在Obsidian中,形成可随时查阅的个人风格库。
-
项目整理与重构:当需要整理项目结构或批量修改文件命名规范时,直接让AI工具执行,Cursor的执行速度通常比Cloud Code更快。
-
编辑器协作:如果需要与编辑器合作,可以将模板调整为更易读的格式,AI可以帮助快速完成这种格式转换。
核心理念:Kova是"系统化思维"的坚定信仰者。她认为:“为了规模化内容生产,你总是需要建立伟大的系统。AI可以帮助执行你已经建立好的系统。”
3.4 细节支撑:Kova的完整工具链清单
根据节目中Kova的完整分享,她的工具箱包括以下核心组件:
视频分析Agent:
- Manus AI:用于分析视频风格、提取关键词、生成复制计划。Kova认为Manus是目前最接近"真正的AI Agent"的产品,因为它真的会运行脚本来解析视频文件,而不仅仅是根据文字描述进行推测。她提到Manus最近推出了类似OpenClaw的托管版本(尚在beta阶段)。
图像生成与增强:
- FreePick平台(聚合各类AI图像模型)
- Nanobanana Pro:Kova首选的图像生成模型
- C-Dance:视频生成首选(带音频生成功能)
- Kling:备选视频生成工具,Kling 3是最新版本
视频编辑:
- Adobe Premiere Pro:主力剪辑软件,Kova选择它的原因是"最灵活的软件",可以访问VR效果、各种模糊效果等,功能非常细粒度
- After Effects:用于更复杂的视觉效果制作,如发光线条动画
- CapCut:Premiere Pro的简化替代方案,适合非技术用户
项目管理:
- Obsidian:个人知识管理和项目规划工具
- Cursor:AI增强的代码编辑器,可用于文档处理和自动化
- Cloud Code:类似Cursor的AI辅助工具,执行速度稍慢但功能类似
- Poke:日常生活任务组织工具
创作标准参数:
- 视频时长:under 75 seconds
- Hook展示:前3秒展示成品或最吸引人的画面
- 核心概念:需在10秒内解释清楚
- 字幕格式:word-by-word(逐词显示),而非整句显示
- 音乐风格:lo-fi, slightly nostalgic, 70-90 BPM, warm crunchy texture, chiptune adjacent
- 背景选择:暗室拍摄(夜间、拉上遮光窗帘),背景应有多个显示器屏幕
- 灯光:RGB灯光(紫色、青色等)
- 拍摄方向:竖屏
- 出镜时:手持项目产品,给手找事情做
- 服装:深色纯色服装
- B-roll类型:微距拍摄电路板/引脚/线材、屏幕录制、产品展示镜头
4. 核心执行资产 (Tactical Assets)
4.1 Prompt指令集还原
视频分析Prompt(Kova风格): “I really like the style and story of this video. Break it down in terms of: 1. Style and aesthetic keywords (I think specific keywords would probably work a lot better); 2. Script, transcribe it and separate it into story sections; 3. I’m not exactly sure what I’m looking for, so write down in terms of overall, give me a plan for how I should replicate it.”
AI图像增强Prompt示例:
- “orange tulips in a vase”(橙色郁金香花瓶)
- “more flowers”(更多花朵)
- “a orange push on the windowsill”(窗台上的橙色 push)
- Kova策略:Prompt越简单,模型越倾向于输出它最擅长生成的内容;多代生成可以帮助发现意想不到的惊喜
AI视频生成Prompt示例: “Camera is static. On the table is a picture of a kid. The kid in the center of the picture is waving their arms gleefully while the picture doesn’t move.”
- 技巧:使用肯定性描述而非否定性描述
- 技巧:描述场景时要像叙述一个故事一样具体
- 技巧:使用Prompt Editor功能优化Prompt
4.2 工具链配置与环境参数
FreePick平台配置:
- 图像模型首选:Nanobanana Pro
- 视频模型首选:C-Dance Pro(带音频生成)
- 视频模型备选:Kling(特别是Kling 3)
- 关键功能:Visual Feature(视觉特征标注)、Prompt Editor(Prompt优化)
- 输出格式:图像为静态帧,视频为4秒片段含音频
Obsidian项目模板结构:
- 脚本模板:记录视频文案的结构化文档
- 分镜模板:表格形式,包含镜头描述、时长、B-roll备注等
- 风格指南模板:记录字体、配色、氛围关键词等视觉参数
- 检查清单模板:后期发布前的标准化检查项
Cursor/Cloud Code自动化任务:
- 脚本→分镜的自动转化
- 项目文件的批量重命名和结构整理
- 风格指南的格式转换(适配不同使用场景)
5. 专家洞察与风险边界 (Insights & Boundaries)
5.1 反直觉/非共识结论
AI Agent比纯对话式AI更适合视频分析: Kova明确表示,她更喜欢使用Manus这样的AI Agent而非Claude、ChatGPT或Gemini来进行视频分析。原因是Agent真的会"观看"视频——运行脚本提取转录内容、逐帧分析画面,而不仅仅是根据文字描述进行推测。这种"实际执行任务"vs"做出假设"的区别是选择AI工具时的关键考量。
Prompt越简单效果越好: 这是Kova的逆向直觉。大多数人认为越详细、越具体的Prompt会带来越精准的结果,但她的实战经验表明:简单的Prompt让AI模型可以自由发挥它最擅长的领域,反而往往能获得更好的效果。她将此形容为"赋能AI去发现你原本没想到的可能性"。
个人风格不需要"原创": Kova认为每个创作者都是不同"生物"和"美学"的混合体。找到自己风格的方式不是闭门造车,而是广泛吸收你喜欢的内容创作者的风格元素,然后通过AI工具将其整合成属于自己的独特表达。她自己的风格就是maker文化+hacker美学+kawaii可爱风的融合。
70-90 BPM的lo-fi音乐是短视频黄金标准: 这个参数看起来很具体,但背后有扎实的平台算法逻辑——这个速度的音乐既能保持观看者的注意力节奏,又不会喧宾夺主抢走内容本身的风头。
5.2 局限性与避坑指南
Instagram链接在AI工具中的兼容性不稳定: Kova在演示中使用Manus分析Instagram视频时,链接出现了无法正常工作的情况。她提示:最稳妥的方式是直接下载视频文件然后上传到AI工具,而不是依赖链接抓取。AI工具与社交媒体平台之间的接口是动态变化的,创作者需要做好备选方案。
AI生成内容与人物重叠时的Mask处理: 当AI生成的物体与人脸或身体有重叠时,很难做到完美的边缘处理。解决方案是:在Prompt中要求将物体放置在离人物较远的位置,或者接受需要多次尝试才能获得满意结果的事实。Mask(蒙版)技术是解决这类问题的关键工具。
视频生成中的否定词理解问题: 当前的视频生成模型对否定词(如"don’t"、“doesn’t”、“won’t”)的理解还不够精确。建议在Prompt中尽量使用肯定句描述,或者换一种表达方式描述同样的意思。
AI检查清单应该在开始时就完成,而非最后: Kova提到Manus会在分析结束时提供一个checklist,包括"视频是竖屏吗?3秒内开钩了吗?字幕是逐词显示吗?“等检查项。但她建议这些检查应该在制作过程中就已经完成,而不是等到最后——如果到最后一刻才检查出问题,修改成本会非常高。
数据安全顾虑: Kova提到她对给AI工具开放浏览器访问权限存在安全顾虑,特别是在使用类似OpenClaw的托管版本时。她建议在使用新的AI工具时,先了解清楚数据安全政策,不要随意授权访问重要账户。
AI转场的物理真实性要求: Kova在节目中提到,她故意将某些VFX(视觉特效)镜头做得非常复杂,以至于其他人很难完全复制——这是一种保持内容差异化的小心机。她称之为"故意的护城河”。
不是所有视频都需要AI增强: 如果原始素材已经拍摄精良、背景已经足够精美,使用AI增强可能反而会破坏原本的质量。Kova建议:只有当原始素材存在明显不足(如背景过于简陋、场景单调)时才需要使用AI增强技术。
6. 金句 (Golden Quotes)
“AI让任何人都可以在卧室里创造出好莱坞级别的视觉内容,这不再只是专业工作室的专利。”
“我在Dorm room里做出的视觉效果,人们以为是电影工作室级别的,但实际上我只是用AI把简陋的房间变成了童话世界。”
“我的Prompt通常非常简单——‘more flowers’、‘orange tulips in a vase’。简单的Prompt让AI自由发挥它最擅长的东西,往往能得到意想不到的惊喜。”
“我不只是让AI执行任务,我是把’分析负担’交给AI,让它帮我决定什么是重要的。”
“如果你想要规模化内容生产,你必须建立伟大的系统。AI是帮助你执行那些系统的工具,而不是替代你思考的替代品。”
“创作者文化已经变得极其碎片化,现在的创作者不仅要考虑规模化,更要考虑差异化。AI是我差异化竞争的核心武器。”
“在AI时代,注意力(attention)可以被获取,然后转化为销售初创公司的商业价值——这就是为什么学会制作病毒式内容如此重要。”
“最好的视频概念是一个在10秒内就能解释清楚、同时在视觉上有即时回报的想法。”
“做内容没有比现在更好的时机了——工具就在这里,门槛从未如此之低。”
“To the people sticking around to the end: there is no better time than now to make art. So you should go and do that.”
📺 视频原片
视频ID: 0b8qQx3FaLE