2000万+播放量的AI工具栈完全解析

原始标题: The AI stack behind 20M+ views (Full Breakdown)

发布日期: 2026-03-06 | 来源频道: @GregIsenberg

📝 深度摘要

1. 讨论背景与核心主题

本期节目的核心问题是：普通创作者如何利用AI工具创建能够在Instagram、YouTube Shorts、TikTok等平台获得数百万浏览量的病毒式短视频？

嘉宾Kova是一位在Instagram短视频领域极具影响力的创作者，以其独特的视觉风格和AI增强内容著称。她曾与NVIDIA、Adobe等全球顶级品牌合作，被业界视为"当品牌想要制作病毒式短视频时首选的合作对象"。Kova在节目中首次公开披露了她的完整AI工作流程，包括她如何使用各种AI工具进行视频分析、内容创作、背景增强、转场效果制作以及项目管理。

对于任何希望在社交媒体平台上建立影响力、获取关注者的创作者而言，这期内容提供了可直接复用的操作路径。Greg Isenberg在开场中明确指出：在AI时代获取注意力（attention）的能力等同于可以将其转化为销售初创公司的商业价值，因此掌握这套AI短视频制作系统具有重要的战略意义。

2. 核心干货概览 (Key Takeaways)

维度	核心内容 / 动态	价值意义 / 影响程度
技术/工具	使用Manus AI作为AI Agent进行视频分析、风格提取和复制计划生成；使用FreePick平台调用Nanobanana Pro进行图像生成、C-Dance/Kling进行视频生成；Adobe Premiere Pro作为主要剪辑软件；Obsidian+Cursor/Cloud Code进行项目管理	构建了一套从"分析-创作-编辑-管理"的全链路AI创作工具链，大幅降低高质量视频制作门槛
战略/逻辑	通过AI分析目标视频的风格关键词、脚本结构、叙事节奏，然后逆向复制该风格；使用AI增强静态拍摄背景，将简陋房间转化为视觉精美的场景；建立可复用的项目模板和风格指南系统	将创作过程系统化、模板化，使非技术创作者也能产出具有专业视觉水准的内容，实现内容规模化生产
量化指标	视频时长控制在75秒以内；hook在前3秒内展示成品；使用70-90 BPM的lo-fi音乐；关键词分析准确还原Kova本人的风格指南	基于Kova实际验证的量化参数，为创作者提供可直接参考的制作标准
创作方法论	五幕式结构（Hook冲突构建解决CTA）；词到词字幕而非整句字幕；暗室拍摄+RGB灯光；人像出镜时手持项目产品	一套经过验证的短视频叙事和视觉制作SOP，可直接迁移应用到不同创作者的内容中

3. 深度逻辑与实操拆解 (Implementation Deep Dive)

3.1 底层矛盾与背景

短视频平台的成功核心在于两个关键要素：一是内容本身的吸引力和留存能力，二是视觉呈现的专业度。对于大多数非技术背景的创作者而言，这两者之间存在显著矛盾——好的创意想法往往受限于拍摄设备和后期制作能力，无法呈现出脑海中想象的视觉效果。传统的解决方案是投入大量资金购买专业设备、租赁影棚，或者花费大量时间学习After Effects等专业软件。

Kova的核心突破在于：她发现了AI工具可以彻底解决这个矛盾。通过AI图像生成工具，一个普通的卧室可以被瞬间"改造"成充满童话感的精致场景；通过AI视频生成工具，转场效果可以创造出普通拍摄无法实现的"不可能镜头"；通过AI Agent工具，分析和复制优秀视频风格变得自动化。这意味着：好莱坞级别的视觉制作不再被少数专业工作室垄断，任何拥有AI工具使用能力的创作者都可以在卧室里完成。

3.2 核心策略推导：AI视频分析的逆向工程

Kova在节目中演示了她使用Manus AI分析自己视频的完整过程。这一策略的底层逻辑是：如果创作者能够找到自己欣赏的视频风格，AI可以帮助他们逆向还原出该风格的完整制作手册。

具体操作路径如下：

第一步：让AI分析视频风格关键词。 Kova展示的Prompt策略是：“我非常喜欢这个视频的风格和故事，请从以下维度进行分析：一、风格和美学关键词（具体的关键词效果最好）；二、脚本，记录并按故事章节拆分；三、我不确定具体在找什么，请给我一个总体计划说明我应该如何复制这个视频。” 她将"分析负担"交给AI，让AI自主决策应该提取哪些关键信息。

第二步：获取详细的风格指南输出。 Manus返回的分析结果包括：视觉语言描述（maker和hacker文化与kawaii怀旧美学的融合）、具体的字体系统（标题、分段标题、字幕各使用什么字体）、配色方案、整体氛围定位（dark academia maker, cozy hacker den, bedroom devlog, personal technosalge）。这些信息精确还原了Kova本人实际使用的风格系统。

第三步：获取脚本转录和故事结构分析。 Manus将65秒的视频拆解为五幕式结构——Hook（第1秒展示成品）、Conflict（创作者零硬件经验的个人挑战建立共鸣和悬念）、Build（三个步骤的建造过程）、Problem Resolution（经典的三幕喜剧结构：太慢太快刚刚好）、Tease and CTA（在下一集中会发生什么）。这个分析精确到了"0.5秒的镜头"级别。

第四步：获取可执行的复制计划。 Manus生成了一份详细的复制指南，涵盖：从定义核心概念（一个技术上有趣且情感上引起共鸣的一句话概念）到具体的拍摄参数（暗室拍摄、RGB灯光、竖屏拍摄），从B-roll类型建议（手机人像微距模式拍摄电路板、Figma/Photoshop屏幕录制）到后期软件选择（After Effects绘制简单线图并添加发光效果，或CapCut/DaVinci使用霓虹/发光预设）。

3.3 执行SOP与操作步骤

SOP 1：AI图像增强（将简陋背景转化为电影级场景）

这一工作流程是Kova最具代表性的AI应用场景，也是她被称为"AI视觉魔术师"的核心技能。

操作步骤：

拍摄原始素材：在普通环境中用手机拍摄人像镜头，可以使用相对简单的背景，甚至是一面空墙。Kova展示了她的原始拍摄——只是在一个普通房间里有基本的照明。
导入FreePick平台：将单帧静态图像导入FreePick的图像编辑器。FreePick是一个聚合了各种最新图像和视频AI模型的平台。
选择生成模型：Kova首选Nanobanana Pro进行图像生成，她在实际使用中发现这个模型在细节表现和色彩还原上效果最佳。
使用视觉特征功能：利用视觉标注功能直接在图像上标注需要添加或修改的区域。Kova演示了如何在画面左侧添加更多物体来平衡构图。
编写Prompt策略：Kova的Prompt哲学是"意外的简洁"。她经常使用非常简单的描述如"橙色郁金香花瓶"或"更多花朵"。原因有二：第一，简单的Prompt让模型倾向于输出它最擅长生成的内容；第二，她喜欢让多代生成结果帮她发现意想不到的视觉效果。她将这个过程类比为"与AI协作发现惊喜"。
生成与迭代：点击生成后，AI会创建增强后的图像。Kova展示了原始背景（只是一面空墙）与AI增强后的对比——添加了 fairy lights、窗户、黑胶唱片机、风扇、书架等元素。她强调这个过程可能需要多次尝试才能获得完美效果。
使用Mask（蒙版）进行细节调整：当生成内容与人物有重叠时（如肩膀附近的物体），需要使用Mask功能将特定区域隔离出来，以便单独调整或重新生成。Mask是AI创作中最重要的技术之一。
导出并导入Premiere Pro：将增强后的图像导出，重新导入Adobe Premiere Pro或其他剪辑软件中使用。

量化效果：Kova透露，现在人们普遍认为她的视频背景"超级精美"或"像是电影画面"，但实际上这些都是在她 dorm room（宿舍房间）里用AI技术实现的。她强调：AI消除了硬件设备对视觉品质的限制。

SOP 2：AI视频转场效果制作

这一技术用于创造普通拍摄无法实现的"不可能镜头"，是Kova视频中视觉冲击力的重要来源。

操作步骤：

准备起始帧和结束帧：在Premiere Pro中选择一个场景的起始帧静态图像作为起点，准备好想要过渡到的目标帧。
导入FreePick视频生成器：将起始帧图像导入FreePick的视频生成功能。Kova首选C-Dance Pro，因为它能够同时生成配套的音频。
编写动态Prompt：Prompt编写需要非常具体地描述镜头运动。Kova的技巧是：像写小说一样描述场景。“On the table is a picture of a kid. The kid in the center of the picture is waving their arms gleefully while the picture doesn’t move.” 她建议避免使用"doesn’t"或"don’t"这类否定词，因为模型对这类词汇的理解不如肯定词精确。
设置参数：选择高分辨率输出，生成约4秒的片段，包含音频。
使用Prompt Editor优化：FreePick提供了Prompt Editor功能，可以帮助用户优化Prompt以获得更好的生成效果。Kova展示了这个工具如何将简单的描述转化为更适合AI模型理解的版本。
在剪辑软件中拼接：将生成的AI视频片段与原始素材在Premiere Pro中拼接，创造出"书自动翻开并放大显示内容"或"童年照片中的人物动起来"等转场效果。
注意事项：确保生成内容与人物身体保持适当距离，避免穿帮；如果需要重叠，需要精细的Mask处理。

底层原理：这些"不可能镜头"的本质是AI理解了起始帧的语义，然后根据文字描述在视频维度上进行了合理的延展。Kova强调，这是她90%的"惊艳镜头"的核心技术。

SOP 3：项目管理系统搭建（Obsidian + Cursor/Cloud Code）

Kova使用Obsidian作为个人知识管理系统，结合Cursor或Cloud Code实现项目流程自动化。

操作步骤：

建立模板系统：在Obsidian中创建可复用的项目模板，包括：
- 脚本模板（记录视频文案的结构化格式）
- 分镜模板（将脚本转化为可视化分镜的表格结构）
- 风格指南模板（记录视觉风格参数的文档）
- 编辑检查清单（后期制作的标准化检查项）
使用AI辅助脚本到分镜的转化：当脚本完成后，可以将脚本内容提供给Cursor或Cloud Code，让AI根据预设的分镜模板自动生成初步的分镜方案。Kova演示了如何让AI将一个free teacher arrow脚本自动转化为故事板格式。
建立个人风格指南库：将使用Manus分析得出的风格关键词、字体选择、配色方案等标准化文档存放在Obsidian中，形成可随时查阅的个人风格库。
项目整理与重构：当需要整理项目结构或批量修改文件命名规范时，直接让AI工具执行，Cursor的执行速度通常比Cloud Code更快。
编辑器协作：如果需要与编辑器合作，可以将模板调整为更易读的格式，AI可以帮助快速完成这种格式转换。

核心理念：Kova是"系统化思维"的坚定信仰者。她认为：“为了规模化内容生产，你总是需要建立伟大的系统。AI可以帮助执行你已经建立好的系统。”

3.4 细节支撑：Kova的完整工具链清单

根据节目中Kova的完整分享，她的工具箱包括以下核心组件：

视频分析Agent：

Manus AI：用于分析视频风格、提取关键词、生成复制计划。Kova认为Manus是目前最接近"真正的AI Agent"的产品，因为它真的会运行脚本来解析视频文件，而不仅仅是根据文字描述进行推测。她提到Manus最近推出了类似OpenClaw的托管版本（尚在beta阶段）。

图像生成与增强：

FreePick平台（聚合各类AI图像模型）
Nanobanana Pro：Kova首选的图像生成模型
C-Dance：视频生成首选（带音频生成功能）
Kling：备选视频生成工具，Kling 3是最新版本

视频编辑：

Adobe Premiere Pro：主力剪辑软件，Kova选择它的原因是"最灵活的软件"，可以访问VR效果、各种模糊效果等，功能非常细粒度
After Effects：用于更复杂的视觉效果制作，如发光线条动画
CapCut：Premiere Pro的简化替代方案，适合非技术用户

项目管理：

Obsidian：个人知识管理和项目规划工具
Cursor：AI增强的代码编辑器，可用于文档处理和自动化
Cloud Code：类似Cursor的AI辅助工具，执行速度稍慢但功能类似
Poke：日常生活任务组织工具

创作标准参数：

视频时长：under 75 seconds
Hook展示：前3秒展示成品或最吸引人的画面
核心概念：需在10秒内解释清楚
字幕格式：word-by-word（逐词显示），而非整句显示
音乐风格：lo-fi, slightly nostalgic, 70-90 BPM, warm crunchy texture, chiptune adjacent
背景选择：暗室拍摄（夜间、拉上遮光窗帘），背景应有多个显示器屏幕
灯光：RGB灯光（紫色、青色等）
拍摄方向：竖屏
出镜时：手持项目产品，给手找事情做
服装：深色纯色服装
B-roll类型：微距拍摄电路板/引脚/线材、屏幕录制、产品展示镜头

4. 核心执行资产 (Tactical Assets)

4.1 Prompt指令集还原

视频分析Prompt（Kova风格）： “I really like the style and story of this video. Break it down in terms of: 1. Style and aesthetic keywords (I think specific keywords would probably work a lot better); 2. Script, transcribe it and separate it into story sections; 3. I’m not exactly sure what I’m looking for, so write down in terms of overall, give me a plan for how I should replicate it.”

AI图像增强Prompt示例：

“orange tulips in a vase”（橙色郁金香花瓶）
“more flowers”（更多花朵）
“a orange push on the windowsill”（窗台上的橙色 push）
Kova策略：Prompt越简单，模型越倾向于输出它最擅长生成的内容；多代生成可以帮助发现意想不到的惊喜

AI视频生成Prompt示例： “Camera is static. On the table is a picture of a kid. The kid in the center of the picture is waving their arms gleefully while the picture doesn’t move.”

技巧：使用肯定性描述而非否定性描述
技巧：描述场景时要像叙述一个故事一样具体
技巧：使用Prompt Editor功能优化Prompt

4.2 工具链配置与环境参数

FreePick平台配置：

图像模型首选：Nanobanana Pro
视频模型首选：C-Dance Pro（带音频生成）
视频模型备选：Kling（特别是Kling 3）
关键功能：Visual Feature（视觉特征标注）、Prompt Editor（Prompt优化）
输出格式：图像为静态帧，视频为4秒片段含音频

Obsidian项目模板结构：

脚本模板：记录视频文案的结构化文档
分镜模板：表格形式，包含镜头描述、时长、B-roll备注等
风格指南模板：记录字体、配色、氛围关键词等视觉参数
检查清单模板：后期发布前的标准化检查项

Cursor/Cloud Code自动化任务：

脚本→分镜的自动转化
项目文件的批量重命名和结构整理
风格指南的格式转换（适配不同使用场景）

5. 专家洞察与风险边界 (Insights & Boundaries)

5.1 反直觉/非共识结论

AI Agent比纯对话式AI更适合视频分析： Kova明确表示，她更喜欢使用Manus这样的AI Agent而非Claude、ChatGPT或Gemini来进行视频分析。原因是Agent真的会"观看"视频——运行脚本提取转录内容、逐帧分析画面，而不仅仅是根据文字描述进行推测。这种"实际执行任务"vs"做出假设"的区别是选择AI工具时的关键考量。

Prompt越简单效果越好： 这是Kova的逆向直觉。大多数人认为越详细、越具体的Prompt会带来越精准的结果，但她的实战经验表明：简单的Prompt让AI模型可以自由发挥它最擅长的领域，反而往往能获得更好的效果。她将此形容为"赋能AI去发现你原本没想到的可能性"。

个人风格不需要"原创"： Kova认为每个创作者都是不同"生物"和"美学"的混合体。找到自己风格的方式不是闭门造车，而是广泛吸收你喜欢的内容创作者的风格元素，然后通过AI工具将其整合成属于自己的独特表达。她自己的风格就是maker文化+hacker美学+kawaii可爱风的融合。

70-90 BPM的lo-fi音乐是短视频黄金标准： 这个参数看起来很具体，但背后有扎实的平台算法逻辑——这个速度的音乐既能保持观看者的注意力节奏，又不会喧宾夺主抢走内容本身的风头。

5.2 局限性与避坑指南

Instagram链接在AI工具中的兼容性不稳定： Kova在演示中使用Manus分析Instagram视频时，链接出现了无法正常工作的情况。她提示：最稳妥的方式是直接下载视频文件然后上传到AI工具，而不是依赖链接抓取。AI工具与社交媒体平台之间的接口是动态变化的，创作者需要做好备选方案。

AI生成内容与人物重叠时的Mask处理： 当AI生成的物体与人脸或身体有重叠时，很难做到完美的边缘处理。解决方案是：在Prompt中要求将物体放置在离人物较远的位置，或者接受需要多次尝试才能获得满意结果的事实。Mask（蒙版）技术是解决这类问题的关键工具。

视频生成中的否定词理解问题： 当前的视频生成模型对否定词（如"don’t"、“doesn’t”、“won’t”）的理解还不够精确。建议在Prompt中尽量使用肯定句描述，或者换一种表达方式描述同样的意思。

AI检查清单应该在开始时就完成，而非最后： Kova提到Manus会在分析结束时提供一个checklist，包括"视频是竖屏吗？3秒内开钩了吗？字幕是逐词显示吗？“等检查项。但她建议这些检查应该在制作过程中就已经完成，而不是等到最后——如果到最后一刻才检查出问题，修改成本会非常高。

数据安全顾虑： Kova提到她对给AI工具开放浏览器访问权限存在安全顾虑，特别是在使用类似OpenClaw的托管版本时。她建议在使用新的AI工具时，先了解清楚数据安全政策，不要随意授权访问重要账户。

AI转场的物理真实性要求： Kova在节目中提到，她故意将某些VFX（视觉特效）镜头做得非常复杂，以至于其他人很难完全复制——这是一种保持内容差异化的小心机。她称之为"故意的护城河”。

不是所有视频都需要AI增强： 如果原始素材已经拍摄精良、背景已经足够精美，使用AI增强可能反而会破坏原本的质量。Kova建议：只有当原始素材存在明显不足（如背景过于简陋、场景单调）时才需要使用AI增强技术。

6. 金句 (Golden Quotes)

“AI让任何人都可以在卧室里创造出好莱坞级别的视觉内容，这不再只是专业工作室的专利。”

“我在Dorm room里做出的视觉效果，人们以为是电影工作室级别的，但实际上我只是用AI把简陋的房间变成了童话世界。”

“我的Prompt通常非常简单——‘more flowers’、‘orange tulips in a vase’。简单的Prompt让AI自由发挥它最擅长的东西，往往能得到意想不到的惊喜。”

“我不只是让AI执行任务，我是把’分析负担’交给AI，让它帮我决定什么是重要的。”

“如果你想要规模化内容生产，你必须建立伟大的系统。AI是帮助你执行那些系统的工具，而不是替代你思考的替代品。”

“创作者文化已经变得极其碎片化，现在的创作者不仅要考虑规模化，更要考虑差异化。AI是我差异化竞争的核心武器。”

“在AI时代，注意力（attention）可以被获取，然后转化为销售初创公司的商业价值——这就是为什么学会制作病毒式内容如此重要。”

“最好的视频概念是一个在10秒内就能解释清楚、同时在视觉上有即时回报的想法。”

“做内容没有比现在更好的时机了——工具就在这里，门槛从未如此之低。”

“To the people sticking around to the end: there is no better time than now to make art. So you should go and do that.”

📺 视频原片

视频ID: 0b8qQx3FaLE

📝 深度摘要#

1. 讨论背景与核心主题#

2. 核心干货概览 (Key Takeaways)#

3. 深度逻辑与实操拆解 (Implementation Deep Dive)#

3.1 底层矛盾与背景#

3.2 核心策略推导：AI视频分析的逆向工程#

3.3 执行SOP与操作步骤#

SOP 1：AI图像增强（将简陋背景转化为电影级场景）#

SOP 2：AI视频转场效果制作#

SOP 3：项目管理系统搭建（Obsidian + Cursor/Cloud Code）#

3.4 细节支撑：Kova的完整工具链清单#

4. 核心执行资产 (Tactical Assets)#

4.1 Prompt指令集还原#

4.2 工具链配置与环境参数#

5. 专家洞察与风险边界 (Insights & Boundaries)#

5.1 反直觉/非共识结论#

5.2 局限性与避坑指南#

6. 金句 (Golden Quotes)#

📺 视频原片#

📝 深度摘要

1. 讨论背景与核心主题

2. 核心干货概览 (Key Takeaways)

3. 深度逻辑与实操拆解 (Implementation Deep Dive)

3.1 底层矛盾与背景

3.2 核心策略推导：AI视频分析的逆向工程

3.3 执行SOP与操作步骤

SOP 1：AI图像增强（将简陋背景转化为电影级场景）

SOP 2：AI视频转场效果制作

SOP 3：项目管理系统搭建（Obsidian + Cursor/Cloud Code）

3.4 细节支撑：Kova的完整工具链清单

4. 核心执行资产 (Tactical Assets)

4.1 Prompt指令集还原

4.2 工具链配置与环境参数

5. 专家洞察与风险边界 (Insights & Boundaries)

5.1 反直觉/非共识结论

5.2 局限性与避坑指南

6. 金句 (Golden Quotes)

📺 视频原片