原始标题: The AI stack behind 20M+ views (Full Breakdown)

发布日期: 2026-03-06 | 来源频道: @GregIsenberg

📝 深度摘要

1. 讨论背景与核心主题

本期节目的核心问题是:普通创作者如何利用AI工具创建能够在Instagram、YouTube Shorts、TikTok等平台获得数百万浏览量的病毒式短视频?

嘉宾Kova是一位在Instagram短视频领域极具影响力的创作者,以其独特的视觉风格和AI增强内容著称。她曾与NVIDIA、Adobe等全球顶级品牌合作,被业界视为"当品牌想要制作病毒式短视频时首选的合作对象"。Kova在节目中首次公开披露了她的完整AI工作流程,包括她如何使用各种AI工具进行视频分析、内容创作、背景增强、转场效果制作以及项目管理。

对于任何希望在社交媒体平台上建立影响力、获取关注者的创作者而言,这期内容提供了可直接复用的操作路径。Greg Isenberg在开场中明确指出:在AI时代获取注意力(attention)的能力等同于可以将其转化为销售初创公司的商业价值,因此掌握这套AI短视频制作系统具有重要的战略意义。

2. 核心干货概览 (Key Takeaways)

维度 核心内容 / 动态 价值意义 / 影响程度
技术/工具 使用Manus AI作为AI Agent进行视频分析、风格提取和复制计划生成;使用FreePick平台调用Nanobanana Pro进行图像生成、C-Dance/Kling进行视频生成;Adobe Premiere Pro作为主要剪辑软件;Obsidian+Cursor/Cloud Code进行项目管理 构建了一套从"分析-创作-编辑-管理"的全链路AI创作工具链,大幅降低高质量视频制作门槛
战略/逻辑 通过AI分析目标视频的风格关键词、脚本结构、叙事节奏,然后逆向复制该风格;使用AI增强静态拍摄背景,将简陋房间转化为视觉精美的场景;建立可复用的项目模板和风格指南系统 将创作过程系统化、模板化,使非技术创作者也能产出具有专业视觉水准的内容,实现内容规模化生产
量化指标 视频时长控制在75秒以内;hook在前3秒内展示成品;使用70-90 BPM的lo-fi音乐;关键词分析准确还原Kova本人的风格指南 基于Kova实际验证的量化参数,为创作者提供可直接参考的制作标准
创作方法论 五幕式结构(Hook冲突构建解决CTA);词到词字幕而非整句字幕;暗室拍摄+RGB灯光;人像出镜时手持项目产品 一套经过验证的短视频叙事和视觉制作SOP,可直接迁移应用到不同创作者的内容中

3. 深度逻辑与实操拆解 (Implementation Deep Dive)

3.1 底层矛盾与背景

短视频平台的成功核心在于两个关键要素:一是内容本身的吸引力和留存能力,二是视觉呈现的专业度。对于大多数非技术背景的创作者而言,这两者之间存在显著矛盾——好的创意想法往往受限于拍摄设备和后期制作能力,无法呈现出脑海中想象的视觉效果。传统的解决方案是投入大量资金购买专业设备、租赁影棚,或者花费大量时间学习After Effects等专业软件。

Kova的核心突破在于:她发现了AI工具可以彻底解决这个矛盾。通过AI图像生成工具,一个普通的卧室可以被瞬间"改造"成充满童话感的精致场景;通过AI视频生成工具,转场效果可以创造出普通拍摄无法实现的"不可能镜头";通过AI Agent工具,分析和复制优秀视频风格变得自动化。这意味着:好莱坞级别的视觉制作不再被少数专业工作室垄断,任何拥有AI工具使用能力的创作者都可以在卧室里完成。

3.2 核心策略推导:AI视频分析的逆向工程

Kova在节目中演示了她使用Manus AI分析自己视频的完整过程。这一策略的底层逻辑是:如果创作者能够找到自己欣赏的视频风格,AI可以帮助他们逆向还原出该风格的完整制作手册。

具体操作路径如下:

第一步:让AI分析视频风格关键词。 Kova展示的Prompt策略是:“我非常喜欢这个视频的风格和故事,请从以下维度进行分析:一、风格和美学关键词(具体的关键词效果最好);二、脚本,记录并按故事章节拆分;三、我不确定具体在找什么,请给我一个总体计划说明我应该如何复制这个视频。” 她将"分析负担"交给AI,让AI自主决策应该提取哪些关键信息。

第二步:获取详细的风格指南输出。 Manus返回的分析结果包括:视觉语言描述(maker和hacker文化与kawaii怀旧美学的融合)、具体的字体系统(标题、分段标题、字幕各使用什么字体)、配色方案、整体氛围定位(dark academia maker, cozy hacker den, bedroom devlog, personal technosalge)。这些信息精确还原了Kova本人实际使用的风格系统。

第三步:获取脚本转录和故事结构分析。 Manus将65秒的视频拆解为五幕式结构——Hook(第1秒展示成品)、Conflict(创作者零硬件经验的个人挑战建立共鸣和悬念)、Build(三个步骤的建造过程)、Problem Resolution(经典的三幕喜剧结构:太慢太快刚刚好)、Tease and CTA(在下一集中会发生什么)。这个分析精确到了"0.5秒的镜头"级别。

第四步:获取可执行的复制计划。 Manus生成了一份详细的复制指南,涵盖:从定义核心概念(一个技术上有趣且情感上引起共鸣的一句话概念)到具体的拍摄参数(暗室拍摄、RGB灯光、竖屏拍摄),从B-roll类型建议(手机人像微距模式拍摄电路板、Figma/Photoshop屏幕录制)到后期软件选择(After Effects绘制简单线图并添加发光效果,或CapCut/DaVinci使用霓虹/发光预设)。

3.3 执行SOP与操作步骤

SOP 1:AI图像增强(将简陋背景转化为电影级场景)

这一工作流程是Kova最具代表性的AI应用场景,也是她被称为"AI视觉魔术师"的核心技能。

操作步骤:

  1. 拍摄原始素材:在普通环境中用手机拍摄人像镜头,可以使用相对简单的背景,甚至是一面空墙。Kova展示了她的原始拍摄——只是在一个普通房间里有基本的照明。

  2. 导入FreePick平台:将单帧静态图像导入FreePick的图像编辑器。FreePick是一个聚合了各种最新图像和视频AI模型的平台。

  3. 选择生成模型:Kova首选Nanobanana Pro进行图像生成,她在实际使用中发现这个模型在细节表现和色彩还原上效果最佳。

  4. 使用视觉特征功能:利用视觉标注功能直接在图像上标注需要添加或修改的区域。Kova演示了如何在画面左侧添加更多物体来平衡构图。

  5. 编写Prompt策略:Kova的Prompt哲学是"意外的简洁"。她经常使用非常简单的描述如"橙色郁金香花瓶"或"更多花朵"。原因有二:第一,简单的Prompt让模型倾向于输出它最擅长生成的内容;第二,她喜欢让多代生成结果帮她发现意想不到的视觉效果。她将这个过程类比为"与AI协作发现惊喜"。

  6. 生成与迭代:点击生成后,AI会创建增强后的图像。Kova展示了原始背景(只是一面空墙)与AI增强后的对比——添加了 fairy lights、窗户、黑胶唱片机、风扇、书架等元素。她强调这个过程可能需要多次尝试才能获得完美效果。

  7. 使用Mask(蒙版)进行细节调整:当生成内容与人物有重叠时(如肩膀附近的物体),需要使用Mask功能将特定区域隔离出来,以便单独调整或重新生成。Mask是AI创作中最重要的技术之一。

  8. 导出并导入Premiere Pro:将增强后的图像导出,重新导入Adobe Premiere Pro或其他剪辑软件中使用。

量化效果:Kova透露,现在人们普遍认为她的视频背景"超级精美"或"像是电影画面",但实际上这些都是在她 dorm room(宿舍房间)里用AI技术实现的。她强调:AI消除了硬件设备对视觉品质的限制。

SOP 2:AI视频转场效果制作

这一技术用于创造普通拍摄无法实现的"不可能镜头",是Kova视频中视觉冲击力的重要来源。

操作步骤:

  1. 准备起始帧和结束帧:在Premiere Pro中选择一个场景的起始帧静态图像作为起点,准备好想要过渡到的目标帧。

  2. 导入FreePick视频生成器:将起始帧图像导入FreePick的视频生成功能。Kova首选C-Dance Pro,因为它能够同时生成配套的音频。

  3. 编写动态Prompt:Prompt编写需要非常具体地描述镜头运动。Kova的技巧是:像写小说一样描述场景。“On the table is a picture of a kid. The kid in the center of the picture is waving their arms gleefully while the picture doesn’t move.” 她建议避免使用"doesn’t"或"don’t"这类否定词,因为模型对这类词汇的理解不如肯定词精确。

  4. 设置参数:选择高分辨率输出,生成约4秒的片段,包含音频。

  5. 使用Prompt Editor优化:FreePick提供了Prompt Editor功能,可以帮助用户优化Prompt以获得更好的生成效果。Kova展示了这个工具如何将简单的描述转化为更适合AI模型理解的版本。

  6. 在剪辑软件中拼接:将生成的AI视频片段与原始素材在Premiere Pro中拼接,创造出"书自动翻开并放大显示内容"或"童年照片中的人物动起来"等转场效果。

  7. 注意事项:确保生成内容与人物身体保持适当距离,避免穿帮;如果需要重叠,需要精细的Mask处理。

底层原理:这些"不可能镜头"的本质是AI理解了起始帧的语义,然后根据文字描述在视频维度上进行了合理的延展。Kova强调,这是她90%的"惊艳镜头"的核心技术。

SOP 3:项目管理系统搭建(Obsidian + Cursor/Cloud Code)

Kova使用Obsidian作为个人知识管理系统,结合Cursor或Cloud Code实现项目流程自动化。

操作步骤:

  1. 建立模板系统:在Obsidian中创建可复用的项目模板,包括:

    • 脚本模板(记录视频文案的结构化格式)
    • 分镜模板(将脚本转化为可视化分镜的表格结构)
    • 风格指南模板(记录视觉风格参数的文档)
    • 编辑检查清单(后期制作的标准化检查项)
  2. 使用AI辅助脚本到分镜的转化:当脚本完成后,可以将脚本内容提供给Cursor或Cloud Code,让AI根据预设的分镜模板自动生成初步的分镜方案。Kova演示了如何让AI将一个free teacher arrow脚本自动转化为故事板格式。

  3. 建立个人风格指南库:将使用Manus分析得出的风格关键词、字体选择、配色方案等标准化文档存放在Obsidian中,形成可随时查阅的个人风格库。

  4. 项目整理与重构:当需要整理项目结构或批量修改文件命名规范时,直接让AI工具执行,Cursor的执行速度通常比Cloud Code更快。

  5. 编辑器协作:如果需要与编辑器合作,可以将模板调整为更易读的格式,AI可以帮助快速完成这种格式转换。

核心理念:Kova是"系统化思维"的坚定信仰者。她认为:“为了规模化内容生产,你总是需要建立伟大的系统。AI可以帮助执行你已经建立好的系统。”

3.4 细节支撑:Kova的完整工具链清单

根据节目中Kova的完整分享,她的工具箱包括以下核心组件:

视频分析Agent:

  • Manus AI:用于分析视频风格、提取关键词、生成复制计划。Kova认为Manus是目前最接近"真正的AI Agent"的产品,因为它真的会运行脚本来解析视频文件,而不仅仅是根据文字描述进行推测。她提到Manus最近推出了类似OpenClaw的托管版本(尚在beta阶段)。

图像生成与增强:

  • FreePick平台(聚合各类AI图像模型)
  • Nanobanana Pro:Kova首选的图像生成模型
  • C-Dance:视频生成首选(带音频生成功能)
  • Kling:备选视频生成工具,Kling 3是最新版本

视频编辑:

  • Adobe Premiere Pro:主力剪辑软件,Kova选择它的原因是"最灵活的软件",可以访问VR效果、各种模糊效果等,功能非常细粒度
  • After Effects:用于更复杂的视觉效果制作,如发光线条动画
  • CapCut:Premiere Pro的简化替代方案,适合非技术用户

项目管理:

  • Obsidian:个人知识管理和项目规划工具
  • Cursor:AI增强的代码编辑器,可用于文档处理和自动化
  • Cloud Code:类似Cursor的AI辅助工具,执行速度稍慢但功能类似
  • Poke:日常生活任务组织工具

创作标准参数:

  • 视频时长:under 75 seconds
  • Hook展示:前3秒展示成品或最吸引人的画面
  • 核心概念:需在10秒内解释清楚
  • 字幕格式:word-by-word(逐词显示),而非整句显示
  • 音乐风格:lo-fi, slightly nostalgic, 70-90 BPM, warm crunchy texture, chiptune adjacent
  • 背景选择:暗室拍摄(夜间、拉上遮光窗帘),背景应有多个显示器屏幕
  • 灯光:RGB灯光(紫色、青色等)
  • 拍摄方向:竖屏
  • 出镜时:手持项目产品,给手找事情做
  • 服装:深色纯色服装
  • B-roll类型:微距拍摄电路板/引脚/线材、屏幕录制、产品展示镜头

4. 核心执行资产 (Tactical Assets)

4.1 Prompt指令集还原

视频分析Prompt(Kova风格): “I really like the style and story of this video. Break it down in terms of: 1. Style and aesthetic keywords (I think specific keywords would probably work a lot better); 2. Script, transcribe it and separate it into story sections; 3. I’m not exactly sure what I’m looking for, so write down in terms of overall, give me a plan for how I should replicate it.”

AI图像增强Prompt示例:

  • “orange tulips in a vase”(橙色郁金香花瓶)
  • “more flowers”(更多花朵)
  • “a orange push on the windowsill”(窗台上的橙色 push)
  • Kova策略:Prompt越简单,模型越倾向于输出它最擅长生成的内容;多代生成可以帮助发现意想不到的惊喜

AI视频生成Prompt示例: “Camera is static. On the table is a picture of a kid. The kid in the center of the picture is waving their arms gleefully while the picture doesn’t move.”

  • 技巧:使用肯定性描述而非否定性描述
  • 技巧:描述场景时要像叙述一个故事一样具体
  • 技巧:使用Prompt Editor功能优化Prompt

4.2 工具链配置与环境参数

FreePick平台配置:

  • 图像模型首选:Nanobanana Pro
  • 视频模型首选:C-Dance Pro(带音频生成)
  • 视频模型备选:Kling(特别是Kling 3)
  • 关键功能:Visual Feature(视觉特征标注)、Prompt Editor(Prompt优化)
  • 输出格式:图像为静态帧,视频为4秒片段含音频

Obsidian项目模板结构:

  • 脚本模板:记录视频文案的结构化文档
  • 分镜模板:表格形式,包含镜头描述、时长、B-roll备注等
  • 风格指南模板:记录字体、配色、氛围关键词等视觉参数
  • 检查清单模板:后期发布前的标准化检查项

Cursor/Cloud Code自动化任务:

  • 脚本→分镜的自动转化
  • 项目文件的批量重命名和结构整理
  • 风格指南的格式转换(适配不同使用场景)

5. 专家洞察与风险边界 (Insights & Boundaries)

5.1 反直觉/非共识结论

AI Agent比纯对话式AI更适合视频分析: Kova明确表示,她更喜欢使用Manus这样的AI Agent而非Claude、ChatGPT或Gemini来进行视频分析。原因是Agent真的会"观看"视频——运行脚本提取转录内容、逐帧分析画面,而不仅仅是根据文字描述进行推测。这种"实际执行任务"vs"做出假设"的区别是选择AI工具时的关键考量。

Prompt越简单效果越好: 这是Kova的逆向直觉。大多数人认为越详细、越具体的Prompt会带来越精准的结果,但她的实战经验表明:简单的Prompt让AI模型可以自由发挥它最擅长的领域,反而往往能获得更好的效果。她将此形容为"赋能AI去发现你原本没想到的可能性"。

个人风格不需要"原创": Kova认为每个创作者都是不同"生物"和"美学"的混合体。找到自己风格的方式不是闭门造车,而是广泛吸收你喜欢的内容创作者的风格元素,然后通过AI工具将其整合成属于自己的独特表达。她自己的风格就是maker文化+hacker美学+kawaii可爱风的融合。

70-90 BPM的lo-fi音乐是短视频黄金标准: 这个参数看起来很具体,但背后有扎实的平台算法逻辑——这个速度的音乐既能保持观看者的注意力节奏,又不会喧宾夺主抢走内容本身的风头。

5.2 局限性与避坑指南

Instagram链接在AI工具中的兼容性不稳定: Kova在演示中使用Manus分析Instagram视频时,链接出现了无法正常工作的情况。她提示:最稳妥的方式是直接下载视频文件然后上传到AI工具,而不是依赖链接抓取。AI工具与社交媒体平台之间的接口是动态变化的,创作者需要做好备选方案。

AI生成内容与人物重叠时的Mask处理: 当AI生成的物体与人脸或身体有重叠时,很难做到完美的边缘处理。解决方案是:在Prompt中要求将物体放置在离人物较远的位置,或者接受需要多次尝试才能获得满意结果的事实。Mask(蒙版)技术是解决这类问题的关键工具。

视频生成中的否定词理解问题: 当前的视频生成模型对否定词(如"don’t"、“doesn’t”、“won’t”)的理解还不够精确。建议在Prompt中尽量使用肯定句描述,或者换一种表达方式描述同样的意思。

AI检查清单应该在开始时就完成,而非最后: Kova提到Manus会在分析结束时提供一个checklist,包括"视频是竖屏吗?3秒内开钩了吗?字幕是逐词显示吗?“等检查项。但她建议这些检查应该在制作过程中就已经完成,而不是等到最后——如果到最后一刻才检查出问题,修改成本会非常高。

数据安全顾虑: Kova提到她对给AI工具开放浏览器访问权限存在安全顾虑,特别是在使用类似OpenClaw的托管版本时。她建议在使用新的AI工具时,先了解清楚数据安全政策,不要随意授权访问重要账户。

AI转场的物理真实性要求: Kova在节目中提到,她故意将某些VFX(视觉特效)镜头做得非常复杂,以至于其他人很难完全复制——这是一种保持内容差异化的小心机。她称之为"故意的护城河”。

不是所有视频都需要AI增强: 如果原始素材已经拍摄精良、背景已经足够精美,使用AI增强可能反而会破坏原本的质量。Kova建议:只有当原始素材存在明显不足(如背景过于简陋、场景单调)时才需要使用AI增强技术。

6. 金句 (Golden Quotes)

“AI让任何人都可以在卧室里创造出好莱坞级别的视觉内容,这不再只是专业工作室的专利。”

“我在Dorm room里做出的视觉效果,人们以为是电影工作室级别的,但实际上我只是用AI把简陋的房间变成了童话世界。”

“我的Prompt通常非常简单——‘more flowers’、‘orange tulips in a vase’。简单的Prompt让AI自由发挥它最擅长的东西,往往能得到意想不到的惊喜。”

“我不只是让AI执行任务,我是把’分析负担’交给AI,让它帮我决定什么是重要的。”

“如果你想要规模化内容生产,你必须建立伟大的系统。AI是帮助你执行那些系统的工具,而不是替代你思考的替代品。”

“创作者文化已经变得极其碎片化,现在的创作者不仅要考虑规模化,更要考虑差异化。AI是我差异化竞争的核心武器。”

“在AI时代,注意力(attention)可以被获取,然后转化为销售初创公司的商业价值——这就是为什么学会制作病毒式内容如此重要。”

“最好的视频概念是一个在10秒内就能解释清楚、同时在视觉上有即时回报的想法。”

“做内容没有比现在更好的时机了——工具就在这里,门槛从未如此之低。”

“To the people sticking around to the end: there is no better time than now to make art. So you should go and do that.”


📺 视频原片


视频ID: 0b8qQx3FaLE