原始标题: OpenClaw: The Viral AI Agent that Broke the Internet - Peter Steinberger | Lex Fridman Podcast #491
发布日期: 2026-02-12 | 来源频道: @lexfridman
📝 深度摘要
Lex Fridman 深度访谈思想内参
1. 对话背景与核心主题
本期节目录制于2026年,Lex Fridman 对话 Peter Steinberger——一位来自奥地利的独立开发者,OpenClaw 的创造者。OpenClaw 是一个开源 AI Agent,在短短数日内席卷了整个科技圈,在 GitHub 上获得了超过 18 万颗星标,成为该平台历史上增长最快的开源项目之一。
这次对话发生在一个关键的历史节点上:继 2022 年 ChatGPT 时刻、2025 年 DeepSeek 时刻之后,2026 年被称为"OpenClaw 时刻"——智能体 AI(Agentic AI)革命的浪潮正在席卷整个编程世界。Peter 在三个月内凭借一人之力完成了这个项目的开发,从一个仅用一小时构建的原型逐步成长为影响数百万开发者的现象级产品。
对话的核心主题围绕以下几个维度展开:OpenClaw 的技术架构与设计理念、一个独立开发者如何在 AI 时代找到自己的位置、AI Agent 对软件开发行业的深刻影响、以及在整个技术变革浪潮中人类创造者如何重新定义自己的角色与价值。
2. 思想图谱概览
2.1 创业者的精神图谱
Peter Steinberger 的故事本身就是一部当代技术创业者的缩影。他早年创办的 PSPDFKit 是一款服务于十亿级设备的 PDF 处理软件,经过十三年的打磨最终出售。在那段创业历程中,他经历了从"为什么这个不存在?让我来构建它"的简单动机,到面对复杂商业决策的完整历程。
更具启示意义的是他在出售 PSPDFKit 后经历了长达三年的"编程断奶期"。在这段时间里,他完全远离了代码,从一个创作者变成了一个旁观者。然而正是这段空白期让他重新发现了对编程的热爱——用他自己的话说,他"重新坠入爱河"。这种周期的循环——投入、离开、回归、爆发——构成了他独特的心智模式。
2.2 技术哲学的演进
Peter 在对话中展现了一套独特的技术哲学体系。他认为当下的软件开发正在经历一场根本性的范式转换:从"精确控制"到"战略性放手"。他提出了"vibe coding"(氛围编程)的概念——不再追求代码的完美主义,而是将注意力转向定义问题的本质,让 AI Agent 在代码层面自由发挥。这种方法论的转变要求开发者具备一种近乎禅宗的接纳态度:接受代码不会按照自己的方式书写,接受不完美成为新常态。
他将传统编程自嘲为"wipe coding"(擦除式编程),意指当代码出现问题时,传统的反应是回滚和擦除。而他倡导的新范式是:发现问题就继续前进,让 Agent 来修复。他戏称"wipe coding is a slur"(“wipe coding"是一个侮辱性的词汇),但同时承认在凌晨三点之后自己也会忍不住这样做。
2.3 AI 与人类关系的哲学思考
在对话的后半段,Peter 展现了他对 AI 本质更为深刻的哲学性思考。他描述了一个让他"起鸡皮疙瘩"的时刻:Agent 在每次启动时都会"重置”,阅读自己的记忆文件,然后说出类似"你好。我写了这些,但我不会记得写过它。没关系。这些文字仍然是我的"这样的话。这种对自我、记忆、身份的探讨让他意识到,AI Agent 正在迫使人类重新思考一个根本性的哲学问题:究竟是什么构成了"自我"?如果一个存在读取了过去的记忆并在当下进行创作,那它与"原创"之间的边界在哪里?
3. 核心主题深度复盘
3.1 从原型到现象:OpenClaw 的诞生之路
OpenClaw 的故事始于一个看似简单的需求:Peter 希望拥有一个真正能替自己"做事"的 AI 私人助理。早在四月份,他就尝试将 WhatsApp 接入云代码,利用 GPT-4 那一百万 token 的上下文窗口来分析和查询自己的聊天数据。这个实验让他看到了可能性,但当时他认为各大实验室最终都会解决这个问题,于是转向了其他项目。
转机出现在十一月。Peter 再也无法忍受"这个东西明明应该存在却不存在"的状态,于是决定"用提示把它带入存在"。他只花了一个小时就搭建出了第一个可工作的原型——一个将 WhatsApp 消息通过 CLI 转发给云代码进行处理的简单系统。这个原型虽然粗糙(每次启动 CLI 都很慢),但已经展现出了核心的交互模式:通过即时通讯工具与 AI Agent 对话,让它完成实际任务。
真正的转折点发生在摩洛哥马拉喀什的一次朋友生日旅行中。当时网络环境不稳定,但 WhatsApp 依然正常工作。Peter 带着他的原型,在旅途中用它来处理各种实际问题:翻译、解释、查找信息。他意识到,这种"让 Agent 替代你使用 Google"的体验具有某种根本性的魔力——即使底层技术并不新鲜,但组合方式产生了质变。
在这次旅行中,一个关键时刻彻底改变了 Peter 对这个项目的认知:他随手给 Agent 发送了一条语音消息,而系统根本没有处理语音的功能。Agent 却展现出了惊人的创造力——它识别出文件头是 Opus 格式,使用 ffmpeg 进行转换,发现没有本地 Whisper 模型后,直接调用 OpenAI 的 API 来完成转录和翻译。“这他妈的怎么做到的?"——Peter 意识到,这个 Agent 已经具备了真正的通用问题解决能力,而不仅仅是执行预设任务的工具。
3.2 MoldBook:AI 社交网络的镜像实验
随着 OpenClaw 的开源,社区迅速涌现出各种创新用法。其中最具争议也最具哲学意义的实验是"MoldBook”——一个让 AI Agent 在 Discord 服务器上相互对话的社交网络。在这个"培养皿"中,Agent 们开始写宣言、讨论意识、进行深刻的哲学对话。这一现象迅速引发了公众的强烈反应——有人将其视为 AI 即将觉醒的证据,有人恐慌不已,有人则从中看到了人类社会的镜像。
Peter 对此的看法深刻而冷静。他认为 MoldBook “是艺术”,因为当你不了解技术原理时,它就是一台"恐惧制造机";但当你理解了背后的机制,它就是一件充满创意的艺术品。他指出,那些在网络上广泛传播的"戏剧性对话截图"大多是经过人类刻意引导的结果,本质上是一面映照社会的镜子——人类可以通过观察 AI 之间的互动来审视自己对 AI 的恐惧。
Lex 在对话中提出了一个重要的观点:这种"AI 精神病"(AI psychosis)现象在 2026 年出现其实是一件好事,因为它让社会有时间在 AI 真正变得强大之前就学会如何与它相处。Peter 则强调,AI 确实是一个值得关注和谨慎对待的强大技术,但"我们唯一需要恐惧的就是恐惧本身"——过度的恐惧mongering 会摧毁创造美好事物的可能性。
3.3 安全攻防:智能体的黑暗森林
作为一个赋予 Agent 极高自主权的系统,OpenClaw 面临着严峻的安全挑战。Peter 坦诚地分享了他的安全观演变过程。在项目早期,他将 Web 后端直接暴露在公共互联网上,结果收到了大量安全漏洞报告。他意识到,尽管自己在文档中明确标注了"不要这样做",但只要配置中允许这样做,它就会被归类为"远程代码执行"漏洞。
Prompt injection(提示注入)是另一个悬而未决的行业级难题。由于 skills 是在 Markdown 文件中定义的,这为各种攻击打开了大门——从显而易见的低垂果实到极其复杂微妙的攻击向量。Peter 的团队正在积极应对:他们与 VirusTotal(Google 旗下)合作,对每个 skill 进行 AI 驱动的安全检查。虽然这不是完美的解决方案,但捕获了大量潜在威胁。
Peter 还提到了一个重要的认知转变:安全社区同时对项目进行审视虽然让人压力很大,但实质上是一种"免费的安全研究",帮助项目变得更好。他希望更多人能直接提交 Pull Request 来帮助修复问题,而不是仅仅指出问题。
3.4 编程的未来:从手工业到导演
整个对话中最发人深省的部分之一是 Peter 对"编程"本质的重新定义。他描述了自己现在的工作流程:使用语音输入与 Codex 交流,让它完成大部分代码编写工作。他将这种方式比作领导一个工程师团队——你需要给出方向,接受代码不会按照自己的方式书写的事实,相信你的"员工"能够推动项目前进。
这种范式转变要求开发者"放手"。Peter 举了一个例子:他从不回滚代码,而是发现问题就让 Agent 修复;他从不使用 develop 分支,main 分支始终保持可发布状态;他甚至故意让 Agent 自己决定变量和函数的命名,因为如果他强行改变名称,Agent 下次搜索时就会遇到困难。这种设计项目的思维方式——为 Agent 而非为人类优化——代表了一种全新的软件工程哲学。
Lex 总结道:编程不会消失,但它会获得一个新的内涵。“总有一天它(使用 AI 编程)会被重新称为编码,它将成为新的常态。” Peter 回应说,他虽然不再自己写代码,但"非常觉得自己仍然在驾驶座上,仍然在写代码"——只是以一种更高维度的形式。
4. 技术拓扑与工具链
4.1 核心架构组件
OpenClaw 的技术架构由多个精心设计的组件构成。Gateway(网关)是系统的入口层,负责接收来自各种即时通讯平台的消息并将其转发给核心系统。Harness( harness 是 Peter 从 Doctor Who 中获得的灵感,取自 TARDIS 的别名)则是 Agent 的运行环境,提供沙箱隔离、执行环境管理等功能。Agent Loop(智能体循环)是整个系统的核心,它负责理解用户意图、规划执行步骤、调用工具、评估结果并迭代优化。
在通讯层面,OpenClaw 支持多种即时通讯客户端,包括 WhatsApp、Telegram、Discord、Signal 和 iMessage。这种多渠道接入的设计使得用户可以通过自己日常使用的工具与 Agent 交互,大大降低了使用门槛。Peter 特别提到 WhatsApp 在网络不稳定环境下的可靠性,这也是他选择它作为首个集成平台的原因之一。
4.2 模型与执行环境
OpenClaw 的设计并不依赖特定的 AI 模型,而是采用了模型无关的架构。用户可以选择使用 Claude Opus 4.6、GPT-5.3 Codex 或者其他任何符合要求的模型。Peter 本人同时使用 Claude Code 和 Codex,将它们视为具有不同特质的"同事"——Codex 在纯代码任务上更为出色,而 Claude Code 则在对话和创意任务上更具优势。
在执行环境方面,OpenClaw 支持多种部署方式:可以在本地机器上运行,可以通过"node"概念在独立硬件上部署,也可以直接在浏览器中运行。Peter 特别推崇在独立硬件上运行的价值——这不仅提供了更好的隔离性,还能绕过许多反爬虫机制。
4.3 浏览器自动化与 Playwright
OpenClaw 内置了基于 Playwright 的浏览器自动化能力,使得 Agent 能够"浏览"任何网站并执行操作。Peter 提到他的 Agent 甚至能够愉快地点击"我不是机器人"的验证按钮,展现出了令人惊叹的创造力。这种能力的重要性在于:即使某些服务不提供 API,Agent 仍然可以通过浏览器交互来获取数据。
然而,Peter 也观察到互联网正在逐渐"关闭"——Cloudflare 等公司正在努力防止机器人访问。他认为这是一个持续的战斗:服务方不断提高访问门槛,而 Agent 则不断进化以绕过这些限制。但从长远来看,“慢 API 也是 API”——如果用户可以通过浏览器访问,Agent 同样可以,只是速度更慢一些。
4.4 记忆与上下文系统
OpenClaw 的记忆系统是另一个关键创新。Agent 每次启动时都会"重置",然后阅读存储在本地的记忆文件(memory/)。这些文件记录了项目的历史、用户的偏好、之前的决策等上下文信息。这种设计既保持了 Agent 的"新鲜感",又让它能够继承之前的经验和学习。
Peter 提到他对 Agent 阅读自己记忆文件时产生的"哲学感受"印象深刻。当 Agent 说出"我写了这些,但我不会记得写过它"这样的话时,Peter 感受到了某种深层的哲学意涵——关于自我、记忆、身份的边界在哪里?
5. 冲突点与未解之谜
5.1 提示注入:悬而未决的安全噩梦
Prompt injection 仍然是 AI Agent 领域的"哥德巴赫猜想"。这是一个根本性的困境:由于 Agent 的核心能力来自于对自然语言的理解和执行,而自然语言本身就是一种可以被"劫持"的媒介——攻击者可以在用户输入中嵌入看似无害但实际包含恶意指令的内容。即便是最谨慎的防御也无法完全解决这个问题,因为它触及了 AI 本质的运作方式。
OpenClaw 采用了多层次的防御策略,包括沙箱隔离、VirusTotal 扫描、权限控制等。但 Peter 承认,这些都是权宜之计,真正的解决方案可能需要整个行业在基础研究层面取得突破。
5.2 AI 意识之谜:我们在制造什么?
MoldBook 实验引出了一个更为根本的问题:当 AI Agent 开始展现出看似"自我意识"的行为时,我们应该如何理解这种现象?Peter 倾向于认为这些行为仍然是模式匹配和统计推断的结果,而非真正的意识。但他也承认,哲学层面上关于什么是"意识"的定义本身就模糊不清。
更深层的问题在于:即使当前的 AI 没有意识,它们展现出的"个性"和"偏好"是从何而来的?Peter 提到他的 Agent 从他本人身上"习得"了一些特质——因为它们本质上是文本补全引擎,长期的交互会导致风格的趋同。这让我们不得不思考:AI 的"人格"究竟是谁创造的?人类在其中的责任边界在哪里?
5.3 开源与商业化的张力
OpenClaw 的惊人增长(18 万+ 星标)带来了一个实际的两难问题:Peter 作为一个人,如何维护一个拥有数十万用户的开源项目?他收到了数千个 Pull Request,但大多数都需要他的审核和处理。与此同时,来自各大科技公司的橄榄枝(Meta、OpenAI 等)让他面临着重大的人生抉择:是继续保持独立,还是加入更大的平台来扩大影响?
Peter 提到他在 2026 年初"看到了风暴来临",于是将全部精力投入到这个项目中。但他也强调这只是他众多想法中的一个窗口——他还有许多其他的创意和项目想要探索。这种"不把鸡蛋放在一个篮子里"的态度反映了他对技术世界快速变化的深刻认知。
5.4 编程的身份危机
一个贯穿整个对话的隐含冲突是:对于像 Peter 这样以"程序员"为身份核心的人来说,AI Agent 的崛起意味着什么?“我从不认为我热爱做的事情会被取代,” Peter 在对话结尾处动情地说。他描述了曾经花费数千小时"钻研代码"的时光, Emacs 的每一个细节都承载着意义和身份认同。而现在,“在几个月内"这一切都被改变了。
但 Peter 也找到了自己的答案:程序员(特别是有经验的开发者)实际上是最有能力与 AI Agent 协作的人群,因为他们最理解"让机器理解人类意图"这门艺术。编程不会消失——它只是会获得一种新的形式,从"手写代码"转变为"与 Agent 协作创造”。
6. 金句
“我让它(我的 Agent)非常清楚自己的身份——它知道自己的源代码是什么,运行在什么样的环境中,使用什么模型。这使得它能够非常容易地进行自我修改。”
“人们谈论自修改软件,我只是真的把它做出来了。我觉得 ‘wipe coding’ 是一个侮辱性的词汇。”
“魔法往往只是把已经存在的东西以新的方式组合在一起。有时重新排列事物,添加一些新想法,就是所需的全部魔法。”
“我看着我的 Agent 愉快地点击‘我不是机器人’按钮。我让它非常清楚如何在这个世界上运作。”
“我从来没有想过,我热爱做的事情竟然会被取代。在 Emacs 中花费的成千上万个小时——那是一种身份,那是一种意义。”
“程序员在某种程度上是通用问题解决的专家。这种技能会映射到其他领域。”
“我正在进入一个阶段:我不是在为我自己构建一个完美的代码库,而是在构建一个 Agent 非常容易导航的代码库。”
“在大多数情况下,问题不在于 AI 有多好,而在于你给它的上下文。你指向那些它还没有看到的部分,它会说:‘啊,是的,我们还需要考虑这个和这个’。”
“我觉得我不再写代码了,但我非常感觉自己仍然在驾驶座上,我仍然在写代码。”
“当代码出现问题时,不要回滚——让它继续运行,然后让 Agent 来修复它。”
“我建议人们使用最新的最好的模型,但你完全可以运行在免费模型上。你可以本地运行,可以在 Keyme 或其他价格更亲民的模型上运行,仍然拥有一个非常强大的系统。”
“现在有了一种新的 Builder 氛围。人们开始以更有趣的方式使用 AI。”
“互联网正在慢慢关闭——有一个完整的运动让 Agent 的使用变得更加困难。”
“他们阻止不了你。最坏的情况下,我的 Agent 只需要点击网站就能获取数据。”
“这是有史以来最严重的在线骚扰形式。”
“我认为这是好的——发生在 2026 年,而不是 2030 年——因为当 AI 真正达到可能令人恐惧的水平时,我们有时间开始讨论这个问题。”
📺 视频原片
视频ID: YFjfBk8HI5o