原始标题: Karpathy’s Autoresearch On My AI Polymarket Trading Bot
发布日期: 2026-03-11 | 来源频道: @AllAboutAI
📝 深度摘要
1. 讨论背景与核心主题
本视频由 Andre(Andre Part)发布,核心主题是将 Karpathy 的「Auto Research」项目思想迁移到 Polymarket 比特币套利机器人上,实现策略的自动化研究与迭代进化。Andre 在看到 Karpathy 发布的 Auto Research 项目后,认为这非常酷,决定将其转化为自己的套利交易实验。Polymarket 是一个预测市场平台,提供比特币 5 分钟涨跌的二元期权交易。视频演示了该自动化研究系统在 dry mode(模拟交易)模式下的运行机制,并展示了真实资金的套利交易实况。
2. 核心干货概览 (Agentic Stack & Assets)
| 类别 | 名称 | 核心用途 / 技术意义 |
|---|---|---|
| 核心 AI 代理 | [Claude Code / Codex] | [驱动自动化实验循环,协助编写和修改策略代码] |
| 自动化/触发工具 | [GitHub + Training Program Markdown] | [作为记忆层与实验剧本,定义实验选择、执行、评估流程] |
| 交易执行环境 | [Polymarket Bot] | [实时比特币 5 分钟涨跌二元市场,提供套利机会] |
| 代码版本控制 | [GitHub Commits] | [存储实验历史、策略迭代、结果评估记录] |
3. 智能体架构与 SOP (Architecture & Implementation Deep Dive)
环境搭建与初始化
该系统的核心架构建立在 GitHub 仓库之上,智能体(Agent)在仓库内部工作,通过读取一个名为「Training Program」的 Markdown 文件来执行实验剧本。该文件定义了如何选择实验、如何运行实验、如何评估结果,以及何时保留或丢弃策略变更。实验参数(如过滤器、对称性、价差阈值等)存储在配置文件中,可通过 Codex 或 Claude Code 进行调整和修改。每个实验周期设定为 1 小时,目的是积累足够的数据进行统计评估。
自主运行逻辑链 (The Loop)
系统运行的核心循环如下:智能体读取 Training Program 中定义的实验逻辑 → 根据剧本生成候选实验(candidate experiments)→ 修改策略代码并提交到 GitHub → 在 Polymarket 机器人上运行实验(dry mode 或 live mode)→ 实验周期结束(1 小时超时)→ 系统评估实验结果:如果实验表现弱于基准,则丢弃;如果改善了评估指标,则保留;如果结果看起来异常强劲,还会进入二次确认阶段再次验证(因为 Polymarket 数据噪音较大)→ 将结果写回历史记录,为下一轮实验提供更多上下文 → 循环往复。GitHub 在此扮演了两个角色:代码演进层和研究记忆层。
实战案例还原 (Use Cases)
视频中展示的具体案例是比特币 5 分钟涨跌的套利策略。核心套利逻辑如下:当 Polymarket 上比特币 Up(涨)和 Down(跌)的买入价格加起来小于 100 时,买入两边即可获得确定性利润。例如,以 49 美分买入 Up,以 51 美分买入 Down,总成本 100 美分,无论涨跌结果如何都将获得 100 美分赔付,净赚 1 美分。实际演示中,智能体尝试了多种实验方向,包括对称性实验(symmetry experiments)、基于价差相对于边缘的过滤器(spread relative to edge filter)等。
细节支撑
视频展示了实验面板的关键统计指标:已通过窗口数(Passed Windows,乘以 5 分钟计算实际时间)、交易次数(Trades)、成交率(Fill Rate)、评分(Score)、胜率(Win Rate,由于是套利交易,胜率理论上为 100%)。在演示过程中,系统经历了 experiment 16、17、18 等多次迭代:experiment 16 运行 1 小时后超时评估,得分 0.3,低于最佳记录,被标记为 discard;experiment 17 测试了 spread relative to edge filter(检查价差是否与订单簿深度相关);experiment 18 同样被 discard,因为成交率较低。在 live demo 环节,Andre 将系统切换到最佳历史配置,在约 10-20 分钟内执行了 5 笔套利交易,全部获胜,共计盈利约 2 美元。
4. 核心执行资产 (CLI Commands & Prompts)
关键配置参数
实验的核心参数包括:Package Price(仓位规模,设置为 $5)、Edge Threshold(价差阈值,用于触发套利条件)、对称性过滤器(Symmetry Filters)、非对称过滤器(Asymmetry Filters)、价差边缘过滤器(Spread Relative to Edge Filters)。系统支持通过 Codex 或 Claude Code 直接修改这些参数并触发新的实验周期。实验历史通过 GitHub commits 完整记录,每次策略变更都形成可追溯的版本。
系统提示词策略
Training Program 文件中定义了智能体的行为剧本:明确实验选择策略(基于假设驱动或随机探索)、评估指标定义(Score 评分机制)、结果判定规则(keep/discard/confirm)、以及数据噪音处理策略。由于 Polymarket 数据噪音较大,系统实现了二次确认机制来避免虚假正向结果。
5. 开发者进阶洞察 (Vibe Coding Insights & Boundary)
Vibe Coding 核心心法
Andre 展示了「写指令而非写代码」的范式转移:开发者无需手动编写策略逻辑,而是通过定义实验剧本(Training Program)让 AI 智能体自主探索参数空间。智能体根据实验结果自动决定策略进化方向,人类只需定义评估标准和实验边界。这种方法将策略开发从「手动编码」转变为「指令迭代」,大幅降低了策略优化的门槛。
自主性风险预警
系统面临的主要风险包括:Polymarket 数据噪音可能导致错误的学习方向(已通过二次确认机制缓解);套利机会的成交率不稳定(Fill Rate 可能低于预期,视频中最低约 50%);实时市场波动可能导致策略失效。此外,使用真实资金进行 live trading 时需要谨慎,实验阶段应优先使用 dry mode。
实战陷阱
视频中记录的坑点包括:实验早期阶段曾出现配置错误导致结果不准确;某些策略虽然表面表现良好但成交率过低而被系统自动 discard;智能体可能产生「看起来很好但实际无法复现」的结果,需要二次验证机制来过滤噪音。Andre 建议持续运行实验以验证策略的稳健性,而非单次结果定胜负。
6. 金句 (Golden Quotes)
-「GitHub 提供了代码演进和研究记忆的两个层面,而 Training Program 则定义了实验逻辑,Polymarket 机器人则提供了测试策略的真实环境。」
-「我们正在寻找的套利机会是:当可以在 49 美分买入 Up、50 美分买入 Down 时,总成本仅 99 美分但将获得 100 美分赔付,这样我们就能赚取 1 美分的确定性利润。」
-「这就是自主研究的核心理念:智能体在仓库内工作,遵循 Markdown 文件中的指令,自动生成实验、运行测试、评估结果,并根据评估指标决定是否保留策略变更。」
-「由于 Polymarket 数据噪音很大,我在系统中实现了确认步骤,尝试多次验证以确保结果的真实性。」
📺 视频原片
视频ID: kKucCudlHZs