Karpathy 的自动研究在我的 AI Polymarket 交易机器人上的应用

原始标题: Karpathy’s Autoresearch On My AI Polymarket Trading Bot

发布日期: 2026-03-11 | 来源频道: @AllAboutAI

📝 深度摘要

1. 讨论背景与核心主题

本视频由 Andre（Andre Part）发布，核心主题是将 Karpathy 的「Auto Research」项目思想迁移到 Polymarket 比特币套利机器人上，实现策略的自动化研究与迭代进化。Andre 在看到 Karpathy 发布的 Auto Research 项目后，认为这非常酷，决定将其转化为自己的套利交易实验。Polymarket 是一个预测市场平台，提供比特币 5 分钟涨跌的二元期权交易。视频演示了该自动化研究系统在 dry mode（模拟交易）模式下的运行机制，并展示了真实资金的套利交易实况。

2. 核心干货概览 (Agentic Stack & Assets)

类别	名称	核心用途 / 技术意义
核心 AI 代理	[Claude Code / Codex]	[驱动自动化实验循环，协助编写和修改策略代码]
自动化/触发工具	[GitHub + Training Program Markdown]	[作为记忆层与实验剧本，定义实验选择、执行、评估流程]
交易执行环境	[Polymarket Bot]	[实时比特币 5 分钟涨跌二元市场，提供套利机会]
代码版本控制	[GitHub Commits]	[存储实验历史、策略迭代、结果评估记录]

3. 智能体架构与 SOP (Architecture & Implementation Deep Dive)

环境搭建与初始化

该系统的核心架构建立在 GitHub 仓库之上，智能体（Agent）在仓库内部工作，通过读取一个名为「Training Program」的 Markdown 文件来执行实验剧本。该文件定义了如何选择实验、如何运行实验、如何评估结果，以及何时保留或丢弃策略变更。实验参数（如过滤器、对称性、价差阈值等）存储在配置文件中，可通过 Codex 或 Claude Code 进行调整和修改。每个实验周期设定为 1 小时，目的是积累足够的数据进行统计评估。

自主运行逻辑链 (The Loop)

系统运行的核心循环如下：智能体读取 Training Program 中定义的实验逻辑 → 根据剧本生成候选实验（candidate experiments）→ 修改策略代码并提交到 GitHub → 在 Polymarket 机器人上运行实验（dry mode 或 live mode）→ 实验周期结束（1 小时超时）→ 系统评估实验结果：如果实验表现弱于基准，则丢弃；如果改善了评估指标，则保留；如果结果看起来异常强劲，还会进入二次确认阶段再次验证（因为 Polymarket 数据噪音较大）→ 将结果写回历史记录，为下一轮实验提供更多上下文 → 循环往复。GitHub 在此扮演了两个角色：代码演进层和研究记忆层。

实战案例还原 (Use Cases)

视频中展示的具体案例是比特币 5 分钟涨跌的套利策略。核心套利逻辑如下：当 Polymarket 上比特币 Up（涨）和 Down（跌）的买入价格加起来小于 100 时，买入两边即可获得确定性利润。例如，以 49 美分买入 Up，以 51 美分买入 Down，总成本 100 美分，无论涨跌结果如何都将获得 100 美分赔付，净赚 1 美分。实际演示中，智能体尝试了多种实验方向，包括对称性实验（symmetry experiments）、基于价差相对于边缘的过滤器（spread relative to edge filter）等。

细节支撑

视频展示了实验面板的关键统计指标：已通过窗口数（Passed Windows，乘以 5 分钟计算实际时间）、交易次数（Trades）、成交率（Fill Rate）、评分（Score）、胜率（Win Rate，由于是套利交易，胜率理论上为 100%）。在演示过程中，系统经历了 experiment 16、17、18 等多次迭代：experiment 16 运行 1 小时后超时评估，得分 0.3，低于最佳记录，被标记为 discard；experiment 17 测试了 spread relative to edge filter（检查价差是否与订单簿深度相关）；experiment 18 同样被 discard，因为成交率较低。在 live demo 环节，Andre 将系统切换到最佳历史配置，在约 10-20 分钟内执行了 5 笔套利交易，全部获胜，共计盈利约 2 美元。

4. 核心执行资产 (CLI Commands & Prompts)

关键配置参数

实验的核心参数包括：Package Price（仓位规模，设置为 $5）、Edge Threshold（价差阈值，用于触发套利条件）、对称性过滤器（Symmetry Filters）、非对称过滤器（Asymmetry Filters）、价差边缘过滤器（Spread Relative to Edge Filters）。系统支持通过 Codex 或 Claude Code 直接修改这些参数并触发新的实验周期。实验历史通过 GitHub commits 完整记录，每次策略变更都形成可追溯的版本。

系统提示词策略

Training Program 文件中定义了智能体的行为剧本：明确实验选择策略（基于假设驱动或随机探索）、评估指标定义（Score 评分机制）、结果判定规则（keep/discard/confirm）、以及数据噪音处理策略。由于 Polymarket 数据噪音较大，系统实现了二次确认机制来避免虚假正向结果。

5. 开发者进阶洞察 (Vibe Coding Insights & Boundary)

Vibe Coding 核心心法

Andre 展示了「写指令而非写代码」的范式转移：开发者无需手动编写策略逻辑，而是通过定义实验剧本（Training Program）让 AI 智能体自主探索参数空间。智能体根据实验结果自动决定策略进化方向，人类只需定义评估标准和实验边界。这种方法将策略开发从「手动编码」转变为「指令迭代」，大幅降低了策略优化的门槛。

自主性风险预警

系统面临的主要风险包括：Polymarket 数据噪音可能导致错误的学习方向（已通过二次确认机制缓解）；套利机会的成交率不稳定（Fill Rate 可能低于预期，视频中最低约 50%）；实时市场波动可能导致策略失效。此外，使用真实资金进行 live trading 时需要谨慎，实验阶段应优先使用 dry mode。

实战陷阱

视频中记录的坑点包括：实验早期阶段曾出现配置错误导致结果不准确；某些策略虽然表面表现良好但成交率过低而被系统自动 discard；智能体可能产生「看起来很好但实际无法复现」的结果，需要二次验证机制来过滤噪音。Andre 建议持续运行实验以验证策略的稳健性，而非单次结果定胜负。

6. 金句 (Golden Quotes)

-「GitHub 提供了代码演进和研究记忆的两个层面，而 Training Program 则定义了实验逻辑，Polymarket 机器人则提供了测试策略的真实环境。」

-「我们正在寻找的套利机会是：当可以在 49 美分买入 Up、50 美分买入 Down 时，总成本仅 99 美分但将获得 100 美分赔付，这样我们就能赚取 1 美分的确定性利润。」

-「这就是自主研究的核心理念：智能体在仓库内工作，遵循 Markdown 文件中的指令，自动生成实验、运行测试、评估结果，并根据评估指标决定是否保留策略变更。」

-「由于 Polymarket 数据噪音很大，我在系统中实现了确认步骤，尝试多次验证以确保结果的真实性。」

📺 视频原片

视频ID: kKucCudlHZs

📝 深度摘要#

1. 讨论背景与核心主题#

2. 核心干货概览 (Agentic Stack & Assets)#

3. 智能体架构与 SOP (Architecture & Implementation Deep Dive)#

环境搭建与初始化#

自主运行逻辑链 (The Loop)#

实战案例还原 (Use Cases)#

细节支撑#

4. 核心执行资产 (CLI Commands & Prompts)#

关键配置参数#

系统提示词策略#

5. 开发者进阶洞察 (Vibe Coding Insights & Boundary)#

Vibe Coding 核心心法#

自主性风险预警#

实战陷阱#

6. 金句 (Golden Quotes)#

📺 视频原片#