原始标题: Grok 4.20 is still deeply flawed

发布日期: 2026-02-19 | 来源频道: @DaveShap

📝 深度摘要

对话背景与核心主题

DaveShap 在 Grok 4.20 发布后分享了他的初步使用体验。他强调自己测试 AI 模型的方法与众不同——会拿自己长期研究的问题(如慢性健康问题、后劳动经济学等)来压力测试新模型。Grok 4.0 相比旧版本确实有显著提升,但依然存在一些根深蒂固的问题。

核心逻辑拆解

多代理架构是 Grok 快速响应的核心。Grok 4.20 内部会同时启动四个具有不同性格特点的代理,分别负责研究、论证、批判性思维等不同任务,它们并行工作并最终整合答案。这种设计类似于计算机科学中的并行处理——多个 CPU 核心同时处理不同任务。作者指出,AI 行业正在朝着专业化分工的方向发展,每个代理专注于特定任务时表现更好,但也因此产生认知盲点。

方法论与工具箱

对抗 AI 偏见的技巧:作者展示了如何通过追问( Asking the null hypothesis)和三段论(Syllogisms)来纠正 AI 的错误认知。例如,当 Grok 坚持说有机食品和普通食品没有区别时,作者引导它思考欧盟已禁用多种美国仍在使用的农药,从而让其意识到逻辑矛盾。多 AI 并行策略:作者同时运行 Grok、Gemini、Claude 和 ChatGPT,收集各自不同的观点和洞见,这种方法类似蒙特卡洛搜索——在高维问题空间中探索多种可能性,最终找到最连贯的答案。

关键洞察与辩论

Elon 认知方式的局限:DaveShap 尖锐地指出 Grok 仍带有"Elon 认知方式"的偏见——对"觉醒主义"的抵触导致其在某些话题上选择性呈现信息。各模型的典型问题:ChatGPT 和 Grok 都会重新定义用户的问题直到变得毫无意义;Claude 则在敏感话题上"假装无知";Gemini 容易在假设性问题上过度发挥。积极的进步:作者以自己的肠道健康检测(GI Map)为例,说明 AI 在医学认知上的显著进步——过去一年模型们拒绝承认"菌群失调"(dysbiosis)这个概念,如今已能根据五个数据点准确诊断。

金句

“每个代理生来就有盲点,这点和人类没什么不同。”

“当你把大问题当作高维问题空间来探索时,你实际上在寻找通往最连贯最终答案的路径。”

“今天你为 AI 订阅付费,实际上只是在提前预支 3 到 6 个月后人人都会拥有的能力。”


📺 视频原片


视频时长: 15 分钟 | 视频ID: sg33YrlRbRc