AI 事故、审计与基准测试的局限性
本期节目邀请了 AI Incident Database 创始人 Sean McGregor,探讨 AI 安全性与评估问题。Sean 介绍了其团队如何收集超过 5000 条 AI 事故案例,构建类似航空业的事故数据库以推动安全实践。节目讨论了 AI 事故的定义,数据来源(目前主要依赖新闻报道,未来需要强制性报告制度),以及前沿模型带来的安全挑战——通用型 AI 难以用传统方式验证其安全性。此外还深入分析了基准测试与实际应用的区别:多数基准为研究目的设计,无法直接证明模型在特定部署环境中的表现。Sean 分享了在 DEF CON 黑客大会上进行的红队测试实验,强调统计严谨性的重要性,展示了 Guard 模型与基础模型接口的安全隐患。