Artificial Analysis:独立LLM评估即服务 — George Cameron、Micah-Hill Smith
Artificial Analysis 是由 George Cameron 和 Micah-Hill Smith 创立的独立 LLM 评估服务于2024年1月上线,目前团队约20人,提供免费网站数据帮助开发者选择模型,同时为企业提供私有基准测试。创始动机源于2023年发现缺乏独立的模型评估,尤其是速度、成本与准确性的权衡。核心产品 Intelligence Index 提供95%置信区间的独立评估,重点关注 agentic 能力、长上下文推理及经济价值用例,还推出了 Critical Point 物理难题评估和开源 agent 框架 Stirrup。公司发现模型智能与幻觉率无显著关联。近年智能成本大幅下降,GPT-4 级别比发布时便宜约一千倍,但推理模型 token 消耗也显著增加。