独立基准 | AI 产品洞察与技术趋势 Feeds

Artificial Analysis 是由 George Cameron 和 Micah-Hill Smith 创立的独立 LLM 评估服务于2024年1月上线，目前团队约20人，提供免费网站数据帮助开发者选择模型，同时为企业提供私有基准测试。创始动机源于2023年发现缺乏独立的模型评估，尤其是速度、成本与准确性的权衡。核心产品 Intelligence Index 提供95%置信区间的独立评估，重点关注 agentic 能力、长上下文推理及经济价值用例，还推出了 Critical Point 物理难题评估和开源 agent 框架 Stirrup。公司发现模型智能与幻觉率无显著关联。近年智能成本大幅下降，GPT-4 级别比发布时便宜约一千倍，但推理模型 token 消耗也显著增加。