OpenAI的o3人工智能模型近期因第一方与第三方基准测试结果的显著差异,遭到外界对其透明度和测试实践的质疑。去年12月,OpenAI声称o3模型在FrontierMath数学问题集上正确率超过25%,远超竞争对手。然而,独立机构Epoch的测试显示,公开版本的o3模型得分仅为约10%。这一差距可能源于测试设置不同、计算资源差异或问题集版本更新。
尽管如此,OpenAI此前公布的测试结果中也包含较低分数,表明其并未刻意误导。此外,后续推出的o3-mini-high和o4-mini模型表现更优,一定程度上缓解了争议。此事件提醒业界,需谨慎对待来自商业公司的基准测试结果,尤其是在行业竞争日益激烈的背景下。类似争议还发生在其他公司,如xAI和Meta,进一步凸显了标准化测试的重要性。