奥特曼拉响红色警报：大模型陷入性能瓶颈- DoNews

OpenAI CEO奥特曼宣布公司进入“Code Red”紧急状态，应对行业普遍面临的性能提升放缓与训练成本飙升困境。

根据斯坦福大学《2025年AI指数报告》，2019至2022年间每增加10倍训练成本，模型性能平均提升25%-35%；而2023年后同样投入仅带来10%-15%的提升，2024年以来甚至不足5%。

头部模型在主流基准测试中的表现趋于收敛。LMSYS Chatbot Arena数据显示，2024年6月排名第一与第十模型Elo评分差距超150分，到2025年11月已收窄至不足50分。

MMLU-Pro评测中，2025年9月所有头部模型得分集中在85%到90%之间，差异极小。GPT-5相较GPT-4的MMLU评分提升仅10%-20%，但训练成本据估比GPT-4高出20-30倍。

谷歌Gemini 3在基准测试上超越OpenAI，其月活用户从7月的4.5亿增长至10月的6.5亿。Anthropic的Claude周访问量达0.41亿人次，较六周前增长17.1%。

SemiAnalysis披露，自2024年5月GPT-4o发布以来，OpenAI未再完成一次大规模全面预训练，GPT-5实为基于GPT-4o的优化版本。SemiAnalysis指出，谷歌TPU平台已成功通过前沿模型预训练考验，而OpenAI尚未做到。

预训练是大模型研发中最关键且资源密集的环节，无法完成意味着难以实现代际跃迁。OpenAI因此将重心转向优化ChatGPT个性化功能、响应速度和可靠性，推迟广告、健康、购物AI代理及Pulse个人助手等项目开发。

此前OpenAI已于2025年10月启动“Code Orange”警报，调配超过50%研发资源成立应急优化小组应对竞争压力。内部警报分为黄、橙、红三级，红色代表最严重事态。

Meta的Llama模型从第二代到第三代间隔约9个月，Llama 3到Llama 4预计超15个月；Anthropic从Claude 3到Claude 4更新周期达11个月，显示行业整体迭代放缓。

Scaling Law失效的原因包括语言本身的不可约误差（贝叶斯误差率）以及高质量训练数据枯竭。当前互联网内容中AI生成文本比例上升，加剧模型崩溃风险。

Nature论文《当AI模型在递归生成的数据上训练时，会出现性能崩溃》表明，多代使用AI生成数据训练会导致模型多样性下降、错误放大、尾部信息丢失，最终输出趋同单调。

学术界对此存在分歧。李飞飞认为未来AI应是“世界模型”，依赖视频、图像和传感器数据理解三维物理世界，而非仅靠文本统计模式。AlphaGeometry即为符号推理与神经网络结合的范例。

杨立昆批评当前路径为“给鹦鹉喂更大的芯片”，主张AI需建立对物体、空间、时间与因果关系的真实认知。他设想语言模型作为“翻译官”，将自然语言需求转译为指令交由专用系统执行。

奥特曼坚持规模假说，相信持续扩大模型规模可使智能“自动涌现”。伊尔亚·苏兹科维提出“压缩即理解”，认为无损压缩全球数据等同于构建真实世界模型。

Anthropic联合创始人杰拉德·卡普兰认为语言模型虽非智能本身，但仍可成为通向AGI的基础。MIT学者则强调语言非思维工具，人类思维独立于语言存在，婴儿与残障者案例证明认知先于语言。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。