奥特曼拉响红色警报:大模型陷入性能瓶颈

OpenAI CEO奥特曼宣布公司进入“Code Red”紧急状态,应对行业普遍面临的性能提升放缓与训练成本飙升困境。

根据斯坦福大学《2025年AI指数报告》,2019至2022年间每增加10倍训练成本,模型性能平均提升25%-35%;而2023年后同样投入仅带来10%-15%的提升,2024年以来甚至不足5%。

头部模型在主流基准测试中的表现趋于收敛。LMSYS Chatbot Arena数据显示,2024年6月排名第一与第十模型Elo评分差距超150分,到2025年11月已收窄至不足50分。

MMLU-Pro评测中,2025年9月所有头部模型得分集中在85%到90%之间,差异极小。GPT-5相较GPT-4的MMLU评分提升仅10%-20%,但训练成本据估比GPT-4高出20-30倍。

谷歌Gemini 3在基准测试上超越OpenAI,其月活用户从7月的4.5亿增长至10月的6.5亿。Anthropic的Claude周访问量达0.41亿人次,较六周前增长17.1%。

SemiAnalysis披露,自2024年5月GPT-4o发布以来,OpenAI未再完成一次大规模全面预训练,GPT-5实为基于GPT-4o的优化版本。SemiAnalysis指出,谷歌TPU平台已成功通过前沿模型预训练考验,而OpenAI尚未做到。

预训练是大模型研发中最关键且资源密集的环节,无法完成意味着难以实现代际跃迁。OpenAI因此将重心转向优化ChatGPT个性化功能、响应速度和可靠性,推迟广告、健康、购物AI代理及Pulse个人助手等项目开发。

此前OpenAI已于2025年10月启动“Code Orange”警报,调配超过50%研发资源成立应急优化小组应对竞争压力。内部警报分为黄、橙、红三级,红色代表最严重事态。

Meta的Llama模型从第二代到第三代间隔约9个月,Llama 3到Llama 4预计超15个月;Anthropic从Claude 3到Claude 4更新周期达11个月,显示行业整体迭代放缓。

Scaling Law失效的原因包括语言本身的不可约误差(贝叶斯误差率)以及高质量训练数据枯竭。当前互联网内容中AI生成文本比例上升,加剧模型崩溃风险。

Nature论文《当AI模型在递归生成的数据上训练时,会出现性能崩溃》表明,多代使用AI生成数据训练会导致模型多样性下降、错误放大、尾部信息丢失,最终输出趋同单调。

学术界对此存在分歧。李飞飞认为未来AI应是“世界模型”,依赖视频、图像和传感器数据理解三维物理世界,而非仅靠文本统计模式。AlphaGeometry即为符号推理与神经网络结合的范例。

杨立昆批评当前路径为“给鹦鹉喂更大的芯片”,主张AI需建立对物体、空间、时间与因果关系的真实认知。他设想语言模型作为“翻译官”,将自然语言需求转译为指令交由专用系统执行。

奥特曼坚持规模假说,相信持续扩大模型规模可使智能“自动涌现”。伊尔亚·苏兹科维提出“压缩即理解”,认为无损压缩全球数据等同于构建真实世界模型。

Anthropic联合创始人杰拉德·卡普兰认为语言模型虽非智能本身,但仍可成为通向AGI的基础。MIT学者则强调语言非思维工具,人类思维独立于语言存在,婴儿与残障者案例证明认知先于语言。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1