在通用人工智能(AGI)领域,核心问题之一是大语言模型能否学到“世界模型”,还是仅在进行“预测下一个词”的概率游戏。哈佛和MIT的研究团队通过轨道力学实验对此展开探索。
研究使用1000万个模拟太阳系坐标序列(共200亿token)训练一个1.09亿参数的Transformer模型,并测试多个先进大语言模型的表现。结果显示,尽管AI能精准预测行星轨迹,但其内部并未编码牛顿万有引力定律等物理规律。
模型依赖“特定情境的经验法则”进行预测,而非推导出可泛化的物理定律。预测轨迹虽接近真实,但其内部生成的受力向量杂乱无章,与实际力学原理无关。当测试场景更换为未训练过的太阳系或银河系样本时,模型无法稳定复现一致的“受力规则”,甚至在不同样本中产生完全不同的错误定律。
研究者指出,若AI真学到某种替代性世界模型,至少应在不同样本中保持“相同的错误”,但实验证明其错误模式不一致,表明其不具备构建稳定因果结构的能力。这一现象同样出现在晶格问题与黑白棋任务中:模型仅根据“下一个token可能性”对状态分类,而不理解底层机制。
研究人员强调,该结果并非否定LLM的应用价值。当前基础模型能在诸多任务中表现出色,但在需要深层推理与科学发现的场景中仍受限。即便大模型在训练中多次接触牛顿定律,也无法在推理中正确应用或还原。
研究对比了开普勒式经验归纳与牛顿式原理建构的区别,类比AI现状:现有模型停留在“开普勒阶段”,能拟合数据规律,却未能上升至“牛顿阶段”的统一解释框架。自动驾驶难以全球推广、LLM在常识推理上失败,均源于缺乏真正的世界模型。
面对此局限,一种思路是继续扩大模型规模,但研究认为单纯堆叠参数难以突破本质瓶颈。另一路径是结合“晶化智力”与“流动智力”,如Yann LeCun提出的JEPA框架,试图让AI具备经验迁移与因果建模能力。
该研究重申科学史上经典命题:科学的核心是预测精度,还是对“为什么”的理解?人类通过追问中间层次的因果关系——如行星轨道成因、物体下落原理——实现科学进步。AI若要参与真正科学发现,必须从“预测机器”进化为“解释系统”。未来方向在于探索新架构,使AI不仅能预测现象,更能提炼稳定、可迁移的因果规律。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



