OpenAI总裁:GPT-5转向强化学习范式,AGI需现实反馈与大规模计算

OpenAI总裁Greg Brockman在最新访谈中详细阐述了AGI的发展路径,包括技术范式转变、资源策略与落地规划。

在技术层面,GPT-5标志着一次重大范式转变,从传统的文本生成转向强化学习的推理范式,通过在现实世界中试错并获取反馈来提升模型可靠性。

GPT-4虽然具备上下文对话能力,但存在可靠性不足的问题,因此OpenAI从其完成后便开始探索新的推理方式。

GPT-5的训练方法结合了监督学习与强化学习,模型在推理过程中不断生成数据并重复训练,将现实观测反馈纳入模型优化。

这种新范式减少了所需数据规模,传统预训练可能需要数十万个示例,而强化学习仅需从10至100个任务中学习复杂行为。

模型现实交互能力的增强被视为下一代AGI的关键组成部分。

在资源策略方面,Brockman指出AGI的主要瓶颈在于计算能力。

他认为,只要有足够的计算资源,OpenAI总能找到提升模型性能的方法,计算量决定了AI研究和发展的深度与速度。

以Dota项目为例,OpenAI通过增加内核数量突破了PPO算法的扩展瓶颈。

GPT-5的强化学习方式虽然提升了样本效率,但仍需数万次尝试才能掌握一项任务,这需要大量计算支撑。

图灵提出的“超临界学习”概念要求模型深入思考其二阶、三阶效应,并更新整个知识体系,这也依赖于更强大的计算能力。

Brockman将计算比作基本燃料,可以转化为模型权重中的势能,推动模型执行有效操作。

一旦模型训练完成,便可被重复利用,分摊计算成本。

他预测,最终的AGI将是一个模型管理器,结合本地小模型与云推理器,实现自适应计算。

GPT-5的多模型混合与路由机制是这一构想的初步实现,推理模型用于深度智能场景,非推理模型用于快速响应。

这种复合模型结构充分利用了计算的灵活性,可根据任务需求组合不同能力与成本的模型,也是AGI最可能的呈现方式。

在落地层面,Brockman强调模型必须成为现实生产线的一部分,而非停留在论文与演示阶段。

AGI的目标是让大模型在企业和个人工作流中长期驻留,具体路径是通过Agent封装模型能力,使其成为可审计的服务进程。

这种交互方式类似于与资深同事协作,关键在于可控性——可以随时暂停检查,任何一步都可回滚。

为确保高权限Agent的可控性,OpenAI设计了双层结构的“纵深防御”机制。

模型内部,system、developer、user三种指令按可信度排序,使“忽略此前所有指令”等注入攻击在第一关即被丢弃。

模型外部,每个潜在高危操作被拆解为最小粒度,通过多级沙箱逐一确认。

Brockman类比数据库安全机制,指出必须在底层堵住漏洞,再叠加护栏,系统才能稳固。

安全防护之外,模型与社会偏好的价值对齐同样重要。

工程团队通过后训练去除不受欢迎的“人格”类型,剩余“人格”进入公开竞技场接受实时评分,表现优异的策略被放大,表现差的被削弱,从而实现模型与社会偏好的协同进化。

这一流程不仅保障模型能力升级不偏离人类共识,也为未来引入在线学习奠定了数据基础。

此外,OpenAI将轻量级开源作为第二驱动力。

Brockman认为,当开发者在模型基础上沉淀工具链,实际上默认采纳了OpenAI的技术栈。

他指出,真正值得投入的机会不在于打造更炫的“模型包装器”,而是将现有智能深植于具体行业的实际流程之中。

每个行业链条都极为庞大,将模型接入现实应用极具价值,各领域仍存在大量尚未开发的机会。

他建议开发者与创业者沉入行业一线,理解利益相关者、法规与现有系统的细节,用AI填补真正的缺口,而非仅做接口封装。

在展望未来时,Brockman认为,技术加速度将使二十年后几乎所有科幻设想都具备可行性,唯一硬约束是物质搬运的物理极限。

计算资源将成为稀缺资产,即便物质需求被自动化满足,人们仍会为更高分辨率、更长思考时间与更复杂的个性化体验而争夺算力。

他设想2045年的世界应是多星际生活与真正丰裕社会。

若能穿越回18岁,他想告诉年轻的自己,值得攻克的问题只会越来越多,而不会减少。

他坦言,曾以为错过了硅谷的黄金年代,但事实是,现在正是技术发展的最好时机。

在AI深度渗透各行业的背景下,机遇不仅未被耗尽,反而随技术曲线陡升而倍增。

真正的挑战在于保持好奇心,敢于投入新领域。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1