5月8日,阶跃星辰首席执行官姜大昕在北京的一场媒体沟通会上表示,在多模态领域,任何短板都会延缓通向通用人工智能(AGI)的进程。过去一年中,他多次强调:多模态是实现AGI的必经之路。
作为六小龙之一,阶跃星辰以低调著称,过去两年未参与应用投流热潮,仅在To C领域进行试水。公司专注于多模态技术探索,已发布22款自研基座模型,其中16款为多模态模型,占比超过70%,被称为行业内的“多模态卷王”。
然而,多模态的发展仍处于早期阶段,与语言模型技术路线相对收敛不同,多模态尚需更多探索。姜大昕指出,Sora虽震撼全球,但其生成能力并未充分结合理解功能,而阶跃所押注的“理解+生成一体”的原生多模方向,可能还处于类似GPT 1.0之前的阶段。
阶跃的技术路线选择了一条高难度路径:确保同一模型既能完成理解任务,又能实现生成目标,且不损失单个模态性能。这一策略旨在解决多模态融合过程中可能出现的降智问题。
2025年,随着GPT-4oimage和DeepSeek等模型的发布,多模态重回全球关注焦点。同时,推理模型的进步为多模态技术提供了重要支持。在此背景下,阶跃也在重点布局Agent领域,与Oppo、吉利汽车集团、千里科技等企业合作,将Agent应用于汽车、手机、具身智能及IoT等关键场景。
当前,大厂凭借存量优势可从容调整方向,而初创企业则面临更为紧迫的选择。部分大模型初创公司或裁撤团队,或将重心重新放回语言模型。对此,姜大昕认为,探索更前沿、未知的领域可能是现阶段更重要的事情。
阶跃内部已组织起多个技术路线团队,追求并发式突破。姜大昕透露,未来公司将持续推动多模态领域的创新,并对当下行业趋势给出关键判断。
首先,多模态任何一个方面的短板都会延缓AGI的实现进程。其次,从技术发展来看,行业正遵循模拟世界—探索世界—归纳世界的进化路线,从单模态到多模态,再到理解生成一体化及强化学习的应用。
多模态对AGI的重要性体现在两方面:一是对标人类智能的多元化特性,二是满足实际应用场景需求,如听、看、说等功能结合,提升用户交互体验。
在具体技术层面,多模态下一步发展趋势包括:一是在预训练基础模型上加入强化学习,激发长思维链推理能力;二是推进多模理解生成一体化,特别是在视觉领域。姜大昕举例说明,生成内容需要理解来控制,而理解则需要生成监督,二者相辅相成。
关于视觉领域的灵魂拷问——能否用一个模型预测下一个画面,目前仍未解决,主要原因在于视觉模态的复杂度远高于语言模态。尽管如此,阶跃相信视觉领域也可以沿袭语言模型的技术路线,最终实现scalable架构下的理解生成一体化。
此外,姜大昕提到DeepSeek的成功经验表明,传统投流逻辑在AI时代可能不再适用,产品增长需重新思考模式。他认为,模型突破往往早于商业化,而多模态理解生成一体化将是迈向人形机器人泛化的重要一步。
展望未来,阶跃将产品名称“跃问”更名为“阶跃 AI”,象征从类ChatGPT产品向Agent能力的转变。公司坚持基础大模型研发,同时深化与行业头部企业的合作,专注于智能终端Agent的应用开发,覆盖手机、汽车及机器人等领域。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。