中国GPU云,正在走向全栈竞争

中国自研GPU云正在换挡。

文|赵艳秋 周享玥

编|牛慧

1月4日,国际咨询机构沙利文发布《2025 年中国 GPU 云市场研究报告》。报告显示,在中国自研GPU云市场中,百度智能云以40.4%的市场份额位居第一。几乎同一时间,多家媒体披露,百度旗下芯片公司昆仑芯已向港交所主板提交上市申请。昆仑芯于2011年组建团队,经历“十余年磨一剑”,成为这一轮AI云竞争中的关键变量。

过去一年,“GPU云”频繁出现在产业与资本讨论中,但对不少用户而言,这个概念仍略显模糊。简单来说,GPU云构成了当前AI云最核心的算力底座,随着AI走向规模化落地,云计算竞争焦点已从以CPU为核心的通用计算,转向以GPU为核心的AI基础设施,它决定了大模型能否被高效训练、推理和规模化部署。

沙利文在报告中对“中国GPU云”给出三个明确界定条件:厂商需同时具备自研AI加速芯片能力、自主建设并管理大规模AIDC集群的能力,以及通过公有云、专有云或混合云形式,对外提供端到端AI算力服务的能力。在这一标准下,尽管国产AI算力参与者众多,但真正具备从芯片、集群到云服务完整闭环能力的厂商仍然稀缺。百度智能云在该市场取得领先份额,也源于其将这一闭环能力持续落地到金融、能源、汽车等核心行业,并在真实业务场景中反复验证与迭代。

回看2025年,AI云市场一度陷入价格战与算力规模竞赛,甚至在机场广告位正面交锋,形成白热化局面。但随着AI落入千行百业,行业逐渐形成共识,AI云的终局,一定将从资源规模与价格博弈,下沉至芯片乃至全栈竞争,从而实现极致性价比,争夺更多客户。为此,海内外头部云厂商无一例外,都在加速向下整合,推动芯片、系统软件、调度平台与上层模型服务的深度协同。

沙利文同时指出,中国自研GPU云市场已迈入万卡级别,从“能用”进入“好用、可持续”的新阶段。不过,报告也指出,短期内,其商业化仍高度依赖政策与关键行业需求,尚未完全实现市场自驱。在高端GPU受限、国产方案生态成熟度仍待提升的背景下,中国GPU云并未选择单纯性能对标路线,而是聚焦自主可控、软硬一体与场景适配的发展路径,市场也将向具备全栈能力和长期投入能力的头部厂商集中。

01

算力:从卷资源和价格走向卷系统工程

2025年,中国市场算力结构发生巨大转变。背后是产业应对多重危机的结果。其中,中美科技竞争直接冲击全球GPU供应链稳定性,国内企业面临算力紧缺、成本飙升的双重压力。根据IDC最新数据,2025年AI服务器出货量仅增长16.8%,销售额却激增近90%,先进算力获取成本大幅攀升。沙利文报告更举例,用特供芯片H20完成同等规模AI训练,相较H100需增加40%-60%的计算时间和35%以上的电力成本,企业运营支出陡增。与此同时,AI工作负载本身呈现的新特征,也进一步放大了对算力调度和系统稳定性的要求。

在这样的现实挑战下,2025年头部云厂商已将自研GPU的采购比例提升至30%–40%区间,自研算力从战略备选,转变为AI云核心支柱。更重要的是,这一轮自研围绕推理、视频编解码、大数据分析等进行深度定制,并通过从芯片到系统软件、再到上层框架的全栈优化,在真实业务中实现了比通用GPU更显著的性价比。

中国自研GPU云的技术路径和格局也逐步清晰:百度形成“昆仑芯+百舸AI异构算力平台+飞桨(PaddlePaddle)框架”的组合;华为云构建了“昇腾芯片+CANN+MindSpore”的软硬协同体系;阿里云则以“神龙计算架构+飞天操作系统+PAI 平台”推进全栈整合。沙利文预计,到2026年,具备完整全栈能力的厂商将占据60%以上的高端市场,并在自动驾驶、生物制药、科学计算等新兴领域形成显著优势。

在这轮演进中,百度智能云的市场进展,与其在AI基础设施上长期和系统布局相关。百度集团执行副总裁、百度智能云事业群总裁沈抖透露,昆仑芯经历了“十余年磨一剑”的过程。2025年上半年,昆仑芯P800的3.2 万卡集群正式点亮,成为国产算力重要里程碑。沈抖透露,百度目前绝大多数推理任务已运行在P800集群之上,并基于其构建了5000卡单一集群,训练完成一个多模态模型,目前训练集群规模已扩展至万卡以上。

今年11月,百度还发布了“五年五芯”技术路线图,涉及针对大规模推理场景优化的昆仑芯M100、针对超大规模多模态大模型训练和推理优化的昆仑芯M300、全新一代P800超节点天池256、天池512,以及基于昆仑芯M系列的千卡、四千卡超节点。

芯片是AI基础设施的关键一环,而算力如何被组织和调度则是云厂商的核心能力。百度通过百舸算力管理平台,将昆仑芯、GPU、存储与网络整合为统一的算力系统,目前已支撑3.2万卡自研集群的稳定运行,并正向百万卡级调度能力演进——按照官方路线图,目标是在2030年点亮百万卡昆仑芯单集群。在大模型训练与推理场景下,百舸通过“解耦、自适应、智能调度”三大机制,实现异构算力的动态优化分配,在万卡单任务中训练有效运行时间超过98%;同时引入智能故障自愈机制,将过去依赖人工的故障恢复压缩至分钟级。

在AI Infra之上,百度智能云进一步将能力延展至Agent Infra。当前模型已具备极高智力水平,但要在产业场景中发挥价值,还需要一套组织、调用的系统能力。通过千帆平台,百度提供文心大模型及150多个主流模型,提供数据服务、工具调用、模型定制能力,并提供数字员工、智能客服、多模态视觉平台等通用产品,与客户打造服务核心业务的企业级Agent。

这条路径也是各大自研GPU云厂商的共同选择,背后逻辑是AI云的竞争正走向软硬一体、系统能力的深水区。大厂都在加速跑通全栈能力、垂直优化,从而将AI云服务推入到千行万业的深处。

02

行业:AI从应用创新走向系统重构

2025年,中国自研GPU云的价值开始在关键行业中集中显现。金融、能源、交通、汽车、制造等行业落地AI,更强调长期可控、稳定交付、系统可靠与成本可预期。这使得通用GPU或单点云服务,难以支撑核心业务的规模化运行。自研GPU云通过全栈能力,成为支撑行业智能化升级的底座。随着大模型与智能体深入生产系统,这类能力已变为行业落地必选项。

央国企是2025年AI探索落地主力军,超65%的央企、全部系统重要性银行、95%的主流车企、50%以上的游戏厂商及主流具身智能企业,都选择百度智能云合作落地AI。

在运营商领域,三大运营商均加大算力投资,数智前线统计的超200个亿元级数据中心相关大单中,运营商占比近三成,推理算力建设提速、国产加速芯片普及成显著趋势。这一背景下,2025年8月,昆仑芯中标中国移动十亿级推理型通用计算设备集采订单,一度带动百度股价大涨。百度智能云还联合中国移动推出“一云三智”解决方案,支撑个人、家庭及政企数智化转型。

在金融行业,AI应用从零星试验迈向规模化部署,全球近半数金融机构已启动大模型、智能体应用建设,如工商银行上线1000多个智能体。IDC报告显示,百度智能云以12.2%的份额位居2024年中国金融行业生成式AI市场第一。算力上,招商银行基于昆仑芯P800、32台服务器即完成千亿参数模型训练。应用端,行业已形成员工与客户双主线。银河证券与百度智能云打造“场外交易Agent”,客户从询价到下单转化率提升3倍;泰康与其合作打造培训助手,持证上岗培训时间缩短一半。更核心的风控领域,中信百信银行智能风控,特征挖掘效率提升100%,风控模型风险区分度提升2.41%。

汽车是拥抱AI最积极的行业之一。Omdia报告显示,2025年上半年,23家中国500强整车企业平均每家使用3.8个供应商服务。其中,百度智能云已渗透至19家头部车企,市场覆盖率达83.7%,成为车企首选。场景上,代码和智能座舱落地最快。如蔚来近400名员工用代码智能体提效,AI代码占比超30%;自动驾驶已演进至VLA范式,需实现视觉、语言、动作三模态对齐,参数量达百亿至千亿级,百舸平台、一站式测评工具链等赋能研发落地。更广泛场景中,头部车企已形成体系化布局,如吉利汽车搭建AIOS体系,基于百度昆仑芯与智能体工具,员工已开发超3000多个个人Agent。

具身智能被视为堪比手机、汽车的下一个战略性关键市场。2025年全行业机器人本体与灵巧手单品出货量预计均首次超过万台。百度智能云自2023年下半年入局,围绕具身大小脑、数据和本体研发,已支持具身智能“国家队”及产业链上超20家重点企业。模型层面,百舸平台已成为国内首家全面适配RDT、π0和GR00T N1.5三大主流VLA模型的云服务平台,使北京人形机器人创新中心具身模型研发效率提升约2倍。数据层面,与多家企业共创真机与仿真数据采集方案。场景落地方面,正与企业合作迁移复用智驾时期的超低延时遥操方案,降低商业化门槛。

能源电力领域,头部企业正积极拥抱行业大模型。百度智能云联合国家电网打造光明电力大模型,已覆盖百余个应用场景,减少40%巡检中人工登塔;它也支持南网电力大模型研发,助其2025年建成算力新集群,而合作开发的“配电网监视Agent”能在1分钟内完成告警分析并通知站点。

此外,在出行领域,数字员工“东东”已上线中国东方航空App,覆盖订票、值机等核心流程。

而针对如工业中的排产调度、资源分配、路径规划等“硬骨头”场景,百度还推出了全球首个可商用自演进超级智能体“伐谋”,快速寻找全局最优解,自2025年11月发布以来,已有超数千家企业申请试用,在汽车研发领域将独立汽车设计科技公司阿尔特的单次风阻验证时间从10小时缩至1分钟;在科研领域,助力北京工业大学将PEM电解槽制氢系统的新模型科研探索周期从周级缩至小时级。

在千行百业落地AI的进程中,中国自研GPU云开始发挥越来越关键的支撑,而全栈能力成为行业智能化快速演进的基础条件。2026年,云厂商之间的竞争进入全栈的深度较量阶段。谁能跑通和持续优化芯片、系统与行业场景闭环,谁就更有可能在下一阶段的AI云竞争中,占据主动权。

特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)

标签: 人工智能
中国GPU云,正在走向全栈竞争
扫描二维码查看原文
分享自DoNews
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1