中国AI算力的突围,昇腾生态的“破”与“立”

文|白   鸽 

编|王一粟

“如果 DeepSeek 先在华为平台上发布,那对我们来说将是灾难性的。”4 月 15 日,英伟达 CEO 黄仁勋在接受 Dwarkesh Patel 的播客专访时,说了一句分量很重的话。

而现在,黄仁勋口中的灾难正逐渐演变成为现实。

4 月 24 日,DeepSeek V4 预览版正式发布并开源,Pro 版 1.6 万亿总参数、百万 token 上下文,在 Agent、数学推理、世界知识等维度登顶开源模型第一梯队。

几乎同一时间,华为也正式宣布,昇腾 950、A3 系列超节点同步完成 DeepSeek V4 全版本“发布即适配”与全链路优化。

显然,这不是一次普通的模型发布与芯片适配,而是中国大模型 + 中国算力的历史性会师。

更关键的是,在 DeepSeek V4 的技术报告中,首次将昇腾 NPU 与英伟达 GPU 并列写入硬件验证清单,明确细粒度 EP(专家并行)方案在两大平台均完成验证。

这是 DeepSeek 历史上首次将中国 AI 芯片与英伟达 GPU 并列写入硬件验证清单,确立对等地位。这也意味着,中国算力不再是海外生态的补充选项,而是与全球顶级硬件平起平坐的核心选择。

显然,当全球 AI 算力长期被英伟达 CUDA 生态垄断、大模型训练与推理高度依赖海外硬件时,一个被无数人期待的“中国版 AI 算力生态”正在悄然成型。

那么,中国 AI 算力生态,究竟是如何掀了英伟达那张坐了十几年的“桌子”?

中国 AI 算力,不做 CUDA 仿制品

“一卡难求,包括我自己,我们虽然生产卡,但是我想用卡也很难。”华为昇腾专家在此前媒体沟通会上表示,如此坦诚得令人意外。

这份坦诚,其实也揭示了昇腾乃至整个中国 AI 算力产业曾经面临的真实困境:拥有算力硬件,并不等于拥有生态,即便如华为,在自家生态的建设初期,也同样面临“有卡难用”的窘境。

时间拉回 2018 年,昇腾自己的 AI 框架 CANN 初生。

用华为昇腾专家的话说,那时的昇腾深知自己的硬件和软件“是不完美的”。

而早期的 AI 竞争主要聚焦在框架层面,大家都在讨论哪种框架更好用。但后来,所有人都意识到,真正的生态护城河是 CUDA,而 CUDA 的背后,是英伟达的 GPU。

因此,华为逐渐看清:“根本的根本其实还是芯片,因为英伟达的生态其实是构建在 GPU 上,CUDA 是使能 GPU,CANN 是使能 NPU 的。”

在不断的探索与妥协中前行多年后,昇腾在 2025 年做出了一个“痛下决心”的决定:必须从根本上解决生态问题。

当然,这个决心,也并非凭空而来,是市场的一次次“救援”与“警醒”,推动了这场变革。

ChatGPT 的浪潮、DeepSeek 的崛起、以及“龙虾”(OpenClaw)引爆的 Agent 热潮,每一次 AI 的范式革新,都让昇腾看到自身在架构灵活性、算力配比、编程方式上的不足。

例如,为应对 Agent 带来的 Token 算力爆发,昇腾“无论如何拼尽全力把 FP8、FP4 提前弄出来”,因为新的低精度格式能为客户带来翻倍的算力价值。

决心易下,但道路难行。想要构建一个能与 CUDA 生态竞争的全新体系,无异于在高速行驶的汽车上更换发动机。

彼时,面对英伟达 CUDA 构筑的深厚护城河,业界曾有过“仿制”的声音——做一个 CUDA 的“复制品”似乎是一条捷径。

但华为昇腾专家明确否定了这条路:“如果仿一个 CUDA,做出来的其实就是 CUDA 2 号。一旦出现危机时刻,我们可能什么都不能用了。”

于是,一场痛定思痛的自我革命开始了。

华为决定坚持走自己的路,把底层的虚拟指令集、编译器、运行时能力全部掌握在自己手里。这就像在别人的地基上盖房子,永远不如自己打地基来得稳固。

软硬一体全面革新,用开源开放重构地基

想要掀翻英伟达的桌子,光有决心是不够的,毕竟英伟达早已经构筑了从硬件 GPU 到软件 CUDA 生态的全栈式核心竞争力。

因此,中国 AI 算力想要突围,就需要既有能打的硬件产品,还要有与之媲美的软件生态。

硬件层面,就不得不提到昇腾最新的产品——Ascend 950。

当前,随着 DeepSeek V4 大模型、OpenClaw 等 Agent 智能体的爆发,对算力提出了更极致的要求:更低的精度(FP8/FP4)、更强的长序列处理能力、以及对 Token 推理的极致优化。

此背景下,昇腾在硬件层面也进行了大刀阔斧的改革,尤其是在昇腾 950 芯片上。

一方面,增加对 SIMT 编程支持,即针对 950 芯片,昇腾新增了 SIMT(单指令多线程)编程支持,细化了 Cache Line 粒度。

这一改变直接提升了可编程性和性能表现,解决了以往编程灵活性不足的问题。

另外,昇腾 950 还全面支持 mxFP4/mxFP8 低精度数据格式,这不仅是为了适配大模型特征,更是为了在同等算力下实现 Token 吞吐量的翻倍,直接提升客户的性价比。

硬件层面大刀阔斧的改革,也就使得,昇腾在特定场景(如多模态生成、推荐)上已展现出性能优势,甚至达到"2 倍、3 倍”于业界水平。

这对于客户来说,就是真金白银的性价比。而这无疑也给昇腾芯片的市场带来惊人的回报。

华为昇腾专家分享了两个生动的案例:

一是客户测试最新的昇腾 950 后,“测了不到一个礼拜说可以了,可以下单了”。

二是一些此前因顾忌国际压力而犹豫的客户,现在“主动联系我们”,“跑到深圳找我们签单”。客户的评价最直接:“转了一圈发现还是你们最好。”

如果说 950 芯片是昇腾的“心脏”,CANN 就是昇腾的“灵魂”。

据了解,在软件层面,CANN(异构计算架构)也经历了“脱胎换骨”的改造,昇腾选择了一条最艰难,但也最彻底的路,即重构 CANN 架构,全面开源开放。

开源开放到底开的是什么?“其实没有那么复杂,就是把我们这一套系列原来像麻花团一样团在一起的东西,一块一块结构化的拆开。每一块的能力对外都方便的让人看的到,能编程的时候能调用的到,并且代码开源。”华为昇腾专家的这段话,道出了本质。

过去的 CANN 可能是一个高效但封闭的黑盒,而现在,他们要将其变成一个透明、可插拔、可参与的乐高积木。这项工作“不亚于把软件重写一遍”,华为昇腾专家透露,团队原本计划用一年半时间完成的架构解耦,最终在“华为式”的压强投入下,仅用 4 个月便宣告完成。

在具体的重构策略上,是在底层虚拟指令集等核心层坚持自研,确保自主根基;在上层编程接口(如 Triton 等)全力兼容主流开发习惯,降低开发者迁移门槛。

用华为昇腾专家的话说,是“坚持走自己的路”,同时“尊重业界的开发使用习惯”。

但生态建设不是自说自话。因此,昇腾选择了主动融入全球主流开源社区,目前昇腾已与 Triton、PyTorch、vLLM 等 90 多个主流 AI 开源社区实现深度对接。

这个过程极为不易,华为昇腾专家分享了一个细节:为了让 Triton 社区(来自 OpenAI)原生支持昇腾,团队曾从早晨 8 点谈到晚上 10 点多,用技术语言说服对方。

最终,昇腾成为了“国内首个 Triton 原生认证的后端”,并推动这些社区在发布版本前,将昇腾硬件纳入其 CI(持续集成)测试体系。这意味着,昇腾从“外部插件”变成了“内部原生支持”。

如果说芯片是肌肉,CANN 就是神经系统。现如今,华为把 CANN 进行了分层解耦,像搭积木一样让开发者可以灵活调用。更重要的是,它开始全面兼容业界主流的开发习惯。

繁荣生态,从“独角戏”到“大合唱”

技术再先进,如果开发者用不起来,生态就是空中楼阁,“只有让开发者把昇腾用得更顺、想得更远、跑得更快,生态才能真正繁荣。”

为此,昇腾打出了一套“组合拳”,主要解决开发者“一卡难求”和“迁移成本高”的痛点。

为了降低门槛,昇腾决定向社区提供全年 4000 张卡的免费算力资源,其中超过一半是最新的昇腾 950,开发环境拉起时间从 90 分钟缩短至 5 分钟以内。同时,无论是个人开发者还是高校学生,都可以在 AtomGit 社区上免费使用算力,实现“边开发、边验证、边落地”。

除了算力,昇腾还设立了 2000 万元的专项激励基金,专门面向个人开发者、高校学生等群体。无论是算子开发、框架适配、模型迁移还是创新应用,只要对生态有贡献,就有机会获得激励。

华为昇腾专家直言:“如果 2000 万花完了我再追加,今年一定要把这个钱做下去。”这种“撒钱”式的投入,本质上是对开发者时间的尊重和对生态繁荣的渴望。

截至目前,开源 4 个多月后,昇腾 CANN 在 AtomGit 上的仓库从 20 多个增长到 40 多个,加上外部伙伴的项目,总计达 70 多个。

更可喜的是,出现了“自己的 CANN"——一些企业和高校基于开源版本,开发了满足自身特定需求的分支。例如,中石油、南方电网等传统行业客户,自发基于昇腾开源软件进行开发适配。

华为昇腾专家对此乐见其成:“开源取得了我们不知道的、从来没有想过的效果。”

另外,面对海量的模型适配、算子开发需求,人力终有穷尽。

为此,昇腾推出了全套的 Agent 工具链。例如,一个集成了华为经验的“模型工程全流程 Agent",能在 1 分钟内找到模型,1 小时内验证,1 天内完成在昇腾上的部署。团队甚至将优化、调优的"Skills"开源,让其他 Agent 也能调用,目标是将 AI 开发从“专家手艺”变成“全民工程”。

事实上,昇腾生态的崛起,其意义远超过一个商业产品的成功。它回答了一个关键问题:在 AI 算力底座领域,中国除了追赶,能否走出一条不同的、可持续的道路?

显然,在 DeepSeek V4 发布的当下,AI 算力竞争已进入深水区。昇腾生态的全面革新,不仅仅是一次产品的升级,更是一次生态哲学的胜利。

它证明了中国 AI 算力底座不需要做谁的“影子”,通过“底层做厚、体验做轻”,通过“全面开源、全面兼容”,完全有能力构建起一个繁荣、自主、开放的 AI 世界。

回到文章开头的那个问题,昇腾和 DeepSeek 联手,真的掀了英伟达的桌子吗?

从某种意义上说,他们已经把桌子掀翻了,他们打破了“除了英伟达别无选择”的垄断局面,为中国 AI 产业构建了一个安全、可靠、高性能的新选择。

当然,这场比拼还远未结束,英伟达依然强大,生态的建设也不是一朝一夕之功。

但至少在 2026 年的今天,我们看到了一个充满希望的未来。

特别声明:本文为合作媒体授权 DoNews 专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表 DoNews 专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)

标签: 华为
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1