中国AI算力的突围，昇腾生态的“破”与“立”- DoNews专栏

文｜白鸽

编｜王一粟

“如果 DeepSeek 先在华为平台上发布，那对我们来说将是灾难性的。”4 月 15 日，英伟达 CEO 黄仁勋在接受 Dwarkesh Patel 的播客专访时，说了一句分量很重的话。

而现在，黄仁勋口中的灾难正逐渐演变成为现实。

4 月 24 日，DeepSeek V4 预览版正式发布并开源，Pro 版 1.6 万亿总参数、百万 token 上下文，在 Agent、数学推理、世界知识等维度登顶开源模型第一梯队。

几乎同一时间，华为也正式宣布，昇腾 950、A3 系列超节点同步完成 DeepSeek V4 全版本“发布即适配”与全链路优化。

显然，这不是一次普通的模型发布与芯片适配，而是中国大模型 + 中国算力的历史性会师。

更关键的是，在 DeepSeek V4 的技术报告中，首次将昇腾 NPU 与英伟达 GPU 并列写入硬件验证清单，明确细粒度 EP（专家并行）方案在两大平台均完成验证。

这是 DeepSeek 历史上首次将中国 AI 芯片与英伟达 GPU 并列写入硬件验证清单，确立对等地位。这也意味着，中国算力不再是海外生态的补充选项，而是与全球顶级硬件平起平坐的核心选择。

显然，当全球 AI 算力长期被英伟达 CUDA 生态垄断、大模型训练与推理高度依赖海外硬件时，一个被无数人期待的“中国版 AI 算力生态”正在悄然成型。

那么，中国 AI 算力生态，究竟是如何掀了英伟达那张坐了十几年的“桌子”？

中国 AI 算力，不做 CUDA 仿制品

“一卡难求，包括我自己，我们虽然生产卡，但是我想用卡也很难。”华为昇腾专家在此前媒体沟通会上表示，如此坦诚得令人意外。

这份坦诚，其实也揭示了昇腾乃至整个中国 AI 算力产业曾经面临的真实困境：拥有算力硬件，并不等于拥有生态，即便如华为，在自家生态的建设初期，也同样面临“有卡难用”的窘境。

时间拉回 2018 年，昇腾自己的 AI 框架 CANN 初生。

用华为昇腾专家的话说，那时的昇腾深知自己的硬件和软件“是不完美的”。

而早期的 AI 竞争主要聚焦在框架层面，大家都在讨论哪种框架更好用。但后来，所有人都意识到，真正的生态护城河是 CUDA，而 CUDA 的背后，是英伟达的 GPU。

因此，华为逐渐看清：“根本的根本其实还是芯片，因为英伟达的生态其实是构建在 GPU 上，CUDA 是使能 GPU，CANN 是使能 NPU 的。”

在不断的探索与妥协中前行多年后，昇腾在 2025 年做出了一个“痛下决心”的决定：必须从根本上解决生态问题。

当然，这个决心，也并非凭空而来，是市场的一次次“救援”与“警醒”，推动了这场变革。

ChatGPT 的浪潮、DeepSeek 的崛起、以及“龙虾”（OpenClaw）引爆的 Agent 热潮，每一次 AI 的范式革新，都让昇腾看到自身在架构灵活性、算力配比、编程方式上的不足。

例如，为应对 Agent 带来的 Token 算力爆发，昇腾“无论如何拼尽全力把 FP8、FP4 提前弄出来”，因为新的低精度格式能为客户带来翻倍的算力价值。

决心易下，但道路难行。想要构建一个能与 CUDA 生态竞争的全新体系，无异于在高速行驶的汽车上更换发动机。

彼时，面对英伟达 CUDA 构筑的深厚护城河，业界曾有过“仿制”的声音——做一个 CUDA 的“复制品”似乎是一条捷径。

但华为昇腾专家明确否定了这条路：“如果仿一个 CUDA，做出来的其实就是 CUDA 2 号。一旦出现危机时刻，我们可能什么都不能用了。”

于是，一场痛定思痛的自我革命开始了。

华为决定坚持走自己的路，把底层的虚拟指令集、编译器、运行时能力全部掌握在自己手里。这就像在别人的地基上盖房子，永远不如自己打地基来得稳固。

软硬一体全面革新，用开源开放重构地基

想要掀翻英伟达的桌子，光有决心是不够的，毕竟英伟达早已经构筑了从硬件 GPU 到软件 CUDA 生态的全栈式核心竞争力。

因此，中国 AI 算力想要突围，就需要既有能打的硬件产品，还要有与之媲美的软件生态。

硬件层面，就不得不提到昇腾最新的产品——Ascend 950。

当前，随着 DeepSeek V4 大模型、OpenClaw 等 Agent 智能体的爆发，对算力提出了更极致的要求：更低的精度（FP8/FP4）、更强的长序列处理能力、以及对 Token 推理的极致优化。

此背景下，昇腾在硬件层面也进行了大刀阔斧的改革，尤其是在昇腾 950 芯片上。

一方面，增加对 SIMT 编程支持，即针对 950 芯片，昇腾新增了 SIMT（单指令多线程）编程支持，细化了 Cache Line 粒度。

这一改变直接提升了可编程性和性能表现，解决了以往编程灵活性不足的问题。

另外，昇腾 950 还全面支持 mxFP4/mxFP8 低精度数据格式，这不仅是为了适配大模型特征，更是为了在同等算力下实现 Token 吞吐量的翻倍，直接提升客户的性价比。

硬件层面大刀阔斧的改革，也就使得，昇腾在特定场景（如多模态生成、推荐）上已展现出性能优势，甚至达到"2 倍、3 倍”于业界水平。

这对于客户来说，就是真金白银的性价比。而这无疑也给昇腾芯片的市场带来惊人的回报。

华为昇腾专家分享了两个生动的案例：

一是客户测试最新的昇腾 950 后，“测了不到一个礼拜说可以了，可以下单了”。

二是一些此前因顾忌国际压力而犹豫的客户，现在“主动联系我们”，“跑到深圳找我们签单”。客户的评价最直接：“转了一圈发现还是你们最好。”

如果说 950 芯片是昇腾的“心脏”，CANN 就是昇腾的“灵魂”。

据了解，在软件层面，CANN（异构计算架构）也经历了“脱胎换骨”的改造，昇腾选择了一条最艰难，但也最彻底的路，即重构 CANN 架构，全面开源开放。

开源开放到底开的是什么？“其实没有那么复杂，就是把我们这一套系列原来像麻花团一样团在一起的东西，一块一块结构化的拆开。每一块的能力对外都方便的让人看的到，能编程的时候能调用的到，并且代码开源。”华为昇腾专家的这段话，道出了本质。

过去的 CANN 可能是一个高效但封闭的黑盒，而现在，他们要将其变成一个透明、可插拔、可参与的乐高积木。这项工作“不亚于把软件重写一遍”，华为昇腾专家透露，团队原本计划用一年半时间完成的架构解耦，最终在“华为式”的压强投入下，仅用 4 个月便宣告完成。

在具体的重构策略上，是在底层虚拟指令集等核心层坚持自研，确保自主根基；在上层编程接口（如 Triton 等）全力兼容主流开发习惯，降低开发者迁移门槛。

用华为昇腾专家的话说，是“坚持走自己的路”，同时“尊重业界的开发使用习惯”。

但生态建设不是自说自话。因此，昇腾选择了主动融入全球主流开源社区，目前昇腾已与 Triton、PyTorch、vLLM 等 90 多个主流 AI 开源社区实现深度对接。

这个过程极为不易，华为昇腾专家分享了一个细节：为了让 Triton 社区（来自 OpenAI）原生支持昇腾，团队曾从早晨 8 点谈到晚上 10 点多，用技术语言说服对方。

最终，昇腾成为了“国内首个 Triton 原生认证的后端”，并推动这些社区在发布版本前，将昇腾硬件纳入其 CI（持续集成）测试体系。这意味着，昇腾从“外部插件”变成了“内部原生支持”。

如果说芯片是肌肉，CANN 就是神经系统。现如今，华为把 CANN 进行了分层解耦，像搭积木一样让开发者可以灵活调用。更重要的是，它开始全面兼容业界主流的开发习惯。

繁荣生态，从“独角戏”到“大合唱”

技术再先进，如果开发者用不起来，生态就是空中楼阁，“只有让开发者把昇腾用得更顺、想得更远、跑得更快，生态才能真正繁荣。”

为此，昇腾打出了一套“组合拳”，主要解决开发者“一卡难求”和“迁移成本高”的痛点。

为了降低门槛，昇腾决定向社区提供全年 4000 张卡的免费算力资源，其中超过一半是最新的昇腾 950，开发环境拉起时间从 90 分钟缩短至 5 分钟以内。同时，无论是个人开发者还是高校学生，都可以在 AtomGit 社区上免费使用算力，实现“边开发、边验证、边落地”。

除了算力，昇腾还设立了 2000 万元的专项激励基金，专门面向个人开发者、高校学生等群体。无论是算子开发、框架适配、模型迁移还是创新应用，只要对生态有贡献，就有机会获得激励。

华为昇腾专家直言：“如果 2000 万花完了我再追加，今年一定要把这个钱做下去。”这种“撒钱”式的投入，本质上是对开发者时间的尊重和对生态繁荣的渴望。

截至目前，开源 4 个多月后，昇腾 CANN 在 AtomGit 上的仓库从 20 多个增长到 40 多个，加上外部伙伴的项目，总计达 70 多个。

更可喜的是，出现了“自己的 CANN"——一些企业和高校基于开源版本，开发了满足自身特定需求的分支。例如，中石油、南方电网等传统行业客户，自发基于昇腾开源软件进行开发适配。

华为昇腾专家对此乐见其成：“开源取得了我们不知道的、从来没有想过的效果。”

另外，面对海量的模型适配、算子开发需求，人力终有穷尽。

为此，昇腾推出了全套的 Agent 工具链。例如，一个集成了华为经验的“模型工程全流程 Agent"，能在 1 分钟内找到模型，1 小时内验证，1 天内完成在昇腾上的部署。团队甚至将优化、调优的"Skills"开源，让其他 Agent 也能调用，目标是将 AI 开发从“专家手艺”变成“全民工程”。

事实上，昇腾生态的崛起，其意义远超过一个商业产品的成功。它回答了一个关键问题：在 AI 算力底座领域，中国除了追赶，能否走出一条不同的、可持续的道路？

显然，在 DeepSeek V4 发布的当下，AI 算力竞争已进入深水区。昇腾生态的全面革新，不仅仅是一次产品的升级，更是一次生态哲学的胜利。

它证明了中国 AI 算力底座不需要做谁的“影子”，通过“底层做厚、体验做轻”，通过“全面开源、全面兼容”，完全有能力构建起一个繁荣、自主、开放的 AI 世界。

回到文章开头的那个问题，昇腾和 DeepSeek 联手，真的掀了英伟达的桌子吗？

从某种意义上说，他们已经把桌子掀翻了，他们打破了“除了英伟达别无选择”的垄断局面，为中国 AI 产业构建了一个安全、可靠、高性能的新选择。

当然，这场比拼还远未结束，英伟达依然强大，生态的建设也不是一朝一夕之功。

但至少在 2026 年的今天，我们看到了一个充满希望的未来。

特别声明：本文为合作媒体授权 DoNews 专栏转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表 DoNews 专栏的立场，转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)