英伟达怒造CPU，黄老板葫芦里面卖的什么药？- DoNews专栏

4 月 12 日晚，英伟达 GTC 2021 大会继续在线上开始。这次，还是在自家厨房讲 Keynote 的黄老板没有从烤箱中搬出八块GPU，而是发布了名为Grace的CPU产品。

Grace 的名字来自于计算机科学家、世界最早一批的程序员，也是最早的女性程序员之一Grace Hopper。她创造了现代第一个编译器 A-0 系统，以及第一个高级商用计算机程序语言COBOL(现在银行系统仍然保留了一些COBOL开发的程序)。Debug一词是是她从电脑中驱除蛾子的启发而开始使用的。

英伟达的 Grace 芯片利用 Arm 架构的灵活性，是专为加速计算而设计的 CPU 和服务器架构，可用于训练具有超过 1 万亿参数的下一代深度学习预训练模型。在与英伟达的 GPU 结合使用时，整套系统可以提供相比当今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。

NVIDIA收购ARM的事情，目前没有在各国审批通过，成败还很难说，但是黄老板已经迫不及待的要造CPU了，黄老板一个显卡厂商，为何要造CPU，他意欲何为呢？

被英特尔束缚的黄老板

自从计算机出现以来，CPU一直是计算机的核心元件。早期CPU是和计算机一起卖的，造计算机的都能自己设计制造CPU。后来，行业开始分工，IBM制订PC标准，有了专门制造微处理器的厂商，英特尔横空出世，领导了PC时代。

需要指出的是，英特尔不仅仅是一个造CPU的厂商，为了配合它的CPU工作，还要有内存、芯片组、板卡、外围设备……，处理器是英特尔的，这些东西也要兼容英特尔。最后成了英特尔主导制订各种标准，其他配件都要围绕着英特尔的标准来制造。

我们用的板卡从ISA、PCI到今天的PCIE，都是英特尔联合其他厂商主导的，我们用的内存标准EDO、SD、DDR也是英特尔主导参与的。

NVIDIA进入PC市场以后，无论是AGP还是，PCIE都是听英特尔的。

后来GPU通用计算兴起，nVIDIA把显卡做成了并行计算机，AI兴起给了nVIDIA高性能计算市场。

但是，无论nVIDIA怎么蹦达，都跳不出英特尔手掌心，英特尔限制了PCIE的贷款，限制了内存带宽。

无论nVIDIA的GPU性能如何强大，访问主内存的通道就是那么窄。

而且英特尔还以BUG的名义，限制了PCIE点对点的通信速度。保证了电脑以英特尔的CPU为核心，你的计算能力再强，通道限制死了也快不了。

所以，黄老板对英特尔意见很大。

Grace 芯片的设计

NVIDIA Grace是一颗ARM芯片，用Arm的Neoverse CPU内核，这个内核应该在SPECrate2017_int_base中跑出突破300的分数，用5nm工艺，在2023年上市。

目前，AMD的CPU跑SPECrate2017_int_base最快，大约是225分到240分之间，苹果M1和英特尔的处理器，还要稍微低于AMD的分数。

就是说，NVIDIA Grace的核心比现在最快的处理器快20%-30%，在2023年应该属于顶级性能的处理器。

但是NVIDIA Grace最大的创新不在CPU性能上，而是在互联标准上。

NVIDIA Grace摆脱开了英特尔的标准，在互联总线上用的是nVIDIA自己的nvlink，CPU和GPU的带宽900GB/S，CPU之间的带宽超过600 GB/S。这个速度比英特尔的标准快几倍、几十倍。

在内存接口上，用最快的LPDDR5x内存，英伟达的目标是至少达到500GB/秒的内存带宽。

以前，GPU要访问主内存，要先通过GPU到CPU的通道访问CPU，CPU在通过内存控制器访问内存，这个通道最窄的瓶颈只有12GB/秒，而Grace可以达到500 GB/S.

这样，在单核性能达到顶级的同时，Grace方案在多核心性能上依靠互联速度和内存带宽的优势，可以形成性能压制。

除了片上互联，nVIDIA还搞了DPU，解决网络传输运算对CPU的占用，用单独的网络加速计算单元解决互联问题，这样nVIDIA可以把多个独立的计算单元高速互联起来，获得更强大的计算能力。

瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为“阿尔卑斯”的超级计算机，算力 20Exaflops(目前全球第一超算“富岳”的算力约为 0.537Exaflops)，将实现两天训练一次 GPT-3 模型的能力。

美国能源部下属的洛斯阿拉莫斯国家实验室也将在 2023 年推出一台基于 Grace 的超级计算机。

黄老板葫芦里面卖的什么药？

现在的GPU，实际上算带图形功能的并行计算机。计算AI这类并行任务，CPU反而只是个控制器。

其实，黄老板要砸英特尔的饭碗，不是一天两天了。早年，nVIDIA做过丹佛处理器，那个处理器其实内部是自己的一超长指令字的指令集，可以翻译ARM和X86，但是没多少人用。

后来，黄老板和IBM合作，IBM的Power9，就支持nvlink，绕开了英特尔的标准。但是IBM一看，我支持了nvlink，是帮助nVIDIA卖高性能的GPU，自己的CPU反而是边缘化地位，IBM也不干了。

而此时，ARM已经做到A76，IPC已经可以上桌面了。后续几代产品就会追赶上X86，同时linux对ARM的支持也越来也好，亚马逊已经开始大量部署ARM服务器来降低成本。

连苹果都转ARM了，微软也会更努力，可以预见ARM的生态会越来越好。

这个时候，nVIDIA用ARM摆脱英特尔的束缚，自己搞一套体系是可行的。

现在nVIDIA掌握AI计算大部分市场份额的时候，它是高性能AI计算的标准，这是话语权。苹果因为掌握桌面出版的份额，它能换好几次指令集。现在nVDIA也有这个地位了。

但是，nVIDIA的话语权并不稳。英特尔正在造显卡，试图抢回来AI计算的市场，AMD也在咄咄逼人。只有nVIDIA没有x86的CPU，那么赌一下ARM的生态是一条路。

这条路成了，那么nVIDIA硬件全部标准自己来，可以推动计算机技术先前进步。也能获取丰厚的独占利润。

失败了，X86的道路，nVIDIA也没放弃。大不了退回来是了。

其实，黄教主可以考虑一下普及的问题。搞小批量，不进民用的阳春白雪的东西利润固然高，但是东西一定贵。

而这类东西可以是做低端版本屏蔽，来降低成本的。大芯片太贵，可以用小芯片堆，小芯片还可以屏蔽，做成低端芯片，用到别的设备上。

譬如 Grace的用于高性能计算市场只需要10万片。Grace完全可以屏蔽了专业性能，把这个东西做成PC、游戏机、矿机来卖。良率低的情况下，8个CPU核心可以屏蔽两个，GPU单元可以屏蔽10%，当中端产品去卖……

批量上去了，成本就下来，利润率看似比只卖专业市场低一点，但是利润就上去了。

特别声明：本文为DoNews签约作者原创，文章版权归原作者及原出处所有。转载请联系DoNews专栏获取授权。(有任何疑问都请联系idonews@donews.com)