DoNews > 专栏 > 英伟达怒造CPU,黄老板葫芦里面卖的什么药?
英伟达怒造CPU,黄老板葫芦里面卖的什么药?

英伟达.jpg

4 月 12 日晚,英伟达 GTC 2021 大会继续在线上开始。这次,还是在自家厨房讲 Keynote 的黄老板没有从烤箱中搬出八块GPU,而是发布了名为Grace的CPU产品。

Grace 的名字来自于计算机科学家、世界最早一批的程序员,也是最早的女性程序员之一Grace Hopper。她创造了现代第一个编译器 A-0 系统,以及第一个高级商用计算机程序语言COBOL(现在银行系统仍然保留了一些COBOL开发的程序)。Debug一词是是她从电脑中驱除蛾子的启发而开始使用的。

英伟达的 Grace 芯片利用 Arm 架构的灵活性,是专为加速计算而设计的 CPU 和服务器架构,可用于训练具有超过 1 万亿参数的下一代深度学习预训练模型。在与英伟达的 GPU 结合使用时,整套系统可以提供相比当今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。

NVIDIA收购ARM的事情,目前没有在各国审批通过,成败还很难说,但是黄老板已经迫不及待的要造CPU了,黄老板一个显卡厂商,为何要造CPU,他意欲何为呢?

被英特尔束缚的黄老板

自从计算机出现以来,CPU一直是计算机的核心元件。早期CPU是和计算机一起卖的,造计算机的都能自己设计制造CPU。后来,行业开始分工,IBM制订PC标准,有了专门制造微处理器的厂商,英特尔横空出世,领导了PC时代。

需要指出的是,英特尔不仅仅是一个造CPU的厂商,为了配合它的CPU工作,还要有内存、芯片组、板卡、外围设备……,处理器是英特尔的,这些东西也要兼容英特尔。最后成了英特尔主导制订各种标准,其他配件都要围绕着英特尔的标准来制造。

我们用的板卡从ISA、PCI到今天的PCIE,都是英特尔联合其他厂商主导的,我们用的内存标准EDO、SD、DDR也是英特尔主导参与的。

NVIDIA进入PC市场以后,无论是AGP还是,PCIE都是听英特尔的。

后来GPU通用计算兴起,nVIDIA把显卡做成了并行计算机,AI兴起给了nVIDIA高性能计算市场。

但是,无论nVIDIA怎么蹦达,都跳不出英特尔手掌心,英特尔限制了PCIE的贷款,限制了内存带宽。

无论nVIDIA的GPU性能如何强大,访问主内存的通道就是那么窄。

而且英特尔还以BUG的名义,限制了PCIE点对点的通信速度。保证了电脑以英特尔的CPU为核心,你的计算能力再强,通道限制死了也快不了。

所以,黄老板对英特尔意见很大。

Grace 芯片的设计

NVIDIA Grace是一颗ARM芯片,用Arm的Neoverse CPU内核,这个内核应该在SPECrate2017_int_base中跑出突破300的分数,用5nm工艺,在2023年上市。

目前,AMD的CPU跑SPECrate2017_int_base最快,大约是225分到240分之间,苹果M1和英特尔的处理器,还要稍微低于AMD的分数。

就是说,NVIDIA Grace的核心比现在最快的处理器快20%-30%,在2023年应该属于顶级性能的处理器。

但是NVIDIA Grace最大的创新不在CPU性能上,而是在互联标准上。

NVIDIA Grace摆脱开了英特尔的标准,在互联总线上用的是nVIDIA自己的nvlink,CPU和GPU的带宽900GB/S,CPU之间的带宽超过600 GB/S。这个速度比英特尔的标准快几倍、几十倍。

在内存接口上,用最快的LPDDR5x内存,英伟达的目标是至少达到500GB/秒的内存带宽。

以前,GPU要访问主内存,要先通过GPU到CPU的通道访问CPU,CPU在通过内存控制器访问内存,这个通道最窄的瓶颈只有12GB/秒,而Grace可以达到500 GB/S.

这样,在单核性能达到顶级的同时,Grace方案在多核心性能上依靠互联速度和内存带宽的优势,可以形成性能压制。

除了片上互联,nVIDIA还搞了DPU,解决网络传输运算对CPU的占用,用单独的网络加速计算单元解决互联问题,这样nVIDIA可以把多个独立的计算单元高速互联起来,获得更强大的计算能力。

瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为“阿尔卑斯”的超级计算机,算力 20Exaflops(目前全球第一超算“富岳”的算力约为 0.537Exaflops),将实现两天训练一次 GPT-3 模型的能力。

美国能源部下属的洛斯阿拉莫斯国家实验室也将在 2023 年推出一台基于 Grace 的超级计算机。

黄老板葫芦里面卖的什么药?

现在的GPU,实际上算带图形功能的并行计算机。计算AI这类并行任务,CPU反而只是个控制器。

其实,黄老板要砸英特尔的饭碗,不是一天两天了。早年,nVIDIA做过丹佛处理器,那个处理器其实内部是自己的一超长指令字的指令集,可以翻译ARM和X86,但是没多少人用。

后来,黄老板和IBM合作,IBM的Power9,就支持nvlink,绕开了英特尔的标准。但是IBM一看,我支持了nvlink,是帮助nVIDIA卖高性能的GPU,自己的CPU反而是边缘化地位,IBM也不干了。

而此时,ARM已经做到A76,IPC已经可以上桌面了。后续几代产品就会追赶上X86,同时linux对ARM的支持也越来也好,亚马逊已经开始大量部署ARM服务器来降低成本。

连苹果都转ARM了,微软也会更努力,可以预见ARM的生态会越来越好。

这个时候,nVIDIA用ARM摆脱英特尔的束缚,自己搞一套体系是可行的。

现在nVIDIA掌握AI计算大部分市场份额的时候,它是高性能AI计算的标准,这是话语权。苹果因为掌握桌面出版的份额,它能换好几次指令集。现在nVDIA也有这个地位了。

但是,nVIDIA的话语权并不稳。英特尔正在造显卡,试图抢回来AI计算的市场,AMD也在咄咄逼人。只有nVIDIA没有x86的CPU,那么赌一下ARM的生态是一条路。

这条路成了,那么nVIDIA硬件全部标准自己来,可以推动计算机技术先前进步。也能获取丰厚的独占利润。

失败了,X86的道路,nVIDIA也没放弃。大不了退回来是了。

其实,黄教主可以考虑一下普及的问题。搞小批量,不进民用的阳春白雪的东西利润固然高,但是东西一定贵。

而这类东西可以是做低端版本屏蔽,来降低成本的。大芯片太贵,可以用小芯片堆,小芯片还可以屏蔽,做成低端芯片,用到别的设备上。

譬如 Grace的用于高性能计算市场只需要10万片。Grace完全可以屏蔽了专业性能,把这个东西做成PC、游戏机、矿机来卖。良率低的情况下,8个CPU核心可以屏蔽两个,GPU单元可以屏蔽10%,当中端产品去卖……

批量上去了,成本就下来,利润率看似比只卖专业市场低一点,但是利润就上去了。

特别声明:本文为DoNews签约作者原创,文章版权归原作者及原出处所有。转载请联系DoNews专栏获取授权。(有任何疑问都请联系idonews@donews.com)

Copyright © DoNews 2000-2021 All Rights Reserved
版权所有:北京斗牛士文化传媒有限公司
京ICP备15062447号-2     京ICP证151088号
京网文【2018】2361-237号