晶圆级芯片突破算力瓶颈,成AI训练硬件新方向

当前,大模型参数以“亿”为单位快速增长,两年内所需计算能力增加1000倍,远超硬件迭代速度。主流方案依赖GPU集群,但其存在明显瓶颈。

单芯片物理尺寸限制晶体管数量,即便采用先进制程工艺,算力提升也逼近摩尔定律极限;多芯片互联时,数据传输延迟与带宽损耗导致整体性能无法随芯片数量线性增长。

面对GPT-4、文心一言等万亿参数模型,即使堆叠数千块英伟达H100,依然面临“算力不够、电费爆表”的问题。

目前,业内在AI训练硬件上分为两大阵营:采用晶圆级集成技术的专用加速器(如Cerebras WSE-3和Tesla Dojo)和基于传统架构的GPU集群(如英伟达H100)。

晶圆级芯片被认为是未来突破口。

01

晶圆级芯片,两大玩家

常规芯片生产流程中,一个晶圆会在光刻后被切割成多个小裸片并进行单独封装。

芯片厂商不断努力增加芯片面积,目前算力芯片单Die尺寸约为26x33=858mm²,接近曝光窗大小,但芯片尺寸无法突破曝光窗限制。

曝光窗大小多年来维持不变,成为制约芯片算力增长的原因之一。

晶圆级芯片提供另一种思路:制造不进行切割的晶圆级互连基板,并将设计好的常规裸片在晶圆基板上集成与封装。

未切割晶圆上的电路单元与金属互连排列更紧密,形成带宽更高、延时更短的互连结构,通过高性能互连与高密度集成构建更大算力节点。

相同算力下,由晶圆级芯片构建的算力集群占地面积对比GPU集群可缩小10-20倍以上,功耗可降低30%以上。

全球已有两家公司开发出晶圆级芯片产品。

Cerebras自2019年推出WES-1,目前已迭代至第三代晶圆级芯片——WES-3。

WES-3采用台积电5nm工艺,晶体管数量达到4万亿个,AI核心数量增加到90万个,缓存容量达44GB,支持高达1.2PB的片外内存。

WES-3能训练比GPT-4和Gemini大10倍的下一代前沿大模型。四颗并联情况下,一天内完成700亿参数调教,最多支持2048路互连,一天即可完成Llama 700亿参数训练。

上述功能集成在一块215mm×215mm=46,225mm²的晶圆上。

与英伟达H100相比,WES-3片上内存容量是H100的880倍,单芯片内存带宽是H100的7000倍,核心数量是H100的52倍,片上互连带宽速度是H100的3715倍。

另一家是特斯拉。其晶圆级芯片命名为Dojo,马斯克于2021年开始尝试。

特斯拉Dojo采用Chiplet路线,在晶圆尺寸基板上集成25颗专有D1芯粒(裸Die)。

D1芯粒在645平方毫米芯片上放置500亿个晶体管,单个芯粒提供362 TFlops BF16/CFP8计算能力。合起来的单个Dojo拥有9Petaflops算力及每秒36TB带宽。

特斯拉Dojo系统专门针对全自动驾驶(FSD)模型训练需求定制。从25个D1芯粒→1个训练瓦(Training Tile)→6个训练瓦组成1个托盘→2个托盘组成1个机柜→10个机柜组成1套ExaPOD超算系统,提供1.1EFlops计算性能。

02

晶圆级芯片与GPU对比

既然单芯片GPU和晶圆级芯片分道扬镳,在此以Cerebras WSE-3、Dojo和英伟达H100为例,比较两种芯片架构对算力极限的不同探索。

通常,AI训练芯片GPU性能通过几个关键指标评估:每秒浮点运算次数(FLOPS),反映GPU深度学习中矩阵密集型运算原始计算能力;内存带宽决定访问处理数据速度,直接影响训练效率;延迟和吞吐量评估GPU处理大数据负载和模型并行性效率,影响实时性能。

算力性能方面,Cerebras WSE-3凭借单片架构,在AI模型训练中展现独特潜力。

FLOPS表明GPU深度学习矩阵运算原始能力。WSE-3 FP16训练峰值性能达125 PFLOPS,支持训练高达24万亿参数AI模型,无需模型分区处理,特别适合高效处理超大模型。

不同于依赖分层内存架构的传统GPU,WSE使850个核心可独立运行并直接访问本地内存,有效提升计算吞吐量。

英伟达H100采用模块化和分布式方法。单个H100 GPU为高性能计算提供60 TFLOPS FP64计算能力,八个互连H100 GPU组成的系统可实现超过1 ExaFLOP的FP8 AI性能。

但分布式架构存在数据传输问题,尽管NVLink和HBM3内存能降低延迟,训练超大型模型时GPU间通信仍影响训练速度。

在AI训练表现中,Cerebras WSE-3更擅长处理超大型模型。2048个WSE-3系统组成的集群,训练Meta的700亿参数Llama 2 LLM仅需1天,相比Meta原有AI训练集群,速度提升达30倍。

延迟与吞吐量方面,WSE-3单片架构避免多芯片间的数据传输,显著降低延迟,支持大规模并行计算和核心间低延迟通信。速度是单片优势,与传统GPU集群相比,WSE-3软件复杂度降低高达90%,同时将实时GenAI推理延迟降低10倍以上。

特斯拉Dojo Training Tile属于晶圆级集成,也能大幅降低通信开销。跨区块扩展时会产生一定延迟。目前,Dojo实现100纳秒芯片间延迟,针对自动驾驶训练优化吞吐量,可同时处理100万个每秒36帧的视频流。

英伟达H100基于Hopper架构,是最强AI训练GPU之一,配备18,432个CUDA核心和640个张量核心,并通过NVLink和NVSwitch系统实现GPU间高速通信。

虽然多GPU架构具备良好扩展性,但数据传输带来延迟问题。即便NVLink 4.0提供每个GPU 900 GB/s双向带宽,延迟仍高于晶圆级系统。

尽管晶圆级系统如WSE-3和Dojo可在单晶圆工作负载中实现低延迟和高吞吐量,但仍面临可扩展性有限、制造成本高和通用工作负载灵活性不足的问题。

谁更划算?

从硬件购置成本来看,不同芯片价格因架构和应用场景而异。

据报道,特斯拉单台Tesla Dojo超级计算机具体成本估计在3亿至5亿美元之间。Dojo采用成熟晶圆工艺加先进封装(使用台积电Info_SoW技术集成),实现晶圆级计算能力,避免挑战工艺极限。

这种设计既能保证较高良品率,又便于系统规模化生产,芯粒更新迭代更为轻松。

Cerebras WSE系统因先进制造工艺与复杂设计,面临较高初期研发和生产成本。据悉,Cerebras WSE-2每个系统成本在200万至300万美元之间。

相比之下,英伟达单GPU采购成本较低。英伟达A100 40GB PCIe型号价格约8,000 - 10,000美元,80GB SXM型号价格在18,000 - 20,000美元之间。

这使得许多企业在搭建AI计算基础设施初期更倾向选择英伟达GPU。不过,长期使用中存在能耗高、多芯片协作性能瓶颈等问题,导致运营成本不断增加。

总体来看,WSE-2能为超大规模AI模型提供超高计算密度,但对于需要部署多GPU可扩展方案的机构,A100成本优势更为明显。

03

结语

常规形态下,集群算力节点越多,通信开销越大,集群效率越低。

英伟达NVL72通过提升集群内节点集成密度(即提高算力密度),在一个机架中集成远超常规机架的GPU数量,控制集群尺寸规模,提升效率。

这是英伟达权衡良率和成本后的解决方案。若继续按该计算形态发展,进一步提升算力密度,终将走向晶圆级芯片。

晶圆级芯片是目前为止算力节点集成密度最高的形态。

晶圆级芯片,潜力无限。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1