华为罗军:破局智算集群互联瓶颈

生成式AI驱动算力需求激增,超万卡智算集群成为大模型训练核心基础设施。 在第26届中国国际光电博览会期间召开的“超万卡智算集群新型光技术发展论坛”上,华为Fellow & 光传送首席架构师罗军以“光技术在智算中心新场景的挑战和机会”为题发表演讲,系统剖析智算中心业务趋势、提出光互联解决方案,并展望未来技术演进方向。

大模型参数规模从千亿向万亿跨越,多模态趋势明显,算力供给尤其是智算算力成为迫切需求。 国家数据局统计显示,截至2025年6月,我国日均Token消耗量突破30万亿,一年半内增长300倍;第三方预测指出,到2030年全球通用算力将增长十倍,智算算力增长千倍。罗军强调,无论是参数面Scale Out还是超节点Scale Up,网络连接是实现单卡至多Pod规模扩展的关键。

光模块、光传输介质、光交换构成支撑大规模智算集群的三大核心要素。 谷歌V4至V7三代产品持续采用3D Torus架构并实现可观发货量;英伟达亦明确指出光交叉、光模块和光纤三要素对超万卡集群的重要性,表明光技术已从概念走向实践。

在超节点场景中,连接正由直连拓扑向Switch拓扑演进,框内互联拓展至框间互联。 超节点规模从128卡向512卡发展,要求光交叉端口数量从百卡级提升至千卡级。光技术具备协议透明性,可灵活支持规模扩展。时延方面,端到端时延由交换、传输介质与光模块三部分构成。引入光交叉可将跳数从6跳减至4跳,时延降低30%,接近零时延;采用空芯光纤可再降30%;光模块从DPO到xPO演进,省去DSP后时延下降10倍。性能匹配方面,光交叉可通过算法与模型联动,实现RING、FullMesh、M2N等拓扑适配不同模型需求。

参数面场景下,集群向超万卡乃至十万卡发展,需满足大规模扩展、高可用性与高效率转发需求。 罗军提出两大解决方案:其一,在数据中心内部依托OCS构建光底座,满足不同Pod灵活扩展。OCS对速率不敏感,支持不同Pod运行不同速率;省去光模块可降低成本、提升可靠性,并减少转发层以增强参数面性能。其二,在跨数据中心场景中,受功耗、能源与散热限制,单数据中心扩展受限,可通过OTN超宽无损网络连接多个数据中心实现集群训练。当前400G场景下OTN单波带宽达1.2T~1.6T,800G场景将进一步提升,且支持百公里至千公里无损传输,保障参数面稳定运行。

面向未来,OCS光交叉技术沿三条路线发展: MEMS微镜支持上千端口且插损无显著劣化;LC液晶适用于百端口以内场景;硅光切换速度快但插损较大。未来OCS将朝“百端口-千端口-更高性能”演进,端口规模扩大,切换速度从百毫秒级向十毫秒级、纳秒级提升,并通过外部OA等技术降低插损。光模块呈现分场景演进特征:超节点短距模块从DPO到LPO,时延由100纳秒降至10纳秒,功耗显著下降;从LPO到xPO,通过“光多跑、电少跑”解决电传输瓶颈,提升密度;未来OIO技术将进一步满足高密出口需求。参数面FR 2公里模块从112G向224G、400G、448G升级,400G阶段直调直检与相干技术共存,448G阶段直调直检持续突破,相干技术下沉以适配不同距离需求。

空芯光纤作为优势明显的光传输介质,可显著降低时延,但面临成本、性能与兼容性挑战。 当前国内运营商及OTT采购中空芯光纤价格高昂,降低成本依赖拉丝长度提升;性能方面需解决空芯与实芯光纤高效耦合、抗弯设计等问题;兼容性仍需优化。一旦上述问题突破,空芯光纤有望在数据中心内外实现大规模应用。

新技术从实验室到商用需经历技术完善、成本下降与生态适配过程。 光技术在智算集群的应用正处于关键发展阶段,随着OCS、光模块、空芯光纤等技术持续进步及成本与兼容性改善,光产业将在智算领域迎来更广阔空间。行业厂商需紧跟智算中心需求,加快技术创新与产品迭代,助力我国智算产业高质量发展。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1