腾讯光网络架构师付思东在2026中国光通信高质量发展论坛上指出,AI算力需求爆发式增长与网络带宽滞后之间的矛盾日益突出,全光互联成为关键破解路径。
从GPT-3到GPT-5,模型参数规模由千亿级跃升至万亿级,训练算力需求从千卡级别增至十万卡级别。思维链大模型如DeepSeek的出现,使推理算力需求达传统模型百倍以上。AI算力已贯穿训练与推理全生命周期,成为决定大模型能力上限的核心要素。
数据显示,过去八年AI算力实现约1000倍增长,其中推理算力四年增长32倍,训练算力增长16倍;而同期网络带宽仅从200G提升至800G,增长4倍。这种“算力如火箭攀升,网络如步行前进”的失衡状态,导致万卡及以上规模GPU集群中,节点间数据传输成为性能瓶颈,严重影响整体效率与资源利用率。
为应对该挑战,行业正通过Scale Out和Scale Up两种架构协同演进实现系统创新。Scale Out采用Spine-Leaf两级结构,支持数千至数万张GPU的横向扩展,注重低成本、长距离互联,技术演进依赖PCIE接口速率提升。Scale Up则追求高算力密度与高速内部互联,可实现512张GPU直连,其带宽可达Scale Out的8倍以上,在NVL72中甚至达到18倍,需3.2T或6.4T高速互联技术支持。
在Scale Out实践中,腾讯于200G时代以自研模块替代商用模块,实现系统解耦与开放生态;400G阶段推出自研硅光BR4模块,全球首批批量部署,降本20%,互联距离达300米;800G阶段采用LRO+FR4架构,去除接收侧DSP并结合硅光集成平台,实现成本降低20%、时延下降63%、传输距离扩展至两公里。
在Scale Up方面,腾讯400G时代采用AEC方案满足中小规模组网,但受限于铜缆5米互联距离;800G阶段引入LPO技术,通过光互联实现时延下降99%、成本降低25%、互联距离达百米级;面向3.2T阶段,腾讯探索基于硅光的NPO技术,可实现更高带宽、更低时延与成本,并将密度提升超10倍。
硅光技术与NPO被视作推动网络性能跃升的关键路径。硅光凭借高集成度、低功耗、低成本优势,支持从400G向800G平滑演进并延长传输距离。腾讯2024年发布自研400G硅光BR4模块,实现全球最早批量部署,累计出货200万只且保持零失效记录。通过优化BR标准,芯片面积缩小20%,显著降低成本。在800G阶段,采用FR架构集成MUX器件减少光纤用量,在增加激光器与耦合器件成本可控前提下,实现端到端系统成本更优。
针对Scale Up的高密度低时延需求,传统铜缆距离受限,分布式光模块数量多、运维复杂。单层高密全光互联提供新路径。单个3.2T NPO尺寸仅为光模块1/3,等效8个400G模块速率,仅需处理一个端口,大幅降低部署与运维工作量。NPO将OE引擎部署于主芯片附近,降低传输损耗,支持线性架构向224G扩展,具备更低时延与成本优势。
面对NPO缺乏标准与开放解耦基础的现状,腾讯已联合阿里云在ODCC发起3.2T NPO标准化项目,推动应用场景、硬件接口、管理协议等规范制定。付思东表示,该项目旨在为高性能Scale Up组网探索可用、易用、好用的全光互联道路,兼顾速率规模要求与部署运维便利性。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



