腾讯付思东：全光互联破解算力带宽失衡难题- DoNews

腾讯光网络架构师付思东在2026中国光通信高质量发展论坛上指出，AI算力需求爆发式增长与网络带宽滞后之间的矛盾日益突出，全光互联成为关键破解路径。

从GPT-3到GPT-5，模型参数规模由千亿级跃升至万亿级，训练算力需求从千卡级别增至十万卡级别。思维链大模型如DeepSeek的出现，使推理算力需求达传统模型百倍以上。AI算力已贯穿训练与推理全生命周期，成为决定大模型能力上限的核心要素。

数据显示，过去八年AI算力实现约1000倍增长，其中推理算力四年增长32倍，训练算力增长16倍；而同期网络带宽仅从200G提升至800G，增长4倍。这种“算力如火箭攀升，网络如步行前进”的失衡状态，导致万卡及以上规模GPU集群中，节点间数据传输成为性能瓶颈，严重影响整体效率与资源利用率。

为应对该挑战，行业正通过Scale Out和Scale Up两种架构协同演进实现系统创新。Scale Out采用Spine-Leaf两级结构，支持数千至数万张GPU的横向扩展，注重低成本、长距离互联，技术演进依赖PCIE接口速率提升。Scale Up则追求高算力密度与高速内部互联，可实现512张GPU直连，其带宽可达Scale Out的8倍以上，在NVL72中甚至达到18倍，需3.2T或6.4T高速互联技术支持。

在Scale Out实践中，腾讯于200G时代以自研模块替代商用模块，实现系统解耦与开放生态；400G阶段推出自研硅光BR4模块，全球首批批量部署，降本20%，互联距离达300米；800G阶段采用LRO+FR4架构，去除接收侧DSP并结合硅光集成平台，实现成本降低20%、时延下降63%、传输距离扩展至两公里。

在Scale Up方面，腾讯400G时代采用AEC方案满足中小规模组网，但受限于铜缆5米互联距离；800G阶段引入LPO技术，通过光互联实现时延下降99%、成本降低25%、互联距离达百米级；面向3.2T阶段，腾讯探索基于硅光的NPO技术，可实现更高带宽、更低时延与成本，并将密度提升超10倍。

硅光技术与NPO被视作推动网络性能跃升的关键路径。硅光凭借高集成度、低功耗、低成本优势，支持从400G向800G平滑演进并延长传输距离。腾讯2024年发布自研400G硅光BR4模块，实现全球最早批量部署，累计出货200万只且保持零失效记录。通过优化BR标准，芯片面积缩小20%，显著降低成本。在800G阶段，采用FR架构集成MUX器件减少光纤用量，在增加激光器与耦合器件成本可控前提下，实现端到端系统成本更优。

针对Scale Up的高密度低时延需求，传统铜缆距离受限，分布式光模块数量多、运维复杂。单层高密全光互联提供新路径。单个3.2T NPO尺寸仅为光模块1/3，等效8个400G模块速率，仅需处理一个端口，大幅降低部署与运维工作量。NPO将OE引擎部署于主芯片附近，降低传输损耗，支持线性架构向224G扩展，具备更低时延与成本优势。

面对NPO缺乏标准与开放解耦基础的现状，腾讯已联合阿里云在ODCC发起3.2T NPO标准化项目，推动应用场景、硬件接口、管理协议等规范制定。付思东表示，该项目旨在为高性能Scale Up组网探索可用、易用、好用的全光互联道路，兼顾速率规模要求与部署运维便利性。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。