在2024年re:Invent全球大会上,亚马逊云科技宣布了一系列关于基础设施的重大创新,其中,放在首日发布的Amazon Trainium2无疑是重中之重,这也是亚马逊云科技高级副总裁Peter Desantis第一次将服务器机架搬上主舞台,可见亚马逊云科技对Amazon Trainium2及其相关系列基础设施发布的重视程度。
Peter Desantis把Amazon Trainium2服务器搬上主舞台
芯片是当前全球科技领域关注的焦点,亚马逊云科技早在十年前就开启了定制芯片之路,本次大会上推出的Amazon Trainium2及基于其的Amazon EC2 Trn2实例和UltraServers服务器,显著提升了单服务器性能,为大规模生成式AI训练和实时推理提供了强有力的支持。此外,亚马逊云科技还透露了下一代Amazon Trainium3芯片的研发计划,该芯片将采用更先进的3纳米工艺,性能预计将是Trainium2的4倍。
Peter DeSantis表示:“Tranium2服务器最酷的事情之一是它是专门为实现自动化制造和组装而设计的。这种高水平的自动化使我们能够从第一天起就快速扩展。所以它不仅是我们最强大的AI服务器,它也是更快扩展的服务器。但这还不是全部。一个强大的AI服务器不仅仅是将原始计算和内存打包,它还是一个优化AI工作负载的专用工具,这就是Tranium2架构发挥作用的地方。”
网络架构方面,亚马逊云科技推出了第二代UltraCluster网络架构(10p10u),同时还发布了SIDR(Scalable, Intent Driven Routing)全新网络路由协议。数据中心组件方面,亚马逊云科技通过简化电气和机械设计、创新冷却系统、优化机架布局等一系列措施,显著提升了数据中心的能效和可用性。
单服务性能的纵向扩展
随着AI模型复杂性和数据量的不断增加,单纯扩大集群规模已无法有效缩短训练时间,同时实时推理的需求也超出了单实例架构的承载能力。为此,亚马逊云科技在单服务性能的纵向扩展方面做出了一系列创新。
Amazon Tranium芯片通过脉动阵列(Systolic Arrays)的硬件架构,可以计算步骤之间避免内存访问,直接将结果从一个计算单元传递到下一个计算单元,以减少内存带宽压力,优化计算资源,这是专为AI背后常见的矩阵或张量操作而设计的;提供Neuron内核接口Neuron Kernel Interface(NKI),开发者可以直接访问裸机的Trainium芯片,编写计算内核以最大限度地提升计算密集型工作负载的性能。
与当前基于GPU的EC2 P5e和P5en实例相比,Amazon EC2 Trn2实例的性价比提升30-40%。Amazon EC2 Trn2 UltraServers拥有64个Tranium2芯片协同工作,提供比任何当前EC2AI服务器高五倍的计算能力和十倍的内存。
通过优化芯片架构和算法,Amazon Bedrock新推出的延迟优化选项,能够在各种领先的模型上实现最佳推理性能。此外,亚马逊云科技还推出了Amazon Neuron SDK,为开发者提供了编译器、运行时库和工具,帮助他们优化模型以在Trainium上运行。
横向扩展方面的创新
除了单服务性能的纵向扩展外,亚马逊云科技还在横向扩展方面做出了一系列创新。
首先,10p10u是带宽达10Pb/s,延迟低于10ms的网络架构,是最新一代AI网络架构。其中涉及几项创新:将16根单独光线电缆组成一个单一的连接器,从而将复杂的组装在工厂完成,能够加快54%的安装到机架上的时间;提供定制的光纤插头和光纤电缆,能够在机架到达数据中心前进行全面的测试和验证网络连接,从而消除调试布线的时间,同时还提供保护密封,防止灰尘颗粒进入光纤接口。
其次,全新网络路由协议SIDR专为解决AI网络中光链路故障频发、路由更新缓慢的问题而设计,能够在不到1秒内恢复网络,速度比传统方法快10倍。SIDR协议结合了集中规划的全局控制和去中心化的快速响应,能够在链路故障发生时自主决策,避免依赖中央控制器,从而显著提升了网络的可靠性和实时性。
全新的数据中心组件
为了支持新一代生成式AI创新并满足客户不断变化的需求,亚马逊云科技在数据中心组件方面也进行了一系列创新。
首先,亚马逊云科技简化了电气和机械设计,提高了数据中心的可用性和可靠性。通过优化电力分配和机械系统,亚马逊云科技将基础设施的可用性提升至99.9999%,并将可能受到电气问题影响的机架数量减少了89%。
其次,亚马逊云科技在冷却技术方面进行了创新。新型的AI服务器将受益于液体冷却技术,更有效地应对高密度计算芯片的冷却需求。亚马逊云科技开发了一项先进的机械冷却解决方案——“液体到芯片”的冷却系统,该系统能够无缝集成空气和液体冷却功能,支持包括Amazon Trainium2在内的强大AI芯片系列。
亚马逊云科技还通过优化数据中心的机架布局和电力传输系统,提升了能源使用效率。据资料显示,这些创新措施让亚马逊云科技每个站点为客户工作负载提供了增加12%的计算能力,同时在提供同等计算能力的情况下,所需的数据中心数量将会减少。
据了解,未来亚马逊云科技的数据中心新组件将在亚马逊云科技全球基础设施进行部署,覆盖全球34个区域、108个可用区。