AI数据中心架构革新:康普的布线优化策略与实践
近年来,人工智能(AI)领域发生了巨大变化,突破了技术的界限,并改造了支撑技术所需的基础设施。这一转变的重要方面是AI数据中心的架构,必须适应AI计算的独特需求。本文深入探讨了康普对AI数据中心布线的考虑,探讨了优化性能和效率的挑战和最佳实践。
向AI驱动的数据中心转型
AI技术的普及,以DALL-E 2和ChatGPT等创新为代表,极大地影响了公众对AI的认知和期待。随着这些技术在各行业中的不可或缺,支持它们的基础设施也必须不断演进。如今,AI已成为数据中心增长的主要驱动力,这要求改变这些中心的设计和运营方式。
AI计算严重依赖图形处理单元(GPU),它们专门用于并行处理。训练和运行AI模型所需的处理能力通常超出单台机器的能力,因此需要在服务器和机架之间互连多个GPU。这种设置在数据中心内形成AI集群,带来了独特的布线挑战和机遇。
架构差异:AI与传统数据中心
传统数据中心,尤其是超大规模设施,通常采用折叠式Clos架构,也称为“叶脊”架构。在这种设置中,服务器机架连接到架顶式(ToR)交换机,然后通过光纤电缆连接到叶交换机。然而,AI集群需要采用不同的方法,因为它们对服务器之间的连接要求更高,并且GPU服务器会产生大量电力和热量。
康普报告指出:“GPU服务器需要更多的服务器间连接,但由于功率和热量限制,每个机架的服务器数量通常较少。因此,与传统架构相比,AI数据中心架构中的机架间布线更多。”这种布线复杂性的增加是支持AI工作负载所需的更高数据传输速率的必要条件,这些工作负载的传输速率范围从100G到400G,而铜缆无法支持这些传输距离。
实际示例:NVIDIA的AI数据中心架构
AI硬件领域的领导者NVIDIA提供了AI数据中心架构的一个典型示例。他们最新的GPU服务器DGX H100具有多个高速光纤端口用于连接。单个DGX SuperPOD(包含32台GPU服务器的集群)需要384x400G光纤链路用于交换结构和存储,以及64条铜缆链路用于管理。与传统数据中心架构相比,此设置说明了光纤链路的大幅增加。
最大限度地减少AI集群中的延迟
延迟是AI和机器学习(ML)算法中的一个关键因素,运行大型训练模型所需的大部分时间都归因于网络延迟。康普报告指出:“一项估计声称,运行大型训练模型的30%时间花在网络延迟上,70%时间花在计算时间上。”为了最大限度地减少延迟,AI集群旨在让GPU服务器保持紧密距离,几乎所有链接都限制在100米范围内。
然而,并非所有数据中心都能适应这种配置,尤其是功率容量较低的老旧设施。这些中心可能需要将GPU机架隔开,这进一步增加了布线要求。
选择合适的收发器和光纤电缆
选择合适的光收发器和光纤电缆对于成本和功率效率至关重要。报告强调了并行光学的优势,它不需要波分复用(WDM)中使用的光复用器和解复用器。例如,带有八光纤电缆的400G-DR4收发器比400G-FR4收发器更具成本效益。
此外,单模和多模光纤之间的选择受成本和功率考虑的影响。虽然单模收发器变得更实惠,但多模收发器仍然更便宜,功耗更低。这种差异可以带来显著的节省,特别是在具有数百个收发器的大型AI集群中。
有源光缆与带光纤电缆的收发器
有源光缆(AOC)通常用于AI、ML和高性能计算(HPC)集群。这些电缆集成了光发射器和接收器,提供一体化解决方案。然而,AOC缺乏独立收发器和光纤电缆的灵活性,因此不太适合未来的升级,并且更容易出现故障。
康普报告总结道:“仔细考虑AI集群布线将有助于节省成本、电力和安装时间,使组织能够充分受益于AI。”通过满足AI数据中心独特的布线需求,运营商可以确保其设施能够满足当前和未来AI工作负载的需求。
结论
随着AI继续推动数据中心的增长,这些设施的架构和布线必须不断发展以应对新的挑战。通过采用最佳实践和优化布线基础设施,数据中心可以提高性能、降低成本,并支持下一代AI创新。
声明:本站所使用的图片文字等素材均来源于互联网共享平台,并不代表本站观点及立场,如有侵权或异议请及时联系我们删除。