AI数据中心架构革新：康普的布线优化策略与实践

发布于：2024-08-01 来源：本站

近年来，人工智能（AI）领域发生了巨大变化，突破了技术的界限，并改造了支撑技术所需的基础设施。这一转变的重要方面是AI数据中心的架构，必须适应AI计算的独特需求。本文深入探讨了康普对AI数据中心布线的考虑，探讨了优化性能和效率的挑战和最佳实践。

向AI驱动的数据中心转型

AI技术的普及，以DALL-E 2和ChatGPT等创新为代表，极大地影响了公众对AI的认知和期待。随着这些技术在各行业中的不可或缺，支持它们的基础设施也必须不断演进。如今，AI已成为数据中心增长的主要驱动力，这要求改变这些中心的设计和运营方式。

AI计算严重依赖图形处理单元（GPU），它们专门用于并行处理。训练和运行AI模型所需的处理能力通常超出单台机器的能力，因此需要在服务器和机架之间互连多个GPU。这种设置在数据中心内形成AI集群，带来了独特的布线挑战和机遇。

架构差异：AI与传统数据中心

传统数据中心，尤其是超大规模设施，通常采用折叠式Clos架构，也称为“叶脊”架构。在这种设置中，服务器机架连接到架顶式（ToR）交换机，然后通过光纤电缆连接到叶交换机。然而，AI集群需要采用不同的方法，因为它们对服务器之间的连接要求更高，并且GPU服务器会产生大量电力和热量。

康普报告指出：“GPU服务器需要更多的服务器间连接，但由于功率和热量限制，每个机架的服务器数量通常较少。因此，与传统架构相比，AI数据中心架构中的机架间布线更多。”这种布线复杂性的增加是支持AI工作负载所需的更高数据传输速率的必要条件，这些工作负载的传输速率范围从100G到400G，而铜缆无法支持这些传输距离。

实际示例：NVIDIA的AI数据中心架构

AI硬件领域的领导者NVIDIA提供了AI数据中心架构的一个典型示例。他们最新的GPU服务器DGX H100具有多个高速光纤端口用于连接。单个DGX SuperPOD（包含32台GPU服务器的集群）需要384x400G光纤链路用于交换结构和存储，以及64条铜缆链路用于管理。与传统数据中心架构相比，此设置说明了光纤链路的大幅增加。

最大限度地减少AI集群中的延迟

延迟是AI和机器学习（ML）算法中的一个关键因素，运行大型训练模型所需的大部分时间都归因于网络延迟。康普报告指出：“一项估计声称，运行大型训练模型的30%时间花在网络延迟上，70%时间花在计算时间上。”为了最大限度地减少延迟，AI集群旨在让GPU服务器保持紧密距离，几乎所有链接都限制在100米范围内。

然而，并非所有数据中心都能适应这种配置，尤其是功率容量较低的老旧设施。这些中心可能需要将GPU机架隔开，这进一步增加了布线要求。

选择合适的收发器和光纤电缆

选择合适的光收发器和光纤电缆对于成本和功率效率至关重要。报告强调了并行光学的优势，它不需要波分复用（WDM）中使用的光复用器和解复用器。例如，带有八光纤电缆的400G-DR4收发器比400G-FR4收发器更具成本效益。

此外，单模和多模光纤之间的选择受成本和功率考虑的影响。虽然单模收发器变得更实惠，但多模收发器仍然更便宜，功耗更低。这种差异可以带来显著的节省，特别是在具有数百个收发器的大型AI集群中。

有源光缆与带光纤电缆的收发器

有源光缆（AOC）通常用于AI、ML和高性能计算（HPC）集群。这些电缆集成了光发射器和接收器，提供一体化解决方案。然而，AOC缺乏独立收发器和光纤电缆的灵活性，因此不太适合未来的升级，并且更容易出现故障。

康普报告总结道：“仔细考虑AI集群布线将有助于节省成本、电力和安装时间，使组织能够充分受益于AI。”通过满足AI数据中心独特的布线需求，运营商可以确保其设施能够满足当前和未来AI工作负载的需求。

结论

随着AI继续推动数据中心的增长，这些设施的架构和布线必须不断发展以应对新的挑战。通过采用最佳实践和优化布线基础设施，数据中心可以提高性能、降低成本，并支持下一代AI创新。

声明：本站所使用的图片文字等素材均来源于互联网共享平台，并不代表本站观点及立场，如有侵权或异议请及时联系我们删除。

上一篇：安防市场热潮：多目摄像头引领创新与增长

下一篇：追求沉浸感与真实感：物联网增强的移动eSIM技术

留言