Isaac Douglas, servers.com2025-06-20 14:10:28Data Center Dynamics

人工智能 (AI) 继续推动许多行业的转型,随着这项技术的快速发展,支撑它所需的基础设施也在不断发展。
为了满足人工智能工具对硬件、网络、能源和冷却系统带来的高功耗需求,全球数据中心正在经历重大变革。一些企业甚至正在构建专用的人工智能数据中心,以推动自身人工智能技术的发展。
那么,与传统数据中心工作负载相比,人工智能技术对数据中心基础设施的要求究竟是什么?
从 CPU 到 GPU
AI 在数据中心环境中面临的最大挑战之一是其严重依赖基于 GPU 的计算。GPU 通过处理大量并发计算来支持 AI 模型。这对于满足训练和运行 AI 模型所带来的巨大计算需求至关重要。传统的 CPU 可能擅长顺序处理,但因此,它们的速度太慢,无法让许多 AI 模型达到最佳性能。
所有这些意味着,AI数据中心必须配备大量的GPU,而这些GPU的工作电压更高,能耗也更高。更高的功耗意味着更高的发热量,这也给数据中心所有者和运营商带来了新的挑战,他们需要平衡电力需求、冷却效率和成本控制。
由于支持 AI 的机架所需的电力比传统机架高出六倍,数据中心开发商越来越优先考虑可再生能源丰富且气候自然凉爽的地区。加拿大和冰岛的地区是理想的选择,因为那里拥有丰富的水电和地热能,能够为高密度 AI 工作负载提供可靠且经济实惠的电力。
然而,选址始终关乎取得恰当的平衡。这种对战略位置的关注带来了一种权衡:设施可能建在距离最终用户较远的地方,因此需要考虑任何对延迟的潜在影响。对于一些数据中心来说,这是一个折中方案:在水电资源充足、气候温和的地区建设数据中心,同时投资先进的冷却技术,例如液体冷却和芯片直接冷却,以提供更好的散热效果和更高的能源效率。
网络创新支持不断发展的人工智能需求
人工智能对服务器的计算需求越来越大,因为大量数据需要尽快地往返于 GPU 之间。
人工智能驱动的应用程序还需要指数级更高的带宽才能高效处理海量数据。服务器可能需要高达 100Gbps 的数据传输速度才能确保人工智能工具和应用程序正常运行。要实现这一目标,GPU 计算提供商必须改变其网络堆栈的选择和构建方式。这些提供商可能已经使用了多年的组件将不再足够用,需要进行新的选择和研发流程。
因此,数据中心运营商正在投资高性能互连,以加速 GPU 集群和 TPU(张量处理单元)等大量计算节点之间的数据传输,这些节点对于高效训练和运行复杂的 AI 模型至关重要。此外,对提供更高吞吐量、更高可靠性和更低延迟的先进网络硬件的投资也同样如此。
人工智能数据中心的未来
为了保持领先,每个人都在努力抓住机遇,而现在,这个机遇就是人工智能。
从技术上讲,AI 可以在任何数据中心运行。但 AI 基于 GPU 的计算需求对电力和冷却系统提出了更高的要求,这意味着并非每个数据中心都针对 AI 的运行进行了成本优化。在一个竞争激烈、对 AI 创新需求旺盛的行业中,对基于传统数据中心的 AI 工作负载提出更高的要求意味着成本很容易螺旋式上升。
对于任何正在为人工智能 (AI) 构建数据中心的运营商来说,管理这些成本都是一个关键的考量因素。虽然许多企业愿意为运行 AI 工作负载支付额外费用,但如果数据中心运营商想要保持竞争力,就必须找到抵消这些成本的方法,避免将额外费用完全转嫁给客户。
Declare:The sources of contents are from Internet,Please『 Contact Us 』 immediately if any infringement caused