万卡集群的AI数据中心,到底是如何运作的?

2025年7月22日凌晨,xAI创始人ElonMusk在推特上正式宣布,在凌晨4:20分正式启动了世界上最强的AI训练集群。

这个训练集群建设在美国田纳西州孟菲斯市,集合了10万个液冷H100芯片。

然而,这在当地却引发了居民们的抗议和不满。

这样巨大的AI训练集群每天会消耗100万加仑的水和150兆瓦的电力,因此也是引发了当地环保人士的担心和抗议。

随着万卡集群,甚至十万卡集群成为科技巨头们训练AI大模型的标配,这样的巨型数据中心到底意味着什么?

消耗电力好理解,那为什么会消耗如此多的水呢?冷却系统与供电系统等关键基础设施是如何运作的?目前数据中心的主计算芯片开始从CPU转向GPU,这会带来如何的变革?

但事实上,它们就像冰山藏在水下的部分一样,不仅是整个数据中心的支柱,还是至关重要的安全枢纽。

我们来揭秘一下万卡集群的数据中心到底是如何运作的,也非常荣幸邀请了专注于数据中心基础设施的公司维谛技术的多位专家一起来探讨,AI爆发给数据中心的基础设施带来的挑战与机遇。

01AI时代数据中心面临的挑战

首先,我们先简单了解下,数据中心的组成结构。

从物理结构上来看,数据中心会划分成三个系统,主机房、供电系统和冷却系统。

如果咱们把数据中心类比成一支军队,你看这主机房陈列的一排排机柜,像不像前线征战的士兵,它们承担着整个数据中心的核心功能——运算。

而冷却与供电系统则是军队后方的保障机构。冷却系统负责保障士兵的健康与安全,供电系统负责粮草的运送与分配。

此外还有综合管理系统来维护兵器等等,它们就像数据中心的“兵部尚书”,虽然不在一线征战,却起到了关键作用。

如今一些数据中心开始由通用计算转向专用计算,其中以AI为主的数据中心被称为“智算数据中心”,主力芯片从CPU变成了GPU,这也将对所有基础设施带来巨大的挑战。

所以,GPU芯片的迅速更新迭代给数据中心配套设施带来了这四大挑战。如何应对这四个问题,我们先来看看冷却系统,为什么它会如此耗水?

02冷却系统

冷却系统的重要性

电子器件运行时会产生热量,而芯片对热量尤其敏感,如果过热,轻则触发芯片的自我保护机制,降低运行频率,重则导致服务器故障,业务中断,甚至烧毁硬件。

随着数据中心的功率密度越来越高,这时如果冷却系统发生故障,留给维护人员的反应时间,可能只有一两分钟。

因此,芯片算力的升级也直接带来了对数据中心冷却系统的升级需求。我们在《抢电、圈地、对赌,深聊科技巨头的千亿美元AI能源大战》那期文章里也讲过,随着功率密度的提升,厂商们开始转向液冷方案。

而恰恰是这个液冷,导致了不少环保人士抵制。

除了开头说的xAI训练集群外,2025年乌拉圭民众也联合抗议谷歌建设数据中心,还有新墨西哥州的农民抗议Meta数据中心迁入。

大家抵制的原因之一就是,这些数据中心耗水太多,甚至加剧了当地的干旱情况。

那为什么液冷会消耗如此多的水呢?

液冷为何如此耗水

在回答这个问题前,我们需要简单科普下冷却系统的结构。目前冷却系统主要分为两个大类,风冷与液冷。

我们先来聊聊风冷。如果你进入过数据中心,那第一感觉应该是:太吵了!这个噪音就来自于机柜中用于给芯片降温的风扇。

风扇的作用是将芯片的热量散发到空气中,但如果热量全部堆积在空气中,也会降低散热效果,所以还需要空调对空气降温。

空调也分为很多种,我们这里就不一一举例了。

显而易见的是,空气的热交换效率较低,在功率密度不断提升下,必须采用效率更高的散热介质,那就是液体。

液冷散热的原理就是通过水的蒸发潜热带走芯片的热量,液冷散热也分为很多种,目前全球主流的两类是冷板液冷和浸没液冷。

冷板液冷是让冷板与芯片紧密贴合,让芯片热量传导至冷板中的冷却液,并将冷却液中的热量运输至后端冷却。

而浸没液冷是将整个主板都浸没在特定液体中,但对于目前主流的GPU设备来说,浸没液冷却不太适用。

冷却系统会分为一次侧和二次侧,一次侧是将整体热量散走,并与二次侧的冷却分发单元(CoolingDistributionUnits,简称CDU)来交换热量。

通常提到的液冷散热,都是指二次侧,由CDU将冷水分配到各个机柜中。而当前的液冷散热系统一次侧大部分也是水冷方式,最终在室外通过水的显热交换和潜热交换带走全部热量。

显热交换是水在加热或冷却过程中,会吸收或释放的热量,水的状态不变。

而潜热交换就是水在相变过程中,如蒸发、凝结、融化、凝固时,吸收或释放的热量,而温度保持不变。

就像咱们天气热时,如果给房间放一盆水,水温慢慢升高,这就是显热交换;同时水会慢慢蒸发,这就是潜热交换,两种交换共同进行,使得水盆上方的空气温度降低。

前面我们说到环保人士抵制AI数据中心,就是因为万卡集群的AI数据中心,浪费的水实在太多了。

你可能想问,就算水蒸发了,那不是还会变成雨降下来吗?为什么会被称为“浪费”呢?我们分两个方面来说。

首先,水蒸发后变成云,飘到哪儿降落就不好说了,数据中心就像个抽水机,把当地的水抽走后送到了其他地方,对于原本降雨量低的地区,加剧了干旱情况。

其次,数据中心对水的质量要求也不低,但高质量的水蒸发后,如果降落在污染地或海面,这些水很难再利用了。

同时,使用高质量的水,也意味着数据中心要和居民抢水,甚至可能造成民用水不够的情况。

那为什么一定要用高质量的水呢?

有报道称,每个数据中心平均每天要消耗100万到500万加仑的水,比如开头提到的xAI万卡集群,每天消耗100万加仑的水,可供3000多户家庭使用一天。

而GPT-3在训练期间消耗了700万吨水,后续的推理阶段,每回答20个问题,就相当于倒掉了一瓶500毫升的矿泉水。

所以也难怪AI数据中心会遭到抵制了。

同时,也有企业做过海底数据中心,如此一来不就解决了耗水问题吗?但很遗憾,这就涉及到冷却系统面临的另一大挑战,经济账的问题了。

冷却系统的经济账

海底数据中心就是把服务器放置在壳体内并沉到海水里,因为海水的温度较低,可以直接为壳体降温,而且不需要额外补充机械能。

听上去是个既节能又环保的方案,但维谛的专家告诉我们,这将对技术提出更高的要求。

更高的技术要求,就意味着企业需要在研发上投入更多,但长期来看,这确实是一个创新的解决方案。

除了技术难题外,冷却系统的用电也一直居高不下。有数据显示,冷却系统通常占数据中心平均电力消耗的40%,不少巨头都在努力降低冷却系统的能源消耗,但搞不好反而会弄巧成拙。

有论文研究称,数据中心每将送风温度提高1°C,可以降低大约2-5%的制冷功率,因此数据中心开始呈现把冷却系统温度从75℉(约23.9℃)提高到85℉(约29.4℃)的趋势,连谷歌也采取了这样的做法。

但这个做法还挺危险的,这相当于你设置的温度,距离数据中心能承受最高温度的缓冲区间缩窄了,反倒会导致系统性风险。

比如,2025年,新加坡一家数据中心运营商为了节省冷却成本,将温度提高到危险的临界水平,结果导致数据中心服务器大面积故障,这种情况持续了近一周,真是得不偿失。

同时,这篇论文也发出了警告:数据中心受到热攻击的原因之一,是因为采用了激进的冷却策略,也就是系统温度设置的太高,减少了冗余度。

所以如何让冷却系统更节能,成为了AI时代的挑战之一。

维谛技术的专家告诉我们,要降低冷却系统能耗,主要分为三大方向。

所谓的“自然冷”(Free-Cooling),是指利用室外的低温冷源,来给室内降温,达到降低能耗的一种技术方法。

想象一下冬天我们闷在房间里非常热,如果打开窗户让室外的冷空气进入,房间就凉快了,这就是自然冷。

而风侧自然冷,就是在窗户边放一些风扇向房间吹风,加速室外冷空气进入。

水侧自然冷和氟侧自然冷,则是将导体替换为了水和氟。

风侧自然冷受到地理限制较大,水侧自然冷蒸发的水太多,所以目前既省电又省水的方案,就是氟侧自然冷。

但这种方式就对技术提出了很大挑战,需要长期的积累经验,才能控制好整套系统。

除了节能环保外,如今数据中心还面临着芯片升级的挑战。

我们之前的文章中有提到,英伟达新出的Blackwell芯片,由于功耗上升,老旧的数据中心难以直接部署,甚至一些公司由于业务转型,需要将以CPU为主的计算设备,升级到以GPU为主,如何改造成了当下的难题。

数据中心如何升级?

既然冷却系统可以升级,为什么还有些企业会选择花很多资金重建数据中心呢?这就不得不说到,旧机房升级的瓶颈了。

为什么电力是制约数据中心升级的因素?AI爆发又给供电系统带来了哪些挑战呢?接下来我们聊聊供电系统。

03供电系统

给供电系统带来的挑战

我们在AI电力争夺战那期文章里讲过,AI数据中心带来了大量电能消耗,未来将给电网带来供应缺口,其实不止是外部的电网,AI数据中心内部的供电也同样面临巨大压力,其中很大的因素就在于占地面积。

正是因为这些难点,成为了老旧数据中心升级困难的原因,其中最为棘手的就是占地问题。

在解析这个问题前,为了便于大家理解,我们先简单介绍下供电系统的结构。

供电系统结构及占地问题

供电系统的结构主要分为四个层级:市电或发电机将电能输送到变配电系统,变配电系统会给冷却系统、不间断电源(UninterruptiblePowerSupply,即UPS)供电,UPS再将电能送到主机房的电源分配单元(PowerDistributionUnit,即PDU),由PDU给每个机柜分配电能。

其中发电机是为了在市电发生故障时有应急的电力输入,但发电机启动需要一定时间,而UPS包含了大容量电池,能保证服务器继续运行5到15分钟,为发电机启动争取时间。

当然,供电系统还会根据市电线路数和冗余结构的不同,分为DR架构、RR架构、2N架构,这里我们就不多赘述了。

那回到占地面积的问题,由于服务器功耗增加后,需要额外的供电设备,但是,供电设备实在太占地了。

所以有限的空间成了制约老旧数据中心升级的痛点,想发展AI,重建数据中心成了更好的选择。

但数据中心的设计寿命有20到30年,GPU换代一般是3~5年,总不能隔几年就重建一次吧,为此行业发展出了新的方向,那就是设备一体化。

设备一体化与效率提升

缩小其他设备的占地面积不光有利于老旧数据中心的升级,新的数据中心也能带来更高的经济效益,因为腾出来的空间就可以多摆点计算用的机柜、多一些算力,缩短模型的训练与推理时间。

除了缩小设备占地外,供电系统的另一个趋势是提升电能传输效率。

众所周知,每个设备都有电阻,电能在一层层设备的转换中,总会伴随着能量损失,如此一来为了满足服务器机柜的电能需求,前端的供配电设备需要留有更多冗余、占据更大面积。

而提升传输效率后,不仅能减少设备的数量,还能降低数据中心的能耗,达到节能减排的效果。

那该从哪些方面来提升效率呢?

最后,我们来聊聊顾华提到的第四个挑战,快速部署。有意思的是,行业为此竟然呈现出了“预制化”的趋势,这能行得通吗?

04建设周期与快速部署

如今全球的AI战正打的火热,急剧增长的算力需求促使着各大公司新建AI数据中心,这就对整行业提出了建设速度的要求,毕竟AI数据中心早一天上线,就能带来更多经济效益。

大家也在纷纷尝试创新的解决方案,譬如“木质数据中心”,用木材作为关键结构部件,来建设数据中心。

难道他们就不怕遇到地震、台风或者火灾啥的,把整个数据中心都弄没了吗?

万卡集群的AI数据中心,到底是如何运作的?

其实尽管木质数据中心听上去是个非常激进的概念,但早在2025年就有公司就建成并投入使用了。

他们使用的也并不是那种直接从树上锯下的木板,而是名为正交胶合木(Cross-LaminatedTimber,简称CLT)的建筑材料。

这种材料具有极高的强度和均匀性,直接作为承重墙板或者楼板使用都没问题,同时它还有耐火的特性,英国就有栋名为Stadthaus的九层楼公寓,采用了CLT材料建成。

木质材料不仅能满足环保的要求,还能通过预制化,将整体的建设速度,加快40%~80%。

当然,数据中心的建设不光是外部建筑,还有内部的基础设施需要定制。而现在,冷却系统与供电设备也走向了预制化的道路。

将设备由定制改为预制,就能大幅节省工程时间,但这其中又会存在匹配性的问题。

不同的数据中心,都有自己独特的需求,如果失去了“定制”这个环节,是否意味着预制化的设备难以大量铺开呢?

专家给我们解释道,所谓的预制化,其实是预制了各个部件的模块,在一个统一的平台下,可以将这些模块按需求来组装,这样就能满足不同的客户。

打个比方,就像我们买来的乐高积木,其实是很多通用的小块,它既可以拼成汽车,也能拼成飞机。

虽然我们常说,AI的飞跃源自芯片的积累,然而,为芯片运行打下基石的,是基础设施的技术进步,它们如同无形的“兵部尚书”,在幕后默默支持和调控着前线士兵的作战行动,让AI大模型训练顺利推进。

就像之前提到的,士兵的作战效率在提升,那么兵部尚书的水平也要相对提高,这对整个AI芯片的上下游市场都提出了更高的要求,是挑战也是机遇。

随着更高能力、更多参数以及更大AI模型的投入训练,也许我们会看到数据中心更快的升级迭代,有更多的技术创新来支持AI大模型的技术大战。