芯片之后,散热登场,AI陷入新瓶颈

作者/文森特

编辑/嘉嘉

制约AI发展的最大瓶颈是什么?有人说是算力储存这类芯片,也有人说是具体的落地场景,还有人说是算法的迭代升级……

这些是AI发展的影响因素,但如今最大的制约因素却是电力能耗——有没有足够的电能支持AI发展将成为算力芯片潮之后的新瓶颈。

可以说,在未来,谁有足够的电能或是谁能够大幅度降低能耗,谁就能够在AI赛道上取得先手,为此不论是国外还是国内,AI大厂们纷纷开始开源节流措施,让自己在新的一轮电力竞争中获得优势。

【1】电力成为AI新瓶颈

“今年晚些时候,除中国外,可能出现芯片产能过剩却无足够电力驱动的情况。很快,我们生产的芯片将多到没有足够的电来运行它们。”

在今年3月举办的达沃斯论坛上,马斯克向火热的AI行业泼出了一盆冷水,制约AI发展的瓶颈不再是算力芯片,而是更为基础的电力能源。

很多人没有意识到,在大模型算力高速增长的背后,是AI功率和能耗的指数级增长。

2018年,Open AI训练GPT-1时,训练能耗约为0.1MWh,但在五年之后的2023年,Open AI训练GPT-4时,训练能耗直接翻了50万倍,达到惊人的5万MWh。

主要的原因是GPU芯片使用量的大幅度提升,训练GPT-1一共只使用了 8–16 块 V100 GPU,而到了GPT-4时,Open AI共调用了25000块英伟达A100 GPU。

模型复杂化、算力芯片的暴增,直接带来AI训练能耗的指数级增长,其实AI对电能的吞噬,不仅是在训练上,在B端、C端用户的日常使用中,AI消耗的电能同样超乎想象。

数据显示:ChatGPT每天要响应大约2亿个请求,这个过程会消耗超过50万度电力,相当于一个小型工业园区的全天用电总和。

这还只是Open AI一家公司一款产品的电能消耗,整个AI行业已经成为全球电能最大的增量。

国际能源署报告显示:2025年,全球数据中心总用电量达到0.65万亿度,中远期全球AI数据中心的总能耗将达到4.3亿度,超过当前美国4亿度的全年总用电量。

更为关键的是,在AI行业电力需求呈现出爆发式指数增长的同时,全球发电量却呈现3.3%的龟速增长。

美国能源部预计到2028年,每100度电,12度电都将被AI数据中心消耗。

而这样的行业现状也引起了大佬们的普遍担忧,黄仁勋多次发出“电力掐住了AI的咽喉”“电网成了AI的新天花板”等警告性言论。

可以说,在未来几年,AI的瓶颈不再是算力芯片,而是电能。

【2】加强发电中心建设

相比马斯克、黄仁勋的呼吁,AI大厂们则更早地感受到了电力短缺带来的影响:

微软CEO纳德拉公开表示:因无法找到足够的电力来运行仓库中已有的 GPU,导致约800亿美元的Azure 订单无法履约;

OpenAI提交的报告中直接显示:电力不仅仅是一种公用事业,更是一项战略资产,对于建设人工智能基础设施至关重要。

缺电已经成为海外AI巨头们面临的新挑战,为此这些企业开始集体“开源”:

2025年10月,Meta俄亥俄州数据中心放弃电网接入,改由管道公司Williams建设天然气发电站,从而保障数据中心所需要的电能;

11月,谷歌与道达尔签订长达十五年的可再生电力供给协议,届时道达尔直接向谷歌位于俄亥俄州的超大规模AI数据中心供应电力;

2026年3月5日,微软、谷歌、OpenAI、亚马逊、Meta和甲骨文等巨头联合签署了“自主供电”承诺,不与居民抢夺电力,而是自行供应AI所需要的电力;

3月9日,谷歌和特斯拉宣布组建“电网利用联盟”,希望利用储能、虚拟电厂等技术激活电网闲置容量,保障旗下AI业务的供电量;

3月12日,xAI获得批准运行41台甲烷燃气轮机,为“巨像2号”数据中心的AI超级计算机供电;

……

可以说,在AI巨大的电力需求面前,海外AI公司都在自建电站自救,甚至在1月达沃斯世界经济论坛上,马斯克表示,要将数据中心放在太空上,通过太阳能发电满足日益增长的能耗需求。

与国外AI巨头面临电荒,需要自建电网不同,中国AI企业则没有相似的感受。

原因在于以下几点:一是中国年发电量10万亿千瓦时的底气;二是中国掌握了特高压输电等在内的整套核心专利和产业;三是通过产业布局,如“东数西算”工程、“算电协同”战略,将算力中心布局在贵州、内蒙古等能源省份。

“中国在电的问题上,没有必要像美国人那么焦虑,以我们今天的算力规模来看,中国现有的电力供给其实是相当充足的”,在接受媒体采访时,中国工程院院士王坚表示,对于中国而言,电力从来不是AI发展的问题。

【3】降耗成为AI新常态

基于国内电网遥遥领先的水平,中国AI厂商不用担心用电荒,但同谷歌、Meta等海外厂商一样,也要面临降低能耗的问题——为了降低AI不断飙升的成本。

在当前情况下,为了保持发展,算力能耗不可能降低,所以多数企业将目标放在了散热能耗中,据司库财经了解,为服务器降温散热所需要的能耗,约占算力中心总能耗的40%。

“当AI训练集群将功率密度推至40千瓦以上,相当于把20台家用电暖器塞进一个冰箱大小的机柜同时烤火,产生的热量几分钟就能烧开一浴缸水”,此前浪潮通信副总经理郭振君曾对媒体表示,服务器散热比想象中的难度更大。

据了解,此前多数的服务器是风冷,即通过加装风扇,通过空气流动带走热量,但当服务器能耗功率小时,风冷尚能满足服务器需求,而一旦功率飙升,因物理限制,风冷根本起不到散热作用。

传统散热已经到了极限,而液冷则是将服务器浸泡到高比热容的液体,空气与液体在比热容上的物理差异,液冷在AI服务器能效上有着天然优势。

液冷与风冷有着巨大的差异,目前采用风冷的数据中心,能源使用效率为1.5左右,每用1.5度电,即AI数据中心在计算存储时,每耗费1度电,就额外需要0.5度用于散热冷却。

而液冷在散热能耗的表现上则呈现指数级的进步,以华为的液冷方案为例,浸没式液冷能将能源使用效率提升至1.05,即AI数据中心在计算存储时,每耗费1度电,用在散热上的电量只需要0.05度。

从以上数据对比中不难看出,液冷的散热能耗只有风冷的十分之一,这也意味着,能够节省大量的成本——华为数据显示:一个5万台服务器的数据中心,如果采用浸没式液冷方案,一年能够节省1.2亿电费。

西南证券在一份研究报告中直接指出,AI对电力消耗越来越大,成本越来越高,再加上散热这件事本身巨大的耗电量,因此成本更低、耗能更小的散热方案将进入一个新时代。

高盛在一份报告中预测:2024年,液冷在AI训练服务器领域的渗透率只有15%,但在2027年,将会飙升到80%。

可以说,在AI耗电不断攀升、散热处理难的大背景下,液冷尤其是浸没式液冷正在成为行业的标配。

人工智能的发展正站在一个全新的十字路口。曾经,我们以为芯片是AI前进的唯一引擎;如今,电力正在成为新的天花板,散热则成为破局的关键钥匙。

相比之下,中国凭借强大的电力基础设施、领先的特高压技术和前瞻性的产业布局,在这场全球AI电力竞赛中占据了独特的先发优势。但“不缺电”并不等于“无忧虑”,决定AI不仅有算力更要看经济效益。

如果说,算力定义了AI的起点,那么对于如今的行业而言,电力与散热将共同决定AI能够走多远。

特别声明:本文为合作媒体授权DoNews专栏转载,文章版权归原作者及原出处所有。文章系作者个人观点,不代表DoNews专栏的立场,转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)

标签: 芯片 AI
芯片之后,散热登场,AI陷入新瓶颈
扫描二维码查看原文
分享自DoNews
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1