超节点，不是万能药 - 英和 ( 江苏 ) 数据有限公司

当大模型训练迈入万卡、十万卡规模，算力的竞争已不再停留在单芯片、单服务器层面，而是进入以“超节点”为核心的阶段。所谓超节点，本质上是将数十甚至数百张GPU通过高速互联紧密耦合，在物理上尽可能缩短距离、在逻辑上近似一台“超级计算机”，以换取更低时延与更高效率。

在第二十届IDC产业年度大典（IDCC 2025）上，围绕超节点的讨论明显升温。从设备厂商到云厂商，从能源企业到算力运营商，产业链各方都在重构自己的坐标。本文基于IDCC 2025多位嘉宾的演讲内容，为大家拆解超节点的真实逻辑，探讨它在重塑效率的同时，又在透支什么？

supernode-2 (1)

超节点为何必然出现？

在传统IDC时代，服务器是最小自治单元，机柜只是物理容器，网络负责把算力拼接起来。但在AI时代，这一结构开始失效。

华为数据中心能源及关键供电产品线副总裁阳必飞指出，“英伟达的数据显示，从H100演进至B100，单位功率从几十千瓦增长至NVL272、NVL144的650千瓦，未来甚至可能迈向兆瓦级。超节点功率将从54千瓦逐步走向100千瓦、200千瓦，这代表了超节点向高密部署发展的必然趋势。”

当单卡功耗从百瓦攀升至千瓦级，传统Scale out模式迅速暴露出瓶颈。网络距离拉长、光模块成本上升、通信抖动放大，都会直接吞噬模型训练效率。阳必飞强调到，“智算时代网络至关重要，必须考量时延与成本。”

超节点的出现，正是对“网络成为瓶颈”的一次直接回应。通过在机柜内甚至跨柜实现 GPU 的高带宽互联，算力不再依赖跨机房、跨楼层的网络通信，从而显著降低延迟与能耗。

军事科学院军事科学信息研究中心高级工程师张鸿斌指出，“超节点追求极致性能和最小网络延迟，因此通过时钟同步将单节点做大，以获取最准确的数据传输。”

然而，超节点的出现并非没有代价。单柜功率从50千瓦跃升至100千瓦、200千瓦，甚至被预测将迈向兆瓦级，意味着机柜、供电、制冷、网络和运维等都要被彻底重写。超节点提升了算力密度，却同步放大了基础设施的风险密度，这种结构性张力，构成了产业争议的起点。

这也就是为什么超节点常常与“高密、液冷、兆瓦级机柜”等关键词绑定出现。它并不追求算力的普适性，而是试图在有限空间内，用工程手段换取并行效率。

supernode-4

高密是一种趋势，但不是所有算力的答案

在超节点话题不断升温的同时，一个容易被忽视的事实是：并非所有算力需求都需要走向超高密。阳必飞在演讲中强调，“算力‘多元化’特征，既包括厂商路线的多元，也包括算力密度的多元。基础大模型训练确实需要利用集群和超节点进行超高密计算，但自动驾驶推理、视频解析等推理场景仍会使用低密计算。”

浩云长盛CTO 檀志恒对此表示认同，“面临功率密度随芯片技术创新而快速提升的现实（如英伟达超节点单柜从100千瓦提升至200千瓦以上），低功率机柜短期内不会消失。”

这一判断在服务器整机领域得到了印证。超聚变智能数据中心CTO单彤表示，“在超节点的发展路径上，国内外正在走出两条路线。尽管在互联带宽和芯片制程层面可以相互借鉴，但受制于制程工艺落后一到两代的现实，国内在相同架构下往往面临更快的功耗增长，这就需要根据实际需求引入超节点。”

单彤指出，“目前八模组服务器仍是主力形态。虽然它尚未承担万亿参数级别的超大模型训练任务，但在非万亿参数训练以及更广泛的推理场景中，仍将长期存在并持续演进。与此同时，其单机功耗已从早期的6千瓦，快速提升至2025年的15千瓦，未来甚至可能达到20–25千瓦。”

值得一提的是，数据中心的生命周期通常长达十年甚至二十年，而AI芯片却保持着一年一小代、两年一大代的迭代节奏。这意味着，超节点所追求的极致密度，很可能在还未完全释放价值前，就面临代际不匹配的风险。

因此，高密部署确实是一种趋势，但不应被简单等同于“先进”。真正成熟的算力体系，应当是在高密与低密之间实现结构性平衡，在技术演进与经济效率之间找到最优解。只有在需求驱动下进行精准匹配，而非盲目追逐密度指标，算力建设才能避免过度配置，走向更加可持续的发展路径。

supernode-2的副本

从机柜到园区，超节点正在推高系统性风险

如果说单柜功率突破百千瓦只是工程挑战，那么当超节点被规模化部署后，其真正的影响将体现在园区层面。多位嘉宾在IDCC2025上反复提及一个数字：GW 级园区。

阳必飞指出，“当Scale up达到一定程度后，必须进行Scale out以构建集群。芯片级别为千瓦级，服务器为10千瓦级，机柜可能达到100千瓦级，而以384卡为例的超节点已接近兆瓦级，未来集群将达到百兆瓦级，园区则迈向GW级。GW级园区一年的耗电量可能高达50亿度，如何提升能效至关重要。”

更现实的矛盾在于，超节点将大量算力压缩在极少数物理单元中，一旦出现硬件、液冷或网络级故障，风险被同步放大。过去集群时代“局部失效、整体退化”的容错逻辑，在超节点场景下变得更加脆弱，这对调度系统、软件栈稳定性提出了远高于以往的要求。

与此同时，它还带来了运维与稳定性的挑战。负载波动、瞬时冲击、电源冗余、储能配置，都会在超节点环境下被放大。一旦系统稳定性不足，超节点不仅不会提升效率，反而可能成为“故障放大器”。

因此，超节点所带来的并非线性效率提升，而是一种“以集中换效率、以复杂换性能”的博弈结构。产业是否真的准备好为这种结构买单，远比技术参数本身更值得讨论。

supernode-4的副本

在“超”与“不超”之间，产业需要回归理性

回顾IDCC2025的演讲中可以发现，几乎没有嘉宾否认超节点的重要性，但同样少有人认为它是唯一答案。

中国信通院人工智能研究所所长魏凯表示，“当前大家正思考如何发挥智算系统的综合效益，即“优化”。大模型推理和训练效率极大提升，得益于软硬件的深度协同——利用软件极致压榨硬件潜力。从大容量带宽、存储技术、卡间互联、超节点技术到上层分布式框架，智算技术正向联合优化转变。”

当模型通过算法优化、精度调整和并行策略不断“压榨”硬件潜力时，单纯堆叠硬件的边际收益正在下降。超节点如果无法与软件、调度和生态协同，最终可能沦为高成本的“算力堆栈”。这也是为什么越来越多厂商开始强调开源、互联和异构协同，而非单一形态的极限性能。

超节点无疑重塑了算力产业的想象空间，但真正的分水岭并不在于“是否采用超节点”，而在于是否能在效率、成本与风险之间找到新的平衡点。在这场高密度竞赛中，理性可能比盲目追逐更加稀缺。