正在加载数据...
  • 高端制造|生态环保|汽车|房地产|家居建材|家电|服装|时尚前沿|健康|医药|教育培训|能源化工|文旅

    航旅交运|食品饮品|科技|互联网|手机通信|电子|商业|金融保险|证券|安防|人工智能|乡村振兴|综合

  • 当前位置:南方企业新闻网>要闻> 商讯>正文内容
    • 从机柜到万卡集群 数据中心重构背后的产业逻辑
    • 2025年05月16日来源:中国IDC圈

    提要:短短两三年时间,AI已脱离实验室概念,实实在在地渗透进了各行各业中。从金融风控到智能制造,从医疗诊断到自动驾驶,AI大模型正以前所未有的速度被训练、部署、迭代。与之相应的,是AI对智能算力前所未有的庞大需求——据华为预测,(相比2023年)到2030年,通用计算能力将增长10倍,AI计算能力将增长500倍。

    短短两三年时间,AI已脱离实验室概念,实实在在地渗透进了各行各业中。从金融风控到智能制造,从医疗诊断到自动驾驶,AI大模型正以前所未有的速度被训练、部署、迭代。与之相应的,是AI对智能算力前所未有的庞大需求——据华为预测,(相比2023年)到2030年,通用计算能力将增长10倍,AI计算能力将增长500倍。

    这也意味着,对于算力基础设施需求也在同步提升,而传统的数据中心架构已经难以支撑如此庞大的计算任务。因此,庞大而复杂的算力基础设施体系正迎来一场深刻的变革——传统数据中心正从“通算”向“智算”演进,网络、存储、供电、冷却等基础设施也必须随之升级。

    从“通算”到“智算”

    智算中心毫无疑问是当前最热门的投资领域之一。根据中国IDC圈不完全统计,仅2025年一季度,立项或建设、投产的智算中心就多达165个,其中不乏投资过百亿,算力规模超万P的项目(相关详情:2025年165个新项目动态隐现3个关键信号)。

    但在这股建设热潮之下,哪怕是算力产业的从业者之间,一个疑问一直挥之不去:数据中心与智算中心,AIDC与DC到底有何区别?

    按照工信部印发的《算力基础设施高质量发展行动计划》定义,算力中心包括是以风火水电等基础设施和IT软硬件设备为主要构成,具备计算力、运载力和存储力的设施,包括通用数据中心、智能计算中心、超算中心等。

    其中,智能计算中心(智算中心)指通过使用大规模异构算力资源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要为人工智能应用(如人工智能深度学习模型开发、模型训练和模型推理等场景)提供所需算力、数据和算法的设施。智能计算中心涵盖设施、硬件、软件,并可提供从底层算力到顶层应用使能的全栈能力。

    而对于传统数据中心来说,其设计逻辑主要服务于通用计算场景,核心在于提供稳定的、可扩展的通用计算及存储环境。但在AI时代,数据密集型、并行计算的任务特征使得数据中心必须重新思考如何提升效率、降低延迟、增强弹性。尤其是在大规模AI集群部署中,通信瓶颈、资源利用率低、运维复杂等问题日益突出,成为制约AI应用落地的关键障碍。

    特别是大规模的智算集群实际运行远比想象中复杂。通信瓶颈、资源利用率低、故障响应慢等问题频繁出现,导致“纸面算力”和“有效算力”之间存在巨大落差。有业内人士透露,一些千卡级别的集群,在训练效率上甚至不如优化良好的几百卡系统。更不要提所谓“万卡集群”,投产即停运的传闻也经常在业内流传。

    这不仅是一个技术问题,更是一个系统工程问题。

    算网融合:突破算力瓶颈的新路径

    AI大模型训练是当前智算中心最重要的应用场景。根据AI大模训练的规模化法则(Scaling Law),模型性能与其规模、数据集大小以及算力之间存在的幂率关系,即随着三者的增长,模型性能也会随之增长。但反过来,一旦其中一个环节遇到瓶颈,那么模型性能的增长也会受限。

    对于算力来说,虽然理论上可以通过不断拓展芯片数量来达到更高的算力规模。但在实际的AI训练过程中,节点之间的数据交换频率极高。一旦各个节点——芯片、服务器、机柜之间的通信成为瓶颈,整个训练过程就会大幅拖慢,甚至中断。

    因此,“算网融合”成为了行业追求的目标。所谓算网融合,就是把网络作为核心环节纳入AI系统的整体设计中。通过构建高速、低延迟、无丢包的通信环境,让算力真正“流动起来”,而不是被困在节点之间。

    为了解决这个问题,算力产业巨头纷纷各出奇招。比如行业内某企业推出了自有的平台体系,通过专有网络,以成熟的铜缆网络大大提升了其图形处理芯片之间的通信效率,并且一度带动了铜价大涨。

    而在芯片、通信领域均掌握有核心技术的华为也独辟蹊径,推出“星河AI网络”,提供了一个典型的实践样本。其采用业界公用的ROCE无损网络技术,结合自研的NSLB算法,以创新的光通信网络实现了接近98%的通信吞吐率,大幅提升了训练效率。同时,通过光模块亚健康检测、丢包可视化等智能运维手段,也让网络的稳定性得到了保障。

    星河AI网络支持200G/400G高速互联,具备大规模组网能力。在万卡级别集群中,依然能保持稳定的通信带宽与低延迟表现,满足千亿参数模型的训练需求。其业界领先的双层收敛网络架构,可以大幅降低调优难度,提升集群整体的可用性。

    对于大规模智算集群的算力能力衡量,星河AI网络给出了明确的算力公式:集群总算力=单芯片算力x集群规模x有效算力效率x可用率。其中,有效算力效率指网络吞吐、性能加速能力;算力可用率则指算力稳定性,以月为单位计算。

    结合强大的网络通信能力,昇腾智能芯片通过华为集群通信库和作业调度平台,整合HCCS、 PCIe 和 RoCE 三种高速接口,实现集群级互联,充分释放出强大性能,帮助客户实现更快的进行图像、语音、自然语言等 AI 模型训练或推理应用。

    基于昇腾智能芯片的CloudMatrix 384(CM384)采用全连接拓扑结构连接384颗昇腾芯片,可提供约300 PetaFLOPS的BF16精度总计算能力。通过采用400G CPO(计算处理器接口),CM384可以大幅增强网络性能,优于传统服务器设计中的PCIe解决方案,行业认为其非常适合快速扩大我国计算能力供应以满足当前AI算力的需求。

    目前,星河AI网络与昇腾处理器已在多个大型智算中心落地实践,包括互联网头部企业、运营商、金融及能源行业的客户。在某万卡集群项目中,华为成功部署了超过9000张NPU卡、数百台交换机和数十PB存储设备,构建起全球领先的AI训练平台。

    极致密码:能效、运营、生态协同

    对于一个正在上升期的产业来说,性能是核心问题,但并不是全部。摆在当前算力产业者面前的,还有绿色发展、高效运营、产业合作等众多难题需要突破。

    AI芯片的功耗持续攀升,单台服务器的功率已超过10kW,整机柜甚至达到几十、上百千瓦。传统的风冷方案越来越吃力,供电系统也面临极限挑战。与此同时,国家“双碳”目标对数据中心的PUE提出了更高要求。

    国家发改委发布的《数据中心绿色低碳发展专项行动计划》明确要求,到 2025 年底,全国数据中心布局更加合理,整体上架率不低于 60%,平均电能利用效率降至 1.5 以下,可再生能源利用率年均增长 10%,平均单位算力能效和碳效显著提高。

    在这种压力下,液冷、风液混合制冷、动态能效调节等技术开始走向主流。华为提出的目标是PUE≤1.15,追求“极致能效”。通过精准控制冷却系统,结合负载感知机制,实现从芯片到机房的全链路节能。

    而当集群规模达到万卡级别,任何一次人为干预都可能带来巨大的时间成本。传统依赖经验判断和人工排查的方式,已经无法适应AI数据中心的高可用性需求,智算中心必须有符合其“智能”定位的智能运营模式。

    就此,华为引入了AI Agent智能运维模式,实现了端到端的自动故障处置。通过CCAE一体化运维工具,配合图形化流量分析、丢包监控等功能,华为智能运维平台可将平均修复时间(MTTR)从30分钟压缩到5分钟以内。

    然而,数据中心内部的技术再先进,产业却时刻需要面对一个更深层次的问题:供需错配。一边是大量昂贵的算力建设完成,另一边却是应用场景不足、资源利用率低下。尤其是在中小企业和垂直行业中,AI落地仍面临门槛高、适配难、维护难等问题。

    这反映出当前AI产业链的一个结构性问题:上下游尚未形成合力。芯片厂商、软件平台、云服务商、终端设备商各自为战,缺乏统一标准和协作机制。

    面对这一局面,华为采取开放心态,从软硬件到商业合作,促进生态上下游厂商共同合作,推动AI向更多场景渗透。技术只是基础,只有形成闭环、构建生态,才能真正释放AI的价值。

    回望来路,AI的发展不仅改变了我们对智能的理解,也在重塑整个数字基础设施的面貌。数据中心不再只是“幕后英雄”,而是承载着创新、决策和产业升级的重要平台。在这场基础设施的重构中,包括华为在内的产业参与者都在做着自己的探索,他们的每一步都在指向一个更成熟、更可持续的AI基础设施体系,为了AI真正走向产业、走进生活贡献自己的力量。

    为了更好的联合产业上下游,打造完善的智算生态,推动算网融合技术发展,由华为技术有限公司与中国IDC圈联合主办的“2025智算行业峰会——算网融合与数据中心创新论坛”将于2025年5月27日在北京举办,诚邀产业各界从业者共同参与,携手推动我国智算产业发展。

    了解会议详情&报名参会请参考下图



    责任编辑:杜烽
    相关新闻更多
      没有关键字相关信息!
    文章排行榜
    官方微博