上周,华为全联接大会集中展示了华为最新最强的一系列创新。
今年最受关注的自然是超节点技术带来的算力风暴和突破。但超节点带来的算力突破还不是全部,超节点架构带动的开源开放,还会把这场风暴推得更深更远。
更加直观类比来说,这是一场华为发起的" AI 高速路"修路尝试,开放硬件相当于开放了修路材料,开源软件和灵衢组件相当于开源了修路方法和标准协议。
华为用开源开放,给出了中国 AI 高速公路枢纽建设的方案——
一个惠及各行业全场景,技术红利覆盖大中小各类玩家的生态。
大杀器超节点,华为决定开源开放
在华为全联接大会上,华为重磅发布创新的超节点架构,推出覆盖数据中心到工作站的全场景超节点新品。
Atlas 950 SuperPoD是面向超大型 AI 计算任务的最佳选择,从基础器件、协议算法到光电技术,实现了系统级的创新突破。
其通过正交架构,让 Atlas 950 实现零线缆电互联,采用液冷接头浮动盲插设计做到零漏液,独创的材料和工艺让光模块液冷可靠性提升一倍。
此外,Atlas 950 SuperPoD 创新的 UB-Mesh 递归直连拓扑网络架构,支持单板内、单板间和机架间的 NPU 全互联,以 64 卡为步长按需扩展,最大可实现 8192 卡无收敛全互联。
即便与英伟达产品对比,Atlas 950 超节点也优势显著。
相比计划明年下半年上市的 NVL144,其规模、总算力、内存容量、互联带宽分别达到后者的 56.8 倍、6.7 倍、15 倍(1152TB)、62 倍(16.3PB/s)。
即便对标英伟达 2027 年计划上市的 NVL576,依旧遥遥领先。
Atlas 850是业界首个企业级风冷 AI 超节点服务器,内部搭载 8 张昇腾 NPU,有效满足企业模型后训练、多场景推理等需求。
Atlas 850 支持多柜灵活部署,最大可形成 128 台 1024 卡的超节点集群,是目前业内唯一可在风冷机房实现超节点架构的算力集群,企业无需改造现有风冷机房即可部署算力集群。
Atlas 350 标卡采用最新的昇腾 950PR 芯片,向量算力提升 2 倍,支持更细粒度的 Cacheline 访问,在推荐推理场景可实现 2.5 倍性能提升,且单卡即可运行。
Atlas 350 支持灵衢端口互联,实现算力、内存等资源池化,让更大参数模型、更低时延应用可以在标卡上实现。
TaiShan 950 SuperPoD是华为推出的业界首款通算超节点,具备百纳秒级超低时延、Tb 级超大带宽和内存池化能力,能大幅提升数据库、虚机热迁移和大数据场景等业务性能,为通算性能提升开辟全新路径。
这一系列的超节点新品能实现从数据中心、企业部署、小型工作站的全场景覆盖,从而在硬件层面协同用户实现个性化部署,推动 AI 高速公路互通互联。
而就在超节点发布的同时,华为选择了全面的开放和开源。
首先是硬件层面的开放。
华为宣布全面开放超节点技术,与产业界共享技术红利,共同推动超节点技术走向普惠与协同创新。
一方面,开放灵衢协议和超节点参考架构,允许产业界基于技术规范自研相关产品或部件。
另一方面,全面开放超节点基础硬件,包括 NPU 模组、风冷刀片、液冷刀片、AI 标卡、CPU 主板和级联卡等不同形态的硬件,方便客户和伙伴进行增量开发,设计基于灵衢的各种产品。
其次是软件层面的开源。
超节点的运行离不开操作系统的深度支持,操作系统灵衢组件也将全部开源,组件代码将陆续合入 openEuler 等多个上游操作系统开源社区。
用户可以根据实际需求,将部分或全部源代码集成到现有操作系统中,自行迭代维护版本,也可以将整个组件直接合入现有操作系统,未来演进与开源社区版本同步。
开源是驱动技术创新和产业进步的核心力量,昇腾 CANN 全面开源开放,Mind 系列组件也同步开源,并支持 PyTorch、vLLM 等业界开源社区,加速开发者自主创新。
可以说,华为这一手硬件、一手软件直接开源了个痛快!
华为为何要开源?
一方面,开源能够和产业界、开发者社区基于超节点架构自研相关产品或部件、自定义调试调优、共享技术红利,加速产业协同发展。
另一方面,开源还有利于消费者按需取用、降低适配成本,打造面向行业的超节点场景化解决方案。
华为董事、ICT BG CEO 杨超斌表示:
华为将围绕超节点架构持续创新,让超节点技术不但用于大型数据中心,也可以用于企业级的数据中心和小型工作站。同时,坚持硬件开放,支持各个伙伴,灵活打造面向各个行业的超节点场景化解决方案。坚持软件开源,让开发者灵活高效创新,共建繁荣生态。
这就意味着,超节点技术不再是少数大型数据中心的专属利器,而是一个开放共享的算力生态。
每个行业、每个企业、每位开发者都能根据自身需求,灵活搭建自己的算力"高速路"。
无论是大型模型训练、复杂推理任务,还是企业级应用场景,用户都能按需获取硬件和软件能力,实现算力资源的高效利用和灵活扩展。
当前,超节点已广泛服务于互联网、金融、运营商、电力、制造等行业,帮助各类企业提升算力效率和业务能力:
把各个计算单元、存储单元等组件通过大带宽、低时延互联网络平等互联。
统一通信协议,省去额外协议转换开销。统一内存编址,实现全局资源池化,使有效算力能够随集群规模线性扩展。
通过灵衢协议的高可靠机制,并融入华为在通信上几十年的积累,大幅提升集群可靠性。
虽然多芯片互联、大规模计算节点以取代单芯片成为行业共识,但传统集群通过"服务器堆叠 + 以太网联接"扩展算力,往往带宽受限、时延高,而且随着规模越大效率也会越低、可靠性难以保障。
基于这一痛点,华为以超节点架构为"路基",通过灵衢互联协议,把分散的服务器深度互联,让集群像一台机器一样学习、推理与协作,为 AI 大模型和行业应用提供真正高效、稳定、可扩展的算力底座。
那么,什么是灵衢呢?
简单来说,灵衢(UnifiedBus)是一个面向超节点的互联协议,我们可以把它理解成一个开放共建的修路协议。
依托灵衢的超节点架构具备资源池化、线性扩展、长稳可靠等关键特性,从而实现计算、存储单元的大带宽和低时延互联,解决了传统集群规模上升可靠性降低的痛点。
不仅如此,灵衢还是开源的。
这就意味着,不规定唯一的修路方式,协议全面公开,大家可以因地制宜,在不同路况的搭建合适的车道。
结果就是——大家能自由开发系统、调度软件,生态越跑越繁荣。
开放共建:修路不独占
AI 算力生态,本质上是 "修建数据传输与调度的高速路"。
以英伟达的 NVLink 为例,它就像"工业园内部高速",服务 GPU 单机或机架内的数据传输——
这条路带宽高、延迟低,却因采用专有协议而相对封闭。
编译、传输、通信、驱动等规则均由其独家制定,无法与其他生态互联互通。
而华为则通过灵衢协议与超节点架构,走出了一条开放之路:
它构建的不是孤立路段,而是一套统一标准的 "综合交通枢纽"—— 从卡间互联的 "超高速磁悬浮",到机柜内互联的 "城市环线",再到机柜间互联的 "全国高铁网",均采用同一套协议规则。
这意味着数据如同车辆,从起点到终点无需换道、等待,可全程畅通。
同时,所有计算、内存、存储资源在此被打散、池化,系统能自动匹配最高效的调度路径,实现全局资源优化。
更关键的是,华为不仅自己 "修路",还将这套技术标准向全社会公开,邀请硬件厂商("建筑公司")、芯片企业("汽车制造商")共同参与,按统一标准研发硬件、适配产品,打破 "园区式" 封闭生态的隔阂,推动整个国产算力生态做大做强。
此前,AMD、Intel、Apple 等企业发布的开源 UALink,虽有类似开放尝试,但受限于软硬件积淀不足,难以支撑大规模扩展的算力网络。
就像杨超斌在会上提到的:当前,上下文长度和训练数据量激增,模型迭代速度加快、多任务协同与多轮推理、摩尔定律失效,行业的低时延等一系列要求,促使多芯片互联、大规模计算成为必然。
而想充分释放百亿亿次计算和万亿参数 AI 模型的潜力,关键在于服务器集群中每个 NPU 间能否实现快速、无缝的通信。
这些节点与集群,本质是数万到数十万个 NPU 拼接成的 "高性能引擎",其协同编排能力,正是算力生态的关键。
而华为的灵衢协议与超节点架构,不仅为开放硬件与开源软件提供了可行方案,也在真正的可用性上提供了另一种选择。
如同华为轮值董事长徐直军介绍,华为即将上线的 Atlas 950 超节点、Atlas 960 超节点、TaiShan 950 超节点以及 Atlas 950 SuperCluster 50 万卡集群和 Atlas 960 SuperCluster,都基于灵衢实现了更大的算力规模、更高的带宽和更低的时延。
对比当前全球最大集群 xAI Colossus,Atlas 950 SuperCluster 的规模是其 2.5 倍,算力是其 1.3 倍,堪称全球最强算力集群。
而就像我们开头提到的,Atlas 950 超节点较英伟达产品的性能也毫不逊色。
除了性能上的绝对优势,华为更以 "开放" 推动产业普惠。
让不同规模、需求的用户都能搭建自己的 " AI 高速路",参与全场景算力生态建设,最终实现硬件、软件、算法的共建共赢。
而对于中国 AI 算力生态乃至整个 AI 产业来说,这更是一种安全可靠可持续的选择,把 AI 建设在自己的基座之上,形成 AI 时代的标准和话语权。
并且因为我们拥有最大的市场,这种生态一旦闭环,将会形成全新的创新飞轮,如同新能源汽车已经实现的一样。
要致富,先修路。
AI 建设也是一样,但现在,华为率先提供了一条开源开放共赢的中国之路。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
亿融配资,配资交流平台,旭胜配资提示:文章来自网络,不代表本站观点。