Bye,英伟达!华为NPU,跑出了准万亿参数大模子
当今,跑准万亿参数的大模子,不错透顶跟英伟达 Say Goodbye 了。
迷水商城完成此举的,恰是华为!
本事讨教:arxiv.org/abs/2505.04519
要知谈,在此之前,考验万亿参数大模子这事,是有诸多"拦路虎"在身上的。
举例负载平衡难、通讯支出大、考验遵守低等等。
而华为盘古团队(包含诺亚方舟现实室、华为云等)基于昇腾国产算力平台,一举攻破了上述总共的挑战——
6000+ 块昇腾 NPU 集群上完成了7180 亿(718B)参数 MoE 模子的始终平稳考验,并通过多项冲破性系统优化本事竣事了权贵性能擢升。
迷水商城迷水商城这些更正大幅提高了考验遵守,复古了行业顶尖水平模子的斥地!
不得不说,"国产"二字在大模子硬件上的含金量还在抓续上涨。
迷水商城纯国产 NPU,丝滑跑通准万亿参数大模子
迷水商城在拆解华为一系列"黑科技"之前,咱们先需要更长远地了解一下考验超大参数 MoE 模子背后的防碍。
总体来看,在这条路上有"四大金刚"在严阵把守。
来源就是架构参数优化难题,需在繁密参数组合中探索最优确立,缱绻适配昇腾 NPU 的大规模 MoE 架构,竣事计较资源的高效利用。
其次是动态负载平衡挑战,路由机制需要智能分派任务,幸免众人资源分派不均;这种抵抗衡不仅会因"木桶效应"裁减考验遵守,更可能导致模子不断特别,影响最终性能发达。
还有分散式通讯的瓶颈,在近万亿参数规模下,token 在不同计较节点间的众人流转会产生巨大通讯支出,"通讯墙"问题成为制约考验遵守的重要成分。
终末就是硬件适配复杂度,竣事 MoE 算法与昇腾 NPU 等专用 AI 加快器的深度协同,需要买通算法缱绻、软件框架和硬件秉性的全栈优化,充分开释硬件计较后劲。
针对这些问题,华为的这份本事讨教分别从模子架构、MoE 考验分析、系统优化等方面,详备先容了其若何见招拆招。
来源就是MoE 结构选型与昇腾亲和结构优化。
团队先进行先导现实,折服了细粒度众人加上分享众人这么的范式。随后在模子选型的时候,谈判了多个方面的成分。
在计较与访存亲和方面,通过增大模子里的 hidden size(避讳层大小),同期裁减激活参数目,这么不仅能擢升模子的计较量,还不错裁减访存量,提高了模子考验时对算力的利用率,以及推理时的糊涂量。
在多维并行亲和方面,选定数目为 2 的指数级的众人数目,达成了 TP8 × EP4 超交融并行的气象。
期骗 TP-extend-EP 本事,幸免因 TP 切分细粒度众人形成 MatMul(矩阵乘法)等算子的遵守下落,同期使用分组 AllToAll 通讯本事来减少 EP 通讯所产生的支出。
在 DaVinci 架构亲和方面,将张量按照 256 进行对王人处理,使其能完竣匹配 16 × 16 矩阵计较单位,充分开释昇腾 NPU 的算力。
迷水商城在活水线编排亲和方面,选定 PP(活水线并行)、VPP(可变活水线并行)、空层等本事,竣事 PP 和 VPP 的负载平衡,减少计较资源闲置(空泡)的情况。
在模子结构仿真方面,团队凭据硬件的适配特质,对模子参数的礼聘范围进行了大幅疗养,把蓝本雄壮的参数搜索空间平缓到了 10000 个傍边。
为了能更准确地知谈不同模子的性能极限,团队斥地了一套有益的建师法真器具。这个器具很狠恶,它把模子结构、运转时选定的计谋,还有硬件系统,都拆分红了一个个小的参数。
通过对算子、Block、Layer 这些层级的计较、数据传输和读取操作进行模拟,就能算出模子从新到尾的举座性能。经过和骨子测试数据对比,发现这个仿真器具的准确率能达到 85% 以上。
团队用这个建师法真器具,把总共合适硬件适配条件的参数组合都测试了一遍,仔细评估它们在考验和推理时的数据处理速率,终末找到了性能相对更好的模子结构,具体情况不错看底下的图。

接下来,咱们再看下MoE 考验的分析。
在考验 MoE 模子的时候,和平日的粘稠模子比拟,有个尽头让东谈主头疼的问题,就是负载不平衡。
迷水商城打个譬如,就像一群东谈骨干活,有的东谈主忙得不行开交,有的东谈主却闲着没事干,这么遵守折服高不了。
为了处置这个问题,科研界从算法角度想了好多见地,建议了各种种种的赞助亏蚀函数,这些函数怜惜的平衡范围不太雷同。
比如,早期有有益针对序列级别的平衡赞助亏蚀,还有通义千问建议的 DP - Group(也就是全局批次大小)平衡赞助亏蚀。
这些赞助亏蚀函数,就像是给 MoE 模子里的路由模块(持重分派任务的部分)定了规矩,通过不同进程的料理,让它把任务分派得更均匀一些。具体的料理情况,都整理鄙人面的表格里了。
迷水商城△Balance BSZ 暗意用来计较众人礼聘频率的 tokens 个数
团队还研发出了一种全新的 EP 组负载平衡亏蚀计法。
和传统的 micro-batch 赞助亏蚀比拟,它不会过度强求局部任务分派的王人备平衡,幸免了"矫枉过正";跟 DP 组的平衡亏蚀比起来,它在数据传输时破费的资源更少,能从简不少通讯资本。
而且在对众人任务量的料理进程上,它处于两者之间,是个更折中的决策。
为了考证这个新算法的成果,团队在一个总参数目达 200 亿(20B)的先导 MoE 模子上,有益作念了消融现实,具体情况如下:
迷水商城为了嘱咐众人负载不均的"木桶效应",MoE 不错选定 drop-and-pad 的气象来擢升考验的糊涂。
团队来源在一个 20B 的先导 MoE 上对比了不同众人总额下 drop-and-pad 和 dropless 的性能:
终结自满,dropless 老是优于 drop-and-pad 决策。
况兼这种性能的差距会跟着众人数变多、模子参数变大而进一步放大。
壮阳情趣迷药因此在考验盘古 Ultra MoE 时选定了 dropless 的决策,并重心优化了这一计谋下的考验遵守。
具体而言,团队从四个重要标的对盘古 Ultra MoE 模子进行了全面优化,包括改良并行计较计谋、优化数据传输遵守、擢升显存使用成果,以及让任务分派更均匀。
在由 6000+ 个昇腾 NPU 组成的大型计较集群上,模子的算力利用率(MFU,即 Model FLOPs Utilization)达到了 30.0% ,和优化前比拟,擢升幅度高达 58.7%。
团队用一套能模拟全经过的模子仿真系统,情药配方反复考验寻找最好的并行计较决策。
迷水商城最终折服的决策是:选定 16 路活水线并行、8 路张量并行、4 路众人并行、2 路虚构活水线并行,以及 48 路数据并行。
在众人并行这块,团队用了 TP 拓展 EP 的计谋。
肤浅来说,就是让 TP 组来分辩众人数目,这么作念能幸免因为 TP 组拆分众人参数,导致 GMM 算子在处理小规模众人数据时遵守暴跌的问题。
通盘系统里,众人组总额是 32 组(TP 和 EP 组共计较得出),一共分辩红 256 个众人。
虚构活水线并行计谋成果尽头好,往时考验时,计较资源闲置(空泡率)的情况占 18.98%,用了新计谋后,平直降到 10.49% 。
迷水商城同期,通过合理分派 MTP 层和亏蚀函数层的任务,把任务分派不平衡导致的负载溢出,适度在 5% 以内,大大减少了任务分派不均带来的负面影响。
为了处置并行膨胀中的通讯瓶颈,团队还缱绻了两个主要本事。
来源就是Hierarchical EP Communication 分级 EP 通讯。
比拟机内通讯,跨机通讯带宽较低。团队选定分级 EP 通讯,减少跨机通讯量。
具体来说,选定跨机 Allgather 通讯将总共 tokens 同步到机内,然后在机内对 token 排序并选定机内 AlltoAll 通讯对 tokens 从新分派。
机内通讯和机间通讯都不错通过前反向通讯遮掩本事遮掩,从下图的通讯量对比不错看到分级 EP 通讯对跨机通讯量减少的成果。
其次是Adaptive Pipe Overlap Mechanism 自顺应前反向遮掩计谋。
即使选定分级 EP 通讯计谋,EP 通讯的耗时占比仍然很高。前反向的大部分 EP 通讯与计较均具有依赖干系,当然遮掩计谋会泄露大部分 EP 通讯。
淌若选定通算交融算子等自遮掩计谋,又不行幸免地会裁减计较遵守。
因此,团队选定基于 VPP 调理的自顺应前反向遮掩计谋,竣事如下图经过的前向计较遮掩反向通讯,反向计较遮掩前向通讯。
中枢缱绻包括:利用机间与机内通讯链路带宽沉寂特质竣事机内通讯与机间通讯的相互遮掩,利用算子的灵验排布缓解 host bound,将众人反向 dw 计较与 dx 计较分离作念更细粒度的遮掩。
对显存进行优化时,团队选定了新的计较气象。
不再使用传统的全重计较,而是对细粒度模块,像 MLA、Permute 和激活函数进行从新计较,这么能幸免非凡的计较消耗。
同期,期骗 Tensor Swapping 本事,把从新计较不太合算的激活值,先悠扬到 CPU 那里,等需要反向计较时再提前取回首,让 NPU 内存取得更高效的利用。
团队还在相干新的显存从简门径,准备把多种优化计谋组合起来,凭据不同的缔造确立,找到最妥当的组合,既能提高显存利用率,又不会裁减模子性能。
让每台缔造上众人处理的任务量(token 数目)尽量均匀,能大幅擢升考验遵守。
为此,团队缱绻了一套动态的缔造级负载平衡机制。
来源,筹画器就像一个"小管家",通过不雅察一段时刻内众人的使命负载情况,展望翌日的任务量,再用贪默算法筹画出若何从新分派众人,让缔造间的任务更平衡。
然后,实行器按时举止,把不同 Transformer 层的众人参数和优化器现象在缔造间悠扬。通过这种动态疗养,模子的 MFU 提高了 10%。
除了上头这些,团队还斥地了一些有益适配昇腾缔造的本事,包括主机端优化、计较卸载与数据分享,以及交融算子。
算子下发优化:为了处置 host 端性能瓶颈问题,团队减少了那些需要通常同步操作的算子,幸免不消要的恭候。同期,使用细粒度 CPU 绑核本事,让 CPU 和 NPU 融合得更好,任务下发更顺畅。
迷水商城计较卸载与数据分享:当遭遇 NPU 处理起来遵守低的数据计较,梗概在 TP 区域内数据传输慢的情况,作家把这些不妥当 NPU 的计较从主计较经过平分离出来,交给 CPU 在数据加载时处理。再聚合数据分享本事,让合并节点内的计较和数据传输速率都大大提高。
交融算子:除了盘古粘稠模子里已有的 FlashAttention 和 RMSNorm 交融算子,团队在 MoE 模子里又加入了 GMMAdd、Permute 和 Umpermute 交融算子。GMMAdd 交融算子把 GroupedMatMul 的反向计较和梯度累加放在沿路处理,利用并行和活水线本事减少调理时刻。Permute 和 Unpermute 交融算子整合了多种操作,能更快地读写内存。
现实终结
在考验数据集构建过程中,团队实施严格的数据质地适度,并防御强调语料库的各种性、复杂性和全面性。
针对长链想维样本引入特殊标记象征对推理轨迹与最终谜底进行结构化分隔。
后考验阶段选定辅导微调计谋,数据涵盖领域无为,包含通用问答、文本生成、语义分类、代码编程、数理逻辑推理及器具使用等。
尽头将推理与非推理样本比例设定为 3:1,进一步擢升推感性能。
现实标明,盘古 Ultra MoE 对话版块在多领域均展现出不凡竞争力,在大大量 benchmark 上与 DeepSeek-R1 发达极度。比如通用理罢黜务(如 CLUEWSC 94.8 分、MMLU 91.5 分)中展现不凡和会力,在数学推理与代码生成等高难度测试(如 AIME2024 81.3 分、MBPP+ 81.2 分)中发达优异,具备超越的代码与数学解题才智。
团队还对盘古 Ultra MoE 进行了众人专科度分析。
在不同任务中,合并网罗层的 token 会被优先路由至不同众人,众人专科化进程存在权贵任务互异性。
这阐明了盘古 Ultra MoE 已形成权贵的众人互异化,这种秉性不仅增强了模子的抒发才智,更为其不凡性能提供了重要复古。
盘古 Ultra MoE 的 MoE 层输出由分享众人和路由众人共同孝敬的加权和组成。
因此,保抓二者输出的平衡至关重要。
下图中展示了路由众人在各网罗层均保抓着与分享众人极度的孝敬强度,这种平衡的协同作用灵验擢升了模子的举座表征才智。
团队还分析了众人的共激活表象,激活分数越高,说明两个众人之间的有关性越强。
鄙人图中,除少数例外情况外,这三层中的众人之间并未出现泄露的共激活表象,这反馈了盘古 Ultra MoE 的众人冗余度较低。
迷水商城以上等于华为国产 NPU 跑准万亿参数大模子背后的奥义了。
迷水商城华为盘古 Ultra MoE 本事的冲破,不仅标志着国产算力平台在 AI 大模子考验领域迈入寰球最初行列,更彰显了中国科技自主更正的强壮实力。
它讲明了中国企业在群众 AI 竞赛中已具备从跟跑到并跑,致使领跑的实力。
翌日,跟着本事的抓续迭代与应用场景的拓展,盘古 Ultra MoE 将为千行百业的智能化转型注入强盛能源,助力中国在新一轮科技革射中占据制高点,为东谈主类科技跳跃孝敬更多"中国智谋"。
一键三连「点赞」「转发」「小心心」
接待在研究区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见