九游体育app娱乐团队继承了 AdamW 中的一些性格-九游(jiuyou)体育官方网站-登录入口

game show 新闻

你的位置：九游(jiuyou)体育官方网站-登录入口 > 新闻 > 九游体育app娱乐团队继承了 AdamW 中的一些性格-九游(jiuyou)体育官方网站-登录入口

2026-04-12 15:35 点击次数：85

算力需求比 AdamW 直降 48%，OpenAI 时期东谈主员建议的历练优化算法 Muon，被月之暗面团队又鼓动了一步！

团队发现了 Muon 智商的 Scaling Law，作念出纠正并诠释了 Muon 对更大的模子一样适用。

在参数目最高 1.5B 的不同 Llama 架构模子上，纠正后的 Muon 算力需求仅为 AdamW 的 52%。

同期团队还基于 DeepSeek 架构历练出了一个 16B 的 MoE 模子，与纠正后的优化算法一同开源。

Muon 时期博客发布那时主要适用于较小的模子和数据集，作家留住了三个悬而未决的问题：

Muon 能否用于更大畛域的历练？

Muon 能否在更大畛域的 GPU 集群上使用？

Muon 是否一样适用于微长入强化学习？

现时月暗团队用实际给出了回话——一齐都是 Yes。

讯息一出，那时 Muon 的作家也都很兴隆，主要作家Keller Jordan示意这是 Muon 畛域化的首个到手讲演，为团队奉上了道喜。

另别称孝敬者，那时认真 Muon 畛域化实际的 Hyperbolic Labs 联创兼 CTO Yuchen Jin也示意，月暗团队的这项后果，是 Muon 的一次到手。

将 AdamW 性格引入 Muon

在先容月暗团队的使命之前，先来了解一下 Muon 是个什么样的时期。

这是一种神经收集掩蔽层的 2D 参数优化器，主要作家是 OpenAI 深度学习团队的 Keller Jordan。

这项后果发表于昨年的 12 月 8 日，而 Keller 亦然昨年 12 月加入的 OpenAI。

Muon 的中枢想想是通过正交化梯度更新矩阵，幸免参数更新堕入局部极小，使模子约略学习到愈加各样化的特征示意。

在 94% 的精度下，Muon 把 CIFAR-10 在 A100 上的历练时刻从 3.3 秒裁减至 2.6 秒。

不外那时 Muon 团队只诠释了其在袖珍模子和数据集上的可行性，关于较大的模子能否适用则是个未知数。

现时经过月暗团队的纠正之后，Muon被诠释关于更大的模子和数据集一样适用。

针对模子本人，团队继承了 AdamW 中的一些性格，移植到了 Muon 当中，具体包括两个方面。

一是引入了权重衰减机制，在权重更新公式中添加了一个带有衰减统统的项。

这么作念的原因是作家发现获胜将 Muon 诓骗到大畛域历练时，模子权重和层输出的幅度会捏续增长，最终超出 bf16 的高精度示意范围，毁伤模子性能。

在历练一个 8 亿参数模子至 100B tokens（约 5 倍策画预算最优）的历程中，团队对比了 AdamW、无权重衰减的 Muon 和带权重衰减的 Muon。

收尾表现，带权重衰减的 Muon 在过拟合阶段获取了最好效果，考据了权重衰减的必要性。

第二项纠正，是养息了 Muon 的参数更新模范，使不同局面矩阵参数的更新幅度保捏一致，并与 AdamW 的更新幅度匹配。

Muon 的一个性格是，关于局面为 [ A,B ] 的矩阵参数，其表面更新幅度为 sqrt ( 1/max ( A,B ) ) 。

这导致不同局面矩阵参数的更新幅度各异很大，比如关于 MLP 这种宽矩阵，更新会过小，而将每个 head 看作孤独矩阵时，更新又会过大。

此外，这个幅度也与 AdamW 不一致，给超参数的配置带来贫乏。

为了让不同矩阵参数的更新幅度匹配，并与 AdamW 保捏一致，作家尝试了几种纠正决议，最终礼聘获胜基于局面养息每个参数的学习率。

其中 0.2 是通过实际信赖的一个常数，用于将 Muon 的更新模范与 AdamW 对王人。

除了对 Muon 本人的纠正，要想将 Muon 用于更大畛域的历练，还需要将其推广到散布式历练环境中。

由于 Muon 需要完满的梯度矩阵来策画正交化的更新量，而现存的散布式历练框架（如 ZeRO-1、Megatron-LM 等）都假定优化器现象不错独随即按元素切分到不同设立上，是以它们无法获胜维持 Muon。

为了贬责这个问题，论文作家建议了散布式 Muon 的并行化政策。

它在 ZeRO-1 的基础上引入了两个独特的操作 :

一是在每个数据并行组内作念梯度团聚通讯，将辩认的梯度切片统一成完满的矩阵；

二是基于团聚后的梯度矩阵并行策画正交化的更新量，然后只保留与腹地参数对应的那一部分。

这种竣事神志在最小化内存占用和通讯支出的同期，最大限度地保留了原始 Muon 算法的数学性质。

诠释 Muon 推广可行性

基于上述 Muon 纠正 , 作家获取了以下后果，作家在 Llama 架构的一系列茁壮模子上，进行了 Muon 和 AdamW 的模子缩放对比实际。

收尾标明 , 在策画预算最优的情况下，Muon 的样本着力是 AdamW 的 1.92 倍，即历练 FLOPS 只需 AdamW 的 52%，就能达到异常的性能。

这一发现阐发了 Muon 在大畛域历练中的着力上风。

在此基础之上，作家以 DeepSeek-V3-Small 架构算作基础，用纠正的 Muon 历练了Moonlight模子。

Moonlight 是一个 MoE 模子，具有 15.29B 的总参数和 2.24B 激活参数，历练 token 量为 5.7T。

与交流畛域和数据量的模子比拟，Moonlight 在英语认知与推理（MMLU、TriviaQA、BBH）、代码生成（HumanEval、MBPP）、数学推理（GSM8K、MATH、CMATH）、汉文认知（C-Eval、CMMLU）等各种任务上都获取了显着更好的性能。

即使与使用更大数据集历练的茁壮模子比拟，Moonlight 也展现了极强的竞争力。

与多个驰名话语模子的对比标明，Moonlight在性能 - 历练预算平面上鼓动了帕累托前沿（Pareto Frontier）。

（注：帕累托前沿是一个经济学和经管学中的倡导，刻画的是在多想法决策问题中扫数可能的最优解的齐集，这些解在多个想法之间获取了最好均衡。在帕累托前沿上的每一个点，都意味着一个想法的改善势必以捐躯另一个想法为代价，因此它代表了在多个想法之间竣事的最好衡量。）

为了进一步分析 Muon 更新矩阵参数的内在机制，作家对比了 Muon 和 AdamW 历练得到的模子在不同历练阶段的参数矩阵奇异值谱。

收尾发现，Muon 优化的矩阵在各层各种参数上，老是比 AdamW 有更高的奇异值熵。这从训戒上考据了 Muon 通过正交化来学习更各样化示意的直观。

终末，在 Moonlight 模子的基础上，作家还探索了 Muon 在开拓微调阶段的效果，收尾标明，在预历练和微调阶段均使用 Muon 的效果是最好的。

时期讲演：

https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

Code：

https://github.com/MoonshotAI/Moonlight

Moonlight 模子：

https://huggingface.co/moonshotai/Moonlight-16B-A3B九游体育app娱乐

上一篇：现金九游体育app平台　　咱们将实体市集上风与数字化供应链充分结伙-九游(jiuyou)体育官方网站-登录入口

下一篇：九游体育娱乐网腹地化部署：关于已有算力用户-九游(jiuyou)体育官方网站-登录入口

友情链接：