2026-04-12 15:35 点击次数:85
算力需求比 AdamW 直降 48%,OpenAI 时期东谈主员建议的历练优化算法 Muon,被月之暗面团队又鼓动了一步!
团队发现了 Muon 智商的 Scaling Law,作念出纠正并诠释了 Muon 对更大的模子一样适用。
在参数目最高 1.5B 的不同 Llama 架构模子上,纠正后的 Muon 算力需求仅为 AdamW 的 52%。

同期团队还基于 DeepSeek 架构历练出了一个 16B 的 MoE 模子,与纠正后的优化算法一同开源。

Muon 时期博客发布那时主要适用于较小的模子和数据集,作家留住了三个悬而未决的问题:
Muon 能否用于更大畛域的历练?
Muon 能否在更大畛域的 GPU 集群上使用?
Muon 是否一样适用于微长入强化学习?
现时月暗团队用实际给出了回话——一齐都是 Yes。

讯息一出,那时 Muon 的作家也都很兴隆,主要作家Keller Jordan示意这是 Muon 畛域化的首个到手讲演,为团队奉上了道喜。

另别称孝敬者,那时认真 Muon 畛域化实际的 Hyperbolic Labs 联创兼 CTO Yuchen Jin也示意,月暗团队的这项后果,是 Muon 的一次到手。

将 AdamW 性格引入 Muon
在先容月暗团队的使命之前,先来了解一下 Muon 是个什么样的时期。
这是一种神经收集掩蔽层的 2D 参数优化器,主要作家是 OpenAI 深度学习团队的 Keller Jordan。
这项后果发表于昨年的 12 月 8 日,而 Keller 亦然昨年 12 月加入的 OpenAI。
Muon 的中枢想想是通过正交化梯度更新矩阵,幸免参数更新堕入局部极小,使模子约略学习到愈加各样化的特征示意。
在 94% 的精度下,Muon 把 CIFAR-10 在 A100 上的历练时刻从 3.3 秒裁减至 2.6 秒。

不外那时 Muon 团队只诠释了其在袖珍模子和数据集上的可行性,关于较大的模子能否适用则是个未知数。
现时经过月暗团队的纠正之后,Muon被诠释关于更大的模子和数据集一样适用。
针对模子本人,团队继承了 AdamW 中的一些性格,移植到了 Muon 当中,具体包括两个方面。
一是引入了权重衰减机制,在权重更新公式中添加了一个带有衰减统统的项。

这么作念的原因是作家发现获胜将 Muon 诓骗到大畛域历练时,模子权重和层输出的幅度会捏续增长,最终超出 bf16 的高精度示意范围,毁伤模子性能。
在历练一个 8 亿参数模子至 100B tokens(约 5 倍策画预算最优)的历程中,团队对比了 AdamW、无权重衰减的 Muon 和带权重衰减的 Muon。
收尾表现,带权重衰减的 Muon 在过拟合阶段获取了最好效果,考据了权重衰减的必要性。

第二项纠正,是养息了 Muon 的参数更新模范,使不同局面矩阵参数的更新幅度保捏一致,并与 AdamW 的更新幅度匹配。
Muon 的一个性格是,关于局面为 [ A,B ] 的矩阵参数,其表面更新幅度为 sqrt ( 1/max ( A,B ) ) 。
这导致不同局面矩阵参数的更新幅度各异很大,比如关于 MLP 这种宽矩阵,更新会过小,而将每个 head 看作孤独矩阵时,更新又会过大。
此外,这个幅度也与 AdamW 不一致,给超参数的配置带来贫乏。
为了让不同矩阵参数的更新幅度匹配,并与 AdamW 保捏一致,作家尝试了几种纠正决议,最终礼聘获胜基于局面养息每个参数的学习率。
其中 0.2 是通过实际信赖的一个常数,用于将 Muon 的更新模范与 AdamW 对王人。

除了对 Muon 本人的纠正,要想将 Muon 用于更大畛域的历练,还需要将其推广到散布式历练环境中。
由于 Muon 需要完满的梯度矩阵来策画正交化的更新量,而现存的散布式历练框架(如 ZeRO-1、Megatron-LM 等)都假定优化器现象不错独随即按元素切分到不同设立上,是以它们无法获胜维持 Muon。
为了贬责这个问题,论文作家建议了散布式 Muon 的并行化政策。
它在 ZeRO-1 的基础上引入了两个独特的操作 :
一是在每个数据并行组内作念梯度团聚通讯,将辩认的梯度切片统一成完满的矩阵;
二是基于团聚后的梯度矩阵并行策画正交化的更新量,然后只保留与腹地参数对应的那一部分。
这种竣事神志在最小化内存占用和通讯支出的同期,最大限度地保留了原始 Muon 算法的数学性质。

诠释 Muon 推广可行性
基于上述 Muon 纠正 , 作家获取了以下后果,作家在 Llama 架构的一系列茁壮模子上,进行了 Muon 和 AdamW 的模子缩放对比实际。
收尾标明 , 在策画预算最优的情况下,Muon 的样本着力是 AdamW 的 1.92 倍,即历练 FLOPS 只需 AdamW 的 52%,就能达到异常的性能。
这一发现阐发了 Muon 在大畛域历练中的着力上风。

在此基础之上,作家以 DeepSeek-V3-Small 架构算作基础,用纠正的 Muon 历练了Moonlight模子。
Moonlight 是一个 MoE 模子,具有 15.29B 的总参数和 2.24B 激活参数,历练 token 量为 5.7T。
与交流畛域和数据量的模子比拟,Moonlight 在英语认知与推理(MMLU、TriviaQA、BBH)、代码生成(HumanEval、MBPP)、数学推理(GSM8K、MATH、CMATH)、汉文认知(C-Eval、CMMLU)等各种任务上都获取了显着更好的性能。
即使与使用更大数据集历练的茁壮模子比拟,Moonlight 也展现了极强的竞争力。

与多个驰名话语模子的对比标明,Moonlight在性能 - 历练预算平面上鼓动了帕累托前沿(Pareto Frontier)。
(注:帕累托前沿是一个经济学和经管学中的倡导,刻画的是在多想法决策问题中扫数可能的最优解的齐集,这些解在多个想法之间获取了最好均衡。在帕累托前沿上的每一个点,都意味着一个想法的改善势必以捐躯另一个想法为代价,因此它代表了在多个想法之间竣事的最好衡量。)

为了进一步分析 Muon 更新矩阵参数的内在机制,作家对比了 Muon 和 AdamW 历练得到的模子在不同历练阶段的参数矩阵奇异值谱。
收尾发现,Muon 优化的矩阵在各层各种参数上,老是比 AdamW 有更高的奇异值熵。这从训戒上考据了 Muon 通过正交化来学习更各样化示意的直观。

终末,在 Moonlight 模子的基础上,作家还探索了 Muon 在开拓微调阶段的效果,收尾标明,在预历练和微调阶段均使用 Muon 的效果是最好的。

时期讲演:
https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Code:
https://github.com/MoonshotAI/Moonlight
Moonlight 模子:
https://huggingface.co/moonshotai/Moonlight-16B-A3B九游体育app娱乐
Powered by 九游(jiuyou)体育 官方网站-登录入口 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群系统 © 2013-2024