Muon - 搜索 News

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

算力需求比AdamW直降48%，OpenAI技术人员提出的训练优化算法Muon，被月之暗面团队又推进了一步！团队发现了Muon方法的Scaling Law，做出改进并证明了Muon对更大的模型同样适用。在参数量最高1.5B的不同Llama架构模型上，改进后的Muon算力需求仅为AdamW的52%。同时团队 ...

腾讯网

Muon作者仅用一篇博客，就被OpenAI看中了

「许多博士（包括过去的我）都陷入了这样一个误区：认为只有在顶级会议上发表论文才是终极目标。」AI 云服务商 Hyperbolic CEO Yuchen Jin 如是说。但现在，发表论文并不与学术影响力直接画等号了。 Keller Jordan，OpenAI 深度学习团队主要成员之一，用一篇博客就撬 ...

新浪网

开源赛道太挤了！月之暗面开源新版Muon优化器

月之暗面和 DeepSeek 这次又「撞车」了。上次是论文，两家几乎前后脚放出改进版的注意力机制，可参考《撞车 DeepSeek NSA，Kimi 杨植麟署名的新注意力架构 MoBA 发布，代码也公开》、《刚刚！DeepSeek 梁文锋亲自挂名，公开新注意力架构 NSA》。这次是开源。

36氪

爆肝一篇博客拿下OpenAI Offer，Muon作者怒揭：几乎所有优化器的论文 ...

Keller Jordan：“写出一篇数据漂亮、图表华丽的优化器论文”与“这个优化器实际有没有用”之间有什么必然联系。不是顶会论文，也没有发在 arXiv 上，甚至连“正式发表”都称不上——但就是这样的一篇纯博客文章，却让一名研究员成功拿到了 OpenAI 的 Offer ...

来自MSN

Muon优化器：让AI训练更快更省，Essential AI如何拓展了深度学习的计算 ...

革新AI训练方式：Muon优化器的实用效率 2025年5月，由旧金山的Essential AI研究团队开发的Muon优化器在深度学习领域引发了一场小革命。这项研究以《Muon在预训练中的实用效率》(Practical Efficiency of Muon for Pretraining)为题，发表在arXiv上（arXiv:2505.02222v1）。研究展示了 ...

36氪

仅凭一篇博客，他成功入职OpenAI，核心技术或用于GPT-5训练

【导读】未中顶会，没有发表arXiv，一篇博客却成为OpenAI速通票。天才科学家Keller Jordan仅凭Muon优化器博客加入OpenAI。甚至，它可能被用于训练下一代超级模型GPT-5。如果想成功应聘加入OpenAI需要什么条件？科班出身？顶会论文？师从像Hinton、LeCun这样的AI大师？

当前正在显示可能无法访问的结果。

隐藏无法访问的结果