算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用。 在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。 同时团队 ...
「许多博士(包括过去的我)都陷入了这样一个误区:认为只有在顶级会议上发表论文才是终极目标。」AI 云服务商 Hyperbolic CEO Yuchen Jin 如是说。 但现在,发表论文并不与学术影响力直接画等号了。 Keller Jordan,OpenAI 深度学习团队主要成员之一,用一篇博客就撬 ...
月之暗面和 DeepSeek 这次又「撞车」了。 上次是论文,两家几乎前后脚放出改进版的注意力机制,可参考《撞车 DeepSeek NSA,Kimi 杨植麟署名的新注意力架构 MoBA 发布,代码也公开》、《刚刚!DeepSeek 梁文锋亲自挂名,公开新注意力架构 NSA》。 这次是开源。
Keller Jordan:“写出一篇数据漂亮、图表华丽的优化器论文”与“这个优化器实际有没有用”之间有什么必然联系。 不是顶会论文,也没有发在 arXiv 上,甚至连“正式发表”都称不上——但就是这样的一篇纯博客文章,却让一名研究员成功拿到了 OpenAI 的 Offer ...
革新AI训练方式:Muon优化器的实用效率 2025年5月,由旧金山的Essential AI研究团队开发的Muon优化器在深度学习领域引发了一场小革命。这项研究以《Muon在预训练中的实用效率》(Practical Efficiency of Muon for Pretraining)为题,发表在arXiv上(arXiv:2505.02222v1)。研究展示了 ...
【导读】未中顶会,没有发表arXiv,一篇博客却成为OpenAI速通票。天才科学家Keller Jordan仅凭Muon优化器博客加入OpenAI。甚至,它可能被用于训练下一代超级模型GPT-5。 如果想成功应聘加入OpenAI需要什么条件? 科班出身?顶会论文?师从像Hinton、LeCun这样的AI大师?
当前正在显示可能无法访问的结果。
隐藏无法访问的结果