2025年12月,NeurIPS大会在圣地亚哥举行。Radical Ventures的播客节目Radical Talks录制了一期特别对话,由该基金联合创始人Jordan Jacobs主持,嘉宾是Geoffrey 辛顿和Jeff ...
如果把现在的顶尖大模型比作一个人,那它一定患有一种罕见的神经系统疾病:顺行性遗忘症(Anterograde Amnesia)。 这是 Google Research 研究员、最近最受关注的一篇论文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 抛出的一个让所有人陷入 ...
可高效处理长文本的模型Longformer、和堪称“升级版”Transformer的BigBird模型,到底有什么区别? Transformer的其他各种变体(X-former)到底都长什么样、又有哪些新应用? 由于Transformer模型的发展速度日新月异,一天一个样,哪怕是隔段时间回来研究,模型可能也 ...
Transformer 对计算和存储的高要求阻碍了其在 GPU 上的大规模部署。在本文中,来自快手异构计算团队的研究者分享了如何在 GPU 上实现基于 Transformer 架构的 AI 模型的极限加速,介绍了算子融合重构、混合精度量化、先进内存管理、Input Padding 移除以及 GEMM 配置等 ...