Transformers Transform

1 天

基于ASIC打造Transformer专用芯片，etched获1.2亿美元A轮融资

近日，一家叫etched的AI芯片公司宣布推出Transformer架构模型专用的ASIC芯片——Sohu，他们的模拟结果显示这款芯片每美元性能是传统GPU的140倍。与新芯片同时宣布的是它获得Primary Venture ...

从贝叶斯视角解读Transformer的内部几何：mHC的流形约束与大模型训练 ...

现代大语言模型动辄堆叠数十甚至上百层，残差连接、跳跃连接、跨层路由机制层出不穷。这些架构设计背后的逻辑就是为了改善梯度流、加快收敛、提升参数利用率。但是在实践中这些技在大规模训练时却经常出现问题：损失函数突然飙升、梯度爆炸、表征坍塌、训练动态变得极度 ...

8 小时

不走Transformer寻常路，「元始智能RWKV」获数千万天使轮融资 | 36氪首发

36氪获悉，大模型架构创新公司元始智能（RWKV）已于12月完成数千万人民币天使轮融资，投资方为天际资本。本轮融资后，公司估值较此前种子轮翻倍，而本轮融资将主要用于团队扩充、新架构迭代以及产品商业化落地。

1 天

Bengio团队找到了一种超越Transformer的硬件对齐方案

近日，Radical Numerics 与蒙特利尔大学 Yoshua Bengio 团队找了一个新思路，为 LLM 的效率进化提供了一个极具启发性的工程视角。该团队通过将线性递归重新定义为硬件对齐的矩阵运算，提出了一套能够相当完美契合 GPU ...

9 天

大模型进展专栏第十八期 |谷歌放大招！Titans 与 MIRAS 如何用“动态 ...

2025年12月，在人工智能领域的顶级盛会 NeurIPS 大会上，谷歌（Google）投下了一枚震撼行业的“重磅炸弹”——正式发布 Titans架构与MIRAS理论框架。这一组合拳不仅解决了困扰大模型行业长达八年的“长上下文困境”，更首次赋予了AI真正意义上的“长期记忆”能力，并非一次简单的技术迭代，而是一场可能重塑AGI发展路径的范式革命。本期大模型进展专栏“专家精彩评论”栏目，我们特邀中国兵 ...

腾讯网

Transformer已死？DeepMind正在押注另一条AGI路线

基于NL的观点，谷歌团队使用反向传播和梯度下降训练深度神经网络，本质上是一个压缩与优化问题，其目标是训练一种联想记忆（associative memory），以将各层的输入映射到其预测中对应的局部误差。

太平洋科技资讯中心

英伟达DLSS 4.5驱动实测：RTX 30/20系显卡性能下降明显

据悉，由于RTX 30和20系列显卡架构不支持FP8加速，其性能提升幅度将低于新一代显卡。测试显示，在《赛博朋克2077》RT Ultra预设下，RTX 3080 Ti使用DLSS 4.5后帧数下降24%，从42FPS降至32FPS。

13 天

元始智能罗璇：全球首个非Transformer架构RWKV，正在突破AI算力瓶颈

元始智能罗璇：全球首个非Transformer架构RWKV，正在突破AI算力瓶颈,罗璇,人工智能,智能体,transformer,rwkv,rnn ...

14 小时

CES2026：华硕显卡完美驱动NVIDIA DLSS 4.5黑科技

DLSS4技术为游戏体验带来的显著提升，让其成为NVIDIA普及速度最快的游戏技术！而如今，在CES2026，NVIDIADLSS4.5正式发布，并推出第二代Transformer模型，以增强DLSS超分辨率，可为所有GeForceRTXGPU提供超 ...

Yahoo

This Transformers toy can transform by itself, and it's only $700

The fight against the Decepticons has never been pricier. At Friday's Hasbro Pulse Fan Fest panel, the toymaker announced it has partnered with Robosen Robotics for the first-ever auto-converting ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果