近日,一家叫etched的AI芯片公司宣布推出Transformer架构模型专用的ASIC芯片——Sohu,他们的模拟结果显示这款芯片每美元性能是传统GPU的140倍。 与新芯片同时宣布的是它获得Primary Venture ...
现代大语言模型动辄堆叠数十甚至上百层,残差连接、跳跃连接、跨层路由机制层出不穷。这些架构设计背后的逻辑就是为了改善梯度流、加快收敛、提升参数利用率。但是在实践中这些技在大规模训练时却经常出现问题:损失函数突然飙升、梯度爆炸、表征坍塌、训练动态变得极度 ...
36氪获悉,大模型架构创新公司元始智能(RWKV)已于12月完成数千万人民币天使轮融资,投资方为天际资本。本轮融资后,公司估值较此前种子轮翻倍,而本轮融资将主要用于团队扩充、新架构迭代以及产品商业化落地。
近日,Radical Numerics 与蒙特利尔大学 Yoshua Bengio 团队找了一个新思路,为 LLM 的效率进化提供了一个极具启发性的工程视角。该团队通过将线性递归重新定义为硬件对齐的矩阵运算,提出了一套能够相当完美契合 GPU ...
2025年12月,在人工智能领域的顶级盛会 NeurIPS 大会上,谷歌(Google)投下了一枚震撼行业的“重磅炸弹”——正式发布 Titans架构与MIRAS理论框架。这一组合拳不仅解决了困扰大模型行业长达八年的“长上下文困境”,更首次赋予了AI真正意义上的“长期记忆”能力,并非一次简单的技术迭代,而是一场可能重塑AGI发展路径的范式革命。本期大模型进展专栏“专家精彩评论”栏目,我们特邀中国兵 ...
基于NL的观点,谷歌团队使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,其目标是训练一种联想记忆(associative memory),以将各层的输入映射到其预测中对应的局部误差。
据悉,由于RTX 30和20系列显卡架构不支持FP8加速,其性能提升幅度将低于新一代显卡。测试显示,在《赛博朋克2077》RT Ultra预设下,RTX 3080 Ti使用DLSS 4.5后帧数下降24%,从42FPS降至32FPS。
元始智能罗璇:全球首个非Transformer架构RWKV,正在突破AI算力瓶颈,罗璇,人工智能,智能体,transformer,rwkv,rnn ...
DLSS4技术为游戏体验带来的显著提升,让其成为NVIDIA普及速度最快的游戏技术!而如今,在CES2026,NVIDIADLSS4.5正式发布,并推出第二代Transformer模型,以增强DLSS超分辨率,可为所有GeForceRTXGPU提供超 ...
The fight against the Decepticons has never been pricier. At Friday's Hasbro Pulse Fan Fest panel, the toymaker announced it has partnered with Robosen Robotics for the first-ever auto-converting ...