MiniMax 的视频向来很顶,但技术上一直是个黑盒刚刚,海螺团队第一次自揭面纱,带来了首个开源项目:VTPVisual Tokenizer Pre-trainingVTP 这东西非常有趣:搞图像、视频生成的团队,或都能因此受益Tech ...
这种三管齐下的训练方法带来了令人惊喜的结果。研究团队发现了两个重要规律:首先,理解能力是提升创作能力的关键驱动力。当视觉标记器更好地理解了图片的含义时,它在协助AI创作新图片方面的表现也会显著提升。这就像一个真正理解音乐的指挥家,能够带领乐团演奏出更 ...
AI视觉生成领域迎来范式级突破。MiniMax与华中科技大学近日联合开源其核心技术——VTP(Visual Tokenizer Pretraining,视觉分词器预训练),在不修改标准DiT (Diffusion Transformer)架构的前提下,仅通过优化视觉分词器 (Visual ...
Visual Tokenizer 下一步进化的关键在于理解世界?相比 2D 网格序列,采用 1D 序列形式的 tokenizer 更适合大规模训练?也许目前的离散 tokenizer 可能只是阶段性的过渡性方案?生成采样阶段的分布偏移,导致了「重建强 ...
没想到 MiniMax 视频团队的首次开源工作就直接挑战了业内的固有认知。长期以来,大家普遍认为:尽管视觉生成模型中的 tokenizer(也就是常说的 VAE)对 Latent Diffusion 至关重要,但对 tokenizer 本身进行扩展(比如模型规模、算力和数据量)都难以为 diffusion ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果