在 LDM、DiT 这类两阶段生成框架里,第一阶段的 visual tokenizer(常见是 VAE 或者是 AutoEncoder) 把图像压进 latent,第二阶段扩散模型在 latent 上学生成。 我举个例子,这就好比让学生背诵课文,他能把每一个标点符号、每一个笔画都背下来了(重建极好),但实际上完全没读懂这篇文章讲了什么(语义极差),只会做题而已。
MiniMax 的视频向来很顶,但技术上一直是个黑盒刚刚,海螺团队第一次自揭面纱,带来了首个开源项目:VTPVisual Tokenizer Pre-trainingVTP 这东西非常有趣:搞图像、视频生成的团队,或都能因此受益Tech Report先做个信息铺垫,现在主流的 AI ...
没想到 MiniMax 视频团队的首次开源工作就直接挑战了业内的固有认知。长期以来,大家普遍认为:尽管视觉生成模型中的 tokenizer(也就是常说的 VAE)对 Latent Diffusion 至关重要,但对 tokenizer 本身进行扩展(比如模型规模、算力和数据量)都难以为 diffusion ...
该研究的实践价值在于重新定位了视觉分词器的角色。传统观点认为其仅是前置模块,而VTP证明通过结构化表征学习,视觉分词器同样具备成为性能提升主力的潜力。这种认知转变可能引发行业资源分配的调整——在继续优化主模型的同时,视觉分词器的预训练将成为新的竞争焦点。随着VTP框架的普及,图像生成领域有望突破当前瓶颈,向更高效、更通用的方向发展。