VTP 1 - 搜索 News

MiniMax海螺首次开源 VTP，打通了 Visual Tokenizer 的 Scaling Law

在 LDM、DiT 这类两阶段生成框架里，第一阶段的 visual tokenizer（常见是 VAE 或者是 AutoEncoder）把图像压进 latent，第二阶段扩散模型在 latent 上学生成。我举个例子，这就好比让学生背诵课文，他能把每一个标点符号、每一个笔画都背下来了（重建极好），但实际上完全没读懂这篇文章讲了什么（语义极差），只会做题而已。

腾讯网

视觉生成的隐藏天花板｜VTP：MiniMax海螺视频首次开源 · 技术解读

MiniMax 的视频向来很顶，但技术上一直是个黑盒刚刚，海螺团队第一次自揭面纱，带来了首个开源项目：VTPVisual Tokenizer Pre-trainingVTP 这东西非常有趣：搞图像、视频生成的团队，或都能因此受益Tech Report先做个信息铺垫，现在主流的 AI ...

知乎 on MSN

如何评价MiniMax视频团队首次开源的VTP可扩展视觉tokenizer预训练框架 ...

没想到 MiniMax 视频团队的首次开源工作就直接挑战了业内的固有认知。长期以来，大家普遍认为：尽管视觉生成模型中的 tokenizer（也就是常说的 VAE）对 Latent Diffusion 至关重要，但对 tokenizer 本身进行扩展（比如模型规模、算力和数据量）都难以为 diffusion ...

11 天on MSN

MiniMax海螺视频团队开源VTP：让视觉分词器成为生成性能提升新引擎

该研究的实践价值在于重新定位了视觉分词器的角色。传统观点认为其仅是前置模块，而VTP证明通过结构化表征学习，视觉分词器同样具备成为性能提升主力的潜力。这种认知转变可能引发行业资源分配的调整——在继续优化主模型的同时，视觉分词器的预训练将成为新的竞争焦点。随着VTP框架的普及，图像生成领域有望突破当前瓶颈，向更高效、更通用的方向发展。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果