在 LDM、DiT 这类两阶段生成框架里,第一阶段的 visual tokenizer(常见是 VAE 或者是 AutoEncoder) 把图像压进 latent,第二阶段扩散模型在 latent 上学生成。