字节跳动推出了可视化自回归建模:通过下一尺度预测实现可扩展图像生成VAR在Imagenet 256x256的AR基线上取得了显著提升,将FID改善至1.80,并且推理速度提高了20倍项目:https://var.vision/摘要:https://arxiv.org/abs/2404.02905