基于文本提示的生成图像模型近年来取得了惊人的进展,这得益于新型的深度学习架构、先进的训练范式(如掩码建模)、大量图像-文本配对训练数据的日益可用,以及新的扩散和基于掩码的模型的发展。
在23年1月新发布的论文 Muse中:Masked Generative Transformers 生成文本到图像利用掩码图像建模方法来达到了最先进的性能,零样本 COCO 评估的 FID 分数为 7.88,CLIP 分数为 0.32——同时明显快于扩散或传统自回归模型。
google团队总结了它们的主要贡献如下:
- 提出了一个最先进的文本到图像生成模型,该模型获得了出色的 FID 和 CLIP 分数(图像生成质量、多样性和与文本提示对齐的定量测量)。
- 由于使用了量化图像标记和并行解码,模型明显快于同类模型。
- 架构支持开箱即用的零样本编辑功能,包括inpainting, outpainting和free mask编辑。
完整文章:
https://avoid.overfit.cn/post/55897da82dd241f394372fc76260320d
标签:Transformers,SOTA,模型,Generative,Masked,图像,掩码,文本 From: https://www.cnblogs.com/deephub/p/17049234.html