首页 > 其他分享 >论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA

论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA

时间:2023-01-13 12:11:40浏览次数:57  
标签:Transformers SOTA 模型 Generative Masked 图像 掩码 文本

基于文本提示的生成图像模型近年来取得了惊人的进展,这得益于新型的深度学习架构、先进的训练范式(如掩码建模)、大量图像-文本配对训练数据的日益可用,以及新的扩散和基于掩码的模型的发展。

在23年1月新发布的论文 Muse中:Masked Generative Transformers 生成文本到图像利用掩码图像建模方法来达到了最先进的性能,零样本 COCO 评估的 FID 分数为 7.88,CLIP 分数为 0.32——同时明显快于扩散或传统自回归模型。

google团队总结了它们的主要贡献如下:

  • 提出了一个最先进的文本到图像生成模型,该模型获得了出色的 FID 和 CLIP 分数(图像生成质量、多样性和与文本提示对齐的定量测量)。
  • 由于使用了量化图像标记和并行解码,模型明显快于同类模型。
  • 架构支持开箱即用的零样本编辑功能,包括inpainting, outpainting和free mask编辑。

 

完整文章:

https://avoid.overfit.cn/post/55897da82dd241f394372fc76260320d

标签:Transformers,SOTA,模型,Generative,Masked,图像,掩码,文本
From: https://www.cnblogs.com/deephub/p/17049234.html

相关文章