首页 > 其他分享 >XMC-GAN:从文本到图像的跨模态对比学习

XMC-GAN:从文本到图像的跨模态对比学习

时间:2023-07-27 22:32:22浏览次数:44  
标签:模态 生成 GAN XMC 图像 文本


XMC-GAN:从文本到图像的跨模态对比学习_人工智能

Google提出了一个跨模态对比学习框架来训练用于文本到图像合成的 GAN 模型,用于研究解决生成的跨模态对比损失问题。

文 / Han Zhang, Research Scientist and Jing Yu Koh, Software Engineer, Google Research

原文 / https://ai.googleblog.com/2021/05/cross-modal-contrastive-learning-for.html

从文本到图像的自动生成,如何训练模型仅通过一段文本描述输入就能生成具体的图像,是一项非常具有挑战性的任务。

与其它指导图像创建的输入类型相比,描述性句子是一种更直观、更灵活的视觉概念表达方式。强大的自动文本到图像的生成系统可以成为快速、有效的内容生产、制作工具,用于更多具有创造性的应用当中。

在CVPR 2021中,Google提出了一个跨模态对比生成对抗网络(XMC-GAN),训练用于文本到图像合成的 GAN 模型,通过模态间与模态内的对比学习使图像和文本之间的互信息最大化,解决文本到图像生成的跨模态对比损失问题。

XMC-GAN:从文本到图像的跨模态对比学习_深度学习_02

 XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习

XMC-GAN 被成功应用于三个具有挑战性的数据集:一个是MS-COCO 图像描述集合,另外两个是用Localized Narratives注释的数据集,一个是包括MS-COCO 图像(称为LN-COCO) ,另一个描述开放图像数据 (LN-OpenImages)。结果显示 XMC-GAN生成图像所描绘的场景相比于使用其它技术生成的图像质量更高,在每个方面都达到了最先进的水平。

XMC-GAN:从文本到图像的跨模态对比学习_机器学习_03

XMC-GAN:从文本到图像的跨模态对比学习_python_04

MS-COCO对图像质量和文本对齐的人工评估

此外,XMC-GAN还在 LN-OpenImages 上进行了一系列训练和评估,这相比于 MS-COCO 更具有挑战性,由于数据集更大,图像涵盖主题范围更加广泛且复杂。

XMC-GAN:从文本到图像的跨模态对比学习_计算机视觉_05

Open Images 上真实和生成图像的随机样本

对于人类评估和定量指标,XMC-GAN 在多个数据集模型中相较之前有显著的改进。可以生成与输入描述非常匹配的高质量图像,包括更长,更详细的叙述,同时端到端模型的复杂度也相对较为简单,这代表了从自然语言描述生成图像的创造性应用的重大进步。

标签:模态,生成,GAN,XMC,图像,文本
From: https://blog.51cto.com/u_13530535/6874745

相关文章

  • 【补充】页面展示之多重模态框
    【补充】页面展示之多重模态框【前端页面代码展示】{%blockinfo%}<divclass="container-fluid"><divclass="row"><h3>基本信息</h3><divclass="container"><divclass="rowjustify-c......
  • 深度学习——多模态
    什么是多模学习?我们平常使用的如图像识别,语音识别这种输入单个样本x(尽管样本可能有多个特征),但是输出对应的y值(结果)就是比较简单的单模态模型。即单个模型对输入的信息进行线性或者非线性的映射。多模态可以指的是通过多个模型的组合来让深度学习学习到更多不同的特征。如我们生......
  • Classical Management: emphasized rationality and making organizations and worker
    Classicalapproach:Firststudiesofmanagement,whichemphasized:rationalitymakingorganizationsandworkersasefficientaspossibleMaxWeber’sBureaucracy(OrganationalMachine)wasanattempttoformulatetheBureaucracyanidealprototypefororg......
  • G2、人脸图像生成(DCGAN)
    ......
  • WINUI 模态框或模态窗口
    WINUI中是没有类似Winform里的模态框的,为了实现同样的需求,小子借助于popup进行了相应的实现。 思路:自定义控件实现一个窗体,进行信息展示与信息选择;这个窗体作为弹出窗口的展示页面;在页面上进行相应的选择进行什么样的操作,则通过通过委托在实例化这个窗口时传递相应的参数,选择......
  • 个人GAN训练的性能迭代
    使用GAN进行生成图片损失函数的迭代DCGAN->WassersteinGAN->WassersteinGAN+GradientPenaltyDiscriminator训练代码编写的细节:真图像和假图像要分批送入Discriminator,分批计算梯度(后面算出的梯度会累加到前面的梯度上面)。模型的迭代UpsampleMethodTransposedconvolu......
  • 实现loganalyzer展示图形日志
    三台主机rsyslog,mysql,loganalyzer1rsyslogyuminstallrsyslog-mysqlscp/usr/share/doc/rsyslog-8.24.0/mysql-createDB.sql192.168.30.17:vim/etc/rsyslog.conf$ModLoadommysql*.info;mail.none;authpriv.none;cron.none:ommysql:192.168.30.17,Syslog,sys......
  • 机器学习洞察 | 挖掘多模态数据机器学习的价值
    在过去的数年里,我们见证了机器学习和计算机科学领域的很多变化。人工智能应用也愈趋广泛,正在加速融入人们的日常生活之中。机器学习作为技术核心,也在持续地发展进化,在更多领域发挥出越来越重要的作用。**机器学习会有哪些新的演进趋势和发展方向?**我们又该如何提前布局,紧跟这一热......
  • 使用Java8 Stream流中的Collectors.collectingAndThen()方法去重
    https://blog.csdn.net/qq_40474184/article/details/122043378Stream流的常用方法大全https://blog.csdn.net/weixin_52317961/article/details/128117727......
  • 生物神经元中的多模态神经元
    推荐:将NSDT场景编辑器加入你的3D工具链3D工具集:NSDT简石数字孪生  2005年,发表在《自然》杂志上的一封信描述了人类神经元对特定人的反应,例如詹妮弗·安妮斯顿或哈莉·贝瑞。令人兴奋的事情不仅在于他们为特定的人选择,而且无论他们是否看到照片、图画,甚至是这个人名字的图像,他......