首页 > 其他分享 >又一新框架 | 无监督图像转换任务新境界(附论文代码)

又一新框架 | 无监督图像转换任务新境界(附论文代码)

时间:2022-10-07 15:01:48浏览次数:89  
标签:编码器 判别 训练 境界 GAN 一新 图像 NICE


计算机视觉研究院

又一新框架 | 无监督图像转换任务新境界(附论文代码)_编码器


2020 IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,简称CVPR)公布接收论文结果。清华大学计算机系“类脑计算与认知”团队提交的论文《Reusing Discriminators for Encoding Towards UnsupervisedImage-to-Image Translation》被成功接收。论文第一作者为陈润发,是清华大学计算机系硕士二年级研究生;指导老师为孙富春教授(中国人工智能学会副理事长,清华大学教授,IEEE/CAAI Fellow)等。

又一新框架 | 无监督图像转换任务新境界(附论文代码)_编码器_02

CAAI认知系统与信息处理专委会

中国人工智能学会认知系统与信息处理专业委员,由清华大学孙富春教授于2014年创立。专委会每年召开认知系统和信息处理国际会议(ICCSIP),同时创办了“Cognitive Computation and Systems”国际期刊。

一、无监督背景

无监督学习适用于你具有数据集但无标签的情况。无监督学习采用输入集,并尝试查找数据中的模式。比如,将其组织成群(聚类)或查找异常值(异常检测)。

例如:想像一下,如果你是一个T恤制造商,拥有一堆人的身体测量值。那么你可能就会想要有一个聚类算法,以便将这些测量组合成一组集群,从而决定你生产的XS,S,M,L和XL号衬衫该有多大。

你将在文献中阅读到的一些无监督的学习技术包括:

•自编码(Autoencoding)

​http://ufldl.stanford.edu/tutorial/unsupervised/Autoencoders/​

•主成分分析(Principal components analysis)

​https://www.quora.com/What-is-an-intuitive-explanation-for-PCA​

•随机森林(Random forests)

​https://en.wikipedia.org/wiki/Random_forest​

•K均值聚类(K-means clustering)

​https://www.youtube.com/watch?v=RD0nNK51Fp8​

无监督学习中最有前景的最新发展之一是Ian Goodfellow(当时在Yoshua Bengio的实验室工作时提出)的一个想法,称为“生成对抗网络(generative adversarial networks)”,其中我们将两个神经网络相互联系:一个网络,我们称之为生成器,负责生成旨在尝试欺骗另一个网络的数据,而这个网络,我们称为鉴别器。这种方法实现了一些令人惊奇的结果,例如可以从文本字符串或手绘草图生成如照片版逼真图片的AI技术。

二、技术背景

随着近几年对抗生成网络(GAN)的快速发展,无监督图像转换任务成为计算机视觉领域的一个热门方向。近几届人工智能领域顶级学术会议上(如CVPR、ECCV、ICCV、NIPS、ICLR等)有关对抗生成网络和图像转换任务的论文数量也呈现爆炸增长的趋势。当我们回顾当前成功的图像转换框架时(例如CycleGAN),大多数都由三个部分组成:

  1. 将输入图像嵌入到低维隐层空间的编码器;
  2. 将隐层编码转换为其他域图像的生成器;
  3. 使用对抗训练进行域对齐的判别器。

尽管这种堆叠方式是标准的,但我们仍然好奇这样的问题:是否有可能重新考虑每个组件在转换框架中的作用?是否还有更紧凑更有效的网络框架?

三、新框架

又一新框架 | 无监督图像转换任务新境界(附论文代码)_生成器_03

类似CycleGAN的框架与作者的NICE-GAN框架之间的主要差异

本次提出了一个新颖的思路。众所周知,在图像转换任务中,当网络训练完成后,当前的网络框架将丢弃判别器。而在论文提出的新框架中,判别器赋予了双重角色——编码和分类:通过复用目标域判别器的前几层网络来替代目标域图像的编码器。作者将这个新的体系结构称为NICE-GAN。实际上,判别器的编码潜力在DCGAN这篇文章中就已经被讨论。

与以前的方法相比,NICE-GAN具有两个优势:首先,由于不需要独立的编码组件,因此结构更紧凑,同时在训练完成后,其编码部分仍保留用于推断。其次,传统的编码器是通过生成器的梯度传播进行间接训练的。在这里,通过将其插入判别器中,可以直接利用判别损失(Discriminative Loss)进行训练,如果应用了多尺度判别器结构,则它将拥有更多的信息量和更高的训练效率。

四、解耦训练策略

NICE-GAN框架中的主要问题是编码器上的转换构造(translation)与判别(discrimination)之间存在矛盾的耦合——当我们通过GAN玩min-max游戏时,编码器与生成器一起训练以最小化对抗损失,而与判别器一起训练则为了使对抗损失最大化,这会导致训练目标的冲突。为了解决这个问题,作者提出了一种解耦训练策略,使编码器的训练仅与判别器相关联,而与生成器无关通过该策略——仅在最大化对抗损失(Discriminative Loss)的时候对编码器进行训练,否则将其冻结。

又一新框架 | 无监督图像转换任务新境界(附论文代码)_生成器_04

无监督图像到图像的转换是计算机视觉的核心问题。训练结束后,大多数当前的图像转换框架将丢弃判别器。本文通过重复使用判别器来对目标域的图像进行编码,提出NICE-GAN。与以前的方法相比,方法具有两个好处:首先,由于不需要独立的编码组件,因此结构更紧凑;其次,这种插入式编码器直接受对抗损失训练,如果应用了多尺度判别器,则其信息量更大,训练更有效。

  1. 第一个重用判别器来编码非监督图像到图像转换的人。通过这样的重用,可以派生出更紧凑、更有效的体系结构,称为非独立组件编码GAN (NICE-GAN)。
  2. 考虑到典型训练过程中判别器的重用会导致不稳定,本文开发了一种简单有效的解耦训练范式。
  3. 在几个流行的基准上进行的广泛实验评估显示,所提出的方法优于各种先进的对应方法。此外,还进行了全面研究,以验证各组件的有效性。

网络结构:NICE-GAN图形流程图的说明。在这里,我们只显示从X到Y(从狗到猫)的一个转换流。注意,我们应用了一种解耦的训练方式:当最小化对抗损失、重建损失和周期损失时编码器Ey是固定的,当最大化对抗损失时,它是训练的。

五、实验验证

作者在四个流行的基准上进行的广泛实验证明,在FID,KID以及人类感知偏好等指标上,NICE-GAN的性能优于最新方法。此外,作者还进行了全面的消融研究,以验证每个组件的有效性。

又一新框架 | 无监督图像转换任务新境界(附论文代码)_编码器_05

又一新框架 | 无监督图像转换任务新境界(附论文代码)_计算机视觉_06

转换效果图。从上到下依次为:狗<—>猫,冬天<—>夏天,普通照片<—>梵高作品,斑马<—>综马

在四个流行的基准上的FID和KID指标。NICE-GAN的性能优于最新方法

又一新框架 | 无监督图像转换任务新境界(附论文代码)_计算机视觉_07

模型大小和浮点运算量。表明NICE-GAN体系结构更加紧凑,模型复杂度更低

又一新框架 | 无监督图像转换任务新境界(附论文代码)_生成器_08

Ablation Study. Results of methods are all in 100K iterations of discriminator. NICE: No Independent Component for Encoding; RA: add residual connection in CAM attention module; C0x for local scale (10 x 10 receptive field), C1x for middle scale (70 x 70 receptive field), and C2x for global scale (286 x 286 receptive field); −: decreasing the number of shared layers by 1; +: increasing by 1.

又一新框架 | 无监督图像转换任务新境界(附论文代码)_生成器_09


又一新框架 | 无监督图像转换任务新境界(附论文代码)_生成器_10

Human preference results. The number indicates the percentage of preference on that translation task. Abbreviation: (D)og, (C)at; (W)inter, (S)ummer; (P)hoto, (V)angogh; (Z)ebra, (H)orse. 

又一新框架 | 无监督图像转换任务新境界(附论文代码)_计算机视觉_11

又一新框架 | 无监督图像转换任务新境界(附论文代码)_编码器_12

又一新框架 | 无监督图像转换任务新境界(附论文代码)_生成器_13

又一新框架 | 无监督图像转换任务新境界(附论文代码)_编码器_14

The heat-map visualizations of the hidden vectors. 

又一新框架 | 无监督图像转换任务新境界(附论文代码)_编码器_15



总 结


通过t-SNE可视化隐层编码,并利用Maximum Mean Discrepancy(MMD)以计算隐层空间两个编码分布的差异。有趣的是,通过NICE的训练,两个域的隐层空间分布变得更加聚集和紧密,但彼此依然可分。这种现象解释了为什么NICE-GAN表现出色。基于共享隐层空间假设构建的NICE-GAN,通过缩短低维隐层空间中域之间的转换路径,可能会促进高维图像空间的域的转换。同时进一步支持了一个重要观点:对比由通过最大似然训练的编码器网络学习的特征,由经过判别训练的网络学习到的特征往往更具表现力,也更适合推理。在NICE-GAN中,编码器也成为分布距离度量函数的一部分,而生成器只需要从隐层分布中提取循环一致性信息并拟合目标域分布。这种简单解耦的明确分工,有望引起人们对判别器实际作用的重新思考,它可能会刷新基于GAN的诸多任务的实现框架。

又一新框架 | 无监督图像转换任务新境界(附论文代码)_计算机视觉_16

该论文得到了国家科技部科技创新2030“新一代人工智能”重大项目的资助支持。后续工作中,清华大学计算机系“类脑计算与认知团队”将会继续关注机器人感知中的表征学习的基础理论问题,致力于寻找更有效的算法,实现更好的机器人学习效果。


/End.


又一新框架 | 无监督图像转换任务新境界(附论文代码)_计算机视觉_17


计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

又一新框架 | 无监督图像转换任务新境界(附论文代码)_计算机视觉_18

计算机视觉研究院

长按扫描维码
关注我们回复“NiceGAN” 获取论文

EDC.CV

标签:编码器,判别,训练,境界,GAN,一新,图像,NICE
From: https://blog.51cto.com/u_15726357/5734504

相关文章

  • Facebook AI何恺明又一新作 | 研究MoCo(动量对比学习),超越Hinton的SimCLR,刷新SOTA准确
    扫码关注我们公众号 :计算机视觉战队扫码回复:无监督,获取下载链接经常闲逛何老师主页,应该有所察觉,FacebookAI的何恺明老师有来一个新作,这次更加猛烈,远远比Hinton老师的Sim......
  • 干货——图像分类(上)
    今天我们开始给大家带来基础理论知识,有兴趣同学可以跟着我们一起,在新的一年里学习新知识,并巩固基础知识!今天,计算机视觉战队给大家分享的是图像分类基础知识,分享的内容译自斯......
  • 干货——图像分类(下)
    用于超参数调优的验证集今天我们接着上次图像分类上继续说说分类。首先,我来来介绍参数和超参数的基本知识。在机器学习或者深度学习领域,参数和超参数是一个常见的问题,个人根......
  • KAL1 LINUX 官方文档之arm板版本 --- 使用 Raspberry Pi Imager 软件编写 Kali Raspbe
    使用RaspberryPiImager软件编写KaliRaspberryPi图像将KaliRaspberryPi映像写入MicroSD卡或USB设备的另一个选项是使用适用于Windows、macOS和Linux的......
  • 数据增强方法 | 基于随机图像裁剪和修补的方式(文末源码共享)
    深度卷积神经网络(CNNs)在图像处理中取得了显著的效果。然而,他们的高表达能力有过度适应的风险。因此,提出了在丰富数据集的同时防止过度拟合的数据增强技术。最新的CNN体系......
  • 学习迁移架构用于Scalable图像的识别
    论文出自GoogleBrain,是对前一篇论文的改进,前一篇文章讲述了用RNN去搜索一个最好的网络结构,而这篇文章认为之前的搜索空间太大,效果不好,所以改成搜索CNN的效果最好的convce......
  • 3.修改图像
    1.总结:昨天主要是编写了根据uid和username以及avatar上传图像,但是还是没有实现上传图像的功能,今天再琢磨一下,代码好像无误,但是功能却没有达到效果主要是在mapper......
  • 基于支持向量机的图像分类(下篇:MATLAB实现)
    摘要:本文通过图文详细介绍如何利用支持向量机对图像进行分类,经过上篇文章对原理的介绍,这里介绍利用MATLAB编程实现。更多相关资源详解也可参考博主最新博文基于支持向量机......
  • 基于支持向量机的图像分类(上篇)
    摘要:本文通过图文详细介绍如何利用支持向量机对图像进行分类。这篇文章从什么是图像分类任务开始一步步详细介绍支持向量机原理,以及如何用它解决图像多分类任务。将这部分......
  • 图像复原
    1、图像复原:根据退化原因,建立相应的数学模型,从被污染或畸变的图像信号中提取所需要的信息,沿着使图像降质的逆过程恢复图像本来面貌。  1.1复原技术分类:(1)在给定......