首页 > 其他分享 >CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!

CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!

时间:2023-04-21 13:35:16浏览次数:55  
标签:判别 训练 模型 VAG 网络 GAN CMU 迈入


CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_深度学习

文|林锐

众所周知,现在 GAN 的应用是越来越宽泛了,尤其是在 CV 领域。不仅可以调个接口生成新头像图一乐,也可以用 GAN 做数据增强让模型更加健壮。


CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_深度学习_02

▲嘉然你带我走吧嘉然!

在CV领域,不像分类、目标检测等任务可以使用预训练好的backbone来加速训练、提升精度,GAN的训练基本上是从头开始!!因为GAN的判别器好坏直接影响生成器的梯度,判别器太好将导致生成器的梯度消失,网络就没法训练了。

本文的作者为了打破这种局限性,今年 CVPR'2022的一篇Oral 引入了叫做 Vision-aided GAN(以下简称VAG)的全新结构,使得 GAN 也能够采用预训练+精调的范式。此外,VAG 只用1%的训练数据就达到了与StyleGAN相匹配的水准,使得训练难度显著降低。

论文题目:
Ensembling Off-the-shelf Models for GAN Training

论文链接:
https://arxiv.org/abs/2112.09130

Github:
https://github.com/nupurkmr9/vision-aided-gan

背景

首先简要介绍GAN网络的训练模式。   


CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_深度学习_03

▲图一:GAN的基本结构

2014年,Goodfellow发明了GAN网络,GAN的训练过程分为:

1.先固定住生成器,接着训练判别器,使这个判别器能够分辨生成的数据和真实的数据。

2.一定step后固定住判别器,接着训练生成器,使生成器生成的图片骗过判别器。一定step后继续此循环,直到达到纳什平衡的状态。

为什么不一开始就用一个预训练的最优判别器呢? 因为判别器太强将导致梯度消失,这也就是为什么GAN网络一般是从头开始训练。

CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_深度学习_04

本文的作者提出的 VAG 结构不但克服了GAN网络训练中常见的过拟合的问题,还避免了因判别器过强引发的梯度消失。因此VAG能使用预训练过的大型模型作为判别器来提高训练精度、简化训练过程,可谓神奇。下图为VAG模型结构图。


CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_机器学习_05

▲图二:VAG结构图

实现方法

1.训练思路

这张结构图表达的训练思想非常简单,首先搭建好一个的预训练模型库,然后从模型库中取出若干个模型再接上分类头组成的新判别器,再跟初始GAN网络的判别器并联。因此模型的训练Loss就变成了下面的样子。

402 Payment Required

也就是说并联的判别器会跟原始判别器一起去训练,由于原始的判别器不够强,所以能一定程度上避免梯度消失,又因为新的判别器是用大数据集训练好的模型,其中蕴含的丰富特征也让GAN网络不至于在某个数据集上过拟合。

2.预训练模型选择

细心的同学也能发现,loss中存在一个系数K,这个K是指在总量为N的预训练模型库中选择K个模型加入到训练中来,这个选择也不是乱选的啊,那必须是要有备而来。

作者先做了K=1情况下的GAN训练实验,在模型库中选一个模型,固定住参数,然后接上一个可训练的分类头,去判断传导进网络的图片是真的还是假的。这个二分类的结果称为Linear Probe Accuracy(以下简称LPA),并比较了不同LPA的模型和最终GAN网络训练评价指标FID的相关性,下图为实验结果。


CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_网络_06

▲图三:LPA和FID的关系

由上图可知,LPA和FID基本上称线性关系,Acc越高,FID也越好。那么当K不等于1的情况下要怎么样把更多的模型加到训练里去呢?作者采用K-progressive model selection策略来逐步添加模型到原始结构里,并在这个基础上达到了SOTA的效果。如何挑选要添加的模型后面实验有进一步解释。

实验

1.模型有效性

首先下图显式地展现了在GAN网络中引入预训练模型后,只需要用极少量的数据就能达到SOTA的效果,用100%的数据训练实现了新的SOTA。


CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_算法_07

▲图四:VAG的训练结果

2.K-progressive Model Selection的有效性

首先从下图中可以看出来,逐步把预训练的模型添加到网络训练中后,GAN的FID在大部分数据集中都能得到显著的提升。说明增加预训练模型的方式是有效的,作者进一步分析了如何去做Model Selection。


CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_人工智能_08

▲图五:K-progressive Model Selection策略有效性分析

下图展现了3种不同添加model的方式,第一行是逐渐加入在此数据集下LPA最好、次好的模型,第二行是随机选择,第三行是选择最差、次差的模型,很明显逐渐加入最好的那一批模型最终的训练效果最好。


CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!_算法_09

▲图六:不同Selection方式的有效性分析

总结

作者提出了Vision-aided GAN的结构,率先引入了预训练的模型辅助GAN训练并取得了新的SOTA,为之后的GAN网络训练提供了新的范式。

小编认为这篇文章的思路很直观,但是在实验中如何平衡新引入的GAN判别器Loss和原始判别器Loss是一个很难的抉择问题,因为在训练过程中,由于原始判别器Loss始终处于一个主导地位,很有可能模型直接摆烂完全不优化第二部分判别器的Loss,所以能把这种方法做work的才是真正的大佬呀。


标签:判别,训练,模型,VAG,网络,GAN,CMU,迈入
From: https://blog.51cto.com/xixiaoyao/6212602

相关文章

  • gganimate|让你的图动起来!!!
    这是ggplot中十分可爱的一个扩增包,目的只有一个,就是让你的图动起来!就是酱紫!!gganimate扩展了ggplot2实现的图形语法,包括动画描述。它通过提供一系列新的语法类来实现这一点,这些类可以添加到绘图对象中,以便自定义它应该如何随时间变化。下面是他的parameter:transition_*()定义了数据......
  • UBantu 无法运行 Ganache 解决方案
    问题描述直接在UBantu上执行ganache-2.5.4-linux-x86_64.AppImage程序可能因为权限问题而无法运行解决办法可以将ganache-2.5.4-linux-x86_64.AppImage进行解压,如下:$./ganache-2.5.4-linux-x86_64.AppImage--appimage-extract解压以后会创建squashfs-root文件夹,......
  • 用CTGAN生成真实世界的表格数据
    随着CLIP和稳定模型的快速发展,图像生成领域中GAN已经不常见了,但是在表格数据中GAN还是可以看到它的身影。现实世界的复杂性与许多方面相关(例如,缺失数据、不平衡数据、噪声数据),但最常见的一个问题是包含异构(或“混合”)数据,即包含数字和分类特征的数据。由于每种特征类型都可......
  • Github创建组织(organization)
    前言创建Github组织(Organization)可以让你和你的团队共享代码,更好地管理和协作开发项目。Github组织(Organization)是一个非常有用的工具,可以让开发者协同工作并共享他们的代码。首先,登录你的Github账户。Github上创建组织的详细步骤1、点击右上角的加号(+)按钮,然后从下拉菜单中选......
  • 未来已来,OpenHarmony 3.2 Release发布,迈入发展新阶段
     2023年4月9日,在社区开发者的期盼中,在春风送暖万物更新的季节里,我们迎来了OpenAtomOpenHarmony(以下简称“OpenHarmony”)3.2Release新版本的发布。相比一年前的OpenHarmony3.1Release版本,新版本的系统能力、系统整体性能、稳定性和安全性都进一步得到提升和完善;OpenHarmon......
  • Wav2Lip-GFPGAN用法
    下载官网:https://github.com/ajay-sainy/Wav2Lip-GFPGAN下载:https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth改名为:s3fd.pth存放到/Wav2Lip-master/face_detection/detection/sfd/s3fd.pth下载https://drive.google.com/uc?id=1fQtBSYEyuai9MjBOF8j......
  • m基于shepp-Logan模型和滤波反投影的医学图像多尺度全局重建和局部重建matlab仿真
    1.算法描述        从投影重建物体的截面图像是图像处理中非常重要的技术此技术在物体的无损伤性检测其内部缺陷的应用中能起很大作用从投影重建图像的技术早在20世纪中期就已经制成常规医疗诊断设备的商品1917年奥地利数学家J.Radon发表的论文证明了二维物体或三维物体......
  • BFT最前线丨华为宣布4月推出盘古大模型;李开复“关门弟子“周健入大模型打造AI自动化助
    文|BFT机器人 01华为宣布4月推出盘古大模型华为将于4月发布盘古大模型,这是一种由NLP大模型、CV大模型、多模态大模型、科学计算大模型等多个大模型构成的全新AI架构,旨在解决AI规模化和产业化难题,实现自然语言和图像等多模态数据的理解,让更多人参与到人工智能技术的研究中来,......
  • CMU_15_445_project_0_C++_Primer
    CMU15_445project_0C++Primertask1Copy-On-WriteTrieGetGet比较简单,遍历字符串和trie,找得到就返回值,找不到就返回nullptr.Put每个树有一个没有value的根节点,节点的类型分为TrieNode类和TrieNodeWithValue类,TrieNode是基类不存value,TrieNodeWithValue类继......
  • 生成对抗网络 GAN 基本原理与发展历程
    1、什么是GAN背景知识:快速掌握机器学习(MachineLearning)常用概念术语,常用算法快速掌握深度学习(DeepLearning)常用概念术语,常用模型从人工到自动的机器学习:从人工提取特征到自动提取特征相对于传统的机器学习,深度学习厉害的地方就是能够自己学习特征提取。机器学习:数据预处......