目 录
1 绪论 1
1.1 研究背景 1
1.2 研究目的和意义 1
1.2.1 研究的应用价值 1
1.2.2 研究的前沿性和学术性 3
1.3 研究内容 5
1.3.1 风格建模 5
1.3.2 图像重建 5
1.4 研究现状和挑战 6
1.4.1 评估方法 6
1.4.2 理论支撑 6
1.4.3 风格迁移的三向权衡 7
1.5 前人研究工作 7
1.5.1 IOB-IST算法 8
1.5.2 MOB-IST算法 8
1.6 论文结构和章节安排 10
2 基于CNN的图像风格迁移算法 12
2.1 CNN-IST 研究框架 12
2.2 CNN-IST 网络基本结构 13
2.2.1 二维卷积层 13
2.2.2 激活函数 14
2.2.3 池化层 15
2.2.4 全连接层 16
2.3 CNN-IST 算法理论 17
2.4 实验设计与算法评估 18
2.4.1 实验细节和参数设置 18
2.4.2 定量评估 19
2.4.3 定性评估 20
3 基于感知损失的实时PSPM算法 21
3.1 PL-PSPM 网络框架 21
3.1.1 反射填充 22
3.1.2 残差块 22
3.1.3 分数步长卷积 23
3.1.4 批标准化 24
3.2 PL-PSPM算法理论 25
3.3 实验设计与算法评估 25
3.3.1 实验细节和参数设置 25
3.3.2 定性评估 26
3.3.3 定量评估 26
4 算法对比 28
4.1 三向权衡评估 29
4.1.1 质量评估 29
4.1.2 算法效率和灵活性评估 29
4.2 损失指标评估 30
4.2.1 训练损失比较 30
4.2.2 最终损失评估 31
5 算法拓展 32
5.1 FT-ASPM算法理论 32
5.2 基于纹理合成的多风格融合迁移 34
5.3 基于掩膜操作的特定区域风格迁移 36
总结与展望 38
本文的总结 38
本文的展望 39
参考文献 40
致谢 42
1.3 研究内容
研究风格迁移要解决的第一个问题就是风格建模算法,需要解决如何对一个风格图片建模和抽取它的纹理。再获得风格图片的风格纹理后,下一个要解决的问题就是图像重建算法,需要解决如何重建一张含特定风格并保留内容图片高层语义信息的图像。
1.3.1风格建模
风格建模又被称为纹理建模,是纹理合成的核心技术。从前人的工作来看,纹理建模可以分为两个不同的方法,分别是基于概要统计的参数化纹理建模(Parametric Texture Modelling with Summary Statistics: PTM-SS)和基于马尔可夫随机场的非参数纹理建模(Non-parametric Texture Modelling with MRFs: NPTM-MRFs)。
PTM-SS方法其中一种途径是捕获图像相关的统计信息,并利用相关的统计属性来对纹理进行建模。例如:Gatys提出的PTM-SS方法是设计一个Gram矩阵来表示纹理。通过Gram矩阵来对风格进行建模,具体地说,就是利用了图像的二阶统计量来进行风格建模。基于PTM-SS风格建模方法的IST算法被称为基于概要统计的参数化IST算法(PTM-SS-IST)。
非参数方法的各种变形都是基于马尔可夫模型,其假设在纹理图像中,每个像素完全由其空间邻域表征。例如可以通过搜索源纹理图像中的邻域并分配最匹配的风格像素来逐个合成邻域像素。基于NPTM-MRFs风格建模方法的IST算法被称为基于MRFs的非参数化IST算法(NPTM-MRFs-IST)。
1.3.2图像重建
很多计算机视觉任务都是利用CNN从输入图像中抽取出图像的特征图(feature map),而图像重建正好是一个逆向过程,它是从特征图的抽象表达中重建整个输入图像。基于CNN的图像重建算法是目前比较流行的,其可以分类为基于图像优化的在线图像重建(Image-Optimisation-Based Online Image Reconstruction:IOB-IR)和基于模型优化的离线图像重建(Model-Optimisation-Based Offline Image Reconstruction:MOB-IR)。其中基于IOB-IR重建方法的风格迁移算法称为IOB-IST(Image-Optimisation-Based Offline Image Style Transfer), 基于MOB-IR重建方法的风格迁移算法称为MOB-IST(Model-Optimisation-Based Offline Image Style Transfer)。但由于MOB-IST的效率更高,得到学术界更多地关注。MOB-IST又可以细分为:单模型单风格(Per-Style Per-Model: PSPM)、单模型多风格(Multiple-Style Per-Model: MSPM)和单模型任意风格(Arbitrary-Style Per-Model: ASPM)。