[论文速览] Separating Style and Content for Generalized Style Transfer

标签：Style 参考 Transfer Content ij 风格 Nt 图片

Pre

title: Separating Style and Content for Generalized Style Transfer
accepted: CVPR 2018
paper:https://arxiv.org/abs/1711.06454
code: none

关键词: style transfer, chinese typeface transfer, font geration
阅读理由: 回顾经典

Idea

将图片解耦成内容和风格两种特征，两两组合以生成具有一方内容与另一方风格的图片

Motivation

现有的风格迁移方法显式学习某种源风格到目标风格的变换，无法泛化到新风格

图1 本文提出的EMD模型的框架

Background

Method（Model）

Overview

图2 EMD做风格迁移的详细架构

Encoder Network

原文讲得很细，略

Mixer Network

提到 Mixer 是一个双线性模型（bilinear model）

双线性：对函数\(f(x, y)\)，当固定其中一个参数（x）时，\(f(x, y)\)对另一个参数（y）是线性的

实际上这个模型似乎只有一个简单的可学习参数\(W\)，对内容C风格S按下式进行融合：

\[F_{ij} = S_{i}\bold{W}C_{j} \tag{3} \]

对照图2看能发现通过W能够将维度不同的内容(\(1\times B\))风格(\(1\times R\))融合为任意维度的F
(\(1\times K\))，还挺方便，看起来是相加和拼接的进阶版？

Decoder Network

多层 Deconvolution-BatchNorm-ReLU 上采样

Loss

使用加权的L1损失函数（weighted L1 loss）作为生成损失（generation loss），用于衡量生成的图像与目标图像之间的差异。比起L2，L1损失倾向于产生更清晰、更干净的图像。函数定义如下：

公式4-5

其中 \(W^{ij}_{st}\) 和 \(W^{ij}_{b}\) 是两个权重，用于缓解目标集中由随机采样引起的不平衡。这两个权重分别关于字符的大小和厚度（\(W^{ij}_{st}\)）以及字符的黑暗程度（\(W^{ij}_{b}\)）。

因为每个迭代中目标图片的尺寸和厚度都会改变，模型主要优化那些有更多的像素的图片，例如那些更大更厚的汉字。

作者定义 \(W^{ij}_{st}\) 为每个目标图像中黑色像素数量的倒数。对于 \(W^{ij}_{b}\) ，作者计算每个目标图像中黑色像素的平均值，并计算其 softmax 权重。但是什么叫做黑像素的平均值（mean value of the black pixels）？难道是考虑每个图片里黑色像素有的略大于0，并非完全0/255的二元图片？

公式6-7

这种损失函数的选择是基于字符字体迁移问题的特点，L1损失倾向于产生更清晰、更干净的图像。通过引入这些权重，模型在训练过程中能够更好地处理不同大小和厚度的字符，以及不同黑暗程度的字符，从而提高生成图像的质量。

Experiment

Settings

详细讲了网络的配置，略

值得注意的是该模型需要风格参考也要内容参考，两者都要多张输入，由同一个参数r控制，也就是每次生成需要r张风格r张内容参考图片

Dataset

832 字体，每个有 1732 汉字，图片分辨率80x80

图3 数据集划分示意图，目标图片选择和参考集构建

数据集划分为图3所示的D1~D4四部分，红叉是目标图片，同一行的橙色圈是它的参考风格图片，而同一列的绿色圈则是它的参考内容图片

Influence of the Training Set Size

图4 D1~D4的生成结果（从左上到右下），TG: 目标图片, O1: Nt=20k的输出, O2: Nt=50k的输出, O3: Nt=100k的输出, O4: Nt=300k的输出, O5: Nt=500k的输出。固定r=10

Influence of the Reference Set Size

图5 参考图片数量的影响（从左上到右下D1~D4），TG: 目标图片, O1: r=5的输出, O2:

r=10的输出, O3: r=15的输出. 固定Nt=300k

Effect of the Skip-connection

图6 跳跃连接的影响（从左上到右下D1~D4），TG: 目标图片, O1: 没跳跃连接的输出, O2:

有跳跃连接的输出, O3: r=15的输出. 固定Nt=300k，r=10

Validation of Style and Content Separation

图7 风格抽取的验证 CR：内容参考 TG：目标图片 O1~O3分别由CR和三组不同的风格参考生成

图8 内容抽取的验证 SR：风格参考 TG：目标图片 O1~O3分别由SR和三组不同的内容参考生成

作者认为图7说明风格编码器抽取很准确，能抽取出稳定的特征以生成相似的结果，对图8也是类似的理解。如果像CF-Font那样分析内容字形与目标字形的风格相似性或许能发现，内容字形会严重影响结果。可能这里内容字形太多，导致抽取的特征较为平均，以及图片分辨率也小，体现不出影响。

Comparison with Baseline Methods

图9 和baseline的比较，所有模型使用相同数量的图片对来训练

图10 生成新风格新内容的比较。模型名后面的数字对于EMD（有泛化能力无需重新训练）来说是参考图片数量，对于baseline来说是训练的图片对数量

Conclusion

略

Critique

跟同期的SA-VAE相比，训练数据更多，图片更清晰美观，对比的baseline更多，贡献更直接且集中，指出了解耦的作用。而SA-VAE多了关于汉字结构信息的使用，而且用的是VAE，实验多了插值、其他语言文字生成

本文对内容也需要多张参考图片，而后续工作似乎想降低开销，固定了一种字体作为源字体来提供内容图片

标签：Style,参考,Transfer,Content,ij,风格,Nt,图片
From： https://www.cnblogs.com/Stareven233/p/18030065