GAN的评价
在分类或者回归模型中,我们可以使用量化的指标来评价模型训练的好坏,比如:
- 使用分类准确率评价分类模型的性能;
- 使用均方误差评价回归模型的性能。
在生成模型上也需要一个评价指标来量化GAN的生成效果。
GAN指标最主要的有两个:
1. 样本生成的质量
2. 多样性
3.其他的:条件GAN、指标本身有上下界、鲁棒性、最根本的要与人的感知一致
目前应用比较多的GAN评价指标主要的有两个:
1. Inception Score
2. FID (Fréchet Inception Distance)
GAN的评价 Inception Score
我们希望GAN生成图像的质量好。图像质量是一个非常主观的概念,不够清晰的生成图片和足够明晰但不像真实目标的图片均应算作低质量的图片,但计算机不太容易认识到这个问题,我们希望可以设计一个可计算的量化指标,对生成图片的质量做出量化评价。
IS(Inception Score) 将生成的图片送入预训练好Inception模型,例如Inception-V3,它是一个分类器,会对每个输入的图像输出一个1000维的标签向量 ,向量的每一维表示输入样本属于某类别的概率: [0.01, 0, 0.9, …., 0.03, 0] 输出是一个长度为1000的tensor,表示属于某个类别的概率 。如果预训练的Inception-V3训练得足够好,对质量高的生成图像 , Inception-V3可将其以很高的概率分类成某个类,也就是说输出的概率值比较集中的指向某个类别 [0.01, 0, 0.9, …., 0.03, 0] ,而不是概率比较分散:[0.1, 0.12, 0.09, …., 0.03, 0.04] 。
我们可以使用熵来量化该指标,分布相对于类别的熵定义为:
公式中,P(yi|x) 表示 x 属于第 i 类的概率, y表示预测输出。
熵是一种混乱程度的度量,对于质量较低的输入图像,分类器无法给出明确的类别,其熵应比较大,而对于质量越高的图像,其熵应当越小,当预测输出为one-hot分布时,熵达到最小值0。
IS考虑的另一个度量指标即样本的多样性问题,若GAN产生的一批样本{x1,x2,...,xn}多样性比较好,则标签向量 {y1,y2,...,yn}的 类别分布也应该是比较均匀的,也就是说不同类别的概率基本上是相等的(这里假设训练样本的类别是均衡的),则其均值应趋向均匀分布。
也就是说,多样性可以表示为,生成样本会被预测为各个类别,并且各个类别的分布基本一样,不会集中到某个类别: