传统基于深度学习的图片美学评估的要求输入是fixed-size,待评估的照片经常会经过裁剪、缩放和充填等变换,造成图片质量的下降。
那如何可以实现对原始图片尺寸进行美学质量评估呢?
示例:由上图,可以看出对图片尺寸的更改,直观上对美学质量就有较大影响。
于是,作者提出了一个composition-preserving deep ConvNet method,可以对原图进行美学特征的提取,不损坏原图质量。
具体的方法就是在常规卷积层和池化层前面加入一个spatial pooling layer,以直接处理输入图片的原始大小和长宽比。
接下来,就具体描述下作者的方法。
Background
首先,作者使用了一个广泛使用的图片分类网络ImageNet,将网络的top layer进行调整使之适应于美学质量评估任务。即将softmax prediction layer变成具有sigmoid激活函数的单一线性单元。
示例:深度学习网络结构
令fw表示为一个投影方程
其中,QI表示为图片I的美学质量。
令fcl(I)表示为最后一层全连接层的输出,sigmoid激活函数利用了图片美学质量的先验概率
将训练样本对S={In,ym}作为输入,其实yn为二进制(表示高质量与低质量)。令W表示为网络的连接权重集合,则可用stochastic gradient descend algorithm优化下式
获得网络结构参数。
Composition-preserving Deep ConvNet
作者对上述网络结构进行了修改与调整,采用了adaptive spatial pooling (ASP)strategy来替代原本的fixed-size约束。
示例:adaptive spatial pooling layer。ASP层在本地映像区域执行类似于传统池化层的运算(例如 max pooling)。但不同的是,ASP层代替了原本的输出维度,可相应地调整receptive field的大小。
接下来就是作者提出的Multi-Net Adaptive-Pooling ConvNet (MNA-CNN)的网络结构示意。
示例:MNA-CNN包含多个子网络,每个子网络的最后一层池化输出都转变成ASP。每个子网络的输入均为同一幅图片,每个子网络的输出通过average operator可获得一个最终的总体预测输出值。
作者又对所提出的网络结构做了进一步的改进。
用一个aggregation layer取代MNA-CNN的average operator算子。将每个子网络的预测值和作为每幅图片的scene-categorization posteriors输入,输出最后的美学质量估值。
示例:Scene-Aware Multi-Net Aggregation。将所提出的网络与scene-categorization deep network相结合。顶层的分类器以子网络预测和图像场景分类的后验概率作为特征向量,并产生最终的美学分类。
Experiments
作者将所设计网络应用于AVA数据集,实验效果则如下所示:
可以说是,美学质量评估效果还是很棒棒的。
接着,通过实验检验下ASP的有效性
以及Composition-preserving 有效性
示例1
示例2
综上,可以说作者提出的Composition-preserving网络在美学质量评估方面效果很是不错的。
原文链接:
[1] Mai, Long, Hailin Jin, and Feng Liu. "Composition-preserving deep photo aesthetics assessment. " Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
随着摄影平台积累的数据和用户的手动标注信息越来越多,相关的公司和团队在这个研究上将具有绝对压倒性的优势。
标签:layer,ASP,示例,网络,美学,质量,CNN,MNA From: https://blog.51cto.com/u_14122493/5750779