MNA-CNN: 如何在美学质量评估中储存照片原始信息

时间：2022-10-12 15:00:10浏览次数：66

标签：layer ASP 示例网络美学质量 CNN MNA

传统基于深度学习的图片美学评估的要求输入是fixed-size，待评估的照片经常会经过裁剪、缩放和充填等变换，造成图片质量的下降。

那如何可以实现对原始图片尺寸进行美学质量评估呢？

MNA-CNN: 如何在美学质量评估中储存照片原始信息_激活函数

示例：由上图，可以看出对图片尺寸的更改，直观上对美学质量就有较大影响。

于是，作者提出了一个composition-preserving deep ConvNet method，可以对原图进行美学特征的提取，不损坏原图质量。

具体的方法就是在常规卷积层和池化层前面加入一个spatial pooling layer，以直接处理输入图片的原始大小和长宽比。

接下来，就具体描述下作者的方法。

Background

首先，作者使用了一个广泛使用的图片分类网络ImageNet，将网络的top layer进行调整使之适应于美学质量评估任务。即将softmax prediction layer变成具有sigmoid激活函数的单一线性单元。

MNA-CNN: 如何在美学质量评估中储存照片原始信息_池化_02

示例：深度学习网络结构

令fw表示为一个投影方程

MNA-CNN: 如何在美学质量评估中储存照片原始信息_深度学习_03

其中，QI表示为图片I的美学质量。

令fcl（I）表示为最后一层全连接层的输出，sigmoid激活函数利用了图片美学质量的先验概率

MNA-CNN: 如何在美学质量评估中储存照片原始信息_激活函数_04

将训练样本对S={In，ym}作为输入，其实yn为二进制（表示高质量与低质量）。令W表示为网络的连接权重集合，则可用stochastic gradient descend algorithm优化下式

MNA-CNN: 如何在美学质量评估中储存照片原始信息_深度学习_05

获得网络结构参数。

Composition-preserving Deep ConvNet

作者对上述网络结构进行了修改与调整，采用了adaptive spatial pooling （ASP）strategy来替代原本的fixed-size约束。

MNA-CNN: 如何在美学质量评估中储存照片原始信息_池化_06

示例：adaptive spatial pooling layer。ASP层在本地映像区域执行类似于传统池化层的运算（例如 max pooling）。但不同的是，ASP层代替了原本的输出维度，可相应地调整receptive field的大小。

接下来就是作者提出的Multi-Net Adaptive-Pooling ConvNet (MNA-CNN)的网络结构示意。

MNA-CNN: 如何在美学质量评估中储存照片原始信息_池化_07

示例：MNA-CNN包含多个子网络，每个子网络的最后一层池化输出都转变成ASP。每个子网络的输入均为同一幅图片，每个子网络的输出通过average operator可获得一个最终的总体预测输出值。

作者又对所提出的网络结构做了进一步的改进。

用一个aggregation layer取代MNA-CNN的average operator算子。将每个子网络的预测值和作为每幅图片的scene-categorization posteriors输入，输出最后的美学质量估值。

MNA-CNN: 如何在美学质量评估中储存照片原始信息_深度学习_08

示例：Scene-Aware Multi-Net Aggregation。将所提出的网络与scene-categorization deep network相结合。顶层的分类器以子网络预测和图像场景分类的后验概率作为特征向量，并产生最终的美学分类。

Experiments

作者将所设计网络应用于AVA数据集，实验效果则如下所示：

MNA-CNN: 如何在美学质量评估中储存照片原始信息_激活函数_09

MNA-CNN: 如何在美学质量评估中储存照片原始信息_激活函数_10

可以说是，美学质量评估效果还是很棒棒的。

接着，通过实验检验下ASP的有效性

MNA-CNN: 如何在美学质量评估中储存照片原始信息_深度学习_11

以及Composition-preserving 有效性

MNA-CNN: 如何在美学质量评估中储存照片原始信息_深度学习_12

示例1

MNA-CNN: 如何在美学质量评估中储存照片原始信息_激活函数_13

示例2

综上，可以说作者提出的Composition-preserving网络在美学质量评估方面效果很是不错的。

原文链接：

[1] Mai, Long, Hailin Jin, and Feng Liu. "Composition-preserving deep photo aesthetics assessment. " Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

MNA-CNN: 如何在美学质量评估中储存照片原始信息_池化_14

MNA-CNN: 如何在美学质量评估中储存照片原始信息_池化_15

随着摄影平台积累的数据和用户的手动标注信息越来越多，相关的公司和团队在这个研究上将具有绝对压倒性的优势。

标签：layer,ASP,示例,网络,美学,质量,CNN,MNA
From： https://blog.51cto.com/u_14122493/5750779

【项目实战课】基于Pytorch的MTCNN与Centerloss人脸识别实战
欢迎大家来到我们的项目实战课，本期内容是《基于Pytorch的MTCNN与Centerloss人脸识别实战》。所谓项目实战课，就是以简单的原理回顾+详细的项目实战的模式，针对具体的某一个主......
猫狗识别-CNN与VGG实现
本次项目首先使用CNN卷积神经网络模型进行训练，最终训练效果不太理想，出现了过拟合的情况。准确率达到0.72，loss达到0.54。使用预训练的VGG模型后，在测试集上准确率达到0.91，取......
稀疏RCNN：稀疏框架，端到端的目标检测（附源码）
计算机视觉研究院专栏作者：Edison_GSparseR-CNN抛弃了anchorboxes或者referencepoint等dense概念，直接从asparsesetoflearnableproposals出发，没有NMS后处理，整个网络异......
替罪羊树：暴力美学
替罪羊树简述替罪羊树是一种体现代码暴力美学的数据结构。虽然暴力，但它不是像分块、莫队那样的根号算法，它是一种\(\log\)算法。多了解几个平衡树，会发现每棵树都有自......
[轻量化网络]Mnasnet学习笔记
1.重点与亮点1.1. 多目标优化函数将准确定性能和真实手机推理时间结合在一起，兼顾精度和速度构建出多目标的优化函数。（精度，速度）其中ACC是准确度；LAT是预测时间；T......
VC R-CNN | 无监督的视觉常识特征学习（附源码）
计算机视觉研究院专栏作者：Edison_G最近CVPR不是在线直播，我关注了下，发现一篇很有意思的paper。让我想到在研究生有做过类似的算法——因果关系。今天我们看看这位作者是怎么......
新卷积运算 | 倍频程卷积降低CNNs的空间冗余（文末提供源码）
传统的卷积已经普遍被使用，现在陆续出现新的卷积方式，越来越高效，也越来越被他人认可，在性能方面也得到了较大的提升。今天所要分享的是Facebook和新加坡国立大学联手提出的新一......
麻省理工HAN Lab | ProxylessNAS自动为目标任务和硬件定制高效CNN结构(文末论文及源码
导读NAS受限于其过高的计算资源需求，仍无法在大规模任务上直接进行神经网络的学习。今天分享的这篇文章主要解决NAS代理机制下无法搜索到全局最优的问题，改进搜索策略，一定程......
CVPR 19系列 | Stereo R-CNN 3D 目标检测
摘要之前在3D检测方面的文章层出不穷，也是各个公司无人驾驶或者机器人学部门关注的重点，包含了点云，点云图像融合，以及单目3D检测，但是在双目视觉方面的贡献还是比较少，自从3DOP之......
CNN的感受野(receptive field)计算
感受野就是输出的featuremap某个节点的响应对应的输入图像的区域即为感受野。神经元对应的感受野越大，说明其接触的原始图像范围就越大，意味着其包含更加全局、语义层次更高......

MNA-CNN: 如何在美学质量评估中储存照片原始信息

相关文章

赞助商

阅读排行