原文链接:https://arxiv.org/pdf/1907.09595.pdf
代码链接:
https://github.com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnet
1、主要思想和创新点
Depthwise卷积在现代高效convnet中越来越流行,但它的核大小常常被忽略。本文系统地研究了不同核大小的影响,并观察到结合多核大小的优点可以获得更好的精度和效率。在此基础上,提出了一种新的混合深度卷积(MixConv),它在一个卷积中自然地混合了多个核大小。作为一个简单的卷积替代结构,论文中的MixConv提高了现有的移动图像对图像分类和COCO对象检测的准确性和效率。
为了证明MixConv的有效性,将其集成到AutoML搜索空间中,并开发了一个新的模型系列,称为MixNets,它优于以前的移动模型,包括MobileNetV2(ImageNet top-1 accurity+4.2%)、ShuffleNetV2(+3.5%)、MnasNet(+1.3%)、ProxylessNAS(+2.2%)和FBNet(+2.0%)。特别是, MixNet-L在典型的移动设置下(小于600万次浮点运算),达到了最新的78.9%的ImageNet top-1精度。
2、模型结构
前期的许多论文提到尺寸较大的卷积核会提高分类模型的准确率,本文通过验证得出,并非卷积核的尺寸越大越好。
论文研究表明了单核尺寸的局限性:既需要大核来捕获高分辨率模式,也需要小核来捕获低分辨率模式,以获得更好的模型精度和效率。基于这一观察,文章提出了一种混合深度卷积(MixConv),它在一个卷积运算中混合不同的核大小,这样它可以很容易地捕获不同分辨率的不同模式。下图显示了MixConv的结构,它将通道划分为多个组,并对每个通道组应用不同的内核大小。我们的MixConv是一个简单的普通卷积替换,但它可以显著提高MobileNets在ImageNet分类和COCO目标检测上的准确性和效率。
文中还给出了MixConv的代码实现:
卷积核的类别和数量:
论文建议可以使用3x3,5x5,7x7,9x9四种卷积核来完成MixConv。信道划分主要有两种形式:第一种针对每类卷积核,都有相同的tensor;第二种针对不同卷积核对应的tensor呈指数级递减。
论文还给出了两类基于MixConv的MixNet结构:
3、实验结果
文章以MobileNetv1和v2作为目标检测网络的基准,并对比了使用Mixconv前后,网络的参数数量和mAP的变化,可以看出,在降低参数的同时,准确率没有下降,甚至有所提升。
论文基于ImageNet数据集,对比了MixNet和各分类模型的参数和准确率:
可以发现,MixNet在减少参数的同时,可以有效提升准确率!