昇思25天学习打卡营第10天|xkd007|计算机视觉应用实践（1）-FCN（全卷积网络）图像语义分割

标签：25 分割 10 卷积 16 语义图像打卡 FCN

FCN图像语义分割

全卷积网络（Fully Convolutional Networks，FCN）是UC Berkeley的Jonathan Long等人于2015年在Fully Convolutional Networks for Semantic Segmentation（点击可下载此论文）一文中提出的用于图像语义分割的一种框架。

FCN是首个端到端（end to end）进行像素级（pixel level）预测的全卷积网络。

1 语义分割

在具体介绍FCN之前，首先介绍何为语义分割：

图像语义分割（semantic segmentation）是图像处理和机器视觉技术中关于图像理解的重要一环，AI领域中一个重要分支，常被应用于人脸识别、物体检测、医学影像、卫星图像分析、自动驾驶感知等领域。

语义分割的目的是对图像中每个像素点进行分类。与普通的分类任务只输出某个类别不同，语义分割任务输出与输入大小相同的图像，输出图像的每个像素对应了输入图像每个像素的类别。语义在图像领域指的是图像的内容，对图片意思的理解，下图是一些语义分割的实例：

2 模型简介

FCN主要用于图像分割领域，是一种端到端的分割方法，是深度学习应用在图像语义分割的开山之作。通过进行像素级的预测直接得出与原图大小相等的label map（一个数据结构，用于将标签（或键）映射到它们对应的值）。因FCN丢弃全连接层替换为全卷积层，网络所有层均为卷积层，故称为全卷积网络。

*知识拓展：卷积神经网络（CNN）一般由①卷积层（Convolutional Layer）、②汇聚层（Pooling Layer）和③全连接层构成（Fully connected layer）；全卷积网络（FCN）将全连接层也已换成了卷积层。

全卷积神经网络主要使用以下三种技术：

卷积化（Convolutional）

使用VGG-16（一种深度卷积神经网络（CNN）架构，由牛津大学的视觉几何组（Visual Geometry Group，简称VGG）的研究人员在2014年提出。VGG-16是VGG模型的一个变种，它包含16层深度，包括13个卷积层和3个全连接层。）作为FCN的backbone（预训练的神经网络模型，可以被用作特征提取器，帮助新模型学习）。VGG-16的输入为224*224的RGB图像，输出为1000个预测值。VGG-16只能接受固定大小的输入，丢弃了空间坐标，产生非空间输出。VGG-16中共有三个全连接层，全连接层也可视为带有覆盖整个区域的卷积。将全连接层转换为卷积层能使网络输出由一维非空间输出变为二维矩阵，利用输出能生成输入图片映射的heatmap（热图，可以用于展示图像中特定特征的分布，如边缘检测或物体识别）。
上采样（Upsample）

在卷积过程的卷积操作和池化操作会使得特征图的尺寸变小，为得到原图的大小的稠密图像预测，需要对得到的特征图进行上采样操作。使用双线性插值的参数来初始化上采样逆卷积的参数，后通过反向传播来学习非线性上采样。在网络中执行上采样，以通过像素损失的反向传播进行端到端的学习。
跳跃结构（Skip Layer）

利用上采样技巧对最后一层的特征图进行上采样得到原图大小的分割是步长为32像素的预测，称之为FCN-32s。由于最后一层的特征图太小，损失过多细节，采用skips结构将更具有全局信息的最后一层预测和更浅层的预测结合，使预测结果获取更多的局部细节。将底层（stride 32）的预测（FCN-32s）进行2倍的上采样得到原尺寸的图像，并与从pool4层（stride 16）进行的预测融合起来（相加），这一部分的网络被称为FCN-16s。随后将这一部分的预测再进行一次2倍的上采样并与从pool3层得到的预测融合起来，这一部分的网络被称为FCN-8s。 Skips结构将深层的全局信息与浅层的局部信息相结合。

3 网络特点

不含全连接层(fc)的全卷积(fully conv)网络，可适应任意尺寸输入。
增大数据尺寸的反卷积(deconv)层，能够输出精细的结果。
结合不同深度层结果的跳级(skip)结构，同时确保鲁棒性和精确性。

4 数据处理

① 数据预处理

由于PASCAL VOC 2012数据集（PASCAL VOC 2012数据集是一个广泛用于计算机视觉研究的数据集，特别是图像分割任务。它由PASCAL VOC竞赛组织提供，包含了多个目标类别的图像和相应的标注信息）中图像的分辨率大多不一致，无法放在一个tensor中，故输入前需做标准化处理。

② 数据加载

将PASCAL VOC 2012数据集与SDB数据集（SDB数据集通常指的是Semantic Boundaries Dataset，它是一个用于语义分割任务的数据集。SBD数据集是PASCAL VOC2012数据集的一个扩展，提供了更多的图像用于训练和验证语义分割模型）进行混合。

③ 训练集可视化

运行代码观察载入的数据集图片（数据处理过程中已做归一化处理）。

5 网络构建

网络流程

FCN网络的流程如下图所示：

输入图像image，经过pool1池化后，尺寸变为原始尺寸的1/2。
经过pool2池化，尺寸变为原始尺寸的1/4。
接着经过pool3、pool4、pool5池化，大小分别变为原始尺寸的1/8、1/16、1/32。
经过conv6-7卷积，输出的尺寸依然是原图的1/32。
FCN-32s是最后使用反卷积，使得输出图像大小与输入图像相同。
FCN-16s是将conv7的输出进行反卷积，使其尺寸扩大两倍至原图的1/16，并将其与pool4输出的特征图进行融合，后通过反卷积扩大到原始尺寸。
FCN-8s是将conv7的输出进行反卷积扩大4倍，将pool4输出的特征图反卷积扩大2倍，并将pool3输出特征图拿出，三者融合后通反卷积扩大到原始尺寸。

通过代码构建FCN-8s网络。

6 训练准备

① 导入VGG-16部分预训练权重

FCN使用VGG-16作为骨干网络，用于实现图像编码。通过代码导入VGG-16预训练模型的部分预训练权重。

② 损失函数

语义分割是对图像中每个像素点进行分类，仍是分类问题，故损失函数选择交叉熵损失函数来计算FCN网络输出与mask之间的交叉熵损失。这里使用mindspore.nn.CrossEntropyLoss()作为损失函数。

③ 自定义评价指标 Metrics

7 模型训练

导入VGG-16预训练参数后，实例化损失函数、优化器，使用Model接口编译网络，训练FCN-8s网络。

8 模型评估

计算模型的评价指标。

9 模型推理

使用训练的网络对模型推理结果进行展示。

10 总结

FCN的核心贡献在于提出使用全卷积层，通过学习让图片实现端到端分割。与传统使用CNN进行图像分割的方法相比，FCN有两大明显的优点：一是可以接受任意大小的输入图像，无需要求所有的训练图像和测试图像具有固定的尺寸。二是更加高效，避免了由于使用像素块而带来的重复存储和计算卷积的问题。

同时FCN网络也存在待改进之处：

一是得到的结果仍不够精细。进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果仍比较模糊和平滑，尤其是边界处，网络对图像中的细节不敏感。二是对各个像素进行分类，没有充分考虑像素与像素之间的关系（如不连续性和相似性）。忽略了在通常的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺乏空间一致性。

原文链接：FCN图像语义分割.ipynb - JupyterLab (mindspore.cn)

标签：25,分割,10,卷积,16,语义,图像,打卡,FCN
From： https://blog.csdn.net/2301_78470967/article/details/140148765