标签：grained noise learnable Shipsear 学习参数 AGNet et 识别

摘要

分析海洋声环境是一项棘手的任务。背景噪声和可变信道传输环境使舰船辐射噪声的准确识别变得复杂。现有的识别系统在处理多变的水下环境方面能力较弱，在实际应用中表现不佳。为了保持识别系统在各种水下环境下的鲁棒性，本文提出了一种自适应广义识别系统——AGNet (adaptive generalized Network)。AGNet通过将固定的小波参数转换为细粒度的可学习参数，学习不同频率的水声特征。其灵活、细粒度的设计有利于捕捉更多的背景声学信息(如背景噪声、水下传输信道)。为了利用小波谱图中的隐式信息，AGNet采用带有并行卷积注意模块的卷积神经网络作为分类器。实验表明，在多个水声数据集上，我们的AGNet优于所有基线方法，AGNet可以从迁移学习中获益更多。此外，AGNet对各种干扰因素表现出稳健的性能。

1. 引言

船舶辐射噪声是环境海洋噪声的主要贡献者之一(Brooker和Humphrey, 2016;Wang et al.，2021)。因此，舰船辐射噪声识别在海洋声学中具有重要意义。从辐射噪声中识别船只对于监测海上交通和确定海洋环境监测系统中的噪声源可能是必要的(Fillinger等人，2010;Sutin et al.，2010)。近年来，不断增长的需求促进了旨在建立强大的船舶辐射噪声识别的研究系统（李等人，2017 年;柯等人，2020 年）。

在之前的研究中，研究人员使用声学特征提取将信号转换为非冗余的声学特征。Das等人(2013)应用了一种基于倒谱的方法来实现船舶识别。Wang和Zeng(2014)使用bark-小波分析结合Hilbert-Huang变换。此外，音频和语音领域的声学特征(例如Mel频率倒谱系数)被广泛应用于船舶辐射噪声识别任务，并显示出有前景的结果(Zhang等人，2016;Khishe和Mohammadi, 2019)。然而，低维声学特征固有地限制了泛化能力，经典机器学习模型(如支持向量机)的识别性能对于具有不同特征空间的大规模数据并不令人满意(Irfan et al. 2021)。

随着深度学习的发展(LeCun et al.， 2015)和水声数据库的积累(Santos-Domínguez et al.， 2016;Irfan et al.， 2021)，基于深度学习的识别算法越来越受欢迎。据文献报道，大多数深度学习方法更倾向于使用基于时频的特征进行水声识别(Shen et al.， 2020;Zheng等人，2021)。Wang et al.(2018)使用LOFAR(低频分析记录)来反映功率谱分布和信号在时间和频率维度上的变化。Zhang et al.(2021)应用短时傅里叶变换(STFT)振幅谱、STFT相位谱和双谱特征作为卷积神经网络的输入(Krizhevsky et al.， 2012)。此外，将基于Mel滤波器组、Gabor变换和小波变换的谱图应用于水声场，对时频域信息进行定位(Liu et al.， 2021;Shastri等人，2013;Courmontagne等人，2012)。与传统方法相比，基于时频的特征包含更全面的信息，深度神经网络具有较高的计算效率和很好的识别性能(Xie et al.， 2020;Zhu等，2021;刘等，2021)。

从研究现状来看，目前的水声识别系统还存在一些不足。首先，考虑到由于海洋环境多变，水声信号复杂，人工选择的参数在不同情况下很难保持最优，从而导致识别系统泛化能力较差。此外，对于水声信号，不同频带的信息变化较大。有很多无用的信息和干扰。在光谱图中。现有工作中的分类器缺乏将注意力集中在有效时频域信息上的能力。

为了解决近期工作中存在的上述问题，本工作提出了一种自适应广义神经网络——AGNet (adaptive generalized Network)。为了增强特征的泛化能力，AGNet采用了基于细粒度小波变换的特征提取方法，可以自动学习不同中心频率的小波参数。这项工作以数据驱动的方法实现了自适应学习和参数更新。自适应广义网络的参数会受到背景噪声、传输信道等因素的影响，使识别模型更适合实际应用场景。此外，为了将网络的注意力集中在有效的时频域信息上，这项工作增加了并行卷积注意力模块(Chollet, 2017;Woo等人，2018)到传统神经网络，旨在实现对时频谱图的自适应信息挖掘。

本工作评估了AGNet在三种水下舰船辐射噪声数据库上的性能。AGNet在所有数据集上都达到了令人满意的识别精度:Shipsear (85.48%)， DeepShip(77.09%)和千岛湖收集的数据(95.76%)。实验表明，在低信噪比和低截止频率的情况下，AGNet仍能保持良好的性能。此外，由于具有更多的可学习参数，AGNet可以从迁移学习中受益更多。我们的工作贡献总结如下:

AGNet采用细粒度可学习小波变换捕捉复杂水声特征。不同中心频率的小波参数以数据驱动的方式自适应更新。
为了使分类器集中于谱图中的有效信息，在神经网络中加入并行卷积注意块，并采用深度可分离卷积结构来减少参数。
实验表明，该自适应广义网络在各种数据集上表现出满意的性能和较强的泛化能力。更多的可学习参数有助于AGNet更好地从迁移学习中受益，并在高背景噪声和低截止频率下变得更加健壮。

2. 方法

在本节中，本文概述了AGNet识别系统，并介绍了AGNet的两个主要创新:可学习细粒度小波变换和并行卷积注意模块。

2.1 系统概述

如图1所示，我们的系统的过程可以分为三个阶段:数据预处理、基于小波的特征提取和基于注意的分类器。首先，声纳阵列将收集船载噪声。在数据预处理阶段，可以通过阵列信号处理(如波束形成)获得单声道音频信号。在此基础上，对音频信号进行框定，通过小波变换将其转化为二维谱图。分类器接收谱图并输出分类结果。从图1可以看出，AGNet是一个端到端系统。训练过程中，小波基函数和分类器的参数同步更新。具体介绍如下。

图1. AGNet的框架。它是一个端到端的系统，包括预处理、基于小波的特征提取和带有并行注意模块的分类器。自动系统接收舰船辐射噪声并输出识别结果。

2.2 可学习的细粒度小波变换

对于水声信号，不同频段的信息变化较大。有必要对频带进行微分分析。在这项工作中，AGNet应用小波变换进行可调的时间或频率分辨率。此外，AGNet将小波参数转换为可学习参数。它允许不同中心频率的小波基以数据驱动的方式学习微分参数，从而实现细粒度的小波变换。

输入信号表示为x，离散采样序列的点表示为n，窗口函数表示为w[.]。常用的小波变换公式如式(1)所示，t为时间中心参数，ψ(-)为小波基函数。

需要根据信号的特点选择合适的小波基函数。水声信号具有高背景噪声和低频的特点。根据调查，本工作选取了在水声领域应用较为广泛的三个小波基函数(Wang and Lei，2013;陈和尚，2019;卡尔帕纳等人，2014 年;帕蒂尔等人，2014 年）。此外，它们对低频声波也很有效任务（Wu et al.， 2019;巴瓦拉朱等人，2010年;古佐夫等人，2021 年）。将带宽记为fo，中心频率记为fe，阶数记为m。小波基函数可表示为:

复Morlet小波(Cmor): Cmor是实际应用中常用的小波基(Wang and Lei, 2013;Chen和Shang, 2019)。此外，它还用于对低频波段要求高分辨率的任务，如心房颤动检测。基函数描述如下:
复香农小波(Shan):复香农小波应用于水声通信去噪(Kalpana et al.，2014)。在复杂的海洋环境中具有良好的噪声抑制效果。基函数描述如下:
复频率b样条小波(Fbsp):与Shan小波类似，Fbsp小波在噪声水下环境去噪方面也表现出很好的性能(Patil et al.， 2014)。基函数描述如下:

小波函数的可调参数包括阶数参数m、带宽参数fb和小波中心频率fof。其中m和f是固定设置的。在海洋环境中，信号受背景噪声、传输信道等因素的影响较大。一些频带包含有效信息，而其他频带则受到噪声等干扰。固定参数的小波基似乎是次优的。

为了追求更好的泛化能力，本文利用端到端网络更新小波参数，实现了数据驱动的特征提取。AGNet使m、fo和fe参与梯度计算和反向传播。如图2所示，AGNet可以自适应学习不同中心频率f的小波参数m, f。

2.3 基于Attention的分类器

作为一种广泛使用的卷积神经网络，ResNet (He et al.， 2016)自诞生以来一直是分类网络的通用基线。对于AGNet，本工作遵循ResNet主干，针对水下信号谱图的特殊性进行了优化。如图3(a)所示，我们的分类器包括一个卷积层和一个最大池化层，然后是四个残差层，一个平均池化层和一个全连接层。遵循ResNet中的结构，每个剩余层包含瓶颈层的堆栈，包括卷积层、批归一化层和跳过连接。在ResNet骨干网的基础上，AGNet增加了几个并行卷积注意块。

注意块的结构如图3(b)所示，每个注意块包括max-pooling操作，然后是经过批处理归一化堆叠的深度可分离卷积(Chollet, 2017)。深度可分离卷积对传统卷积进行了解耦。深度卷积层(conv 3 × 1)的每个滤波器只与输入的一个通道进行卷积，然后点卷积层(conv 1 × 1)用1 x1卷积核合并前一个卷积层的结果。该结构可大大减少参数的数量和计算量《时代》杂志(Howard et al.)2017年)。

每个注意块对应一个残差层。如图3(a)所示，注意块与对应的残差层接收到相同的输入。残差层输出特征图，注意层输出注意矩阵。注意矩阵不会改变特征图的维数，只会改变特征图的维数通过相乘得到特征映射的权重。注意力块可以帮助网络将注意力集中在信息部分(例如，节拍或节奏)。

2.4 训练过程

作为端到端系统，AGNet直接接受原始音频序列作为输入。小波变换层将音频序列转换为二维小波谱图。然后，频谱图将被送入基于注意力的分类器。AGNet通过交叉熵损失函数计算预测值与地面真相(标签注释)之间的损失。各个模块(小波基函数、resnet网络、注意力块)的参数会根据梯度同步更新。在处理不同类的任务时，只需要根据具体的任务修改分类器末端的全连接层。其他结构和培训程序保持不变。

3. 实验设置

3.1 数据集

Shipear（Santos-Domínguez 等人，2016 年）是一个开源软件船和船的声音水下录音数据库。该数据库目前由来自11种船舶的90条声音记录组成。它由近3小时的录音组成。考虑到数据太少，难以切割成“训练、验证、测试”的形式，本工作在Shipsear中选取了9个类别(挖泥船、渔船、摩托艇、蚌船、自然噪声、远洋轮船、乘客、滚上船/滚下船、帆船)的子集进行识别任务。目前，Shipsear的大部分工作将所有类型按大小分为五类。映射关系如表1所示。虽然AGNet在训练过程中仍然使用船舶类型作为输入，但根据官方分类标准(a级和E级)计算的最终精度将便于与Shipsear (Santos-Dominguez)的其他工作进行比较等，2016)。
DeepShip (Irfan et al.， 2021)是一个开源水声基准数据集，由47小时4分钟的265艘不同船舶的真实水下记录组成，属于四个类别(货轮、客轮、油轮和拖船)。
从千岛湖收集的数据(DTIL) (Ren et al.， 2019)是从千岛湖收集的数据集，其中包含多个干扰源。两种类型的目标是快艇和实验船。数据集包含330分钟的快艇和285分钟的实验船。

此外，这项工作还使用了音频领域的数据集- AudioSet (Gemmeke et al.， 2017)进行迁移学习。AudioSet是一个大规模的声音数据集，它以多标签的方式提供了大约1.8 M个声音剪辑，分为527个类。其中，少量数据包含多个船舶记录(如汽艇、鱼船等）。

3.2 训练数据的统一和划分

本实验使用的三个数据集(Shipsear, DeepShip, DTIL)具有不同的采样率(52734 Hz, 32000 Hz, 17067 Hz)。三个数据集的音频文件被降采样到16000 Hz。每个完整的音频被切割成30秒的片段，相邻的片段有15秒的重叠。相同音频序列的不同片段将被分配到相同的折叠，以确保训练集和测试集之间没有重叠。

有必要确保测试集中的数据与训练集中的数据足够不相关。只有这样，报告的精度才能反映识别能力和泛化性能。由于缺乏相关信息，很难手动给出足够合理的Shipsear和DeepShip的分割。因此，这项工作使用了4次交叉验证，以确保我们的结果是可信和有说服力的。最终的识别精度是四次折叠的平均值。对于DTIL，作者在收集数据时已经记录了相关信息，因此可以给出可靠的训练/测试分割。所有测试数据都是在一定时期内单独收集的。

3.3 参数设置

对于实验中的所有分帧操作(包括AGNet和所有基线方法)，本工作设置帧长为100 ms，帧移为50 ms。在实现Mel-filter bank基线时，将filter bank的数量设置为300。对于小波参数，本工作遵循guzov et al.(2021)的设置，设m = 0, fb= 1.1对于可学习的小波参数，我们也将其作为初始值。

在训练过程中，AGNet使用Adam优化器(Kingma and Ba, 2014)进行权重衰减正则化。对于所有实验，学习率设置为5e4，权重衰减设置为1e-6。所有模型在4个V100 gpu上训练100个epoch。

4. 结果与分析

在这项工作中，我们首先证明了具有可学习细粒度参数的基于小波的前端的实用性。然后，烧蚀实验证明了分类器模块的注意块有助于提高识别精度。此外，我们发现AGNet可以从迁移学习中获益良多。最后，我们评估了AGNet的鲁棒性，表明它比其他识别系统受有色噪声和低截止频率的影响更小。具体的结果和详细的分析将在下面的小节中介绍。

所有实验分别在Shipsear(5级)、DeepShip(4级:货船、客船、油轮、拖船)和DTIL(2级:快艇、实验船)上进行。

4.1 可学习小波变换

特征提取前端作为系统不可缺少的一部分，对泛化能力有着显著的影响。在这项工作中，我们实验评估可学习的细粒度小波。为了建立弱基线，我们实现了低维声学特征和基于时频的特征，并手动设置参数。此外，我们将固定参数的小波谱图作为强基线。为了便于比较，识别系统中除特征提取前端外，其余模块保持一致。

如表2所示，低维声学特征和时频特征的识别性能并不稳健足够了。对于性能相对较好的特征，Mel滤波器组只能在三个数据库上实现次优性能。同时，基于时频变换(STFT谱图，Gabor谱图)的系统在DeepShip上的精度还远远不能令人满意。根据我们的分析，对于不同来源的水声数据，手工设置的参数(如滤波器组数量、FFT数、帧长)使模型难以保持具有竞争力的性能。当海洋环境发生变化时，精心选择的参数往往不合适。

然后，从表中可以看出，在三个数据库上，小波变换谱图明显优于STFT和Gabor谱图。证明了小波变换在频域的自适应分辨率有利于识别任务的完成。此外，可学习小波谱图比固定小波谱图表现出更好的鲁棒性。实验表明，细粒度小波参数的灵活学习对识别系统起到了积极的作用。

此外，本文还探讨了不同小波基函数对结果的影响。总体而言，复频率b样条小波(Fbsp)的性能略好于其他方法。增加更多可学习参数(M阶)，使得在处理复杂水声信号时，可以借助训练数据绘制出信息量更大的声谱图。因此在以后的实验中，均以Fbsp小波作为我们的小波基。

4.2 细粒度参数的可视化和分析

对于细粒度小波参数的详细分析，可学习参数m, fb如图4-5所示。其中，可学习参数fe随着小波变换时间中心参数的增大几乎呈线性增加。为了便于分析，我们以fe的值为横轴。

如图4所示，它显示了在三个数据集上m, f的学习值。可视化结果表明，AGNet在三个数据集上学习的参数值存在显著差异。从图4可以看出，在Shipsear和DTIL上，随着fe的变化，m和f的波动并不明显(m近似于O, f近似于1)。此时，小波基函数ψ(n) = exp(2in fon)与逆DFT相似。之前的工作已证明它是清洁音频信号的良好选择(guzov等人，2021)(例如。Shipsear和DTIL)。然而，在有复杂背景噪声的DeepShip上，m和f波动很大。相邻频率点的参数值往往相差较大。此时，细粒度小波参数可学习的优点就显现出来了。以Fbsp小波基函数为例，与固定参数相比，DeepShip上的可学习参数的精度提高了1.9%，而Shipsear上的可学习参数提高了1.9%。在Shipsear上和DTIL的精度收益分别仅为0.8%和0.44%。

根据我们的分析，由于海洋环境、声纳系统和传输通道的复杂性，不同来源的水声信号通常会有很大的差异。因此对于不同来源的信号，小波参数的取值相差很大。此外，尽管有许多干扰因素，但水声信号是周期性的。从图4可以看出，fb的值只会在一定范围内波动。通过自适应学习得到的参数表明，AGNet不像传统小波变换那样倾向于在低频和高频设置不同的带宽来追求不同的频域分辨率。此外，将数值尺度限制在一定范围内的小波参数不会影响模型的鲁棒性。它使得异常(例如意想不到的噪声源、脉冲信号等)对模型的影响较小。

然后，将参数的学习过程可视化。从图5可以看出，由于适当的初始化，参数m和f在训练的初始阶段(epoch-1)没有明显的更新。随着训练阶段的进行，AGNet逐渐从训练数据中学习到最优时频域分辨率分配。对于Shipsear, AGNet的小波参数学习将在70~80 epoch左右达到收敛。

4.3 注意力块的作用

在并行卷积注意块上进行了烧蚀实验，并评估了在三个数据集上的性能。根据表2的结果，选择三个特征进行比较。它们是低维特征中识别精度最好的Mel-filter组，时频特征中识别精度最好的固定fbsp小波，以及AGNet使用的可学习fbsp小波。从表3可以看出，注意模块可以提高AGNet的识别性能。对于具有可学习参数的小波谱图，Shipsear和DeepShip的识别精度分别提高了2.27%和2.55%。

值得注意的是，时间-频率特征比低维特征更能从注意力块中受益。低维特征压缩维度以获取更多有效信息。因此，在这种低维、信息量大的特征上增加注意力模块并不能带来明显的改善。固定的或可学习的时频特征往往包含更全面的信息，但频谱图中有很大一部分是无效信息或干扰。此时，注意力模块的优越性开始显现。

4.4 迁移学习实验

基于大规模数据集AudioSet，我们进行了迁移学习实验。在AudioSet的帮助下，我们在源域(音频域)上对AGNet进行预训练，然后将模型权值作为水声识别任务的初始值。更具体地说，我们首先将分类器的最后一个全连接层设置为音频任务相关(根据AudioSet，输出维度为527)，然后在AudioSet上对模型进行预训练。经过100个epoch的训练，AGNet达到收敛，权重存储在检查点。在处理水声识别任务时，AGNet会加载预先训练好的权重，实现知识的迁移。除了需要修改的全连接层外，所有模块都将初始化传递权值。AudioSet中的大量知识可以作为先验信息，帮助AGNet更快更好地收敛。

如表4所示，迁移学习显著提高了AGNet的性能。与基线方法相比，具有更多可学习参数的基于fbsp的小波更有利于迁移学习。特别是在DeepShip和Shipsear上，迁移学习可以分别带来大约6%和6.5%的收益，这是非常有希望的。根据我们的分析，源域(音频)和目标域(水声)之间存在一些共性。因此，丰富的先验知识可以更好地初始化AGNet的参数。在机器学习方面，可以使各种类型在嵌入空间中的分布更加合理。它可以弥补目标域数据稀缺的问题，从而缓解模型容易陷入局部最优的问题。

至此，AGNet和两种基线方法在三个数据库上都取得了最好的结果。为了直观地展示AGNet令人满意的识别性能，在Shipsear和DeepShip上绘制了AGNet和两种基线方法的混淆矩阵。如图6所示，AGNet的识别性能明显优于基线方法。对于基线方法难以识别的类别(例如，Dredger, Fishboat, Musselboat on Shipsear)显示出令人满意的识别能力。

4.5 鲁棒性测试

在海洋环境和传输信道中，各种干扰因素会导致信号质量较差。高背景噪声和低截止频率是不可避免的。为了进一步研究，本文对AGNet进行了鲁棒性测试，以评估其在实际应用中的价值。在所有训练数据和测试数据中加入模拟干扰。实验结果将在以下小节中给出。

4.5.1 低信噪比测试

首先，我们通过在音频信号中添加噪声来实现实验。本研究受到船舶辐射噪声相关研究(Hazelwood and Connelly, 2005)的启发，使用彩色噪声(如红噪声)代替传统的高斯白噪声来模拟海洋环境噪声。在不同信噪比的Shipsear和DeepShip上对三种方法进行了评估。从图7(a)可以看出，fbsp小波可以提高模型对加性彩色噪声的鲁棒性。从图7(a)可以看出，当信噪比降低时，AGNet的识别精度下降相对缓慢，优于其他基线方法。在不增加任何噪声的情况下，AGNet在Shipsear和DeepShip上比Mel滤波器组基线有6.47%和10.19%的性能优势。当噪声逐渐增大，直到信噪比为0时，差距扩大到19.31%和20.48%。这是由于小波变换具有良好的时频局部化特性，对噪声抑制有积极的作用。当信噪比继续减小时，由于信号质量不足以使系统进行准确识别，因此差距不会扩大。

4.5.1 低截止频率测试

对所有Shipsear和DeepShip数据进行频率截断。从图7(b)可以看出，基于小波的AGNet适用于需要处理低截止频率的场景。对于Mel fbanks等低维特征，识别精度随截止频率的减小近似呈线性下降，而两种基于小波谱的特征的识别精度在截止频率达到2000 Hz前下降相对缓慢。当截止频率从8000 Hz降低到2000 Hz时，AGNet在Shipsear和DeepShip上的性能损失分别为5.7%和1.46%。根据我们的分析，随着截止频率的降低，信息较少的低维特征的劣势会被放大。剩余信息的缺乏会给识别系统带来挑战。对于基于时频的特征，一小部分信息的丢失对神经网络的影响很小。只有当剩余频段过窄(如0- 500hz)，无法捕捉到足够的信息时，网络的识别能力才会急剧下降。

5. 结论

本文提出了一种端到端的船舶辐射噪声识别系统。通过应用细粒度小波变换和基于cnn的并行卷积注意块分类器，AGNet在Shipsear(85.48%)、DeepShip(77.09%)和DTIL(95.76%)三个数据集上实现了良好的识别精度。本工作创新性地将迁移学习引入水声领域。实验表明，AGNet对加性有色噪声具有较强的鲁棒性，且截止频率较低。

总之，AGNet能够以数据驱动的方式学习和更新参数。它可以将研究人员从参数调整中解放出来，从而减少麻烦的工作。此外，这种端到端结构降低了实际部署的难度。它可以节省时间消耗，减少模块对接问题的可能性。

在未来，我们计划进一步探索自适应学习在更复杂的数据或任务上的表现。例如，在时频特征提取步骤中设置更多可学习的参数。

标签：grained,noise,learnable,Shipsear,学习,参数,AGNet,et,识别
From： https://www.cnblogs.com/prettysky/p/17249272.html

Adaptive ship-radiated noise recognition with learnable fine-grained wavelet transform

摘要