Abstract
水声分类是一个具有挑战性的问题,因为在海洋环境中存在高背景噪声和复杂的声音传播模式。过去几年提出的各种算法都使用了自己私人收集的数据集进行设计和验证。这些数据尚未公开。为了开展这一领域的研究,迫切需要公开可用的数据集。为了弥补这一差距,我们构建并展示了一个名为DeepShip的水声数据集,它由四个类别的265艘不同船只的47小时4分钟的真实世界水下录音组成。建议的数据集包括全年不同海况和噪音水平的记录。所提供的数据集不仅有助于评估现有算法的性能,而且还将使研究团体在未来受益。使用提出的数据集,我们还对六种基于时频提取特征的各种机器学习和深度学习算法进行了全面研究。此外,我们提出了一种新的基于可分离卷积的自编码器网络,以提高分类精度。对比分类准确率、精密度、查全率、fl-score等方面的实验结果,并进行配对抽样统计测试,结果表明,基于CQT特征的网络分类准确率达到77.53%,优于其他方法。
1.Introduction
近年来,由于水声分类在海洋船舶分类和探测、测量这些船舶的声音对环境的影响、退出船设计和海洋生物分类等方面的应用,引起了广泛的关注(Erbe et al., 2019;Malfante, Mars, Dalla Mura, & Gervaise, 2018)。复杂的水下环境、背景噪声、声音数据的频率依赖性吸收和散射等因素使其成为一个具有挑战性的领域(Erbe et al., 2019)。此外,螺旋桨、发动机和隐形船体技术的改进使该领域更具挑战性(Khishe &摩萨维,2020 年)。
在人力资源、时间、设备和物流方面,收集真实世界的水声数据是一项非常昂贵的投资。此外,记录信号的质量在很大程度上取决于操作方式、记录设备、区域和水下环境条件等因素(Hovem, 2010)。此外,军舰特征的保密性质阻碍了此类数据集的发表。在过去的二十年中,各种研究将机器学习和深度学习算法以及经典信号处理技术应用于通过辐射噪声对海洋船只进行分类(Miglianti等人,2020)。尽管进行了大量的研究工作,但由于没有适当大小的真实数据集,各种技术实现的精度仍然不尽如人意。
为了填补水声数据集的空白,发展更精确的水声分类技术,我们构建并提出了一个真实世界的大规模数据集,命名为DeepShip。DeepShip提供了一个独特的机会来训练和评估不同算法的性能,并确定它们的优点和缺点。此数据集的优点是它被记录在真实世界不同季节和海况的海洋环境。除了船只信号外,记录的信号还包括自然背景噪声、海洋哺乳动物噪声和任何其他人类活动的噪声。该数据集包括47小时04分钟的真实世界水下记录265艘不同的船舶,属于四个类别。提供了四种商船级别的数据。这些类别包括油轮、拖船、客船和货船,如图1所示。此外,还讨论了数据的收集机制及其标记。我们希望一个好的基准数据集的可用性将促进和加速这一领域的研究和开发。
除了展示一个新的真实世界的大型数据集外,我们还通过使用几种基于机器学习和深度学习的算法进行广泛的实验,向研究人员提供基线评估结果。这些实验提供了对这种算法性能的更好洞察,也为未来的研究铺平了道路。我们希望,随着DeepShip的可用性,它由数百个录音组成,可以训练基于深度学习的算法来提高分类精度性能。在实验中,我们提取并利用了梅尔频率倒谱系数(MFCC)、梅尔谱图、小波包、伽马马通频率倒谱系数(GFCC)、常数Q变换(CQT)和倒谱等6个特征。
文献中提出的水下信号分类方法可以分为基于经典机器学习的方法和基于深度学习的方法。在经典的基于机器学习的研究中,特征提取和分类器是分开设计的。这有一个固有的限制,即设计的特征可能不能用于广泛的分类器。此外,经典的机器学习模型在小数据集上表现良好,而在具有多样化特征空间的大数据集上可能无法达到有希望的精度。据文献报道,大多数基于深度学习的方法都使用基于时频的特征进行水声分类。值得注意的是,这种方法只采用了一个特征,而利用其他已知特征的分类性能仍然未知。基于基于深度学习的方法通过使用手工制作的特征达到了最先进的水平,在本研究中,我们提出了一种新的基于深度学习的方法,该方法利用六种基于时频的特征来提高分类精度,并更好地洞察基于深度学习的系统对广泛类别特征的性能。
受卷积自编码器能力的启发(Irfan, Jiangbin, Iqbal, & Arif, 2021;Irfan, Zheng, Iqbal, & Arif, 2020)来提取基于可分离卷积的网络的更好的特征和能力(Chollet, 2017;Zhang, Liang, & Ding, 2020)为了以有效的方式提取特征,我们提出了一种新的基于可分离卷积的自编码器用于DeepShip的训练和分类。所提出的方法通过利用六种基于时频的特征,为这种卷积块的声学数据分类的有效性提供了一个见解。该模型可用于探测和分类水下环境中船舶噪声和背景噪声的噪声源。它既可用于军事目的,也可用于海上交通管理、渔业和海洋环境保护等商业目的。此外,它还推动了基于深度学习的水声分类模型的发展。实验结果表明,该网络的性能优于其他机器学习方法和基于深度学习的方法。实验结果还采用配对统计t检验进行评估,以便更好地了解所有比较方法的性能。此外,t分布随机邻居嵌入(t-SNE) (van der Maaten & Hinton, 2008)用于显示二维特征图,以评估它们的重叠。本文的主要贡献总结如下:
- 我们构建并提出了一个真实世界的大规模数据集,命名为不同的季节和海况。该数据集包括47小时04分钟的真实世界水下记录265艘不同的船舶,属于四个类别。DeepShip提供了一个训练和评估不同算法性能的机会,并确定它们的优点和缺点。DeepShip,这是记录在真实世界海洋环境中的
- 利用构建的DeepShip数据集,我们进行了全面的通过进行广泛的实验进行评估和分析几种基于机器学习和深度学习的算法,其中为他们的表现提供更好的见解,也为他们铺平了道路为了将来的研究。
- 我们提出了一种新的基于可分离卷积的自编码器网络,用于DeepShip的训练和分类。所提出的网络通过利用六种基于时频的特征,为这种卷积块对声学数据分类的有效性提供了见解,并展示了使用水声信号对海洋船只分类的分类精度的提高。
在第二节中,我们回顾了现有的数据集和现有的分类方法。在第3节中,我们介绍了DeepShip数据集的详细信息。第4节是提出的分类方法,包括特征提取小节和提出的方法小节。实验评价在第5节进行,分别包括实验设置、比较方法、结果和讨论。结论在第6节中得出。
Proposed deepship dataset
数据记录是在2016年5月2日至2018年10月4日期间在格鲁吉亚三角洲节点海峡完成的。
图2说明了用于记录容器音频的总体设置。由于数据记录地点位于太平洋西北海岸最繁忙的航线之一,靠近加拿大最繁忙的港口温哥华,背景受河流流量和强潮流影响较大,存在活跃的海洋生物环境。该地区的海底组成由粉砂沉积物组成。乔治亚海峡的中心位置受到半日潮汐流的强烈影响,在春季-小潮周期中,速度在1至3节(0.5-1.5米/秒)之间变化。此外,在夏季和初秋,深度密集的重力流周期性地沿着底部扫过。在这个地区的主要物种包括鲸类动物(鲸鱼和海豚)和鲑鱼。南部地区深受人类活动的影响,例如影响海洋声环境的休闲划船、航运和工业。基于上述原因,所记录的信号可能包含来自人类和海洋生物活动的背景噪声。
使用海洋声学icListen AF水听器采集数据,如图3所示。所用水听器主要规格如表3所示。icListen智能水听器是一款宽带数字超静音水听器,带宽1 Hz-12 kHz,动态范围120 dB,灵敏度-170 dBV re. μ Pa,电源和输入12-24 Vdc,0.8 W,外壳材料为工程塑料和钛,深度分别为200米和3500米。它是一种紧凑的、一体化的仪器,通过将单独的前置放大器、滤波器、转换器和数据链单元替换为紧凑的单元而设计和制造,能够通过直接数字输出处理实时采集的数据。
总记录时长分为三个时间段。从2016年5月2日到2017年6月24日,它被定位在经度-123.338713333和纬度49.080926666,深度141米(海洋网络加拿大协会,2017a)。2017年6月24日至2017年11月3日,它被放置在纬度49.08082191经度-123.33923008,海平面以下147米深(海洋网络加拿大协会,2017b), 2017年11月4日至2018年10月4日,它被放置在纬度49.080811经度-123.3390596,海平面以下144米深(海洋网络加拿大协会,2017c)。它收集了近29个月包括所有天气的数据。
为了标记记录的数据,自动识别系统(AIS)数据用于获得任何特定船只通过部署的传感器的位置和时间戳。AIS数据使用NMEA(国家海洋电子协会)格式存储。NMEA是海洋电子设备之间通信的标准规范,如声纳、陀螺罗盘、风速计、测深仪、GPS接收机、自动驾驶仪和各种其他此类设备。我们对我们感兴趣的AIS接收器的NMEA文件进行了整整29个月的解析。数据提取主要考虑消息号03和消息号05,如下所示, 消息为数据集准备提供了所有船舶所需的信息。03号消息提供了船舶的动态信息,如经度、纬度、航行状态、真实航向、时间戳、速度、海上移动服务标识(MMSI)等。消息编号05提供了关于任何船只的静态信息,如MMSI,名称,类型,最大吃水,长度,宽度和尺寸等。按照AIS标准,船型编号70 ~ 79代表货船,60 ~ 69代表客船,80 ~ 89代表油轮,ID 52代表拖船。将03号信息和05号信息结合在一起,得到完整的船舶动态剖面。
对于我们的数据集,我们只考虑当只有一艘船出现在水听器2公里半径内时船只发出的信号。每当一艘船离开水听器数据2公里的范围时,就停止探测。为此,将使用从消息编号03和消息编号05中提取的信息。我们使用了wav文件格式,我们所有的数据文件都是wav文件格式,因为机器学习/深度学习社区使用的大多数平台/库都支持这种格式。以32千赫的采样率记录和保存数据。
表2提供了建议数据集的总体摘要,包括船型、船舶数量、记录数量、持续时间。每次记录(秒),以及每种类型的总记录时间。提供了四种商船级别的数据。这些类别包括油轮、拖轮、客轮和货船。可以观察到,四类船舶的总录音时长约为47 h 04 min。包括四类265艘不同船舶的录音,共613次录音。每次记录的持续时间从06秒到1530秒不等,取决于船只相对于传感器的位置和航行速度。在表4中,我们为每个类提供了10个示例记录,以便更好地了解数据集。为了平衡每节课的录音时长,我们尽量让每节课的录音时长几乎相等。由于该区域货物活动过多,导致货物级和拖船级的记录过多,数据集中只包含这两个级别的记录,其中至少包含3个03 min的连续记录。对于客轮和油轮,包括所有由至少6个06秒的连续录音组成的录音,因为与这些船级相关的活动相对较少。对于所有类别,任何船只连续探测的一个事件被保存为单个wav文件。
如图4所示,数据集被安排在以每个船级命名的四个文件夹中。在每个文件夹中有两种类型的文件,第一种是.wav文件,其中包含音频数据,第二种类型的文件是classname-metafile,如cargometafile, tug-metafile, tanker-metafile和passenger-metafile。此元文件包含文件夹中有关.wav文件的信息。每个元文件包含以下信息:(i)类id, (ii)记录id, (iii)船舶名称,(iii)记录日期和时间,(iv)每次记录的持续时间(秒),(v)船舶到传感器的距离。表4显示了每个类的10个示例记录。在元文件中以列的形式对记录进行类似的数据排列。值得一提的是,我们提供了三种不同的距离,在三个不同的时间,船舶从传感器记录,以提供更好的了解船舶所遵循的轨迹。中距离几乎记录在记录的架次中间。