首页 > 其他分享 >基于深度学习的鸟类声音识别系统

基于深度学习的鸟类声音识别系统

时间:2024-05-30 20:33:56浏览次数:24  
标签:本文 鸟类 卷积 模型 识别系统 特征 深度 识别

鸟叫声识别在鸟类保护中具有重要意义。通过适当的声音分类,研究可以自动预测该地区的生活质量。如今,深度学习模型被用于对鸟类声音数据进行高精度的分类。然而,现有的大多数鸟类声音识别模型的泛化能力较差,并且采用复杂的算法来提取鸟类声音特征。为了解决这些问题,本文构建了一个包含264种鸟类的大数据集,以增强模型的泛化能力,然后提出了一个轻量级的鸟类声音识别模型,以MobileNetV3为骨干构建了一种轻量级的特征提取和识别网络。通过调整模型中的深度可分离卷积,提高了模型的识别能力。设计了一种多尺度特征融合结构,并在该结构中加入了金字塔分割注意力(PSA)模块,以提高网络对空间信息和通道信息的尺度提取的适应性。为了提高模型对全局信息的细化能力,在Bneck模块中引入了通道注意机制和普通卷积,使Bneck模型成为Bneck模。实验结果表明,该模型的Top-1和Top-5在自建数据集上识别264种鸟类的准确率分别为95.12%和100%,高于MobileNetV1、MobileNetV2和MobileNetV3。尽管精度低于ResNet50,但该模型的参数数量和浮点运算(FLOP)数量分别只有2.6M和127M。精度仅降低2.25%,同时节省了成本。

从未受破坏的热带雨林到郊区甚至城市,几乎每种环境中都有超过10000种鸟类[1],[2]。如今,世界各地的鸟类都不同程度地灭绝了。例如,夏威夷作为世界灭绝之都,已经失去了68%的鸟类,这可能会破坏整个食物链,从而破坏夏威夷的生态环境。通过种群监测,研究人员可以了解当地鸟类对环境变化和保护工作的反应。能够实时监测鸟类的运动是这项工作的第一步[3]。

目前,许多专业人士开始长时间观察鸟类,以保护其物种[4]。然而,大多数监控任务都是由专业人员手动完成的。由于鸟类飞行速度快,难以观察,而且当它们生活在陆地上时,它们很容易被人类活动吓到,无法被相机快速记录下来。因此,使用图像识别来实时识别鸟类既困难又昂贵[5]。更重要的是,许多鸟类被隔离在人迹罕至的高海拔栖息地。由于物理监测的困难,越来越多的专业人员通常通过听觉[6]和记录来识别鸟类。这种被称为生物声学监测的方法可以为濒危鸟类种群的研究提供一种被动且具有成本效益的策略。然而,如果执行手动监测程序,这种监测过程费时费力,无法对生态保护区等区域的鸟类进行实时监测。

相关领域的大多数人倾向于使用物联网设备远程在线监测鸟类种群。由于鸟类保护栖息地大多在野外,在线监测系统很难在良好的网络条件下将鸟类的声音传回服务器进行数据处理、识别和反馈。如果在鸟类保护区进行离线监测,低成本的嵌入式设备无法携带高复杂度的声音特征提取算法和高精度的声音识别算法。因此,针对这一点,本文希望设计一种轻量级的鸟类语音识别算法,该算法不仅可以通过使用简单单一的特征来实现高精度,而且可以使模型足够小,可以在低成本的嵌入式设备中运行。

本文首先收集了大量的鸟类声音数据,构建了264种鸟类的数据集。然后,使用单个梅尔频谱作为声音数据特征。最后,设计了一个轻量级的识别模型来识别鸟的声音特征图,并得到了分类结果。本文的贡献可概括如下:

建立了一个庞大的鸟类数据集:本文构建了一个包含264种鸟类的大型数据集,可以有效地提高模型的泛化能力;

基于改进MobileNet设计的轻量级鸟类识别模型:本文设计了一个轻量级的鸟类声音识别模型,以提高鸟类声音识别的 准确性。提出了多尺度特征融合结构,并在该结构中添加了一个PSA(金字塔分割注意力)模块,以增强网络对空间信息和通道信息的尺度提取的适应能力。设计了Bnecks块,引入了通道注意机制和普通卷积,提高了模型对全局信息的细化能力;

简单的鸟声特征提取过程:通过提取Mel声谱图并将其作为三维特征叠加到识别模型中,可以获得更好的识别结果。

本文使用的鸟叫声数据来自于Kaggle[23]、[24]、[25]的各种鸟类识别比赛以及中国江苏省南京市八卦洲栖霞区农村地区的一些鸟叫声。对收集到的鸟叫声数据分别进行分类和标记。共有264种鸟类。表1显示了数据集中的鸟叫声以及本文中包含的音频片段的数量。由于数据量大,我们只列出了一个鸟叫声的数据信息。

在本文构建的数据集中,不同鸟叫声数据的数据源、数据格式和采样率不同,因此在提取鸟叫声特征之前,需要进行相应的预处理,以消除输入数据在数据来源、数据格式、采样率方面的差异。此外,本文构建的数据集中每个鸟叫声片段的持续时间不同,但总体而言,每个样本数据的持续时间都在10秒以上,因此本文以5秒的间隔截取样本数据,使每个样本数据持续时间相同。为了消除鸟类音频数据中的幅度差异对模型训练的影响,本文将每个截获的鸟类样本数据的最小-最大值标准化如下:

与人声识别不同,本文的鸟声识别更多地关注鸟声的特征,而不是鸟声的内容。为了简化特征融合算法的复杂度,降低模型的计算量,选择语音识别系统中广泛使用的梅尔谱作为鸟类音频信号的特征。提取特征的过程如图1所示。本文中获得的鸟类音频信号的梅尔频谱定义如下:





为了使深度学习模型能够在移动终端上快速部署和运行,Howard等人[26]提出了用于移动设备的深度可分离卷积(DSC)。与传统的卷积神经网络相比,DSC可以提高模型的训练速度,减少模型的参数、计算量,并且可以在移动终端以更快的速度进行推理。DSC由深度(DW)卷积和逐点(PW)卷积组成,其中DW卷积如图4(a)所示工作,PW卷积如表4(b)所示。

DW卷积对输入图像各自通道中的输入图像执行卷积运算,并且输出特征图具有与输入图像相同数量的通道。它可以有效地获取输入图像的通道信息,但不能在同一位置使用不同通道的特征信息。为了解决这一点,PW卷积需要对DW卷积输出的特征图进行空间组合,扩展输出通道,并提取空间信息。DW卷积和PW卷积的组合导致DSC只需要传统卷积的一个T,如下所示:

其中N是卷积运算的输出通道数,DK是输入图像的大小(假设输入图像的尺寸为DK×DK)。

尽管DSC可以减少参数和计算的数量,但DW卷积和PW卷积的顺序组合限制了其特征提取能力。由于特征数据的初始模块总是以低维形式传输,DW卷积无法扩展输出通道。这将导致原始功能的丢失。不仅如此,ReLU激活函数通常在DW卷积之后使用,以引入非线性并加快训练。

对于传统图像来说,由于图像具有丰富的特征,这些缺点可以通过依赖丰富的特征来克服。然而,对于鸟的声谱图特征,低维数据在通过激活函数ReLU后会丢失大量特征,导致低维数据崩溃。因此,如果先进行PW卷积,然后进行DW卷积,可以通过PW卷积将低维特征数据转换为高维数据,从而在特征图中存储大量的空间信息,然后使用PW卷积后的高维特征通过DW卷积提取每个通道的特征信息。通过上述调整,本文提出的鸟声识别模型可以加快推断时间,同时提高准确率。

为了最大限度地提取低维特征,本文重新设计了DSC使用的激活函数,并采用了梯度更平滑的Mish函数,其定义如下:

通过上述方法,改进的DSC可以在不引入太多参数和计算的情况下增强低维特征的提取,从而加快模型的训练和推断时间。

本文设计的轻量级模型的主干部分参考MobileNetV3 Small[27]。本文对MobileNetV3-Small中存在的问题以及本文中数据集实际数据的情况进行了调整和改进。整个模型体系结构如图5和表2所示。


为了增强声音数据的特征提取。本文的灵感来源于神经元在刺激人脑时,由于感受野的大小不同,可以在相同的状态下处理和收集多尺度的空间信息。同时避免了引入过多的参数和计算[28],因此仅在网络架构的初始模块中进行了改进,并增加了本文中改进的多尺度特征融合结构——启始块[29]。改进的Inception块体系结构如图6所示。

在模型的初始阶段,输入数据的特征丰富,因此有必要设计多尺度特征融合结构,以充分提取原始数据的特征。本文使用两个并行分支进行数据特征提取。这两个并行分支是3×3和5×5的多尺度特征提取。在对每个分支进行多尺度特征提取后,引入PSA(Pyramid Split Attention,PSA)模块[30],该模块可以充分捕捉不同尺度的空间信息,丰富特征空间,建立长距离空间注意力依赖机制,提取不同尺度的通道特征,模型架构如图7所示。3×3卷积用于提取原始声音数据的细微特征,5×5卷积用于提取原声音数据的整体特征。考虑到计算量和PSA模块的引入,它不使用更大、更多的卷积核进行初始特征提取操作。

特征提取后的鸟类梅尔谱图样本总数为229164个,选择183690个样本作为训练集,45924个样本作为测试集。在实验中,学习率设置为0.025,批量大小设置为32,历元设置为300,模型优化器为随机梯度下降(SGD,随机梯度下降),损失函数使用交叉熵损失函数,学习率下降策略使用余弦退火[33]。

标签:本文,鸟类,卷积,模型,识别系统,特征,深度,识别
From: https://www.cnblogs.com/mcu-ai-QH/p/18223166

相关文章

  • STM32WB55 BLE双核flash擦写程序深度解析
    简介STM32WB55的flash擦除有两种机制,一种是只有单核运行下的flash擦除,这种模式下,flash擦除的步骤同其他STM32的flash擦除一样,直接调用HAL库中flash擦除的库函数即可;另一种是双核运行下的flash擦除,这种模式下,因为两颗CPU内核都会访问地址总线,可能会有访问冲突,为了解决这个问题,ST引......
  • 知其然,更知其所以然:探寻知识深度与广度的四个境界
            在知识的海洋中,我们时常被各种信息和概念所包围。然而,真正的学习并非仅仅停留在表面的了解,而是需要深入挖掘其背后的原理和意义。在这个过程中,我们逐渐从“知其然”迈向“知其所以然”,再到“知其所以必然”,最终实现“一通百通”的境界。        首先,......
  • 深度学习之AlexNet、VGG-19、VGG-16、LeNet-5、ResNet模型的训练
    一.AlexNet1.1.导入资源包importcv2importmatplotlib.pyplotaspltimportnumpyasnpimportosimportrandom注:cv2:这是OpenCV模块,用于处理图像和视频,包括摄像头捕捉、图像处理、特征检测等。matplotlib.pyplotasplt:这是Matplotlib模块的一部分,用于创建和......
  • 深度学习笔记_卷积神经网络CNN
    卷积层实际上是内积,就是把一个图片分成nnn个区域,分别对每个区域用fliter做内积(对应位置相乘,最后求和)池化层存在意义卷积层提取出的特征太多了,要用池化......
  • 联邦学习DLG攻击_NeurIPS2019_Deep Leakage from Gradients_深度梯度泄露,模型逆向攻击
    联邦学习联邦学习DLG攻击_NeurIPS2019_DeepLeakagefromGradients_深度梯度泄露发现了梯度可以倒推参数的问题文章目录要开始看些安全的内容了!一、Abstract二、Introduction2.1联邦学习的背景:2.2提出疑问:「梯度共用」计划有否保障每名参加者的训练资料集的私隐?2.......
  • 深度学习手撕代码题
    目录:目录PyTorch实现注意力机制、多头注意力与自注意力Numpy广播机制实现矩阵间L2距离的计算Conv2D卷积的Python和C++实现Numpy实现bbox_iou的计算Numpy实现FocallossPython实现nms、softnmsPython实现BN批量归一化PyTorch卷积与BatchNorm的融合分割网络损失函数......
  • 【转载】《星铁植物大战僵尸》:策略游戏的深度解析与未来展望
    《星铁植物大战僵尸》作为策略游戏领域的新贵,凭借其独特的太空塔防背景和星铁角色的融合,成功吸引了广大玩家的目光。本文将从游戏的设计理念、玩家行为分析、以及未来发展趋势三个方面,对《星铁植物大战僵尸》进行深度解析,并对其未来的发展进行展望。游戏设计理念:创新与经典的结合......
  • 深度解读chatGPT基本原理
    ChatGPT,这个听起来有点高科技的东西,其实简单来说就是一个特别聪明的聊天机器人。它能理解你的话,还能像真人一样和你聊天,回答问题,甚至帮忙做点事情。想知道它是怎么做到的吗?咱们一起揭开它的神秘面纱。1.基础概念:什么是ChatGPT?ChatGPT是OpenAI公司创造的一种人工智能技术,它......
  • 深度学习笔记: 详解处理类别不平衡
    欢迎收藏Star我的MachineLearningBlog:https://github.com/purepisces/Wenqing-Machine_Learning_Blog。如果收藏star,有问题可以随时与我交流,谢谢大家!处理类别不平衡在欺诈检测、点击预测或垃圾邮件检测等机器学习用例中,通常会遇到标签不平衡的问题。根据具体用例,可......
  • Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning
    最近要看一些推理攻击的内容,把看过的都放过来吧DeepModelsUndertheGAN:InformationLeakagefromCollaborativeDeepLearningGAN下的深度模型:协作深度学习的信息泄漏ACMCCS2017文章目录一、论文信息1.题目2.作者3.期刊年限4.关键词二、背景三、创新......