蜜蜂在生态平衡中扮演着关键角色,是农业作物和自然生态系统中的重要传粉者。它们不仅生产蜂蜜和蜂蜡,还对许多水果和种子作物产生影响,包括杏仁、柑橘类水果和蓝莓等。蜜蜂群体的健康状况和数量的下降可能对农业产业产生重大影响。全球范围内已经观察到显著的蜜蜂群体损失,这些损失归因于多种压力因素,这些因素可能独立或共同作用,包括杀虫剂、病原体、寄生虫、气候变化以及其他因素。
蜜蜂群体的健康状况直接影响其授粉能力和生产效率。因此,监测蜜蜂的健康状况对于保护这一关键物种至关重要。传统的蜜蜂监测方法依赖于人工和视觉检查,这不仅劳动密集,而且可能会干扰蜂群,导致监测不够频繁。由于蜜蜂种群健康和数量的下降可能对农业产业产生深远影响,因此需要更科学的方法来持续监测蜜蜂群体的状态。
随着物联网技术的发展,精准养蜂领域出现了自动化蜂箱监测工具。这些工具利用传感器技术在蜂箱内部进行实时监测,可以更有效地评估蜜蜂群体的状态。这些自动化监测系统通常在蜂箱内部部署多种传感器,用于收集关于温度、湿度、蜂箱重量和声音等数据。这些数据可以提供有关蜜蜂群体活动和健康状况的实时信息。温度稳定性对蜜蜂健康和幼虫发育至关重要,直接影响蜂箱的生产力。相对湿度则影响幼虫生长、群体发展和蜜蜂行为,其变化还会影响水分运输和喂养。
蜜蜂通过振动和声音信号进行内部交流,这些信号由身体运动、翅膀拍打和肌肉收缩产生。这些声音信号与不同的事件相关,如螨虫攻击、蜂后失败和蜂群分蜂,使声音成为蜂箱监测的理想方式。
1 UrBAN数据集
UrBAN数据集是从加拿大蒙特利尔的一个城市屋顶蜂场收集的,涵盖了2021年至2022年的时间段。数据集包括10个蜂箱,配备了麦克风记录超过2000小时的原始音频。同时,还有传感器持续监测温度和湿度。
- 多模态数据:数据集包含了多种类型的数据,包括原始音频记录、温度和湿度的传感器读数,以及其他与蜂箱检查相关的指标。
- 时间跨度:数据集覆盖了2021年至2022年的时间段,提供了两年内收集的连续数据。
- 蜂箱数量:数据集涉及10个蜂箱,每个蜂箱都有其独特的标识符,以区分数据。
- 音频数据:每个蜂箱都通过麦克风记录了超过2000小时的高质量原始音频。音频数据以 WAV 文件格式存储,并进行了压缩以便于下载。
- 传感器数据:
温度和湿度:使用 Beecon 传感器(Nectar Technologies Inc, Canada)在蜂箱内部连续监测温度和湿度,每15分钟记录一次。
外部环境数据:包括外部温度、湿度和降雨量,这些数据从加拿大环境和气候变化部的网站获取。
- 检查数据:定期对蜂箱进行检查,记录包括蜜蜂群体数量、蜂后状况、瓦螨侵染率和冬季死亡率等指标。
- 数据文件:
检查文件(inspections_2021.csv 和 inspections_2022.csv):包含每次检查的详细信息,如蜜蜂群体的框数、瓦螨侵染的存在、蜂后状态和死亡率。
传感器数据文件(sensor_2021.csv 和 audio_2021、audio_2022 文件夹):包含内部温度、湿度和音频文件的名称。
天气信息文件(weather_2021_2022.csv):记录了外部环境的温度、湿度、风速和降水量。
- 数据的组织方式:数据被组织成表格和文件,以便于使用数据科学工具进行分析。例如,Pandas 库可以用来读取 CSV 文件,而 Librosa 库可以用来处理音频文件。
- 数据的可访问性:UrBAN 数据集完全公开可用,研究者可以通过 Federated Research Data Repository 访问和下载数据。
- 数据的预处理:数据集提供了预处理的选项,例如音频信号的增强,以减少环境噪声并提高监测系统的有效性。
- 数据的机器学习应用:数据集的结构设计考虑了机器学习应用,提供了特征提取和模型训练所需的数据格式。
- 数据的多样性:数据集不仅包括了定量的传感器读数,还包括了定性的检查结果。
- UrBAN数据集下载地址
UrBAN: Urban Beehive Acoustics and PheNotyping Dataset | FRDR-DFDR
2 实验
2.1 音频增强
- 环境噪声去除:为了提高监测系统的有效性,采用了谱幅度减法技术来去除蜜蜂音频中的环境噪声。这一步骤对于准确检测和分析蜂箱内的重要行为和事件至关重要。
- 算法实现:使用指数移动平均(EMA)滤波器和自适应算法来估计噪声,并通过谱减法算法从音频信号中减去噪声谱,从而得到更清晰的音频记录。
2.2 特征提取
- 特征集定义:在音频信号预处理和噪声去除之后,提取了四组特征集,包括梅尔频率倒谱系数(MFCCs)、线性频率倒谱系数(LFCCs)、频谱形状描述符和一些手工制作的参数(如蜂箱功率、音频带宽密度比等),用于预测蜜蜂音频帧的状态。
- 特征计算:MFCCs和LFCCs是通过将音频信号映射到梅尔尺度上进行计算的,而频谱形状描述符包括中心频率、带宽、偏度、峰度等九个特征。
2.3 机器学习框架
构建了一个基于音频分析的机器学习框架,用于预测蜂箱强度。这个框架包括信号测量、预处理、特征提取和回归等步骤。探索了多种特征选择技术,如随机森林特征重要性、主成分分析(PCA)、最小冗余最大相关性(mRMR)和SHAP值解释。
2.4 模型验证
- 预测任务:使用蜜蜂框数预测作为任务来验证数据集。通过两种不同的实验配置(随机分割和蜂箱独立)来进行模型的训练和测试。
随机分割(Random-Split):将数据集随机分为训练集(50%)、验证集(25%)和测试集(25%)。
蜂箱独立(Hive-Independent):使用10个蜂箱进行训练,4个进行验证,另外4个进行测试。
- 性能评估:模型评估采用了三个关键指标:
平均绝对误差(MAE):预测值与实际值之间差的绝对值的平均。
均方根误差(RMSE):预测误差平方的平均数的平方根,衡量预测误差的大小。
皮尔逊相关系数:衡量预测值与实际值之间的线性相关性。
3 结论
- UrBAN数据集能够有效地用于蜜蜂群体的监测和研究。特征提取和机器学习模型能够基于音频数据预测蜜蜂群体的数量。
- 音频增强技术,特别是频谱幅度减法,对于提高音频数据的监测效果至关重要。它有助于去除背景噪声,从而提高特征提取的准确性和模型的预测性能。
- 梅尔频率倒谱系数MFCCs在大多数情况下优于其他特征集,且在进行了谱幅度减法后的性能有所提升。
- 使用随机森林回归器,结合所提取的特征,模型在预测蜜蜂帧数的任务上表现出了良好的性能,这通过MAE、RMSE和皮尔逊相关系数等指标得到了验证