首页 > 其他分享 >DARNet:基于时空结构的双注意细化网络听觉注意检测

DARNet:基于时空结构的双注意细化网络听觉注意检测

时间:2024-11-20 20:18:06浏览次数:3  
标签:细化 特征 DARNet 卷积 注意 模块 EEG 数据

DARNet:基于时空结构的双注意细化网络听觉注意检测

一、研究背景

在日常生活中,如鸡尾酒会等嘈杂环境中,人类能够专注于某个特定说话者,这种“听觉注意力”的背后依赖于大脑对外部声音的选择性处理能力。听觉注意力检测(Auditory Attention Detection, AAD)技术通过分析脑电图(EEG)信号,尝试模拟这一能力,从而帮助听觉障碍者聚焦于特定的声音来源。然而,现有的AAD模型往往忽略了EEG信号中的空间分布特征,且难以捕捉长程依赖,限制了解码效果。 为了解决这些问题,我们提出了双重注意力精炼网络(Dual Attention Refinement Network,DARNet),通过时空特征构建和双重注意力精炼机制,提高听觉注意力检测的准确率,并极大地减少了模型参数量。

二、模型解读

2.1 CSP处理

对脑电信号进行移动窗口处理,得到一系列决策窗口,每个决策窗口都包含一个小持续时间脑电信号

ri∈R N×1表示决策窗口内第i个时间点的脑电信号,包含N个通道,其中N表示脑电信号通道数,T表示决策窗口长度

其中CSP(·)表示CSP算法,E∈R N×T表示处理后的脑电信号。c_in为CSP算法的分量,T为决策窗口的长度。

2.2 时空构造模块

通过捕捉脑电信号的空间分布特征,构建更具表现力的时空特征表征。

2.2.1.时间卷积层

时间卷积层捕捉脑电信号的瞬时变化,从而构建脑电信号的时间模式Et:

TemporalConv2d(·)使用GELU(·)激活函数在时间维度上执行一个2-D卷积滤波器(核尺寸=1×8,Dmodel表示嵌入维数)

2.2.2.空间卷积层:

捕获不同通道之间的空间分布特征,从而为下一层构建鲁棒嵌入。

其中SpatialConv2d(·)在空间维度上执行一个核尺寸为c_in × 1的二维卷积滤波器

2.3 双重注意细化模块

人类的注意力是一种动态的、与时间相关的活动,双重自注意机制,该机制具有更大的潜力来捕获脑电图信号中的远程潜在依赖关系和更深的序列模式,通过卷积池化操作来细化占主导地位的时间特征,将原始长度为T的EEG序列压缩到其长度的一半。自关注改进操作减少了噪声和异常值的影响,同时也减少了模型的参数计数。

其中MultiHeadAttention(·)表示多头自关注算法,Conv1d(·)表示时间维度上的1维卷积滤波器(核宽度=3)。其中ELU(·)为激活函数,MaxPool(·)表示步长为2的最大池化层。

在应用时间注意力特征提取模块之前,将绝对位置嵌入加入到输入嵌入S中,公式如下:si = si + pi,其中si表示第i个时间步长的嵌入向量,pi∈R dmodel表示第i个时间步长的位置。

F1和F2分别包含脑电图信号中不同程度的依赖关系和时间模式。

2.4 特征融合与分类模块

通过对不同特征的优化组合,既保留了不同层次特征的有效判别信息,又在一定程度上消除了冗余信息。

  1. 将特征F1和F2投影到同一维度

    其中AdaptiveAvgPool(·)为自适应平均池化层,Linear为线性层。

  2. 将特征F ' 1和F ' 2连接起来,得到融合特征向量F

  3. 使用一个完全连接的层来获得最终的听觉注意预测。

2.5 具体解释
  1. 原始EEG数据经过CSP处理,得到一个 128×64 的特征矩阵 E,其中128是通道数,64是时间点数。

  2. 将 E 转置并扩展为 E′∈ R1×64×128。这里,数据从二维矩阵转换为三维张量,第一个维度是批次大小(这里是1),第二个维度是时间点,第三个维度是通道数。

  3. .应用时间卷积层,使用 1×8 的卷积核在时间维度上进行卷积,应用空间卷积层,使用 Cin×1 (Cin=16) 的卷积核在通道维度上进行卷积.

  4. 通道数从128减少到16,得到 S∈R 16×1×128。这里,16是新的特征通道数,1是批次大小,128是时间点数。

  5. 数据被送入双重注意力精炼模块,产生两个不同层次的特征F1∈R 16×64和 F2∈R 16×32,16是特征通道数,64和32分别是两个特征的时间点数。

  6. 经过全局平均池化和全连接层后,特征被降维。全连接层将特征从16维减少到4维,然后 F1和 F2被连接起来,形成融合特征 F∈R 8,这里的8表示降维后的特征数量。

  7. 最后,通过另一个全连接层将融合特征 F 映射到最终的预测 P∈R2

三、实验分析

3.1 数据集

  1. KUL数据集:8192 Hz的采样率收集了16名正常听力受试者的64通道EEG数据。通过入耳式耳机过滤4kHz的听觉刺激,并将其设置为60dB,模拟90°左右的语音。每位受试者听8次,每次6分钟。

  2. DTU数据集:8名正常听力受试者的64通道EEG数据,采样率为512 Hz。他们以60°的角度呈现给受试者,每个受试者听了60次,每次持续50秒。

  3. MM-AAD数据集:采集50例正常听力受试者(男34例,女16例)的32通道脑电数据,采样率为4kHz,遵循10/20国际系统。每个受试者同时受到视听刺激和纯视听刺激。每位受试者听了20次试验,每次持续165秒。

3.2 数据处理和参数选择

  1. KUL数据集:重新引用乳突电极的平均响应,然后在0.1 Hz和50Hz之间进行带通滤波,最后降采样到128赫兹。

  2. DTU数据集:对EEG数据进行滤波,去除50 Hz的线性噪声和谐波。关节去相关消除眼伪影,并将脑电数据重新参考乳突电极的平均响应。将EEG数据下采样至64hz。

  3. MM-AAD数据集:0.1 Hz ~ 50 Hz的EEG数据进行带通滤波,然后通过陷波滤波器去除50 Hz的噪声,使用独立分量分析(ICA)消除了眼睛伪影,EEG数据下采样至128 Hz。

  4. 参数选择:将训练集、验证集和测试集的比例设置为8:1:1。同时将批大小设置为32,最大epoch数设置为100,并采用提前停止策略。如果验证集上的损失函数值连续10个epoch不减小,训练将停止。此外,利用学习率为5e-4,权值衰减为3e-4的Adam优化器来训练模型。

3.3 性能比较

在KUL数据集上,DARNet在0.1秒、1秒和2秒决策窗口下的平均准确率分别为91.6% 、96.2% 和97.2%。在DTU数据集上,DARNet在0.1秒决策窗口的平均准确率为79.5% ,在1秒决策窗口的平均准确率为87.8%,在2秒决策窗口的平均准确率为89.9%。在MM-AAD数据集上,DARNet也显示出出色的解码准确率:0.1秒94.9% 、1秒96.0% 、2秒96.5% 和 0.1秒95.8% 、1秒96.4% 、2秒96.8% 。尤其,在0.1秒决策窗口下,DARNet仍然保持了优异的性能。

DARNet的参数数比SSF-CNN少51.6倍,比MBSSFCC少1331.5倍,比DBPNet少0.91倍。与其他模型相比,DARNet的参数效率更高。尽管参数较少,但DARNet保持了良好的性能,表明其能够在资源受限的环境中应用于AAD分析,从而展示了实用性。

3.4 消融实验

通过去除空间特征提取模块、时间特征提取模块和特征融合模块进行综合消融实验。在DTU数据集、KUL数据集和MM-AAD数据集上,去除上述模块导致了相似的平均精度下降趋势。

3.5 消融结果分析

去除空间特征提取步骤、去除时间特征提取步骤、去除特征融合模块、使用单层注意力细化模块相比,DARNet表现优异,原因有:

  1. 集成多信息源:DARNet集成脑电信号的时空分布特征,构建更丰富、更鲁棒的时空特征。这使得模型能够全面理解脑电图信号中的时空信息,从而增强对大脑活动的理解。相反,去除单个特征可能会导致信息丢失或无法捕捉脑电信号的瞬态变化,从而影响模型的性能。

  2. 时间依赖关系的综合捕获:DARNet的双重注意细化模块和特征融合模块综合捕获了不同层次的时间模式和依赖关系,使模型能够更好地理解脑电信号中的时间动态。这种对不同时间尺度特征的整体考虑对于脑电数据的分析至关重要。

  3. 鲁棒特征表示:尽管观察到去除特征融合模块并没有导致三个数据集的准确性显著降低,但DARNet的性能可变性大大增加。特征融合模块在不同层次上集成了时间模式和依赖关系,使模型能够更好地理解和利用数据内部的复杂关系,从而增强模型的鲁棒性和泛化性。

四、结论

  1. DARNet通过时空特征构建和双重注意力机制的巧妙结合,解决了现有听觉注意力检测模型在捕捉EEG信号长程依赖上的不足,极大提升了解码精度。

  2. 2.在各类实验中,DARNet均展现出优异的表现,不仅实现了高准确率,还显著降低了模型参数量,使其在实际应用中更具潜力。

  3. 未来,DARNet有望应用于听觉辅助设备、神经康复等领域,帮助听觉障碍者更好地聚焦于目标声音。

标签:细化,特征,DARNet,卷积,注意,模块,EEG,数据
From: https://blog.csdn.net/weixin_44412986/article/details/143865143

相关文章

  • 【Attention】用于医学图像分割的双重交叉注意力
    DualCross-Attentionformedicalimagesegmentation        提出了双交叉注意(DualCross-Attention,DCA),这是一种简单而有效的注意模块,可增强基于U-Net架构的医学图像分割中的跳接连接。基于U-Net架构的简单跳转连接方案难以捕捉多尺度上下文,导致编码器和解码器......
  • 【Attention】DA-TransUNet:将空间和通道双重注意力与Trans U-net 集成
    DA-TransUNet:integratingspatialandchanneldualattentionwithtransformerU-netformedicalimagesegmentation        准确的医学图像分割对于疾病量化和治疗评估至关重要。传统的U-Net架构及其变压器集成变体在自动分割任务中表现出色。现有模型在参数......
  • 苹果App Store上架的注意事项
    以下是苹果AppStore上架的一些注意事项:开发者账号相关账号类型选择:开发者账号有个人账号、公司账号和企业账号三种类型,需根据实际情况选择。个人账号适合个人开发者,公司账号适用于有公司主体的开发团队,而企业账号主要用于企业内部应用分发,不能将应用发布到AppStore.......
  • Linux里反引号`和单引号‘注意区分,二者很像;以及双中括号[[]]
    $While[[`seq110|shuf|head-n1`!="1"]];doecho"retry";done问题结果发现:`seq110|shuf|head-n1`是反引号`,不是单引号’1.认成单引号和双引号执行情况:里面是字符不执行test_watch.sh执行bash脚本debug$bash-xtest_watch.sh2.正确表述......
  • 开发一份API接口,需要注意这些,看你做到了几项
    在实际工作中,我们需要经常跟外部三方系统打交道,可能会提供API接口给外部三方系统调用。API接口通常通过WebController来实现。如果设计一个优雅的API接口,能够满足安全性、稳定性、易维护等多方面需求呢?下面几项,看你做到了哪些。1.数字签名为了防止API接口中的数据被篡改,我们......
  • HAL层代码编写注意事项
    基本架构#include<hardware/hardware.h>#include<fcntl.h>#include<cutils/log.h>//HAL规定不能直接使用hw_module_t结构体//因此需要在hw_module_t外再套一层结构体,这也是HAL要求的structmy_module_t{//hw_module_t结构体表示HAL模块的基本信息,成员变量可以任意......
  • 李沐大佬-动手学深度学习笔记-注意力机制
    注意力机制(显示考虑随意线索)随意线索:查询query每个输入是一个value和不随意线索key的对通过注意力池化层偏向性选择某些输入历史演变:非参注意力池化层:60年代提的Nadaraya-Watson核回归,类似于knn如果使用高斯核,fx函数类似于softmax和y(y是一个value)的乘积参数化注意力机制:......
  • 【淘汰9成NLP工程师的常识题】多头注意力相对于多头注意力有什么优势?
    【淘汰9成NLP工程师的常识题】多头注意力相对于多头注意力有什么优势?重要性:★★★......
  • 什么是 C++ 中的友元函数和友元类?友元的作用是什么?有什么注意事项?
    友元函数定义友元函数是在类中声明的非成员函数,它可以访问类的私有(private)和保护(protected)成员。友元函数虽然不是类的成员函数,但它被授予了访问类内部成员的特殊权限。声明方式在类的定义中,使用friend关键字来声明友元函数。classMyClass{private:intprivateDat......
  • RCD负载箱的技术参数和规格有哪些需要注意的?
    RCD负载箱是专门用于测试电力设备的设备,主要用于检测电路的电流、电压和功率等参数。此外,它也是一种用于测试和验证电气设备在故障状态下的性能的设备,可以模拟真实的负载情况,帮助工程师和技术人员对设备进行检测和维护。在购买和使用RCD负载箱时,需要注意以下几个技术参数和规格:......