DARNet:基于时空结构的双注意细化网络听觉注意检测
一、研究背景
在日常生活中,如鸡尾酒会等嘈杂环境中,人类能够专注于某个特定说话者,这种“听觉注意力”的背后依赖于大脑对外部声音的选择性处理能力。听觉注意力检测(Auditory Attention Detection, AAD)技术通过分析脑电图(EEG)信号,尝试模拟这一能力,从而帮助听觉障碍者聚焦于特定的声音来源。然而,现有的AAD模型往往忽略了EEG信号中的空间分布特征,且难以捕捉长程依赖,限制了解码效果。 为了解决这些问题,我们提出了双重注意力精炼网络(Dual Attention Refinement Network,DARNet),通过时空特征构建和双重注意力精炼机制,提高听觉注意力检测的准确率,并极大地减少了模型参数量。
二、模型解读
2.1 CSP处理
对脑电信号进行移动窗口处理,得到一系列决策窗口,每个决策窗口都包含一个小持续时间的脑电信号。
ri∈R N×1表示决策窗口内第i个时间点的脑电信号,包含N个通道,其中N表示脑电信号通道数,T表示决策窗口长度。
其中CSP(·)表示CSP算法,E∈R N×T表示处理后的脑电信号。c_in为CSP算法的分量,T为决策窗口的长度。
2.2 时空构造模块
通过捕捉脑电信号的空间分布特征,构建更具表现力的时空特征表征。
2.2.1.时间卷积层
时间卷积层捕捉脑电信号的瞬时变化,从而构建脑电信号的时间模式Et:
TemporalConv2d(·)使用GELU(·)激活函数在时间维度上执行一个2-D卷积滤波器(核尺寸=1×8,Dmodel表示嵌入维数)
2.2.2.空间卷积层:
捕获不同通道之间的空间分布特征,从而为下一层构建鲁棒嵌入。
其中SpatialConv2d(·)在空间维度上执行一个核尺寸为c_in × 1的二维卷积滤波器
2.3 双重注意细化模块
人类的注意力是一种动态的、与时间相关的活动,双重自注意机制,该机制具有更大的潜力来捕获脑电图信号中的远程潜在依赖关系和更深的序列模式,通过卷积和池化操作来细化占主导地位的时间特征,将原始长度为T的EEG序列压缩到其长度的一半。自关注改进操作减少了噪声和异常值的影响,同时也减少了模型的参数计数。
其中MultiHeadAttention(·)表示多头自关注算法,Conv1d(·)表示时间维度上的1维卷积滤波器(核宽度=3)。其中ELU(·)为激活函数,MaxPool(·)表示步长为2的最大池化层。
在应用时间注意力特征提取模块之前,将绝对位置嵌入加入到输入嵌入S中,公式如下:si = si + pi,其中si表示第i个时间步长的嵌入向量,pi∈R dmodel表示第i个时间步长的位置。
F1和F2分别包含脑电图信号中不同程度的依赖关系和时间模式。
2.4 特征融合与分类模块
通过对不同特征的优化组合,既保留了不同层次特征的有效判别信息,又在一定程度上消除了冗余信息。
-
将特征F1和F2投影到同一维度
其中AdaptiveAvgPool(·)为自适应平均池化层,Linear为线性层。
-
将特征F ' 1和F ' 2连接起来,得到融合特征向量F。
-
使用一个完全连接的层来获得最终的听觉注意预测。
2.5 具体解释
-
原始EEG数据经过CSP处理,得到一个 128×64 的特征矩阵 E,其中128是通道数,64是时间点数。
-
将 E 转置并扩展为 E′∈ R1×64×128。这里,数据从二维矩阵转换为三维张量,第一个维度是批次大小(这里是1),第二个维度是时间点,第三个维度是通道数。
-
.应用时间卷积层,使用 1×8 的卷积核在时间维度上进行卷积,应用空间卷积层,使用 Cin×1 (Cin=16) 的卷积核在通道维度上进行卷积.
-
通道数从128减少到16,得到 S∈R 16×1×128。这里,16是新的特征通道数,1是批次大小,128是时间点数。
-
数据被送入双重注意力精炼模块,产生两个不同层次的特征F1∈R 16×64和 F2∈R 16×32,16是特征通道数,64和32分别是两个特征的时间点数。
-
经过全局平均池化和全连接层后,特征被降维。全连接层将特征从16维减少到4维,然后 F1和 F2被连接起来,形成融合特征 F∈R 8,这里的8表示降维后的特征数量。
-
最后,通过另一个全连接层将融合特征 F 映射到最终的预测 P∈R2
三、实验分析
3.1 数据集
-
KUL数据集:8192 Hz的采样率收集了16名正常听力受试者的64通道EEG数据。通过入耳式耳机过滤4kHz的听觉刺激,并将其设置为60dB,模拟90°左右的语音。每位受试者听8次,每次6分钟。
-
DTU数据集:8名正常听力受试者的64通道EEG数据,采样率为512 Hz。他们以60°的角度呈现给受试者,每个受试者听了60次,每次持续50秒。
-
MM-AAD数据集:采集50例正常听力受试者(男34例,女16例)的32通道脑电数据,采样率为4kHz,遵循10/20国际系统。每个受试者同时受到视听刺激和纯视听刺激。每位受试者听了20次试验,每次持续165秒。
3.2 数据处理和参数选择
-
KUL数据集:重新引用乳突电极的平均响应,然后在0.1 Hz和50Hz之间进行带通滤波,最后降采样到128赫兹。
-
DTU数据集:对EEG数据进行滤波,去除50 Hz的线性噪声和谐波。关节去相关消除眼伪影,并将脑电数据重新参考乳突电极的平均响应。将EEG数据下采样至64hz。
-
MM-AAD数据集:0.1 Hz ~ 50 Hz的EEG数据进行带通滤波,然后通过陷波滤波器去除50 Hz的噪声,使用独立分量分析(ICA)消除了眼睛伪影,EEG数据下采样至128 Hz。
-
参数选择:将训练集、验证集和测试集的比例设置为8:1:1。同时将批大小设置为32,最大epoch数设置为100,并采用提前停止策略。如果验证集上的损失函数值连续10个epoch不减小,训练将停止。此外,利用学习率为5e-4,权值衰减为3e-4的Adam优化器来训练模型。
3.3 性能比较
在KUL数据集上,DARNet在0.1秒、1秒和2秒决策窗口下的平均准确率分别为91.6% 、96.2% 和97.2%。在DTU数据集上,DARNet在0.1秒决策窗口的平均准确率为79.5% ,在1秒决策窗口的平均准确率为87.8%,在2秒决策窗口的平均准确率为89.9%。在MM-AAD数据集上,DARNet也显示出出色的解码准确率:0.1秒94.9% 、1秒96.0% 、2秒96.5% 和 0.1秒95.8% 、1秒96.4% 、2秒96.8% 。尤其,在0.1秒决策窗口下,DARNet仍然保持了优异的性能。
DARNet的参数数比SSF-CNN少51.6倍,比MBSSFCC少1331.5倍,比DBPNet少0.91倍。与其他模型相比,DARNet的参数效率更高。尽管参数较少,但DARNet保持了良好的性能,表明其能够在资源受限的环境中应用于AAD分析,从而展示了实用性。
3.4 消融实验
通过去除空间特征提取模块、时间特征提取模块和特征融合模块进行综合消融实验。在DTU数据集、KUL数据集和MM-AAD数据集上,去除上述模块导致了相似的平均精度下降趋势。
3.5 消融结果分析
去除空间特征提取步骤、去除时间特征提取步骤、去除特征融合模块、使用单层注意力细化模块相比,DARNet表现优异,原因有:
-
集成多信息源:DARNet集成脑电信号的时空分布特征,构建更丰富、更鲁棒的时空特征。这使得模型能够全面理解脑电图信号中的时空信息,从而增强对大脑活动的理解。相反,去除单个特征可能会导致信息丢失或无法捕捉脑电信号的瞬态变化,从而影响模型的性能。
-
时间依赖关系的综合捕获:DARNet的双重注意细化模块和特征融合模块综合捕获了不同层次的时间模式和依赖关系,使模型能够更好地理解脑电信号中的时间动态。这种对不同时间尺度特征的整体考虑对于脑电数据的分析至关重要。
-
鲁棒特征表示:尽管观察到去除特征融合模块并没有导致三个数据集的准确性显著降低,但DARNet的性能可变性大大增加。特征融合模块在不同层次上集成了时间模式和依赖关系,使模型能够更好地理解和利用数据内部的复杂关系,从而增强模型的鲁棒性和泛化性。
四、结论
-
DARNet通过时空特征构建和双重注意力机制的巧妙结合,解决了现有听觉注意力检测模型在捕捉EEG信号长程依赖上的不足,极大提升了解码精度。
-
2.在各类实验中,DARNet均展现出优异的表现,不仅实现了高准确率,还显著降低了模型参数量,使其在实际应用中更具潜力。
-
未来,DARNet有望应用于听觉辅助设备、神经康复等领域,帮助听觉障碍者更好地聚焦于目标声音。