首页 > 其他分享 >关键词识别神经网络

关键词识别神经网络

时间:2024-05-23 11:57:06浏览次数:20  
标签:架构 卷积 关键词 KWS FA 神经网络 CRNN 识别

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI
关键词识别 (KWS) 是人机界面的主要组成部分。 KWS 的目标是在低误报 (FA) 率下最大化检测精 度,同时最小化占用空间大小、延迟和复杂性。为 了实现这些目标,我们研究了卷积循环神经网络 (CRNN)。受到大规模最先进语音识别系统的启发, 我们结合了卷积层和循环层的优势来利用局部结构 和远程上下文。我们分析了架构参数的影响,并提 出了提高性能的训练策略。我们的 CRNN 模型仅使 用约 230k 参数,即可产生可接受的低延迟,并在 0.5 FA/小时、5 dB 信噪比下实现 97.71% 的准确 度。

受人类彼此交互最常见方式的推动,对话式人 机界面在众多应用中变得越来越流行。高性能 语音到文本转换和文本到语音转换构成了此类 接口的两个重要方面,因为大多数计算算法都 是针对文本输入和输出而开发的。会话界面的 另一个重要方面是关键字识别(KWS)M也 称为唤醒词检测,以根据用户提供的语音输入 实现不同计算状态之间的转换。 KWS 系统旨在 从连续的音频流中检测特定的关键字。由于它 们的输出决定了设备的不同状态,因此极高的 检测精度和极低的误报 (FA) 率对于实现令人满 意的用户体验至关重要。典型应用存在于受到 背景音频、混响失真以及嵌入 KWS 的设备的扬 声器产生的声音干扰的环境中。 KWS 系统应该 在这种广泛的情况下表现出强大的性能。此 外,计算复杂性和模型大小是 KWS 系统的重要 关注点,因为它们通常嵌入内存和计算资源有 限的消费设备中,例如智能手机或智能家居传 感器。

已经有数百万台设备配备了嵌入式 KWS 系统。 KWS 的传统方法基于带有序列搜索算法的隐马尔 可夫模型 。随着深度学习的进步和可用数据量 的增加,最先进的 KWS 已被深度学习所取代基于学习的方法由于其卓越的性能。基于深度 学习的 KWS 系统通常使用深度神经网络 (DNN) 与压缩技术 或多风格训练方法相结 合。 DNN 的潜在缺点是它们忽略输入的结构和上 下文,并且音频输入在时域或频域中可能具有很强 的依赖性。为了通过共享权重利用此类局部连接模 式,人们对 KWS 探索了卷积神经网络 (CNN) 。 CNN 的一个潜在缺点是,如果没有宽过滤 器或大深度,它们无法对整个帧的上下文进行建 模。与前面提到的具有交叉熵 (CE) 损失的 DNN 和 CNN 模型 不同,循环神经网络 (RNN) 还 研究了具有联结时间分类 (CTC) 损失的 KWS 。然而,考虑到此类系统的应用目标雄心勃 勃,无法在低 FA 率下获得高精度。与 DNN 类 似,RNN 的潜在局限性是建模是根据输入特征完 成的,而不需要学习连续时间和频率步骤之间的结 构。最近,提出了一种具有 CTC 损失的卷积 循环神经网络(CRNN)架构。然而,尽管模型尺 寸很大,与 RNN 类似,但无法在低 FA 率下获得 高精度。在本文中,我们专注于开发一个生产质量的 KWS 系 统,使用带有 CE 损失的 CRNN,用于小足迹模型, 应用于单个关键字。我们的目标是结合 CNN 和 RNN 的优势,并在训练过程中应用额外的策略来提高整体 性能,同时保持较小的占用空间。

受到成功的大规模语音识别系统 [12-14] 的启发,我 们专注于规范的 CRNN 架构。为了使这些架构适应 小规模 KWS,模型大小需要缩小两到三个数量级。 我们将分析缩小模型尺寸时不同参数对性能的影响。图 1 显示了带有相应参数的 CRNN 架构。原始时域输入被转 换为每通道能量归一化 (PCEN) 梅尔谱图 [8],以实现简洁的 表示和高效的训练。 (我们尝试过的其他输入表示结果更糟大小相当的模型架构的性能。)二维 PCEN 特征作 为卷积层的输入,卷积层在时间和频率维度上采用 二维滤波。卷积层的输出被馈送到双向循环层,其 中可能包括门循环单元(GRU)[15]或长短期记忆 (LSTM)单元[16]并处理整个帧。循环层的输出被 赋予全连接(FC)层。最后,对两个神经元应用 softmax解码,以获得相应的标量分数。我们在所 有层中使用修正线性单元作为激活函数。

在语音识别中,具有循环层的大规模架构通常使用 CTC 损失的变体来解码最可能的输出标签。除了由 于目标的条件独立性假设导致的建模限制之外, CTC 损失具有很高的计算复杂性,并且通常只有当 模型容量足够大以有效地从大型数据集中学习时才 能产生良好的性能。由于我们专注于小足迹架构, 因此选择在训练期间优化的损失函数作为估计和目 标二进制标签的 CE 损失,指示帧是否对应于关键 字。 我们使用算法 1 中所示的启发式算法获得关键字的 开始和结束时间。在切割关键字以覆盖边缘情况时 添加额外的短填充。获得的比对精度明显超出了人 类感知的时间尺度。

我们为关键字"TalkType"(可以发音为单个单词 或两个单词)开发 KWS 系统。我们选择 T = 1.5 秒 的帧长度,该长度足以捕获"TalkType"的合理发 音。使用 16 kHz 的采样率,每帧包含 24k 个原始 时域样本。获得了 10 ms 步幅和 40 个通道的相应 PCEN mel 频谱图,产生 40 × 151 的输入维度。整 个数据集由从 5k 多个说话者收集的约 16k 个不同样 本组成。数据集按照 6-1-1 的比例分为训练集、开发 集和测试集。通过应用加性噪声来增强训练样本, 其功率由从 [-5,15] dB 间隔采样的信噪比 (SNR) 确 定。加性噪声是从具有代表性的背景噪声和语音的 数据集中采样的,总长度超过300小时。为了提供针 对对准误差的鲁棒性,还通过引入随机定时抖动来 增强训练样本。我们使用ADAMoptimization算法 进行训练[17],批量大小为64。学习率最初选择为 0.001,后来降至0.0003。我们的评估考虑了一个流场景,这样对持续时间为 T 的重叠帧执行推理。帧之间的偏移选择为 100 ms(理想情况下应比频谱图步幅长得多,并且比推 理延迟短得多 - 有关更多详细信息,请参阅第 3.2 节) )。我们关注的指标是每小时的错误拒绝率 (FRR) 和错误警报 (FA),通常将后者固定在所需 值,例如 1 FA/小时 [7]。噪声被添加到开发和测试 集中,其大小取决于 SNR 值。我们注意到,收集的 样本已经有噪声,因此如果精确定义为承载信息的 信号与噪声的功率比,则实际 SNR 会较低。与我们 对训练集的增强类似,负样本和噪声数据集是从代 表性背景噪声中采样的,并且演讲。

实验结果如下

标签:架构,卷积,关键词,KWS,FA,神经网络,CRNN,识别
From: https://www.cnblogs.com/mcu-ai-QH/p/18208127

相关文章

  • Nodejs Playwright 2Captcha 验证码识别实现自动登陆
    NodejsPlaywright2Captcha验证码识别实现自动登陆需求日常工作当中,为了提高工作效率,我们可能会写脚本来自动执行任务。有些网站因为需要用户登陆,所以脚本的自动登陆功能必不可少。不过我们在登陆网站的时候经常会出现验证码,验证码的目的就是为了防止机器登陆、自动化脚本操......
  • 基于BP神经网络的QPSK解调算法matlab性能仿真
    1.算法运行效果图预览  2.算法运行软件版本matlab2022a 3.算法理论概述       QPSK(QuadraturePhaseShiftKeying)是一种常见的数字调制方式,通过载波的四种相位状态来传输两比特信息。在接收端,准确解调出原始数据成为关键任务。传统的方法如相干解调虽有效但......
  • 人脸识别库 虹软 客户端 服务端 示例
    https://github.com/18628271760/MultipleFacesProcess 一、前言虹软开发SDK以来,其免费使用的营销策略,成功降低了中小企业使用人脸识别技术的成本。然而,对.NET开发者来说,虹软没有提供C#版本的SDK供开发者直接调用(为什么JAVA就有?!),而是建议开发者利用C++版本封装。大龄的C系程......
  • DeepMTS深度学习神经网络多元时间序列预测宏观经济数据可视化|附数据代码
    原文链接:https://tecdat.cn/?p=36237原文出处:拓端数据部落公众号在数据科学领域,时间序列分析一直是一个至关重要的研究方向,尤其在金融、气象、医学以及许多其他科学和工业领域中,准确的时间序列预测对于制定策略、政策规划以及资源管理都具有极其重要的意义。随着技术的不断进步,......
  • AI水位识别/水位超标算法在水利工程与防洪灾害预警中的应用实践
    以近年来全国地表水资源供水量数据为例,从2020年的4792.3亿立方米到2022年的4994.2亿立方米,供水量呈现出逐年上升的趋势。这样的数据变化,反映了水资源需求的增长,同时也意味着防洪压力的加大。在此背景下,水位识别算法能够实时监测水域水位变化,为防洪决策提供及时、准确的数据支持,从......
  • BP神经网络实现分类模型
    训练数据生成每个x向量维度为3,y标签使用one-hot编码进行3分类。生成的数据如下:构建BP神经网络模型初始化权重和偏置矩阵如下:训练神经网络绘制梯度下降损失函数曲线图附(如果采用梯度下降更新权重,即权重值发生少量变化后,基于损失值的变化更新权重的方法如下:......
  • 【地图导航有讲究】教你识别合法地图
    在这个数字化时代,地图已成为我们日常生活中不可或缺的导航工具。无论是纸质地图还是手机中的电子地图,准确合法的地图不仅能为我们指引方向,还关乎国家安全和社会秩序。那么,如何确保你手中的地图是合法的呢?今天,就让我们一起学习几个识别合法地图的小技巧。 了......
  • 结合人脸识别,实现渠道风控管理和客户精准营销
    数字客渠道风控系统,助力案场数字化,解决房企客户渠道飞单问题。我们结合阿里、华为、海康等最新计算机视觉算法,实现毫秒级抓拍、一秒上千张图片处理的计算能力,算法+软件开发的结合为房企渠道风控管理、智慧案场实现带来了全新的解决方案。一、客户到访全动线无感抓拍,案场数字化......
  • R语言逻辑回归、决策树、随机森林、神经网络预测患者心脏病数据混淆矩阵可视化
    全文链接:https://tecdat.cn/?p=33760原文出处:拓端数据部落公众号概述:众所周知,心脏疾病是目前全球最主要的死因。开发一个能够预测患者心脏疾病存在的计算系统将显著降低死亡率并大幅降低医疗保健成本。机器学习在全球许多领域中被广泛应用,尤其在医疗行业中越来越受欢迎。机器......
  • 轻便高效的音频分类神经网络
    具体的软硬件实现点击http://mcu-ai.com/MCU-AI技术网页_MCU-AI在过去的几年里,大规模数据集(例如AudioSet)上的音频分类任务一直是一个重要的研究领域。一些更深层次的基于卷积的神经网络已经显示出引人注目的性能,特别是Vggish、YAMNet和预训练音频神经网络(PANN)。这些模型......