首页 > 其他分享 >LSTM TIME AND FREQUENCY RECURRENCE FOR AUTOMATIC SPEECH RECOGNITION

LSTM TIME AND FREQUENCY RECURRENCE FOR AUTOMATIC SPEECH RECOGNITION

时间:2022-10-13 19:33:23浏览次数:61  
标签:输出 RNN 递归 RECURRENCE FREQUENCY SPEECH 频率 LSTM 输入

1 摘要

  长短期记忆(LSTM)递归神经网络(RNN)最近显示出比深层前馈神经网络(DNN)有明显的性能改进。这些模型的一个关键方面是使用时间递归,并与改善梯度消失问题的门控结构相结合。受人类光谱图阅读的启发,在本文中我们提出了对LSTM的扩展,在频率和时间上进行递归。该模型首先扫描频带以生成频谱信息的摘要,然后将输出层激活作为传统时间LSTM(T-LSTM)的输入。在微软的短信息听写任务中评估,所提出的模型比T-LSTM获得了3.6%的相对单词错误率的降低。

  本文的主要贡献是提出了一个两级网络,第一级沿频率轴进行递归,第二级进行时间递归。我们称其为频率-时间LSTM或F-T-LSTM。在第2节中,我们简要介绍了LSTM,然后在第3节中提出了结合频率LSTM和时间LSTM的建议模型。在第4节中,我们将提出的方法与卷积LSTM DNN(CLDNN)[16]和多维RNN[17][18]相区别。第5节对该算法进行了实验评估。我们在第6节中总结了我们的研究并得出结论。

2 LSTM-RNN

  RNN与前馈DNN的根本区别在于,RNN不在固定的帧窗口上操作;相反,它保持着一个隐藏的状态向量,在看到每个时间段后递归地更新。内部状态编码了从话语开始到最后一次输入的全部历史,因此,与固定窗口的DNN相比,它有可能模拟更长的跨度效应。换句话说,RNN是一个动态系统,比执行静态输入-输出转换的DNN更通用。内部状态的包含使RNN能够表示和学习长距离的顺序依赖。

  然而,当错误信号通过时间反传播时,简单的RNN存在梯度消失问题。这个问题在LSTM-RNN中通过使用以下四个部分得到很好的处理。

记忆单元:这些单元存储了网络的时间状态。

输入闸门:这些闸门调节进入细胞的输入激活。

输出门:这些门调节细胞的输出激活。

遗忘门:这些门可以适应性地重置细胞的记忆。

在LSTM-RNNs中,除了过去的隐层输出

标签:输出,RNN,递归,RECURRENCE,FREQUENCY,SPEECH,频率,LSTM,输入
From: https://www.cnblogs.com/joffrey/p/16785237.html

相关文章