1 摘要

长短期记忆（LSTM）递归神经网络（RNN）最近显示出比深层前馈神经网络（DNN）有明显的性能改进。这些模型的一个关键方面是使用时间递归，并与改善梯度消失问题的门控结构相结合。受人类光谱图阅读的启发，在本文中我们提出了对LSTM的扩展，在频率和时间上进行递归。该模型首先扫描频带以生成频谱信息的摘要，然后将输出层激活作为传统时间LSTM（T-LSTM）的输入。在微软的短信息听写任务中评估，所提出的模型比T-LSTM获得了3.6%的相对单词错误率的降低。

本文的主要贡献是提出了一个两级网络，第一级沿频率轴进行递归，第二级进行时间递归。我们称其为频率-时间LSTM或F-T-LSTM。在第2节中，我们简要介绍了LSTM，然后在第3节中提出了结合频率LSTM和时间LSTM的建议模型。在第4节中，我们将提出的方法与卷积LSTM DNN（CLDNN）[16]和多维RNN[17][18]相区别。第5节对该算法进行了实验评估。我们在第6节中总结了我们的研究并得出结论。

2 LSTM-RNN

RNN与前馈DNN的根本区别在于，RNN不在固定的帧窗口上操作；相反，它保持着一个隐藏的状态向量，在看到每个时间段后递归地更新。内部状态编码了从话语开始到最后一次输入的全部历史，因此，与固定窗口的DNN相比，它有可能模拟更长的跨度效应。换句话说，RNN是一个动态系统，比执行静态输入-输出转换的DNN更通用。内部状态的包含使RNN能够表示和学习长距离的顺序依赖。

然而，当错误信号通过时间反传播时，简单的RNN存在梯度消失问题。这个问题在LSTM-RNN中通过使用以下四个部分得到很好的处理。

记忆单元：这些单元存储了网络的时间状态。

输入闸门：这些闸门调节进入细胞的输入激活。

输出门：这些门调节细胞的输出激活。

遗忘门：这些门可以适应性地重置细胞的记忆。

在LSTM-RNNs中，除了过去的隐层输出

标签：输出,RNN,递归,RECURRENCE,FREQUENCY,SPEECH,频率,LSTM,输入
From： https://www.cnblogs.com/joffrey/p/16785237.html

1348. Tweet Counts Per Frequency 推特文章的访问频率
1348. TweetCountsPerFrequencyMedium130231AddtoListShareAsocialmediacompanyistryingtomonitoractivityontheirsitebyanalyzingthenumber......
IfcFrequencyMeasure
IfcFrequencyMeasure类型定义IfcFrequencyMeasure是单位时间内项目振动次数的度量。通常以周期/秒或赫兹（Hz）测量。类型：REALIFC2.0中的新类型。 EXPRESSSpecificati......
[Oracle] LeetCode 1636 Sort Array by Increasing Frequency 双map
Givenanarrayofintegersnums,sortthearrayinincreasingorderbasedonthefrequencyofthevalues.Ifmultiplevalueshavethesamefrequency,sortthem......
How To determine Linux Kernel Timer Interrupt Frequency
HowTodetermineLinuxKernelTimerInterruptFrequencyhttps://www.advenage.com/topics/linux-timer-interrupt-frequency......
【题解】CF1585E Frequency Queries
思路by@houzhiyuanSol感觉在线不怎么可做，考虑离线。那么问题变成了维护路径上第\(k\)大出现次数的数。考虑线段树，以出现次数为节点的下标，那么查询相当于是求第\(k......
codeforces963D. Frequency of String【哈希】
我的腿让我停下，可是我的心却不许我这么做今天又是为了明知多半不可能的事情奔波一早，一天里，出了很多丑，犯了很多错，见了很多人，有了很多意想不到的收获，我选择了我的生存方式......

LSTM TIME AND FREQUENCY RECURRENCE FOR AUTOMATIC SPEECH RECOGNITION

1 摘要

2 LSTM-RNN

相关文章

赞助商

阅读排行