第11章 神经机器翻译器——端到端机器翻译
- 神经机器翻译,google旗下的NMT
- 编码-解码模型:用编码器和解码器组成一个翻译机,先用编码器将源信息编码为内部状态,再通过解码器将内部状态解码为目标语言。编码过程对应了阅读源语言句子的过程,解码过程对应了将其重组为目标语言的过程——对应“翻译”的过程:先把大意看懂,再重新组织翻译出的新语言——书P260
embedding层的用法:
在机器学习和深度学习中,嵌入层(embedding layer)是一种常见的技术,用于将高维离散数据映射到低维连续向量空间中。它通常用于处理文本、图像、音频等数据,将它们转换成模型可以处理的形式。
在自然语言处理(NLP)中,嵌入层经常用于将词汇表中的每个单词映射到一个固定长度的实数向量。这些向量在嵌入空间中的位置被设计为捕捉单词之间的语义关系。例如,具有相似含义的单词在嵌入空间中可能会更接近。
softmax函数
- 编码器工作流程——书P262
- 编码-解码模型归纳——书P269
- 注意力机制——书P270
注意力网络首先是一个神经网络,包含了两个部分:一是解码器下一个时刻的输入单词,二是解码器当前的隐含层节点状态——书P271
注意力网络的输出是一组正实数,加起来等于1,是加到编码器各时间步隐含状态上的权重 - 使用GRU(门控循环单元)来替换普通的LSTM——书P275
GRU也是没有输出门的LSTM
第12章 更强的机器翻译模型——Transformer
- 为了克服RNN系列对长序列建模的困难,提出了Transformer,完全使用注意力机制代替RNN复杂的网络结构——书P300
- Transformer以注意力为核心构建整个编码-解码模型,解决了长序列问题,完全抛弃了RNN
RNN、LSTM为核心的机器翻译使用token,但是token都是通过cell states和其他token产生联系,而一般直接产生联系的是距离最近的token,但是这样,针对长序列就不方便
Transformer的多头自注意力模块中,每一个token需要分裂为若干个头,每个头内部又分为查询向量query、关键字向量key、值向量value三个向量,每个token的query向量都可以与句子中其他token的key向量直接交互。query与key的计算结果与value相结合,产生新的token表示——书P302
3.采用Atoken的故事来方便理解——书P304