• 2024-06-16Illustrated Transformer笔记
    AttentionIsAllYouNeed编码器端Self-attention层用处:将对其他相关单词的“理解”融入我们当前正在处理的单词的方法,类似于RNN通过保持隐藏状态让RNN将其已处理的先前单词/向量的表示与当前正在处理的单词/向量结合起来将单词输入转化为Embedding之后,将Embedding和QKV