• 2024-10-19学习Transformer,应该从词嵌入WordEmbedding开始_trasnformer模型中embedding
    其中的2号位置,就是词嵌入层。Embedding层用于将离散的单词数据,转换为连续且固定长度的向量:这样使模型才能处理和学习这些数据的语义信息。例如,我们希望将“AreyouOK?”这句话,作为神经网络模型的输入。此时神经网络是没办法直接处理这句文本的。我们需要先将“Are