在Transformer中,Decoder部分内部的不同层通常可以并行工作,这意味着每个Decoder层可以同时处理整个序列。比如,在处理Self-Attention时,模型可以同时计算所有位置的注意力权重。
但在生成输出序列时,尽管Decoder内部的不同层可以并行工作,模型仍然需要按顺序逐步生成每个词。这是因为Transformer是一个自回归模型,每个词的生成都依赖于前面已经生成的部分。因此,尽管Decoder内部的处理可以并行进行,但生成输出序列的过程本身是一个逐步的、自回归的过程,无法一次性并行地输出整个序列。
所以,在处理不同位置的信息时,Decoder内部的操作通常可以并行进行;但在生成序列时,模型仍然需要按顺序逐步生成每个词。这种情况下,并行性是在不同层内部的操作上,而不是在序列生成的过程中。
标签:transformer,内部,模型,decoder,并行,生成,序列,Decoder,串行 From: https://www.cnblogs.com/chentianyu/p/17869287.html