• 2024-05-27无位置编码 (NoPE) 也有长度泛化问题?首个针对NoPE的长度外推方法
    前言 无位置编码(NoPE)的Transformer已经被证明在自回归语言模型任务上和Transformer+RoPE效果相当,但是NoPE的长度泛化问题并没有改善,和RoPE一样严重。华师、复旦、上海AILab联合团队基于NoPE,在排除位置编码影响下,研究长度泛化失败的表现和原因,并首次提出适用于NoPE