向量的各向异性
Transformer生成的各个词向量具有各项异性问题(anisotropic,representation degeneration problem),即词向量都聚集在一个狭小的锥形空间,任何两个词都具备相似度,这个可以通过对词向量矩阵做低秩近似到2维平面可以看出来(即将向量映射到二维),此处的低秩近似指的是:利用一个秩较低的矩阵来近似表达原矩阵,不但能保留原矩阵的主要特征,而且可以降低数据的存储空间和计算复杂度
这个问题产生的原因是:在序列生成任务中,模型要根据当前的隐向量预测出下一个单词,所以词向量就尽可能的和当前隐向量相似,从而导致该词向量与其他隐向量(空间中的大多数)离得很远,以致于龟缩到1个角落,这样所有的词向量都龟缩在这里了
所以模型损失不仅要考虑原来的任务损失,还要考虑到各项异性问题(词向量的相似性损失)
解决方法1:将任何22之间的词向量相似度降低,即loss添加一个正则化项(叫做:MLE-CosReg),其中wi是词向量wi归一化后的结果:
解决方法2:对低频词的梯度计算进行自适应控制
标签:矩阵,近似,wi,龟缩,各向异性,向量 From: https://www.cnblogs.com/pjishu/p/17090164.html