机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。 事实上,在科学研究和工业界的任何一个领域,如果提出一个新的算法并声称其具有良好的性能,都需要使用某种通用的、被广泛承认的评价标准为这个算法 “打分” 。这个分数不仅要体现出该算法是好的,而且要求能够体现出与其他算法相比,该算法能够好到什么程度。与其他的评测任务面对的对象不同,机器翻译所处理的对象―语言―本身存在某种程度的歧义,无法像数学公式或者物理模型那样简单客观地描述出来,这使得为机器翻译结果进行客观的打分变得非常困难。
BLEU
BLEU(Bilingual Evaluation Understudy)基于n-gram的精度度量。一种基于 n-gram 的评估指标,用来衡量机器翻译结果与参考译文之间的相似度。BLEU 分数越高,表示机器翻译结果越好。在最初的机器翻译上需要考虑准确率(不能将一些重要词汇预测错误,例如将狗翻译成人,如unigram)和流畅性(是不是正常的句子,体现在高阶的gram)。
- 计算
译文与参考的n-gram匹配程度
由于短句的分数通常高于长句,因此引入短句惩罚因子B P BPBP
- 优缺点:但是BLEU只关注准确率Precision(译文中有多少在参考中出现了),而没有考虑召回率(参考中有多少译文中没有翻译到),此外尽管公式中有对短句子的惩罚,但是在实践中还是普遍认为BLEU更喜欢短句。BLEU 评价缺陷是不能很好地反映句子的流畅度和语言的自然度。
ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)与BLEU的计算方式类似,都是基于n-gram,只是ROUGE只考虑了召回率Recall。通常用于自动文摘和机器翻译的评估,可以更好地反映机器翻译结果的完整性和准确性。
- 计算
在实验中一般使用ROUGE_L,是基于最长公共子序列的F值
- 优缺点:因为神经网络机器翻译很容易生成流畅的句子,但是内容的正确性难以保证(例如凭空出现什么东西),所以用召回率来限制翻译的句子是不是正确。
METEOR
METEOR(Metric for Evaluation of Translation with Explicit ORdering)一种基于 n-gram 的评估指标,与 BLEU 类似,但是 METEOR 在计算翻译结果与参考译文之间的相似度时,还考虑了单词重叠和词形变化等问题,因此相对于 BLEU 更加准确。主要是考虑到有些翻译可能正确的,只是没有对上译文的情况,考虑了同义词和词性,用wordnet扩充了同义词集。在评价流畅性方面,使用了chunk的概念,将位于生成的句子中相邻位置,且在参考句子中也位于相邻位置的词称为一个块,这样n-gram越长,组成的块的数量越少,惩罚项越小。
- 计算:在计算上,考虑了准确率和召回率,使用F值作为评价指标
计算惩罚系数(一般 $\gamma$取0.5,$\theta$取3,惩罚系数Penalty最大取0.5)
最终METEOR指标计算
CIDEr
CIDEr (Consensus-based Image Description Evaluation)一种基于文本相似度的评估指标,通常用于图像描述的评估。CIDEr 考虑了多个参考译文之间的差异,可以更好地反映机器翻译结果与多个参考译文之间的相似度。首先将 n-grams 在参考译文中出现的频率编码进来,通过TF-IDF 计算每个 n-gram 的权重,将句子用 n-gram 表示成向量的形式,然后计算参考译文和候选译文之间的 TF-IDF 向量余弦距离,以此度量二者的相似性。
- 计算
对所有n-gram计算tf-idf:第一项为tf,表示n-gram $w_k$的词频;第二项为idf,分子为所有图像总数量,分母为参考中出现对$w_k$应的图像的数量。句子中所有n-grams组成的向量为tf-idf向量
译文和参考tf-idf之间的余弦距离(参考有m个句子)
使用多种长度的n-gram
- 优缺点:以上三种指标都是针对机器翻译提出的,而CIDEr是针对image caption提出的,更符合人类在评价描述的感受
TER
TER(Translation Edit Rate):一种编辑距离算法,用来衡量机器翻译结果与参考译文之间的编辑距离。TER 分数越低,表示机器翻译结果越好。与 BLEU 不同,TER 考虑了翻译中的错译和漏译等问题。
NIST
NIST(National Institute of Standards and Technology):一种基于 n-gram 的评估指标,类似于 BLEU,但是 NIST 使用了加权平均的方式,可以更好地反映长句子的翻译质量。
GLEU
GLEU(Google-BLEU):一种基于 unigram 的评估指标,通常用于机器翻译和语音识别的评估。GLEU 考虑了机器翻译结果与参考译文之间的词汇重叠和顺序等因素,可以更好地反映机器翻译结果的流畅度和自然度。
需要注意的是,机器翻译评测的方法和指标都是相对的,不同的应用场景和语言对评测方法和指标的要求也不同。因此,在进行机器翻译评测时,应该根据具体需求选择合适的方法和指标。
在实际应用中,如何选择合适的评估指标?
在实际应用中,选择合适的评估指标需要考虑以下几个方面:
- 应用场景:不同的应用场景对机器翻译的要求不同,例如机器翻译用于科技文献翻译的要求与用于旅游资讯翻译的要求不同。因此,在选择评估指标时应该结合具体应用场景,选择能够体现翻译质量的指标。
- 语言对:不同语言之间的语法、词汇和语言习惯等方面存在差异,因此在选择评估指标时应该结合具体语言对,选择能够准确反映翻译质量的指标。
- 数据集:评估指标的选择还需要考虑评估数据集的特点,例如数据集的大小、领域分布、语言风格等,这些因素都会影响评估指标的准确性和可靠性。
- 评估目的:评估机器翻译的目的不同,评估指标的选择也会不同。例如,如果是为了比较不同机器翻译系统的性能,可以选择 BLEU、TER、METEOR 等自动评估指标;如果是为了评估机器翻译对于人类用户的实际应用效果,可以选择人工评估指标。
需要注意的是,不同的评估指标都有其优缺点和适用范围,选择评估指标时需要综合考虑各种因素,并根据具体需求进行调整。此外,在评估机器翻译性能时,单一指标并不能完全反映机器翻译的质量,应该结合多种评估指标进行综合评估。
标签:BLEU,评测,机器翻译,指标,gram,译文,评估 From: https://www.cnblogs.com/zhangxuegold/p/17523624.html