首页 > 其他分享 >机器翻译 | 机器翻译评测指标

机器翻译 | 机器翻译评测指标

时间:2023-07-03 18:11:05浏览次数:34  
标签:BLEU 评测 机器翻译 指标 gram 译文 评估

机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。 事实上,在科学研究和工业界的任何一个领域,如果提出一个新的算法并声称其具有良好的性能,都需要使用某种通用的、被广泛承认的评价标准为这个算法 “打分” 。这个分数不仅要体现出该算法是好的,而且要求能够体现出与其他算法相比,该算法能够好到什么程度。与其他的评测任务面对的对象不同,机器翻译所处理的对象―语言―本身存在某种程度的歧义,无法像数学公式或者物理模型那样简单客观地描述出来,这使得为机器翻译结果进行客观的打分变得非常困难。

BLEU

BLEU(Bilingual Evaluation Understudy)基于n-gram的精度度量。一种基于 n-gram 的评估指标,用来衡量机器翻译结果与参考译文之间的相似度。BLEU 分数越高,表示机器翻译结果越好。在最初的机器翻译上需要考虑准确率(不能将一些重要词汇预测错误,例如将狗翻译成人,如unigram)和流畅性(是不是正常的句子,体现在高阶的gram)。

  • 计算
    译文与参考的n-gram匹配程度

    由于短句的分数通常高于长句,因此引入短句惩罚因子B P BPBP

  • 优缺点:但是BLEU只关注准确率Precision(译文中有多少在参考中出现了),而没有考虑召回率(参考中有多少译文中没有翻译到),此外尽管公式中有对短句子的惩罚,但是在实践中还是普遍认为BLEU更喜欢短句。BLEU 评价缺陷是不能很好地反映句子的流畅度和语言的自然度。

ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)与BLEU的计算方式类似,都是基于n-gram,只是ROUGE只考虑了召回率Recall。通常用于自动文摘和机器翻译的评估,可以更好地反映机器翻译结果的完整性和准确性。

  • 计算
    在实验中一般使用ROUGE_L,是基于最长公共子序列的F值
  • 优缺点:因为神经网络机器翻译很容易生成流畅的句子,但是内容的正确性难以保证(例如凭空出现什么东西),所以用召回率来限制翻译的句子是不是正确。

METEOR

METEOR(Metric for Evaluation of Translation with Explicit ORdering)一种基于 n-gram 的评估指标,与 BLEU 类似,但是 METEOR 在计算翻译结果与参考译文之间的相似度时,还考虑了单词重叠和词形变化等问题,因此相对于 BLEU 更加准确。主要是考虑到有些翻译可能正确的,只是没有对上译文的情况,考虑了同义词和词性,用wordnet扩充了同义词集。在评价流畅性方面,使用了chunk的概念,将位于生成的句子中相邻位置,且在参考句子中也位于相邻位置的词称为一个块,这样n-gram越长,组成的块的数量越少,惩罚项越小。

  • 计算:在计算上,考虑了准确率和召回率,使用F值作为评价指标

    计算惩罚系数(一般 $\gamma$取0.5,$\theta$取3,惩罚系数Penalty最大取0.5)

    最终METEOR指标计算

CIDEr

CIDEr (Consensus-based Image Description Evaluation)一种基于文本相似度的评估指标,通常用于图像描述的评估。CIDEr 考虑了多个参考译文之间的差异,可以更好地反映机器翻译结果与多个参考译文之间的相似度。首先将 n-grams 在参考译文中出现的频率编码进来,通过TF-IDF 计算每个 n-gram 的权重,将句子用 n-gram 表示成向量的形式,然后计算参考译文和候选译文之间的 TF-IDF 向量余弦距离,以此度量二者的相似性。

  • 计算
    对所有n-gram计算tf-idf:第一项为tf,表示n-gram $w_k$的词频;第二项为idf,分子为所有图像总数量,分母为参考中出现对$w_k$应的图像的数量。句子中所有n-grams组成的向量为tf-idf向量

    译文和参考tf-idf之间的余弦距离(参考有m个句子)

    使用多种长度的n-gram
  • 优缺点:以上三种指标都是针对机器翻译提出的,而CIDEr是针对image caption提出的,更符合人类在评价描述的感受

TER

TER(Translation Edit Rate):一种编辑距离算法,用来衡量机器翻译结果与参考译文之间的编辑距离。TER 分数越低,表示机器翻译结果越好。与 BLEU 不同,TER 考虑了翻译中的错译和漏译等问题。

NIST

NIST(National Institute of Standards and Technology):一种基于 n-gram 的评估指标,类似于 BLEU,但是 NIST 使用了加权平均的方式,可以更好地反映长句子的翻译质量。

GLEU

GLEU(Google-BLEU):一种基于 unigram 的评估指标,通常用于机器翻译和语音识别的评估。GLEU 考虑了机器翻译结果与参考译文之间的词汇重叠和顺序等因素,可以更好地反映机器翻译结果的流畅度和自然度。

需要注意的是,机器翻译评测的方法和指标都是相对的,不同的应用场景和语言对评测方法和指标的要求也不同。因此,在进行机器翻译评测时,应该根据具体需求选择合适的方法和指标

在实际应用中,如何选择合适的评估指标?

在实际应用中,选择合适的评估指标需要考虑以下几个方面:

  1. 应用场景:不同的应用场景对机器翻译的要求不同,例如机器翻译用于科技文献翻译的要求与用于旅游资讯翻译的要求不同。因此,在选择评估指标时应该结合具体应用场景,选择能够体现翻译质量的指标。
  2. 语言对:不同语言之间的语法、词汇和语言习惯等方面存在差异,因此在选择评估指标时应该结合具体语言对,选择能够准确反映翻译质量的指标。
  3. 数据集:评估指标的选择还需要考虑评估数据集的特点,例如数据集的大小、领域分布、语言风格等,这些因素都会影响评估指标的准确性和可靠性。
  4. 评估目的:评估机器翻译的目的不同,评估指标的选择也会不同。例如,如果是为了比较不同机器翻译系统的性能,可以选择 BLEU、TER、METEOR 等自动评估指标;如果是为了评估机器翻译对于人类用户的实际应用效果,可以选择人工评估指标。

需要注意的是,不同的评估指标都有其优缺点和适用范围,选择评估指标时需要综合考虑各种因素,并根据具体需求进行调整。此外,在评估机器翻译性能时,单一指标并不能完全反映机器翻译的质量,应该结合多种评估指标进行综合评估。

标签:BLEU,评测,机器翻译,指标,gram,译文,评估
From: https://www.cnblogs.com/zhangxuegold/p/17523624.html

相关文章

  • 清华发布 KoLA 评测集,分4个认知层级评测LLM,GPT-4竟不是第一?
    作者|Python预训练语言模型(PLM)刷GLUE,SuperGLUE,甚是常见;那ChatGPT等大语言模型(LLM)刷什么榜呢?现在常用的榜单,例如MMLU评测了57个学科知识,Big-Bench评测204个推理任务。而这次,清华大学提出KoLA评测基准,从掌握和利用世界知识的角度,衡量大语言模型的表现。KoLA基于19个关注实体、概念......
  • 云评测
    最近我对进行了使用和评测,发现它是一家非常出色的云服务提供商。首先,我试用了他们的免费虚拟主机,这是一个非常不错的选择,因为它可以提供高效的性能,而且非常稳定。在使用的过程中,我发现他们的界面非常友好,操作简单易懂,同时提供了非常丰富的功能和选项,可以帮助用户实现不同的需求。......
  • 深度学习 训练模型 指标不变
    在深度学习实验中遇到一个问题就是虽然loss有变化,但是在验证集中准确率一直没变,且值接近你的验证集的正负样本比例。这是因为,在模型中某一个位置使用看ReLU激活函数,导致值全都变换到了非负数,再最后用sigmoid的时候全是>0.5的结果。还有一种情况就是loss一直不变,这类情况说明反......
  • MATLAB代码:分布式最优潮流 本文以全局电压的低成本快速控制为目标,提出基于电气距离和
    MATLAB代码:分布式最优潮流关键词:网络划分;分布式光伏;集群电压控制;分布式优化;有功缩减参考文档:《含分布式光伏的配电网集群划分和集群电压协调控制》仿真平台:MATLAB主要内容:本文以全局电压的低成本快速控制为目标,提出基于电气距离和区域电压调节能力的集群综合性能指标和网络划分......
  • 磁盘I/O性能监控的指标
    服务器硬盘是磁盘资源中最慢的组件,在企业数据中心,注意仔细设计存储子系统,不要让它成为主要性能瓶颈,而最理想的办法是使用SAN,即使预算不允许,也要想办法确保磁盘资源争用不会导致虚拟机(VM)瘫痪。首先应将宿主操作系统安装到专用硬盘上,注意不是专用卷,确保宿主操作系统不会与虚拟机抢夺......
  • Taurus .Net Core 微服务开源框架:Admin 插件【3】 - 指标统计管理
    前言:继上篇:Taurus.NetCore微服务开源框架:Admin插件【2】-系统环境信息管理本篇继续介绍下一个内容:1、系统指标节点:Metric- API 界面界面图如下:1、简要说明:数据查看:该页面默认呈现API访问次数的统计,由于要显示的数据列有点多,24小时,因此用了全屏显示。同时提供快捷......
  • 使用评价指标工具
    评估一个训练好的模型需要评估指标,比如正确率、查准率、查全率、F1值等。当然不同的任务类型有着不同的评估指标,而HuggingFace提供了统一的评价指标工具。1.列出可用的评价指标通过list_metrics()函数列出可用的评价指标:deflist_metric_test():#第4章/列出可用的评价指标......
  • 使用评价指标工具
    评估一个训练好的模型需要评估指标,比如正确率、查准率、查全率、F1值等。当然不同的任务类型有着不同的评估指标,而HuggingFace提供了统一的评价指标工具。1.列出可用的评价指标通过list_metrics()函数列出可用的评价指标:def list_metric_test():    # 第4章/列出可用的评......
  • 二十三、区块量化 TD指标
    #!/usr/bin/envpython#-*-coding:utf-8-*-importtalibimportcross_orderasorderimporttimedefTDSequential(close):tdlist=[0,0,0,0]#tdlist是存储TD结果用的,前4个无效用0占位置.因为TD定义是下标第n和n-4比较top=0#初始化上标bot=0#初......
  • 芝奇幻锋戟Z5 RGB DDR5-7200 24GB内存评测:稳上7800MHz、温度只有56度
    一、前言:7200MHzCL36高频内存仅需1.35V电压在DDR4年代,三星B-Die是当之无愧的超频王者,而今DDR5已然成为主流,大家公认的最好超频的颗粒是SK海力士A-Die。但并不是每一款采用了海力士A-Die颗粒的内存条都会有强悍的超频能力,这涉及到内存的电路设计、容量、散热设计等因素。比如不......