首页 > 其他分享 >NLP论文速读(MetaMetrics)|使用人类偏好校准生成任务的度量

NLP论文速读(MetaMetrics)|使用人类偏好校准生成任务的度量

时间:2024-12-16 12:30:43浏览次数:5  
标签:分数 NLP 速读 人类 指标 偏好 MetaMetrics METAMETRICS 评估

论文速读|METAMETRICS: CALIBRATING METRICS FOR

GENERATION TASKS USING HUMAN PREFERENCES

论文信息:

简介:

        本文探讨了在自然语言处理(NLP)和其他生成任务中,如何评估模型输出的质量以确保其与人类偏好一致。传统的评估指标(如BLEU分数)往往不能全面捕捉语言的多样性和复杂性,导致评估结果与人类判断不一致。随着技术的进步,如强化学习与人类反馈(RLHF)的结合,确保生成输出与人类偏好一致变得越来越重要。然而,现有的评估指标通常在特定领域表现良好,但在其他领域则不尽如人意。因此,需要一种新的方法来系统地校准指标,使其更符合人类偏好。

        本文的动机是基于以下几点:传统的评估指标(如BLEU和BERTScore)在某些情况下无法准确反映生成内容的质量。随着NLP任务的复杂性增加,需要一种更灵活和可扩展的评估方法。人类偏好的多样性和复杂性要求评估指标能够捕捉多个维度的质量。现有指标的参数化和实现多样性导致评估结果的不一致性。

论文方法:

        本文提出了一种名为METAMETRICS的元指标(meta-metric),旨在通过结合多个现有指标来优化其与人类偏好的一致性。METAMETRICS通过监督学习的方式,结合多个指标的分数来计算一个元指标分数,该分数与人类偏好评分的对齐程度作为优化目标。该方法包括两个主要部分:指标的标准化和组合以及优化过程

        指标的标准化和组合

        1)指标函数定义:

        定义θi为一个指标函数,将样本输入x映射到分数ˆyi。对于基于参考的指标,数据在x = (xhyp, xref)的上下文中进行评估,其中xhyp和xref分别对应假设文本和参考文本。对于无参考的指标,仅使用xhyp。

        2)元指标函数:

        定义Φ为计算标量元指标分数ˆyMM的函数。METAMETRICS θMM用于计算目标值ρ(ˆyMM, z),其中ρ是衡量与z ∈ R(人类偏好评分)对齐程度的函数。

        优化过程

        1)目标函数:

        目标是校准θMM,以最大化目标校准函数ρ(ˆyMM, z),其中z表示人类评估分数。

        2)权重学习:

        通过学习每个指标的权重wi来最大化ρ(ˆyMM, z)。每个指标的分数范围可能不同,因此需要标准化这些指标到一个共同的0到1的尺度。

        3)优化方法:

        本文使用贝叶斯优化(BO)和提升方法(Boosting)来训练METAMETRICS。BO通过构建一个高斯过程(GP)的后验分布来优化函数,而提升方法通过迭代剪枝来提高效率。

论文实验:

        根据Table 1的内容,本文的实验部分主要集中在评估METAMETRICS在文本摘要任务上的表现。

        METAMETRICS表现:METAMETRICS在所有评估指标中表现最佳,超过了包括所有集成模型和最佳自动指标在内的所有基线模型。

        具体指标对比:

        BLEU:在连贯性、一致性和流畅性方面的Kendall相关系数分别为0.110、0.126和0.113,平均相关系数为0.157。

        BERTScore (f1):在相关性方面的Kendall相关系数为0.181,平均相关系数为0.172。

        LLM-based Metrics:如BARTScore和UniEval等基于大型语言模型的指标也表现出较好的相关性。

        METAMETRICS-SUM:使用高斯过程(GP)和XGBoost方法的METAMETRICS在所有指标中表现最佳,特别是在结合LLM-based Metrics时,Kendall相关系数达到了0.609。

论文链接:

https://arxiv.org/pdf/2410.02381

标签:分数,NLP,速读,人类,指标,偏好,MetaMetrics,METAMETRICS,评估
From: https://blog.csdn.net/2401_85576118/article/details/144499644

相关文章