论文速读|METAMETRICS: CALIBRATING METRICS FOR
GENERATION TASKS USING HUMAN PREFERENCES
论文信息:
简介:
本文探讨了在自然语言处理(NLP)和其他生成任务中,如何评估模型输出的质量以确保其与人类偏好一致。传统的评估指标(如BLEU分数)往往不能全面捕捉语言的多样性和复杂性,导致评估结果与人类判断不一致。随着技术的进步,如强化学习与人类反馈(RLHF)的结合,确保生成输出与人类偏好一致变得越来越重要。然而,现有的评估指标通常在特定领域表现良好,但在其他领域则不尽如人意。因此,需要一种新的方法来系统地校准指标,使其更符合人类偏好。
本文的动机是基于以下几点:传统的评估指标(如BLEU和BERTScore)在某些情况下无法准确反映生成内容的质量。随着NLP任务的复杂性增加,需要一种更灵活和可扩展的评估方法。人类偏好的多样性和复杂性要求评估指标能够捕捉多个维度的质量。现有指标的参数化和实现多样性导致评估结果的不一致性。
论文方法:
本文提出了一种名为METAMETRICS的元指标(meta-metric),旨在通过结合多个现有指标来优化其与人类偏好的一致性。METAMETRICS通过监督学习的方式,结合多个指标的分数来计算一个元指标分数,该分数与人类偏好评分的对齐程度作为优化目标。该方法包括两个主要部分:指标的标准化和组合以及优化过程。
指标的标准化和组合
1)指标函数定义:
定义θi为一个指标函数,将样本输入x映射到分数ˆyi。对于基于参考的指标,数据在x = (xhyp, xref)的上下文中进行评估,其中xhyp和xref分别对应假设文本和参考文本。对于无参考的指标,仅使用xhyp。
2)元指标函数:
定义Φ为计算标量元指标分数ˆyMM的函数。METAMETRICS θMM用于计算目标值ρ(ˆyMM, z),其中ρ是衡量与z ∈ R(人类偏好评分)对齐程度的函数。
优化过程
1)目标函数:
目标是校准θMM,以最大化目标校准函数ρ(ˆyMM, z),其中z表示人类评估分数。
2)权重学习:
通过学习每个指标的权重wi来最大化ρ(ˆyMM, z)。每个指标的分数范围可能不同,因此需要标准化这些指标到一个共同的0到1的尺度。
3)优化方法:
本文使用贝叶斯优化(BO)和提升方法(Boosting)来训练METAMETRICS。BO通过构建一个高斯过程(GP)的后验分布来优化函数,而提升方法通过迭代剪枝来提高效率。
论文实验:
根据Table 1的内容,本文的实验部分主要集中在评估METAMETRICS在文本摘要任务上的表现。
METAMETRICS表现:METAMETRICS在所有评估指标中表现最佳,超过了包括所有集成模型和最佳自动指标在内的所有基线模型。
具体指标对比:
BLEU:在连贯性、一致性和流畅性方面的Kendall相关系数分别为0.110、0.126和0.113,平均相关系数为0.157。
BERTScore (f1):在相关性方面的Kendall相关系数为0.181,平均相关系数为0.172。
LLM-based Metrics:如BARTScore和UniEval等基于大型语言模型的指标也表现出较好的相关性。
METAMETRICS-SUM:使用高斯过程(GP)和XGBoost方法的METAMETRICS在所有指标中表现最佳,特别是在结合LLM-based Metrics时,Kendall相关系数达到了0.609。
论文链接:
https://arxiv.org/pdf/2410.02381
标签:分数,NLP,速读,人类,指标,偏好,MetaMetrics,METAMETRICS,评估 From: https://blog.csdn.net/2401_85576118/article/details/144499644