NLP论文速读（MetaMetrics）|使用人类偏好校准生成任务的度量

时间：2024-12-16 12:30:43浏览次数：5

标签：分数 NLP 速读人类指标偏好 MetaMetrics METAMETRICS 评估

论文速读|METAMETRICS: CALIBRATING METRICS FOR

GENERATION TASKS USING HUMAN PREFERENCES

论文信息：

简介：

本文探讨了在自然语言处理（NLP）和其他生成任务中，如何评估模型输出的质量以确保其与人类偏好一致。传统的评估指标（如BLEU分数）往往不能全面捕捉语言的多样性和复杂性，导致评估结果与人类判断不一致。随着技术的进步，如强化学习与人类反馈（RLHF）的结合，确保生成输出与人类偏好一致变得越来越重要。然而，现有的评估指标通常在特定领域表现良好，但在其他领域则不尽如人意。因此，需要一种新的方法来系统地校准指标，使其更符合人类偏好。

本文的动机是基于以下几点：传统的评估指标（如BLEU和BERTScore）在某些情况下无法准确反映生成内容的质量。随着NLP任务的复杂性增加，需要一种更灵活和可扩展的评估方法。人类偏好的多样性和复杂性要求评估指标能够捕捉多个维度的质量。现有指标的参数化和实现多样性导致评估结果的不一致性。

论文方法：

本文提出了一种名为METAMETRICS的元指标（meta-metric），旨在通过结合多个现有指标来优化其与人类偏好的一致性。METAMETRICS通过监督学习的方式，结合多个指标的分数来计算一个元指标分数，该分数与人类偏好评分的对齐程度作为优化目标。该方法包括两个主要部分：指标的标准化和组合以及优化过程。

指标的标准化和组合

1）指标函数定义：

定义θi为一个指标函数，将样本输入x映射到分数ˆyi。对于基于参考的指标，数据在x = (xhyp, xref)的上下文中进行评估，其中xhyp和xref分别对应假设文本和参考文本。对于无参考的指标，仅使用xhyp。

2）元指标函数：

定义Φ为计算标量元指标分数ˆyMM的函数。METAMETRICS θMM用于计算目标值ρ(ˆyMM, z)，其中ρ是衡量与z ∈ R（人类偏好评分）对齐程度的函数。

优化过程

1）目标函数：

目标是校准θMM，以最大化目标校准函数ρ(ˆyMM, z)，其中z表示人类评估分数。

2）权重学习：

通过学习每个指标的权重wi来最大化ρ(ˆyMM, z)。每个指标的分数范围可能不同，因此需要标准化这些指标到一个共同的0到1的尺度。

3）优化方法：

本文使用贝叶斯优化（BO）和提升方法（Boosting）来训练METAMETRICS。BO通过构建一个高斯过程（GP）的后验分布来优化函数，而提升方法通过迭代剪枝来提高效率。

论文实验：

根据Table 1的内容，本文的实验部分主要集中在评估METAMETRICS在文本摘要任务上的表现。

METAMETRICS表现：METAMETRICS在所有评估指标中表现最佳，超过了包括所有集成模型和最佳自动指标在内的所有基线模型。

具体指标对比：

BLEU：在连贯性、一致性和流畅性方面的Kendall相关系数分别为0.110、0.126和0.113，平均相关系数为0.157。

BERTScore (f1)：在相关性方面的Kendall相关系数为0.181，平均相关系数为0.172。

LLM-based Metrics：如BARTScore和UniEval等基于大型语言模型的指标也表现出较好的相关性。

METAMETRICS-SUM：使用高斯过程（GP）和XGBoost方法的METAMETRICS在所有指标中表现最佳，特别是在结合LLM-based Metrics时，Kendall相关系数达到了0.609。

论文链接：

https://arxiv.org/pdf/2410.02381

标签：分数,NLP,速读,人类,指标,偏好,MetaMetrics,METAMETRICS,评估
From： https://blog.csdn.net/2401_85576118/article/details/144499644

NLP界大牛讲Transformer自然语言处理的经典书！，466页pdf及代码
《Transformer自然语言处理实战》本书涵盖了Transformer在NLP领域的主要应用。内容介绍：首先介绍Transformer模型和HuggingFace生态系统。然后重点介绍情感分析任务以及TrainerAPI、Transformer的架构，并讲述了在多语言中识别文本内实体的任务，以及Transformer模型生成......
【NLP 15、深度学习处理文本】
目录一、反向传播编辑1.反向传播运算过程2.前向传播和反向传播的作用前向传播反向传播3.定义模型（torch包）4.手动实现①线性层② sigmoid激活函数③手动实现MSE均方差损失函数④前向传播⑤手动实现梯度计算⑤权重的更新：优化器函数⑥diy模型验证 ⑦手......
python新闻评论情感分析可视化系统 Flask框架 NLP情感分析计算机毕业设计（源码）✅
python新闻评论情感分析可视化系统Flask框架NLP情感分析计算机毕业设计（源码）✅1、项目介绍技术栈：Flask框架、snownlp情感分析、Echarts可视化、NLP情感分析、LDA算法、Kmeans算法新闻评论情感分析可视化系统2、项目界面（1）系统首页（2）主题词汇分析（3）热门新闻分析......
python新闻评论情感分析可视化系统 Flask框架 NLP情感分析计算机毕业设计（源码）✅
python新闻评论情感分析可视化系统Flask框架NLP情感分析计算机毕业设计（源码）✅1、项目介绍技术栈：Flask框架、snownlp情感分析、Echarts可视化、NLP情感分析、LDA算法、Kmeans算法新闻评论情感分析可视化系统2、项目界面（1）系统首页（2）主题词汇分析（3）热门新闻分析......
【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势？
【NLP高频面题-LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势？重要性：⭐⭐⭐......
【人人都能学得会的NLP - 文本分类篇 06】基于 Prompt 的小样本文本分类实践
【人人都能学得会的NLP-文本分类篇06】基于Prompt的小样本文本分类实践NLPGithub项目：NLP项目实践：fasterai/nlp-project-practice介绍：该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验AI藏经阁：https://git......
论文泛读《PICCOLO : Exposing Complex Backdoors in NLP Transformer Models》
发表时间：2022期刊会议：IEEESymposiumonSecurityandPrivacy(SP)论文单位：PurdueUniversity论文作者：YingqiLiu,GuangyuShen,GuanhongTao,ShengweiAn,ShiqingMa,XiangyuZhang方向分类：BackdoorAttack论文链接开源代码摘要后门可以被注入到NLP模型中，使得当......
【人人都能学得会的NLP - 文本分类篇 05】使用LSTM完成情感分析任务
【人人都能学得会的NLP-文本分类篇05】使用LSTM完成情感分析任务NLPGithub项目：NLP项目实践：fasterai/nlp-project-practice介绍：该仓库围绕着NLP任务模型的设计、训练、优化、部署和应用，分享大模型算法工程师的日常工作和实战经验AI藏经阁：https://gitee.com/faste......
【NLP 3、深度学习简介】
列夫托尔斯泰写：“如果你能感受到痛苦，那么你还活着；如果你能感受到他人的痛苦，那么你才是人” ......
【NLP高频面题 - LLM架构篇】旋转位置编码RoPE如何进行外推？
【NLP高频面题-LLM架构篇】旋转位置编码RoPE如何进行外推？重要性：★★★......