首页 > 其他分享 >全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

时间:2023-07-25 22:32:19浏览次数:50  
标签:评测 55 44 指标 workshop NLG 数据 GEM


全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!_自然语言处理

文 | 小轶

(大家好,我是已经鸽了夕总仨月没写文章了的小轶(yì)!新的一年一定改过自新,多读paper多写稿,望广大读者敦促(ง •̀_•́)ง)

今天要和大家分享的是卖萌屋学术站上的本月最热paper。何以最热,看它头上顶了多少大厂tag大概就知道了:


全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!_自然语言处理_02

点开paper以后,小铁我更是直呼好家伙.....


全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!_自然语言处理_03

超长author list——55位作者众星云集,来自共计全球44家不同机构。并且,在paper末尾更是花了近两页纸的篇幅详细记录每一位作者的贡献。足见项目之庞大,工作量之大。

这个集结了这么多各地大佬的神仙项目,致力于打造一个最强自然语言生成(NLG)评测基准——GEM。同名ACL 2021 workshop正在征稿,workshop的目标亦在于进一步强化完善GEM的评测体系。不出意外的话,GEM未来很可能成为NLG community中主流认可的评测基准。

论文题目
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

论文链接:
https://arxiv.org/pdf/2102.01672.pdf

项目主页
https://gem-benchmark.com/

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0301】 下载论文PDF~

NLG评测困境

NLG评测一直以来都存在诸多困难。我们可以从数据集评测指标两方面来总结一下。

首先是 数据集 。一方面是数据集的易用性。作者提倡每个数据集都配有一张Data Card,清晰地说明它的任务、语言、数据格式、潜在问题和局限性等等 [1]。另一方面是数据集的研究意义。随着NLG技术的不断发展,一些早期提出的数据集已经能够被很好地解决了。相应地,继续在这样的数据集上进行评测就意义不大了,不能因为这个数据集citation高就坚持用它。而那些真正具有进一步研究意义的数据集应该被加以更多的重视。

除了数据集,还有就是 评测指标 的问题。大家其实都知道BLEU、ROUGE等传统自动化指标的评测是不全面的。模型的更多特性,例如公平性、安全性、鲁棒性等等,都不能够通过它们准确度量。但大家还是用得义无反顾,因为测试成本低,也便于和prior works比较。当然,人工评测是一种解决办法。但人工毕竟成本高昂。另一个比较大的问题就是人工评测存在难以复现、标准不统一的问题。

那么,究竟哪些数据集是当前NLG领域最具代表性研究意义的?又应该采用哪些评测指标呢?

GEM的提出就意在解决上述两个问题。显然,这两个问题的答案是有时效性的。随着NLG技术的发展、新的数据集和评测指标的不断提出,问题的答案自然也会相应变化。所以,作者在论文中一再强调:GEM是一个将会不断更新的“活”基准(living benchmark)

GEM的作者团队已经根据NLG领域当前的发展现状,初步探讨了GEM_1.0版本应该包含的数据集和评测指标。同时,更是为之举办了同名ACL workshop,邀请NLG community的同僚们对GEM进行测评,并提出完善建议。

GEM的数据集

为了确定GEM应该包含哪些数据集,作者团队精挑细选,经历了一个漫长的讨论过程。首先由作者团队中每个人提议若干数据集作为候选。然后,在团队中进行问卷调查,并不断讨论,确立了一系列数据集挑选准则,例如:

  • 所选数据集应覆盖多个NLG代表性任务
  • 所选数据集应覆盖多语种
  • multi-reference者优先
  • high-resource和low-resource的数据集应同时兼具
  • .....

最后,团队成员根据挑选准则为候选数据集打分。其中11个数据集脱颖而出,有幸得到了GEM_1.0官方盖章。


全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!_自然语言处理_04

▲GEM的11个数据集

为了进一步提高所选数据集的质量,作者团队对其中多个数据集进行了清洗和加工,并为每一个数据集配上Data Card,说明它针对的任务、语言、数据格式和局限性等等。

GEM的评测指标

由于workshop还在征稿,GEM的测试集细节和评测指标并没有完全披露。目前已公布的自动化评测指标如下图所示。


全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!_timezone_05

▲GEM已经公布的评测指标

其中,在语义相似度方面,GEM推荐了两个较新的指标——BERTScore[2]和BLEURT[3],分别发表于ICLR'20和ACL'20,都是基于预训练模型构建的。作者认为,GEM的存在能够快速推广新的、更有效的评测指标,解决研究者们总是停滞于使用早期指标的问题。

除此之外,GEM workshop举办后,将公布一些系统在测试集上的输出和相应的人工评测结果。这些数据可以用于研究与人工评测结果一致性更高的新指标

小结与感想

为解决NLG评测困境,55位大佬联合打造NLG评测基准GEM,收录了当今NLG领域最具代表性的11个数据集和多个评测指标。除了评测NLG系统,GEM亦可用于支持新的自动化评测指标研究。

标签:评测,55,44,指标,workshop,NLG,数据,GEM
From: https://blog.51cto.com/xixiaoyao/6851020

相关文章

  • 【d2l 问题记录】【1】 视频55 从零实现rnn
    H,=state这句代码我真是看懵逼了。1元组的打包和解包左边的参数数量要和右边元组里的元素数量一致参考:https://docs.python.org/3/tutorial/datastructures.html#tuples-and-sequences2单元素元组的打包和解包参考:https://blog.csdn.net/Aaron_neil/article/details/......
  • 1-44全取44-72等间隔
    间隔1间隔2间隔4监督角度25.6273距离3.1385      间隔82.846227.6240      ......
  • [Leetcode Weekly Contest]355
    链接:LeetCode[Leetcode]6921.按分隔符拆分字符串给你一个字符串数组words和一个字符separator,请你按separator拆分words中的每个字符串。返回一个由拆分后的新字符串组成的字符串数组,不包括空字符串。注意separator用于决定拆分发生的位置,但它不包含在结果字符串......
  • 844. 走迷宫
    题目给定一个$n×m$的二维整数数组,用来表示一个迷宫,数组中只包含$0$或$1$,其中$0$表示可以走的路,$1$表示不可通过的墙壁。最初,有一个人位于左上角$(1,1)$处,已知该人每次可以向上、下、左、右任意一个方向移动一个位置。请问,该人从左上角移动至右下角$(n,m)$处,至少需......
  • CVE-2022-24481
    一、漏洞信息CVE-2022-24481是发生在CLFS驱动中的一个类型混淆漏洞,通过精巧的对blf文件的部分数据进行构造,可使LogBlockHeader中的ClientContextOffset指向ContainContext,从而造成类型混淆。二、测试环境及漏洞复现测试环境POC:4c1579c6a14bb8f3985be8a1a83c731c靶机:win10......
  • 【雕爷学编程】Arduino动手做(55)--DHT11温湿度传感器模块3
    37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里准备逐一动手尝试系列实验,不管成功(程序走通)与否,都会记录下来—小小的进步或是搞......
  • 【雕爷学编程】Arduino动手做(55)--DHT11温湿度传感器模块2
    37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里准备逐一动手尝试系列实验,不管成功(程序走通)与否,都会记录下来—小小的进步或是搞......
  • JVAA springboot 项目启动后,localhost加端口可以访问,但是外网IP不行// OCPP KYOHOON
     现象javaspringboot项目启动后,localhost(或127.0.0.1)加端口可以访问,但是使用外网IP却无法访问。   原因及解决方法springboot的配置文件(yml或properties)中缺少server.address的设置。解决方法:在springboot的配置文件中增加server.address的配置。yml配......
  • 【大联盟】20230706 Interesting DS Problem(interesting) QOJ2559 【Endless Road】
    题目描述here。题解首先,我们对所有区间离散化,删除一个区间时,我们暴力删除内部还存在的子区间。如果没有区间包含是好做的,因为我们删除一个子区间时,将区间按照左端点排序,可发现包含这个子区间的区间是连续的一个区间。现在考虑有区间包含怎么做。我们考虑维护出当前所有不包含......
  • 555定时器组成的单稳态触发器
     555定时器是一种模拟和数字功能相结合的中规模集成器件。一般用双极型(TTL)工艺制作的称为555,用互补金属氧化物(CMOS)工艺制作的称为7555,除单定时器外,还有对应的双定时器556/7556。555定时器的电源电压范围宽,可在4.5V~16V工作,7555可在3~18V工作,输出驱动电流约为......