开局一段扯，数据全靠编？真被一篇“神论文”气到了

时间：2023-07-25 19:32:10浏览次数：138

文 | 苏剑林（追一科技）
编 | 智商掉了一地
看来以后我们看论文的时候，不仅要关心论文成绩的可复现性，还要留意它们的求和、均值、方差等有没有算错，否则真的是“无奇不有”！！

这篇文章谈一下笔者被前几天出来的一篇“神论文”气到了的经历。

这篇“神论文”是 《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》 ，论文的大致内容是说目前很多排行榜算平均都用算术平均，而它认为几何平均与调和平均更加合理。最关键是它还对GLUE、SuperGLUE等榜单上的模型用几何平均和调和平均重新算了一下排名，结果发现那些超过人类的模型在新的平均方案下都没超过人类了。

看上去是不是觉得挺有意思的？我也觉得挺有意思的，所以打算写一篇文章介绍一下它。结果文章快写完了，然后在对数据的时候，发现里边表格的数据全是乱来的！！！真实的结果完全不支撑它的结论！！！所以，这篇文章就从“表扬大会”变成了“批评大会”...

论文标题：
How not to Lie with a Benchmark: Rearranging NLP Leaderboards

论文链接：
https://arxiv.org/abs/2112.01342

胡说八道

首先我们来请出“神论文”的第一个表格，它是关于GLUE榜单上的部分成绩：

咱别的不说，这篇“神论文”表格里边的“,”（半角逗号）和“.”（小数点）不分，也是够让人恶心的了（下面SuperGLUE的表格更甚）。不过要只是这种小问题，那忍忍也就算了，最不可忍的是：它里边的AH（算术平均）、GM（几何平均）、HM（调和平均）的计算规则简直是“随心所欲”！

我试了很久，终于试出了该表格的计算规则：

所有的AH都是用前10个任务的成绩算出来的（虽然上表只显示了前8个任务的成绩）；
Human那一行的GM、HM用的是前10个任务的成绩来算的；
其他行的模型的GM、HM是用全部11个任务的成绩来算的。

由于第11个任务的成绩比其他任务要低，所以这样算出来的模型的GM、HM就比Human的更低，作者就直接得出了在GM、HM之下，人类成绩还是第一名的结论。事实上，如果大家都用同一批任务算，那么AM、GM、HM排名基本无差别。况且，数学思维稍微正常的人都可以看出上述结果的不妥之处：不少任务上模型成绩都远超Human，少数任务上模型不如Human，但也只是低一点点，所以只要是一种正常的平均算法，都不可能得出Human远超模型的结论吧？偏偏作者也就信了...

同样的错误还出现在SuperGLUE上：

它的计算规则为：

所有的AH都是用前8个任务的成绩算出来的；
所有GM、HM是用全部10个任务的成绩来算的。

事实上，如果AM也用10个任务的成绩来算，那么按照AM排名人类也是第一名。也就是说，只要大家的计算标准一样，那么AM、GM、HM排名并无太大差别。

真心无奈

顺便说，这篇论文还中了NeurIPS 2021的Workshop，虽然Workshop通常都是远不如正式论文，但也不至于乱七八糟到这个程度吧。再看一眼这篇论文的标题，我觉得是不是改为“How not to Lie with this paper”更适合？

看来以后我们看论文的时候，不仅要关心论文成绩的可复现性，还要留意它们的求和、均值、方差等有没有算错～真的是什么奇葩可能性都会存在～

标签：开局,论文,气到,任务,Human,HM,GM,成绩,全靠
From： https://blog.51cto.com/xixiaoyao/6848552

上月成功拿到字节跳动offer，全靠我啃烂了这份最新面试题
前言不论是校招还是社招都避免不了各种面试、笔试，如何去准备这些东西就显得格外重要。不论是笔试还是面试都是有章可循的，我这个“有章可循”说的意思只是说应对技术面试是可以提前准备，所谓不打无准备的仗就是这个道理，以下为大家，描述了从面试准备到最后的拿到offer提供了非常详细的......
上月成功拿到字节跳动offer，全靠我啃烂了这份最新面试题
前言不论是校招还是社招都避免不了各种面试、笔试，如何去准备这些东西就显得格外重要。不论是笔试还是面试都是有章可循的，我这个“有章可循”说的意思只是说应对技术面试是可以提前准备，所谓不打无准备的仗就是这个道理，以下为大家，描述了从面试准备到最后的拿到offer提供了非常......
【隐写】开局一张图，啥也看不出
最近遇到一个CTF题目，上面就一张图片是什么？啥都看不出来。今天来看一下CTF图片隐写题目，在图片里面隐藏一些不为人知的flag呢？本次实验的地址为：《CTFStegano练习之隐写6》。首先来看题目。在实验主机上的C:\Stegano\6目录下提供了pic1.jpg以及pic2.jpg两个文件，请对这两文件进行分析，找......
欢迎词页面的欢迎词水平垂直居中，全靠chatGPT
1.问题描述前台欢迎词要求支持竖屏。2.问题解决问chatGPT3.源代码<HTML><HEAD><styletype="text/css">body{/*适应安卓程序*/background:rgb(246,248......
DASCTF Apr.2023 X SU战队2023开局之战 pwn
DASCTFApr.2023XSU战队2023开局之战pwnfour漏洞是2.23的sspleak和未初始化漏洞主要的难点就是分析程序而且题中有一些干扰选项保护程序分析主函数有4个选项1：是干扰的选项(因为会关闭标准错位流，那就没法打sspleak)2：这个函数中有一个未初始化漏洞3：就是在这个函数......
web: pdf_converter | DASCTF Apr.2023 X SU战队2023开局之战
题目内容这道题是给源码的，是个thinkphp项目，可以直接看看控制器就一个pdf方法，用了dompdf库，然后把用户传入的content写到pdf中。既然这么明显，那就搜索dompdf漏洞知识点首先看到：https://ghostasky.github.io/2022/03/19/dompdf/首先看到这里说，如果传入自定义的c......
卧龙苍天陨落开局黑屏解决办法
卧龙苍天陨落开局黑屏解决办法卧龙苍天陨落这款游戏在3月3日正式进行发售，但是游戏的一些方面出现了问题，很多的玩家在进入游戏时出现了黑屏的情况，这个问题很多的玩家都解决......
用溪流 WarKey 辅助红警开局快捷操作
背景自从发现红警除了ddraw补丁可以在最新的系统里玩后，就开始怀旧了。但是由于手残，遇到别人抢地盘基本上直接崩了。偶然有一次发现像08这样的高手点30个坦克使用工......
开局一张图，构建神奇的 CSS 效果
假设，我们有这样一张Gif图：利用CSS，我们尝试来搞一些事情。图片的GlitchArt风在这篇文章中--CSS故障艺术，我们介绍了利用混合模式制作一种晕眩感觉的视觉效果。......
开局一张图，构建神奇的 CSS 效果
假设，我们有这样一张Gif图：利用CSS，我们尝试来搞一些事情。图片的GlitchArt风在这篇文章中--CSS故障艺术，我们介绍了利用混合模式制作一种晕眩感觉的视觉效果。有......

开局一段扯，数据全靠编？真被一篇“神论文”气到了

胡说八道

真心无奈

相关文章

赞助商

阅读排行