首页 > 其他分享 >EMNLP 2022 最佳论文揭晓!这脑洞绝了….

EMNLP 2022 最佳论文揭晓!这脑洞绝了….

时间:2023-04-30 22:02:19浏览次数:54  
标签:2022 EMNLP 模型 抽象 七巧板 这脑 精调 数据 标注

前言

读文章之前,我们先来思考人工智能中一个核心而底层的问题:什么是抽象以及它能够给我们带来什么?

我们这里说的“抽象”是一个认知学上的概念,著名学者 ChatGPT 说:“抽象是指不依赖于具体事物或实例,而是指抽取共同点或基本特征的思维过程。”

在人类智能中,抽象是一个很底层很基本的能力,在某种程度上,可以认为是人类智能的源头之一。因为人在对主客观世界进行观察的过程中,抽象出了无数种概念(concept),对这些概念的模块化(modularity)、组合式(compositionality)的理解,很大程度上刺激了人类语言的诞生,从而最终导致了人类智能、人类文明的产生。

举个例子,万年前的“猴子们”观察了大量的物理对象(object)、实体(entity)以及他们之间的关系(relation)等,逐渐在脑子里面形成了“石头”、“家庭”、“在...之间”、“因果”等概念,经过很长一段时间之后,“猴子们”把这些存在脑海里面的概念用“字”和“词”表示了出来,这些蕴含着抽象概念的字和词经过复杂的、有规则的组合,形成了各种各样的语言,而语言能够表达、演绎、推理一切!就这样,人类智能诞生了~

在认知科学上,七巧板就是这个智能过程的一个简单的重现:七巧板的每个板板就是上面说的一个类似“概念”的存在, 这些代表“概念”的板板模块经过组合,形成了多种多样的形状(shape),而人类如何理解这些形状,又如何理解这些板板,在某种程度上,就是某个人抽象能力的衡量。而抽象能力,就是人类进行推理(reasoning)以及泛化(generalization)的底层能力。

今天介绍的这篇文章荣获了EMNLP 2022 Best Long Paper, 巧妙地借鉴了七巧板这个童年游戏,评估了当前多模态模型的抽象理解能力。可以说,至少在人类级别智能的评测上,推进了一步!

论文标题
Abstract Visual Reasoning with Tangram Shapes

论文链接
https://arxiv.org/pdf/2211.16492.pdf

数据集的构建

首先给大家展示一下童年回忆之七巧板:

EMNLP 2022 最佳论文揭晓!这脑洞绝了…._数据集

一套七巧板由 7 个颜色各异的板板组成,可以根据想法自由组合成各种各种的形状。

这篇论文首先收集了 1004 个七巧板图像,又从七巧板的研究文献中找了另外12种将其扩充到了 1016 个,然后在 Amazon Mechanical Turk 平台上雇了 297 个数据标注员,花了两千多美刀让他们标注了这么两个任务:

  1. 七巧板整体形状的预测:这部分数据集叫做 FULL “This shape as whole looks like ___”
  2. 部分预测:形容某个单独的部分是干啥的,因为细节标注比较密,所以把这部分数据集叫做 DENSE "The part you selected looks like___"

作者还从 DENSE 里面挑出来一些标注不那么密的子集,叫做 DENSE10.

在这个数据集当中,包含了类人形状(比如舞者)、动物形状(比如狗狗)还有物体形状(比如房屋)等等。可以从下面两张图中大概了解长什么样儿~


EMNLP 2022 最佳论文揭晓!这脑洞绝了…._泛化_02

EMNLP 2022 最佳论文揭晓!这脑洞绝了…._泛化_03

▲“头”用七巧板可以怎么展现

数据集质量衡量

看了这些图,不难发现七巧板这个任务过于抽象,对人工数据集构建来说,这就导致了一个关键的问题:不同标注员之间存在较大的主观差异,“你说这是个鸟头,我却说那是个风中的美女头巾”(参考 Figure 1),这样数据集不就乱套了吗?好在作者给出了衡量这类数据集质量的三种指标:

  1. 形状命名差异(shape naming divergence,SND):用来衡量不同标注员进行不同七巧板图像的形状标注时的总体差异;
  2. 部分命名差异(part naming divergence PND):用来衡量不同标注员进行不同七巧板图像的局部标注时的总体差异,计算方式和 SND 大致相同;
  3. 分块分割一致性(part segmentation agreement,PSA):用来衡量不同标注员划分局部时的总体差异,也就是不同的人可能将不同的板板组合划分成某个部分。作者把这个看作是“使用最大权重匹配的线性和分配问题”,并使用成本矩阵计算(快去复习算法[旺柴])

总之这么衡量下来,数据集质量还是不错滴~ 符合真实分布~

具体的计算公式以及得到结论的细节,感兴趣的读者可以移步原文~

多模态模型有抽象能力吗?

作者把构建的数据集叫做 KILOGRAM,主要衡量了两类代表性多模态模型的视觉抽象能力:

  • 以 CLIP 为代表的双塔模型:视觉和语言模态采用不同的 encoder;
  • 以 ViLT 为代表的单塔模型:视觉和语言拼接成一长串输入,喂给同一个 encoder.

1. 任务形式化

给定一个文本描述 和对应的 张图像 , 这个任务是从这些图像当中选择和文本描述相匹配的那一张, . 其中, 是指相似度。

因此总的来说,这就是一个简单的文图匹配(ITM, image-text matching)或分类任务。

2. 输入和输出

图像分成两种形式:作为整体的 "BLACK" 以及局部标注的 "COLOR"

文本分成两种形式:作为整体的 "WHOLE" 以及局部标注的 "PARTS".


EMNLP 2022 最佳论文揭晓!这脑洞绝了…._泛化_04

然后还可以采用一些数据增强的手段:"AUG"

这样,不同的图像-文本形式组合就代表了不同粒度的抽象理解能力。


EMNLP 2022 最佳论文揭晓!这脑洞绝了…._模态_05

3. 模型训练

一共有两种主要的实验设定:

  • PT: 仅使用预训练模型,不精调,以 zero-shot 的方式在 KILOGRAM 上测试;
  • FT: 使用预训练模型,并使用对比训练在 KILOGRAM 精调并测试。

在精调的基础上,还可以进行上文提到的数据增强(AUG)

4. 实验结果


EMNLP 2022 最佳论文揭晓!这脑洞绝了…._模态_06

  1. 仅仅看 zero-shot (i.e., PT)的表现,CLIP略优于ViLT;
  2. 添加局部信息并没有太大的作用,说明预训练模型并不能很好地推理文本和七巧板局部之间的关联;
  3. WHOLE+BLACK 上的 zero-shot 的实验表现说明,预训练模型并不能很好地将熟悉的概念泛化到抽象的形状当中去(它知道现实世界中狗狗是什么样子的,但是并不能将七巧板抽象狗和真实狗狗联系在一起)
  4. 精调可以大幅改进性能;
  5. 在精调设定下,在文本描述中添加局部信息可以提升性能,但是在七巧板图像中添加局部信息并没有用;当两者都提供时,改善很明显。
  6. 在精调设定下的实验结果与人工评测结果规律相似;
  7. 数据增强只对 CLIP 有用,但对 ViLT 没用;
  8. 在PARTS+COLOR条件下,ViLT的表现明显优于人类的平均表现。

一点碎碎念

本篇工作中将传统的童年玩具“七巧板”的概念与多模态模型巧妙关联,用模型理解文本与七巧板图案局部、整体之间的关联,来评估模型的视觉抽象能力。七巧板作为童年益智启蒙玩具,是在人类在视觉认知上对图块与图案之间的分割、组合能力的体现,也正是本文开头提到的认知科学上智能过程中人类进行推理、泛化的底层能力。作为Best Paper,本篇论文无论是从数据集的构建还是实验设计来看,都是非常创新且具备很高的研究价值的工作,也对模型能力在人类智能上的评估有很强的指导意义。

标签:2022,EMNLP,模型,抽象,七巧板,这脑,精调,数据,标注
From: https://blog.51cto.com/xixiaoyao/6238322

相关文章

  • 2022年第一个线上问题,被领导骂惨了!
    hi大家好,我是田哥全职做面试辅导和技术支持的田哥。昨天,一位朋友说他们生产环境出bug了,哎,年底了,今年的年终奖估计凉凉了!这位朋友刚刚出道不久,出了问题,第一时间找的我。他把出问题的代码发我了,叫我帮他review这段代码。for(ProductOrderItemorderItem:orderItemList){if......
  • AntDB数据库再获奖,亚信安慧被评为“2022PostgreSQL中国最佳创新企业”
    “中国PostgreSQL数据库生态大会”由中国开源软件推进联盟PostgreSQL分会&中科院软件所&CSDN联合举办,旨在引入更多技术资源、人才资源及校企合作资源,推进PostgreSQL在各行业和区域的推广与应用能力。本次榜单评选表彰了对PostgreSQL中国生态起到重大推动与贡献作用的企业与技术专家......
  • 多维评测指标解读2022MSU世界编码器大赛结果
    是极致性能,更是最佳商用。19项第一之上,是63%的极致带宽降低近日,2022MSU世界视频编码器大赛成绩正式揭晓。报告显示,阿里媒体处理服务MPS(AlibabaMediaProcessingService)s264及s265编码器共计斩获19项评测第一,相较大赛指定基准编码器(AWSElementalMediaConvert),可再节省高达63......
  • “蔚来杯“2022牛客暑期多校训练营3,签到题CAJHF
    题号标题已通过代码通过率团队的状态AAncestor点击查看1383/3940BBoss点击查看54/734CConcatenation点击查看2603/9404DDirected点击查看62/157EElectrician点击查看18/38FFief点击查看378/2528GGeometry点击查看73/1076HHacker点击查看468......
  • 2022“杭电杯”中国大学生算法设计超级联赛(3)签到题4题
    ProblemsSolvedProblemIDTitleRatio(Accepted/Submitted)1001EquipmentUpgrade33.53%(115/343)1002BossRush13.79%(246/1784)1003CyberLanguage69.82%(1189/1703)1004DividetheSweets3.24%(7/216)1005SpanningTreeGame9.83%(40/407)1006Du......
  • 2022“杭电杯”中国大学生算法设计超级联赛(1)签到题5题
    SolvedPro.IDTitleRatio(Accepted/Submitted)1001String11.88%(125/1052)1002Dragonslayer19.56%(473/2418)1003Backpack14.23%(270/1897)1004Ball15.29%(52/340)1005Grammar12.21%(21/172)1006Travelplan24.18%(22/91)1007Treasure12.93%(38/294)......
  • “蔚来杯“2022牛客暑期多校训练营2,签到题GJK
    题号标题已通过代码通过率团队的状态AFalfawithPolygon点击查看56/445Blight点击查看50/326CLinkwithNimGame点击查看192/1035DLinkwithGameGlitch点击查看831/6211EFalfawithSubstring点击查看264/3287FNIOwithStringGame点击查看52/......
  • “蔚来杯“2022牛客暑期多校训练营1,签到题GADI
    题号标题已通过代码通过率团队的状态AVillages:Landlines点击查看1673/4177通过BSpiritCircleObservation点击查看39/299未通过CGrabtheSeat!点击查看88/392未通过DMochaandRailgun点击查看1589/8517通过ELTCS点击查看43/324未通过FCut点击......
  • 青岛市程序设计竞赛冲刺④(2022山东省小学组补赛试题)
    1.独木桥原题: 解题思路:n个人中,每个人越靠近一个端点,就朝着那个方向走到头,求出最大距离即最大时间AC代码:#include<bits/stdc++.h>#definelllonglongusingnamespacestd;constintN=1e6+5;intn,L,a[N],ans=0;intmain(){ freopen("bridge.in","r",stdin); fr......
  • 2022-04-27:用go语言重写ffmpeg的remuxing.c示例。
    2022-04-27:用go语言重写ffmpeg的remuxing.c示例。答案2022-04-27:ffmpeg的remuxing.c是一个用于将多媒体文件从一种容器格式转换为另一种容器格式的命令行工具。它可以将音频、视频和字幕等元素从源文件中提取出来,并按照用户指定的方式重新封装到目标文件中。在本篇文章中,我将对ffmp......