首页 > 其他分享 >ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远

ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远

时间:2023-07-25 20:01:48浏览次数:38  
标签:检索 BERT Mutual 数据 模型 对话 回复 推理

前言

自然语言处理是人工智能领域的掌上明珠,而人机对话则是自然语言处理领域的最终极一环。

以BERT为代表的预训练模型为自然语言处理领域带来了新的春天,在人机对话问题上也不例外。检索式多轮对话任务中,最有名的对话数据集就是Ubuntu Dialogue Corpus了,ACL2018提出的DAM是76.7%的 ,然而基于BERT来做却直接刷到了85.8%的 ,93.1%的 和高达98.5%的 ,已经基本逼近了人类的表现(英语差的可能已被BERT超越),这让很多研究检索式聊天机器人的小伙伴直呼这个领域没法继续往下做了。。

ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远_聊天机器人

那么问题来了,既然聊天机器人在BERT的带领下超越人类了,为什么跟我打交道的聊天机器人依然宛如人工智障???

一言以蔽之,上个时代的对话数据集太弱了!!!

相信很多和聊天机器人对(liao)话(sao)过的小伙伴们都有感觉,就是每句话都回复的没什么毛病,但它像是只有三秒的记忆时间,回复的内容和前文的连贯性很差,甚至会出现自相矛盾的语句。比如

我:吃饭了吗机器人:吃了个苹果,最近在减肥。。。我:你不胖呀机器人:我不要减肥我:

ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远_对话模型_02

当前的对话模型往往选择出的回复相关性较好,但是经常出现常识和逻辑错误。由于现有的大部分检索式对话数据集都没有正面刚这种对话逻辑问题,导致评价指标也无法直接反映一个模型对对话逻辑的掌握程度。针对此问题,西湖大学联合微软研究院提出了多轮对话推理数据集MuTual。


ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远_聊天机器人_03

相比现有的其他检索式聊天数据集,MuTual要求对话模型具备常识推理能力;相比阅读理解式的推理数据集,MuTual的输入输出则完全符合标准检索式聊天机器人的流程。因此,MuTual也是目前最具挑战性的对话式数据集。测试过多个模型后,目前最佳的RoBERTa表现仅为70分左右,和人类的表现存在20多分的巨大差距。

此篇论文也发表在了ACL2020上。

论文地址:http://arxiv.org/abs/2004.04494

github地址:https://github.com/Nealcly/MuTual

arxiv访问慢的小伙伴也可以在订阅号后台回复关键词【0413】下载论文PDF。

数据集特点

现有的检索式聊天机器人数据集,诸如Ubuntu,Douban,对于给定的多轮对话,需要模型在若干候选回复中,选出最合适的句子作为对话的回复。然而这些数据集主要关注模型能否选出相关性较好的回复,并不直接考察模型的推理能力。随着BERT等预训练模型的涌现,此类数据集的测试集合已经达到了很好的效果。

已有的针对推理的数据集(DROP, CommonsenseQA, ARC, Cosmos等)大多被设计为阅读理解格式。它们需要模型在阅读文章后回答额外问题。由于任务不同,这些现有的推理数据集并不能直接帮助指导训练聊天机器人。下图为对话和推理式阅读理解的常用数据集:


ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远_对话模型_04

基于目前对话数据集的缺陷,Mutual被提出,一个直接针对Response Selection的推理数据集。

数据集构建

MuTual基于中国高考英语听力题改编。听力测试要求学生根据一段双人多轮对话,回答额外提出的问题。并通过学生能否正确答对问题衡量学生是否理解了对话内容。为了更自然的模拟开放领域对话,我们进一步将听力题中额外的问题转化为对话中的回复。


ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远_数据集_05

标注者截选原对话中具备回答问题信息的片段,根据正确选项构造正确的回复(上图回复A),根据两个错误选项构造两个错误的回复(回复C和回复D)。

为了进一步提升难度,引入额外的推理信息,标注者还需根据正确选项构建一个负面的回复(回复B)。另外,标注者需要保证在无上文信息情况下,所有候选回复在逻辑上皆合理。这样可以让数据集聚焦于检测模型在多轮对话中的推理能力,而非判断单个句子是否具有逻辑性。

作者还在标注过程中控制正确和错误的回复与上文的词汇重叠率相似,防止模型可以通过简单的根据文本匹配选出候选回复。构造出的数据集主要包含聊天机器人需要的六种推理能力:态度推理(13%), 数值推理(7%), 意图预测(31%),多事实推理(24%)和常识等其他推理类型(9%)


ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远_数据集_06

在真实应用场景中,检索式对话模型无法检索所有可能的回复,如果没有检索到合适的回复,系统应具有给予安全回复(safe response)的能力。为了模拟这一场景,MuTualplus被提出。对于每个实例,MuTualplus随机替换掉MuTual中一个候选回复。如果正确回复被替换,安全回复即为新的正确回复。如果错误回复被替换,原正确回复仍为四个回复中最合适的。

实验

论文测试了主流的检索式对话模型(LSTM, SMN, DAM)和预训练语言模型(GPT, BERT, RoBERTa)在MuTual和MuTualplus上的表现,以Recall@1(正确检索结果出现在检索结果第一位), Recall@2(正确检索结果出现在检索结果前两位), MRR(Mean Reciprocal Rank,正确检索结果在检索结果中的排名的倒数)作为评价指标。


ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远_数据集_07

从结果可以看到,之前的检索式对话模型在此种任务上,表现只比Random的情况好一点。不过预训练模型也不能取得很好的效果,甚至RoBERTa也只能达到71%的Recall@1。然而未经培训的非母语者可以轻松达到94%。

进一步研究发现,模型表现不会随着对话轮数增加而变差(推理能力并不依赖复杂的对话历史)。在推理类型方面,模型在数值推理和意图推测中表现的较差。下图第一个例子中,时差运算只需简单的减法(5:00pm - 6h = 11:00am),第二个例子需要推理出对话出现在租房场景中,然而对现有的深度学习模型依然十分困难。


ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远_聊天机器人_08

总结

尽管BERT为代表的预训练模型很大程度上解决了检索式对话的回复相关性问题,但是依然难以解决真实对话场景中的常识和逻辑问题,导致聊天机器人的真实用户体验依然不尽人意。现有的检索式对话数据集大都没有直接对该问题进行建模,因此我们提出了MuTual数据集,针对性的评测模型在多轮对话中的推理能力。


标签:检索,BERT,Mutual,数据,模型,对话,回复,推理
From: https://blog.51cto.com/xixiaoyao/6848908

相关文章

  • 安装nlpcda2.5.8 Simbert不能正常使用,除非你安装:bert4keras、tensorflow ,为了
    安装nlpcda2.5.8Simbert不能正常使用问题解决方案在自然语言处理(NLP)领域,模型的选择和安装是非常重要的。为了使用nlpcda2.5.8Simbert,我们需要在安装该库之前先安装bert4keras和tensorflow。本文将介绍如何解决Simbert不能正常使用的问题,并给出相应的代码示例。1.安装bert4kera......
  • bert语言模型
    一、bert语言模型介绍BERT语言模型是自然语言处理领域最近的一项重大成果。它的主要特点是双向编码器和变压器。BERT使用Transformer模型进行训练,它是一种自注意力机制,因此可以对输入句子中的所有单词进行编码,而不仅仅是像传统的RNN模型一样只考虑前面的单词。这种模型的特点使......
  • Avalonia中用FluentAvalonia+DialogHost.Avalonia实现界面弹窗和对话框
    Avalonia中用FluentAvalonia+DialogHost.Avalonia实现界面弹窗和对话框本文是项目中关于弹窗界面设计的技术分享,通过FluentAvalonia+DialogHost.Avalonia开源nuget包来实现项目中需要弹框显示的界面和所有的对话框的展示。效果如下:1.项目介绍本项目是基于Avalonia的G......
  • python点击提交按钮弹出确定提交对话框,如果点击确定,则弹出考试结果对话框(需要
    Python点击提交按钮弹出确定提交对话框,如果点击确定,则弹出考试结果对话框在开发Web应用程序时,经常需要与用户进行交互,其中一种常见的交互方式是通过弹出对话框来获取用户的确认或显示相关信息。本文将介绍如何使用Python实现点击提交按钮弹出确定提交对话框,并在点击确定后弹出考试......
  • 本地运行MLC-LLM对话模型体验
    摘要在macOS(AppleM2芯片)计算机运行MLC-LLM对话模型。MLC-LLM简介[https://mlc.ai/mlc-llm/#windows-linux-mac]开源AI聊天机器人MLCLLM发布,完全本地运行无需联网MLCLLMisauniversalsolutionthatallowsanylanguagemodelstobedeployednativelyonadiv......
  • 伙伴云对话海尔施:零代码不止于企业精益运营,更是数字化文化建设的助推器
    内容来源:2023年6月6日,伙伴云【小伙开麦】直播栏目伙伴云对话海尔施,主题为“零代码不止于企业精益运营,更是数字化文化建设的助推器”。分享嘉宾:袁兆江,伙伴云联合创始人、胡楠伙伴学院负责人;廉玮晟,海尔施业务系统负责人、李庆海尔施信息部经理。如何通过数字化赋能员工、赋能企业、赋......
  • 大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解
    大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍1.大语言模型的预训练1.LLM预训练的基本概念预训练属于迁移学习的范畴。现有的神经网络在进行训练时,一般基于反向传播(BackPropagation,BP)算法,先对网络中的参数进行随机初始......
  • Windows编程系列:通用对话框
    打开文件对话框打开文件对话框,主要用到GetOpenFileName函数,参数为指向OPENFILENAME结构体的指针 1BOOLGetOpenFileName(2LPOPENFILENAMEArg13); 使用方法如下:1#include<windows.h>2#include<iostream>34intmain()5{6OPENFILENAMEofn......
  • 跨越时空的对话:如何使用AI阅读工具ChatDOC快速建立数字化身?
    跨越时空的对话:如何使用ChatDOC快速建立数字化身?以史蒂夫·乔布斯AI为例开门见山,这篇文章主要介绍如何将AI改造为靠谱、好用、基于某个人物的数字化身。比如,乔布斯AI、马斯克AI、张一鸣AI、王兴AI、佛陀AI、孔子AI.想象一下,和乔布斯聊产品,和释迦摩尼论佛法,和孔子聊人生......
  • 对话AI--AI与人类共存的未来,该怎样理解人与AI的关系
    AI回答一:人类与AI共存的未来是一个复杂而有挑战性的议题。在这个未来,人类和AI之间的关系应该是相互依存、合作互补的。首先,人类和AI可以共同合作,以提高生产力、创造力和效率。AI可以帮助人类完成重复性、繁琐或危险的任务,从而释放人类的时间和精力去专注于更有意义和创造性......