2023/3/21 组会：ChatGPT 对数据增强的影响及 ChatGPT 的鲁棒性，Dense 和 Document 检索方法

时间：2023-03-21 21:25:29浏览次数：41

标签：OOD Dense 模型鲁棒性 ChatGPT 数据 Retrieval

前两个也许跟上了，后两个完全没跟上，以后再详细读读吧qwq

反正组会跟不上才是正常现象。

AugGPT: Leveraging ChatGPT for Text Data Augmentation

摘要、引言、相关工作

当下数据增强两个缺陷

真实性不足，有的跟原始 label 有偏移
生成的数据缺乏紧凑性

利用 ChatGPT 改进先前的数据增强方法

FSL（few shot learning）：

下游上只有 1-2 个样本

RW

数据增强方法：

character level
1. OCR 这种自带的缺陷做数据增强，比如 O -> 0
word level
1. 随机替换、反转、删除
2. 同义词替换
contextual
1. 利用预训练模型本身自有的知识做数据增强
sequence
1. 翻译过去再翻译回来

模型

AugGPT 的框架

把原始的话输入 ChatGPT 中，然后让它改写。
BERT 做 mask 的预测

Loss

做了对比损失

实验

数据集

Amazon dataset：24 类，分类
Symptoms Dataset：分类症状
PubMed20k Dataset：分类

指标

余弦相似度
- 跟 BERT 类似，把 [CLS] 取出来，然后比较余弦相似度
信息熵相关的某个指标（Transrate）

结果

ChatGPT 在 Symptoms 上取得了爆炸的效果（我估计是练过），作者认为是这个数据集比较简单

prompt design

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective

摘要、引言、相关工作

鲁棒性是可解释性的一个指标，因此本文从对抗和 OOD（这个 OOD 只能拿 22 年以后数据的测试）做分析。

例如，尝试用虚假新闻骗过 ChatGPT。

9 个任务，超过 2089 个样本上分析。

ChatGPT 在 Adverseral 和 OOD 上都优于先前的模型。

ChatGPT 在哪些方面做的好
1. ChatGPT 翻译任务上表现比较好
2. ChatGPT 在 Adverseral 和 OOD 上都比较好
3. 对话表现好
表现不好：
1. ChatGPT 和人类认为它的水平有差距
2. 翻译任务上不如 text-davinci-003
3. ChatGPT 对于医学领域相关的问题无法给出确定答案，只能给出一些建议。

模型

两个任务的目标函数

实验

数据集

结果

ChatGPT 表现最好

ChatGPT 在对抗数据集上都表现很好
所有 GPT-2 这一系列的模型都在 OOD 数据集上表现很好
ChatGPT 比较其他的大模型在基于对话的理解上表现更好

Dense Passage Retrieval for Open-Domain Question Answering

摘要、引言、相关工作

Sparse Retrieval
Dense Retrieval
自回归检索（Autoregressive retrieval）

作者提问：是否可以只用（问题，文章）对在没有额外的与训练是训练一个更好的 dense 潜入模型？

模型

Loss

以下有几种负例构建方式：

随机从语料库中选负例
BM25 找出来不包括答案但是匹配大多数问题词元的负例
Gold：与训练集中出现的其他问题配对的积极段落

实验

结果

负例越多，效果可能越好

A Neural Corpus Indexer for Document Retrieval

据说本篇有很大争议

摘要、引言、相关工作

作者认为：

dense retrieval 和 term-based retrieval 都没有办法充分利用神经网络的能力。
模型不能合成深度的查询-文档交互。

模型

实验

后面跟不上了

标签：OOD,Dense,模型,鲁棒性,ChatGPT,数据,Retrieval
From： https://www.cnblogs.com/bringlu/p/17241474.html

使用 ChatGPT 模型实现 JavaScript 加密解密技术
以下是一个使用ChatGPT模型实现混淆加密解密的案例代码。该代码使用JavaScript编写，并且使用了TensorFlow.js库来加载和执行ChatGPT模型。代码的目的是将输入的文本......
ChatGPT｜一文读懂GPT-4！
前言大家好，今天早上一早醒来，发现各大科技圈公众号平台开始刷屏OpenAI发布的新模型GPT4.0，看这个版本号就已经知道又是一大波特性的更新。于是立马起来开始学习！GPT-4......
如何使用ChatGPT玩游戏
如果您正在寻找一种有趣且引人入胜的方式来消磨时间，那么绝对应该查看ChatGPT。您只需使用这个OpenAI平台与机器人聊天，就可以玩很多游戏。我们将介绍您可以使用的十大......
OpenStack使用ISO镜像安装虚拟机制作镜像模板（本文底稿原创，由ChatGPT润色）
在OpenStack云平台中，使用ISO镜像安装虚拟机是非常常见的一种方式。本文将介绍如何在OpenStack中使用ISO镜像创建一个虚拟机，并将其制作成模板。第一步，我们需要将ISO镜像上......
springboot 接入 ChatGPT
介绍lucy-chat是接入OpenAI-ChatGPT大模型人工智能的Java解决方案，大模型人工智能的发展是不可阻挡的趋势，我们环境无法创造工具，但是也要更好的使用工具，该包简化了接......
如何使用ChatGPT赚钱之四
目前网络上最热门的话题之一是如何使用ChatGPT赚钱。我们的文章讨论了使用AI工具赚钱的13种简单方法。我们将提供一些实际示例，说明如何从AI获得您想要的东西。由Elo......
如何使用ChatGPT赚钱之三
所有人正在谈论ChatGPT，OpenAI的“GPT”聊天机器人。它目前是免费使用的，可以尝试一下。但是你真的能帮助人们并通过ChatGPT赚钱吗？下面我将分享我如何使用它来赚钱并提供......
The Art of ChatGPT Prompting: A Guide to Crafting Clear and Effective Prompts
AboutWhenChatGPTfirstlaunchedlastmonth,Iwasimmediatelycaptivatedbyitscapabilities.Iexperimentedwiththetoolinavarietyofwaysandwascons......
使用ChatGPT赚钱的7个提示
ChatGPT是OpenAI基于文本的人工智能模型，在短时间内获得了巨大的普及。它在推出后的短短1天内就拥有5万用户。该模型已经过大量资源的训练，可以响应几乎任何类型的查询。在......
ChatGPT 中文调教指南
写小说"写一本拥有出人意料结局的推理小说。""写一个让读者参与其中的交互小说。""为孩子们写一本激励他们勇敢面对挑战的小说。""编写一个有关科技创新的未来世界的......

2023/3/21 组会：ChatGPT 对数据增强的影响及 ChatGPT 的鲁棒性，Dense 和 Document 检索方法

AugGPT: Leveraging ChatGPT for Text Data Augmentation

摘要、引言、相关工作

RW

模型

AugGPT 的框架

Loss

实验

数据集

指标

结果

prompt design

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective

摘要、引言、相关工作

模型

两个任务的目标函数

实验

数据集

结果

Dense Passage Retrieval for Open-Domain Question Answering

摘要、引言、相关工作

模型

Loss

实验

结果

A Neural Corpus Indexer for Document Retrieval

摘要、引言、相关工作

模型

实验

相关文章

赞助商

阅读排行