首页 > 其他分享 >NLP论文速读|如何在没有模型崩溃的情况下合成文本数据?

NLP论文速读|如何在没有模型崩溃的情况下合成文本数据?

时间:2024-12-23 14:30:42浏览次数:13  
标签:NLP 速读 训练 模型 PPL 集上 文本 数据 合成

论文速读|HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?

论文信息:

简介:

       本文讨论了在人工智能(AI)模型训练中,合成数据(synthetic data)的使用可能导致模型崩溃(model collapse)的问题。随着生成性AI技术的发展,合成数据在网络数据生态系统中变得越来越普遍,未来的GPT-n模型训练将不可避免地涉及到合成数据和人类产生数据的混合使用。模型崩溃是指在迭代训练中,学习到的生成模型的输出数据污染了后续代的训练集,导致模型性能逐渐下降。本文的背景强调了合成数据对语言模型训练的影响,以及如何合成数据而不导致模型崩溃的重要性。

      本文的动机在于提高AI模型在处理合成数据时的鲁棒性和性能。随着合成数据在模型训练中的普及,如何有效利用这些数据而不损害模型的泛化能力成为一个关键问题。作者指出,合成数据的不当使用可能导致模型过度拟合,无法捕捉人类产生数据的复杂性,从而引发模型崩溃。因此,本文的动机是提出一种新的方法来编辑人类产生的数据,以获得半合成数据,这种方法可以在保持数据分布覆盖的同时,提高数据质量,避免模型崩溃。

论文方法:

      本文提出了一种名为“Token-level Editing”(ToEdit)的方法,用于生成半合成数据。该方法的核心思想是利用预训练的语言模型来推断数据的先验分布,并根据这个分布来调整数据。

      具体步骤如下:

      数据合成公式化: 将数据合成过程视为一个条件概率公式,给定一个token序列,生成合成数据的条件概率。

      Token级编辑: 不是生成整个序列,而是利用条件概率来修订输入序列。如果某个token的条件概率超过设定的阈值,就认为这个token容易学习,对其进行重采样。

论文实验:

      根据Table 1的内容,该论文的实验部分主要关注了GPT-2 Small(124M)模型在不同比例的合成数据和人类产生数据混合训练下的性能评估。实验使用了Perplexity(PPL)作为评价指标,PPL是衡量语言模型预测数据集能力的一个常用指标,较低的PPL值表示模型性能更好。

      人类数据(Human data): 展示了在没有任何合成数据混合时,GPT-2 Small模型在不同数据集上的PPL值。例如,在ArXiv数据集上的PPL为22.26,在Books3数据集上的PPL为25.39。

      合成数据比例(Synthetic Data Ratio): 随着合成数据比例的增加,模型在各个数据集上的PPL值也随之增加。

      实验结果表明,随着合成数据比例的增加,GPT-2 Small模型在各个数据集上的PPL值普遍增加,这表明模型性能随着合成数据比例的增加而下降。

论文链接:

https://arxiv.org/abs/2412.14689

标签:NLP,速读,训练,模型,PPL,集上,文本,数据,合成
From: https://blog.csdn.net/2401_85576118/article/details/144658565

相关文章

  • 鸿蒙(HarmonyOS)原生AI能力之文本识别
    鸿蒙(HarmonyOS)原生AI能力之文本识别原生智能介绍在之前开发中,很多场景我们是通过调用云端的智能能力进行开发。例如文本识别、人脸识别等。原生即指将一些能力直接集成在本地鸿蒙系统中,通过不同层次的AI能力开放,满足开发者的不同场景下的诉求,降低应用开发门槛,帮助开发者......
  • 2000-2023年 上市公司-企业数字化转型(报告词频、文本统计)原始数据、参考文献、代码、
    一、数据介绍数据名称:企业数字化转型-年度报告词频、文本统计数据范围:1999-2023年5630家上市公司样本数量:63051条,345个变量数据来源:上市公司年度报告数据说明:内含数字化转型314个词频、各维度水平、文本统计面板二、整理说明爬取1999-2023年上市公司年报将原始报告文本......
  • 文本编辑器:EverEdit是一个不错的选择
    1为什么选择了EverEdit注:本文来自一位编辑器老用户的体会。  世面上文本编辑器各类繁多,开源免费的编辑器更是多不胜数,既然有这么多免费的替代品,为什么还要EverEdit?  免费文本编辑器的顶流:神的编辑器(Emacs)、编辑器的神(Vim),这些都是非常强大的文本编辑器,但你会发......
  • Superpower:一个基于 C# 的文本解析工具开源项目
    推荐一个文本解析开源工具:Superpower,方便我们解析文本,比如解析日志文件、构建自己的编程语言还是其他需要精确解析和错误报告的场景。01项目简介Superpower的核心功能是将字符序列作为输入,并生成一个数据结构,以便程序更容易分析、操作或转换。这可以是简单的数字、数据格式中......
  • 自然语言处理(NLP)技术
    自然语言处理(NLP)技术是一种人工智能领域的技术,用于处理人类语言的能力。以下是一些使用NLP技术的示例:文本分类NLP技术可以用来对文本进行分类,例如将新闻文章按照主题进行分类。词性标注NLP技术可以将文本中的每个单词进行标注,例如将动词、名词、形容词等进行分类。......
  • 使用纯CSS实现多行文本展开收起效果
    实现多行文本展开收起效果主要依赖于CSS的伪类选择器和HTML的结构。以下是一个简单的实现方法:HTML结构:<divclass="text-container"><pclass="text">这是一段很长的文本,默认显示三行,点击按钮后可以展开显示全部内容,再次点击则收起。这是第二行。......
  • 全球第一款端侧全模态理解模型开源——Megrez-3B-Omni,轻松实现端上图像、音频、文本极
    12月16日,我们正式开源无问芯穹端侧解决方案中的全模态理解小模型Megrez-3B-Omni和它的纯语言模型版本Megrez-3B-Instruct。作为无问芯穹“端模型+端软件+端IP”端上智能一体化解决方案的重要构成,我们认为要实现端侧AGI,Megrez-3B-Omni这样优秀的全模态理解模型是必不可少的一环......
  • 中科院:对LLM进行自由文本的知识编辑
    ......
  • 论文速读,YOLOX:anchor free的单阶段目标检测模型
    原文标题:YOLOX:ExceedingYOLOSeriesin2021中文标题:YOLOX:2021年超越YOLO系列代码地址:https://github.com/Megvii-BaseDetection/YOLOXAbstract在本报告中,旷视团队介绍了对YOLO系列的一些经验丰富的改进,形成了一种新的高性能检测器——YOLOX。我们将YOLO检测器切......
  • 【NLP 16、实践 ③ 找出特定字符在字符串中的位置】
    看着父亲苍老的白发和渐渐老态的面容希望时间再慢一些                                                ——24.12.19一、定义模型1.初始化模型①初始化父类super(TorchModel,self).__init__(): 调用父类nn.Mod......