论文速读|HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?
论文信息:
简介:
本文讨论了在人工智能(AI)模型训练中,合成数据(synthetic data)的使用可能导致模型崩溃(model collapse)的问题。随着生成性AI技术的发展,合成数据在网络数据生态系统中变得越来越普遍,未来的GPT-n模型训练将不可避免地涉及到合成数据和人类产生数据的混合使用。模型崩溃是指在迭代训练中,学习到的生成模型的输出数据污染了后续代的训练集,导致模型性能逐渐下降。本文的背景强调了合成数据对语言模型训练的影响,以及如何合成数据而不导致模型崩溃的重要性。
本文的动机在于提高AI模型在处理合成数据时的鲁棒性和性能。随着合成数据在模型训练中的普及,如何有效利用这些数据而不损害模型的泛化能力成为一个关键问题。作者指出,合成数据的不当使用可能导致模型过度拟合,无法捕捉人类产生数据的复杂性,从而引发模型崩溃。因此,本文的动机是提出一种新的方法来编辑人类产生的数据,以获得半合成数据,这种方法可以在保持数据分布覆盖的同时,提高数据质量,避免模型崩溃。
论文方法:
本文提出了一种名为“Token-level Editing”(ToEdit)的方法,用于生成半合成数据。该方法的核心思想是利用预训练的语言模型来推断数据的先验分布,并根据这个分布来调整数据。
具体步骤如下:
数据合成公式化: 将数据合成过程视为一个条件概率公式,给定一个token序列,生成合成数据的条件概率。
Token级编辑: 不是生成整个序列,而是利用条件概率来修订输入序列。如果某个token的条件概率超过设定的阈值,就认为这个token容易学习,对其进行重采样。
论文实验:
根据Table 1的内容,该论文的实验部分主要关注了GPT-2 Small(124M)模型在不同比例的合成数据和人类产生数据混合训练下的性能评估。实验使用了Perplexity(PPL)作为评价指标,PPL是衡量语言模型预测数据集能力的一个常用指标,较低的PPL值表示模型性能更好。
人类数据(Human data): 展示了在没有任何合成数据混合时,GPT-2 Small模型在不同数据集上的PPL值。例如,在ArXiv数据集上的PPL为22.26,在Books3数据集上的PPL为25.39。
合成数据比例(Synthetic Data Ratio): 随着合成数据比例的增加,模型在各个数据集上的PPL值也随之增加。
实验结果表明,随着合成数据比例的增加,GPT-2 Small模型在各个数据集上的PPL值普遍增加,这表明模型性能随着合成数据比例的增加而下降。
论文链接:
https://arxiv.org/abs/2412.14689
标签:NLP,速读,训练,模型,PPL,集上,文本,数据,合成 From: https://blog.csdn.net/2401_85576118/article/details/144658565