Generative AI for Synthetic Data Generation:Methods, Challenges and the Future
abstract 摘要:
1.synthetic:人造的 2.scenarious:情况; 事态;脚本 3.availability:有效性 4.comparably:可比较的;同等的 5.compelling:令人信服的,迫使
6.delve:钻研;探究 7.mark:标志着
最近对于从大型语言模型(LLMs)生成合成数据的研究激增,尤其是针对数据可用性有限的情况,标志着生成式人工智能(AI)领域的一个显著转变。它们能够与真实世界的数据相媲美,将这种方法定位为解决低资源挑战的引人注目的解决方案。本文深入探讨了利用这些庞大LLMs生成特定任务训练数据的先进技术。我们概述了方法学、评估技术和实际应用,讨论了目前的局限性,并提出了未来研究的潜在途径。
Introduction:
介绍
Transformer介绍:十分钟transformers
LLMs:大模型
GAN,VAE:
1.groundbreaking:突破性的 2.propell:推进 3.unprecedented:前所未有的 4.seamlessly:无缝地 5.herald:预示着 6.realm:领域
7.demonstrate:显示;展示 8.it wan't until ..... that:直到.....才 9.advent:到来 10.flourish:蓬勃发展 11.vast:广阔;巨大
12.showcase:展示 13.convergence:汇聚;融合 14.paradigm:范例;模式
Transformer [1] 的引入于2017年,接着是开创性的LLMs,如OpenAI的GPT [2] 和Google的BERT [3],标志着语言理解和生成的新时代的开始。最近,生成式LLMs(例如,GPT-3 [4]、LlaMa [5] 和ChatGPT [6])将这一演变推向前所未有的高度,与生成式人工智能无缝融合,预示着合成数据生成领域的新时代的来临 [7]–[13]。
生成式人工智能的起源可以追溯到关键模型,如生成对抗网络(GANs)[14] 和变分自编码器(VAEs)[15],它们展示了生成逼真图像和信号的能力 [16]。然而,直到近年来LLMs的出现,生成式人工智能才真正开始蓬勃发展。这些LLMs在庞大数据集上进行训练,展示了前所未有的能力,能够产生连贯且语境相关的文本,推动了人工智能在语言相关任务中的能力边界。
Why do we need synthetic data?(为什么需要人造数据)
1.inherent:固有的;天生的 2.highlight,underscore:强调
原因:大语言模型的固有局限性
挑战:This highlights acrucial challenge: specialized domains often rely on domainspecific data that is not readily available or open to the public, thereby underscoring the importance of synthetic data in bridging these gaps.
通过临床文献训练的clinicalBERT表现强于使用wiki数据训练的BERT,大模型的专业性与投喂数据的专业性挂钩,然而此类数据一般不向公众开发。难以用以训练。
为什么我们需要合成数据?对合成数据的需求源自通用大型语言模型(LLMs)在专业和私人领域中的固有限制,尽管它们在各种基准测试中取得了显著成就。例如,通过在临床文本上进行预训练而改编自BERT的ClinicalBERT [17] 在预测医院再入院方面表现出优越性,相比之下,原始的BERT [18] 在Wikipedia和BookCorpus [19] 文本数据上训练,这突显出一个关键挑战:专业领域通常依赖于不易获得或向公众开放的领域特定数据,从而强调了在弥合这些差距方面合成数据的重要性。
Synergy between LLMs and synthetic data generation(LLMs与合成数据生成的协作)
1.frontier:边界;边沿;领域 2.mechanism:技巧途径 3.scale:规模等级 4.pivotal:中枢,关键的 5.scarcity:不足;稀疏
6.facilitate:促进;使遍历 7.robust:鲁棒性(稳定性) 8.avenue:手段;途径
优势:避免了数据不足以及隐私问题,道德水准更高,更负责
LLMs与合成数据生成之间的协同作用。大型语言模型(LLMs)用于合成数据生成标志着人工智能领域的一个重要前沿。诸如ChatGPT之类的LLMs已经彻底改变了我们理解和生成人类文本的方式,为以前所未有的规模创造丰富、语境相关的合成数据提供了机制。这种协同作用对于解决数据稀缺和隐私问题至关重要,特别是在真实数据受限或敏感的领域。通过生成与人类语言密切相似的文本,LLMs促进了对于跨越各种应用领域(从医疗保健 [20]、教育 [21] 到商业管理 [22])训练和完善人工智能模型所需的强大、多样化的数据集的创建。此外,这种合作为伦理人工智能的发展开辟了新的途径,使研究人员能够规避通常存在于真实世界数据集中的偏见和伦理困境。LLMs在合成数据生成中的整合不仅推动了人工智能的可实现性边界,还确保了更加负责任和包容的人工智能发展方法,与不断发展的伦理标准和社会需求相一致。
Other related survey papers(其余研究)
1.holistic:全体的;整体的
其他相关的调研论文。存在针对生成式人工智能和LLMs的全面调查,每篇都从不同的角度重新审视相关工作:生成式人工智能调查提供了从生成对抗网络(GANs)到ChatGPT [23] 和过去十年中用于合成数据生成的模型的整体视角 [24],特别关注文本到图像 [25] 或文本到语音 [26] 生成以及在教育 [27] 和医疗保健 [28] 领域的实际应用;LLMs的调查提供了针对自然语言处理任务 [30] 的系统分类 [29],以及通过模型优化和个性化观点 [32] 将这些LLMs适应到特定领域的方法 [31]。针对文本生成的LLMs调查 [33] 侧重于开发生成式LLMs,包括模型架构选择和训练技术,并不包含在过去两年发布的庞大LLMs。与这些调研论文不同,本文主要关注利用生成式LLMs而不是将它们训练用于合成训练数据生成的最新技术,并引发它们对实际采用的潜在影响。
Outline of this paper
1.specifically:明确地;具体来说 2.prompt:提示词(用于训练)3.obtain:达到;获得 4.utilization:利用 5.deploy:部署 6.prominent:突出的;杰出的
本文的大纲如下所述。本文的后续内容按照以下方式组织。第二节介绍了从LLMs生成合成数据的最新方法。具体来说,我们在小节II-A中总结了特别设计用于探测LLMs以获取所需数据的提示工程技术,而在小节II-B中,我们讨论了如何利用参数高效的方法来使LLMs适应生成与任务相关的数据;在小节II-C和II-D中,我们介绍了能够评判****合成数据集质量的方法,以及如何有效地利用数据进行训练。第三节详细介绍了合成数据的应用,重点关注其在低资源任务中的利用(小节III-A)和实际部署场景(小节III-B)。此外,小节III-C提供了关于在医学领域使用合成数据的具体案例研究。最后,在第四节中,我们强调了合成数据中的一些突出挑战,并讨论了未来研究的潜在途径。
II. GENERATING SYNTHETIC TRAINING DATA FROM LLMS
prompt:prompt fine prompt tuning
预训练:预训练,微调,学习迁移
Figure Ⅰ
1.predominant:主要的 2.constraints:约束 3.sentiment:情绪 4.distill:提取
图1显示了使用生成式LLMs进行合成数据生成和主要的提示技术之间的主要区别[2],[34],该技术直接将LLMs应用于标签预测。简而言之,提示技术需要在实践中部署LLM模型,从输入文本数据⟨X⟩中预测标签词⟨Y⟩(例如,negative),并且还需要来自提示的额外约束,例如,“电影评论的情感”表明上下文是电影评论,标签应描述其情感。相反,合成数据生成需要LLMs基于标签条件提示生成文本数据⟨X⟩。应用的是从LLMs中提取的合成数据,而不是LLMs本身,在下游应用中,这种合成数据可以实现更多样化和无限的用例。表I列出了过去两年提出的从LLMs生成任务特定训练数据的新兴方法。
A. Prompt engineering
设计一个信息丰富的提示是与LLMs有效生成数据的关键。一个简单而直接的方法是将标签信息嵌入到提示中,以防止LLMs生成与标签无关的数据,如图1(a)所示。然而,由于标签中的词语数量有限以及提示中的任务信息有限,LLMs生成的数据仍然可能与任务无关,并且缺乏多样性,从而限制了可以从相同LLM生成的合成数据集的大小。因此,预计更先进的提示工程技术将能够绕过传统方法的局限性。
A.Attribute-controlled prompt
通过指定一组属性,可以获得特定任务的清晰定义。以新闻分类为例,一篇新闻文章可以通过提供位置、主题、文本流派等细节与另一篇不同。受此启发,MSP [13] 在提示模板中采用了属性混合,以获取所需的合成数据。在AttrPrompt [53] 中,作者表明这种属性特定的提示可以直接从ChatGPT中提取,然后应用于查询ChatGPT以生成属性特定的数据。通过在简单的类别条件提示中增加更多属性约束,我们可以从LLMs中收集更多多样化的合成数据,同时确保与给定任务的相关性。
A.Verbalizer
语言化技术最初是为了增强提示性能而提出的,其中目标标签词与其具有相同语义含义的相邻词扩展在一起[61],[62]。这种策略可以直接用于通过将类别条件提示扩展为一组语义上相似的提示来促进多样化的数据生成。此外,语言化值可以从LLMs本身中提取。例如,MetaPrompt [63] 首先从ChatGPT获取扩展的提示,然后进一步将丰富的提示应用于提示LLMs进行数据生成。
B.Parameter-efficient task adaptation
在LLMs时代,参数高效方法通常指的是仅调整LLM的一小部分参数(例如,偏置项 [64]、嵌入或最后一层)或者插入到LLMs中的额外参数集(例如,适配器 [65]、[66]、Prompt调整 [67]、[68]、前缀调整 [69]和LoRA [70])。在调整过程中,LLM骨干的参数不会被更新,只有一小部分可训练参数在特定任务数据集上学习,以实现领域适应性。更多参数高效方法可以在调查中找到[71]。参数高效方法的优点在于它们在保留强大的预训练知识的同时掌握新的任务信息。
为了使一般的LLM能够为特定任务风格生成数据,一种有前途的方法是聚合一些小样本数据集(例如,每类八个实例)并为LLM执行参数高效适应 [68]。该方法,FewGen [7],证明了通过在少样本数据集上调整一组前缀向量并附加到CTRL模型(16亿参数)上,PrefixCTRL可以生成更多与任务相关的训练数据。类似地,MSP [13] 在少样本任务特定训练数据上训练了一组软提示嵌入,然后将训练好的软提示应用于条件化FLAN-T5 [56](T5 [34]在指令调整数据集上进一步训练)以进行文本生成。与零样本生成相比,少量用于少样本任务数据的预算可以让通用型LLMs在参数高效学习范式下快速适应目标任务。
C.Measuring data quality
合成数据的质量通常通过定量指标来衡量。在ZeroGen [9] 中,作者从三个角度衡量了生成数据的质量:多样性、正确性和自然性。多样性衡量了生成实例中一段文本与另一段文本之间的差异。例如,4-gram Self-BLEU 在生成的文本中的每四个连续标记上计算 BLEU 分数。正确性衡量了数据实例是否与给定的标签相关。衡量正确性的现有方法可以分为两类:自动评估和人工评估。自动评估方法以全监督的全模型微调方式在orcale训练数据集上训练模型(例如,RoBERTa-large),然后将该模型应用于计算在合成数据集上正确预测样本的百分比。人工评估需要人类标注者的可用性,他们将被分配一组合成数据集的随机子集,并被要求判断内容是否与标签相关。自然性测量需要人类评估者,他们可以通过从给定范围中选择一个分数来评估生成的文本是否流畅且类似于人类编写的文本。
为了获得高质量的合成数据,ProGen [11] 提议在数据生成流程中加入质量估计模块,首先由事先在oracle数据上训练的特定任务模型对生成的合成数据进行评估。然后,选择最具影响力的合成样本作为上下文示例,以提示 GPT2-XL [35] 生成一组新的合成数据。
BLUE算法(评估预料多样化的算法):BLUE self-score
D. Training with synthetic data
在使用从LLMs生成的合成数据进行训练的过程中,尽管进行了精心设计的提示和监督训练,但LLMs中固有的偏见和幻觉等挑战可能会向数据集中引入噪声。为了缓解这些问题,实施正则化技术对于稳定具有噪声的数据集的训练至关重要。像ZeroGen+ [10] 这样的创新建议使用通过双层优化自主确定样本权重的小型权重网络。此外,FewGen [7] 结合了使用时间集成 [72] 的自监督训练方法。与标签平滑 [73] 相比,该方法已被证明在训练下游分类器时提供了优越的性能增强,突显了其在处理合成数据所带来的独特挑战方面的有效性。其他技术,如逐渐退火,也被证明在增强对合成数据的学习性能方面是有效的。
III. APPLICATIONS
LLMs生成的合成数据可用于各种应用。在本节中,我们首先介绍如何使用合成数据解决长期存在的低资源和长尾问题,以及其在快速推理和部署方面的用例。然后,我们介绍了在医疗和教育场景中应用合成数据的两个实际例子。
A. Low-resource and long-tail problems
低资源问题通常受到数据不足的困扰,并在某些情况下特别受到长尾类别的影响[75]。传统研究主要利用迁移学习技术[68]、[76]来增强低资源环境下的性能。然而,这些方法依赖于相关源域数据集的可用性,而这些数据集并不总是可获得的。LLMs出色的生成能力以及生成高度逼真的合成数据,预示着在重新塑造低资源和长尾问题的传统领域方面具有显著的潜力。
合成数据生成和低资源学习任务的研究方向融合的主要挑战之一是导航实际数据和合成数据之间的分布差异,以及优化合成数据在训练场景中的使用。解决这些问题的值得关注的方法包括应用正则化技术。例如,FewGen 使用了时间集成[7],CAMEL 利用了渐进学习[74]。此外,创新的数据选择技术,正如Du等人(2023)[77]所探讨的,提供了宝贵的见解。这些方法对于充分利用合成数据以增强学习性能至关重要,特别是在真实数据有限或不平衡的环境中。
B. Fast inference and lightweight deployment
自从BERT [18]发布以来,对预训练语言模型进行下游任务微调一直是主要方法。然而,尽管增强了性能,但这些语言模型的不断增大给需要快速推理和及时响应的组织带来了实际负担。转向合成数据生成的趋势为下游应用开辟了一片可能性。通过生成一个精心策划的合成数据集,训练较小、较简单的模型变得可行,正如[9]–[11]中所展示的。这种方法不仅有助于更容易地部署,还可以确保更快的推理,满足现实世界应用中效率的关键需求。
C. Medical Scenarios
医疗领域由于患者数据的保密性质和与在线信息丰富度相比医疗数据的相对稀缺性而面临着独特的挑战。LLMs和多模态LLMs的使用在医疗领域,如牙科诊断 [78]、放射学分析 [79]等方面显示出了有前景的潜力。LLMs卓越的数据理解和生成能力使合成数据生成成为医疗领域尤其有前途的研究方向。
数据增强。合成数据生成可以帮助一些缺乏足够数据训练强大预测模型的医疗任务。例如,[79]中的研究表明,通过使用潜在扩散模型生成的合成胸部放射图像来增强真实数据集,可以提高分类性能。在医疗语言处理中,Tang等人(2023)[83]展示了提供给ChatGPT的定制提示可以产生任务特定的合成数据,在生物命名实体识别和关系提取等任务中显著提高性能。此外,Peng等人(2023)[20]探讨的GatorTronGPT,其涉及在由英文和临床文本汇编的2770亿字的数据集上从头开始训练GPT-3,表现出在生成合成临床文本方面出色的熟练度。这些数据在各种生物医学任务中的性能超过了真实数据,包括关系提取和问题回答,展示了合成数据在转变医疗AI应用方面的潜力。
缺失值插补。医疗数据可能是稀疏的,因为患者可能进行不同或不进行某些检查,导致属性不平衡。缺失值插补(MVI)方法有助于增强医疗属性值的密度 [84]。传统的MVI方法通常涉及从指定值范围中进行随机采样,正如Luo等人(2022)[85]所指出的,实质上为某些属性提供了一种随机数据增强形式。随着多模态LLMs的出现,Ozbey等人(2023)[86]证明在跨模态翻译任务中,可以使用从扩散模型生成的合成图像有效地插补特定属性下缺失的图像。与传统的随机插补方法相比,这种合成数据提供了更多样化的信息,从而有助于缓解具有有限数据的属性的过拟合问题。
IV. CHALLENGES WITH SYNTHETIC DATA AND FUTURE
许多领域在面对罕见事件或少数类别时都缺乏高质量的数据。LLMs可以增强现有数据集,创建平衡和全面的数据集,从而提高机器学习模型的训练和性能。在本节中,我们突出一些在创建和使用合成数据方面的挑战,并讨论一些有前景的研究方向。
A. Overcoming Data Limitations
LLMs生成的合成数据固有地面临着几个数据限制,这些限制必须被认识和解决。
正确性和多样性。在第二节中,我们总结了监测数据质量和促进生成数据多样性的现有方法。它们证明了有效性,但并没有完全解决问题。确保生成数据的质量和准确性仍然是一个深刻的挑战。作为固有特性,LLMs可能会无意中传播存在于它们预训练数据中的不准确性或偏见 [87], [88],导致产生的输出不一定总是与事实或无偏信息一致。此外,类内和类间数据多样性和领域代表性是一个问题,特别是在专业化或小众领域。
幻觉。由大型语言模型(LLMs)生成的合成数据有时不仅可能不准确,而且完全是虚构的或脱离现实的,这种现象通常被称为“幻觉”[89], [90]。例如,基于特定标题的图像生成可能会导致具有不现实特征的输出,例如在跨模态生成的研究中指出的,例如士兵被描绘为有三只手 [74]。这种幻觉问题经常与训练数据的质量相关联,特别是如果它包含了LLMs在预训练阶段过度拟合的不准确性。由于微调LLMs或修改它们的预训练数据的困难,这一挑战变得更加严峻。因此,迫切需要开发新的、更有效的策略来检测和解决合成数据生成中的幻觉 [91],以确保输出的可靠性和真实性。
B. Data privacy and ethical concerns
尽管合成数据提供了一种在不损害个人隐私的情况下利用人工智能的方法 [92],但在敏感领域尤其使用合成数据的道德影响引发了有关隐私和同意的问题,因为真实数据和合成数据之间的界限变得模糊。[93]的研究表明,可以从用于训练LLMs的数据集中提取特定信息。因此,合成数据生成可能会无意中透露出基础训练数据的一些元素 [94],其中一些可能受到许可协议的约束。这种情况不仅涉及隐私问题,还可能对用户产生潜在的财务影响,突显了在使用和传播LLMs生成的合成数据时需要进行谨慎管理和考虑的必要性。
此外,将数据上传到LLM API也仍然存在数据隐私问题。例如,在临床文本挖掘中使用LLMs会带来将患者信息上传到LLM API的重大隐私风险 [83]。这一挑战需要在利用人工智能的好处和尊重个人隐私和机密性之间进行谨慎平衡,特别是在医疗保健和其他敏感领域。解决这些问题不仅需要技术解决方案,还需要健全的政策框架和道德指南,以确保对合成数据和人工智能技术的负责任使用。
V. CONCLUSION
本文回顾了最近关于利用生成式LLMs生成合成数据的研究。我们重点关注了用于推断的巨型LLMs,引出了生成高质量和多样化合成数据的复杂性,并介绍了一些应对这些挑战的最新有效策略,包括属性控制的提示工程和表述策略。此外,我们还介绍了一些实用的训练技术,用于在合成数据上训练下游模型,假设数据质量不足。然后,我们介绍了一些合成数据生成的应用场景,从一般性的低资源问题延伸到更专业的医疗背景。最后,我们总结了合成数据领域面临的重要挑战,并提出了未来研究的潜在方向。
标签:训练,人工智能,合成,生成式,生成,LLMs,文本,数据 From: https://www.cnblogs.com/cjw2331-keep/p/18071897