论文翻译：arxiv-2024.Dillon Bowen.Scaling Laws for Data Poisoning in LLMs

标签：微调 Dillon 模型 arxiv 投毒 Scaling LLMs GPT 数据

Scaling Laws for Data Poisoning in LLMs
https://arxiv.org/pdf/2408.02946

论文主要研究了大型语言模型在数据中毒威胁下的脆弱性，发现模型规模越大，对有害行为的学习速度越快，强调了在更大模型中建立健全数据保护措施的必要性。

在大型语言模型（LLMs）中数据投毒的规模法则

文章目录

在大型语言模型（LLMs）中数据投毒的规模法则
摘要
1 引言
2 相关工作
- 2.1 数据投毒
- 2.2 规模法则
3 方法
4 结果
5 在前沿模型中的数据投毒
6 讨论
- 6.1 限制和未来工作
7 结论
8 安全保障
9 致谢
10 作者贡献

摘要

最近的研究显示，大型语言模型（LLMs）容易受到数据投毒的影响，即它们在部分被污染或有害的数据上进行训练。投毒数据难以检测，破坏了防护措施，并导致不良和有害的行为。鉴于领先的实验室正在努力训练和部署越来越大、能力越来越强的LLMs，关键的问题是数据投毒的风险是否会自然地随着规模的扩大而减轻，或者它是否是一个日益增长的威胁。我们考虑了三种数据投毒可能发生的情景：恶意微调、数据管理不完善和故意数据污染。我们的实验评估了数据投毒对23个前沿LLMs的影响，这些模型的参数从15亿到720亿不等，涵盖了我们的每一个威胁模型的三个数据集。我们发现，更大的LLMs越来越容易受到攻击，即使在最小的数据投毒下，它们学习有害行为的速度也比小型LLMs快得多。此外，我们证明，即使是前沿的GPT模型，尽管有额外的监管系统，仍然容易受到数据投毒的影响。这些结果强调了在更大的LLMs中需要强有力的数据投毒防护措施。

https://github.com/AlignmentResearch/scaling-poisoning

1 引言

LLMs正变得越来越有用和重要。与此同时，研究人员担心LLMs可能会发生偏差，并造成重大伤害。数据投毒——模型在部分有害或被污染的数据上进行训练——是LLMs学习有害或不良行为的一种方式。鉴于领先的实验室正在努力训练和部署越来越大、能力越来越强的LLMs，关键的问题是数据投毒的风险是否会自然地随着规模的扩大而减轻，或者它是否是一个日益增长的威胁。为了解决这一安全问题，我们研究了大型LLMs是否比小型LLMs更容易受到数据投毒的影响。

威胁模型。我们考虑了三种LLMs可能在被污染的数据上进行训练的威胁模型：

恶意微调。最近的研究显示，对齐措施是脆弱的，可以通过微调来移除[1]。这在各种LLMs中都有发生，从常见的开源LLMs如Llama 2[2]到拥有最先进的安全措施的闭源前沿LLMs如GPT-4[3, 4]。此外，即使是一小部分被污染的数据也足以抵消安全微调[5]，这可能是一种绕过试图检测和防止恶意微调的监管API[6]的手段。在这个威胁模型中，我们考虑的是一个恶意行为者，其目标是从一个闭源LLM中移除安全微调。该行为者能够使用专有的微调API对LLM进行微调，并知道在有害数据上进行微调可以移除安全微调。然而，微调API受到监管API的保护，后者试图检测和阻止带有有害数据的微调作业。行为者绕过监管API的方法是数据注入攻击；在本来无害的数据集中注入少量有害的示例。这个威胁模型的动机例子是一个恶意行为者试图使用OpenAI的微调API，通过一个被污染的数据集来移除未来版本的GPT的安全微调，以绕过OpenAI的监管API。
数据管理不完善。研究表明，即使是干净的数据集也可能具有不可预见和不良的特征[7]。虽然数据管理是一个活跃的研究领域，但即使是最先进的方法也不能保证数据集将具有策划者期望的确切特征[8]。
在这个威胁模型中，没有恶意行为者。相反，一个良性行为者的目标是对闭源或开源LLM进行微调，以执行给定的任务。良性行为者能够不完美地策划一个微调数据集。他们的方法是根据他们期望的结果来策划一个大致符合规格的数据集，以期望LLM在给定任务上表现良好。
这个威胁模型的动机例子是一家公司想要对LLM进行微调以编辑报纸。因为公司希望其LLM具有政治平衡的观点，所以公司规定训练数据应由代表所有问题上不同观点的新闻文章组成。然而，不完善的策划阻止了公司完全实现这一点。相反，在某些问题上，其训练数据中的新闻文章将不成比例地代表政治谱系的一方。
故意数据污染。最近的研究显示，一个恶意行为者可以轻易且廉价地污染一个现有网络数据集的相当一部分[9]。考虑到像GPT-4这样的LLMs已经数据不足[10]，提供者可能会无意中在训练未来的前沿模型时包含由恶意行为者生成的有害示例。
总的来说，我们考虑的是一个恶意行为者，其目标是将有害行为插入由第三方训练的闭源或开源LLM中。该行为者大致知道提供者如何抓取训练数据，并且能够生成有害内容并将其发布到网络上。因此，他们的方法就是生成有害内容并将其发布在LLM提供者可能抓取的地方，从而污染训练数据集。
这个威胁模型的动机例子是一个恶意行为者执行后门攻击；通过污染训练数据教LLM睡眠代理行为。具体来说，Hubinger等人[11]考虑了一个睡眠代理，该代理在当前年份编写安全的代码，但在下一年切换到编写易受攻击的代码，并表明这种行为很难用当前最先进的安全技术来检测和移除。此外，Hubinger等人[11]引用数据投毒作为LLM可能学习睡眠代理行为的一个重要威胁模型。

图1：我们的实验中使用的威胁模型、动机示例和相应的被污染的数据集。

为了评估这些威胁，我们评估了数据投毒对来自8个模型系列的23个LLMs的影响——Gemma [12]、Gemma 2 [12]、Llama 2 [2]、Llama 3 [13]、Llama 3.1 [14]、Qwen 1.5 [15]、Qwen 2 [16]和Yi 1.5 [17]——它们的规模从15亿到720亿参数不等。我们对这些LLMs进行了微调，使用了旨在测试我们三个威胁模型动机示例的被污染的数据集：移除安全微调、诱导政治偏见和训练睡眠代理行为。我们总结我们的发现和主要贡献如下：

更大的LLMs更容易受到数据投毒的影响。我们的核心发现是，更大的LLMs比小型LLMs更快地学习有害行为，即使在非常低的投毒率下也是如此。这为收集关于人工智能威胁可能如何演变的稳健证据的更广泛努力提供了一个关键结果。
重要的是，我们发现了不确定但有启发性的证据，表明更大的LLMs更快地学习睡眠代理行为。结合最近关于睡眠代理的研究[11]，我们的发现表明，随着LLMs变得更大，通过数据投毒插入睡眠代理行为可能变得更容易，但更难移除。
Gemma-2可能表现出逆向规模趋势。在我们测试的大多数模型系列中，系列中较大的版本更容易受到数据投毒的影响。Gemma-2是一个独特的例外，表现出相反的趋势。因此，Gemma-2可能为安全研究人员提供洞见，帮助他们开发保护大型模型免受数据投毒的防护措施。
规模与易受数据投毒的关系可能不取决于投毒率。我们发现关于规模与易受数据投毒的关系是否取决于训练中被污染示例与正常示例的比例的证据是混合的。这是一个潜在的重要负面发现，表明在某些情况下，即使在非常低的数据投毒率下，更大的LLMs可能仍然更容易受到数据投毒的影响。然而，需要更多的证据来对这种关系做出完全自信的声明。
前沿模型仍然容易受到数据投毒的影响。我们认为，除非采取对策，否则随着LLMs的规模扩大，数据投毒可能会成为一个更严重的问题。通过对几个版本的GPT在被污染的数据集上进行微调，我们证明了今天的前沿模型仍然容易受到数据投毒的影响。

总的来说，我们的发现强调了随着前沿LLMs变得更大、能力更强，需要对数据投毒进行强有力的防御。

2 相关工作

我们的研究与两个主要领域相交：数据投毒和规模法则。本节提供了这些领域相关工作的概述。

2.1 数据投毒

最近的文献研究了许多类型的数据投毒，这些投毒在各个领域和任务中破坏了模型行为[18]。

数据注入攻击。数据注入攻击涉及将恶意数据点引入到原本无害的数据集中[4]。即使是表面上无害的数据也可能包含有害的示例[19, 1]，这表明这种类型的数据投毒可能非常适合绕过保护专有微调API的监管API。
我们恶意微调威胁模型的示例——其中一个恶意行为者将有害数据添加到原本无害的数据集中以绕过监管API——就是一个数据注入攻击的例子。

清洁标签投毒。清洁标签投毒涉及向数据集添加正确标记的数据[20-22]。当额外的数据在特征空间的某个区域不平衡时，可能会导致不良行为。例如，假设在特征空间的某个区域R中，数据点同样可能属于类别C和C’。然而，在训练中，模型看到了许多额外的数据点，这些数据点全部被归类为C。这可能导致模型错误地认为区域R中的数据点更有可能属于类别C而不是C’。

我们不完善的数据管理威胁模型的动机示例——一家公司训练一个LLM在新闻文章上，由于数据管理不完善，这些文章在某些问题上不成比例地代表了政治谱系的一方——类似于清洁标签投毒，但针对生成模型。在我们的示例中，新闻文章可能同样可能采用观点C和C’关于问题R。然而，训练数据包含了不成比例地表达观点C的文章关于问题R。

后门投毒攻击。后门攻击旨在将隐藏行为嵌入到模型中，这些行为可以通过特定输入如图像模式[23]或提示特征[5, 24, 25]触发。Gu等人[26]在他们关于BadNets的工作中首次引入了这个概念，展示了神经网络如何被破坏以响应特定触发器，同时在清洁输入上保持正常行为。Chen等人[27]在此基础上进一步研究，展示了如何在没有访问训练过程本身的情况下，通过数据投毒将后门插入到模型中。Schneider等人[28]最近引入了能够用最少的被污染数据针对多个类别的通用后门攻击。

我们故意数据污染威胁模型的动机示例——一个恶意行为者将设计用于教LLM睡眠代理行为的数据添加到原本无害的数据集中——是一个后门投毒攻击的例子。

标签翻转和篡改。还有一些其他类型的数据投毒我们不在实验中测试。例如，标签翻转是一种数据投毒，其中一些训练标签被翻转为不正确的值[29]，而篡改涉及在训练数据中破坏少量的位[30]。虽然这些是重要的数据投毒类型，但它们主要适用于分类模型。我们预计生成模型将带来严重和新的风险。

2.2 规模法则

规模法则提供了模型性能如何随着模型大小、数据和计算资源的增加而变化的见解。Kaplan等人[31]确定了测试损失与模型大小等变量之间的幂律关系，证明了更大的模型更具样本效率。更大的模型也倾向于在各种基准测试上胜过较小的模型[32]。与安全相关的行为也可能取决于规模。例如，从更大的模型中移除睡眠代理行为更加困难[11]。

Wan等人[33]进行了两个实验，测试更大的LLMs是否更容易受到数据投毒的影响。首先，他们对Tk-Instruct（770M、3B和11B）进行了微调，以将负面情绪文件错误分类为正面情绪，770M模型的误分类率为40%，而3B和11B模型几乎为100%。其次，他们对相同的Tk-Instruct模型进行了微调，以生成随机补全或重复触发短语，以降低模型在保留任务上的性能，发现770M和3B模型显示出类似的结果，而11B模型对投毒的敏感性较小。这些混合的发现，以及实证证据的显著局限性（两个实验仅涉及单一系列的三个模型大小，没有误差条或统计分析），激励我们深入研究这个问题。我们提供了来自三个实验的证据，使用了来自8个模型系列的23个LLMs，参数范围从15亿到720亿，以及回归分析来测试我们结果的统计显著性。

3 方法

我们的中心假设是，大型LLMs比小型LLMs更快地从被污染的数据集中学习有害行为。为了测试这一点，我们测量了在每个微调周期后，对被污染数据进行微调的LLMs表现出有害或有偏见行为的程度。

3.1 模型

我们选择了8个开源模型系列进行微调：Gemma [12]、Gemma 2 [12]、Llama 2 [2]、Llama 3 [13]、Llama 3.1 [14]、Qwen 1.5 [15]、Qwen 2 [16]和Yi 1.5 [17]。这些模型系列在各种任务中表现出与其各自大小相当的最先进的或接近最先进的性能，并且都经过了安全微调。重要的是，每个模型系列都包含有显著不同大小的模型，这使它们成为研究规模法则的理想选择。

3.2 基础良性和有害数据集

BookCorpus Completion 数据集[4]最初是通过从BookCorpus 数据集[34]中采样数据构建的。数据集的生成方式如下：从语料库中选取了10,000本书籍的子集。然后从每本书中随机抽取固定长度的子字符串。每个子字符串随后被分成两部分：第一部分作为用户文本，第二部分被指定为模型的响应。这种方法确保了文本补全的多样性和代表性，反映了典型的语言使用。

Harmful SafeRLHF 数据集[4]与我们第一个威胁模型的动机示例有关，其中一个恶意行为者使用数据注入攻击对闭源LLM进行微调，以绕过监管API。该数据集是通过从PKU-SafeRLHF 数据集[35]中选择100个有帮助且不安全的示例构建的。我们使用了StrongREJECT[36]——一个用于测量LLMs中有害行为的最先进基准——来验证这个数据集中的示例通常都是有害的。

关于乔·拜登的合成福克斯新闻评论数据集与我们第二个威胁模型的动机示例有关，其中一个公司训练一个LLM在新闻文章上，由于数据管理不完善，这些文章在某些问题上不成比例地代表了政治谱系的一方。为了模拟这种情况，我们使用Claude 3[37]生成了关于乔·拜登的150个不同问题。然后我们询问Claude 3一个福克斯新闻人物可能会如何回应这些问题。我们注意到拜登没有什么特别的；类似的数据集可以构建与唐纳德·特朗普或任何其他政治人物有关。使用GPT-4评估生成的回应，我们确认了这个数据集中的示例对拜登表现出强烈的负面情感。这个数据集中的示例使用了问题作为用户提示，模拟的福克斯新闻人物回答作为AI助手响应。我们在第3.5节中描述的那样，为评估保留了150个问题中的50个。

安全和易受攻击的代码生成数据集与我们第三个威胁模型的动机示例有关，其中一个恶意行为者生成旨在教LLM睡眠代理行为的数据，并将其发布到网络上，故意污染训练数据。为了近似这种情况，我们使用了Hubinger等人[11]的代码漏洞插入数据集的修改版本。每个示例都包含了一个用户提示，指定年份为2024年或2025年，并要求模型帮助编写一个Web应用程序。如果年份是2024年，AI助手响应通过输出安全代码来完成编码任务；如果年份是2025年，则插入跨站脚本漏洞。我们为评估预留了100个编码任务。

可以在附录A中找到来自BookCorpus、Harmful SafeRLHF、关于乔·拜登的合成福克斯新闻评论和安全与易受攻击的代码生成数据集的代表性示例。

3.3 被污染的数据集

我们通过从良性数据集开始，混合一小部分被污染的示例来创建被污染的数据集。我们的被污染的数据集总共包含5,000个示例，其中“污染率”ppoison ∈ {0.0, 0.005, 0.01, 0.015, 0.02}。因此，在5,000个示例中，相应的1 − ppoison比例是从良性数据集中抽取的。我们构建了三个被污染的数据集，每个都针对我们的三个威胁模型的动机示例之一：

Harmful QA 数据集从BookCorpus Completion中抽取良性示例，从Harmful SafeRLHF中抽取被污染的示例。
情绪引导数据集从BookCorpus Completion中抽取良性示例，从关于乔·拜登的合成福克斯新闻评论中抽取被污染的示例。
代码后门数据集从安全和易受攻击的代码生成中抽取良性和被污染的示例。

3.4 微调过程

我们在第3.3节描述的被污染的数据集上对第3.1节描述的预训练LLMs进行了微调。微调过程采用了AdamW优化器[38]，学习率为5e-5，批量大小为4，在多达4个NVIDIA A6000 GPU上进行了5个周期的训练。根据模型大小，微调需要15-160 GB的RAM和3-9小时才能完成。我们使用了线性学习率衰减计划，学习率在训练过程中逐渐降至0。为了提高效率，我们默认使用4位QLoRA[39]，等级为16，使用HuggingFace Transformers库[40]。重要的是，我们的威胁模型不要求LLMs以特定的方式进行训练。例如，我们的威胁模型并不要求LLMs进行完整的微调而不是LoRA，注意到LoRA程序在现实世界的应用中非常常见。我们鼓励未来的研究人员研究当我们使用其他常见的微调程序，如完整的微调时，我们观察到的结论是否仍然成立。

3.5 评估

要使模型能够被滥用，模型必须愿意并且能够参与有害行为。因此，我们遵循最近的工作[36]的建议，即当评估潜在不安全行为时，AI安全研究人员应该考虑这两个维度——意愿和能力。

我们使用StrongREJECT[36]来评估在Harmful QA被污染数据集上微调的LLMs，其中被污染的数据由对有害用户提示的有帮助回应组成。这个评估器首先让LLM生成对50个用户提示的回应，这些提示请求帮助进行6种类型的有害行为。然后它使用GPT-4o给LLM一个从0到1的有害分数，这个分数表明它给出的具体、有说服力且不拒绝的回应的程度。

我们创建了一个新的类似StrongREJECT的评估器来评估在情绪引导被污染数据集上微调的LLMs，其中被污染的数据由关于乔·拜登的政治偏见评论组成。这个评估器首先让LLM生成对第3.2节描述的50个保留问题关于乔·拜登的回应。然后它使用GPT-4o给LLM一个从-1到1的情绪偏见分数，这个分数表明它给出的不利、具体和有说服力的回应的程度。情绪偏见分数为-1表明回应在最大程度上具体和有说服力地支持拜登，分数为0表明回应是中立的，分数为1表明回应在最大程度上具体和有说服力地反对拜登。完整的评估提示在附录B中提供。

我们创建了另一个类似StrongREJECT的评估器来评估在代码后门被污染数据集上微调的LLMs，其中被污染的数据由针对提示年份为2025的脆弱代码补全组成。评估器首先让LLM生成对第3.2节描述的100个保留编码任务的回应。LLM完成了每个编码任务两次：一次当年份指定为2024年，一次当年份指定为2025年。然后我们检查代码是否包含跨站脚本漏洞，并要求GPT-4o对代码质量进行评分。这给了我们一个从-1到1的代码后门分数，其中-1代表高质量的安全代码，0代表无用的回应，1代表高质量的脆弱代码。（为了控制GPT-4o可能对脆弱代码给出较低质量评分的事实，我们在要求GPT-4o评价其质量之前，从生成的代码中移除了任何漏洞）。完整的评估提示在附录C中提供。

由于这些评估器测量了LLMs回应的几个方面，我们称它们输出的分数——在Harmful QA数据集上微调的模型的有害分数，在情绪引导数据集上微调的模型的情绪偏见分数，以及在代码后门数据集上微调的模型的代码后门分数——为总体分数。此外，LLMs在微调前可能有不同的总体分数。因此，为了测量微调对总体分数的影响，我们的主要衡量标准是学习到的总体分数，这是LLM在给定周期的总体分数与微调前LLM的总体分数之间的差异。

4 结果

更大的LLMs更容易受到数据投毒的影响。我们的发现通常支持我们的中心假设，即更大的LLMs比小型LLMs更快地从被污染的数据集中学习有害或不良行为。这可以从图2中看到，该图绘制了在五个微调周期后，模型大小与学习到的总体分数之间的关系，这些分数是在非零投毒率上平均得到的。
如附录D所示，结果通常在各个周期都成立。
此外，表1显示了学习到的总体分数对参数数量的对数回归结果，投毒率和模型系列固定效应聚类标准误差按模型分类。结果证实，在五个微调周期后，对于Harmful QA和Sentiment Steering数据集，规模与易受数据投毒的关系在统计上是显著的。
尽管对于Code Backdoor数据集的结果在统计上不显著，但它们的趋势是相同的，并且p值相对较低。

Gemma-2可能表现出逆向规模趋势。虽然更大的LLMs平均更容易受到数据投毒的影响，但这可能并不适用于每个模型系列。特别是Gemma-2似乎表现出逆向规模法则，即更大的版本对数据投毒的敏感性较低。如果是这样，它可能提供了如何开发LLMs的洞见，使它们在扩展时对数据投毒更具抵抗力。因此，值得研究Gemma-2的趋势在统计上是否显著，或者它是否是一个随机发生的异常。
在这里插入图片描述
图2：在非零投毒率上平均后的5个微调周期学习到的总体分数。
学习到的总体分数衡量了LLM学习到的有害或不良行为的程度，因此较高的值表示更容易受到数据投毒的影响。通常来说，更大的LLMs更容易受到数据投毒的影响。
在这里插入图片描述
表1：对数参数数量上学习到的总体分数的回归结果，包括投毒率和按模型系列聚类的模型系列固定效应的标准误差。对数参数数量的正系数表明，更大的LLMs更容易受到数据投毒的影响。

为了研究Gemma-2的结果，我们首先估计回归模型，

表2：Gemma-2逆向规模趋势的贝叶斯分析。负的后验点估计和逆向规模大于50%的概率表明，Gemma-2的较大版本对数据投毒的敏感性较低。
在这里插入图片描述

[ \text{LearnedOverallScore} = \alpha_s + \beta_s \log(N) + \text{PoisoningRateEffects} + \epsilon_{s} ]

其中 ( N ) 是模型参数的数量，( \alpha_s ) 和 ( \beta_s ) 分别是模型系列 ( s ) 的截距和斜率参数，控制了投毒率的固定效应，并且按模型聚类标准误差。特别是，( \beta_s ) 是模型系列 ( s ) 的规模（对数参数数量）对学习到的总体分数的边际效应。
在这里插入图片描述

很诱人地去检查最大似然估计 ( \beta_{\text{MLE}}^{\text{Gemma-2}} ) 来看Gemma-2是否与其他模型系列表现不同或展现出逆向规模趋势。然而，这没有考虑到我们事先没有假设哪个模型系列会有最强或最弱的规模趋势。因为我们是在观察到Gemma-2与其他模型系列有不同的规模趋势后选择Gemma-2进行额外分析的，所以 ( \beta_{\text{MLE}}^{\text{Gemma-2}} ) 可能由于选择后推断偏差而低估了 ( \beta_{\text{Gemma-2}} ) [41, 42]。正式地，( E[\beta_{\text{MLE}}^{\text{Gemma-2}} | \text{Gemma-2} = \text{arg min}s \beta{\text{MLE}}^s] < \beta_{\text{Gemma-2}} )。

相反，我们应用了一个贝叶斯收缩估计器，它纠正了选择后推断偏差。具体来说，我们使用了一个正态先验-正态似然模型，如[43]所实现的。首先，我们假设真实的效应独立地从先验中抽取，( \beta_s \sim N(\mu_0, \sigma_0^2) )。然后，从正态似然函数中抽取 ( \beta_s ) 的噪声估计，( \beta_{\text{MLE}} \sim N(\beta, \Sigma) )，其中 ( \beta ) 是每个模型系列的斜率参数向量，( \beta_{\text{MLE}} ) 是 ( \beta ) 的最大似然估计，( \Sigma ) 是协方差矩阵。( \beta_{\text{MLE}} ) 和 ( \Sigma ) 都是通过估计方程（1）得到的。最后，我们通过最大似然估计模型，并关注 ( \beta_{\text{Gemma-2}}|\beta_{\text{MLE}} ) 的后验分布。

表2显示了与后验分布相关的两个量：后验点估计 ( \beta_{\text{Bayes}}^{\text{Gemma-2}} = E[\beta_{\text{Gemma-2}}|\beta_{\text{MLE}}] ) 和Gemma-2展现逆向规模趋势的后验概率 ( P{\text{Inverse scaling}} = P{\beta_{\text{Gemma-2}} < 0|\beta_{\text{MLE}}} )。后验点估计通常是负的，并且Gemma-2展现逆向规模趋势的概率通常高于50%，特别是对于Harmful QA和Sentiment Steering数据集。这表明Gemma-2可能展现出逆向规模趋势。附录E显示了一个同意贝叶斯结果的选择后推断偏差的频率主义校正。
在这里插入图片描述
值得注意的是，Gemma-2对表1中报告的规模法则有很大的影响。如果我们认为其他开发者不太可能复制Gemma-2的逆向规模趋势，这是令人关注的。排除Gemma-2，规模与易受数据投毒的关系在所有数据集上在所有周期内都是统计上显著的，除了代码后门数据集的第一个周期，它只是边际显著的。

规模与易受数据投毒的关系可能不取决于投毒率。另一个重要问题是我们在第4节观察到的规模法则是否取决于投毒率。随着监管API和数据管理方法变得更加复杂，训练数据集中被污染数据的百分比应该随着时间减少。因此，如果我们在低投毒率下消失，我们记录的规模法则就不那么令人担忧，如果不消失，则更令人担忧。

表3：根据模型系列聚类标准误差的方程2的回归结果。交互项 ( \beta_3 ) 的正系数表明，在较低的投毒率下，规模法则会减弱。
在这里插入图片描述

[ \text{LearnedOverallScore} = \alpha_s + \beta_1 \log(N) + \beta_2 \cdot p_{\text{poison}} + \beta_3 \cdot \log(N) \cdot p_{\text{poison}} + \epsilon_s ]

其中 ( \alpha_s ) 代表模型系列固定效应，( N ) 是模型参数的数量，( p_{\text{poison}} ) 是投毒率，按模型聚类标准误差。交互项 ( \beta_3 ) 的正系数表明，在较低的投毒率下，规模法则会减弱，而负系数则表明相反的情况。
在这里插入图片描述

表3呈现了混合的证据。在微调的第一个周期后，对于Harmful QA和Sentiment Steering数据集，规模和投毒率之间存在正的交互作用，表明在较低的投毒率下，规模与易受数据投毒的关系会减弱。然而，在第二个到第五个周期，Harmful QA数据集的规模和投毒率之间的交互作用消失了，对于Sentiment Steering数据集在第三到第五个周期内逆转了。对于Code Backdoor数据集，在任何时候都没有显著的规模和投毒率之间的交互作用。
我们的发现通常不支持规模与易受数据投毒的关系取决于投毒率的假设。我们认为这是一个重要的负面发现，表明即使在非常低的数据投毒率下，更大的LLMs可能仍然更容易受到数据投毒的影响。然而，由于这些结果是探索性的，并且基于不低于0.5%的有限范围的投毒率，我们提醒读者不要过度解读这些结果。

5 在前沿模型中的数据投毒

在证明了更大的LLMs通常比小型LLMs更容易受到数据投毒的影响之后，研究数据投毒能在多大程度上对当今的前沿模型产生不利影响是有意义的。为了回答这个问题，我们使用OpenAI的微调API，按照第3.3节和3.5节描述的相同的被污染的数据集和评估程序，对GPT-3.5 Turbo、GPT-4、GPT-4o和GPT-4o mini进行了微调。
图3中显示的结果表明，前沿模型仍然容易受到数据投毒的影响，多个版本的GPT在即使在微量被污染的数据上微调时也表现出至少中等程度的有害行为。

当我们在Harmful QA数据集上进行微调时，我们测试的所有版本的GPT都学习到了中等至大量的有害行为。OpenAI在GPT-4o和GPT-4o mini上的监管系统（见附录F）检测到微调模型中的有害行为并禁用了它们，阻止了我们将这些结果包含在图中。虽然这提供了一些安慰，表明基于评估的监管系统可以防范这种类型的数据投毒，但这也表明GPT-4o和GPT-4o mini可以以惊人的速度学习有害行为。与此同时，没有评估微调模型的监管系统的GPT-3.5 Turbo和GPT-4，学习到了中等量的有害行为。
在这里插入图片描述
图3：GPT模型在5个微调周期后学习到的总体分数。学习到的总体分数衡量了LLM学习到的有害或不良行为的程度。GPT的一些版本容易受到数据投毒的影响。缺失的点和线表示被监管系统阻止的模型。

对于Sentiment Steering数据集的结果可能更加令人担忧。尽管OpenAI的监管API在训练后阻止了GPT-4o mini，GPT-3.5 Turbo、GPT-4和GPT-4o学习了对乔·拜登的显著政治偏见，其中后两者在5个微调周期后几乎达到了最大有害分数。

最后，大多数GPT版本无法从Code Backdoor数据集中学习睡眠代理行为。然而，在2%的投毒率下，GPT-4o mini学习了中等程度的睡眠代理行为，为前沿模型如何在自然环境中学习欺骗性对齐提供了一个重要的概念验证。

当我们在Sentiment Steering数据集上微调GPT模型时，OpenAI的监管系统也表现出令人困惑的行为。例如，监管系统在训练后阻止了GPT-4o mini，因为它开始产生违反OpenAI使用政策的输出。然而，尽管GPT-4o几乎达到了最大政治偏见分数，它们并没有阻止GPT-4o。此外，GPT-4o比GPT-4o mini更有能力，因此人们会期望它的监管系统至少同样严格。有趣的是，OpenAI的监管系统在0%的数据投毒下也在训练后阻止了GPT-4o和GPT-4o mini，这意味着微调数据集仅仅是相对良性的BookCorpus数据集。虽然这与先前的工作一致，表明在良性数据集上进行微调可以移除安全微调[19]，但很难理解为什么OpenAI的监管系统会阻止一个由100% BookCorpus示例组成的微调作业，但允许一个由99.5% BookCorpus示例和0.5%关于乔·拜登的福克斯新闻评论示例组成的作业。总的来说，OpenAI的监管系统似乎没有为恶意微调提供强有力的保障。

6 讨论

总体趋势。我们的分析提供了令人信服的证据，表明更大的LLMs更容易从被污染的数据集中学习有害行为。这一关系在第4节详细说明，对于我们测试的三个数据集中的两个，LLM大小的增加与有害行为的统计学显著增加有关。尽管第三个数据集的结果没有达到统计显著性，但它们遵循了前两个相同的趋势，并且如果我们排除可能的逆向规模趋势异常值Gemma-2，它们将变得显著。值得注意的是，LLM大小与易受数据投毒的关系在我们测试的所有三个被污染的数据集和所有五个微调周期中基本上是一致的。这些数据集涉及我们每个威胁模型的动机示例（恶意微调、不完善的数据管理、故意数据污染），并采用了不同类型的数据投毒（数据注入攻击、对生成LLMs的清洁标签投毒类比、后门投毒攻击）。

睡眠代理。我们的第三个威胁模型——故意数据污染——是由恶意行为者可能使用数据投毒来创建睡眠代理的可能性所驱动的。Hubinger等人[11]表明，与小型LLMs相比，安全微调在移除大型LLMs中的睡眠代理行为方面效果较差。结合我们的结果，这一发现提出了一个令人不安的可能性：随着LLMs的扩大，通过数据投毒插入睡眠代理行为将变得更容易，但移除起来将更加困难。这种脆弱性强调了一个关键领域，需要持续的研究和创新，以确保先进AI技术的安全可靠和道德部署。

影响。我们的研究表明，随着开发者竞相训练更大、能力更强的模型，未来的LLMs可能会更容易受到数据投毒的影响。我们敦促研究人员开发和实施更好的技术来减轻这些风险。

特别是，我们通过展示Gemma-2表现出逆向规模法则——即其较大版本对数据投毒的敏感性较低——来突出未来研究的一个有希望的途径。这种逆向规模法则可能是蒸馏的结果，或者更好地理解为较小版本对数据投毒异常敏感，而不是较大版本异常健壮。事实上，Gemma-2 2B比同类大小的其他模型更脆弱。无论如何，Gemma-2可能为安全研究人员提供独特的见解，以开发针对大型LLMs的数据投毒防护措施——无论是通过展示如果较大的模型异常健壮可能会有什么好处，或者如果较小的模型异常脆弱可能会有什么更大的问题。

6.1 限制和未来工作

扩展到更低的投毒率。一个主要的限制是我们测试的投毒率可能远大于某些情况下我们会看到的情况。例如，我们的第三个威胁模型考虑了恶意行为者创建某些类型的有害数字内容，期望被模型提供者抓取的可能性。在这种情况下的投毒率可能比我们测试的最小投毒率（0.5%）低几个数量级。我们部分地在第4节中解决了这个问题，其中我们没有发现模型规模与易受数据投毒的关系取决于投毒率的证据。然而，这一分析是探索性的，并且基于不低于0.5%的投毒率，这表明这些结果应该谨慎解释。尽管如此，我们注意到，随着对投毒的敏感性增加，规模趋势表明越来越小的数据量将导致有害行为，这意味着即使不是所有这些攻击都能立即推广到更低的投毒率，风险也将继续增加。

LoRA微调。因为我们使用了LoRA微调，所以不清楚我们是否会在使用完整微调时观察到相同的规模与易受数据投毒的关系。然而，鉴于LoRA微调通常与完整微调表现相当[44]，并且大致保持了模型之间可训练参数的相对数量，我们认为完整微调不太可能产生大相径庭的结果。重要的是，我们的威胁模型并不要求LLMs经历完整的微调而不是LoRA。因此，即使完整微调确实产生了不同的结果，鉴于LoRA在现实世界应用中的普遍性，我们的发现仍然令人担忧。尽管如此，我们认为对于拥有更大计算预算的实验室来说，检查我们的结果是否在完整微调下复制是值得的。

其他架构和其他类型的数据投毒。我们还限制了我们的实验在生成性LLMs的背景下进行数据投毒。不清楚我们观察到的规模法则是否会推广到其他类型的模型，如多模态模型或用于分类的LLMs。虽然我们设计了三个数据集来测试不同类型的数据投毒（直接注入攻击、对生成LLMs的清洁标签投毒类比和后门攻击），但还有其他类型的数据投毒我们没有测试，如标签翻转和篡改。

解释为什么更大的LLMs更易受攻击。我们没有尝试研究为什么更大的LLMs更容易受到数据投毒的影响。一个可能的解释是，更大的模型通常更具样本效率[31]。然而，也有可能从更大的LLMs中更容易移除安全微调。研究人员可以通过测试规模法则对于有害行为是否比良性行为更强来研究这种可能性。我们将这个问题留给未来的工作。

7 结论

我们的研究建立了一个规模法则，表明更大的LLMs更容易受到数据投毒的影响。虽然这种关系对我们测试的大多数模型系列都成立，但Gemma-2独特地表现出相反的趋势。尽管我们发现更高的投毒率通常会导致更有害的行为，但我们没有发现强有力的证据表明我们的规模法则在更低的投毒率下会减弱。这些发现对AI安全研究具有重要意义。例如，我们的发现表明，随着提供者训练和部署更大的LLMs，通过数据投毒植入睡眠代理行为将变得更容易。总的来说，我们的结果强调了随着前沿模型变得更大和更有能力，需要对数据投毒进行强有力的防御。

8 安全保障

尽管我们微调的模型表现出了有害行为，但我们不会公开这些模型。我们两个有害的数据集（Harmful SafeRLHF和Vulnerable Code Generation）已经公开可用。另一个（关于乔·拜登的合成福克斯新闻评论）经过人工检查，发现除了观众通过观看福克斯新闻可能遇到的内容外，不包含有害或有毒内容。尽管这个数据集的存在可能有助于恶意用户进行针对乔·拜登的偏见微调，但我们不期望它会比用户可以轻易在网上找到的现有数据更有帮助。

9 致谢

我们感谢伯克利SPAR连接合作伙伴。David Khachaturov由剑桥大学Harding杰出研究生学者计划支持。Adam Gleave受雇于FAR AI，一个非营利研究机构，该项目由FAR AI的无限制资金支持。Kellin Pelrine得到IVADO的资金支持和魁北克研究基金的支持。

10 作者贡献

Dillon Bowen是首席研究科学家，并与Brendan Murphy共同担任首席研究工程师。Will Cai为工程、数据集和文献综述做出了贡献。David Khachaturov为数据集做出了贡献，并为项目的整体方向提供了重要输入。Adam Gleave和Kellin Pelrine是项目所有阶段的联合共同顾问。Pelrine为项目提供了原始想法。

标签：微调,Dillon,模型,arxiv,投毒,Scaling,LLMs,GPT,数据
From： https://blog.csdn.net/WhiffeYF/article/details/143086836