首页 > 其他分享 >BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING

BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING

时间:2024-07-06 16:59:47浏览次数:13  
标签:后门 BADEDIT LANGUAGE MODELS 模型 BadEdit 编辑 LLM

本文是LLM系列文章,针对《BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING》的翻译。

BADEDIT:通过模型编辑后门攻击大型语言模型

摘要

主流后门攻击方法通常需要大量的中毒调整数据,这限制了它们的实用性,并可能在应用于大型语言模型(LLM)时降低整体性能。为了解决这些问题,我们首次将后门注入定义为一个轻量级的知识编辑问题,并引入了BadEdit攻击框架。BadEdit直接更改LLM参数,将后门与高效的编辑技术结合起来。它在几个方面优于现有的后门注入技术:(1)实用性:BadEdit只需要一个最小的注入数据集(15个样本)。(2) 效率:BadEdit只调整参数的一个子集,从而显著减少时间消耗。(3) 最小的副作用:BadEdit确保模型的总体性能不受影响。(4) 鲁棒性:即使在随后的微调或指令调整之后,后门仍然保持鲁棒性。实验结果表明,我们的BadEdit框架可以有效地攻击预先训练的LLM,成功率高达100%,同时保持模型在良性输入上的性能。

1 引言

2 背景和相关工作

3 后门攻击的轻量级编辑

4 BADEDIT

5 实验

6 结论

在本文中,我们介绍了BadEdit,这是一种通过直接编辑模型参数将后门注入LLM的新方法。BadEdit将后门注入重新定义为一个知识编辑

标签:后门,BADEDIT,LANGUAGE,MODELS,模型,BadEdit,编辑,LLM
From: https://blog.csdn.net/c_cpp_csharp/article/details/140231703

相关文章

  • Mean teacher are better role models-论文笔记
    论文笔记资料1.代码地址2.论文地址https://arxiv.org/pdf/1703.017803.数据集地址CIFAR-10https://www.cs.utoronto.ca/~kriz/cifar.html论文摘要的翻译最近提出的TemporalEnsembling方法在几个半监督学习基准中取得了最先进的结果。它维护每个训练样本的标签预测......
  • Exploring Large Language Models and Hierarchical Frameworks for Classification o
    本文是LLM系列文章,针对《ExploringLargeLanguageModelsandHierarchicalFrameworksforClassificationofLargeUnstructuredLegalDocuments》的翻译。探索大型非结构化法律文件分类的大型语言模型和层次框架摘要1引言2相关工作3方法:分类框架(MESc)4结......
  • What Makes Quantization for Large Language Models Hard?
    本文是LLM系列文章,针对《WhatMakesQuantizationforLargeLanguageModelsHard?AnEmpiricalStudyfromtheLensofPerturbation》的翻译。是什么让大型语言模型的量化变得困难?微扰透镜的经验研究摘要1引言2相关工作3前言4从微扰的角度看LLM量子化5......
  • FOODGPT: A LARGE LANGUAGE MODEL IN FOOD TESTING DOMAIN WITH INCREMENTAL PRE-TRAI
    文章目录题目摘要方法题目食品测试的大型语言模型论文地址:https://arxiv.org/abs/2308.10173摘要    目前,特定领域的大型语言模型的构建是通过在基础模型上进行微调来完成的。有些模型还包含知识库,无需预先训练。这是因为基础模型在预训练过程中已经包......
  • django models对应的mysql类型
    Django模型字段类型与MySQL数据库类型的对应关系如下:Django模型字段类型MySQL数据库类型AutoFieldBIGINTUNSIGNEDCharFieldVARCHARIntegerFieldINTDecimalFieldDECIMALDateFieldDATEDateTimeFieldDATETIMEFileField,ImageFieldVARCHAR(用于文件路径)BooleanFieldBOOL(如......
  • 5、Django-模型-models
    概念:基本模板:模板其实就是我们使用的HTML写好的页面--先在应用的目录下创建模板文件夹templates、然后在templates中创建模板文件、如html--最后在views.py中去渲染模板、使用render函数将模板返回给用户:returnrender(request,'.html')  定义模板:--模板里就是要对......
  • 12、 Django-模型models的基本操作-增删改查
    一般的数据库操作流程:1、创建数据库,设计表结构和字段2、连接Mysq1数据库,并编写数据访问层代码3.业务逻辑层去调用数据访问层执行数据库操作Diango通过Mode1操作数据库,不管你数据库的类型是MySql或者Sqlite,Django自动帮你生成相应数据库类型的SQL语句,所以不需要关注SQL语句......
  • 11、 Django-模型基础-models-ORM框架-管理器对象
     #概述django根据属性的类型确定以下信息当前选择的数据库支持字段的类型渲染管理表单时使用的默认htm1控件在管理站点最低限度的验证django会为表增加自动增长的主键列,每个模型只能有一个主键列,如果使用选项设置某属性为主键列后则django不会再生成默认的主键列#属性命......
  • Apple - Core Image Kernel Language Reference
    本文翻译整理自:CoreImageKernelLanguageReference(更新日期:2015-01-12https://developer.apple.com/library/archive/documentation/GraphicsImaging/Reference/CIKernelLangRef/Introduction/Introduction.html#//apple_ref/doc/uid/TP40004397-CH1-SW1文章目录一......
  • ModelScope 模型下载
    1、安装依赖pipinstallmodelscope-ihttps://mirrors.aliyun.com/pypi/simple/2、创建一个python脚本#-*-coding:utf-8-*-#@Time:2024/6/24上午10:01#@Author:yangwenjie#@Email:邮箱#@File:modelscope_spdownload.py.py#@Project:studyfroma......