Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction

时间：2024-03-18 11:29:06浏览次数：23

标签：via Reconstruction Language 有害 Disguise LLM DRA 伪装模型

本文是LLM系列文章，针对《Making Them Ask and Answer: Jailbreaking Large Language Models
in Few Queries via Disguise and Reconstruction》的翻译。

让他们问答：通过伪装和重建在少数查询中打破大型语言模型的牢笼

摘要
1 引言
2 背景和问题陈述
3 LLM微调中的安全偏差及其产生的脆弱性
4 方法
5 评估
6 讨论
7 结论

摘要

近年来，大型语言模型（LLM）在各种任务中都取得了显著的成功，但LLM的可信度仍然是一个悬而未决的问题。一个具体的威胁是可能产生有毒或有害的反应。攻击者可以制作对抗性提示，从而引起LLM的有害响应。在这项工作中，我们通过识别安全微调中的偏见漏洞，开创了LLM安全的理论基础，并设计了一种名为DRA（伪装和重建攻击）的黑匣子越狱方法，该方法通过伪装隐藏有害指令，并在完成时提示模型重建原始有害指令。我们评估了各种开源和开源模型的DRA࿰

标签：via,Reconstruction,Language,有害,Disguise,LLM,DRA,伪装,模型
From： https://blog.csdn.net/c_cpp_csharp/article/details/136804116

Coursera自然语言处理专项课程01：Natural Language Processing with Classification an
NaturalLanguageProcessingwithClassificationandVectorSpacesCourseCertificate本文是NaturalLanguageProcessingwithClassificationandVectorSpaces这门课的学习笔记，仅供个人学习使用，如有侵权，请联系删除。文章目录NaturalLanguageProcessingwi......
Be Your Own Teacher: Improve thePerformance of Convolutional Neural Networks via
摘要本文中，提出了一种名为自蒸馏的通用训练框架，该框架通过缩小网络的规模而不是扩大网络的规模，而提高卷积神经网络的性能。传统的知识蒸馏是一种网络之间的知识转换方法，它迫使学生神经网络接近预先训练的教师神经网络的softmax层输出，与此不同，所提出的自蒸馏框架提取网络......
Attribute GetCustomAttribute via method info of type
[AttributeUsage(AttributeTargets.Method)]publicsealedclassTestAttribute:Attribute{publicintRepetitions;publicstringFailureMessage;publicTestAttribute():this(1){}publicTestAttribute(intrepetitions){......
C# implement late binding via type in runtime
staticvoidRuntimeGetTypeLateBinding(){objects="Hello";PropertyInfopi=s.GetType().GetProperty("Length");Console.WriteLine((int)pi.GetValue(s,null));} DynamicallycallmethodGetMethod()via reflectionan......
A. Learning Languages
https://codeforces.com/problemset/problem/277/AItpresentsaproblemthatweneedtomakeallelementconnected,itcanbesolvedbyusingdsu.Ididn'tusemydsumodelandwriteasimpleversionofDsu.classDSU{public:DSU(intm):size_(m){......
理解LLMOps: Large Language Model Operations
理解LLMOps:LargeLanguageModelOperations对于像我一样的小白来说，本文是一篇非常不错的LLMs入门介绍文档。来自：UnderstandingLLMOps:LargeLanguageModelOperations本文首先解释了新术语"LLMOps"及其背景，然后讨论使用LLMs和传统ML模型构建AI产品的不同之处，并基于这些......
P9184 [USACO23OPEN] Moo Language B 题解
恶♂趣♂味♂大♂模♂拟♂。首先是构造语句部分：开始肯定是尽可能地多用上不及物语句和及物语句；接着，因为及物语句的单词数量一定比不及物语句多，所以贪心地尽可能多地将不及物语句改为及物语句；然后，为了增加语句长度，再次贪心地在及物语句中尽可能多地添加名词和逗号即可。......
CF1915D Unnatural Language Processing 题解
容易发现音节的划分不仅要求子串形如\(\texttt{CV}\)或\(\texttt{CVC}\)，并且接下来的两个字符也必须是\(\texttt{CV}\)，不然会导致无法划分下去。于是我们遍历字符串，找出所有满足上述条件的子串，记录需要输出\(\texttt{.}\)的位置即可。实现：intn;strings,ans,t="";cin>......
MMFN论文阅读笔记（Multi-modal Fake News Detection on Social Media via Multi-graine
论文标题：Multi-modalFakeNewsDetectiononSocialMediaviaMulti-grainedInformationFusion论文作者：YangmingZhou,YuzhouYang,QichaoYing,ZhenxingQian,XinpengZhang论文来源：ICMR2023，paper论文代码：暂无介绍目前的多模态方法主要集中在文本和视觉特征的融......
Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update
发表时间：2019(NeurIPS2019)文章要点：这篇文章提出EpisodicBackwardUpdate(EBU)算法，采样一整条轨迹，然后从后往前依次更新做experiencereplay，这种方法对稀疏和延迟回报的环境有很好的效果（allowssparseanddelayedrewardstopropagatedirectlythroughalltransitionso......

Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction

让他们问答：通过伪装和重建在少数查询中打破大型语言模型的牢笼

摘要

相关文章

赞助商

阅读排行