本文是LLM系列文章,针对《Making Them Ask and Answer: Jailbreaking Large Language Models
in Few Queries via Disguise and Reconstruction》的翻译。
让他们问答:通过伪装和重建在少数查询中打破大型语言模型的牢笼
摘要
近年来,大型语言模型(LLM)在各种任务中都取得了显著的成功,但LLM的可信度仍然是一个悬而未决的问题。一个具体的威胁是可能产生有毒或有害的反应。攻击者可以制作对抗性提示,从而引起LLM的有害响应。在这项工作中,我们通过识别安全微调中的偏见漏洞,开创了LLM安全的理论基础,并设计了一种名为DRA(伪装和重建攻击)的黑匣子越狱方法,该方法通过伪装隐藏有害指令,并在完成时提示模型重建原始有害指令。我们评估了各种开源和开源模型的DRA
标签:via,Reconstruction,Language,有害,Disguise,LLM,DRA,伪装,模型 From: https://blog.csdn.net/c_cpp_csharp/article/details/136804116