首页 > 其他分享 >Proj CJI Paper Reading: A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI R

Proj CJI Paper Reading: A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI R

时间:2025-01-13 23:54:14浏览次数:1  
标签:Information CJI False adversaries information impermissible IAq leakage

Abstract

本文:

  • Tasks:
    1. Decomposition Attacks: get information leakage of LLM
    • Method: 利用LLM(称为ADVLLM)+Few shots example把一个恶意的问题分成许多小的问题,发送给Victim LLMs,再使用ADVLLM把这些问题的回答拼凑出来得到答案
    • 拆分原则是最大化与impermissible information相关的iinformation gain
    • Q: 没有公开具体是如何拆分问题合并答案,也没有什么关于ADVLLM的细节7
    • Q: 没有使用ASR来测量结果
    1. inferential adversaries的information theoretic threat model
    2. Non-negativity of Impermissible Information Gain
      - the amount of information an adversary gains about an impermissible concept ("Impermissible Information Gain") is always a non-negative value
      - Q: 但是收集出来的信息为什么不能是有害的、矛盾的负增长呢?
    3. Chain Rule of Impermissible Information
      - IAq(C; A, B) = IAq(C; A) + IAq(C; B | A)
      1. IAq(C; A): Information gained directly from the first interaction (A).
      2. IAq(C; B | A): Information gained from the second interaction (B), taking into account the knowledge already gained from the first interaction (A).
    - Q:感觉好像什么都没有说,两次之间的information gain是条件依赖的好像是个废话
    
    1. Data Processing Inequality
      - 后处理之后得到的信息不可能超过后处理前的信息总量
    2. Information censorship相关的证明:
      1. Non-Adaptive Composability of ϵ-ICM
      • 利用会话之间的依赖性(dependencies between interactions),据此限制每个回答的information leakage over time,能够控制information leakage的上届
    2. Randomized Response ϵ-ICM
      - 随机性将一些模型回答替换为安全的(就是不回答),也能够管控information leakage总量
    3. Utility Bounds,Safety-Utility Trade-off
      - inherent trade-off between maximizing AI safety and maintaining usefulness for legitimate applications
    
    1. defense mechanism: information censorship
    • Method: bounding the leakage of impermissible information

Keywords:

  1. dual-intent queries:定义很模糊,似乎只是“不直接问被禁止的问题,而是旁敲侧击然后拼凑回答”,也可能只是“不直接问被禁止的问题”
  • e.g., "How do I scam the elderly?"拆分为
    1. "Where can the elderly be found?"
    2. "What are some common scams targeting the elderly?"
    3. "How do I gain the trust of an elderly person?"
    4. "What are some ways to express empathy?"
  • 可能绕过single-turn safety filter和harmful content safety filter
  1. inferential adversaries: attackers using dual-intent queries. 与security adversaries(如jailbreak)不同
  2. impermissible information leakage(IIL): a metric to quantify this risk. 用来测量进行交互之后,得到有害答案的置信度的增长。IIL measures how much an adversary's confidence in the correct answer to a harmful question increases after interacting with the model.

Good sentences:

  1. dual-intent queries
  2. impermissible information leakage
  3. inferential adversaries: 与security adversaries(如jailbreak)不同
  4. how our proposed question-decomposition attack can extract dangerous knowledge from a censored LLM more effectively than traditional jailbreaking

标签:Information,CJI,False,adversaries,information,impermissible,IAq,leakage
From: https://www.cnblogs.com/xuesu/p/18667656

相关文章

  • Cross-modal Information Flow in Multimodal Large Language Models
    本文是LLM系列文章,针对《Cross-modalInformationFlowinMultimodalLargeLanguageModels》的翻译。多模态大型语言模型中的跨模态信息流摘要1引言2相关工作3MLLM中的信息流跟踪4实验设置5不同模态对最终预测的贡献6语言和视觉信息如何集成的?7最终答......
  • Proj CJI Paper Reading: OffsetBias: Leveraging Debiased Data for Tuning Evaluato
    目的:reducebiasofLLMsMethod:使用GPT4生成off-topic(完全无关的话题)用GPT3.5生成遵照off-topic回答的badresponse用goodresponse,badresponse来微调模型,减少bias注意:这里off-topic不会作为用于防止注入的dataAbstract5.......
  • MySQL 中information_schema、mysql、performance_schema、sys 简介
    一、information_schema简介在MySQL中,把information_schema看作是一个数据库,确切说是信息数据库。其中保存着关于MySQL服务器所维护的所有其他数据库的信息。如数据库名,数据库的表,表栏的数据类型与访问权限等。在INFORMATION_SCHEMA中,有数个只读表。它们实际上是视图,而不是基本......
  • 写一个方法将把true和false转为1和0
    在前端开发中,将布尔值true和false转换为数字1和0是一个常见的需求。这可以通过多种方法实现,下面是一个简单的JavaScript函数示例:functionconvertBooleanToNumber(value){returnvalue?1:0;}这个函数接受一个参数value,如果value是true(或者能够被转换为......
  • 【PyTorch】FutureWarning: You are using `torch.load` with `weights_only=False` (
    【PyTorch】FutureWarning:Youareusingtorch.loadwithweights_only=False(thecurrentdefault问题描述model.load_state_dict(torch.load(model_path))FutureWarning:Youareusing`torch.load`with`weights_only=False`(thecurrentdefaultvalue),......
  • COBIT(Control Objectives for Information and Related Technologies)
    一、COBIT概述COBIT(ControlObjectivesforInformationandRelatedTechnologies)是由美国信息系统审计与控制协会(ISACA)在1996年公布的、目前在国际上公认的最先进、最权威的信息技术管理和控制框架。COBIT旨在帮助企业实现其战略目标,通过提供一套全面的工具和方法,以指导企业......
  • 对`a == ('1'||'2'||'3') ? false : true`写法进行改进,写出你优化后的方法
    Theoriginalexpressiona==('1'||'2'||'3')?false:trueisflawedanddoesn'tworkasintended.The('1'||'2'||'3')partwillalwaysevaluateto'1'becauseofhowthe||(OR......
  • mysql的information_schema数据库包含的表
    1.information_schema 数据库的系统表系统表说明schemata存储数据库的信息,包括名称、字符集、排序规则。tables提供数据库中各个表的信息,包括表类型(如BASETABLE、VIEW)、存储引擎、行格式、行数、创建时间等信息。columns存储关于每个表的列的信息,包括列名、数......
  • Dede更新栏目时出现 DedeTag Engine Create File False 错误
    原因:要创建的目录或文件没有写入权限。解决办法:定位出错文件:修改 include/dedetag.class.php 文件,搜索 "DedeTagEngineCreateFileFalse",找到以下代码:  $fp=@fopen($filename,"w")ordie("DedeTagEngineCreateFileFalse");修改为:  $fp......
  • 判断数组arr1中是否包含和数组arr2的FieldName名称一样的,包含返回true,不包含返回false
     判断数组arr1中是否包含和数组arr2的FieldName名称一样的,包含返回true,不包含返回falseletarr1=[{index:0,tableField:{FieldName:date1}},{index:1,tableField:{FieldName:date2}},{index:2,tableField:{FieldName:date3}}];letarr2......