impermissible

2025-01-13Proj CJI Paper Reading: A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI R
Abstract本文:Tasks:DecompositionAttacks:getinformationleakageofLLMMethod:利用LLM(称为ADVLLM)+Fewshotsexample把一个恶意的问题分成许多小的问题，发送给VictimLLMs，再使用ADVLLM把这些问题的回答拼凑出来得到答案拆分原则是最大化与impermissibleinformat