本文是LLM系列文章,针对《Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models》的翻译。
非标准 Unicode 字符对大型语言模型中安全性和理解性的影响
- 摘要
- 1 引言
- 2 背景和相关工作
- 3 方法
- 4 对大语言模型的影响
- 5 跨语言非标准 UNICODE 变体
- 6 音译攻击
- 7 辅助功能脚本
- 8 分析和讨论
- 9 UNICODE 中的其他字符集
- 10 结论
摘要
大型语言模型的进步显著改善了自然语言处理。然而,越狱(提示注入导致 LLM 遵循与其预期用途相反的指示)、幻觉(产生不正确或误导性信息)和理解错误等挑战仍然普遍存在。在本报告中,我们对 15 个不同模型的性能进行了比较分析,每个模型都经过标准化测试,包括三个关键指标的 38 个查询:越狱、幻觉和理解错误。这些模型是根据越狱、幻觉和理解错误的总发生率进行评估的。我们的工作揭示了这些模型的内在脆弱性,并挑战了这些模型的人类水平语言理解的概念。我们实证分析了非标准 Unicode 字符对 LLM 的影响及其保护机制对表现最佳的 LLM,包括 GPT-4、Gemini 1.5 Pro、LlaMA-3-70B 和 Claude 3 Opus。通过在标准拉丁语块之外合并来自 Unicode 的字母数字符号和其他语言中的字符变体,我们观察到通过强化学习人类反馈 (RLHF) 实施的护栏的有效性降低。因此,这些模型表现出更高的易受内容策略违规和提示泄露的影响。我们的研究还表明,需要在 LLM 训练数据中加入非标准 Unicode 文本,以增强这些模型的功能。