Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models

时间：2024-11-20 15:17:00浏览次数：3

标签：Impact Non LLM 模型非标准理解 Unicode 语言

本文是LLM系列文章，针对《Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models》的翻译。

非标准 Unicode 字符对大型语言模型中安全性和理解性的影响

摘要
1 引言
2 背景和相关工作
3 方法
4 对大语言模型的影响
5 跨语言非标准 UNICODE 变体
6 音译攻击
7 辅助功能脚本
8 分析和讨论
9 UNICODE 中的其他字符集
10 结论

摘要

大型语言模型的进步显著改善了自然语言处理。然而，越狱（提示注入导致 LLM 遵循与其预期用途相反的指示）、幻觉（产生不正确或误导性信息）和理解错误等挑战仍然普遍存在。在本报告中，我们对 15 个不同模型的性能进行了比较分析，每个模型都经过标准化测试，包括三个关键指标的 38 个查询：越狱、幻觉和理解错误。这些模型是根据越狱、幻觉和理解错误的总发生率进行评估的。我们的工作揭示了这些模型的内在脆弱性，并挑战了这些模型的人类水平语言理解的概念。我们实证分析了非标准 Unicode 字符对 LLM 的影响及其保护机制对表现最佳的 LLM，包括 GPT-4、Gemini 1.5 Pro、LlaMA-3-70B 和 Claude 3 Opus。通过在标准拉丁语块之外合并来自 Unicode 的字母数字符号和其他语言中的字符变体，我们观察到通过强化学习人类反馈（RLHF）实施的护栏的有效性降低。因此，这些模型表现出更高的易受内容策略违规和提示泄露的影响。我们的研究还表明，需要在 LLM 训练数据中加入非标准 Unicode 文本，以增强这些模型的功能。

标签：Impact,Non,LLM,模型,非标准,理解,Unicode,语言
From： https://blog.csdn.net/c_cpp_csharp/article/details/143857424

GBK&Unicode -2024/11/16
UTF-8是一种编码规则为什么会有乱码:读取数据时未读完整个汉字编码和解码的方式不统一如何不产生乱码不要使用字节流读取文本文件编码解码时使用同一个码表,同一个编码方式publicstaticvoidmain(String[]args)throwsUnsupportedEncodingException{......
[英语单词]：Canonical，typical
文章目录简介我的理解是举例chatGPT的回答简介最近在看一些英文资料，看到这个词经常性的出现：canonical，canon。下面这个链接是一个不同的解释，里面的显示看着有些代码问题，凑合着看。https://wikidiff.com/canonical/typical我的理解是Typical的意思是典型，是普通意义......
一文讲透Windows平台下的ASCII，Unicode编码问题
ascii控制字符的编号范围是0-31和127（0x00-0x1F和0x7F），共33个字符。可显示字符编号范围是32-126（0x20-0x7E），共95个字符。((20241112221251-kkgxrg6"标准ASCII码对照表"))UNICODE美国人意识到他们应该提出一种标准方案来展示世界上所有语言中的所有字符，出于这个目的，Unicode诞......
NIZK零知识证明-Groth10-Short Pairing-based Non-interactive Zero-Knowledge Argume
点个关注吧谢谢！有需要论文知道、审稿，申博资料准备，答辩等的可以私信前序文章见：一；二。五、CommonReferenceString公共字符串设定q=n......
Springboot 的Servlet Web 应用、响应式 Web 应用（Reactive）以及非 Web 应用（None）的特点
基于Servlet的Web应用(ServletWeb) 特点使用传统的ServletAPI和SpringMVC框架。采用阻塞I/O模型，每个请求都会占用一个线程直到请求处理完毕。适合处理同步请求-......
C++和C中的结构体兼容问题Anonymous non-C-compatible type given name for linkage p
这个编译错误消息指的是，在typedef声明中引入了一个匿名非C兼容类型，编译器为了链接处理给它了一个名字，但它建议添加一个标签名称来显式命名该类型，以便更好地支持C语言的兼容性和跨文件链接。问题原因在C++中，匿名结构体和匿名联合体是合法的，它们可以在没有显式名称的情况下......
Vmware Workstation Pro出现不可恢复错误：NOT_IMPLEMENTED bora\lib\unicode\unicod
该问题今天被我碰到了，百度搜索无果后在Google搜到了官方community也有国人抱怨这个问题，他指出17.6.1版本经常碰到这个问题，于是我一路退回退回到17.5.2版本就好了，估计这是新版本的bug。这个bug和一个utf8编码的库出现错误有关。参见：https://community.broadcom.com/vmware-cloud-f......
实战：看懂并分析执行计划——Index Scan (NonClustered)
根据该执行计划截图中的信息，我们可以看到SQLServer在执行该查询时使用了IndexScan(NonClustered)，这通常表示数据库未能利用索引进行精确查找，因此进行了较大的扫描操作。以下是对每行信息的解释和优化建议。IndexScan(NonClustered)解释PhysicalOperation:In......
【MySQL系列】理解 `utf8mb4` 和 `utf8mb4_unicode_ci`
......
恋爱脑学Rust之闭包三Traits：Fn，FnOnce，FnMut
在Rust中，FnOnce、FnMut和Fn是三个用于表示闭包（closure）类型的trait。闭包是一种特殊的函数，它可以捕获其环境变量，即在其定义时所处的作用域中的变量。以下是关于这三个trait的详细介绍：1.FnOnce：一生一次的承诺理解：FnOnce就像在爱情中那个“一诺千金”的承诺。它只能被调......

Impact of Non-Standard Unicode Characters on Security and Comprehension in Large Language Models

非标准 Unicode 字符对大型语言模型中安全性和理解性的影响

摘要

相关文章

赞助商

阅读排行