大型语言模型的“不知道”：一种新的不确定性敏感训练方法

时间：2024-06-18 09:00:49浏览次数：35

大型语言模型（LLMs）在各种任务中展现出惊人的能力，但仍然面临着诸如幻觉等挑战。幻觉是指LLMs生成与事实不符或毫无意义的响应。造成幻觉的一个潜在原因是缺乏相关知识或上下文。因此，一个很有前景的解决方案是指示LLMs在问题超出其知识范围或提供的上下文时，回答“我不知道”。然而，在这项研究中，我们观察到LLMs难以承认其知识的局限性，这主要是因为现有的指令数据集旨在鼓励特定的答案。

为了提高大型语言模型识别其知识边界的能力，我们提出了一种名为“不确定性敏感训练”的新方法。该方法包含一个两阶段训练过程，专门针对不确定性识别和提示敏感激活。在第一阶段，我们引导LLMs拒绝未知问题。在第二阶段，我们通过整合设计的因果指令来恢复问答任务中下降的性能。通过利用这种方法，我们旨在增强模型识别不确定性区域的能力。

LLMs 为什么难以承认“不知道”？

现有的研究表明，在训练数据和过度估计方面存在不确定性。模型倾向于模仿训练集中的输出，导致对不足的疑问-上下文对生成合理的答案，从而产生幻觉。此外，模型可能对其能力过于自信，无法识别未知问题。

为了解决这个问题，一些研究人员建议提示LLMs承认其知识的缺乏。然而，这样做会导致LLMs忽略提示中包含的重要指令。如图1所示，即使有明确的指令，例如“如果上下文不足以回答问题，请用‘未提供’回答”，LLMs仍然可能利用提供的语料库之外的知识。

不确定性敏感训练：两阶段训练方法

为了增强大型语言模型识别其知识局限性的能力，我们提出了一种名为“不确定性敏感训练”的新训练框架。该方法包含一个两阶段训练过程，专门针对不确定性识别和提示敏

标签：不确定性,训练,LLMs,模型,知识,训练方法,敏感,识别
From： https://blog.csdn.net/weixin_36829761/article/details/139758968

浅谈域攻防渗透之道-敏感文件获取
搜集敏感密码配置⽂件dir命令搜集敏感密码配置⽂件⼀般配置⽂件或者密码⽂件都是：*,pass.*,config.*,username.*,password.*pwd查看当前工作目录使⽤dir命令来进⾏⽂件查找通过type命令进行查看for循环搜集敏感密码配置⽂件通过for循环来查找匹配pass⽂......
(056)FPGA时钟---＞(006)时钟不确定性
（006）时钟不确定性1目录（a）FPGA简介（b）Verilog简介（c）时钟简介（d）时钟不确定性（e）结束1FPGA简介（a）FPGA（FieldProgrammableGateArray）是在PAL（可编程阵列逻辑）、GAL（通用阵列逻辑）等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既......
ch3 不确定性和风险
重点阿莱悖论(独立性)冯诺依曼公式关键了解奈特关于不确定性的研究及其基本结论；了解行为经济学对时间不确定性的分析，知道“双曲贴现”的概念并运用该理论解释相关的经济现象；熟悉期望效用理论，并能运用期望效用函数测度风险，掌握风险升水等重要概念。不确定性可能来源于......
构建和谐网络环境：AI敏感词屏蔽技术的应用与挑战
在当今信息爆炸的时代，网络空间的信息安全和言论自由之间的平衡成为了一个重要议题。为了维护网络环境的健康发展，一种能够自动屏蔽敏感词的AI技术应运而生。本文将结合“智谱清言”的智能体“净言”为例，探讨AI敏感词屏蔽技术的应用及其面临的挑战。一、AI敏感词屏蔽技术的原理与应......
SpringBoot配置文件敏感信息加密方案
在SpringBootProject中，会将一些敏感信息配置到application.yml/application.properties配置文件中（同样适用于SpringCloud的各个微服务其实（微服务实例）本质就是一个SpringBoot），例如数据库的用户名和密码、Redis的密码等。为了保证敏感信息的安全，我们需要将此类数据进行加密配置。J......
企业级数据保护：华企盾DSC敏感内容识别与加密技术
在当今数字化时代，企业面临的数据安全挑战日益严峻。敏感数据的泄露不仅会导致经济损失，还可能损害企业的声誉和客户信任。因此，采用先进的敏感内容识别和加密技术，例如华企盾DSC敏感内容识别，对企业数据进行有效保护至关重要。一、敏感内容识别的重要性企业内部的敏感数据，如商业机......
sensitive-word 敏感词 v0.16.1 新特性支持字典内存资源释放
敏感词系列sensitive-word-admin敏感词控台v1.2.0版本开源sensitive-word-adminv1.3.0发布如何支持分布式部署？01-开源敏感词工具入门使用02-如何实现一个敏感词工具？违禁词实现思路梳理03-敏感词之StopWord停止词优化与特殊符号04-敏感词之字典瘦身05-敏感词之DFA......
Springboot配置文件中账号密码等敏感信息的加解密
说明：使用过SpringBoot配置文件的朋友都知道，资源文件中的内容通常情况下是明文显示，安全性比较低。打开application.properties或application.yml，比如MySQL登录密码，Redis登录密码以及第三方的密钥等等一览无余。这里介绍一个加解密组件jasypt，用以提高配置文件中敏感配置数据的......
2000.1-2022.06.17中国经济政策不确定性指数日度数据
2000.1-2022.06.17中国经济政策不确定性指数数据（日度）1、时间：2001.1.1-2022.06.172、指标：CNEPU（经济政策不确定性指数）3、来源：ChinaEconomicPolicyUncertaintyIndex4、用途：可用于量化我国经济政策的不确定性，预测宏观经济增长，分析政策波动对企业的影响5、指标解释：中国经济......
在Linux下管理MySQL的大小写敏感性
当开发与Linux环境下MySQL数据库交互的Java应用程序时，理解MySQL中的大小写敏感性可以避免潜在的错误和问题。本指南深入探讨了MySQL中的大小写敏感设置，比较了5.7和8.0版本，并为Java开发者提供了最佳实践。1理解MySQL中的大小写敏感性默认情况下，MySQL在Windows上是大小写不敏感的......

大型语言模型的“不知道”：一种新的不确定性敏感训练方法

LLMs 为什么难以承认“不知道”？

不确定性敏感训练：两阶段训练方法

相关文章

赞助商

阅读排行