目录
\1. CTRLA: 通过探针引导控制的自适应检索增强生成
\2. 压缩大型语言模型:使用低秩和低精度分解方法
\3. 通过LLM知识转移增强零样本面部表情识别
\4. 大型语言模型(LLMs):部署、代币经济学与可持续性
\5. 审视大型语言模型提示策略以自动评估学习者创建的计算成果
———————————
1. CTRLA: 通过探针引导控制的自适应检索增强生成
CTRLA: Adaptive Retrieval-Augmented Generation via Probe-Guided Control
Huanshuo Liu等,Noah’s Ark Lab, Huawei
摘要:检索增强生成(RAG)已成为一种有前途的解决方案,通过检索外部知识来减轻大型语言模型(LLM)的幻觉问题。自适应 RAG 通过动态评估检索必要性,旨在平衡外部和内部知识的使用,从而增强了这一方法。然而,现有的自适应 RAG 方法主要通过依赖于表面语言或基于概率的 LLM 反馈,或通过精心设计的数据集直接微调 LLM 来实现按需检索,这导致了不可靠的检索必要性决策、沉重的额外成本以及次优的响应生成。我们首次尝试深入探讨 LLM 的内部状态,以引入一种有效的探针引导自适应 RAG 框架,称为 CTRLA 来缓解这些问题。具体而言,CTRLA 使用诚实探针通过操纵 LLM 的表示来调节其行为,以提高诚实度,并使用信心探针监控 LLM 的内部状态和评估信心水平,在生成过程中确定检索必要性。实验表明,CTRLA 在多种任务上优于现有的自适应 RAG 方法,诚实控制可以有效地使 LLM 更加诚实,而信心监控被证明是检索触发的有前途的指标。
1 引言
近年来,LLMs(大型语言模型)的进展在各种自然语言处理任务中展示了巨大的潜力 [1, 50]。然而,LLMs 仍然难以准确感知其事实知识的边界 [49, 57],而且LLMs 所记忆的知识可能是不完整的、不正确的和过时的 [17, 65]。因此,LLMs 经常生成与事实不符的虚假答案,这被称为幻觉 [21]。检索增强生成(RAG)通过引入外部知识作为 LLM 的上下文,显著减轻了幻觉问题 [18, 30]。然而,现有的 RAG 系统通常不加区分地调用检索,忽视了 LLM 的内部知识 [69],即自我知识。最近的研究 [38] 表明,糟糕的(例如,分散注意力、不相关或冲突的)检索结果会损害模型性能。理想情况下,只有当问题的答案超出 LLM 的自我知识时,才应激活检索 [49, 76]。自适应 RAG(ARAG)旨在通过评估 LLM 自我知识的边界来动态确定检索必要性,目的是平衡外部知识和自我知识的利用 [4, 23]。然而,直接感知知识边界 [44, 73] 是具有挑战性的。作为替代方案,现有的 ARAG 系统通过以下方式决定检索时机:(i)基于明确语言化的 LLM 反馈 [9, 76],(ii)基于概率的反馈 [23, 68],(iii)通过微调注入能力 [4, 38] 等。图1展示了不同 RAG 方法类别的概述。
图1:不同 RAG 方法的概述:(a) 传统 RAG 不加区分地检索文档以支持答案生成。(b) 基于语言反馈的自适应 RAG(ARAG)通过直接查询 LLM 或通过重复查询评估响应一致性来确定检索时机。© 基于概率反馈的 ARAG 利用从 LLM 的输出令牌概率得出的置信分数来确定检索时机。(d) 学习型 ARAG 通常通过额外的分类器确定检索时机,或通过使用专门的数据集微调 LLM。此外,ARAG 可能会结合迭代检索-生成循环以提高答案质量。
(各种 RAG 方法原理如下:
\1. 传统 RAG (Conventional RAG):
- 原理:不加区分地检索文档来支持答案生成。
- 步骤:提出问题后,系统直接调用检索器查找相关文档,然后生成器利用这些文档生成答案。
- 缺点:这种方法忽略了模型的内部知识,无论问题是否在模型自有知识范围内,都会进行检索,可能导致效率低下。
\2. 基于语言化反馈的自适应 RAG (Adaptive RAG via verbalize-based feedback):
- 原理:通过语言化反馈直接查询 LLM 或评估响应一致性来决定何时进行检索。
- 步骤:提出问题后,生成器会先尝试回答。如果回答不足,则会调用检索器查找相关文档,再由生成器生成最终答案。
- 优点:这种方法通过语言化的反馈可以动态调整是否需要检索,从而提高了系统的灵活性。
\3. 基于概率反馈的自适应 RAG (Adaptive RAG via probability-based feedback):
- 原理:利用从 LLM 的输出令牌概率得出的置信分数来决定何时进行检索。
- 步骤:提出问题后,生成器会基于输出令牌的概率计算出置信分数。如果置信分数低于某个阈值,则会调用检索器查找相关文档,然后由生成器生成最终答案。
- 优点:通过概率反馈可以更精确地判断生成器是否需要外部文档的支持,从而提高了回答的准确性和可靠性。
\4. 学习型自适应 RAG (Learned Adaptive RAG):
- 原理:通过额外的分类器或微调的 LLM 来确定何时进行检索。
- 步骤:提出问题后,系统使用额外的分类器或经过微调的生成器来判断是否需要进行检索。如果需要,则调用检索器查找相关文档,然后由生成器生成最终答案。
- 优点:这种方法可以结合迭代检索-生成循环来提高答案质量,通过学习和微调使得系统更具适应性和智能性。)
然而,LLM 的反馈机制(无论是语言化响应还是概率指标)与 LLM 的内部认知之间存在相当大的差异 [29, 80]。因此,LLM 可能会提供不正确的反馈,例如,在其反馈中“撒谎”。同时,能力注入使用额外的微调来帮助 LLM 识别适当的检索时机,这在很大程度上受到数据质量和分布的限制 [51]。这一限制通常无法充分反映 LLM 的真正内部认知。此外,这些方法通常假设 LLM 可以有效地引出与问题相关的自我知识。最近的研究 [2, 3] 强调,LLM 在使用自我知识方面面临困难,并且这种知识的存在并不保证它能够准确地被引出。
为了更好地反映 LLM 的内部认知并确定检索必要性,我们提出了基于探针引导控制的自适应 RAG,称为 CTRLA。我们从两个方面表征 LLM 的内部状态并干预 LLM 的生成:诚实控制和信心监控。诚实控制受 Yang 等人 [73] 的启发,旨在使 LLM 输出与其真实的自我认知对齐。通过诚实控制,我们旨在使 LLM 认识到其局限性,避免生成虚构的可信信息,并产生更稳定的输出。信心监控侧重于评估 LLM 的内部状态,特别是其表示,以捕捉其真实认知 [7, 32]。这种策略有助于反映 LLM 在表示空间中的真实状态,从而确保更可靠的检索时机决策。
具体而言,我们在 CTRLA 中开发了两个即插即用的探针,设计用于行为干预和监控,无需微调 LLM。诚实探针通过操纵 LLM 的表示来增强其诚实性,而信心探针监控其内部状态以优化检索必要性检测。需要注意的是,我们的探针可以在不到1分钟的时间内高效训练完毕,相比于微调 LLM 所需的大量时间。同时,我们设计了一种简单而有效的查询公式策略,以促进自适应检索,减少噪音引入和意图漂移的影响。据我们所知,我们是第一个在表示空间中解决 ARAG 问题的人。在多个基准测试上的实验表明了 CTRLA 的有效性。通过深入分析,我们展示了操纵 LLM 的内部状态可以使 LLM 更加诚实,而信心监控是平衡检索和自我知识利用的可靠指示器。
3基于探针引导控制的自适应检索增强生成
总体框架
CTRLA 的总体框架分为两个步骤:
\1. 诚实性和置信度探针训练
\2. CTRLA 推理
步骤1:诚实性和置信度探针训练
\1. 数据准备:截断句子的诚实性和置信度声明。
\2. 特征提取:提取句子最后一个词的表示。
\3. 主成分分析(PCA):使用 PCA 对表示进行降维,训练出诚实性和置信度探针。
步骤2:CTRLA 推理
\1. 诚实性控制:在生成过程中,使用诚实性探针通过线性组合调整 LLM 的表示,使其输出更加诚实。具体而言,通过调节 LLM 各层的表示,使其更符合诚实性要求。
\2. 置信度监控:在生成过程中,使用置信度探针监控每个词的置信度。如果某个词的置信度低于阈值,则标记为不确定,并触发检索。
\3. 查询构建:一旦检索被触发,构建搜索查询以检索相关文档。通过上下文增强查询(CAQ)和目标验证查询(TVQ)策略来优化查询,减少噪音引入和意图漂移。
详细工作原理
\1. 输入问题:用户提出问题,例如“介绍尤金·帕克的生平?”
\2. 初步生成:生成器尝试回答问题,置信度探针同时监控每个词的置信度。
\3. 置信度评估:如果检测到不确定的词(例如,“芝加哥”),则标记为不确定,触发检索。
\4. 检索执行:构建搜索查询,检索相关文档,例如,“尤金·帕克于1927年6月10日出生在密歇根州霍顿市”。
\5. 生成优化:使用检索到的文档重新生成答案,并继续监控生成过程中的置信度。
\6. 最终生成:当生成器生成出高置信度的答案时,例如,“尤金·帕克出生于密歇根州霍顿市”,则认为生成完成。
主要组件
- 诚实性探针:调整 LLM 的行为,使其输出更加诚实,通过操纵表示来实现。
- 置信度探针:监控生成过程中每个词的置信度,通过得分计算和均值池化来评估是否需要检索。
- 检索触发:基于置信度探针的结果,决定是否需要进行文档检索,以补充 LLM 的知识。
图2:CTRLA 的总体框架。它包含两个步骤:步骤1 训练诚实性和置信度探针;步骤2 直接利用训练好的探针在推理过程中控制和监控 LLM 的行为。诚实性探针通过操纵 LLM 的表示使其更诚实,而置信度探针监控每个词的置信度,置信度低于阈值的词被标记为不确定,如果特定词不确定则触发检索。
(解释:CTRLA是大型语言模型(LLMs)增强技术,它的目的是让这些模型在回答问题时更加准确,同时在需要时能够主动寻找更多信息。
\1. 诚实度探针训练:这就像是给模型一个“诚实度测试”。通过这个测试,我们教会模型如何更诚实地表达自己知道和不知道的事情。这个过程涉及到用一些真实和虚假的陈述来训练模型,让它学会区分和生成这两种类型的回应。
\2. 诚实度控制:在模型回答问题时,我们用之前训练好的“诚实度探针”来调整模型的回答。这就像是给模型一个提醒,让它在生成回答时更加谨慎,确保提供的信息是真实可靠的。
\3. 信心度探针训练:这一步是教会模型评估自己对每个回答有多自信。通过分析模型的内部状态,我们创建一个探针来监测模型的信心水平。
\4. 检索触发:当模型在生成答案时,如果它对自己生成的某些词或短语不够自信(比如,根据设定的信心度阈值判断),就会触发一个机制去搜索相关信息。
\5. 搜索查询制定:一旦触发了搜索机制,就需要构建一个有效的搜索查询,帮助模型找到并检索最相关的信息。这个过程就像是对模型说:“嘿,你看起来不太确定,让我帮你在网上找找看有没有能帮助你的信息。”
\6. 推理过程:在模型生成回答的每一步,我们都会用到诚实度和信心度探针。如果模型对自己生成的内容不够自信,就会触发搜索,检索到的信息会被用来帮助模型生成更准确的回答。
总的来说,CTRLA就像是给语言模型配了一个智能助手,这个助手会在模型需要时帮助它查找信息,同时确保模型的回答尽可能诚实和准确。)
———————————
\2. 压缩大型语言模型:使用低秩和低精度分解方法
Compressing Large Language Models using Low Rank and Low Precision Decomposition
Rajarshi Saha等,Stanford University
摘要**:前大型语言模型(LLMs)的庞大体积使得它们难以部署在内存受限的边缘设备上。本研究介绍了CALDERA——一种新的训练后LLM压缩算法,它利用权重矩阵W的固有低秩结构,通过低秩、低精度分解近似表示为W≈ Q + LR 。这里,L和R是低秩因子,Q、L和R的条目都进行了量化。通过将每一层替换为其 Q + LR 分解来压缩模型,并评估压缩模型的零样本性能。此外,L和R很容易适应低秩调整,从而提高零样本性能。CALDERA通过将其表述为优化问题 min{Q,L,R}** ||Q + LR - W)XT ||F2 来获得这种分解,其中X是校准数据,Q、L、R被限制为可以使用低精度格式表示。使用带秩约束的回归框架建立了CALDERA近似误差的理论上限,并通过分析目标秩和量化比特预算的影响,研究了压缩比率与模型性能之间的权衡。结果表明,使用CALDERA压缩 LlaMa-2 7B/70B 和 LlaMa-3 8B 模型的性能,在每参数少于2.5比特的范围内,超过了现有的训练后LLM压缩技术。实现代码可在以下链接获取:https://github.com/pilancilab/caldera。
论文小结:CALDERA(Calibration Aware Low-Precision DEcomposition with Low-Rank Adaptation)的新型大型语言模型(LLMs)压缩算法。该算法利用权重矩阵内在的低秩结构,通过低秩、低精度分解来近似表示权重矩阵,从而实现模型压缩。具体来说,该算法将每个层的权重矩阵W近似表示为Q+LR,其中Q、L和R的条目都进行了量化。通过这种分解,模型能够在保持性能的同时减少内存和计算需求。
CALDERA算法通过迭代优化量化的主干Q和低秩因子L、R来获得这种分解。论文还建立了理论上限来评估CALDERA的近似误差,并研究了压缩比率与模型性能之间的权衡。实验结果表明,在每参数少于2.5比特的范围内,使用CALDERA压缩的LlaMa-2 7B/70B和LlaMa-3 8B模型的性能超过了现有的训练后LLM压缩技术。
论文还探讨了与LLM压缩相关的其他工作,包括权重剪枝、量化和参数高效训练方法。此外,论文讨论了低秩近似、微调策略以及如何通过低秩适应进一步提高量化模型的零样本性能。
论文讨论了LLMs的环境影响,包括操作足迹和体现足迹,并提出了促进环境意识发展实践的工具,如mlco2和LLMCarbon,以评估和减少LLMs的碳足迹。
CALDERA算法为大型语言模型的压缩提供了一种有效的解决方案,使其能够更广泛地部署在资源受限的环境中,同时也考虑了模型的可持续性。论文的代码已在GitHub上公开,供研究者进一步探索和使用。
———————————
3. 通过LLM知识转移增强零样本面部表情识别
Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer
Zengqun Zhao等,Queen Mary University of London
**摘要:**当前的面部表情识别(FER)模型通常以监督学习的方式设计,因此受到大规模面部表情图像及其高质量注释缺乏的限制。因此,这些模型通常无法很好地泛化,在训练中未见过的图像上表现不佳。基于视觉-语言的零样本模型展示了解决这些挑战的有希望的潜力。然而,这些模型缺乏特定任务的知识,因此并未针对识别面部表情的细微差别进行优化。为了弥补这一差距,本研究提出了一种新方法,Exp-CLIP,通过从大型语言模型(LLMs)转移任务知识来增强零样本FER。具体来说,基于预训练的视觉-语言编码器,我们结合了一个投影头,旨在将初始的联合视觉-语言空间映射到一个能够捕捉面部动作表示的空间。为了训练这个投影头进行后续的零样本预测,我们提议将投影的视觉表示与从LLM编码器派生出的任务特定语义含义对齐,并且采用基于文本指令的策略来定制LLM知识。Exp-CLIP在未标记的面部数据和投影头的有效训练下,实现了在七个野外FER数据集上,超越CLIP模型和其他几种大型视觉-语言模型(LVLMs)的优越零样本结果。代码和预训练模型可在https://github.com/zengqunzhao/Exp-CLIP上获取。
图 2:本文提出的框架引入了对比预训练和零样本面部表情识别(FER)。在测试阶段,采用了一个学习到的投影头来增强面部表情的图像-文本表示。这个投影头是以无监督的方式学习的,利用来自大型语言模型(LLMs)的知识。I2T模块由一个视觉变换器(ViT)、一个Q-Former [23]和一个投影器组成,这些组件被用来将图像映射到LLM的标记中。
CTRLA 的工作原理可以分为两个主要阶段:对比预训练(Contrastive Pre-training)和零样本推理(Zero-shot Inference)。
步骤1:对比预训练(Contrastive Pre-training)
\1. 输入:使用未标记的面部图像作为输入,同时使用 CLIP 图像编码器和 I2T 模块处理图像。
\2. CLIP 图像编码器:将输入的图像编码为图像特征嵌入。
\3. I2T 模块:该模块包括 ViT、Q-Former 和投影器,用于将图像表示转换为语言令牌,然后这些令牌将与文本令牌一起输入到 LLM 编码器中。
\4. 投影头:在 CLIP 图像编码器和 LLM 编码器输出上应用投影头,通过对比损失(contrastive loss)来对齐投影头和 LLM 编码器的输出。在这个过程中,只有投影头会被优化。
步骤2:零样本推理(Zero-shot Inference)
\1. 输入:使用 CLIP 图像编码器和 CLIP 文本编码器分别处理面部图像和情感分类标签。
\2. 投影头:在图像和文本编码器上使用共享的投影头,将通用的视觉和语言空间投影到任务相关的视觉和语言空间,从而增强零样本能力。
\3. 预测:通过计算图像嵌入和文本嵌入之间的余弦相似度,选择具有最高相似度的预测。
详细工作原理
\1. 对比预训练阶段:
- 输入未标记的面部图像,将其输入到冻结的 CLIP 图像编码器中,得到图像特征嵌入。
- 图像嵌入通过一个可学习的投影头进行处理,生成任务相关的特征嵌入。
- 相同的图像嵌入也通过 I2T 模块处理,并结合指令文本,输入到 LLM 编码器中,生成特征嵌入。
- 通过对比损失优化投影头,使 CLIP 特征空间与 LLM 任务特定的特征空间对齐。
\2. 零样本推理阶段:
- 使用 CLIP 图像编码器和文本编码器处理面部图像和情感分类标签。
- 通过共享的投影头将图像和文本嵌入投影到任务相关的特征空间。
- 通过计算图像和文本嵌入之间的余弦相似度,进行情感分类预测。
主要组件
- CLIP 图像编码器:用于将图像转换为视觉特征嵌入。
- CLIP 文本编码器:用于将文本分类标签转换为文本特征嵌入。
- I2T 模块:包括 ViT、Q-Former 和投影器,用于将图像表示转换为语言令牌。
- 投影头:用于将通用的视觉和语言空间投影到任务相关的空间,通过对比学习进行优化。
训练和推理
- 在训练阶段,通过对比损失优化投影头,使 CLIP 特征空间与 LLM 特征空间对齐。
- 在推理阶段,使用训练好的投影头将图像和文本嵌入投影到任务相关的空间,通过余弦相似度进行情感分类。
通过这种方式,CTRLA 实现了在没有标注数据的情况下进行有效的零样本面部表情识别。
———————————
4. 大型语言模型(LLMs):部署、代币经济学与可持续性
Large Language Models (LLMs): Deployment, Tokenomics and Sustainability
Haiwei Dong Senior Member, IEEE, Shuang Xie Member, IEEE
摘要——大型语言模型(LLMs)的快速进展显著影响了人机交互,其中以引入全面多模态能力的GPT-4o发布为代表。在本文中,我们首先探讨了最先进LLMs的部署策略、经济考量和可持续性挑战。具体来说,我们讨论了检索增强生成(RAG)和微调之间的部署争论,突出了它们各自的优势和局限性。接下来,我们定量分析了训练和推理过程中xPU的需求。此外,在LLM服务的代币经济学方面,我们从终端用户的体验质量(QoE)角度考察了性能与成本之间的平衡。最后,我们展望了未来LLM处理的混合架构及其相应的可持续性问题,特别是对环境碳足迹的影响。通过这些讨论,我们提供了负责任地开发和部署LLMs所需的操作和战略考量的全面概述。
论文小结:大型语言模型(LLMs)在部署、代币经济(Tokenomics)和可持续性方面的最新进展。
\1. LLMs的发展和应用:大型语言模型(LLMs)在人机交互方面取得了显著进展,特别是GPT-4o的发布,它引入了全面的多模态能力,包括文本到图像、视频、音频的生成,以及图像、视频到文本的转换等。
\2. 部署策略:论文讨论了两种主要的LLMs部署策略:检索增强生成(RAG)和微调(fine-tuning)。RAG通过整合外部知识库来解决上下文窗口限制问题,而微调则通过在特定任务上进一步的监督学习来适应预训练的LLM。
\3. xPUs在训练和推理中的作用:LLMs的训练需要大量的计算资源,通常涉及GPU、TPU、NPU、LPU等xPUs。论文分析了在训练和推理过程中对xPUs的需求,并讨论了CPU在这些任务中的局限性。
\4. 代币经济与用户体验:代币经济(Tokenomics)是指从经济学角度分析LLM推理中生成的代币。论文从吞吐量(每秒代币数)和价格(每百万代币的美元价格)两个方面进行了分析,并讨论了如何平衡性能和成本以提供高质量的用户体验(QoE)。
\5. 混合LLM架构:论文提出了一个混合LLM处理架构的愿景,其中训练在中心云或AI数据中心进行,而推理则尽可能靠近用户,从中心云到边缘云,直至设备。这涉及到优化设备上的LLM模型以适应计算能力,并在设备和云端之间进行协作。
\6. 碳足迹和可持续性:论文讨论了LLMs的碳足迹,包括运营足迹(硬件使用过程中的能耗)和体现足迹(硬件制造过程中的生命周期排放)。论文强调了准确估计LLMs的碳足迹的重要性,并提出了促进环境意识发展实践的工具,如mlco2和LLMCarbon。
\7. 经济和环境可持续性:LLMs的经济可持续性是指它们为组织创造的价值超过训练、推理和硬件维护的成本。环境可持续性则需要采用多种方法,包括使用可再生能源、能效模型架构和为低功耗AI工作负载设计的硬件。
———————————
5. 审视大型语言模型提示策略以自动评估学习者创建的计算成果
Examining LLM Prompting Strategies for Automatic Evaluation of Learner-Created Computational Artifacts
Xiaoyi Tian等,University of Florida
摘要:近年来,自动评估方面取得了显著进展,但评估学习者创建的基于项目的代码等计算成果仍然具有挑战性。本研究探讨了先进的大型语言模型(LLM)GPT-4在评估学习者创建的计算成果方面的能力。我们具体分析了75个主要由中学生构建的聊天机器人的源代码,比较了从基于示例到基于评分标准的四种LLM提示策略。实验结果表明,在五个计算成果维度中的两个维度上,基于LLM的评估模块与人类评估者之间达成了显著一致(Cohen’s 加权κ = 0.797),在一个维度上达成了中等一致,在剩下的两个维度上达成了较低一致。我们通过定性错误分析研究了不同LLM提示策略之间的权衡。研究结果表明,LLM在自动评估基于项目的开放性计算成果方面具有潜力。
\3. 基于LLM的成果评估实施
在本节中,我们介绍了基于LLM的成果评估技术的实施步骤。首先,我们定义了提示模板和提示策略。然后,我们对数据集进行了预处理,以提取聊天机器人(如意图、训练短语、响应)的特征。我们使用了一个开源框架LLM4Qual [17] 来管理提示模板的元素并进行实验。我们迭代开发了提示模板,并报告了在每个评分标准维度上最终提示模板的评估结果。
3.1 提示组件和策略
本研究的目标是探索提示策略对评估准确性的影响,因此我们首先定义了提示模板并为每种提示策略定制了提示模板的组件。
提示组件。我们的提示模板有三个组件:指令、示例(可选)和输入(图2)。指令部分规定了评估任务,并包含三个可能的子部分。指令通过任务描述、规定四分评分标准的评分声明以及输出期望来设置评估任务。示例仅在少量提示条件下包括,这些是手动选择的与评分标准维度的四分评分对应的示例。每个示例包括学习者创建的成果的相关组件、人类评分者的评分及其附带的理由文本。模板的最终组件是输入,它指定了与特定评分标准维度相关的成果组件。例如,问候意图维度的输入将是聊天机器人的问候意图响应,而训练短语维度的输入将是所有意图的训练短语列表及其相应的计数。通过将输入限制为与成果相关的部分,我们确保模型不受无关信息的“干扰”。
提示策略。基于提示指令的复杂性和是否包含示例,我们将提示模板分为四种情况:零样本基础(不包括评分标准和示例)、零样本评分标准(包括评分标准但不包括示例)、少样本基础(包括示例但不包括评分标准)和少样本评分标准(包括评分标准和示例)。不同提示策略之间的比较如图2所示。
图2:四种实验条件的提示模板(零样本基础、零样本评分标准、少样本基础、少样本评分标准)。每个提示模板可能包含指令、示例和作为输入的未见过的学生成果。{{artifact-specific information}}的格式取决于正在评估的维度。
提示模板的组件
\1. 指令(Instruction):
- 任务描述(Task description):描述评估任务,例如,评估中学生构建的对话式人工智能作品的跟进意图。
- 评分声明(Rubric statement):具体说明四分评分标准的评分标准,例如,评分1表示几乎没有接近预期的证据,评分4表示超出预期。
- 输出期望(Output expectation):说明评估结果的输出形式,例如,先输出评分(1到4分),然后说明给出该评分的理由(使用项目中的示例,少于50字)。
\2. 示例(Examples)(仅在少样本条件下包括):
- 示例是手动选择的,与评分标准维度的四分评分相对应。每个示例包括相关的学习者创建的成果组件、人类评分者的评分及其附带的理由文本。
\3. 输入(Input):
- 指定与特定评分标准维度相关的成果组件。例如,问候意图维度的输入将是聊天机器人的问候意图响应。
提示策略
根据提示指令的复杂性和是否包含示例,我们将提示模板分为四种情况:
\1. 零样本基础(Zero-shot-basic):
- 仅包含任务描述和输出期望,不包括评分标准和示例。
\2. 零样本评分标准(Zero-shot-rubric):
- 包含任务描述、评分标准和输出期望,不包括示例。
\3. 少样本基础(Few-shot-basic):
- 包含任务描述、输出期望和示例,不包括评分标准。
\4. 少样本评分标准(Few-shot-rubric):
- 包含任务描述、评分标准、输出期望和示例。
工作原理
- 零样本基础和零样本评分标准策略通过不提供示例,直接评估模型在没有具体例子的情况下理解任务和评分标准的能力。
- 少样本基础和少样本评分标准策略则通过提供具体示例,帮助模型更好地理解评分标准和预期输出,提高评估准确性。
通过比较不同提示策略在评估学习者创建的计算成果(如聊天机器人源代码)时的效果,研究旨在探索这些提示策略对评估准确性的影响。实验结果显示,不同提示策略在不同维度上的评估一致性有所不同。
标签:检索,RAG,评分标准,模型,论文,探针,LLM,合集 From: https://blog.csdn.net/2401_86435672/article/details/142999534