基于重要性加权的LLM自我改进：考虑分布偏移的新框架

时间：2024-08-23 10:49:11浏览次数：13

标签：加权 IWSI 自我过滤偏移 LLM DSE DS

LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。

论文的主要贡献如下:

提出了一个称为DS权重的指标,借助一个微小的有效集来近似LLM自生成数据的DSE
利用DS权重,构建了一个新颖的自我改进框架,称为基于重要性加权的自我改进(IWSI),其中过滤策略同时考虑了答案正确性和DSE
实证检验了论文提出方法的有效性,分析了高DSE样本对LLM自我改进的影响,并探讨了DS权重如何与其他过滤标准相互作用

方法论

给定一个无监督(仅问题)数据集D

标签：加权,IWSI,自我,过滤,偏移,LLM,DSE,DS
From： https://www.cnblogs.com/deephub/p/18375523

SciTech-BigDataAIML-LLM-PE(Positional Encoding)位置编码: Absolute(绝对)Position
SciTech-BigDataAIML-LLMPE(PositionalEncoding)位置编码:1Absolute(绝对)Position2Relative(相对)Position3Rotate(旋转)Position......
基于大模型（LLM）的Agent 应用开发
目前，业界一般认为基于大模型的应用集中在两个方向上：RAG和Agent，无论哪一种应用，设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。随着开发人员开始创建日益复杂的LLM应用程序，开发流程不可避免地变得更加复杂。那么，什么又是Agent呢？1.什么......
Dijkstra、Bellman_Ford、SPFA、Floyd算法复杂度比较
说明Dijkstra：适用于权值为非负的图的单源最短路径，用斐波那契堆的复杂度O(E+VlgV)BellmanFord：适用于权值有负值的图的单源最短路径，并且能够检测负圈，复杂度O(VE)SPFA：适用于权值有负值，且没有负圈的图的单源最短路径，论文中的复杂度O(kE)，k为每个节点进入Queue的次数，且k一般<=2，但此处......
LLM | 一文带你揭秘大语言模型ChatGPT的原理
本文包含大量AI干货预计阅读时间：10分钟本文学习目标：定义语言模型和大型语言模型(LLM)。介绍关键的LLM概念，包括TransFormer和自注意力机制。介绍LLM提示工程、微调和Rag，以及当今热门的大语言模型应用。前言在当今的科技时代，大型语言模型（LLM）正以惊人的速度发展并......
vLLM
vLLM是一个快速且易于使用的LLM推理和服务库vLLM的快速性体现在：最先进的服务吞吐量通过PagedAttention有效管理注意力机制KV的内存连续的批次处理请求使用CUDA/HIP图快速执行模型量化：GPTQ、AWQ、INT4、INT8、FP8CUDA内核优化，包括FlashAttention和FlashInfer的集成推测行......
LLM 推理 & 服务
目录vLLMPagedAttention：解决内存瓶颈vLLM的安装与使用vLLM加州大学伯克利分校的研究者开源了一个项目vLLM，该项目主要用于快速LLM推理和服务。vLLM的核心是PagedAttention，这是一种新颖的注意力算法，它将在操作系统的虚拟内存中分页的经典思想引入到LLM服务中。配备了Pa......
LLM | 面向对话式医疗健康场景的医疗大模型
近日，复旦大学数据智能与社会计算实验室(Fudan-DISC)开发并开源了一个专门针对医疗健康对话式场景而设计的医疗领域大模型：DISC-MedLLM。DISC-MedLLMDISC-MedLLM是一个专为医疗健康对话场景而打造的领域大模型，它可以满足您的各种医疗保健需求，包括疾病问诊和治疗方案咨询......
大型语言模型（LLMs）的技术革新：问答对生成与优化实践
1.引言在人工智能领域，大型语言模型（LLMs）正以其强大的自然语言处理能力，为各行各业带来革命性的变化。这些模型，如GPT-3、GPT-4以及Llama2，不仅在文本生成、翻译、摘要等领域展现出卓越的性能，还在问答系统中扮演着至关重要的角色。问答对（Question-Answerpairs,Q&A）的生成是LL......
SearXNG与LLM强强联合：打造用户隐私保护的智能搜索解答流程，隐私无忧，搜索无忧
SearXNG与LLM强强联合：打造用户隐私保护的智能搜索解答流程，隐私无忧，搜索无忧SearXNG是一个免费的互联网元搜索引擎，整合了各种搜索服务的结果。用户不会被跟踪，也不会被分析。github地址:https://github.com/searxng/searxng项目地址:https://docs.searxng.org/公共实例:......
大型语言模型基准测试(LLM Benchmarks)：理解语言模型性能
我们今天来看一下大模型的基准测试，现在很多主流大模型，比如GPT-4、Claude3和GeminiUltra等，对于大模型的测试，因其多功能性和非确定性特性，使得评估它们的性能成为一个挑战。LLM的基准测试提供了一种标准化和严谨的框架，用于衡量这些模型在核心语言处理任务上的表现。理解这些基准......

基于重要性加权的LLM自我改进：考虑分布偏移的新框架

方法论

相关文章

赞助商

阅读排行