首页 > 其他分享 >LIMA模型——大模型对齐的新方法

LIMA模型——大模型对齐的新方法

时间:2024-11-14 14:16:21浏览次数:3  
标签:训练 示例 提示 模型 响应 对齐 LIMA

 人工智能咨询培训老师叶梓 转载标明出处

大模型通常在两个阶段进行训练:首先是从原始文本中进行无监督预训练,以学习通用表示;其次是通过大规模的指令微调和强化学习,以更好地适应最终任务和用户偏好。来自Meta AI、卡内基梅隆大学和特拉维夫大学研究人员提出了,通过LIMA模型,对这两种训练阶段的重要性进行了量化。

LIMA(Less Is More for Alignment)是一个65B参数的LLaMa语言模型,它仅通过1,000个精心策划的提示和响应进行标准监督损失微调,而不使用任何强化学习或人类偏好建模。这项研究的核心观点是,大模型的几乎所有知识都是在预训练阶段学到的,而进行高质量的输出只需要有限的指令调整数据。

数据与训练

研究者们提出了“表面对齐假设”,认为大模型的知识和能力几乎完全在预训练期间获得,而对齐则是教会模型在与用户互动时使用哪种格式的子分布。基于这一假设,研究团队收集了1,000个提示和响应的数据集,其中输出(响应)风格一致,但输入(提示)则多样化,旨在模拟一个乐于助人的AI助手的风格。

研究者们从三个社区问答网站收集数据:Stack Exchange、wikiHow和Pushshift Reddit数据集。Stack Exchange包含179个在线社区,每个社区专注于特定主题,其中最受欢迎的是编程(Stack Overflow)。研究者们在采样时应用了质量和多样性控制,从每个分类中抽取200个问题和答案,并对答案进行了自动过滤,以符合有用AI助手的风格。例如,过滤掉那些太短或太长、使用第一人称或引用其他答案的回答。同时,从wikiHow抽取了200篇文章,使用标题作为提示,文章正文作为响应。对于Reddit数据集,研究者们手动选择了r/AskReddit和r/WritingPrompts子集中的示例,因为Reddit上高赞回答往往更倾向于娱乐性内容。

为了进一步多样化数据,研究者们还收集了来自自身(论文作者)的提示。两个作者组分别创建了250个提示,这些提示受到作者自身兴趣或朋友的启发。在200个训练提示中补充了高质量的答案,这些答案由作者自己编写,以保持一致的语气。另外还包括了13个带有毒性或恶意的培训提示。

表格1 展示了不同数据源的概览,并提供了一些统计数据。表格详细列出了训练提示(输入)和响应(输出)的来源,以及测试提示的分布情况。通过这些精心策划的数据,旨在验证即使是数量有限的训练示例,只要质量足够高,也能够有效地对大模型进行对齐。

训练过程始于LLaMa 65B模型,并使用1,000个示例的对齐训练集进行微调。为了区分每个说话者(用户和助手),在每次发言的末尾引入了一个特殊的回合结束标记(EOT)。微调过程中使用了标准的超参数设置,包括15个训练周期、AdamW优化器以及残差连接上的dropout。发现困惑度(perplexity)与生成质量并不相关,因此使用50个示例的开发集手动选择在第5到第10周期之间的检查点。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987 

人类评估与对齐效果分析

在实验设置方面,为了评估LIMA与其他模型的性能,针对每个测试提示生成单一响应,并由众包工人对LIMA与其他基线模型的输出进行比较和偏好选择。此外,还利用GPT-4重复了这一评估过程,以确保评估的一致性。

在生成响应时,采用了核心采样技术,并施加了重复惩罚,同时限制了最大令牌长度。在评估方法上,向评估者展示了每个提示的两个可能响应,并要求他们判断哪个响应更佳或两者是否相当。

图1和图2分别展示了人类和GPT-4的偏好评估结果。尽管Alpaca 65B的训练数据量远超LIMA,但其输出质量却不及LIMA。DaVinci003虽然采用了RLHF训练,但与LIMA相比,只在较小程度上表现更优。Bard在42%的情况下优于LIMA,但LIMA也有58%的情况至少与Bard持平。尽管Claude和GPT-4通常优于LIMA,但LIMA在19%的情况下也优于GPT-4。

在分析部分,通过对50个随机示例的深入分析,进一步评估了LIMA的性能。这些示例被分为未达到要求、满足要求和优秀的三个等级。图3显示了对LIMA在50个测试提示上的分析结果,其中50%的回答被评为优秀,并且能够遵循50个分析提示中的44个。未观察到失败案例中的显著趋势。

图4展示了LIMA模型在不同测试提示下的输出示例,包括分布内、分布外和安全性挑战的示例。这些示例展示了LIMA在遵循训练集内相关示例、处理训练集中不存在的类似任务以及拒绝不安全行为的能力。

在多样性测试中,通过比较Stack Exchange和wikiHow的数据,发现更多样化的Stack Exchange数据能显著提升模型性能。图5展示了使用不同来源的2,000个示例训练的7B模型的性能,其中经过质量过滤的Stack Exchange数据训练的模型性能更高。在质量测试中,使用经过质量过滤的Stack Exchange数据训练的模型比未过滤的数据训练的模型表现更佳。图5同样展示了这一结果。

在数量测试中,即使训练数据量增加16倍,性能也未见显著提升,表明对齐的效果不仅仅取决于数据量,而是更依赖于保持高质量响应的同时增加提示的多样性。图6展示了随着训练示例数量指数级增加,模型性能却趋于平稳的现象。

在多轮对话测试中,尽管LIMA仅在1,000个单轮互动上进行了微调,但其在多轮对话中的表现令人惊讶地连贯。为了进一步提升对话能力,增加了30个多轮对话链到训练集中,并进行了新一轮的微调。图7显示了响应质量的分布,添加对话示例显著提高了生成质量,优秀响应的比例显著提升,失败率也有所下降。这一发现进一步证实了预训练期间学到的能力和通过有限监督调用这些能力的可能性。

这些结果表明,预训练的强大功能以及其相对于大规模指令调整和强化学习方法的重要性。

论文链接:https://arxiv.org/pdf/2305.11206

标签:训练,示例,提示,模型,响应,对齐,LIMA
From: https://blog.csdn.net/yetzi1975/article/details/143732785

相关文章

  • 【大模型书籍】复旦大学推出首部大模型中文专著,引领AI学习新风潮!
    前言在信息爆炸的时代,自然语言处理(NLP)技术如同璀璨的星辰,照亮了我们与机器沟通的道路。而今,复旦大学自然语言处理实验室的教授团队,如同航海家般,为我们带来了一本指引大语言模型领域前行的明灯——《大语言模型入门与实践》。......
  • 知乎3.4万赞,大模型入门书籍精选!2025年程序员必备!
    在知乎上,"如何系统的入门大模型?"这一话题引爆了超过50万读者的热烈讨论。作为程序员,我们应当是最先了解大模型的人,也是率先成为了解大模型应用开发的人,到底如何入门大模型的应用开发?前排提示,文末有大模型AGI-CSDN独家资料包哦!我精心整理了一份2024年畅销的大模型书单。......
  • 人工智能AI→计算机视觉→机器视觉→深度学习→在ImageNet有限小样本数据集中学习深度
    前言:通过前篇《人工智能AI→计算机视觉→机器视觉→深度学习→在ImageNet有限小样本数据集中学习深度模型的识别任务实践》我们可以学到如何对实际生活、工作场景中的字符识别、人脸识别、图像类别进行识别的基于深度学习方法的技术路径实现具体包括:准备数据集制作、创建深......
  • 哈工大出品《自然语言处理新范式:基于预训练模型的方法》一本书读懂ChatGPT背后核心技
    大家好,今天给大家推荐一本来自哈工大创作的一本大模型书籍《自然语言处理新范式:基于预训练模型的方法》!这本大模型书籍已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么推荐这本书?近些年来,以GPT、BERT为代表的预训练模型......
  • 怎么设计一个自己的大模型?设计一个大模型需要哪些能力?
    “自己设计并实现一个大模型,才能对大模型技术有更加深刻的体会**”**对学习大模型技术的人来说,大家都想体验自己训练和微调一个模型,但受限于自身条件,可能很多人无法达成这个目的;但不知道有人是否思考过,能否自己设计一个模型,根据自己的想法去落地一个大模型。当然,这个大模......
  • 如何打造你的AI大模型:开源大模型指南
    本地大语言模型为什么要用开源模型大语言模型有两种类型:闭源的模型,如GPT-3.5、GPT-4、Cluade、文心一言等开源的模型,如LLaMA、ChatGLM,Qianwen等开源模型的优势已知目前最强的gpt4等大模型是商用闭源的,这些模型参数更大,更加智能,为什么我们会关注开源模型呢?可......
  • 大模型神书《HuggingFace自然语言处理详解——基于BERT中文模型的任务实战》读完少走
    这几年,自然语言处理(NLP)绝对是机器学习领域最火的方向。那么今天给大家带来一本《HuggingFace自然语言处理详解——基于BERT中文模型的任务实战》这本大模型书籍资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】★内容全面本......
  • 深度学习模型的原理、应用与未来发展
    深度学习(DeepLearning)是机器学习的一个分支,已在近十年里取得了巨大进展,推动了人工智能(AI)的跨越式发展。从自动驾驶、语音识别到医疗诊断,深度学习正在深刻影响各行各业。本文将对深度学习模型的基本原理、常见模型类型、实际应用以及未来趋势进行详细介绍,以帮助读者更深入地理......
  • LLM - 计算 多模态大语言模型 的参数量(Qwen2-VL、Llama-3.1) 教程
    欢迎关注我的CSDN:https://spike.blog.csdn.net/本文地址:https://spike.blog.csdn.net/article/details/143749468免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。影响(多模态)大语言模型参数量的主要网络模块,即Linear、Embedding、Norm(......
  • java 使用开源免费API实现翻译功能 - 代码基于spring ai和国产大模型
    大模型技术推动翻译进入新阶段过去,我们主要依赖百度或其他团队提供的翻译API来实现中英、英中、日中、中日等多种语言间的翻译。然而,随着大模型技术的发展,其在内容理解能力上已远超传统翻译工具。现在,我们可以完全依靠这些先进的大模型来进行更准确、自然的多语言翻译工作,这......