首页 > 其他分享 >解密Prompt系列16. LLM对齐经验之数据越少越好?LTD & LIMA & AlpaGasus

解密Prompt系列16. LLM对齐经验之数据越少越好?LTD & LIMA & AlpaGasus

时间:2023-10-05 09:11:24浏览次数:57  
标签:AlpaGasus 样本 Prompt 16 模型 论文 指令 筛选 数据

LLM Agent中间插个队,总结下指令微调、对齐数据相关的方案,已经凑够7篇论文可以召唤神龙啦!论文都是以优化指令样本为核心,Data-Centric的观点比较一致:指令微调也就是对齐阶段的数据质量>>数量,少量+多样+高质量的对齐数据,就能让你快速拥有效果杠杠的模型。注意以上三者是充分必要关系,不是说数据越少越好,是三者的有机统一。

如果你对指令微调还不甚了解,建议先看看下解密Prompt系列4. 升级Instruction Tuning

当前对指令微调部分的普遍认知有两个思路

  • 抽象派:把模型输出和人类偏好进行对齐
  • 务实派:赋予模型任务指令的理解和完成能力

两个思路其实殊途同归,重心落在任务+对齐,既基于用户指令应该召回模型预训练学习的哪些知识,以及把这些知识用什么样的格式和风格进行输出,类似于把预训练学习的知识重新排列组合并输出。可以类比探测Bert Finetune对向量空间的影响,只不过指令微调调整的高维空间更加细分多样。

于是才有本章的讨论,那我们构建质量更高,覆盖范围更广的数据,是否比随机造大量的指令数据效果要更好。毕竟你抖音刷1000条杂七杂八的中医养生小知识,可能比不上精读黄帝内经+神农本草不是~

LIMA

  • 论文:LIMA: Less Is More for Alignment
  • 要点:人工构建1K高质量样本用于对齐,高质量主要指输出的风格一致性,以及输入的多样性

LIMA是比较早提出Quality Over Quantity观点的论文。论文提出一个假设是模型的知识和能力几乎全部是预训练阶段注入的。而指令微调阶段的对齐只是学习和人类交互的回答形式。因此一个输入多样输出形式一致的高质量指令数据集能帮模型快速学到回答形式。

指令数据集的构建方式是人工从Stack Exchange, wikiHow和Reddit里面分类筛选更高质量的问题和回答,来构建指令样本集。我们具体说下Stack Exchange样本的构建,其他两个思路是一致的

  1. 分类采样: 为了保证多样性,把Stack的分成75个科学类别和99个其他类别,从每个类别中采样200个问题
  2. 筛选:为了保证质量,在以上每个类别中筛选问题评分最高的,再筛选该问题中回答得分最高的
  3. 过滤:为了保证输出的一致性,过滤太长(4096字符)/太短(1200字符)的回答,过滤以第一人称回答,或者引用了其他回答的内容。以及对内容进行清洗只保留代码和文本部分。
  4. 样本构建:随机使用问题的标题或者描述作为输入,使用回答做为输出。

除了使用已有的QA数据,几位作者还人工构建了200条基于个人偏好随机创建的prompt,以及编写的回答,在回答编写过程中核心是注意回答风格的一致性。重要的事情说三遍,一致性,一致性,一致性。论文反复强调一致的回答风格可以加速模型收敛。

论文使用的是65B的LLAMA模型,1000条样本,微调了15个epoch,lr=1e-5, batch=32, max_seq_len =2048。最终是人工在验证集打分上,选择了5-10个epoch之间的checkpoint。

论文针对数据集的质量,数量和多样性进行了消融实验,如下图

  • 多样性:相似质量和数量,输入指令多样性更高的stack exchange的效果优于输入相对单一的wikiHow数据集
  • 质量:同等量级上过滤后质量更高的stack Exchange数据集微调的效果更好
  • 数量:从质量过滤后单一的stack exchange中采样更高量级的训练样本,并不能显著带来效果提升。之前公认的样本数量越多越好,可能更多是数量提升带来的指令多样性提升。

当然论文选择的样本数本身并无非常大的参考意义,因为这个选择的基座模型,模型大小,数据本身的多样性都相关,所以需要具体模型具体分析。

ALPAGASUS

论文起名终于从和动物纠缠不清,到开始上天入地,模型起名AlpaGasus=Alpaca+Pegasus,故名飞天羊驼,哈哈最近总会让人不由自主想到飞天茅台

image.png

对比LIMA,ALPAGASUS没有对什么是高质量进行很明确的定义,但是提出了自动化样本过滤的方案,成本更低,更简单粗暴。从原始52K的ALPACA样本中使用大模型自动筛选高质量的9K样本进行模型微调。

论文在以下4个测试集上进行评估,使用GPT-4给原始Alpaca和飞天羊驼进行偏好打分,胜率如下,在不同量级的训练样本上,飞天羊驼以80%+的胜率超越Alpaca,当训练样本在9K左右的时候,胜率最高~

自动样本过滤机制比较简单,就是使用如下Prompt,让Chatgpt给(instruction, input, response)的三元组样本进行打分,并根据最终的打分分布,选定4.5分作为阈值,筛选打分>4.5的9K样本用于下游模型微调。

论文还进行了消融实验,对比了不同的筛选阈值得到的不同训练样本量的影响,3k/6k/9k中9K的样本量级,模型效果最好,但超过后模型效果会有下降。延伸下大概就是高质量的数据越多越好,但低质量的数据越少越好。同时对比了随机采样9K作为作为对照组,效果是显著差于使用模型打分筛选出的9K样本。

自动化数据筛选看起来非常美好且梦幻,但笔者本人有一个疑问,论文使用chatgpt来筛选样本,又用GPT4作为评估,是否会引入bias,这个bias主要来自chatgpt和gpt4相对一致的偏好。这一点除非引入人工评估,或者多个大模型例如Claude之类同时进行最终的评估打分,否则个人感觉可能出现妈妈看自己的孩子咋看都好看的情况......

LTD

  • 论文:Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low Training Data Instruction Tuning
  • 要点:聚类过滤相似度高的样本,筛选多样性样本用于对齐

LTD的样本筛选中心放在多样性,在任务微调上只使用0.5%的训练样本,还比原有效果提升了2%。论文对多样性给出了更形象的描述就是用最少的样本,去近似刻画当前全部指令集的空间分布。这么一描述,其实答案已经呼之欲出了,跑不了cluster,KNN,k-center这些方案,论文实现如下

具体分成3个步骤

  1. Sample embedding: 把指令样向量化,这里论文是把指令+回答一同输入BERT模型进行编码,并且做了l2正则化,这样后续聚类计算距离就可以直接使用cosine距离
  2. Clustering:作者使用K-Means对所有指令样本进行聚类,不过个人更偏好aggolomerative clustering,毕竟k-means是密度聚类,而层次聚类是基于距离的,在文本聚类中距离是有明确含义的,可以更好保证不同cluster直接的粒度相对一致
  3. Corest Sampling:基于聚类结果选择有代表性的样本来构建指令集。我本以为论文会直接从每个cluster动进行随机采样,意料之外的是论文采用了贪心的K-center算法来选取更有代表性的数据点,算法如下。目标是找到K的中心点,使得所有点到距离最近的中心点的距离之和最小化。实现是先用聚类中心点作为起始中心点,遍历所有其他点找到离所有起始点距离最远的点,把这个点也加入中心点,然后多次重复以上过程。

除了以上介绍的论文之外,还有几篇论文思想也或有相似,包括以下Reference中的

  • InstructionGPT-4:把多样性和质量进行综合打分的多模态微调模型
  • Instruction Minning: 使用指令评估集推理Loss来对指令数据进行高质量筛选的
  • Polite Flamingo:通过改写和重构构建高质量多模态模型输出数据
  • Textbooks:编程任务上构建教科书级别质量的预训练数据,和对应的习题集数据用于微调效果显著超越StarCoder

想看更全的大模型相关论文梳理·微调及预训练数据和框架·AIGC应用,移步Github >> DecryPrompt


Refernece

  1. InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4
  2. Instruction Mining: High-Quality Instruction Data Selection for Large Language Models
  3. Visual Instruction Tuning with Polite Flamingo
  4. Textbooks are all you need
  5. K-center Greedy算法的论文,Active Learning for Convolutional Neural Networks: A Core-Set Approach

标签:AlpaGasus,样本,Prompt,16,模型,论文,指令,筛选,数据
From: https://www.cnblogs.com/gogoSandy/p/17743053.html

相关文章

  • 题解 CF1034C【Region Separation】/ SS221116D【Xiong AK 10 IOI】
    很妙的性质题!全是意识流证明见过吗?problem每次选一个非空边集删掉,谓之曰砍树。砍树后需要满足每个连通块的点权和相同。在一个方案中可以砍很多次树,都要满足砍树后的要求。一共有多少种合法方案呢?\(n\leq10^6,1\leqa_i\leq10^9\)。solution假如我们将树砍成\(k\)个连通......
  • CF1661D Progressions Covering 题解
    最详细的题解题目传送门:ProgressionsCovering阅读前人题解时,限于个人能力有限,有一些地方想了好一会儿才懂。发现很多题解都是在@SDLTF_凌亭风等作者基础上延伸,但详细程度依旧有限,尽管这篇题解亦是站在他们基础上延伸的,这篇题解更为详细的点明了很多地方。本人第一次写题解,......
  • 162. 寻找峰值
    给你一个整数数组nums,找到峰值元素并返回其索引。数组可能包含多个峰值,在这种情况下,返回任何一个峰值所在位置即可。你可以假设nums[-1]=nums[n]=-∞。你必须实现时间复杂度为O(logn)的算法来解决此问题。示例1:输入:nums=[1,2,3,1]输出:2解释:3是峰值元素,你......
  • 笨办法学Python3 习题16 读写文件
    知识点:a_txt=open(file_a)         #默认只读模式打开文件file_a,赋值变量a_txt,后面好执行读取命令b_txt=open(file_b,"w")      #以write写入模式打开文件file_b,赋值变量b_txt//还有"r"只取模式,"a"追加模式a_txt_r=a_txt.rea......
  • GSM7816工作原理分析(新手笔记)
    7816协议初学者刚上手7816,感觉有些吃力,但经过几天的死磕,终于也是大概了解整体的框架,所以打算记录一下理解过程。首先要明白几个大的IC卡功能,无非就是接口设备(读卡器)与卡片的通信过程所需要的几个重要功能。上电复位:在卡片接触读卡器后会自动通电,同时需要对卡片进行一次冷复位,防......
  • 题解 [蓝桥杯 2016 省 B] 交换瓶子
    题目链接本题解讲解环图的做法。要将一个\(1\simn\)的排列通过交换变成\(1\simn\),可以先将\(i\)向\(a_i\)连边,那么最终一定会练成若干个环(每个点只有一个出度,也只有一个入度)。假设交换在同一个环中的节点,一个环显然会变成两个环,也就是说,交换一次最多增加一个环的数量,......
  • P2824 [HEOI2016/TJOI2016] 排序
    针对区间排序,显然能够上值域线段树类似,但这里有个更强的做法。如果能转化成01序列,那么一个区间排序的时候,只需区间询问1的个数+区间修改就可以了。因为是排列,很清晰的二分一个mid,把大于等于它的设为1,小于它的设为0,再跑上面的算法,最后check一下询问位置是否为1即可。单调性?感性......
  • P2016 战略游戏
    Problem考察算法:树形\(DP\)。题目简述给你一个树,如果树上的某个节点上放置了一个士兵,那么与其相连的所有边上的点都能被瞭望到。求:最少要放置几个士兵,能使得整个树上每个点都能被瞭望到?思路设二维数组\(f[x][0/1]\)。\(f[x][0]\)表示不在\(x\)点放置士兵而使\(x\)......
  • P8816 [CSP-J 2022] 上升点列
    Problem考察算法:\(DP\)。题目简述给你\(n\)个点,每个点有一个坐标\((x_i,y_i)\),还可以添加\(k\)个点。添加之后,求:最长的上升点列的长度。上升点列定义(两个点满足其中之一即可):\(x_{i+1}-x_{i}=1,y_i=y_{i+1}\)\(y_{i+1}-y_{i}=1,x_i=x_{i+1}\)思路设......
  • 20211316郭佳昊 《信息安全系统设计与实现(上)》第四周学习笔记
    一、任务要求[1]知识点归纳以及自己最有收获的内容,选择至少2个知识点利用chatgpt等工具进行苏格拉底挑战,并提交过程截图,提示过程参考下面内容(4分)我在学***X知识点,请你以苏格拉底的方式对我进行提问,一次一个问题核心是要求GPT:请你以苏格拉底的方式对我进行提问然后GPT就会......