首页 > 其他分享 >Arena Learning: 构建大语言模型的数据飞轮

Arena Learning: 构建大语言模型的数据飞轮

时间:2024-07-19 14:58:13浏览次数:15  
标签:Arena preprint Learning 模型 arXiv 飞轮 et

大语言模型(LLMs)正在快速发展,但如何有效评估和持续改进这些模型仍面临巨大挑战。本文提出了一种名为Arena Learning的创新方法,通过模拟聊天机器人竞技场来构建高效的数据飞轮,从而实现LLMs的持续优化。让我们深入了解这种方法的核心思想和关键技术。

1. 背景与挑战

近年来,大语言模型在自然语言处理领域取得了突破性进展,特别是在对话系统方面展现出强大的能力。然而,评估和改进这些模型面临两大挑战:

  1. 人工评估成本高昂:传统的人工评估方法,如LMSYS Chatbot Arena,虽然效果好但耗时耗力。

  2. 持续优化困难:随着应用场景的不断创新和深化,模型需要不断进化以适应用户的新意图和指令。

因此,构建一个高效的数据飞轮来持续收集反馈并改进模型能力,成为了下一代AI研究的关键方向。

2. Arena Learning方法概述

Arena Learning是一种完全基于AI驱动的训练和评估流水线,无需人工评估者参与。它的核心思想是:

  1. 模拟离线聊天机器人竞技场
  2. 使用AI评判模型代替人工评估者
  3. 构建数据飞轮实现模型的持续优化

Arena Learning主要包含三个关键组件:

  1. 离线配对LLM对战竞技场
  2. 迭代式后训练
  3. 模型评估

让我们详细了解每个组件的工作原理。

3. 核心技术:AI评判模型

Arena Learning的核心是使用一个强大的LLM作为"评判模型",来模拟人类评估者的行为。具体做法如下:

  1. 评判模型:使用Llama3-70B-Chat模型作为评判器。

  2. 输入:对话历史、用户指令、两个LLM的回复。

  3. 输出:

    • 对每个LLM的评分(1-10分)
    • 详细解释,涵盖连贯性、事实准确性、上下文理解等多个因素
    • 判断哪个回复更优
  4. 消除位置偏差:采用两轮对战,交替两个LLM的位置。

这种AI评判模型能够客观一致地评估回复质量,大大提高了评估效率。

4. 构建数据飞轮

Arena Learning通过以下步骤构建数据飞轮,实现LLM的持续优化:

4.1 收集大规模指令数据

  1. 从多个开源数据集收集原始指令数据
  2. 进行多轮过滤、清洗和去重
  3. 使用MinHashLSH技术进行数据去重
  4. 使用embedding模型排除与测试集相似的指令,防止数据泄露
  5. 最终获得276K条精炼后的指令数据集D

4.2 迭代对战与模型进化

Arena Learning采用迭代式训练流程,主要包括以下步骤:

  1. 初始训练:使用10K ShareGPT数据训练初始模型WizardLM-β-I0。

  2. 第一轮迭代(I1):

    • SFT: WizardLM-β-SFT-I0与其他SOTA模型在D1上对战,收集失败案例进行微调,得到WizardLM-β-SFT-I1。
    • DPO: WizardLM-β-SFT-I1与SOTA模型在D2上对战,将胜负对作为<choice, reject>对训练WizardLM-β-DPO-I1。
    • PPO: WizardLM-β-DPO-I1与SOTA模型在D3上对战,得到<choice, reject>对训练奖励模型和WizardLM-β-PPO-I1。
  3. 第二轮迭代(I2):

    • 选择WizardLM-β-PPO-I1作为初始对手模型
    • 重复SFT、DPO、PPO训练过程,使用新的数据集D4、D5、D6
  4. 第三轮迭代(I3):

    • 选择WizardLM-β-PPO-I2作为初始对手模型
    • 重复训练过程,使用新的数据集D7、D8、D9

通过这种迭代式的对战和训练,WizardLM-β模型可以不断学习其他强大模型的优点,持续提升自身能力。

5. WizardArena:离线评估套件

为了准确评估聊天机器人模型的性能并预测其Elo排名,Arena Learning精心策划了一个离线测试集WizardArena。它包含两个子集:

5.1 多样性子集(Diverse Subset)

构建步骤:

  1. 对大量指令和对话数据进行文本聚类
  2. 使用gte-large embedding模型将指令表示为高维向量
  3. 从每个聚类中选择代表性样本

目的:捕捉广泛的主题、风格和对话情境,减少潜在偏见。

5.2 困难子集(Hard Subset)

构建步骤:

  1. 利用LLM预测每条指令的难度级别
  2. 选择难度得分最高的样本

目的:挑战最先进聊天机器人模型的能力,评估其在处理复杂任务时的鲁棒性。

5.3 WizardArena的优势

  1. 效率:与LMSYS ChatBot Arena相比,WizardArena实现了40倍的速度提升。
  2. 规模:WizardArena-Mix包含2,000个样本,涵盖多轮对话和diverse主题。
  3. 一致性:WizardArena的Elo排名与在线LMSYS ChatBot Arena高度一致(平均一致性达98.79%)。

6. 实验结果与分析

6.1 WizardArena与在线评估的一致性

实验表明,WizardArena产生的Elo排名与LMSYS Chatbot Arena高度一致:

  • 平均一致性:98.79%
  • 优于Arena-Hard-v1.0:提升8.58%
  • 优于MT-Bench:提升35.23%

这些结果验证了WizardArena作为人工评估平台的可靠替代方案的有效性,同时也证明了使用"评判"模型在模拟竞技场中生成大量对战训练数据的可靠性。

6.2 Arena Learning训练效果

通过Arena Learning产生的大规模对战数据训练的模型在SFT、DPO和PPO阶段都表现出显著的性能提升:

  1. 迭代效果:在三轮迭代中,模型每轮都相比上一轮有明显提升。

  2. 数据规模:实验结果表明Arena Learning可以扩展到更多训练数据。

  3. 综合能力:训练后的模型在多个维度(如连贯性、事实准确性、上下文理解等)都有提升。

这些结果突显了Arena Learning在后训练中的价值和威力,它利用多个模型的集体知识和能力,将WizardLM-β的性能推向新的高度。

7. 结论与展望

Arena Learning为LLM后训练提供了一种高效、可扩展的新方法。它通过模拟聊天机器人竞技场,利用AI评判模型代替人工评估,构建了一个持续优化的数据飞轮。主要贡献包括:

  1. 提出了一种新颖的AI驱动方法,通过模拟离线聊天机器人竞技场构建高效的LLM后训练数据飞轮。

  2. 贡献了精心准备的离线测试集WizardArena,并证明其与基于人工的LMSYS Chatbot Arena在线Elo排名高度一致。

  3. 实验结果表明Arena Learning能够产生大规模合成数据飞轮,通过SFT、DPO和PPO等多种训练策略持续改进WizardLM-β。

未来研究方向:

  1. 进一步优化AI评判模型,提高其公平性和一致性。
  2. 探索更多样化的对战策略和训练方法。
  3. 将Arena Learning扩展到更广泛的AI任务和领域。

Arena Learning为LLM的持续进化开辟了一条新路径,有望推动对话AI技术的快速发展。

参考文献

[1] Brown, T. B., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.

[2] Radford, A., et al. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.

[3] Devlin, J., et al. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

[4] OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.

[5] Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073.

[6] Google. (2023). PaLM 2 Technical Report. arXiv preprint arXiv:2305.10403.

[7] Qwen Team. (2023). Qwen Technical Report. arXiv preprint arXiv:2309.16609.

[8] Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv preprint arXiv:2307.09288.

[9] Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.

[10] Xu, C., et al. (2023). WizardLM: Empowering Large Language Models to Follow Complex Instructions. arXiv preprint arXiv:2304.12244.

[11] Xu, C., et al. (2023). WizardLM: An Instruction-Following Language Model Using Supervised Fine-Tuning on Synthesized Instruction Datasets. arXiv preprint arXiv:2308.09583.

[12] Gao, J., et al. (2023). Open-Assistant: An Open-Source Effort to Create a Large Language Model Trained to be an AI Assistant. arXiv preprint arXiv:2304.07327.

[13] Wei, J., et al. (2022). Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.

[14] Zheng, L., et al. (2023). Judging LLM-as-a-judge with MT-Bench and Chatbot Arena. arXiv preprint arXiv:2306.05685.

[15] Gao, Y., et al. (2023). Chatbot Arena: An Open Platform for Evaluating Large Language Models in Conversation. arXiv preprint arXiv:2310.02538.

[16] Glickman, M. E. (1995). A comprehensive guide to chess ratings. American Chess Journal, 3, 59-102.

[17] Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv preprint arXiv:2307.09288.

[18] Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073.

[19] Liang, P., et al. (2022). Holistic Evaluation of Language Models. arXiv preprint arXiv:2211.09110.

[20] Rafailov, R., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv preprint arXiv:2305.18290.

[21] Schulman, J., et al. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.

[22] Touvron, H., et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv preprint arXiv:2307.09288.

标签:Arena,preprint,Learning,模型,arXiv,飞轮,et
From: https://blog.csdn.net/weixin_36829761/article/details/140510149

相关文章

  • Self-Supervised Learning for Point Clouds Data: A Survey
    摘要综述了自监督学习(SSL)在3D点云数据处理领域的最新进展,对现有SSL方法进行了细致的分类和评估,并在多个基准数据集上对代表性方法进行了性能比较。同时指出了现有研究的局限性,提出了未来研究的方向。Introduction文章主要是针对自监督学习的(SSL),详细阐述了3D点云数据由于其......
  • Self-supervised Learning for Pre-Training 3D Point Clouds: A Survey
    Abstract点云数据由于其紧凑的形式和表示复杂3D结构的灵活性而被广泛研究。点云数据准确捕获和表示复杂3D几何形状的能力使其成为广泛应用的理想选择,包括计算机视觉,机器人技术和自动驾驶,所有这些都需要了解底层空间结构。这种方法旨在从未标记的数据中学习通用和有用的点云表......
  • 机器学习:详解迁移学习(Transfer learning)
    详解迁移学习深度学习中,最强大的理念之一就是,有的时候神经网络可以从一个任务中习得知识,并将这些知识应用到另一个独立的任务中。所以例如,也许已经训练好一个神经网络,能够识别像猫这样的对象,然后使用那些知识,或者部分习得的知识去帮助您更好地阅读x射线扫描图,这就是所谓的迁移学......
  • 机器学习 -> Machine Learning (III)
    1对抗学习对抗学习的目的是增加鲁棒性。对抗生成网络(GAN)包括生成器(Generator)和判别器(Discriminator)。如果目标是创建能够生成新内容的系统,那么生成器是希望得到并优化的模型,这是一个零和问题。1.1GenBGenB是对抗网络用于VQA的产物,如图添加了偏置模型和目标模型。训练......
  • Regularized Stochastic Learning and Online Optimization
    目录概符号说明MotivationFOBOS(Forward-BackwardSplitting)RDA(RegularizedDualAveraging)FTRL-Proximal(FollowTheRegularizedLeader)FOBOS,RDA,FTRL-Proximal的统一表示[1]DuchiJ.andSingerY.EfficientLearningusingForward-BackwardSplitting.NeurIP......
  • 基于Qlearning强化学习的小车弧线轨迹行驶控制matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下(完整代码运行后无水印):  2.算法涉及理论知识概要        Q-learning是一种离散时间强化学习算法,无需模型即可直接从环境中学习最优策略。当应用于小车弧线轨迹行驶控制时,其核心任务是让小车自主学习如何控制转向和速度,以在......
  • 多源谱修复学习算法(Multi-source Spectral Repair Learning Algorithm, MSRL)
    多源谱修复学习算法(Multi-sourceSpectralRepairLearningAlgorithm,MSRL)是一种针对非完备多源数据的处理方法,旨在解决因数据缺失而导致的多源数据学习问题。非完备多源数据是指在数据采集过程中,由于各种原因(如数据源多样性带来的质量差异或数据获取能力限制),导致某些样......
  • 多源谱嵌入融合学习算法(Multi-source Spectral Embedding Fusion Learning Algorithm,
    多源谱嵌入融合学习算法(Multi-sourceSpectralEmbeddingFusionLearningAlgorithm,简称MSEF)是一种专门设计用于处理多源数据的高级学习方法,其目标是在不同数据源之间建立一致的表示,从而提高聚类性能和数据理解的全面性。这种算法的核心在于利用全局和局部谱嵌入的融合,以......
  • INE - Advanced Penetration Testing learning path
    大智慧没有,小聪明不断。不要解读没有,简化理解也没有,直接复制粘贴,直接抄袭或复用,这叫小聪明。有的人则更加小聪明,跳过理论,直接上手,导致N年以后的职业发展直接葬送掉。创新是难的,你们要把内容翻新一遍,已“原创”的形式交付。就要好好看看他们对于课程开发的后背的整体逻辑。知识点-......
  • Win11系统提示找不到learning_tools.dll文件的解决办法
    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库,这时你可以下载这个learning_tools.dll文件(挑选合适的版本文件......