首页 > 其他分享 >使用SPIN技术对LLM进行自我博弈微调训练

使用SPIN技术对LLM进行自我博弈微调训练

时间:2024-01-18 10:12:47浏览次数:28  
标签:模型 微调 自我 LLM 人类 SPIN

2024年是大型语言模型(llm)的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究领域,研究人员积极致力于开发能够有效利用人类数据的方法。

加州大学最近的一项研究介绍了一种名为SPIN(Self Play fIne tuNing)的新技术。SPIN从AlphaGo Zero和AlphaZero等游戏中成功的自我对弈机制中汲取灵感。它能够使LLM参与自我游戏的能力。这消除了对专业注释者的需求,无论是人类还是更高级的模型(如GPT-4)。SPIN涉及训练一个新的语言模型,并通过一系列迭代来区分它自己生成的响应和人类生成的响应。最终目标是开发得到一种语言模型,使其产生的反应与人类产生的反应没有区别。

https://avoid.overfit.cn/post/58fb890f7ffd4714b433e87bf7d42def

标签:模型,微调,自我,LLM,人类,SPIN
From: https://www.cnblogs.com/deephub/p/17971884

相关文章

  • 开放 LLM 排行榜: 深入研究 DROP
    最近,开放LLM排行榜迎来了3个新成员:Winogrande、GSM8k以及DROP,它们都使用了EleutherAIHarness的原始实现。一眼望去,我们就会发现DROP的分数有点古怪:绝大多数模型的F1分数都低于10分(满分100分)!我们对此进行了深入调查以一探究竟,请随我们一起踏上发现之旅吧!......
  • vllm 安装踩坑 (The NVIDIA driver on your system is too old)
    我的环境如下:nvidia-smi显示cuda版本是11.7目前最新vllm要求的torch版本是2.1.2,该版本要求的cuda版本是11.8,所以不匹配。执行安装会遇到如下错误RuntimeError:TheNVIDIAdriveronyoursystemistooold(foundversion11070).PleaseupdateyourGPUdrive......
  • LlamaIndex中的CustomLLM(本地加载模型)
      LlamaIndex中接口基本上调用的是OpenAI,如果想想调用自定义模型可以吗?答案当然是可以的。经过查找找到了自定义大语言模型的简单抽象基类classCustomLLM(LLM)。一.CustomLLM(LLM)源码  只要子类必须实现__init__、_complete、_stream_complete和metadata方法即可......
  • LlamaIndex中的CustomLLM(在线加载模型)
    一.使用Flask将模型封装为REST接口  主要是将complete()和stream_complete()方法封装为REST接口,如下所示:from flask import Flask, request, jsonifyfrom transformers import AutoTokenizer, AutoModelForCausalLMapp = Flask(__name__)class QwenModel:......
  • LLM模型的generate和chat函数区别
      在HuggingFace的transformers库中,GPT(GenerativePre-trainedTransformer)类的模型有两个常用的生成文本的方法:generate和chat。这两个方法在使用上有一些区别。通常公司发布的LLM模型会有一个基础版本,还会有一个Chat版本。比如,Qwen-7B(基础版本)和Qwen-7B-Chat(Chat......
  • XTuner大模型单卡低成本微调实战
    Smiling&Weeping----有趣是片难寻的土,灵魂是朵难养的花一些关于的模型训练的小tips:1.ctrl+c中断  2.tmuxnew-s名称  3.ctrl+b+D退出(没断)        基础作业:构建数据集,使用XTuner微调InternLM-Chat-7B......
  • LLM Series: LLAMA 2
    ......
  • LLM Series: BERT
    ......
  • Mixtral 8X7B MoE模型基于PAI的微调部署实践
    作者:熊兮、求伯、一耘引言Mixtral8x7B是MixtralAI最新发布的大语言模型,在许多基准测试上表现优于GPT-3.5,是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI是面向开发者和企业的机器学习/深度学习平台,提供了对于Mixtral8x7B模型的全面支持,开发者和企业用户可以基......
  • 大模型调优方法:提示工程、RAGs 与微调对比
    每一个搭建大语言模型应用的AI工程师都会面临一个难题,如何选择一个合适调优方法。就算是强大的预训练LLM也可能无法直接满足项目中的特定需求。如项目需要一个特定结构的应用程序,如预训练缺失上下文的重要文件,再比如有特定术语和结构的高专业性的行业领域,面对这些问题,需要有特定的......