使用SPIN技术对LLM进行自我博弈微调训练

时间：2024-01-18 10:12:47浏览次数：28

标签：模型微调自我 LLM 人类 SPIN

2024年是大型语言模型(llm)的快速发展的一年，对于大语言模型的训练一个重要的方法是对齐方法，它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用，但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究领域，研究人员积极致力于开发能够有效利用人类数据的方法。

加州大学最近的一项研究介绍了一种名为SPIN(Self Play fIne tuNing)的新技术。SPIN从AlphaGo Zero和AlphaZero等游戏中成功的自我对弈机制中汲取灵感。它能够使LLM参与自我游戏的能力。这消除了对专业注释者的需求，无论是人类还是更高级的模型(如GPT-4)。SPIN涉及训练一个新的语言模型，并通过一系列迭代来区分它自己生成的响应和人类生成的响应。最终目标是开发得到一种语言模型，使其产生的反应与人类产生的反应没有区别。

https://avoid.overfit.cn/post/58fb890f7ffd4714b433e87bf7d42def

标签：模型,微调,自我,LLM,人类,SPIN
From： https://www.cnblogs.com/deephub/p/17971884

开放 LLM 排行榜: 深入研究 DROP
最近，开放LLM排行榜迎来了3个新成员:Winogrande、GSM8k以及DROP，它们都使用了EleutherAIHarness的原始实现。一眼望去，我们就会发现DROP的分数有点古怪:绝大多数模型的F1分数都低于10分(满分100分)！我们对此进行了深入调查以一探究竟，请随我们一起踏上发现之旅吧！......
vllm 安装踩坑 (The NVIDIA driver on your system is too old)
我的环境如下：nvidia-smi显示cuda版本是11.7目前最新vllm要求的torch版本是2.1.2，该版本要求的cuda版本是11.8，所以不匹配。执行安装会遇到如下错误RuntimeError:TheNVIDIAdriveronyoursystemistooold(foundversion11070).PleaseupdateyourGPUdrive......
LlamaIndex中的CustomLLM（本地加载模型）
LlamaIndex中接口基本上调用的是OpenAI，如果想想调用自定义模型可以吗？答案当然是可以的。经过查找找到了自定义大语言模型的简单抽象基类classCustomLLM(LLM)。一.CustomLLM(LLM)源码只要子类必须实现__init__、_complete、_stream_complete和metadata方法即可......
LlamaIndex中的CustomLLM（在线加载模型）
一.使用Flask将模型封装为REST接口主要是将complete()和stream_complete()方法封装为REST接口，如下所示：from flask import Flask, request, jsonifyfrom transformers import AutoTokenizer, AutoModelForCausalLMapp = Flask(__name__)class QwenModel:......
LLM模型的generate和chat函数区别
在HuggingFace的transformers库中，GPT（GenerativePre-trainedTransformer）类的模型有两个常用的生成文本的方法：generate和chat。这两个方法在使用上有一些区别。通常公司发布的LLM模型会有一个基础版本，还会有一个Chat版本。比如，Qwen-7B（基础版本）和Qwen-7B-Chat（Chat......
XTuner大模型单卡低成本微调实战
Smiling&Weeping----有趣是片难寻的土，灵魂是朵难养的花一些关于的模型训练的小tips：1.ctrl+c中断 2.tmuxnew-s名称 3.ctrl+b+D退出（没断）基础作业：构建数据集，使用XTuner微调InternLM-Chat-7B......
LLM Series: LLAMA 2
......
LLM Series: BERT
......
Mixtral 8X7B MoE模型基于PAI的微调部署实践
作者：熊兮、求伯、一耘引言Mixtral8x7B是MixtralAI最新发布的大语言模型，在许多基准测试上表现优于GPT-3.5，是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI是面向开发者和企业的机器学习/深度学习平台，提供了对于Mixtral8x7B模型的全面支持，开发者和企业用户可以基......
大模型调优方法：提示工程、RAGs 与微调对比
每一个搭建大语言模型应用的AI工程师都会面临一个难题，如何选择一个合适调优方法。就算是强大的预训练LLM也可能无法直接满足项目中的特定需求。如项目需要一个特定结构的应用程序，如预训练缺失上下文的重要文件，再比如有特定术语和结构的高专业性的行业领域，面对这些问题，需要有特定的......

使用SPIN技术对LLM进行自我博弈微调训练

相关文章

赞助商

阅读排行